Avec Llama 4, Meta tient-il enfin son "ChatGPT-killer" ?

Llama 4 Maverick (402B) et Scout (109B) font une entrée fracassante sur le marché des LLM multimodaux. Ces deux modèles MoE entraînés sur jusqu'à 40 000 milliards de tokens et pré-entraînés sur 200 langues surpassent considérablement leurs prédécesseurs Llama 3.1. Un de leur atout est leur adéquation avec le hardware : Scout est capable de tourner sur un seul GPU H100, tandis que Mavericks exploite parfaitement le système DGX H100 de Nvidia. Meta dévoile aussi une version "preview" du troisième modèle de cette famille : Behemoth, doté de 288 milliards de paramètres et dont la version chat se mesure à Gemini 2.5 Pro.

Célia Séramour

Publié le 7 avril 2025 à 11h55

Meta va intégrer Llama 4 dans ses produits, notamment son assistant Meta AI.

Meta vient de partager les premiers modèles du "troupeau Llama 4" destinés au développement d'expériences multimodales plus personnalisées. Sa particularité : une architecture de type mixture-of-experts (MoE) et un entraînement natif pour le multimodal. Trois premiers modèles font donc leur apparition au sein de cette famille : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth.

Un modèle capables de tourner sur un seul GPU

Llama 4 Scout est décrit comme le modèle compact le plus performant, avec 17 milliards de paramètres activés (sur un total de 109B) parmi 16 experts (sous-modèles spécialisés). "Ultra rapide, multimodal dès sa conception, et très intelligent. Il prend en charge un contexte de plus de 10 millions de tokens — un record dans l’industrie — et peut tourner sur un seul GPU (sur un H100, ndlr) !", soutient Ahmad Al-Dahle, VP responsable de l'IA générative chez Meta.

Il offre de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large éventail de benchmarks avec un atout de taille : une fenêtre contextuelle de pas moins de 10 millions de tokens. "Cela ouvre un monde de possibilités, notamment la synthèse multi-documents, l'analyse approfondie de l'activité utilisateur pour des tâches personnalisées et le raisonnement sur de vastes bases de code", promet Meta.

Maverick fait des merveilles face à GPT-4o et DeepSeek V3

Avec 17 milliards de paramètres activés également (sur un total de 400B), Llama 4 Maverick est quant à lui capable de se mesurer à des modèles comme GPT-4o et Gemini 2.0 Flash sur de nombreux benchmarks de référence, ou encore DeepSeek v3 en raisonnement et en code - avec moins de la moitié des paramètres activés. Il s'appuie par ailleurs sur une fenêtre contextuelle d'un millions de tokens.

Il offre un bon rapport performance/coût, avec une version chat expérimentale atteignant un score ELO de 1417 sur LMArena (par comparaison, la version expérimentale Gemini 2.5 Pro obtient un score de 1439 et est considéré comme le meilleur en la matière. A noter que Llama 4 Maverick peut également fonctionner sur une seule machine, de préférence un système DGX H100, comme le précise Hugging Face. De son côté, Nvidia indique qu'un GPU Blackwell B200 peut fournir 42 000 tokens par seconde pour Llama 4 Scout et 32 000 tokens/seconde pour Maverick.

Llama 4 Behemoth, un LLM à 288 milliards de paramètres

Troisième et dernier modèle de cette série à date, Llama 4 Behemoth est considéré comme le modèle le plus puissant de Meta à ce jour, et pour cause : il comporte 288 milliards de paramètres actifs avec 16 experts (sur un total de 2000 milliards de paramètres) et surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks en sciences et ingénierie (STEM). Son entraînement est toujours en cours, la version disponible n'est qu'une version "preview" pour l'instant.

Afin de servir de base au développement des modèles Scout et Maverick, Meta a procédé à une phase de pré-entraînement plutôt intense de son modèle Behemoth avec FP8 et 32 000 GPU, "nous avons atteint 390 TFLOPs/GPU. Le mélange de données global pour l'entraînement comprenait plus de 30 000 milliards de tokens, soit plus du double du mélange de pré-entraînement de Llama 3, et comprenait divers ensembles de données textuelles, graphiques et vidéo", indique la firme.

Suffisamment léger pour tourner sur un Mac Studio ?

La communauté semble en tout cas plutôt bien accueillir ces nouveaux modèles, certains voyant déjà les qualités de Llama 4 sur du matériel spécifique. C'est le cas d'Alex Cheema, co-fondateur d'EXO Labs, qui estime que les Macs d'Apple (notamment le Mac Studio M3 Ultra) pourraient s'avérer être une option très économique pour faire tourner certains grands modèles comme Llama 4 Maverick, même si ce n’est pas encore idéal pour les modèles les plus gros comme Behemoth.

En effet, en activant seulement une petite partie de leurs composants à chaque fois qu’ils produisent du texte, cela permet de réduire les besoins en puissance brute, mais il faut quand même beaucoup de mémoire rapide disponible à tout moment. La mémoire unifiée des nouveaux Mac Studio serait selon lui une alternative moins coûteuse que les GPU Nvidia pour faire tourner ces modèles. D'autres exemples suivront très certainement dans les prochains jours au fur et à mesure que les développeurs testent Llama 4.

A noter néanmoins que l'implémentation des modèles chez les hébergeurs n'est pas encore finalisée et que les premier testeurs rapportent des performances en deça des attentes. Meta avait prévenu que ce serait le cas mais a préféré les sortir dès que possible malgré tout. Plus que jamais, l'entreprise veut "aller vite".

D'autres modèles à venir, dont Llama 4 Reasoning

Signalons par ailleurs que Meta prévoit de publier d'autres modèles dans la famille Llama 4, incluant "Llama 4 Reasoning". Après avoir récemment passé la barre du milliard de téléchargements de Llama, le géant des réseaux sociaux espère faire un nouveau coup d'éclat avec ses modèles directement intégrés dans ses produits, incluant Meta AI.