GenAI : Meta met le paquet sur l'open source avec ses modèles Llama 3.1

Meta s'engage à rendre l'IA accessible à tous. C'est en tout cas ce que Mark Zuckerberg explique dans une lettre publiée sur le blog de la firme. Selon lui, l'open source semble être la voie royale pour y accéder et sa dernière itération de modèles Llama 3.1 est une première réponse à ce défi. Son modèle phare comporte pas moins de 405 milliards de paramètres, est doté d'une fenêtre contextuelle de 128 000 tokens et peut rivaliser avec nombre de LLM incluant GPT-4, GPT-4o, et Claude 3.5 Sonnet.

Célia Séramour

Publié le 24 juillet 2024 à 11h19

Meta s'affirme dans l'écosystème open source avec la publication de trois modèles Llama 3.1.

"Nous dévoilons Llama 3.1 405B, que nous considérons comme le modèle de fondation le plus grand et le plus performant au monde, disponible en libre accès". Meta semble déterminé à gagner la course aux LLM open source. La firme vient de dévoiler une nouvelle itération de sa famille de modèles Llama 3. Cette dernière comprend trois versions respectivement de 8, 70 et 405 milliards de paramètres. Sans surprise, Meta pousse sur le devant de la scène son modèle le plus important, Llama 3.1 405B.

La firme le décrit comme "le premier modèle disponible en libre accès qui rivalise avec les meilleurs modèles d’IA en termes de capacités de pointe dans les domaines de la connaissance générale, de l’orientation, des mathématiques, de l’utilisation d’outils et de la traduction multilingue". L’entraînement de Llama 3.1 405B sur plus de 15 mille milliards de tokens a, sans surprise, constitué un défi majeur. Pour y parvenir, les équipes de Meta ont optimisé la pile d’entraînement complète et poussé l’entraînement du modèle sur plus de 16 000 GPU H100, un exploit pour l'entraînement d'un tel modèle à cette échelle.

"Nous avons amélioré à la fois la quantité et la qualité des données utilisées"

Les chercheurs expliquent avoir fait des choix de conception qui visent à maintenir le processus de développement du modèle évolutif et simple. Ils ont donc opté pour une architecture de modèle de type Transformer "uniquement avec des adaptations mineures, plutôt que pour un modèle de mélange d’experts (MoE) afin de maximiser la stabilité de l’apprentissage". S'en est suivi une procédure itérative de post-entraînement, où chaque tour utilise un fine-tuning supervisé et une optimisation directe des préférences.

Ce type d'entraînement offre un moyen de créer des données synthétiques de meilleure qualité pour chaque cycle. "Par rapport aux versions précédentes de Llama, nous avons amélioré à la fois la quantité et la qualité des données que nous utilisons pour le pré- et le post-entraînement". Ces améliorations comprennent le développement de pipelines de pré-traitement et de curation plus minutieux pour les données de pré-entraînement, le développement d’une assurance qualité plus rigoureuse et des approches de filtrage pour les données de post-entraînement. Le modèle 405B a par ailleurs été utilisé pour améliorer la qualité post-entraînement des modèles plus petits de Meta.

Concernant la phase d’inférence pour un modèle à l’échelle du 405B, les équipes ont fait le choix de quantifier les modèles de 16 bits (BF16) à 8 bits (FP8) numériques, afin de réduire considérablement les exigences de calcul nécessaires et faire tourner le modèle dans un seul nœud de serveur.

Un modèle puissant qui nécessite des ressources de calcul et des compétences solides

Consciente que pour le développeur moyen, l’utilisation d’un modèle à l’échelle de Llama 3.1 405B représente un défi, Meta a mis en place des solutions avec plusieurs partenaires technologiques, notamment AWS, Nvidia et Databricks. "Dès le premier jour, les développeurs peuvent profiter de toutes les capacités avancées du modèle 405B et commencer à construire immédiatement", affirme la société. Meta a également fait appel à Groq qui optimise l’inférence à faible latence pour les déploiements dans le cloud, et à Dell qui réalise des optimisations similaires pour les systèmes sur site.

A terme, Meta cible des usages comme l'inférence en temps réel et par lots, le fine-tuning supervisé, l'évaluation du modèle pour une application spécifique, le pré-entraînement continu, la génération augmentée de récupération (RAG), ou encore la génération de données synthétiques.

Des versions à 8 et 70 milliards de paramètres rejoignent la liste de LLM

La famille Llama 3.1 abrite également des versions améliorées des modèles 8B et 70B existants. Ceux-ci sont multilingues et disposent d’une longueur de de contexte nettement plus importante – 128 000 tokens tout comme le modèle 405B – ainsi que de capacités de raisonnement globalement plus solides. Les modèles peuvent ainsi prendre en charge des cas d’utilisation avancés, tels que le résumé de textes longs, les agents conversationnels multilingues et les assistants de codage.

Meta affirme avoir évalué les performances de Llama 3.1 sur environ 150 ensembles de données de référence couvrant un large éventail de langues. En sus, des évaluations humaines approfondies ont été réalisées pour comparer Llama 3.1 à des modèles concurrents dans des scénarios réels. Le modèle 405B semble ainsi compétitif par rapport aux principaux modèles de fondation sur une série de tâches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet.

Les deux plus petits modèles sont compétitifs par rapport aux modèles dits fermés et open source qui ont un nombre similaire de paramètres. Cela inclut Gemma 2 9B IT et Mistral 7B Instruct pour la version à 8 milliards de paramètres et Mixtral 8x22B Instruct et GPT 3.5 Turbo pour la version à 70 milliards de paramètres.

La voie à des modèles plus petits et open source

Avec la sortie du modèle 405B et de manière plus générale avec cette dernière génération de Llama, Meta espère ouvrir la voie à "de nouvelles applications et à de nouveaux paradigmes de modélisation, y compris la génération de données synthétiques pour permettre l’amélioration et l’entraînement de modèles plus petits, ainsi que la distillation de modèles". Se réclamant membre à part entière de la communauté open source, Meta indique que les poids des modèles Llama peuvent être téléchargés.

"Les développeurs peuvent entièrement personnaliser les modèles en fonction de leurs besoins et de leurs applications, s’entraîner sur de nouveaux ensembles de données et procéder à des ajustements supplémentaires". Ils peuvent également les exécuter dans n’importe quel environnement, que ce soit sur site, dans le cloud ou même localement sur un ordinateur portable, le tout sans partager de données avec Meta. La firme indique que ses modèles sont disponibles en téléchargement sur https://llama.meta.com/ et Hugging Face, ainsi que pour le développement immédiat sur les plateformes partenaires.

Preuve ultime de sa bienveillance envers l'écosystème, la firme a tenu à rappeler par la voix de son maître, Mark Zuckerberg, que "l’open source permettra à un plus grand nombre de personnes dans le monde d’avoir accès aux avantages et aux possibilités de l’IA, de ne pas concentrer le pouvoir entre les mains d’un petit nombre et de déployer la technologie de manière plus homogène et plus sûre dans la société". Reste à savoir si "l'IA en accès libre" deviendra réellement une norme pour le secteur à l'avenir.

GenAI : Meta met le paquet sur l'open source avec ses modèles Llama 3.1

"Nous avons amélioré à la fois la quantité et la qualité des données utilisées"

Un modèle puissant qui nécessite des ressources de calcul et des compétences solides

Des versions à 8 et 70 milliards de paramètres rejoignent la liste de LLM

La voie à des modèles plus petits et open source

À lire aussi