Llama 3.2 : Meta pousse une mise à niveau majeure avec des versions multimodales et compactes

A peine quelques mois après la sortie de Llama 3.1, Meta dévoile une seconde version qui comprend des LLM multimodaux de petite et moyenne taille (11B et 90B) et des modèles plus compacts uniquement textuels (1B et 3B) qui s'adaptent aux appareils mobiles.

Famille LLM Llama 3.2 Meta
Llama 3.2 apporte deux modèles compacts ainsi que deux modèles multimodaux à la famille de LLM développés par Meta.

La conférence annuelle "Connect" de Meta est l'occasion pour la firme de dévoiler un certain nombre d'innovations – à l'instar d'Orion, ses lunettes de réalité augmentée ultra innovantes – et de faire un point d'étape sur ses avancées en matière d'IA générative.

Fin août, la maison mère de Facebook et Instagram indiquait alors que ses modèles Llama approchaient les 350 millions de téléchargements. Ainsi, après avoir dévoilé sa famille de modèles Llama 3.1 en juillet, les équipes de Meta dévoilent aujourd'hui une version 3.2 comportant quatre modèles open source.

Deux modèles multimodaux performants, mais indisponibles en Europe

Cette mise à jour représente un bond en avant pour la firme puisque deux des modèles introduits sont multimodaux. Respectivement de 11 et 90 milliards de paramètres, ces modèles "sont des remplacements directs de leurs équivalents de modèles de texte correspondants, tout en dépassant les tâches de compréhension d'images par rapport aux modèles fermés, tels que Claude 3 Haiku", explique la firme.

Dans la plupart des pays, les modèles multimodaux de Llama peuvent être téléchargés et utilisés sur des plateformes cloud telles qu'AWS, Google Cloud, Hugging Face ou encore Microsoft Azure. Cependant, en Europe, les versions à 11B et 90B ne sont pas accessibles en raison des réglementations actuelles. Par ailleurs, plusieurs fonctionnalités de Meta AI – son assistant basé sur Llama 3 – comme l'analyse d'images sont désactivées pour les utilisateurs européens. Avec cette mise à jour, les utilisateurs peuvent désormais parler à l'assistant sur l'ensemble des plateformes du groupe (Messenger, Facebook, WhatsApp et Instagram).

Pour rendre compte de ses performances, Meta a choisi de les comparer aux principaux modèles de fondation, Claude 3 Haiku et GPT-4o mini, à la fois pour la reconnaissance d'images et sur une gamme de tâches de compréhension visuelle. Les modèles 11B et 90B surpassent alternativement les deux autres avec des scores légèrement supérieurs.

La prise en compte de différentes sources, des diagrammes aux cartes

Ces modèles pré-entraînés sont disponibles pour être fine-tuned pour des applications personnalisées, ajoute-t-elle, et peuvent être aussi bien déployés localement ou testés via l'assistant de Meta AI. Ils prennent en charge les cas d'utilisation du raisonnement d'image, tels que la compréhension de documents, y compris les diagrammes et les graphiques, le sous-titrage d'images ou encore le repérage directionnel d'objets dans des images en fonction de descriptions en langage naturel.

Meta donne notamment l'exemple d'une personne qui peut poser une question sur le mois de l'année précédente où sa petite entreprise a enregistré les meilleures ventes, et Llama 3.2 peut alors raisonner en fonction d'un graphique disponible et fournir rapidement la réponse. Autre exemple : le modèle peut raisonner avec une carte et répondre à des questions telles que le moment où une randonnée peut devenir plus raide ou la distance d'un sentier particulier marqué sur la carte.

Des modèles compacts exécutables sur mobile

En parallèle de ses avancées en matière de raisonnement multimodal, Meta dévoile également deux modèles plus petits de 1 et 3 milliards de paramètres, jugés plus efficaces, notamment en termes de génération de texte multilingue et d'appel d'outils. Ces modèles sont par ailleurs compatibles avec le matériel Qualcomm et MediaTek et optimisés pour les processeurs ARM, précise Meta. Avec ces modèles les développeurs peuvent créer des applications personnalisées sur l'appareil. Par exemple, telle application pourrait aider à résumer les 10 derniers messages reçus, à extraire des éléments d'action et envoyer directement des invitations de calendrier pour des réunions de suivi.

A la clé : deux avantages majeurs. Tout d'abord, les invites textuelles et les réponses sont quasi instantanées, puisque le traitement est effectué localement. Ensuite, l'exécution locale des modèles préserve la confidentialité en n'envoyant aucune donnée comme des messages et des informations de calendrier au cloud, ce qui rend l'application plus privée dans son ensemble. Comme le traitement est géré localement, l'application peut clairement contrôler les requêtes qui restent sur l'appareil et celles qui doivent être traitées par un modèle plus grand dans le cloud.

Les tests de performances réalisés montrent que le modèle 3B surpasse les modèles Gemma 2 2.6B et Phi 3.5-mini sur des tâches telles que le suivi d'instructions, le résumé, la réécriture d'invites et l'utilisation d'outils, tandis que le 1B se rapproche des performances de Gemma.

Un point sécurité

Au-delà des quatre modèles lancés cette semaine, Meta met également l'accent sur la sécurité et présente Llama Guard 3 11B Vision, conçu pour prendre en charge la fonction de compréhension d’image de Llama 3.2 et filtrer les invites de saisie de texte et d'image ou les réponses de sortie de texte à ces commandes. L'outil est également optimisé afin de s'adapter à des environnements plus restreints comme sur mobile – où peuvent être déployés les modèles 1B et 3B. Sa taille a été largement compressée, passant de 2 858 Mo à 438 Mo, ce qui le rend d'autant plus efficace.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.