Avec sa famille de LLM baptisée MM1, Apple progresse dans l'IA générative

La firme de Cupertino fait face à des enjeux de taille en matière d'intelligence artificielle générative. Déterminé à rattraper son retard, le fabricant d'iPhone a levé le voile sur son dernier article de recherche portant sur le développement de grands modèles de langage appelés MM1. Plus qu'un aperçu, ce document s'attèle à montrer comment d'autres techniques d'entraînement mêlant plusieurs types de données peuvent conduire à des performances de pointe.

Célia Séramour

Publié le 18 mars 2024 à 15h48

Une trentaine de chercheurs d'Apple se sont attelés au développement de nouvelles méthodes pour entraîner de grands modèles de langage sur du texte et des images.

D'ordinaire, la firme de Cupertino est plutôt discrète quant à ses recherches. Dérogeant à la règle, elle vient de publier un article scientifique "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training" portant sur le développement d'une famille de grands modèles de langage (LLM) multimodaux, baptisée "MM1". Le nom n'est d'ailleurs pas choisi au hasard. Il s'inscrit dans la tradition de simplicité d'Apple et fait écho au style de dénomination de sa puce M1.

La publication, longue d'une quarantaine de pages, donne ainsi de nombreux détails. Ces modèles sont conçus pour légender des images, répondre à des questions visuelles et faire de l'inférence en langage naturel. Allant jusqu'à 30 milliards de paramètres, cette famille de modèles comprend à la fois des modèles denses et des variantes de Mixture of experts (MoE) capables d'atteindre des performances compétitives après un réglage de fine-tuning sur une gamme de points de référence multimodaux établis, précisent les chercheurs.

Une capacité à s'entraîner sur différents supports

Les chercheurs précisent avoir utilisé trois types différents de données de pré-entraînement : des légendes d'images, des données image-texte et des données texte seules. "Nous constatons qu'en ce qui concerne les performances pour quelques images et le texte seul, les données d'entraînement et le texte seul sont d'une importance capitale", affirment les chercheurs dans l'article.

Des tendances qui se confirment après le réglage de fine-tuning supervisé (SFT), à la fois sur les évaluations utilisées dans le pré-entraînement et sur d'autres points de référence. Ainsi, après ces réglages, MM1-3B-Chat et MM1-7B-Chat (Chat étant un qualificatif pour les versions "fine-tuned") surpassent en moyenne tous les modèles répertoriés de même taille, indiquent les chercheurs. Ces deux versions affichent des performances particulièrement élevées sur VQAv2, TextVQA, ScienceQA, MMBench et d'autres repères plus récents (MMMU et MathVista).

MMI 30B prêt à rivaliser avec GPT-4V et Gemini Pro

Dans un second temps, les chercheurs de la firme de Cupertino ont exploré deux modèles (3B-MoE et 6B-MoE) utilisant un cadre MoE. "Nos modèles MoE obtiennent uniformément de meilleures performances que leur contrepartie dense pour la plupart des critères de référence".

Enfin, il semble que le modèle de taille 30B, MM1-30B-Chat surpasse Emu2-Chat37B et CogVLM-30B sur les benchmarks TextVQA, SEED et MMU et montre une forte capacité à apprendre à partir d'une poignée d'exemples et à raisonner sur plusieurs images. Le modèle est également capable de rivaliser avec des modèles multimodaux de pointe, tels que GPT-4V (un modèle de reconnaissance d'images basé sur GPT-4) annoncé en novembre et Gemini Pro dévoilé en décembre dernier.

Des données générées par GPT-4 utilisées pour améliorer le modèle

Les chercheurs admettent s'être appuyés sur GPT-4 pour encourager le modèle à fournir des réponses détaillées et à mener des conversations. "Nous utilisons les données existantes générées par GPT-4 et les données générées par GPT-4V pour l'entraînement du modèle".

De même, pour donner au modèle une meilleure capacité de compréhension multimodale, une variété d'ensembles de données multimodales orientées vers les tâches de raisonnement ont été utilisées. Ces ensembles de données se présentent soit sous la forme de légendes d'images, soit sous la forme de VQA (système visuel de questions-réponses) avec des réponses courtes.

Rattraper son retard en matière d'IA générative

Il est donc important de noter que cette famille de modèles marque une étape pour Apple en matière d'intelligence artificielle générative. Toutefois, il lui faudra beaucoup plus qu'un LLM et un milliard de dollars dépensés annuellement pour rattraper le peloton. La firme doit notamment faire face à Amazon, Google, Meta ou encore Microsoft qui ont su prendre les rênes de ce secteur en pleine croissance. Une piste a ainsi été évoquée pour donner un coup de pouce à la firme de Cupertino. Il s'agit d'un rapprochement stratégique avec Google afin d'intégrer ses modèles Gemini dans ses derniers iPhone, d'après les informations de Bloomberg.

Une autre piste pourrait s'avérer payante. Dans un tweet daté du 8 mars dernier, le CEO de Siri, Dag Kittlaus, a écrit que "Siri fera de nouvelles choses intéressantes en 2024. Puis il accélérera et deviendra une véritable force dans l'arène de l'IA. Apple occupe une position unique pour permettre de nouveaux cas d'utilisation utiles et inattendus du LLM".

Rappelons en effet que la firme a, au-delà de ses articles scientifiques publiés sur l'IA, acquis pas moins de 21 start-up liées à l'IA depuis 2017. Une première application concrète pourrait d'ailleurs voir le jour en juin prochain lors de la WWDC 2024, sa conférence annuelle.

Avec sa famille de LLM baptisée MM1, Apple progresse dans l'IA générative

Une capacité à s'entraîner sur différents supports

MMI 30B prêt à rivaliser avec GPT-4V et Gemini Pro

Des données générées par GPT-4 utilisées pour améliorer le modèle

Rattraper son retard en matière d'IA générative

À lire aussi