D'ordinaire, la firme de Cupertino est plutôt discrète quant à ses recherches. Dérogeant à la règle, elle vient de publier un article scientifique "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training" portant sur le développement d'une famille de grands modèles de langage (LLM) multimodaux, baptisée "MM1". Le nom n'est d'ailleurs pas choisi au hasard. Il s'inscrit dans la tradition de simplicité d'Apple et fait écho au style de dénomination de sa puce M1.
La publication, longue d'une quarantaine de pages, donne ainsi de nombreux détails. Ces modèles sont conçus pour légender des images, répondre à des questions visuelles et faire de l'inférence en langage naturel. Allant jusqu'à 30 milliards de paramètres, cette famille de modèles comprend à la fois des modèles denses et des variantes de Mixture of experts (MoE) capables d'atteindre des performances compétitives après un réglage de fine-tuning sur une gamme de points de référence multimodaux établis, précisent les chercheurs.
Une capacité à s'entraîner sur différents supports
Les chercheurs précisent avoir utilisé trois types différents de données de pré-entraînement : des légendes d'images, des données image-texte et des données texte seules. "Nous constatons qu'en ce qui concerne les performances pour quelques images et le texte seul, les données d'entraînement et le texte seul sont d'une importance capitale", affirment les chercheurs dans l'article.
Des tendances qui se confirment après le réglage de fine-tuning supervisé (SFT), à la fois sur les évaluations utilisées dans le pré-entraînement et sur d'autres points de référence. Ainsi, après ces réglages, MM1-3B-Chat et MM1-7B-Chat (Chat étant un qualificatif pour les versions "fine-tuned") surpassent en moyenne tous les modèles répertoriés de même taille, indiquent les chercheurs. Ces deux versions affichent des performances particulièrement élevées sur VQAv2, TextVQA, ScienceQA, MMBench et d'autres repères plus récents (MMMU et MathVista).
MMI 30B prêt à rivaliser avec GPT-4V et Gemini Pro
Dans un second temps, les chercheurs de la firme de Cupertino ont exploré deux modèles (3B-MoE et 6B-MoE) utilisant un cadre MoE. "Nos modèles MoE obtiennent uniformément de meilleures performances que leur contrepartie dense pour la plupart des critères de référence".
Enfin, il semble que le modèle de taille 30B, MM1-30B-Chat surpasse Emu2-Chat37B et CogVLM-30B sur les benchmarks TextVQA, SEED et MMU et montre une forte capacité à apprendre à partir d'une poignée d'exemples et à raisonner sur plusieurs images. Le modèle est également capable de rivaliser avec des modèles multimodaux de pointe, tels que GPT-4V (un modèle de reconnaissance d'images basé sur GPT-4) annoncé en novembre et Gemini Pro dévoilé en décembre dernier.
Des données générées par GPT-4 utilisées pour améliorer le modèle
Les chercheurs admettent s'être appuyés sur GPT-4 pour encourager le modèle à fournir des réponses détaillées et à mener des conversations. "Nous utilisons les données existantes générées par GPT-4 et les données générées par GPT-4V pour l'entraînement du modèle".
De même, pour donner au modèle une meilleure capacité de compréhension multimodale, une variété d'ensembles de données multimodales orientées vers les tâches de raisonnement ont été utilisées. Ces ensembles de données se présentent soit sous la forme de légendes d'images, soit sous la forme de VQA (système visuel de questions-réponses) avec des réponses courtes.
Rattraper son retard en matière d'IA générative
Il est donc important de noter que cette famille de modèles marque une étape pour Apple en matière d'intelligence artificielle générative. Toutefois, il lui faudra beaucoup plus qu'un LLM et un milliard de dollars dépensés annuellement pour rattraper le peloton. La firme doit notamment faire face à Amazon, Google, Meta ou encore Microsoft qui ont su prendre les rênes de ce secteur en pleine croissance. Une piste a ainsi été évoquée pour donner un coup de pouce à la firme de Cupertino. Il s'agit d'un rapprochement stratégique avec Google afin d'intégrer ses modèles Gemini dans ses derniers iPhone, d'après les informations de Bloomberg.
Une autre piste pourrait s'avérer payante. Dans un tweet daté du 8 mars dernier, le CEO de Siri, Dag Kittlaus, a écrit que "Siri fera de nouvelles choses intéressantes en 2024. Puis il accélérera et deviendra une véritable force dans l'arène de l'IA. Apple occupe une position unique pour permettre de nouveaux cas d'utilisation utiles et inattendus du LLM".
Rappelons en effet que la firme a, au-delà de ses articles scientifiques publiés sur l'IA, acquis pas moins de 21 start-up liées à l'IA depuis 2017. Une première application concrète pourrait d'ailleurs voir le jour en juin prochain lors de la WWDC 2024, sa conférence annuelle.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
