Avec Pixtral 12B, Mistral s'aventure dans l'écosystème des modèles multimodaux

Il ne propose pas de générer des images mais de les analyser. Multimodal, entraîné avec des données d'images et de texte entrelacées, le dernier modèle Pixtral 12B dévoilé par la start-up Mistral AI a de quoi impressionner. Il surpasse des modèles multimodaux équivalents, incluant ceux de Google, Microsoft ou encore de la start-up Anthropic.

Célia Séramour

Publié le 19 septembre 2024 à 11h47

architecture modele multimodal Pixtral - Mistral AI — Pixtral utilise un encodeur de vision développé from scratch qui prend en charge nativement les tailles d'image variables.

Le fleuron français de l'intelligence artificielle ne se repose pas sur ses lauriers. Après s'être rapproché de Nvidia en juillet dernier pour donner naissance à un LLM relativement compact baptisé Mistral NeMo, la start-up Mistral AI a décidé de s'attaquer aux modèles multimodaux. Et le résultat semble à la hauteur à première vue.

Baptisé Pixtral et doté de 12 milliards de paramètres également, ce modèle est entraîné à comprendre à la fois des images et des documents. Le modèle montre de fortes capacités dans des tâches telles que la compréhension de graphiques, la réponse à des questions sur des documents, le raisonnement multimodal et le suivi d'instructions.

Des performances au rendez-vous

Il obtient notamment un score de 52,5% sur le benchmark de raisonnement MMMU, surpassant ainsi un certain nombre de modèles plus importants tels que Gemini Flash-8B et Claude-3 Haiku.

Pixtral a même surpassé ou égalé les performances de modèles comme Qwen2-VL 7B, LLaVa-OneVision 7B et Phi-3.5 Vision dans le suivi d'instructions, avec une amélioration relative de 20% dans l'IF-Eval et le MT-Bench par rapport au modèle le plus proche.

Un modèle capable de gérer des tailles d'image variables

La start-up indique que Pixtral a été entraîné pour remplacer Mistral Nemo 12B. Il bénéficie d'une architecture bien particulière composée de deux éléments : un encodeur de vision de 400 millions de paramètres entraîné "from scratch", associé à un décodeur multimodal 12B basé sur le LLM NeMo qui prédit le prochain jeton de texte à partir d'une séquence de texte et d'images.

Architecture modèle Pixtral 12B - Mistral AI

Cette architecture permet à Pixtral de traiter n'importe quel nombre d'images de taille arbitraire dans sa grande fenêtre contextuelle de 128K tokens. Le modèle est ainsi capable d'ingérer des images à leur résolution naturelle et à leur rapport d'aspect, en les convertissant en jetons d'image pour chaque patch 16x16 de l'image.

Pas de compromis sur les performances

De cette manière, Pixtral peut être utilisé pour comprendre avec précision des diagrammes, des graphiques et des documents complexes en haute résolution, tout en fournissant des vitesses d'inférence rapides sur de petites images telles que des icônes, des images clipart et d'autres éléments.

In fine, cela donne à l'utilisateur une certaine flexibilité quant au nombre de jetons utilisés pour traiter une image. "Contrairement aux modèles open source précédents, Pixtral ne fait pas de compromis sur les performances de référence du texte pour exceller dans les tâches multimodales", assure Mistral AI.

Un modèle disponible sur Le Chat ou sur La Plateforme

Pixtral est d'ores et déjà disponible sur l'interface de conversation Le Chat et sur la console de Mistral AI. Il suffit de choisir Pixtral dans la liste des modèles, télécharger une image et commencer à poser des questions sur l'image. Le modèle peut, via une API, être intégré dans diverses applications et flux de travail, promet par ailleurs la start-up.

En parallèle de cette annonce, la start-up française a également annoncé de nouveaux tarifs pour l'utilisation de ses différents modèles, ainsi qu'une ultime version de son modèle Mistral Small. Disponible sous la licence Mistral Research, ce modèle offre aux clients la flexibilité d'opter pour une version économique, rapide et fiable pour des cas d'utilisation tels que la traduction, la synthèse, l'analyse des sentiments et d'autres tâches qui ne nécessitent pas de modèles à usage général complets.

Avec 22 milliards de paramètres, Mistral Small v24.09 se situe entre Mistral NeMo 12B et Mistral Large 2, offrant une solution rentable qui peut être déployée sur différentes plateformes et environnements.