Le fleuron français de l'intelligence artificielle ne se repose pas sur ses lauriers. Après s'être rapproché de Nvidia en juillet dernier pour donner naissance à un LLM relativement compact baptisé Mistral NeMo, la start-up Mistral AI a décidé de s'attaquer aux modèles multimodaux. Et le résultat semble à la hauteur à première vue.
Baptisé Pixtral et doté de 12 milliards de paramètres également, ce modèle est entraîné à comprendre à la fois des images et des documents. Le modèle montre de fortes capacités dans des tâches telles que la compréhension de graphiques, la réponse à des questions sur des documents, le raisonnement multimodal et le suivi d'instructions.
Des performances au rendez-vous
Il obtient notamment un score de 52,5% sur le benchmark de raisonnement MMMU, surpassant ainsi un certain nombre de modèles plus importants tels que Gemini Flash-8B et Claude-3 Haiku.
Pixtral a même surpassé ou égalé les performances de modèles comme Qwen2-VL 7B, LLaVa-OneVision 7B et Phi-3.5 Vision dans le suivi d'instructions, avec une amélioration relative de 20% dans l'IF-Eval et le MT-Bench par rapport au modèle le plus proche.
Un modèle capable de gérer des tailles d'image variables
La start-up indique que Pixtral a été entraîné pour remplacer Mistral Nemo 12B. Il bénéficie d'une architecture bien particulière composée de deux éléments : un encodeur de vision de 400 millions de paramètres entraîné "from scratch", associé à un décodeur multimodal 12B basé sur le LLM NeMo qui prédit le prochain jeton de texte à partir d'une séquence de texte et d'images.

Cette architecture permet à Pixtral de traiter n'importe quel nombre d'images de taille arbitraire dans sa grande fenêtre contextuelle de 128K tokens. Le modèle est ainsi capable d'ingérer des images à leur résolution naturelle et à leur rapport d'aspect, en les convertissant en jetons d'image pour chaque patch 16x16 de l'image.
Pas de compromis sur les performances
De cette manière, Pixtral peut être utilisé pour comprendre avec précision des diagrammes, des graphiques et des documents complexes en haute résolution, tout en fournissant des vitesses d'inférence rapides sur de petites images telles que des icônes, des images clipart et d'autres éléments.
In fine, cela donne à l'utilisateur une certaine flexibilité quant au nombre de jetons utilisés pour traiter une image. "Contrairement aux modèles open source précédents, Pixtral ne fait pas de compromis sur les performances de référence du texte pour exceller dans les tâches multimodales", assure Mistral AI.
Un modèle disponible sur Le Chat ou sur La Plateforme
Pixtral est d'ores et déjà disponible sur l'interface de conversation Le Chat et sur la console de Mistral AI. Il suffit de choisir Pixtral dans la liste des modèles, télécharger une image et commencer à poser des questions sur l'image. Le modèle peut, via une API, être intégré dans diverses applications et flux de travail, promet par ailleurs la start-up.
En parallèle de cette annonce, la start-up française a également annoncé de nouveaux tarifs pour l'utilisation de ses différents modèles, ainsi qu'une ultime version de son modèle Mistral Small. Disponible sous la licence Mistral Research, ce modèle offre aux clients la flexibilité d'opter pour une version économique, rapide et fiable pour des cas d'utilisation tels que la traduction, la synthèse, l'analyse des sentiments et d'autres tâches qui ne nécessitent pas de modèles à usage général complets.
Avec 22 milliards de paramètres, Mistral Small v24.09 se situe entre Mistral NeMo 12B et Mistral Large 2, offrant une solution rentable qui peut être déployée sur différentes plateformes et environnements.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
