Mistral AI et Nvidia dévoilent leur premier modèle commun, Mistral NeMo 12B

Mistral AI et Nvidia viennent de lâcher une petite bombe répondant au nom de Mistral NeMo. Doté de 12 milliards de paramètres, ce modèle plutôt compact semble prometteur pour les applications d'entreprise, notamment les chatbots, les tâches multilingues, le développement informatique et les résumés de texte.

Mistral AI
Mistral AI

Réunir ses forces sous un même étendard est une stratégie comme une autre pour s'imposer sur un marché. C'est la voie que Mistral AI et Nvidia semblent emprunter après avoir publié un grand modèle de langage développé conjointement. Baptisé Mistral NeMo 12B, ce LLM "offre des performances élevées pour diverses applications", indiquent les deux entreprises dans un communiqué.

La mise en commun du travail de la start-up française en matière de données d'entraînement couplé à l'écosystème matériel et logiciel optimisé de Nvidia semble en tout cas prometteuse. "Nous avons la chance de collaborer avec l’équipe Nvidia et de tirer parti de leur matériel et de leurs logiciels de premier ordre", a déclaré Guillaume Lample, co-fondateur et chief scientist de Mistral AI. Les développeurs peuvent facilement personnaliser et déployer le modèle pour les applications d'entreprise, incluant les chatbots, les tâches multilingues, le développement informatique et les résumés de texte, apprend-on.

La palette d'outils Nvidia à disposition des équipes Mistral pour développer ce LLM

Dans le détail, Mistral NeMo a été entraîné sur la plateforme DGX Cloud AI du concepteur de puces, avant de passer par TensorRT-LLM, la bibliothèque open source destinée à accélérer le développement de LLM. La plateforme de développement NeMo a également été exploitée afin d'optimiser l'ensemble du processus de création du modèle d'IA générative.

Les équipes se sont notamment appuyées sur Megatron-LM qui fait partie de NeMo, avec 3 072 GPU H100 80GB Tensor Core sur DGX Cloud, composés de l'architecture d'IA de Nvidia, y compris le calcul accéléré, la structure réseau et le logiciel pour augmenter l'efficacité de l'entraînement.  

Des performances excellentes vantées par Nvidia

"Excellant dans les conversations à plusieurs tours, les mathématiques, le raisonnement de bon sens, la connaissance du monde et le développement logiciel, ce modèle d'IA de niveau entreprise offre des performances précises et fiables dans diverses tâches", souligne Nvidia. Le modèle à 12 milliards de paramètres dispose par ailleurs d'une fenêtre contextuelle de 128 000 tokens, ce qui est plutôt conséquent. Rappelons en effet que plus la fenêtre contextuelle est grande, plus elle permet de traiter de longs documents et de maintenir des conversations en plusieurs étapes.

Publié sous la licence Apache 2.0 comme nombre de modèles sur le marché, incluant le modèle ouvert Mixtral 8x22B de Mistral AI, le modèle Mistral NeMo utilise le format de données FP8 pour l'inférence, "ce qui réduit la taille de la mémoire et accélère le déploiement sans aucune dégradation de la précision", précise Nvidia. En clair : le LLM apprend mieux les tâches et gère divers scénarios plus efficacement, ce qui le rend idéal pour les cas d'utilisation en entreprise.

Un modèle disponible sous forme de microservice

Mistral NeMo est fourni sous la forme d'un microservice d'inférence NIM. Le géant des puces avait annoncé lors de la GTC 2024 le lancement de ces microservices conteneurisés qui regroupent un modèle d’IA, un runtime et un moteur d'inférence optimisé pour le modèle dans un seul package prêt à l’emploi (sous le capot, on trouve NeMo retriever, Triton Inference Server, et TensorRTTM-LLM).

Grâce à cette technique, le modèle Mistral NeMo peut être déployé n’importe où en quelques minutes, plutôt qu’en plusieurs jours. La firme américaine précise par ailleurs que le modèle disponible sous forme de NIM est conçu pour s'adapter à la mémoire d'un seul GPU L40S, GeForce RTX 4090 ou encore RTX 4500.

La start-up publie deux modèles de recherche

En parallèle de cette annonce, notons que la start-up française a publié deux modèles de recherche MathΣtral et Codestral Mamba, tous deux disponibles sous licence Apache 2.0. Le premier comporte 7 milliards de paramètres et est spécifiquement conçu pour le raisonnement mathématique et la découverte scientifique. Le modèle s'appuie sur une fenêtre contextuelle de 32k. Sur plusieurs tests effectués, le Mathstral 7B obtient des scores supérieurs à Llama 3 8B, DeepSeek Math 7B, QWen 2 7B ou encore Gemma 2 9B.

Quant à Codestral Mamba, il repose sur une architecture Mamba-2, en alternative à Transformer et est spécialisé dans la génération de code du haut de ses 7 milliards de paramètres. Il s'agit d'une version plus légère qui fait suite à Codestral 22B lancé en mai dernier. Preuve en est que les modèles dits compacts ou "open weight" ont toujours la cote.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.