Mistral AI dévoile Codestral, un LLM adapté aux tâches de génération de code

Relativement compact, le dernier modèle de langage publié par Mistral AI offre des performances intéressantes en matière de génération de code, notamment dans le langage Python.

Codestral - Mistral AI - LLM code
Codestral est disponible directement à partir de Le Chat, l'interface conversationnelle développée par Mistral AI.

La génération de code est l'un des cas d'utilisation des LLM les plus populaires et la start-up française le sait. Cette semaine, elle a dévoilé Codestral, qu'elle décrit comme son tout premier modèle de code. Ce modèle d'IA générative ouvert est explicitement conçu pour les tâches de génération de code et doit aider les développeurs à écrire et à interagir avec le code par le biais d'une instruction partagée et d'une API. Le modèle a été entraîné sur un ensemble de données diversifié de plus de 80 langages de programmation, précise Mistral AI, y compris les plus populaires, tels que Python, Java, C, C++, JavaScript et Bash et maîtrise l'anglais.

Il est également performant sur des langages plus spécifiques comme Swift et Fortran, afin de s'adapter à tous les cas d'usage et projets sur lesquels peuvent travailler les développeurs. Avec Codestral, la start-up promet un gain de temps et une réduction des erreurs et bogues dans les tâches quotidiennes comme compléter les fonctions de codage, écrire des tests, et compléter tout code partiel en utilisant un mécanisme de remplissage au milieu.

Des performances supérieures aux modèles de Meta

Doté de 22 milliards de paramètres et d'une fenêtre contextuelle de 32k, Codestral a été comparé à d'autres modèles existants spécifiques au code, à savoir CodeLlama 70B, DeepSeek Coder 33B et Llama 3 70B. Sa fenêtre contextuelle plus large par rapport aux autres modèles (comparé à 4k, 8k ou 16k pour les concurrents), se révèle être un atout de taille pour surpasser tous les autres modèles.

Plusieurs chercheurs ont d'ores et déjà commencé à utiliser Codestral et les retours semblent pour l'instant positifs. Mikhail Evtikhiev, chercheur chez JetBrains, affirme pour sa part que lors d'un test sur le benchmark Kotlin-HumanEval, Codestral a montré un score de 73,75%, surpassant le score de 72,05% de GPT-4-Turbo et le score de 54,66% de GPT-3.5-Turbo.

Des résultats pertinents sur Python

Sur les quatre tests réalisés pour voir ses capacités sur Python, Codestral obtient le meilleur score sur trois d'entre eux. Sur RepoBench, qui consiste en une évaluation à long terme pour la génération de code, le modèle de Mistral AI obtient le résultat de 34% contre 28,4% pour DeepSeek Coder. Les deux autres modèles – de Meta – ne passent pas la barre des 20%.

Pour évaluer les performances de Codestral en SQL, les équipes de Mistral AI ont utilisé le benchmark Spider. Sur ce point, c'est Llama 3 70B qui l'emporte à 67,1% contre 63,5% pour Codestral. Les performances du modèle ont également été évaluées dans plusieurs tests HumanEval dans six langages différents en plus de Python : C++, Bash, Java, PHP, Typescript et C#, où le calcul a été fait sur la moyenne de ces évaluations et Codestral l'emporte encore une fois.

Une disponibilité immédiate

Publié sous licence Mistral AI Non-Production License, le modèle peut être utilisé à des fins de recherche et de test. Il peut être téléchargé sur Hugging Face. En complément, Codestral est également disponible immédiatement sur l'API - api.mistral.ai - où les requêtes sont facturées par jeton. En parallèle, Mistral AI indique avoir dévoilé une version Instruct de Codestral accessible dès aujourd'hui via Le Chat, son interface conversationnelle gratuite.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.