Avec CodeLlama-70B, Meta obtient des performances équivalentes à GPT-4

Meta vient de publier CodeLlama-70B, nouvelle version gonflée aux stéroïdes de son grand modèle de langage dédié au développement logiciel. A la clé, des performances égales – voire légèrement supérieures – à celles de GPT-4.

Célia Séramour

Publié le 30 janvier 2024 à 12h12

Meta a dévoilé le 29 janvier une nouvelle version de Code Llama, son grand modèle de langage spécialisé dans la génération de code informatique. Disponible sous la même licence ouverte que les modèles précédents (dont la première version était sortie en août), il est considéré comme "le plus grand et le plus performant des modèles de la famille Code Llama".

Il est disponible en trois versions, toutes gratuites pour la recherche et l'utilisation commerciale : CodeLlama-70B, le modèle de base ; CodeLlama-70B-Python, spécialisé pour ce langage de programmation ; CodeLlama-70B-Instruct, qui est affiné pour comprendre les instructions en langage naturel. Ils sont tous construits à partir de Llama 2.

Une famille de modèles complète

Code Llama compte désormais quatre tailles de modèles avec respectivement 7, 13, 34 et 70 milliards de paramètres. Les trois premiers modèles ont été entraînés avec 500 milliards de tokens de code et de données liées au code, tandis que le plus grand et plus récent, 70B, est basé sur 1000 milliards de tokens. Il est hébergé chez Hugging Face.

Si CodeLlama-70B donne les meilleurs résultats et permet une meilleure assistance au développement, les précédentes versions ne sont pas obsolètes pour autant. Les modèles 7B et 13B, plus petits, sont plus rapides et mieux adaptés aux tâches nécessitant une faible latence. Le modèle 7B peut aussi être utilisé sur un seul GPU.

Des performances impressionnantes

L'équipe de chercheurs de Meta indique avoir utilisé HumanEval et Mostly Basic Python Programming (MBPP) pour tester les performances de Code Llama par rapport aux solutions concurrentes. HumanEval teste la capacité du modèle à compléter le code sur la base de docstrings (chaînes de docs) tandis que MBPP teste la capacité du modèle à écrire du code sur la base d'une description.

Les tests ont montré que la famille Code Llama est plus performante que les autres LLM open source dédiés au développement et qu'elle surpasse un Llama 2 non modifié. CodeLlama-34B, par exemple, a obtenu 53,7 % sur HumanEval et 56,2 % sur MBPP, soit un résultat à égalité avec ChatGPT. La version CodeLlama-70B-Instruct atteint quant à elle 67,8 % sur HumanEval, contre 48,1 % pour GPT-3.5 et 67% pour GPT-4. Meta assure que cela en fait "l'un des modèles open source les plus performants disponibles aujourd'hui".

Des réponses plus sûres que celles de ChatGPT

La firme a également procédé à des tests sur la sécurité du modèle. "Nous avons procédé à une évaluation quantitative du risque que Code Llama génère du code malveillant. Nous avons créé des prompts qui tentaient ouvertement de solliciter du code malveillant et nous avons évalué les réponses de Code Llama par rapport à celles de ChatGPT (GPT-3.5 Turbo)". Et de conclure : "Nos résultats ont montré que Code Llama répondait de manière plus sûre".