"Aujourd'hui, nous lançons Aya, un nouveau modèle et ensemble de données open source et multilingue pour aider à la prise en charge des langues sous-représentées". Le développement de ce grand modèle de langage (LLM) est le fruit d'une initiative dirigée par la start-up canadienne Cohere et impliquant plus de 3 000 chercheurs répartis dans 119 pays.
Son principal atout ? Avec 13 milliards de paramètres, Aya couvre 101 langues différentes, soit plus du double des modèles précédents. Il est disponible sur Hugging Face. "De nombreuses communautés ne sont pas représentées en raison des limitations linguistiques des modèles précédents", explique la start-up. Aya surpasse largement les modèles open source existants, à l'instar de Bloom qui peut générer du texte dans 46 langues et Jais, un autre modèle en cours de développement et destiné aux arabophones.
Pousser à davantage de diversité et de représentativité
Cohere affirme que le jeu de données publié en même temps qu'Aya constitue à ce jour l'ensemble le plus complet en la matière, avec 513 millions de points de données et de complétions couvrant 114 langues. Il contient en effet pas moins de 204 000 annotations organisées par des locuteurs parlant couramment 67 langues à travers un ensemble diversifié d'applications linguistiques. Ces annotations ont beaucoup de valeur car elles aident les modèles d'IA à apprendre efficacement en ajoutant du contexte aux données d'entraînement.
Aya étend par ailleurs sa couverture à plus de 50 langues auparavant non desservies, dont le somali, l'ouzbek, etc. La start-up met en avant l'importance de cette prise en charge multilingue ne se limitant pas aux pays occidentaux. "De nombreuses langues de cette collection n'avaient auparavant aucune représentation dans les ensembles de données de style instruction", déclare la société.
Des performances supérieures à celles d'autres modèles polyglottes
Aya fournit une base pour les langues peu ou pas représentées à date dans les tâches de compréhension, de résumé et de traduction en langage naturel. D'après Cohere, Aya génère des réponses de qualité nettement supérieure à celles de mT0x, un autre modèle open source. Sur la base des évaluations humaines d'annotateurs professionnels qui ont comparé les réponses du modèle aux instructions données dans plusieurs langues, Aya est préféré dans 77% des cas.
"Il surpasse largement les meilleurs modèles open source, tels que mT0 et Bloomz, lors des tests de référence. Aya a systématiquement obtenu un score de 75% dans les évaluations humaines par rapport à d'autres modèles open source de premier plan, et de 80 à 90% dans l'ensemble des taux de victoire simulés", affirme Cohere.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
