Cohere dévoile Aya, un modèle open source gérant 101 langues

La start-up canadienne Cohere dévoile Aya, un grand modèle de langage couvrant 101 langues et développé grâce à la contribution de 3000 chercheurs à travers le monde. Complètement ouvert, il est présenté comme une réussite pour la communauté open source et un grand pas en avant pour l'IA générative multilingue.

Célia Séramour

Publié le 14 février 2024 à 13h50

Cohere Aya LLM — Aya est un modèle de langage génératif "massivement" multilingue qui gère 101 langues. Il surpasse mT0 et BLOOMZ dans une grande variété d'évaluations automatiques et humaines, bien qu'il gère deux fois plus de langues.

"Aujourd'hui, nous lançons Aya, un nouveau modèle et ensemble de données open source et multilingue pour aider à la prise en charge des langues sous-représentées". Le développement de ce grand modèle de langage (LLM) est le fruit d'une initiative dirigée par la start-up canadienne Cohere et impliquant plus de 3 000 chercheurs répartis dans 119 pays.

Son principal atout ? Avec 13 milliards de paramètres, Aya couvre 101 langues différentes, soit plus du double des modèles précédents. Il est disponible sur Hugging Face. "De nombreuses communautés ne sont pas représentées en raison des limitations linguistiques des modèles précédents", explique la start-up. Aya surpasse largement les modèles open source existants, à l'instar de Bloom qui peut générer du texte dans 46 langues et Jais, un autre modèle en cours de développement et destiné aux arabophones.

Pousser à davantage de diversité et de représentativité

Cohere affirme que le jeu de données publié en même temps qu'Aya constitue à ce jour l'ensemble le plus complet en la matière, avec 513 millions de points de données et de complétions couvrant 114 langues. Il contient en effet pas moins de 204 000 annotations organisées par des locuteurs parlant couramment 67 langues à travers un ensemble diversifié d'applications linguistiques. Ces annotations ont beaucoup de valeur car elles aident les modèles d'IA à apprendre efficacement en ajoutant du contexte aux données d'entraînement.

Aya étend par ailleurs sa couverture à plus de 50 langues auparavant non desservies, dont le somali, l'ouzbek, etc. La start-up met en avant l'importance de cette prise en charge multilingue ne se limitant pas aux pays occidentaux. "De nombreuses langues de cette collection n'avaient auparavant aucune représentation dans les ensembles de données de style instruction", déclare la société.

Des performances supérieures à celles d'autres modèles polyglottes

Aya fournit une base pour les langues peu ou pas représentées à date dans les tâches de compréhension, de résumé et de traduction en langage naturel. D'après Cohere, Aya génère des réponses de qualité nettement supérieure à celles de mT0x, un autre modèle open source. Sur la base des évaluations humaines d'annotateurs professionnels qui ont comparé les réponses du modèle aux instructions données dans plusieurs langues, Aya est préféré dans 77% des cas.

"Il surpasse largement les meilleurs modèles open source, tels que mT0 et Bloomz, lors des tests de référence. Aya a systématiquement obtenu un score de 75% dans les évaluations humaines par rapport à d'autres modèles open source de premier plan, et de 80 à 90% dans l'ensemble des taux de victoire simulés", affirme Cohere.

Cohere dévoile Aya, un modèle open source gérant 101 langues

Pousser à davantage de diversité et de représentativité

Des performances supérieures à celles d'autres modèles polyglottes

À lire aussi