Début juillet, le laboratoire français de recherche en intelligence artificielle plantait le décor avec une démonstration de son assistant Moshi doté d'une fonction de synthèse vocale très réactive et capable de fidèlement reproduire des intonations humaines. Aujourd'hui, le labo donne quelques détails supplémentaires quant à la manière dont cet assistant a été développé. L'occasion de comparer également Helium, un modèle de langage multimodal qui comporte 7 milliards de paramètres et qui se trouve derrière Moshi des modèles équivalents.
Moshi est un modèle de fondation de type parole-texte équipé d'un framework de dialogue parlé en duplex intégral. Il utilise Mimi, un codec audio neuronal de streaming capable de traiter l'audio 24 kHz, jusqu'à une représentation 12,5 Hz avec une bande passante de 1,1 kbps, de manière entièrement en streaming (latence de 80 ms).
Deux flux audio gérés simultanément
Moshi modélise deux flux audio : l'un correspond à Moshi, et l'autre à l'utilisateur. Lors de l'inférence, le flux de l'utilisateur est prélevé sur l'entrée audio, et celui de Moshi est échantillonné sur la sortie du modèle. Moshi prédit alors des tokens de texte correspondant à sa propre parole, ce qui améliore grandement la qualité de sa génération.
Les chercheurs de Kyutai indiquent qu'un Depth Transformer modélise les dépendances inter-codebook pour un pas de temps donné, tandis qu'un grand Temporal Transformer de 7 milliards de paramètres modélise les dépendances temporelles. Moshi atteint une latence théorique de 160 ms (80 ms pour la taille d'image de Mimi + 80 ms de délai acoustique), avec une latence globale pratique aussi basse que 200 ms sur un GPU L4.
Helium, un modèle compact et performant
Après une phase de pré-entraînement sur l'audio à grande échelle, les chercheurs ont créé des conversations synthétiques avec leurs propres modèles : Helium écrit des scripts, que le TTS multi-flux convertit ensuite en conversations en duplex intégral. Au total, ce sont 20 000 heures de données qui ont été créées avec des conditions d'enregistrement et des accents variables pour l'utilisateur, tout en gardant la voix de Moshi constante. "Cela le rend robuste aux environnements bruyants, tout en garantissant que Moshi reste dans le personnage", assure Kyutai.
Des évaluations approfondies pour Helium, Mimi et Moshi ont été menées par le laboratoire afin de s'assurer de la qualité, de la modélisation du langage audio et des réponses aux questions orales. "Nous constatons que Moshi surpasse largement les modèles publiés précédemment, tout en ayant la capacité unique de modéliser des conversations en duplex intégral en streaming."
Helium obtient notamment un score supérieur à celui des modèles Falcon, Llama 2 et OLMo sur des tests de référence comme ceux liés au raisonnement (MMLU), au raisonnement scientifique (ARC). En revanche, ses résultats restent en-deçà de ceux des modèles de Mistral AI et de Google.
Trois modèles publiés sous licence très permissive
A date, le laboratoire a donc publié trois modèles différents : le codec vocal Mimi, une voix synthétique masculine baptisée Moshiko et une voix synthétique féminine appelée Moshika, toutes deux peaufinées à partir de la démo de Moshi. Ces deux voix ont été générées artificiellement.
Tous ces modèles ont été publiés sous la licence CC BY 4.0. Cette dernière permet à d'autres de distribuer, de remixer, de modifier et de développer ces modèles, même à des fins commerciales, à condition qu'ils en attribuent le mérite de la création originale à Kyutai. Il s'agit de la licence la plus souple proposée.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
