Microsoft publie VibeVoice, un modèle ouvert générant des conversations audio à la NotebookLM

VibeVoice-1.5B est un modèle open-source de synthèse vocale développé par Microsoft, capable de générer jusqu'à 90 minutes d'audio expressif avec 4 locuteurs distincts, grâce à une architecture combinant un LLM (Qwen2.5-1.5B) et des tokeniseurs acoustiques/sémantiques innovants, idéal pour les podcasts et les dialogues longs, et disponible sous licence MIT sur Hugging Face.

Vibevoice - Microsoft
Vibevoice - Microsoft

Microsoft va-t-il empiéter une nouvelle fois sur le terrain de Google ? Alors que ce dernier a annoncé hier la disponibilité de fonctionnalités clé dans NotebookLM, la firme de Satya Nadella annonce aujourd'hui avoir publié en open source VibeVoice-1.5B, un modèle de synthèse vocale (text-to-speech). Conçu pour générer des dialogues audio longs (jusqu'à 90 minutes) et expressifs avec plusieurs locuteurs (jusqu'à 4), il est basé sur une architecture combinant un LLM et des techniques de diffusion acoustique.

Fait intéressant, les équipes de Microsoft se sont basées sur Qwen2.5-1.5B (un LLM de 1,5 milliard de paramètres) développé par Alibaba Cloud pour comprendre le contexte textuel et la structure des dialogues. A cette base, ont été ajouté des tokeniseurs spécialisés - acoustique et sémantique - fonctionnant à un taux de trame ultra-bas de 7,5 Hz, ce qui améliore l'efficacité computationnelle tout en préservant la fidélité audio. Enfin, un module de diffusion (diffusion head) génère les détails acoustiques à partir des tokens, permettant une synthèse vocale.

Une maîtrise de l'anglais et du chinois pour l'instant

Capable de gérer les tours de parole de manière naturelle, VibeVoice supporte l'anglais et chinois, avec une capacité de narration cross-linguale : il peut par exemple, à partir d'un texte en anglais, parler en chinois. Il peut également contrôler les émotions et l'intonation, ce qui le rend idéal pour des applications comme les podcasts ou les dialogues conversationnels.

Microsoft assure avoir intégré la sécurité dans son modèle : un filigrane audio imperceptible permet de tracer la provenance des contenus générés, tandis qu'une journalisation hachée des requêtes d'inférence est mise en place pour détecter les abus. Par ailleurs, un avertissement audible est intégré dans les sorties pour indiquer qu'il s'agit d'une synthèse vocale.

L'open source, un atout dans la course aux modèles

Misant sur l'open source, Microsoft a publié son modèle sur Hugging Face et GitHub sous licence MIT, ce qui permet une utilisation libre pour la recherche et le développement. Notons toutefois quelques limites inhérentes au modèle : il ne génère que de la parole (pas de bruits de fond ou de sons environnementaux) et les locuteurs ne peuvent pas se chevaucher ; les tours de parole sont séquentiels.

Si ce n'est pas la première fois que Microsoft développe des modèles audio avancés, VibeVoice-1.5B représente toutefois une évolution significative dans l'approche de la synthèse vocale de l'entreprise, notamment grâce à ses innovations techniques - une architecture ouverte et des capacités à gérer plusieurs locuteurs - ainsi que son approche open source.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.