Microsoft va-t-il empiéter une nouvelle fois sur le terrain de Google ? Alors que ce dernier a annoncé hier la disponibilité de fonctionnalités clé dans NotebookLM, la firme de Satya Nadella annonce aujourd'hui avoir publié en open source VibeVoice-1.5B, un modèle de synthèse vocale (text-to-speech). Conçu pour générer des dialogues audio longs (jusqu'à 90 minutes) et expressifs avec plusieurs locuteurs (jusqu'à 4), il est basé sur une architecture combinant un LLM et des techniques de diffusion acoustique.
Fait intéressant, les équipes de Microsoft se sont basées sur Qwen2.5-1.5B (un LLM de 1,5 milliard de paramètres) développé par Alibaba Cloud pour comprendre le contexte textuel et la structure des dialogues. A cette base, ont été ajouté des tokeniseurs spécialisés - acoustique et sémantique - fonctionnant à un taux de trame ultra-bas de 7,5 Hz, ce qui améliore l'efficacité computationnelle tout en préservant la fidélité audio. Enfin, un module de diffusion (diffusion head) génère les détails acoustiques à partir des tokens, permettant une synthèse vocale.
Une maîtrise de l'anglais et du chinois pour l'instant
Capable de gérer les tours de parole de manière naturelle, VibeVoice supporte l'anglais et chinois, avec une capacité de narration cross-linguale : il peut par exemple, à partir d'un texte en anglais, parler en chinois. Il peut également contrôler les émotions et l'intonation, ce qui le rend idéal pour des applications comme les podcasts ou les dialogues conversationnels.
Microsoft assure avoir intégré la sécurité dans son modèle : un filigrane audio imperceptible permet de tracer la provenance des contenus générés, tandis qu'une journalisation hachée des requêtes d'inférence est mise en place pour détecter les abus. Par ailleurs, un avertissement audible est intégré dans les sorties pour indiquer qu'il s'agit d'une synthèse vocale.
L'open source, un atout dans la course aux modèles
Misant sur l'open source, Microsoft a publié son modèle sur Hugging Face et GitHub sous licence MIT, ce qui permet une utilisation libre pour la recherche et le développement. Notons toutefois quelques limites inhérentes au modèle : il ne génère que de la parole (pas de bruits de fond ou de sons environnementaux) et les locuteurs ne peuvent pas se chevaucher ; les tours de parole sont séquentiels.
Si ce n'est pas la première fois que Microsoft développe des modèles audio avancés, VibeVoice-1.5B représente toutefois une évolution significative dans l'approche de la synthèse vocale de l'entreprise, notamment grâce à ses innovations techniques - une architecture ouverte et des capacités à gérer plusieurs locuteurs - ainsi que son approche open source.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
