Vidéo

ElevenLabs lance des agents IA vocaux multilingues et multivoix

Détection automatique de la langue, capacité à interrompre et à rebondir dans une conversation, accès en temps réel à des bases de données... ElevenLabs passe un cap avec la dernière version de sa plateforme d'IA vocale. Le marché de l'entreprise lui tend les bras.

Equipes ElevenLabs
Equipes ElevenLabs

"Un bond en avant pour l'IA vocale". Si certains voient dans la dernière annonce d'ElevenLabs un véritable changement de paradigme, notre point de vue se veut plus modeste. Il y a quelques jours, la start-up newyorkaise a annoncé avoir procédé à une mise à niveau de sa plateforme. Appelée Conversational AI 2.0, il s'agit d'une évolution vers le domaine de l'agentique, avec la possibilité pour les utilisateurs de créer des agents vocaux à la fois plus sophistiqués, plus capables et plus fiables.

Cette version s’appuie sur la première itération sortie quatre mois plus tôt pour ajouter des fonctionnalités essentielles à un usage professionnel, en particulier pour les déploiements en entreprise.

Des interactions toujours plus fluides et avec un minimum de latence

L'interaction est plus naturelle grâce à la mise en place d'un modèle de prise de tour de parole capable d'analyser les conversations en temps réel pour savoir quand interrompre ou au contraire attendre. Les agents ont par ailleurs accès à des bases de données externes et sont capables de détecter automatiquement la langue parlée par l’utilisateur, sans configuration manuelle. L’agent peut ainsi basculer sans interruption entre plusieurs langues au cours d’une même session.

Autre changement : contrairement à la v1 où chaque agent ne pouvait incarner qu’une seule voix, la v2 autorise le passage entre plusieurs personnages/voix au sein d’un même agent, offrant ainsi plus de flexibilité (par exemple, un agent support qui change de ton selon le contexte ou le rôle qu’il joue).

ElevenLabs accélère également sur l'aspect multimodal : il n’est plus nécessaire de définir séparément un agent texte et un agent voix. Un même agent peut désormais communiquer à la fois par écrit et à l’oral, ce qui réduit considérablement la charge de développement. Avec cette version 2.0, la start-up espère voir sa part d'utilisateurs croître et les cas d'usage se multiplier, notamment pour concevoir des agents vocaux adaptés au service client, mais aussi aux supports interactifs, tutoriels vocaux, expériences immersives, etc.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.