OpenAI lance le modèle unifié GPT-realtime pour créer des agents vocaux plus performants

La tendance est aux agents vocaux : OpenAI vient de procéder à une mise à jour majeure de son API Realtime, accompagnée de la sortie d'un modèle speech-to-speech avancé parfait pour des applications dans le support client ou l'assistance.

Célia Séramour

Publié le 2 septembre 2025 à 15h15

Chaque jour, 3 milliards de messages sont envoyés quotidiennement via ChatGPT. Et si désormais, tout se passait par la voix plutôt que par l'écrit ? C'est le pari d'OpenAI. En fin de semaine dernière, la start-up a lancé GPT-Realtime, un modèle vocal unifié intégré à son API Realtime. Il combine la transcription, le raisonnement et la génération vocale en un seul système et montre des améliorations significatives dans le suivi d’instructions complexes, l’appel d’outils et la production d’une parole plus naturelle et expressive. Le modèle peut capter des indices non verbaux (comme les rires), changer de langue en milieu de phrase et adapter son ton ("vif et professionnel" vs "gentil et empathique").

Selon les évaluations internes d'OpenAI, le modèle affiche également une meilleure précision dans la détection de séquences alphanumériques (comme les numéros de téléphone, les VIN, etc.) dans d’autres langues, notamment l’espagnol, le chinois, le japonais et le français. Sur le benchmark Big Bench Audio, qui mesure les capacités de raisonnement, gpt-realtime obtient un score de 82,8% d’exactitude, dépassant le précédent modèle d'OpenAI publié en décembre 2024, qui affichait 65,6%.

Une mise à jour majeure de l'API Realtime

En parallèle, OpenAI publie deux nouvelles voix dans l'API Realtime, Marin et Cedar, qui rejoignent les huit voix existantes. A cela s'ajoute de nouvelles fonctionnalités qui permettent aux développeurs et aux entreprises de créer des agents vocaux fiables et prêts pour la production. L’API prend désormais en charge les serveurs MCP distants, les entrées d’images et les appels téléphoniques via le protocole SIP (Session Initiation Protocol). Ces fonctionnalités intégrées vont aider OpenAI à cibler des entreprises issues des télécoms comme Orange, Bouygues et SFR en France, mais aussi Zillow, T-Mobile - ces derniers étant déjà bêta testeurs de la solution - qui veulent des agents vocaux plus humains et performants en support client, assistance ou éducation.

Et pour s'assurer une bonne entrée sur le marché, OpenAI a décidé de baisser ses tarifs de 20% à 25 % par rapport à la version précédente. Concrètement, l’utilisation de l’API GPT-Realtime coûte désormais 32 dollars par million de jetons d’entrée audio (et seulement 0,40 dollar pour les jetons déjà mis en cache), et 64 dollars par million de jetons de sortie, rendant sa technologie davantage accessible.

La France, un marché clé pour OpenAI ?

En France notamment, cette baisse de prix pourrait attirer bon nombre d'entreprises. Rappelons que l'Hexagone fait partie du Top 10 mondial pour le nombre de développeurs utilisant activement leur API. Le pays se classe également dans le Top 2 des utilisateurs payants de ChatGPT dans l’Union européenne (et même dans le top 10 mondial). Enfin, le nombre d’utilisateurs actifs hebdomadaires en France a été multiplié par trois sur la dernière année. Bien évidemment, les Etats-Unis restent son premier marché : 92% des entreprises du Fortune 500 utilisent ses services.

OpenAI lance le modèle unifié GPT-realtime pour créer des agents vocaux plus performants

Une mise à jour majeure de l'API Realtime

La France, un marché clé pour OpenAI ?

À lire aussi