En mai dernier, OpenAI a dévoilé GPT-4o, une version "omni" qui promet de digérer n'importe quelle combinaison de texte, d'audio et d'image et de générer ensuite n'importe quelle combinaison de textes, de sons et d'images. Si les fonctionnalités de texte et d'image du modèle ont été déployées dans la foulée dans ChatGPT, celle liée au mode vocal a quant à elle été reléguée à plus tard. La start-up annonçait ainsi qu'une version alpha serait déployée dans ChatGPT Plus dans les semaines à venir.
C'est désormais chose faite : les équipes d’OpenAI viennent d’annoncer le déploiement de la version alpha de la fonction vocale auprès d’un panel d’utilisateurs de l'abonnement Plus, avec un mois de retard par rapport à l'annonce initiale. La raison ? Une meilleure prise en compte des risques liés à la sécurité des utilisateurs. "Nous améliorons la capacité du modèle à détecter et à refuser certains contenus", indiquait ainsi OpenAI sur X (ex-Twitter).
Une disponibilité pour tous les utilisateurs Plus d'ici l'automne prochain
Pour mémoire, cette fonction vocale avancée doit apporter des conversations plus naturelles et en temps réel, pouvant être interrompues à tout moment. Elle détecte et répond également aux émotions. Pour parvenir à cette expérience utilisateur, les équipes ont renforcé la capacité du modèle à supporter des millions de conversations vocales simultanées et en temps réel, tout en maintenant une faible latence.
"L'accès à un plus grand nombre d'utilisateurs de ChatGPT Plus sera étendu progressivement au cours des prochaines semaines, avec pour objectif de rendre cette fonctionnalité entièrement disponible pour tous les utilisateurs de ChatGPT Plus à l'automne prochain", confirme OpenAI. Les utilisateurs de cette version alpha recevront une notification dans l'application et un e-mail contenant des instructions sur son utilisation. La société indique par ailleurs que les fonctions vidéo et le partage d'écran seront lancés à une date ultérieure.
La sécurité, mot d'ordre à l'heure de la régulation du secteur
Si ChatGPT peut désormais parler et écouter, il n'en reste pas moins que la sécurité doit être placée au coeur de son développement, comme l'entend la société. En juin dernier, les équipes d’OpenAI ont annoncé qu’elles planchaient sur la capacité du modèle à détecter et refuser certains contenus. Au-delà de ce travail, les développeurs ont évalué les capacités vocales de GPT-4o avec plus de 100 Red Teamers externes dans 45 langues dans 29 régions géographiques. "Pour protéger la vie privée des utilisateurs, nous avons entraîné le modèle à ne parler qu'avec les quatre voix prédéfinies et nous avons créé des systèmes pour bloquer les sorties qui diffèrent de ces voix. Nous avons également mis en place des garde-fous pour bloquer les demandes de contenu violent ou protégé par des droits d'auteur".
Des filtres ont ainsi été mis en place, capables de reconnaître et de bloquer toutes les demandes de génération de contenus musicaux et audio protégés par des droits d’auteur. Enfin, les mêmes techniques de sécurité appliquées aux textes ont été étendues aux voix, précise la start-up. Il est par ailleurs prévu que les équipes d’OpenAI partagent au début du mois d’août un rapport détaillé sur l’élaboration de la fonction vocale avancée et les dispositifs mis en place pour offrir une expérience utilisateur sûre.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
