Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux

Anthropic, Google, Meta ou encore Microsoft n'ont qu'à bien se tenir. OpenAI vient de lâcher une bombe du nom de GPT-4o dotée de capacités multimodales défiant toute concurrence. Cette version "omni" promet de digérer n'importe quelle combinaison de texte, d'audio et d'image et générer ensuite n'importe quelle combinaison de textes, de sons et d'images. En parallèle, ChatGPT profite de plusieurs améliorations, y compris dans sa version gratuite.

Célia Séramour

Publié le 14 mai 2024 à 13h52

GPT-4o OpenAI — "GPT-4o est deux fois plus rapide, moitié moins cher, et ses limites de débit sont 5 fois plus élevées que celles de GPT-4 Turbo", promet OpenAI.

Les modèles multimodaux montent en puissance. La preuve avec OpenAI et son tout dernier modèle baptisé GPT-4o ("o" pour "omni") et capable de raisonner en temps réel sur l'audio, la vision et le texte. L'entreprise le décrit comme suit : "Il accepte comme entrée n'importe quelle combinaison de texte, d'audio et d'image et génère n'importe quelle combinaison de sorties de texte, d'audio et d'image". Plus impressionnant encore, il peut répondre aux entrées audio en seulement 232 millisecondes (une seconde est composée de mille millisecondes), avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.

Par comparaison avec les autres grands modèles de langage de l'entreprise, il correspond aux performances de GPT-4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les autres langues. Le tout en étant beaucoup plus rapide et 50% moins cher, avance OpenAI.

Lorsque l'on prête attention aux différents tests réalisés pour évaluer le modèle à d'autres, notamment ceux d'Anthropic, Google ou Meta, on relève que GPT-4o atteint un score de 88,7% sur celui dédié au raisonnement logique appelé MMLU (qui comporte des questions de connaissances générales), son plus proche concurrent étant le modèle Claude 3 Opus d'Anthropic avec un score de 86,8%.

Des performances audio et de vision qui mettent à mal toute concurrence

Deux tests ont été réalisés pour juger des performances audio de GPT-4o. Le premier, qui porte sur la reconnaissance vocale, montre que le modèle est bien au-dessus du modèle développé en interne par OpenAI, Whisper-v3, et ce, dans toutes les langues. Le taux d'erreur est particulièrement significatif pour Whisper pour les langues où les données manquent, incluant l'Afrique subsaharienne et l'Asie du Sud.

En matière de traduction audio, GPT-4o établit également une avancée et surpasse Whisper-v3 sur le benchmark MLS. Derrière lui, se trouvent respectivement Gemini de Google (2ème) et SeamlessM4T-v2 de Meta (3ème). Enfin, dans l'évaluation de compréhension de la vision, GPT-4o atteint des performances de pointe devant l'ensemble des modèles cités précédemment.

Un seul modèle pour traiter toutes les étapes de digestion de données

OpenAI justifie ces résultats par une architecture bien particulière. Auparavant, il s'agissait d'un pipeline de trois modèles distincts : un modèle simple transcrit l'audio en texte, GPT-3.5 ou GPT-4 prend du texte et génère du texte, et un troisième modèle simple reconvertit ce texte en audio. Ce processus signifie que la principale source d'intelligence, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, plusieurs locuteurs ou les bruits de fond, et elle ne peut pas émettre de rires, de chants ou exprimer des émotions.

GPT-4o est un seul et même modèle entraîné de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal.

GPT-4o disponible pour tous… avec des limites

OpenAI indique que les fonctions de GPT-4o seront déployées de manière itérative. Cela commence par les fonctionnalités de texte et d'image du modèle qui sont déployées dès aujourd'hui dans ChatGPT. "Nous rendons GPT-4o disponible dans l'offre gratuite et pour les utilisateurs Plus avec des limites de messages jusqu'à 5 fois plus élevées", précise toutefois l'entreprise.

Concernant le mode vocal, OpenAI prévoit de déployer une version alpha dans ChatGPT Plus dans les semaines à venir. Les développeurs peuvent également accéder à GPT-4o dans l'API en tant que modèle de texte et de vision.

ChatGPT profite d'une mise à jour

Pour ChatGPT, cela se traduit par plusieurs changements et améliorations. Tout d'abord, l'assistant IA est désormais capable de prendre en charge une cinquantaine de langues. D'autres fonctions doivent être intégrées dans les semaines à venir, notamment la possibilité d'obtenir des réponses du modèle et du Web, d'analyser les données et créer des graphiques, échanger à propos de ses photos, télécharger des fichiers pour obtenir de l'aide pour résumer, rédiger ou analyser, utiliser le GPT Store et ses nombreux GPT ou encore s'appuyer sur la fonction Memory.

Seulement voilà, si OpenAI élargit le cercle des fonctions de son chatbot dans la version gratuite, un nuage plane au-dessus des utilisateurs sans abonnement. "Il y aura une limite au nombre de messages que les utilisateurs (qui utilisent la version gratuite) pourront envoyer avec GPT-4o en fonction de l'utilisation et de la demande. Lorsque la limite est atteinte, ChatGPT passe automatiquement à GPT-3.5 afin que les utilisateurs puissent poursuivre leurs conversations", affirme OpenAI.

Une version Mac débarque

Les utilisateurs de Mac seront ravis – au passage – d'apprendre qu'une application de bureau ChatGPT pour macOS fait son apparition pour tous les utilisateurs avec un déploiement prioritaire auprès des versions Plus. Cette application est conçue pour s'intégrer de manière transparente à tout ce que ces derniers font sur leur ordinateur à l'aide d'un raccourci clavier. Une version Windows est également prévue pour plus tard cette année.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.