L'itération améliorée de GPT-4 est là. Annoncée en novembre dernier lors de la conférence développeurs d'OpenAI, cette dernière version montre, à première vue, des performances notoires, surpassant – entre autres – celles de Claude 3 Opus ou de Gemini Ultra 1.0 et Gemini Pro 1.5, promet OpenAI. Désormais disponible pour les utilisateurs abonnés à la version payante de ChatGPT, GPT-4 Turbo montre des améliorations au niveau de l'écriture, ainsi que dans les mathématiques, le raisonnement logique et le codage.

La version dédiée à ChatGPT obtient les résultats suivants sur les différents tests d'évaluation : 72,2% sur le benchmark MATH (contre 63,2% pour Claude 3 Opus et 58,5% pour Gemini Pro 1.5), 86,5% sur le test MMLU (contre 84,1% pour Claude 3 Opus et 83,7% pour Gemini Ultra 1.0) et 87,6% sur le test HumanEval (contre 84,8% pour Claude 3 Opus et 74,4% pour Gemini Ultra 1.0).
Des réponses moins verbeuses dans ChatGPT
La start-up pointe notamment du doigt la capacité de ChatGPT à répondre (toujours dans la version payante) de façon plus directe, moins verbeuse et utilisant un langage plus conversationnel. Contrairement à GPT-4, la fenêtre contextuelle de GPT-4 Turbo est plus longue (128 000 tokens contre 8192) et peut donc contenir l'équivalent de plus de 300 pages de texte dans une seule invite.
Notons par ailleurs que le LLM a été entraîné sur des données allant jusqu'à décembre 2023 – contre septembre 2021 pour GPT-4. Enfin, OpenAI précise avoir également optimisé ses performances afin de pouvoir proposer GPT-4 Turbo à un prix 3 fois moins cher pour les jetons d'entrée et à un prix 2 fois moins cher pour les jetons de sortie par rapport à GPT-4. Pour ceux qui souhaiteraient l'utiliser, GPT-4 Turbo est donc disponible dans ChatGPT Plus, Team, Enterprise ainsi que via API.
OpenAI a, en parallèle, publié ce 14 avril un modèle personnalisé GPT-4 optimisé pour la langue japonaise - dans le cadre de l'ouverture de son bureau à Tokyo, au Japon - qui offre des performances améliorées dans le texte japonais et fonctionne jusqu'à 3 fois plus rapidement que GPT-4 Turbo.
La vision intégrée dans les grands modèles de langage
En parallèle, OpenAI a dévoilé "GPT-4 Turbo with Vision", un grand modèle de langage doté de capacités de vision. GPT-4 Turbo avec Vision permet au modèle de prendre des images et de répondre aux questions à leur sujet. Historiquement, les LLM ont été limités par l'adoption d'une seule modalité de saisie, à savoir le texte.
Pour de nombreux cas d'utilisation, cela limitait les domaines dans lesquels des modèles tels que GPT-4 pouvaient être utilisés. Auparavant, le modèle était parfois appelé GPT-4V ou gpt-4-vision-preview dans l'API. La start-up précise que les images sont mises à disposition du modèle de deux manières principales : en passant un lien vers l'image ou en passant l'image encodée en base64 directement dans la requête. Les images peuvent être transmises dans les messages "user", "system" et "assistant".
Des limites relatives à la détection dans les images
"Le modèle est le meilleur pour répondre aux questions générales sur ce qui est présent dans les images. Bien qu'il comprenne la relation entre les objets dans les images, il n'est pas encore optimisé pour répondre à des questions détaillées sur l'emplacement de certains objets dans une image", précise OpenAI.
Prenant l'exemple de "quelle est la couleur de telle voiture" ou "quelles pourraient être des idées de dîner en fonction de ce qu'il y a dans votre réfrigérateur", l'entreprise insiste sur le fait que l'outil n'est pas capable de répondre correctement. "Il est important de garder à l’esprit les limites du modèle lorsque vous explorez les cas d’utilisation auxquels la compréhension visuelle peut être appliquée". En ce qui concerne son prix, cela dépend de la taille de l’image d’entrée. Par exemple, transmettre une image de 1080 × 1080 pixels à GPT-4 Turbo coûte 0,00765 $.
La vision, nouveau cheval de bataille des start-up d'IA
OpenAI n'est pas le seul à travailler sur cette fonction de vision. La start-up xAI dirigée par Elon Musk en a également fait son cheval de bataille. Elle a dévoilé ce 13 avril 2024 Grok-1.5V, son modèle multimodal. En plus de ses capacités de texte, Grok peut désormais traiter une grande variété d'informations visuelles, notamment des documents, des diagrammes, des graphiques, des captures d'écran et des photographies, indique la société.
Ses performances sont très proches de celles de GPT-4V. Dans un premier temps accessible aux bêta testeurs, xAI prévoit d'apporter Grok-1.5V à l'ensemble des utilisateurs de Grok par la suite.
Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
