OpenAI mise sur un LLM compact et abordable avec GPT-4o mini

Force est de constater qu'OpenAI a ouvert la voie à l'innovation après avoir lancé son outil ChatGPT auprès du grand public. Aujourd'hui, après une ruée vers des modèles à plusieurs dizaines de milliards de paramètres, la tendance s'inverse avec une recherche de réductions substantielles des coûts, comme ici avec GPT-4o mini.

Célia Séramour

Publié le 19 juillet 2024 à 11h45

"Rendre l'intelligence artificielle beaucoup plus abordable". Ces quelques mots, écrits par OpenAI, font écho à la mission initiale de l'organisation à but non lucratif, qui prétendait - du moins à ses débuts - s'assurer que l'intelligence artificielle reste bénéfique pour l'humanité. Dévouée à la recherche, elle jurait alors transparence, ouverture et collaboration. Aujourd'hui, après avoir publié plusieurs itérations de son modèle GPT, OpenAI est plutôt en quête de profits et de rentabilité. Pourtant, son dernier modèle semble être un retour aux sources : baptisé GPT-4o mini, OpenAI le décrit comme le "petit modèle le plus rentable" de son portefeuille.

GPT-4o mini est adapté à une large gamme de tâches en raison de son faible coût et de sa faible latence. Citons notamment les applications qui enchaînent ou parallélisent plusieurs appels de modèles (l'appel de plusieurs API), transmettent un grand volume de contexte au modèle (la base de code complète ou l'historique des conversations) ou interagissent avec les clients via des réponses textuelles rapides et en temps réel (les chatbots de support client).

Un modèle à bas coût doté d'une grande fenêtre contextuelle

Son prix est de 0,15 dollar par million de jetons d'entrée et de 0,60 dollar par million de jetons de sortie, explique OpenAI, ce qui est en réalité un ordre de grandeur plus abordable que les modèles Frontier précédents, le tout à plus de 60% moins cher que GPT-3.5 Turbo. GPT-4o mini prend en charge le texte et la vision dans l'API, et prendra en charge des entrées et sorties de texte, d'image, de vidéo et d'audio à l'avenir.

La start-up affirme que la problématique de réduction des coûts est aujourd'hui au coeur du développement de LLM. Elle donne en exemple le coût par jeton de GPT-4o mini qui a chuté de 99% depuis text-davinci-003, un modèle introduit en 2022. "Nous nous engageons à poursuivre cette trajectoire de réduction des coûts tout en améliorant les capacités du modèle".

Le modèle dispose par ailleurs d'une fenêtre de contexte de 128 000 jetons, prend en charge jusqu'à 16 000 jetons de sortie par requête et dispose de connaissances jusqu'en octobre 2023. Grâce au tokenizer amélioré partagé avec GPT-4o, la gestion de texte autre qu'en anglais est désormais plus rentable, assure par ailleurs la société.

Des performances au rendez-vous

La start-up a réalisé une comparaison de son modèle avec d'autres semblables, incluant Gemini Flash, Claude Haiku, GPT-3.5 Turbo et GPT-4o. Dans le détail, GPT-4o mini est meilleur que les autres petits modèles dans les tâches de raisonnement impliquant à la fois le texte et la vision, avec un score de 82% au MMLU (test de référence en matière de raisonnement), contre 77,9% pour Gemini Flash et 73,8% pour Claude Haiku.

Le modèle mini excelle également dans les tâches de raisonnement mathématique et de codage. Ainsi, sur MGSM (test mesurant le raisonnement mathématique), GPT-4o mini obtient un score de 87%, contre 75,5% pour Gemini Flash et 71,7% pour Claude Haiku. Son score est de 87,2% sur HumanEval (mesure des performances de codage) contre 71,5% pour Gemini Flash et 75,9% pour Claude Haiku.

Il surpasse également GPT-3.5 Turbo et d'autres petits modèles sur les tests académiques en raisonnement multimodal avec un score de 59,4 % contre 56,1 % pour Gemini Flash et 50,2 % pour Claude Haiku. Autre atout : il prend en charge la même gamme de langages que GPT-4o malgré sa plus petite taille. Il démontre également de solides performances dans l'appel de fonctions, ce qui peut permettre aux développeurs de créer des applications qui récupèrent des données ou effectuent des actions avec des systèmes externes, et des performances améliorées dans le contexte long par rapport à GPT-3.5 Turbo.

La sécurité intégrée dès la phase de pré-entraînement

"La sécurité est intégrée à nos modèles dès le début et renforcée à chaque étape de notre processus de développement", assure OpenAI. Lors de la phase de pré-entraînement, "nous filtrons des informations que nous ne souhaitons pas que nos modèles apprennent ou génèrent, telles que les discours haineux, le contenu réservé aux adultes, les sites qui regroupent principalement des informations personnelles et le spam", apprend-on. Après cette phase, les équipes de développement calquent le comportement du modèle sur les politiques internes en utilisant des techniques telles que l'apprentissage par renforcement avec rétroaction humaine (RLHF) pour améliorer la précision et la fiabilité des réponses des modèles.

Autre point intéressant : OpenAI signale que GPT-4o mini dans l'API est "le premier modèle à appliquer notre hiérarchie d'instructions, méthode qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections de commandes et aux extractions de commandes système".

Une disponibilité immédiate dans ChatGPT

Les utilisateurs Free, Plus et Team peuvent dès aujourd'hui accéder à GPT-4o mini dans ChatGPT, au lieu de GPT-3.5. Les utilisateurs Enterprise y auront également accès à partir de la semaine prochaine. Les modèles GPT semblent prêts à s'infiltrer dans toutes les applications en entreprise.

OpenAI mise sur un LLM compact et abordable avec GPT-4o mini

Un modèle à bas coût doté d'une grande fenêtre contextuelle

Des performances au rendez-vous

La sécurité intégrée dès la phase de pré-entraînement

Une disponibilité immédiate dans ChatGPT

À lire aussi