IA générative : OpenAI lance o1, ses premiers modèles "capables de raisonnement avancé"

Baptisés o1-preview et o1-mini, ces deux grands modèles de langage sont les premiers de la famille de LLM o1. Le premier surpasse des modèles tels que GPT-4o dans de nombreux tests tandis que le second, plus rapide, est conçu pour répondre aux questions en sciences, technologie, ingénierie et mathématiques.

Célia Séramour

Publié le 13 septembre 2024 à 10h45

OpenAI famille LLM IA o1 — Les utilisateurs Plus et Team peuvent dès à présent essayer ce nouveau modèle en sélectionnant "o1-preview" ou "o1-mini" dans le sélecteur de modèles dans ChatGPT.

La rumeur courait depuis plusieurs semaines, OpenAI plancherait sur une nouvelle approche pour le développement de ses modèles. Cette semaine, l'entreprise nous dévoile o1, une série de modèles d’intelligence artificielle conçus pour résoudre des problèmes complexes. "Ces modèles sont capables de raisonner sur des tâches difficiles et de résoudre des problèmes plus compliqués que les modèles précédents", y compris GPT-4o, assure OpenAI.

Pour l'heure, cette famille de grands modèles de langage compte o1-preview et o1-mini, disponibles dans ChatGPT ainsi que dans son API. Les équipes ayant planché sur le développement de ces LLM affirment qu'il s’agit d’un entraînement qui apprend à ces modèles d’intelligence artificielle à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître par eux-mêmes leurs erreurs.

Des résultats probants dans les sciences

Lors des tests, ces modèles ont obtenu des résultats similaires à ceux de doctorants sur des tâches exigeantes en physique, chimie et biologie. Les équipes d’OpenAI ont également découvert qu'ils excellent en mathématiques et en programmation. Par exemple, o1 pourrait être utilisé par les chercheurs en santé pour annoter le séquençage des cellules et par les physiciens pour générer des formules mathématiques compliquées nécessaires à l'optique quantique, et par les développeurs pour construire et exécuter des flux de travail à plusieurs étapes.

"Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (OIM), GPT-4o n'a résolu correctement que 13% des problèmes, tandis que ces modèles de raisonnement ont obtenu un score de 83%", assure OpenAI. Ses capacités de codage ont également été évaluées et ont atteint le percentile 99% dans les concours de Codeforces.

OpenAI met l'accent sur la sécurité

Maintes fois pointé du doigt pour s'être montré évasif quant à la sécurité des modèles et de ses utilisateurs, OpenAI assure avoir développé dans le cas présent "une nouvelle approche d'entraînement à la sécurité qui utilise les capacités de raisonnement des modèles pour s'assurer qu'ils respectent les directives de sécurité et d'alignement. Parce qu'il peut raisonner sur nos règles de sécurité en contexte, il peut les appliquer plus efficacement".

Par ailleurs, o1-preview surpasse les modèles antérieurs comme GPT-4o lors des tests de sécurité réalisés et résiste beaucoup mieux à la génération de contenus nuisibles. "Sur notre évaluation de jailbreaking la plus difficile, qui mesure la résistance du modèle à la génération de contenu dangereux en réponse à des invites textuelles adverses, o1-preview a obtenu un score de 84 alors que GPT-4o a obtenu un score de 22 sur une échelle de 0 à 100", précise la société.

Des accords passés avec des instituts de sécurité d'IA

Le renforcement de la sécurité a eu lieu à plusieurs niveaux, notamment sur l'effet de persuasion du modèle. Ainsi, o1-preview peut produire des arguments écrits qui sont aussi persuasifs que des textes écrits par des humains sur les mêmes sujets. Cependant, un classificateur de contenu politique a été ajouté pour une protection supplémentaire – un détail pour le moins important alors que de nombreuses élections ont lieu cette année partout dans le monde.

OpenAI travaille par ailleurs avec divers instituts portés sur la sécurité du développement de l'IA, et a récemment formalisé des accords avec les instituts de sécurité de l'IA des États-Unis et du Royaume-Uni. "Nous avons commencé à opérationnaliser ces accords, notamment en accordant aux instituts un accès anticipé à une version de recherche de ce modèle".

Une famille de modèles qui possède quelques limites

Les premiers modèles de cette famille o1, o1-preview et o1-mini, ne disposent pas encore de nombreuses fonctions utiles telles que la navigation sur le Web, le téléchargement de fichiers et d'images dans ChatGPT. Dans l'API, il existe d'autres points de blocage, notamment l'absence de prise en charge des outils (appel de fonction, navigation, streaming, recherche de fichiers, interpréteur de code) ou les messages système personnalisés. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme, précise OpenAI.

Par ailleurs, en raison de sa spécialisation sur les capacités de raisonnement STEM, les connaissances factuelles d'o1-mini sur des sujets non STEM tels que les dates, les biographies et les anecdotes sont comparables à celles de petits LLM tels que GPT-4o mini. La société prévoit d'améliorer cela dans les versions futures. A noter que les modèles dévoilés cette semaine ont une date limite de connaissance fixée à octobre 2023.

Pour l'heure, les utilisateurs Plus et Team peuvent dès à présent essayer ce nouveau modèle en sélectionnant "o1-preview" ou "o1-mini" dans le sélecteur de modèles dans ChatGPT. Les utilisateurs des versions Enterprise et Edu auront accès à ces modèles à partir de la semaine prochaine. OpenAI lance également ces modèles dans son API pour les développeurs qui souhaitent commencer à prototyper, mais dans des conditions spécifiques.

IA générative : OpenAI lance o1, ses premiers modèles "capables de raisonnement avancé"

Des résultats probants dans les sciences

OpenAI met l'accent sur la sécurité

Des accords passés avec des instituts de sécurité d'IA

Une famille de modèles qui possède quelques limites

À lire aussi