Grok-1.5, successeur de Grok-1, fait monter d'un cran la concurrence dans le paysage des LLM

Des performances qui se rapprochent du grand modèle de langage d'OpenAI, GPT-4. La start-up de Sam Altman n'a qu'à bien se tenir face à la tempête qui fonce sur elle avec cette dernière itération du LLM Grok. Et son plus gros potentiel pourrait bien être son intégration au réseau social X.

Grok-1.5 intelligence artificielle - LLM Grok
xAI prévoit de déployer progressivement Grok-1.5 auprès d'un public plus large avec, au passage, plusieurs nouvelles fonctionnalités dans les jours à venir.

Après avoir publié son premier grand modèle de langage open source Grok-1 il y a une dizaine de jours, la start-up d'intelligence artificielle lancée par Elon Musk xAI publie une version mise à jour, Grok-1.5. Ce modèle d'IA générative est doté de capacités de raisonnement améliorées et d'une fenêtre contextuelle plus longue, comprenant 128 000 tokens.

Construit sur un framework d'entraînement distribué personnalisé basé sur JAX, Rust et Kubernetes, Grok-1.5 possède une infrastructure pour le moins intéressante. "Un défi majeur de l'entraînement des LLM sur de grands clusters de calcul est de maximiser la fiabilité et le temps de disponibilité du travail d'entraînement", indiquent les équipes de xAI. Et la réponse se trouve dans l'orchestrateur d'entraînement personnalisé qui garantit que les nœuds problématiques sont automatiquement détectés et éjectés de la tâche d'entraînement.

Et l'optimisation couvre d'autres points, incluant les points de contrôle, le chargement des données et le redémarrage des tâches d'entraînement afin de minimiser les temps d'arrêt en cas de panne.

Grok-1.5 talonne les plus grands LLM

Le plus impressionnant est peut-être au niveau des performances en matière de codage et de mathématiques. Lors des tests, Grok-1.5 a ainsi obtenu un score de 50,6% sur le benchmark MATH et un score de 90% sur le benchmark GSM8K, deux benchmarks mathématiques couvrant un large éventail de problèmes de compétition de l'école primaire à l'école secondaire. Par comparaison, le modèle Opus – appartenant à la famille de LLM Claude 3 d'Anthropic – obtient un score de 61% au test MATH, Gemini Pro 1.5 obtient 58,5% et GPT-4 52,9%.

Sur le second test GSM8K, Grok-1.5 talonne ces LLM qui obtiennent respectivement les scores suivants : 91,7% pour Gemini Pro 1.5, 92% pour GPT-4 et 95% pour Claude 3 Opus. Sur le test HumanEval, qui évalue la génération de code et les capacités de résolution de problèmes, le LLM de xAI obtient un score de 74,1 % contre 71.9% pour Gemini Pro 1.5 et 67% pour GPT-4. Grok-1.5 est toutefois loin d'atteindre les performances de Claude 3 Opus qui montent à 84,9%.

Une fenêtre contextuelle de 128 000 tokens

Par rapport à la version précédente, le LLM dispose d'une fonctionnalité innovante, à savoir la capacité de traiter des contextes longs pouvant contenir jusqu'à 128 000 tokens (morceaux de texte brut) dans sa fenêtre contextuelle. Grok dispose ainsi d'une meilleure capacité de mémoire, faisant jusqu'à 16 fois la longueur du contexte précédent, ce qui lui permet d'utiliser des informations provenant de documents beaucoup plus longs.

En outre, le modèle peut gérer des commandes textuelles plus longues et plus complexes, tout en conservant sa capacité à suivre les instructions à mesure que la fenêtre contextuelle s'agrandit. Lors de l'évaluation Needle In A Haystack (NIAH), Grok-1.5 a obtenu des résultats impressionnants affirme la start-up.

Grok-1.5 bientôt disponible pour les premiers testeurs

Si pour l'heure, le grand modèle de langage n'est pas disponible pour tous, xAI prévoit de déployer progressivement Grok-1.5 auprès d'un public plus large avec, au passage, plusieurs nouvelles fonctionnalités dans les jours à venir. Ce LLM devrait donc remplacer in fine la version précédente qui alimente Grok, le chatbot IA de Twitter, et, par la même occasion, faire monter d'un cran la concurrence entre les acteurs du secteur, incluant Anthropic, Google, Mistral ou encore OpenAI.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider. 

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.