Google n'en finit plus de multiplier les annonces en ce début d'année. Après avoir changé le nom de Bard pour Gemini, la firme a dévoilé une version avancée (Advanced) de Gemini – payante – et un nouveau modèle d'IA baptisé Ultra 1.0. Aujourd'hui, elle annonce une mise à jour de ses modèles : Gemini 1.5. ainsi qu'une version 1.5 Pro. Sundar Pichai, CEO de Google, s'est d'ailleurs montré élogieux à ce sujet, précisant que "la version 1.5 Pro atteint une qualité comparable à celle de la version 1.0 Ultra, tout en utilisant moins de calcul".
Gemini 1.5 s'appuie sur les recherches de Google en matière d'architecture transformer et MoE. En effet, alors qu'un transformer traditionnel fonctionne comme un grand réseau neuronal, les modèles MoE sont divisés en réseaux neuronaux dits "experts" et plus petits. De fait, en fonction du type d'entrée fourni, les modèles MoE apprennent à activer sélectivement uniquement les voies les plus pertinentes du réseau neuronal. C'est de cette spécialisation que Google tire un modèle plus qualitatif.
Gemini 1.5 Pro, une version aux performances prometteuses
Mais qu'ont-ils de plus que les versions précédentes ? Leur grand atout réside dans l'augmentation de la quantité d'informations que ces modèles peuvent traiter. S'exprimant au nom de l'équipe Gemini, Demis Hassabis, CEO de Google DeepMind, précise que Gemini 1.5 Pro est livré avec une fenêtre contextuelle standard de 128 000 tokens.
Toutefois, "à partir d'aujourd'hui, un groupe limité de développeurs et d'entreprises clientes peuvent l'essayer avec une fenêtre contextuelle allant jusqu'à 1 million de tokens via AI Studio et Vertex AI en préversion privée", précise-t-il. En traitant une telle quantité de tokens, 1.5 Pro obtient "la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour".En parallèle, l'équipe travaille d'ores et déjà sur des optimisations pour améliorer la latence, réduire les besoins de calcul et améliorer l'expérience utilisateur.
Un potentiel de traitement sur "1 heure de vidéo ou 11 heures d'audio"
Demis Hassabis énumère les différentes qualités et capacités de Gemini 1.5 Pro. Le modèle peut ainsi "traiter de grandes quantités d'informations en une seule fois, notamment 1 heure de vidéo, 11 heures d'audio, des bases de code contenant plus de 30 000 lignes de code ou plus de 700 000 mots". Il assure que dans leurs recherches, les équipes ont également testé avec succès jusqu'à 10 millions de tokens.
En parallèle, 1.5 Pro est également capable d'analyser, classer et résumer de manière transparente de grandes quantités de contenu dans une commande textuelle donnée. "Par exemple, lorsqu'on lui donne les transcriptions de 402 pages de la mission Apollo 11 sur la lune, il peut raisonner sur les conversations, les événements et les détails trouvés dans le document", assure Demis Hassabis.
Des performances supérieures à 1.0 Pro et similaires à 1.0 Ultra
Différents tests d'évaluations de texte, de code, d'image, d'audio et de vidéo ont été réalisés. Résultat : 1.5 Pro surpasse 1.0 Pro sur 87 % des benchmarks que Google utilise pour développer ses LLM. Et comparé au 1.0 Ultra sur les mêmes benchmarks, ses performances sont globalement similaires, précise la firme.
Fait intéressant : même lorsque sa fenêtre contextuelle augmente, Gemini 1.5 Pro maintient des niveaux de performances élevés. Le modèle est également capable d'apprendre au fur et à mesure à partir de nouvelles informations fournies. S'appuyant sur le benchmark MTOB (Machine Translation from One Book), Google a donné à son modèle un manuel de grammaire pour le Kalamang (une langue qui compte moins de 200 locuteurs dans le monde). Le modèle a appris à traduire l'anglais vers le Kalamang à un niveau similaire à celui d'une personne apprenant du même contenu.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
