Avec sa famille de modèles Nova, Amazon opère un virage stratégique dans l'IA générative

Anthropic, Google, Microsoft, OpenAI n'ont plus qu'à faire mieux une nouvelle fois. Amazon vient de lâcher une bombe : sa famille de modèles Nova serait égale - voir meilleure - que certains modèles de ces entreprises à en croire le géant du cloud. Zoom sur les caractéristiques de chacun, leurs performances et les usages ciblés.

Célia Séramour

Publié le 4 décembre 2024 à 16h27

Andy Jassy CEO Amazon - présentation modèles Amazon Nova — Après trois ans d'absence à la grande messe annuelle d'AWS, le patron d'Amazon est remonté sur scène pour dévoiler la famille de modèles Nova.

Il était le dernier des trois hyperscalers à entrer dans la danse de l'IA générative. Lors de sa conférence re:Invent 2024 qui se déroule en ce moment même à Las Vegas, le patron d'Amazon, Andy Jassy, a levé le voile sur une famille de modèles fondamentaux baptisée Nova conçus "pour une large gamme de tâches, ainsi qu'un rapport prix/performance leader de l'industrie". Disponible dans le service Bedrock du géant, cette famille regroupe six modèles.

On compte ainsi Nova Micro (un modèle texte-texte très rapide), Nova Lite, Nova Pro et Nova Premier (des modèles multimodaux qui peuvent traiter du texte, des images et des vidéos pour générer du texte). La firme a lancé deux autres modèles multimodaux : Nova Canvas qui génère des images de qualité studio et Amazon Nova Reel qui génère des vidéos de qualité studio.

A en croire la firme, le modèle Nova Micro est considéré comme le meilleur rapport prix-performance. De son côté, Nova Premier est le plus approprié pour des tâches de raisonnement complexes et pour servir de base pour le fine-tuning de modèles personnalisés.

Des performances qui égalent celles de Llama 3.1, Gemini 1.5 ou encore GPT-4o mini

Amazon n'a peur de rien. Dans sa série de benchmarks, le géant fait état de performances comparables entre ses différents modèles et ceux des plus grands. Nova Micro, par exemple, s'est avéré égal ou meilleur que Llama 3.1 8B sur les 11 benchmarks applicables, ainsi que Gemini 1.5 Flash-8B sur les 12 benchmarks applicables. La firme de Seattle attribue ce taux de réussite à sa vitesse de pointe de 210 jetons de sortie par seconde, le rendant idéal pour les applications nécessitant des réponses rapides.

De son côté, le modèle Nova Lite est également très compétitif avec d'autres modèles du même type, égalant - voir étant meilleur - sur 17 des 19 benchmarks par rapport à GPT-4o mini d'OpenAI et sur 17 des 21 benchmarks par rapport à Gemini 1.5 Flash-8B de Google. Autre surprise, ce modèle multimodal peut rivaliser avec Claude Haiku 3.5 d'Anthropic sur une dizaine de tests. Son autre modèle multimodal Nova Pro rivalise avec GPT-4o, Gemini 1.5 Pro et Claude Sonnet 3.5v2. Ces deux itérations de la famille de modèles Nova sont réputés pour exceller dans le suivi des instructions et les workflows agentiques multimodaux, assure Amazon.

Des résultats à mettre sur le compte de la fenêtre contextuelle assez longue de chacun de ces modèles : Nova Micro supporte une longueur de contexte de 128K jetons d'entrée, tandis que Nova Lite et Nova Pro supportent une longueur de contexte de 300K jetons, ou 30 minutes de traitement vidéo. "Au début de l'année 2025, Amazon supportera une longueur de contexte de plus de 2M jetons d'entrée", avance la firme. A noter que les trois versions Micro, Lite et Pro supportent plus de 200 langues.

La concurrence se fait rude

Amazon Nova Micro, Nova Lite et Nova Pro sont généralement disponibles aujourd'hui tandis que Nova Premier sera disponible au premier trimestre 2025. Le message est clair : Amazon peut, au même titre que Google, Microsoft ou encore OpenAI, faire du multimodal, à coût réduit, avec une latence très faible. Par ailleurs, les modèles Nova ont été optimisés pour les rendre faciles à utiliser dans les applications agentiques qui nécessitent d'interagir avec les systèmes et les données propriétaires d'une entreprise via plusieurs API, ajoute la firme.

Un moyen de s'attaquer frontalement à Microsoft qui propose d'ores et déjà une collection d'agents alimentés par l'IA personnalisables à souhait suivant le secteur et domaine où ces agents sont censés intervenir. Et pour montrer sa volonté de s'affirmer sur ce terrain, Amazon prépare déjà la suite.

Les modèles Canvas et Reel prêts à se mesurer à DALL-E 3, Stable Diffusion ou encore Gen-3 Alpha

En ce qui concerne ses deux modèles de génération d'images et de vidéos, Canvas et Reel, Amazon affirme qu'ils sont capables de rivaliser avec d'autres solutions du marché. A commencer par DALL-E 3 d'OpenAI et Stable Diffusion pour Canvas et Gen-3 Alpha de Runway pour Reel. Les deux modèles sont livrés avec des fonctionnalités comme le filigranage (ou watermarking) afin de tracer la source d'une image, et la modération des créations, limite la génération de contenu potentiellement nuisible.

Pour l'heure, Nova Reel génère actuellement des vidéos de six secondes, et supportera la génération de vidéos d'une durée allant jusqu'à deux minutes dans les mois à venir. Par comparaison, Meta a lancé en octobre dernier un modèle text-to-video pour générer des vidéos allant jusqu'à 16 secondes tandis que Google vient de lever le voile sur Veo, un modèle similaire capable de générer des scènes d'une minute. OpenAI, premier du genre à sortir une telle solution, avait dévoilé en février Sora capable de générer des scènes d'une minute. Jusqu'à présent, la solution n'a pas été mise à disposition du grand public.

D'autres modèles multimodaux à venir courant 2025

Le géant veut ajouter un modèle speech-to-speech à sa famille Nova au premier trimestre 2025. "Le modèle est conçu pour transformer les applications d'IA conversationnelle en comprenant les entrées vocales en streaming en langage naturel, en interprétant les indices verbaux et non verbaux (comme le ton et la cadence), et en fournissant des interactions naturelles de type humain, en va-et-vient avec une faible latence", indique la firme.

Un autre modèle devrait faire son apparition courant 2025. Ce dernier pourra prendre du texte, des images, de l'audio et de la vidéo comme entrées, et générer des sorties dans l'une de ces modalités, soit avec des capacités natives multimodales pour un résultat "multimodal". Objectif : simplifier le développement d'applications où le même modèle peut être utilisé pour effectuer une grande variété de tâches, telles que la traduction de fichiers quels qu'ils soient d'une modalité à une autre, leur édition, et l'alimentation d'agents IA qui peuvent comprendre et générer toutes les modalités.

Des bêta utilisateurs sur le pont

Ils s'appellent 123RF, Deloitte, Musixmatch, Palantir, SAP et Shutterstock. Et tous ont décidé d'intégrer les différents modèles de la famille Nova dans leurs processus pour faire décoller leurs propres produits et services. 123RF et Shutterstock utilisent par exemple Nova Canvas et Nova Reel pour simplifier le processus de conception avec des outils plus rapides et plus faciles à utiliser pour les créateurs de visuels. Un nouveau marché s'ouvre : celui de la génération d'images IA dont la qualité est garantie par ces banques d'images.

Dans un autre registre, celui de la musique, Musixmatch compte faire sensiblement la même chose. Comptant 80 millions d'utilisateurs et une base de données de plus de 11 millions de paroles uniques, la plateforme veut intégrer Nova Reel dans Musixmatch Pro pour aider les artistes à produire des clips qui concordent avec leurs textes.

SAP, pour sa part, compte intégrer les modèles Amazon Nova dans sa famille de LLM supportés par son hub d'IA générative AI Core. Avec, les développeurs pourront créer des fonctionnalités supplémentaires pour Joule, le copilote IA signé SAP, et surtout pousser des solutions pilotées par l'IA capables de s'appuyer sur les données de l'éditeur allemand.