Avec ses NIMs, Nvidia veut donner à chaque entreprise son propre modèle d'IA

Oubliez le cloud, Nvidia compte doter chaque entreprise de modèles d'IA customisés. Comment ? Par le biais de microservices d'inférence, baptisés NIMs. Une façon de tirer parti du parc existant de data centers… en y ajoutant des GPU.

Julien Bergounhoux

Publié le 25 mars 2024 à 07h00

Image d'illustration de l'article — GTC 2022

Jensen Huang, le patron de Nvidia, disait déjà vouloir s'attaquer au marché du data center en 2016. Huit ans plus tard, à la GPU Technology Conference 2024, le pari est réussi. Poussé par les besoins en puissance de calcul de l'intelligence artificielle, le marché s'arrache ses GPU à prix d'or. Et Jensen Huang va désormais plus loin : "Nvidia ne construit pas de puces, nous construisons des data centers", a-t-il déclaré lors d'une session de questions-réponses.

"Nous concevons des data centers, et nous voulons les intégrer dans les data centers des autres. Il y a beaucoup d'entreprises qui font des GPUs aujourd'hui, mais nous visons le marché du data center, qui pesait 250 milliards de dollars en 2023, et dont la croissance est de près de 25% par an."

L'IA générative vue comme une révolution "industrielle"

Jensen Huang appelle ces data centers d’un nouveau genre des "usines d'IA" (AI Factories), car ils ne sont conçus que dans un seul but : produire des tokens à partir de données. Le dirigeant les compare à des centrales électriques. "C'est une nouvelle industrie, et c'est pour cela que nous parlons d'une révolution industrielle."

Dire que l'homme est ambitieux serait un euphémisme, mais sa vision a été mûrement réfléchie. Tout comme l’analogie choisie. Il note qu’un data center est considéré comme un centre de coûts par les dirigeants d’entreprise, mais que les usines sont perçues comme des générateurs de profits.

L’un de ses services à fort potentiel de croissance est sa "fonderie d’IA" (AI Foundry), qui s’appuie sur son propre data center. Son objectif : fournir aux entreprises des modèles d’IA générative prépackagés et optimisés pour leurs besoins spécifiques plutôt que de se reposer sur des modèles génériques hébergés par les acteurs du cloud public (Amazon, Microsoft, Google, etc.). "A l'avenir, chaque contenu sera généré pour vous spécifiquement, c'est vers quoi l'informatique est en train d'évoluer", affirme Jensen Huang.

Des modèles d'IA sous forme de microservices conteneurisés

Nvidia s’appuie pour ce faire sur la technique de "retrieval-augmented generation" (RAG), c’est-à-dire de génération basée sur des documents, qui permet de limiter les problèmes d’hallucination. Mais surtout sur les Nvidia Inference Microservices, ou NIMs (prononcés comme Nîmes). Annoncés à la GTC 2024, ces microservices conteneurisés regroupent un modèle d’IA, un runtime et un moteur d'inférence optimisé pour le modèle dans un seul package prêt à l’emploi (sous le capot, on trouve NeMo retriever, Triton Inference Server, et TensorRTTM-LLM).

Nvidia insiste sur le fait qu'il ne réinvente pas la roue. Ses NIMs tournent comme des containers standards et peuvent être déployés avec les solutions Kubernetes de son choix. "Nous n'avons pas inventé de nouvel outil d'orchestration et n'avons aucune intention de le faire", rassurait Manuvir Das, VP of Enterprise Computing, lors d’une session dédiée. Les modèles ouverts de Google, Meta, Mistral AI, Stability AI et Hugging Face sont disponibles, de même que des modèles propriétaires de Nvidia, A121, Cohere et Getty Images. Ceux de Microsoft le seront bientôt.

Tirer parti du parc existant de data centers

In fine, Nvidia cible toutes les entreprises disposant de leurs propres centres de données, en offrant à la fois ce service de customisation de modèle d’IA, mais aussi le matériel nécessaire pour les faire tourner. Que ce soit pour la finance ou la santé, les NIMs sont présentés comme une façon de posséder son propre modèle plutôt que de dépendre des hyperscalers. "Comme vous ne pouvez pas envoyer vos données dans le cloud, vous devez amener l’IA aux données", résume Jensen Huang.

L’un de ses principaux partenariats annoncés à la conférence était d’ailleurs avec SAP, roi de l’ERP qui veut désormais s'imposer comme le leader de la "business AI", c'est-à-dire l'utilisation de l'intelligence artificielle – et spécifiquement l'IA générative – pour les processus métier. Pour y parvenir, l'allemand va s'appuyer sur Nvidia. L'annonce a été faite le 18 mars au SAP Center de San Jose. La classe. Il n'a pas été le seul partenaire annoncé : Adobe, ServiceNow, Cadence, CrowdStrike et Getty Images seront également de la partie. Il est néanmoins le plus significatif à notre sens.

En plus d'améliorer son offre (dont le "copilote" Joule et la solution Datasphere), SAP utilisera la "fonderie d'IA" de Nvidia pour adapter des modèles d'IA à des domaines d'utilisation spécifiques, puis les déployer chez ses clients sous forme de NIMs. Disponible en fin d'année, ce service devrait conduire à une adoption rapide de l'IA générative au cœur des entreprises, au-delà des bidouillages avec ChatGPT. La révolution – industrielle ou pas – est bel et bien en marche.

Avec ses NIMs, Nvidia veut donner à chaque entreprise son propre modèle d'IA

L'IA générative vue comme une révolution "industrielle"

Des modèles d'IA sous forme de microservices conteneurisés

Tirer parti du parc existant de data centers

À lire aussi