Pour réduire sa dépendance à OpenAI, Microsoft publie son premier modèle de génération d'images

Dans la continuité de sa stratégie de développement de LLM maison, Microsoft livre un nouveau modèle destiné cette fois-ci à la génération d'images. Ce dernier a rapidement rejoint le top 10 du classement LMArena dans la catégorie text-to-image.

Modele génération images Microsoft MAI
Modele génération images Microsoft MAI

En août dernier, Microsoft levait le voile sur ses tout premiers modèles développés en interne : MAI-Voice-1 et MAI-1-preview. Le premier est un modèle de synthèse vocale (text-to-speech), tandis que le second est un modèle de langage (text-to-text), destiné à comprendre et générer du texte, répondre à des questions, ou aider à la rédaction. Aujourd'hui, la firme de Redmond avance avec un tout nouveau modèle dédié à la génération d'images baptisé MAI-Image-1.

Ce modèle excelle dans la génération d’images photoréalistes, comme les jeux de lumière (par exemple, la lumière réfléchie, les reflets), les paysages, etc. Le géant attribue cela à "sa sélection rigoureuse des données et à une évaluation nuancée, axée sur des tâches reflétant des cas d’usage créatifs réels - en tenant compte des retours de professionnels des industries créatives".

Il est intéressant de noter que MAI-Image-1 est d'ores et déjà neuvième au classement LMArena des modèles text-to-image alors qu'il vient tout juste de sortir. Au sein de ce top 10, se trouvent également les modèles phares de Google, gemini-2.5-flash-image-preview (nano-banana) et imagen-4.0-ultra-generate-preview-06-06, ainsi que ceux de Tencent, Bytedance, et gpt-image-1 d'OpenAI. Si pour l'heure aucune date précise n'a été donnée, Microsoft indique qu'il rendra "MAI-Image-1 disponible très prochainement dans Copilot et Bing Image Creator".

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Cherche talents numériques
Les webinars