En août dernier, Microsoft levait le voile sur ses tout premiers modèles développés en interne : MAI-Voice-1 et MAI-1-preview. Le premier est un modèle de synthèse vocale (text-to-speech), tandis que le second est un modèle de langage (text-to-text), destiné à comprendre et générer du texte, répondre à des questions, ou aider à la rédaction. Aujourd'hui, la firme de Redmond avance avec un tout nouveau modèle dédié à la génération d'images baptisé MAI-Image-1.
Ce modèle excelle dans la génération d’images photoréalistes, comme les jeux de lumière (par exemple, la lumière réfléchie, les reflets), les paysages, etc. Le géant attribue cela à "sa sélection rigoureuse des données et à une évaluation nuancée, axée sur des tâches reflétant des cas d’usage créatifs réels - en tenant compte des retours de professionnels des industries créatives".
Il est intéressant de noter que MAI-Image-1 est d'ores et déjà neuvième au classement LMArena des modèles text-to-image alors qu'il vient tout juste de sortir. Au sein de ce top 10, se trouvent également les modèles phares de Google, gemini-2.5-flash-image-preview (nano-banana) et imagen-4.0-ultra-generate-preview-06-06, ainsi que ceux de Tencent, Bytedance, et gpt-image-1 d'OpenAI. Si pour l'heure aucune date précise n'a été donnée, Microsoft indique qu'il rendra "MAI-Image-1 disponible très prochainement dans Copilot et Bing Image Creator".


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
