Après une entrée en trombe sur le marché de l'IA générative avec son modèle DeepSeek-R1, capable d'atteindre des performances égales à celles du modèle o1 d'OpenAI, DeepSeek attaque la coqueluche de l'IA sur un autre flanc : la génération d'images. Fin 2024, elle publiait JanusFlow, modèle multimodal et framework qui intègre des modèles de langage autoregressifs avec une technique de modélisation générative appelée "rectified flow". Cette semaine, la start-up a publié Janus-Pro qu'elle décrit dans un article de recherche comme "une version avancée de Janus, qui améliore considérablement la compréhension multimodale et la génération visuelle".
Janus-Pro intègre spécifiquement une stratégie d'entraînement optimisée, des données d'entraînement élargies et une mise à l'échelle vers une taille de modèle plus grande. En conséquence, le modèle comprend mieux les instructions textuelles et les traduit mieux en images.
Un modèle qui se mesure à DALL-E 3 et Stable Diffusion 3 Medium
La famille Janus-Pro comprend deux tailles de modèles comportant respectivement 1 milliard et 7 milliards de paramètres, "démontrant la scalabilité de la méthode d'encodage et de décodage visuel", assure DeepSeek. Précisons que toujours dans sa stratégie d'open source, DeepSeek indique que le code et les modèles sont disponibles publiquement.

Les chercheurs de DeepSeek ont évalué Janus-Pro sur plusieurs benchmarks. Les résultats révèlent ses capacités supérieures de compréhension multimodale et de suivi des instructions : la version 7B atteint un score de 79,2 sur le benchmark de compréhension multimodale MMBench, surpassant d'autres modèles multimodaux similaires tels que Janus (69,4), TokenFlow (68,9) et MetaMorph (75,2).
Le benchmark de suivi des instructions de texte vers image GenEval montre également que Janus-Pro-7B obtient un score de 0,80, dépassant Janus (0,61), DALL-E 3 (0,67) et Stable Diffusion 3 Medium (0,74).
Des limites identifiées
Cependant, Janus-Pro présente encore certaines limitations, indique DeepSeek. En termes de compréhension multimodale, la résolution d'entrée est limitée à 384×384 pixels, ce qui affecte ses performances dans des tâches de précision telles que la reconnaissance optique de caractères. Par ailleurs, "la faible résolution, combinée aux pertes de reconstruction introduites par le tokenizer visuel, produit des images qui, bien que riches en contenu sémantique, manquent encore de détails", précisent les chercheurs dans l'article scientifique dédié. Augmenter la résolution des images pourrait atténuer ces problèmes, estiment-ils.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
