Les avancées se poursuivent en matière d'intelligence artificielle générative. La start-up Stability AI poursuit ses efforts dans ce domaine malgré sa mauvaise santé financière. Dernière annonce en date : le lancement de Stable Diffusion 3 (SD3) Medium, son modèle d'IA texte-image le plus récent et le plus avancé de sa série Stable Diffusion 3. Comportant 2 milliards de paramètres, ce modèle relativement compact offre quelques fonctionnalités notables.
Il est capable de fournir des images avec des détails, des couleurs et un éclairage s'approchant du photoréalisme avec une qualité dans des styles variés. La start-up attribue ce succès à des innovations telles que le VAE à 16 canaux qui permettent d'obtenir davantage de réalisme au niveau des mains et des visages, entre autres. Le modèle comprend également des invites textuelles longues et complexes impliquant un raisonnement spatial, des éléments de composition, des actions et des styles. Autre avantage : la qualité de texte. Stability AI note moins d'erreurs d'orthographe, de formation des lettres et d'espacement grâce à son architecture Diffusion Transformer.
Un travail main dans la main avec Nvidia et AMD pour optimiser le modèle
La start-up britannique a également opéré un rapprochement stratégique avec plusieurs acteurs technologiques pour proposer un modèle de qualité. Nvidia a ainsi mis à disposition ses GPU RTX et TensorRT pour améliorer les performances de tous les modèles de la société, y compris SD3 Medium. "Les versions optimisées par TensorRT offriront les meilleures performances de leur catégorie, entraînant une augmentation des performances de 50%", indique Stability AI.
En parallèle, AMD s'est chargé d'optimiser l'inférence pour SD3 Medium pour divers appareils AMD, notamment les derniers APU, GPU grand public et GPU MI-300X Enterprise. Résultat : le LLM est plus économe en ressources et peut donc fonctionner sur des GPU grand public standard sans dégradation des performances. Il est également capable d'absorber des détails nuancés à partir de petits ensembles de données, un plus pour la personnalisation.
Un modèle publié sous licence non commerciale
IA générative et open source semblent finalement capables de s'entendre. Preuve en est avec la mise à disposition auprès de la communauté scientifique du modèle Stable Diffusion 3 Medium. Ce dernier est en effet publié sous la licence communautaire de recherche non commerciale Stability. Pour ce qui relève du milieu artistique, Stability a lancé une licence spéciale et encourage "les artistes professionnels, les designers, les développeurs et les passionnés d'IA à utiliser notre nouvelle licence Creator à des fins commerciales". Parallèlement à la version ouverte, Stable Diffusion 3 Medium est disponible sur API.
Un modèle text-to-audio également publié
A l'instar de ce que proposent nombre de ses concurrents, Stability AI tente d'élargir son champ d'activité avec la publication de différents modèles afin de rester dans la course. Quelques jours plus tôt, la start-up avait déjà fait part de la publication d'un autre modèle, cette fois-ci text-to-audio. Baptisé Stable Audio Open, ce modèle de 1,21 milliard de paramètres publié en open source sur Hugging Face peut générer jusqu'à 47 secondes d'échantillons et d'effets sonores.
Il a été entraîné sur les données audio de Freesound et de Free Music Archive. "Cela nous a permis de créer un modèle audio ouvert tout en respectant les droits des créateurs", précise la start-up. Les utilisateurs peuvent créer des rythmes de batterie, des riffs d'instruments, des sons ambiants, du bruitage et des éléments de production. Le modèle permet également des variations audio et un transfert de style d'échantillons audio.


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
