Stability AI publie Stable Diffusion 3 Medium, un modèle de génération d'images compact

Baptisé Stable Diffusion 3 Medium, le modèle ouvert texte-image est considéré par la start-up comme son modèle le plus avancé en la matière. Plutôt compact, il peut fonctionner sur des PC et ordinateurs portables grand public notamment. Stability AI affirme que le modèle est capable d'assimiler des commandes textuelles plus longues et les images sont plus réalistes.

Stable Diffusion 3 model - stability AI - start-up IA
Stable Diffusion 3 (SD3) Medium, son modèle d'IA texte-image le plus récent et le plus avancé de sa série Stable Diffusion 3, comporte seulement 2 milliards de paramètres.

Les avancées se poursuivent en matière d'intelligence artificielle générative. La start-up Stability AI poursuit ses efforts dans ce domaine malgré sa mauvaise santé financière. Dernière annonce en date : le lancement de Stable Diffusion 3 (SD3) Medium, son modèle d'IA texte-image le plus récent et le plus avancé de sa série Stable Diffusion 3. Comportant 2 milliards de paramètres, ce modèle relativement compact offre quelques fonctionnalités notables.

Il est capable de fournir des images avec des détails, des couleurs et un éclairage s'approchant du photoréalisme avec une qualité dans des styles variés. La start-up attribue ce succès à des innovations telles que le VAE à 16 canaux qui permettent d'obtenir davantage de réalisme au niveau des mains et des visages, entre autres. Le modèle comprend également des invites textuelles longues et complexes impliquant un raisonnement spatial, des éléments de composition, des actions et des styles. Autre avantage : la qualité de texte. Stability AI note moins d'erreurs d'orthographe, de formation des lettres et d'espacement grâce à son architecture Diffusion Transformer.

Un travail main dans la main avec Nvidia et AMD pour optimiser le modèle

La start-up britannique a également opéré un rapprochement stratégique avec plusieurs acteurs technologiques pour proposer un modèle de qualité. Nvidia a ainsi mis à disposition ses GPU RTX et TensorRT pour améliorer les performances de tous les modèles de la société, y compris SD3 Medium. "Les versions optimisées par TensorRT offriront les meilleures performances de leur catégorie, entraînant une augmentation des performances de 50%", indique Stability AI.

En parallèle, AMD s'est chargé d'optimiser l'inférence pour SD3 Medium pour divers appareils AMD, notamment les derniers APU, GPU grand public et GPU MI-300X Enterprise. Résultat : le LLM est plus économe en ressources et peut donc fonctionner sur des GPU grand public standard sans dégradation des performances. Il est également capable d'absorber des détails nuancés à partir de petits ensembles de données, un plus pour la personnalisation.

Un modèle publié sous licence non commerciale

IA générative et open source semblent finalement capables de s'entendre. Preuve en est avec la mise à disposition auprès de la communauté scientifique du modèle Stable Diffusion 3 Medium. Ce dernier est en effet publié sous la licence communautaire de recherche non commerciale Stability. Pour ce qui relève du milieu artistique, Stability a lancé une licence spéciale et encourage "les artistes professionnels, les designers, les développeurs et les passionnés d'IA à utiliser notre nouvelle licence Creator à des fins commerciales". Parallèlement à la version ouverte, Stable Diffusion 3 Medium est disponible sur API.

Un modèle text-to-audio également publié

A l'instar de ce que proposent nombre de ses concurrents, Stability AI tente d'élargir son champ d'activité avec la publication de différents modèles afin de rester dans la course. Quelques jours plus tôt, la start-up avait déjà fait part de la publication d'un autre modèle, cette fois-ci text-to-audio. Baptisé Stable Audio Open, ce modèle de 1,21 milliard de paramètres publié en open source sur Hugging Face peut générer jusqu'à 47 secondes d'échantillons et d'effets sonores.

Il a été entraîné sur les données audio de Freesound et de Free Music Archive. "Cela nous a permis de créer un modèle audio ouvert tout en respectant les droits des créateurs", précise la start-up. Les utilisateurs peuvent créer des rythmes de batterie, des riffs d'instruments, des sons ambiants, du bruitage et des éléments de production. Le modèle permet également des variations audio et un transfert de style d'échantillons audio.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.