Hugging Face rachète XetHub pour héberger des modèles d’IA plus volumineux

La start-up américaine XetHub aide les équipes dédiées au machine learning à travailler plus efficacement avec de grands modèles et ensembles de données. Avec cette acquisition, Hugging Face compte améliorer son système de stockage et rendre le chargement de modèles plus simple pour les développeurs.

Hugging Face
La plateforme collaborative open source Hugging Face souhaite permettre aux développeurs d'héberger des modèles d'IA plus lourds.

La plateforme collaborative open source Hugging Face a annoncé le 8 août l’acquisition de la start-up américaine XetHub, qui aide les développeurs à gérer leurs propres fichiers sur des projets liés à l’intelligence artificielle. Le montant de l’acquisition n’a pas été dévoilé, mais devrait être supérieur aux 10 millions de dollars (9,16 millions d’euros) dépensés en juin pour racheter la start-up Argilla. Cette dernière développe un outil de création d’ensembles de données d’entraînement pour l’IA.  

Une start-up fondée par des anciens d’Apple

XetHub a été créée en 2021 par Yucheng Low, Ajit Banerjee et Rajat Arya, qui ont tous les trois travaillé sur le développement de l’infrastructure interne de machine learning d’Apple. Basée à Seattle, la start-up met une plateforme à disposition des développeurs afin qu’ils puissent stocker des fichiers de code et d’autres ressources utilisées dans le cadre d’un projet d’IA. Elle propose aussi certaines fonctionnalités pour faciliter l’interaction entre ces fichiers. La start-up avait levé 7,5 millions de dollars (6,87 millions d’euros) en janvier 2023, à l’occasion d’un tour de seed mené par le capital-risqueur Madrona.

De son côté, Hugging Face revendique le stockage de plus d’1,3 million de modèles d’IA et de 450 000 ensemble de données totalisant jusqu’à 12 pétaoctets, avec un volume de requêtes quotidiennes dépassant le milliard. La start-up franco-américaine conserve habituellement les modèles d’IA et datasets de ses utilisateurs dans Git, un outil open source dédié à la gestion de fichiers de code. Cet outil fonctionne de pair avec LFS (“Large File Storage”), qui permet à Git de stocker jusqu’à plusieurs gigaoctets par modèle ou dataset, au-delà de sa capacité initiale.

Accueillir de plus grands volumes de données

“Git LFS n’a jamais été conçu pour le type de fichiers volumineux que nous traitons avec l’IA, qui ne sont pas seulement volumineux, mais très très volumineux”, nuance Hugging Face dans son communiqué. L’acquisition de XetHub va alors permettre à Hugging Face d’améliorer son système de stockage, et d’élargir ainsi sa base de nouveaux utilisateurs.

L’intégration des solutions de XetHub dans Hugging Face devrait aussi permettre de simplifier le chargement de nouveaux fichiers de stockage. Jusqu’à présent, lorsqu’un développeur souhaitait mettre à jour un modèle d’IA ou dataset hébergé sur la plateforme, il devait à nouveau télécharger l’intégralité du fichier. La technologie développée par XetHub décompose ces modèles en petits fragments. Ainsi lors d’une mise à jour, il ne restera plus qu’à télécharger les fragments comprenant une nouvelle ligne. Le calendrier d’intégration n’a pas été rendu public, mais XetHub fermera sa plateforme le 30 septembre.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.