Foxconn lance son premier LLM open source basé sur Llama 3.1 pour ses activités internes

Le fabricant taïwanais, connu pour assembler des iPhone pour Apple et pour la production de serveurs pour Nvidia, dévoile un modèle intéressant. Entraîné sur des H100, il aurait été achevé en l'espace de quatre semaines seulement à en croire la firme.

Célia Séramour

Publié le 10 mars 2025 à 11h08

Les patrons de Nvidia et Foxconn lors du Hon Hai Tech Day 2023 à Taipei — Les patrons de Nvidia et de Foxconn lors du Hon Hai Tech Day 2023 à Taipei.

Foxconn se met à l'intelligence artificielle. L'entreprise taïwanaise a annoncé ce lundi 10 mars avoir lancé son premier grand modèle de langage en chinois traditionnel "avec une méthode d'entraînement de modèle plus efficace et moins coûteuse" selon ses dires. Baptisé "FoxBrain", il a été entraîné à l'aide de 120 GPU H100 de Nvidia, mis à l'échelle avec le réseau Nvidia Quantum-2 InfiniBand, et a été achevé en seulement quatre semaines environ.

"Notre modèle FoxBrain a adopté une stratégie d'entraînement très efficace, en se concentrant sur l’optimisation du processus d'entraînement plutôt que sur l’accumulation aveugle de puissance de calcul", commente le Dr Yung-Hui Li, directeur du Centre de recherche en intelligence artificielle de l’Institut de recherche Hon Hai.

Un LLM basé sur Llama 3.1 de Meta

Par rapport aux modèles d'inférence récemment lancés sur le marché, la méthode d'entraînement de modèle choisie par Foxconn "marque une nouvelle étape dans le développement de la technologie d'IA de Taiwan", assure l'entreprise. Pour garantir des performances et une stabilité relativement élevées, Foxconn a en effet choisi une architecture d'entraînement multi-noeuds.

Dans le détail, FoxBrain est basé sur l'architecture Meta Llama 3.1 à 70 milliards de paramètres. Dans la plupart des catégories parmi les tests Taïwan MMLU+, il surpasse Llama-3.1-70B-Instruct de Meta ainsi que la version Taiwan-Llama-70B-Instruct. Il excelle particulièrement en mathématiques et en raisonnement logique. Sa fenêtre contextuelle est de 128 000 jetons.

Foxconn a reconnu qu’il existe un léger écart de performance par rapport au modèle de distillation de DeepSeek en Chine, mais que les performances globales de FoxBrain sont très proches des standards mondiaux.

Conçu pour des applications internes, mais peut servir dans d'autres domaines

La publication d'un tel LLM est intéressante pour plusieurs raisons : tout d'abord, il s'agit du premier modèle de Taïwan doté de capacités de raisonnement et optimisé pour le chinois traditionnel ainsi que les styles linguistiques taïwanais. De plus, initialement conçu pour des applications internes, FoxBrain peut couvrir d'autres domaines tels que l'analyse de données, l'aide à la décision, la collaboration documentaire, les mathématiques, le raisonnement et la résolution de problèmes, ainsi que la génération de code.

La firme taïwanaise prévoit ainsi de travailler avec des partenaires technologiques afin d’étendre les applications du modèle, partager ses informations en open source et promouvoir l'IA dans les secteurs de la fabrication, de la gestion des chaînes d’approvisionnement et de la prise de décision.

Plus de détails dévoilés lors de la conférence GTC

Nvidia, fidèle à la firme, a apporté son soutien grâce à son superordinateur basé à Taïwan, "Taipei-1", et a fourni des conseils techniques lors de l’entraînement du modèle, précise Foxconn. Rappelons que ce dernier est implanté dans la ville de Kaohsiung, au sud de l’île. Foxconn prévoit de dévoiler plus de détails sur FoxBrain lors de la conférence des développeurs GTC de Nvidia qui a lieu dans quelques jours.

Foxconn lance son premier LLM open source basé sur Llama 3.1 pour ses activités internes

Un LLM basé sur Llama 3.1 de Meta

Conçu pour des applications internes, mais peut servir dans d'autres domaines

Plus de détails dévoilés lors de la conférence GTC

À lire aussi