IA souveraine : Siemens détaille son projet d'infrastructure LLM 100% maîtrisée

Décidé à placer l'intelligence artificielle au coeur de ses offres pour les années à venir, Siemens a annoncé un investissement d'un milliard d'euros sur les trois prochaines années. Parallèlement, l'industriel a entrepris un chantier de taille en interne : construire sa propre infrastructure d'IA. Retour sur un projet considérable où l'open source prend toute son importance.

Célia Séramour

Publié le 24 novembre 2025 à 12h02

Le 13 novembre dernier, Siemens présentait sa stratégie "Siemens One Tech Company" pour "franchir un cap en matière de croissance" lors de l’événement consacré à la présentation des résultats financiers pour son année fiscale 2025. Fort d'un résultat record pour cette année (10,4 milliards d'euros de bénéfice), et "d'un portefeuille d’activité offrant une forte synergie, nous entendons doubler le chiffre d'affaires dégagé par nos activités digitales, capitaliser sur les régions et les marchés verticaux en croissance et mettre à l’échelle nos offres dans le domaine de l’IA, en investissant un milliard d'euros sur les trois prochaines années".

A date, le géant industriel compte environ 1500 profils spécialisés en intelligence artificielle qui travaillent dans toute l'entreprise. Cet investissement d'un milliard doit donc l'aider à développer et à mettre à l'échelle ses compétences et ses offres en la matière. L'équipe code.siemens.com a récemment publié un billet de blog évoquant la stratégie de Siemens en matière d'intelligence artificielle, mais aussi de souveraineté, terme cher à l'entreprise.

Exit les instances AWS, place au cluster interne

Rappelant ce que le terme "souveraineté" évoque pour Siemens – confidentialité des données, indépendance vis-à-vis des fournisseurs, conformité, prévisibilité des coûts ou encore personnalisation et durabilité, l'équipe est donc revenue en détails sur ce à quoi ressemble son infrastructure actuelle. "Initialement, nous utilisions des instances GPU AWS comme matériel sous-jacent. Depuis, nous avons évolué vers une configuration avec un petit cluster GPU interne", explique l'équipe d'ingénieurs.

Dans son data center de Zoug, en Suisse, Siemens exploite désormais un cluster GPU multi-génération, offrant toute la flexibilité nécessaire pour servir à la fois des modèles rapides et des LLM plus volumineux. Sa flotte actuelle inclut des L40S et H200 : le premier est idéal pour l’inférence générale, le fine-tuning et les workloads batch, tandis que le second est plus adapté pour de grands LLM open weight et les charges lourdes.

Une kyrielle d'outils open source mobilisés

Pour ce qui est de la stack, Siemens assume, cette dernière est clairement orientée open source. "Chaque composant est sur GitHub, et nous contribuons dès que possible (ajout de fonctionnalités, correction de bugs)", précise l'équipe dans son article. Un moteur d’inférence à haut débit et faible latence a ainsi été construit avec PagedAttention, avec planification multi-GPU et parallélisme tensoriel optionnel. "C’est le cœur de notre stack", ajoute-t-elle.

A cela s'ajoute un routeur de requêtes qui répartit les requêtes entre les nœuds GPU, gère la charge et applique des quotas. Côté gestion des API se trouvent Kong et un portail Self-Service Siemens pour l’authentification, la gestion des clés, le rate limiting et l’analytique. Enfin, l'équipe s'appuie sur Prometheus, Grafana et ElasticSearch (avec exporters GPU pour vLLM) pour l'observabilité.

Mistral Code embarqué

Il est intéressant de voir que cette stratégie open source est poussée jusque dans l'interface utilisateur. Si de nombreux plugins open source ou commerciaux existent pour les assistants développeurs et les interfaces de chat compatibles OpenAI, Siemens a fait le choix d'autres options pour ses développeurs.

Pour ce qui est des assistants développeurs, ces derniers s'appuient sur continue.dev pour une expérience "pair-programmer" dans VS Code et JetBrains, compatible avec des LLM open weight ou commerciaux. Plus précisément, les développeurs s'appuient sur Mistral Code qui n'est autre qu'un fork de l'outil Continue spécialisé dans les modèles Mistral.

Côté assistants pour "l'agentic coding", ils utilisent Cline, un plugin IDE qui fait partie des favoris pour la génération de code pilotée par LLM. Enfin, pour les chats destinés aux clients, les développeurs de Siemens utilisent LibreChat et ChatBox, "frontends open source bien intégrés à nos APIs LLM".

Quels objectifs poursuivis ?

Cette configuration doit apporter toute la flexibilité recherchée par les équipes de développement chez Siemens. Ces derniers affirment pouvoir déployer et fournir aux développeurs n’importe quelle version LLM supportée par vLLM. "Nous avons testé de nombreux modèles open weight populaires : Llama, Qwen, DeepSeek, gpt-oss, plusieurs variantes de Mistral, etc. Certains restent, d’autres sont remplacés par des modèles plus performants".

Les usages internes étant en pleine croissance, Siemens doit pouvoir garder une certaine flexibilité. C'est dans ce contexte que les ressources GPU de la firme sont par ailleurs utilisées pour proposer plusieurs LLM populaires dans différentes catégories : usage général, coding (prioritaire pour l'industriel), raisonnement, image-to-text, modèles d’embedding et de reranking (l'audio étant bientôt disponible).

Quels bénéfices à exploiter sa propre infrastructure IA ?

A date, les équipes développement de Siemens notent plusieurs bénéfices importants suite à cette construction d'une infrastructure indépendante. "Nous avons désormais un contrôle total sur l’ensemble de notre pile matérielle et logicielle IA. Nous pouvons facilement remplacer ou adapter n’importe quel composant que nous utilisons. Nous pouvons intégrer et servir n’importe quel LLM open weight (Qwen, Llama 3 8B, etc.) ou modèle commercial (par exemple Mistral via licence privée) sans difficulté. Les nouvelles versions de vLLM et les modèles peuvent être testés et déployés rapidement".

Parmi les autres avantages, sont notamment cités une une auditabilité complète, une prévisibilité des coûts - après l’investissement initial pour l’achat du matériel, chaque requête d’inférence ne nous coûte que quelques centimes d’électricité - ainsi qu'une meilleure durabilité.

"Notre infrastructure GPU alimentée par l’énergie solaire et refroidie par l’eau du lac présente un Power Usage Effectiveness (PUE) bien meilleur que celui des data centers cloud classiques", précise l'équipe. In fine, les équipes se retrouvent libérées de plusieurs chaînes bien connues dans le secteur : "Nous ne sommes pas liés aux tarifs GPU, à la disponibilité ou aux changements de politique d’un fournisseur cloud unique, ni aux facteurs externes comme le contexte géopolitique".