L'Institut Curie se dote d'un entrepôt de données de santé (EDS). Validé par la Commission nationale de l'informatique et des libertés (Cnil), il encadre strictement l'utilisation des données de santé sur les aspects réglementaires, techniques et de sécurité. "Nous ne partions pas de rien", précise d'emblée Amaury Martin, directeur adjoint de l'Institut Curie responsable de la valorisation, des partenariats industriels, des données et du programme médico-scientifique, à L'Usine Digitale. En effet, le centre de lutte contre le cancer collecte des données depuis de nombreuses années. C'est d'ailleurs "le premier centre de lutte contre le cancer" à s'être doté d'un dossier patient informatisé "il y a 25 ans", ajoute le directeur adjoint.
Agréger l'ensemble des sources de données
Aujourd'hui, l'EDS – qui se présente sous la forme d'une base de données – regroupe les données issues des 360 000 patients avec un cas de cancer, 16 millions de comptes-rendus médicaux, 2,1 millions d'examens d'imagerie médicale (Scanner, IRM, TEP-Scan...), 25 000 lames numérisées d'anatomo-pathologies et 25 000 examens d'analyses moléculaires par an. "L'idée était d'agréger toutes ces sources de données et de pouvoir les utiliser de manière beaucoup plus flexibles, explique Amaury Martin. C'est pour cette raison que nous nous sommes engagés dans la construction d'un entrepôt de données de santé."
En pratique, l'entrepôt va notamment permettre de faciliter le partage des données par les patients soignés au sein de l'Institut. "Techniquement, en vertu du Règlement général sur la protection des données, nous devions réinformer les patients pour qu'ils donnent à nouveau leur consentement au partage de leurs données, indique le directeur. Avec l'entrepôt, nous pouvons désormais faire une information globale." Ce qui permet d'accélérer la mise en place des projets. Car, "notre priorité – je le rappelle – c'est que les personnes bénéficient des innovations", déclare Julien Guerin, directeur des données de l'Institut Curie, interrogé par L'Usine Digitale.
Un comité est chargé d'évaluer la pertinence et la faisabilité des projets
Pour valoriser sa masse de données, l'Institut s'est doté d'une direction des données en 2017. Composée d'une quinzaine d'experts, elle assure la gouvernance des données de santé pour permettre aux chercheurs et aux partenaires externes d'accéder aux données. C'est un comité qui est chargé d'évaluer les projets de recherche "sous tous ses contours : aspects budgétaires, réglementaires et juridiques", détaille Julien Guerin. Amaury Martin précise que tous les projets ne nécessiteront pas d'accéder à l'EDS. "Il y a des petits projets où nous allons continuer à recourir à des méthodologies classiques."
Les données collectées servent à développer des systèmes d'apprentissage automatique. L'un des enjeux majeurs est de développer une capacité à interpréter les comptes-rendus médicaux, explique le directeur des données. "80% de l'information pertinente est textuelle", indique-t-il. D'où l'intérêt pour l'Institut Curie de se pencher sur le traitement automatique du langage naturel (Natural language processing, NLP). "Cette approche va être démultipliée par l'arrivée des nouveaux modèles, les grands modèles de langage", poursuit-il. Dans ce cadre, l'Institut Curie utilise le modèle 7B de la start-up Mistral AI, dévoilé en septembre dernier. "Nous allons avoir deux ou trois projets de recherche, dévoile-t-il. L'un vise à développer des algorithmes qui permettront de reconstituer des bases de marqueurs immunohistochimies [méthode de localisation de protéines dans les cellules d'une coupe de tissu, ndlr] à partir des comptes-rendus d'anatomopathologie [spécialité médicale dédiée au diagnostic de lésion tumorale, ndlr]." Sur l'intelligence artificielle générative, l'Institut Curie est également "en cours de discussion avec d'autres partenaires, dont Google". "Gemini, pour ne pas le citer, nous intéresse beaucoup", annonce Amaury Martin.
L'utilisation des données doit également permettre à l'Institut Curie d'optimiser le pilotage de ses activités, explique le directeur des données. "C'est un angle qui est moins mis en avant mais c'est bien l'une de nos ambitions : évaluer nos pratiques, améliorer le parcours patient...", détaille-t-il. Actuellement, l'Institut Curie stocke ses données en interne. Cependant, avec l'IA générative nécessitant une importante puissance de calcul, sa politique d'hébergement est en cours d'évolution. "Nous avons besoin de plus en plus de GPU", note le directeur adjoint. Pour y accéder, "nous pourrions envisager un débordement dans le cloud pour des projets bien particuliers", ajoute-t-il.
80% des projets sont menés avec des partenaires externes
Dans le détail, en 2023, le comité a validé 160 projets dont la moitié portait sur l'accès à du "matériel biologique" par les équipes de recherche. L'occasion pour Amaury Martin de rappeler que l'EDS n'est absolument pas un équivalent du "Health Data Hub", cette base qui regroupe les données de santé des Français. Autre spécificité de Curie : 80% des projets sont menés avec des partenaires extérieurs académiques ou industriels. "Lorsque nous travaillons avec des partenaires externes, c'est encore plus complexe de sortir les données, explique Amaury Martin. L'EDS va justement nous aider à organiser davantage le cadre réglementaire, ces process." Dans le même temps, ajoute-t-il, il fait apparaître l'une des limites majeures aux projets liés aux données : le financement.
Actuellement, les projets de Curie, dont la construction de l'EDS, sont en grande majorité financés par les donateurs. Ils bénéficient également du soutien de l'Etat via des appels d'offres remportés. "Si on prend la période 2016-2026, cela représente près de 25 millions d'euros : une quinzaine de millions dédiés à la transformation numérique, en particulier au renouvellement du parc informatique, et une dizaine de millions de soutien institutionnel pour la direction des données", détaille Amaury Martin précisant que le maintien l'EDS nécessite entre 700 000 euros et un million d'euros par an.
Une sorte de concurrence déloyale avec les modèles américains où la cession est autorisée
"Aujourd'hui, je dirais que nous sommes arrivés à un peu près un tiers d'autofinancement. Le passage à plus de la moitié va devenir extrêmement compliqué", poursuit-il. Il cite la concurrence féroce provoquée par "les modèles économiques américains" au sein desquels "la cession des données est autorisée ce qui permet de les valoriser beaucoup plus facilement". "Quelque part, il y a une concurrence déloyale entre établissements, analyse-t-il. Demain, il faudrait aller vers des modèles où la circulation de la donnée est récompensée : plus un établissement ouvre ses données, les valorise, plus il devrait toucher une enveloppe qui lui permet de soutenir son activité."
Le directeur adjoint de l'Institut s'interroge également sur l'impact de "l'interprétation rigoriste de l'usage des données" par la France. "Malgré des investissements colossaux, nous restons dans un ventre mou : c'est très long d'accéder à des données", ajoute-t-il. Les délais d'accès aux données ont atteint en moyenne 228 jours pour la recherche privée et 284 jours pour la recherche publique entre août 2017 et juillet 2023, d'après le rapport annuel de la Cour des comptes sur l'application des lois de financement de la sécurité sociale, publié le 29 mai dernier.
Il cite aussi "les comités de protection des personnes" qui sont "très présents lors des essais cliniques". "Très souvent, des découvertes faites au sein de l'Institut Curie bénéficient à des patients à l'étranger avant de bénéficier à des patients français", raconte-t-il. Enfin, il regrette les amalgames provoqués par des affaires liées à des grandes entreprises technologiques peu regardantes sur la protection des données. "Sous le mot 'données', on mélange un peu tout, dénonce-t-il. Nous, nous avons comme ambition de sauver des vies."


![[ÉNERGIES] Déployez vos projets IA à l’échelle, inspirez-vous du cas ENGIE Entreprises et Collectivités](https://cdn.webikeo.com/webinar_logo/2025-10-24-ac93013fcd6c2ea907b5a091f0e74c90.png)
