EvolutionaryScale lève 142 millions de dollars pour doper la biologie à l'IA générative

La start-up EvolutionaryScale présente ESM3, son premier modèle d'IA générative pour la biologie qui raisonne simultanément sur la séquence, la structure et la fonction des protéines. Entraîné sur des milliards de données, il "rend la biologie programmable" selon ses fondateurs et est capable de suivre des instructions pour générer de nouvelles protéines. Les scientifiques peuvent interagir avec, en le guidant pour créer une myriade d'applications dans des domaines tels que la médecine, la recherche biologique et l'énergie propre.

EvolutionaryScale
EvolutionaryScale

"Si nous pouvions apprendre à lire et à écrire le code de la vie, la biologie deviendrait programmable. Les essais et les erreurs seraient remplacés par la logique, et les expériences laborieuses par la simulation", indique la start-up EvolutionaryScale en préambule de la présentation de son activité. Cette semaine, la jeune pousse a annoncé lever 142 millions de dollars en financement de démarrage, dirigé par Nat Friedman, Daniel Gross et Lux Capital. Amazon Web Services (AWS) et la branche capital-risque de Nvidia ont également participé à la levée de fonds.

Qualifiant cet événement de "moment ChatGPT pour la biologie", Josh Wolfe, co-fondateur et associé de Lux Capital, a déclaré à Reuters que l'entreprise avait mis au point le premier grand modèle de langage pour la création de protéines et d'autres systèmes biologiques. La start-up souhaite en effet utiliser son modèle d'IA appelé ESM3 pour renforce la "capacité à programmer et à créer à l'aide du code de la vie".

Repousser les barrières de la biologie grâce à l'IA

Alex Rives, actuel chief scientist de la start-up et ancien de Meta AI, affirme que l'entreprise envisage d'utiliser son IA pour un large éventail d'applications, allant de l'accélération de la découverte de médicaments à la conception de microbes capables de décomposer le plastique présent dans l'environnement. Des versions personnalisées sont également en cours de développement pour ce type d'usage. Avec ce financement, la start-up compte donc poursuivre le développement de ses modèles, et recruter activement pour établir des partenariats avec l'industrie biotechnologique.

A date, la start-up a développé une famille de modèles ESM, le plus petit d'entre eux étant disponible en open source pour la recherche non commerciale. Il est prévu qu'AWS et Nvidia rendent les modèles disponibles commercialement, y compris le plus grand modèle ESM3. Le modèle est en effet entraîné sur des GPU signés Nvidia et est qualifié par la start-up de "modèle le plus puissant jamais appliqué à l'entraînement d'un modèle biologique, entraîné avec plus de 1x1024 FLOPS et 98 milliards de paramètres".

Une évolution qui aurait pris l'équivalent de 500 millions d'années dans la nature

La société a déclaré avoir utilisé son modèle "pour concevoir une protéine fluorescente qui s'écarte de la trajectoire évolutive des protéines fluorescentes naturelles". Pour rappel, les protéines fluorescentes (GFP) sont responsables des couleurs vives des méduses et des coraux, et sont des outils importants dans la biotechnologie moderne. La protéine créée par la start-up et baptisée esmGFP a une séquence qui n'est similaire qu'à 58% à la protéine fluorescente connue la plus proche.

"D'après le taux de diversification des GFP trouvées dans la nature, nous estimons que cette génération d'une nouvelle protéine fluorescente équivaut à simuler plus de 500 millions d'années d'évolution". Pour en arriver là, les chercheurs d'EvolutionaryScale ont transformé la structure et la fonction tridimensionnelles que sont les trois des propriétés biologiques fondamentales des protéines - la séquence, la structure et la fonction - en alphabets.

Une base de données représentative de la diversité de la Terre

L'objectif de ce travail est d'écrire chaque structure tridimensionnelle sous la forme d'une séquence de lettres. "Cela permet à ESM3 d'être entraîné à l'échelle, en débloquant des capacités génératives émergentes. Le vocabulaire d'ESM3 fait le lien entre la séquence, la structure et la fonction au sein d'un même modèle de langage", affirme la société.

Le modèle acquiert donc une compréhension approfondie du lien entre la séquence, la structure et la fonction à travers des données variées représentatives de la diversité de la Terre – qu'il s'agisse de la forêt amazonienne aux profondeurs des océans, en passant par les environnements extrêmes tels que les cheminées hydrothermales et les microbes présents dans une poignée de terre. "À l'échelle de milliards de protéines et de milliards de paramètres, ESM3 apprend à simuler l'évolution", complète-t-elle.

Générer de nouvelles protéines

Le pouvoir de raisonnement multimodal d'ESM3 permet aux scientifiques de générer de nouvelles protéines avec un degré de contrôle sans précédent, estime l'entreprise. Elle donne notamment en exemple sa capacité à combiner la structure, la séquence et la fonction pour "proposer un échafaudage potentiel pour le site actif de la PETase, une enzyme qui dégrade le polyéthylène téréphtalate (PET)" et s'avère intéressant pour les ingénieurs en protéines qui veulent décomposer les déchets plastiques.

Les chercheurs indiquent par ailleurs que l'ESM3 s'améliore avec le retour d'information en utilisant des méthodes d'alignement similaires à l'apprentissage par renforcement à partir du retour d'information humain (RLHF) appliqué dans les LLM. Le retour d'informations provenant d'expériences en laboratoire ou de données expérimentales existantes pourrait également être utilisé en complément pour améliorer le modèle et ses capacités génératives.

L'IA en soutien au développement de nouveaux systèmes biologiques

L'intégration de l'intelligence artificielle – notamment l'IA générative – dans des secteurs aussi critiques que la biologie suscite un vif intérêt. En mai dernier, Sanofi a communiqué sur ses intentions d'accélérer le développement et la commercialisation de médicaments grâce à l'intelligence artificielle. Pour ce faire, l'industriel n'hésite pas à s'entourer d'entreprises américaines, à commencer par OpenAI et Formation Bio.

Le contrat pluriannuel "est le premier à réunir expertise intersectorielle et données propriétaires pour construire et entraîner les modèles d'OpenAI et les logiciels personnalisés conçus spécifiquement pour le développement de médicaments", affirme un porte-parole de Sanofi.

Dans le cas d'EvolutionaryScale, le modèle ESM3 est un outil destiné avant tout aux scientifiques qui travaillent sur la conception de protéines et la biologie synthétique. "ESM3 n'est que la première étape de notre feuille de route pour la biologie de la programmation. Nous pensons que l'avenir sera constitué de modèles de plus en plus multimodaux qui apprennent des données biologiques et s'intègrent à toutes les échelles de la vie, des molécules individuelles aux cellules", conclut l'entreprise.

Newsletter L'Usine Digitale
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Cherche talents numériques
Les webinars