Des algorithmes qui ont la forme avec Yann Ponty

18 décembre 2020

Vivant Numérique

Manip Trip, la websérie qui vous emmène aux côtés des scientifiques CNRS à la découverte des manipes réalisées en laboratoires, s’intéresse dans un nouvel épisode aux travaux de Yann Ponty, bio-informaticien au Laboratoire d’Informatique de l’Ecole Polytechnique - LIX (CNRS/Ecole Polytechnique, Institut Polytechnique de Paris). Il nous en dit davantage sur son domaine de recherche interdisciplinaire dans cette interview :

Yann Ponty, vous êtes bio-informaticien, vous vous intéressez notamment à la forme de l’ARN, pouvez-vous nous en dire plus sur ce domaine de recherche ?

Les ARN « Acides RiboNucléiques » peuvent, à la fois, contenir de l’information génétique, comme l’ADN, et agir directement, comme les protéines, au sein de la cellule. Ils constituent un objet d’étude de plus en plus intéressant pour la biologie et la médecine. On trouve, par exemple, des ARN au cœur des premiers vaccins contre la COVID-19, dans les traitements contre certaines maladies génétiques, ou comme guide de la technique des « ciseaux génétiques » CRISPR/Cas9, pour laquelle un duo franco/américain a été récemment récompensée par le prix Nobel 2020 de chimie !

Comprendre les mécanismes de repliement des ARN permet, in fine, une compréhension de mécanismes biologiques plus complexes, comme l’impact de mutations génétiques pathogènes dans des régions ne codant pas pour des protéines. Résoudre cette question devrait accélérer la conception de nouvelles catégories de molécules thérapeutiques, potentiellement plus précises et efficaces que les petites molécules organiques, encore très largement favorisées par l’industrie pharmaceutique. L’ARN est relativement simple à modéliser du point de vue de l’informatique. En effet, les principes physiques gouvernant son repliement peuvent être assimilés, en première approximation, à un puzzle combinatoire. Des algorithmes efficaces permettent en général de résoudre ce problème, malgré l’explosion combinatoire du nombre de repliements. La qualité de leur prédiction est aussi très satisfaisante, mais peut toujours être améliorée, par exemple en y incorporant des données expérimentales produites pour un ARN précis.

Les principes physiques gouvernant le repliement de l'ARN peuvent être assimilés, en première approximation, à un puzzle combinatoire.

Quel est l’apport principal de l’informatique aux sciences biologiques actuellement ?

La bioinformatique est aujourd’hui centrale à presque toutes les branches de la biologie moderne, dont elle est souvent devenue l’instrument d’observation privilégié. En effet, de nombreux protocoles expérimentaux sont aujourd’hui basés sur le séquençage haut-débit, qui produit de grands volumes de séquences, issues initialement du matériel génomique et de taille variable en fonction des technologies. En fonction de leur abondance sur certaines régions, ou des modifications qu’on y observe par comparaison à l’ADN, un traitement informatique de ces données révèle l’organisation 3D de notre ADN (épigénétique), l’impact des conditions sur l’expression des gènes (transcriptomique), la diversité des bactéries et virus présents dans un échantillon (métagénomique), et même les structures et interactions des macromolécules (biologie structurale). Dans tous ces exemples, un challenge historique de la bioinformatique est de développer des algorithmes permettant un traitement efficace du « tsunami » de données produites par les expériences de séquençage, d’en corriger les biais expérimentaux tout en respectant leur spécificité.

Au-delà du séquençage, un pan conséquent de la bioinformatique s’intéresse à la prédiction de l’inobservable. Par exemple, à l’échelle nanométrique de la structure de l’ARN, la plupart des expériences produisent des données bruitées et indirectes, et doivent ensuite faire l’objet d’une modélisation à différentes échelles. La bioinformatique propose des simplifications acceptables à chaque échelle, via des modèles dont les paramètres doivent être devinés à partir d’expérience simples. Dans tous ces contextes, les données observables doivent faire l’objet d’une prédiction, basée sur des hypothèses et paradigmes spécifiques à chaque sous-domaine (rasoir d’Occam, maximisation de la vraisemblance, équilibre thermodynamique …). La prédiction se ramène souvent à un problème d’optimisation. L’exécution d’une méthode bioinformatique prédictive peut être assimilée à une automatisation, et aussi une objectivisation d’un travail de modélisation, et fournit donc des hypothèses testables à partir desquelles la biologie peut avancer.

En tant qu’informaticien, mon but est de concevoir, implémenter et calibrer des méthodes, basées sur des algorithmes, et contribuer in fine à la production de connaissances en biologie.

Quels sont les principaux challenges de la bio-informatique dans la modélisation des objets biologiques, et des ARN en particulier ?

En tant qu’informaticien, mon but est de concevoir, implémenter et calibrer des méthodes, basées sur des algorithmes, et contribuer in fine à la production de connaissances en biologie. Certains des challenges sont spécifiques à un domaine d’application, mais en général tout travail méthodologique en bioinformatique se confronte à deux grandes questions : quelle simplification de la réalité physique (granularité) choisir pour étudier un phénomène ? Comment tirer maximalement parti de données bruitées, issues d’observations partielles ? La bioinformatique se distingue par la nécessité de fournir des solutions effectives, c’est-à-dire algorithmiquement efficaces, ce qui induit des contraintes supplémentaires sur la granularité des modèles choisis.

Par exemple, prédire la structure 3D la plus stable d’un ARN est un problème informatique complexe, dit « NP difficile » car au moins aussi dur que toute une famille de problèmes informatiques de référence, qu'il ne sera probablement jamais possible de résoudre en temps raisonnable, même sur un puissant calculateur. En se restreignant à la structure secondaire, un sous-ensemble des contacts induits par le repliement (mais sans les coordonnées 3D), alors on peut concevoir des algorithmes pouvant être exécutés en quelques secondes sur un ordinateur portable. Cependant, ce niveau de détail, bien que déjà très utile pour comprendre l’évolution des familles d’ARN, est alors parfois trop grossier pour comprendre finement l’interaction de l’ARN avec son milieu, l’impact de certaines mutations, etc. Un challenge actuel consiste donc à trouver des modèles plus précis de la réalité physique qui admettent néanmoins des algorithmes exacts et efficaces.

A l’inverse, la découverte de problèmes algorithmiques met en évidence des questions allant au-delà de la bioinformatique, et pertinentes plus généralement pour l’informatique en tant que science. Mes recherches ont ainsi des liens forts avec l’algorithmique combinatoire, qui s’attache à résoudre efficacement ou comprendre la complexité "intrinsèque" des problèmes.

Concrètement, comment se passe le travail avec les biologistes ?

En général, la collaboration avec des biologistes est centrée sur un travail de modélisation structurale. Nous concevons un traitement automatique en combinant des « briques de bases logicielles », de façon à tirer au maximum parti des données disponibles. Nous produisons et proposons ensuite un ensemble de prédictions et nous en évaluons la crédibilité avec nos collègues « experts ». Cette confrontation nous amène alors, selon le cas, à valider un ou des modèles, à raffiner notre méthode d’analyse, ou encore à concevoir des expériences complémentaires pour pouvoir conclure.

Moins fréquemment, mais néanmoins au cœur de la collaboration avec Bruno Sargueil1 sur les protocoles de sondage chimique (illustrée dans la vidéo), le travail collaboratif peut intervenir en amont, lors de la conception de la méthode algorithmique elle-même. Dans notre cas, un travail préliminaire important était nécessaire afin d’interpréter, et d’intégrer au sein d’une méthode de bioinformatique, les données obtenues par sondage chimique. Dans ces protocoles expérimentaux, on produit une information partielle sur la structure de l’ARN en l’exposant à des petites molécules appelées « réactifs ». Nos interactions avec l’équipe de Bruno Sargueil ont non seulement inspiré les choix de conception de notre méthode, appelée IPANEMAP, mais ont aussi permis de raffiner les protocoles expérimentaux, en identifiant les combinaisons de conditions et réactifs les plus informatives.

1Directeur de recherche CNRS au laboratoire Cibles Thérapeutiques et Conception de Médicaments - CiTCoM (CNRS / Université de Paris)

Vous évoquez dans la vidéo l’exemple du virus du VIH, responsable de la maladie du SIDA. En quoi consiste votre travail sur ce virus ?

Dans ce travail, nos collaborateurs biologistes de l’université de Paris et de l’ENS Lyon se sont intéressés à la façon dont HIV1, dont le génome est composé d’ARN simple-brin, détourne les cellules des malades pour leur faire produire ses propres protéines. En effet, HIV1 ne dispose pas de machinerie moléculaire lui permettant d’exprimer ses propres gènes. Il « emprunte » donc celle de son hôte, à travers un mécanisme jusqu’alors mal compris, mais pour lequel la structure de l’ARN semblait déterminante.

Nous avons conçu une méthode bioinformatique permettant de prédire une ou plusieurs structure(s) d’ARN stable(s), et compatible(s) avec des données expérimentales de sondage chimique et enzymatique produites par nos partenaires. L’exécution de cette méthode nous a permis d’obtenir un modèle structural plus précis. En conjonction avec un important travail expérimental, cette structure a permis de découvrir deux régions indépendantes, particulièrement peu structurées, permettant indépendamment le recrutement du ribosome de l’hôte, dont la fonction est de synthétiser les protéines en décodant l'information contenue dans l'ARN messager.

Au sein de mon laboratoire, nous concevons et appliquons actuellement des méthodologies similaires pour modéliser les interactions longue distance au sein de SARS-CoV 2, pathogène à l’origine de la crise COVID- 19 qui est aussi un virus à ARN structuré.

En plus de ce sujet du VIH, quelles autres perspectives de recherche s’offrent actuellement à vous ?

Au sein de mon laboratoire, nous concevons et appliquons actuellement des méthodologies similaires pour modéliser les interactions longue distance au sein de SARS-CoV 2. En effet, ce pathogène, à l’origine de la crise COVID-19, est aussi un virus à ARN structuré, et sa structure est très importante pour comprendre ses mécanismes de réplication et d’invasion. Par exemple, nous cherchons avec l’équipe de notre collaborateur biologiste Yu Zhou (Université de Wuhan) à mieux comprendre les mécanismes sous-jacents à une réplication partielle du génome de SARS-CoV 2.

Sur un plan plus fondamental, nous consacrons beaucoup de nos efforts à développer des méthodologies pour le "design d’ARN", la conception automatisée de nouvelles molécules censées réaliser une fonction précise. Algorithmiquement, les problèmes associés sont complexes et fascinants ! En pratique, des solutions pragmatiques pour le problème du design sont utiles aux biotechnologies, et permettent par exemple de rationaliser la conception d’ARN messagers pour des vaccins à ARN, de sondes et amorces pour les tests PCR, ou encore d’ARN guides pour augmenter la spécificité de CRISPR-Cas9. La recherche continue donc à cette interface riche entre informatique, biologie, chimie et physique !