Le projet Polymathic crée des IA pour assister les scientifiques de toutes les disciplines
Les intelligences artificielles se démocratisent pour assister notre quotidien. Le projet international Polymathic cherche à élargir leurs champs d’application en créant des IA capable d’aider les scientifiques, et ce dans de nombreuses disciplines. Actuellement les chercheurs testent une première version d’IA, spécialisée dans l’astrophysique.
De ChatGPT pour la génération de texte à Midjourney pour la génération d’images, les intelligences artificielles sont de plus en plus présentes dans notre quotidien. Afin de développer des IA capables d’assister les scientifiques dans leurs recherches, François Lanusse, chargé de recherche CNRS au laboratoire Astrophysique, instrumentation, modélisation1, est l’un des pilotes de Polymathic. Ce projet international regroupe non seulement des experts en IA, mais également des chercheurs de domaines très variés, de la neurologie aux mathématiques appliquées.
Développer des IA facilitatrices pour des domaines scientifiques très variés est un réel défi à plusieurs niveaux. « C’est très complexe parce que faire avancer la recherche demande de comprendre les problèmes de chaque discipline, et ensuite de les connecter de manière pertinente avec des outils de machine learning », explique François Lanusse. Cette diversité est cependant aussi l’opportunité de capitaliser sur les connexions entre les différents domaines scientifiques. Par exemple, si l’étude de bandes spectrales est capitale en astrophysique, elle est également très présente pour l’étude des matériaux.
L’agrégation de grands jeux de données et l’entraînement de ces modèles d’IA est une autre difficulté. Dans beaucoup de sciences, les données sont variées et un seul objet peut être enregistré de plusieurs manières différentes. Par exemple, une étoile peut être photographiée dans le spectre visible et dans le spectre infrarouge, ce qui donnera des images très différentes. Pour que l’IA comprenne qu’il s’agit d’un seul et même objet, un travail important d’homogénéisation et de préparation des données est nécessaire.
Étendre les applications du modèle d’IA
Pour commencer, les scientifiques de Polymathic ont développé un modèle universel d’IA spécialisé pour les données astronomiques. Leur but est notamment que le modèle soit capable de générer des images d’une planète ou étoile comme si elle était observée à travers un autre type de capteur, ou encore de recréer une série temporelle à partir d’images uniques. Pour y parvenir, ils ont entraîné l’IA sur le supercalculateur Jean Zay, opéré par l’Institut du développement et des ressources en informatique scientifique (IDRIS2) du CNRS.
Les ingénieurs de l’IDRIS ont accompagné les scientifiques principalement en testant et choisissant les meilleures méthodes pour synchroniser les différents GPUs sur Jean Zay, optimiser l’environnement du modèle, et assurer que les résultats de l’entraînement sont reproductibles. Au total, trois ingénieurs ont été mobilisés sur une période de plus d’un mois.
Une autre contrainte au développement de ces IA est de limiter les « faux résultats ». « Quand un modèle génère des données fausses, on appelle ça des hallucinations » précise François Lanusse. « Heureusement, il existe des modes d’opération différents pour limiter les erreurs. Dans le cas du modèle pour l’astronomie par exemple, on ne demande pas à l’IA de générer de nouvelles données, mais de représenter les données qui lui sont montrées d’une manière différente. Contraindre le modèle pour que la solution soit conforme avec les données d’entrée réduit drastiquement les risques d’hallucination. »
Les scientifiques du projet Polymathic sont actuellement en train de tester l’IA spécialisée pour l’astronomie avec un panel de chercheurs. Leur objectif est de pouvoir intégrer leur outil dans les processus de travail des scientifiques, pour affiner et simplifier les interactions entre l’IA et les utilisateurs. À terme, ces travaux permettront de créer des outils technologiques très poussés, fiables et faciles d’utilisation pour aider à faire avancer la recherche, tous domaines confondus.
1 AIM (CEA/CNRS/Université Paris Cité) à Gif-sur-Yvette
2 IDRIS (CNRS) à Orsay