Traitement automatique de la parole : une nouvelle reconnaissance pour Lori Lamel

Distinction Informatique

Capable d’entraîner des algorithmes à retranscrire des langues qu’elle ne comprend pas elle-même, Lori Lamel s’est forgé une réputation internationale de spécialiste du traitement automatique de la parole. Ses travaux ont en effet débouché sur un nombre impressionnant d’applications. Cette chercheuse au LISN (CNRS/Université Paris-Saclay) vient ainsi d’être nommée Fellow de l’Institute of Electrical and Electronics Engineers (IEEE).

Les communications entre humains et machines ne passent pas que par les claviers, tout un pan de la recherche est en effet dédié à la reconnaissance automatique du langage parlé. Ce domaine est la spécialité de Lori Lamel, directrice de recherche CNRS au Laboratoire interdisciplinaire des sciences du numérique (LISN, CNRS/Université Paris-Saclay). Pour ses multiples contributions remarquables, elle a été nommée au rang de Fellow de l’Institute of Electrical and Electronics Engineers (IEEE), une grande marque de reconnaissance de l’immense association internationale comprenant plus de 400 000 adhérents dans le monde. Chaque année, seul un inscrit sur mille peut devenir Fellow.

« J’ai effectué tout mon parcours universitaire au MIT parce que j’ai toujours aimé les mathématiques et les sciences, mais je ne pensais pas me spécialiser dans le traitement de la parole », se souvient Lori Lamel. Elle s’est en effet d’abord intéressée au génie électrique et à l’informatique, après une conférence d’un chercheur travaillant sur le contrôle de prothèses par les signaux du cerveau. Lori Lamel a ensuite été l’assistant d’un professeur, qui deviendra son directeur de recherche après l’avoir initiée à l’analyse de spectrogrammes de la parole.

Ces images représentent les variations du spectre des fréquences d’un signal, et sont très utilisées pour étudier la parole. Les spectrogrammes permettent de quantifier et d’analyser des phénomènes sans être influencé par les mots que l’on entend. Une sorte de puzzle qui a beaucoup fasciné Lori Lamel, la poussant à préparer une thèse sur le sujet, toujours au MIT. Après un premier postdoctorat en France, Lori Lamel a intégré l’équipe Traitement du langage parlé du LIMSI1 en 1991, laboratoire dont la fusion avec le LRI2 a donné naissance au LISN en janvier 2021. « Le CNRS offre une liberté de recherche qu’on ne trouve pas souvent dans les autres pays », se réjouit-elle.

  • 1Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur
  • 2Laboratoire de recherche en informatique
J’ai toujours aimé lire ce que je vois, mes travaux suivent l’idée que je fais davantage confiance à mes yeux qu’à mes oreilles. 

Très pluridisciplinaires, ses travaux font aussi bien appel au traitement du signal, à l’acoustique, la phonétique, la linguistique et à l’IA. Ses contributions concernent alors surtout la modélisation de la prononciation et des liens entre acoustique et phonétique. Les systèmes de reconnaissance de parole qu’elle a conçus avec ses collègues ont atteint plusieurs fois les meilleures performances mondiales selon les classements tenus par l’Institut national américain des normes et de la technologie (NIST).

 Lori Lamel a également participé au développement de méthodes pour détecter la langue qui est utilisée. Le principe sous-jacent peut aussi être appliqué pour identifier la personne qui parle, ainsi que son genre. Dans le cadre de deux projets européens au cours des années 90, l’équipe a mis au point un système de démonstration pour fluidifier et rendre plus agréable le dialogue entre humains et machines, en particulier pour la réservation de billets de train, sur des bornes interactives ou au téléphone.

Pour atteindre ses objectifs, Lori Lamel emploie régulièrement de l’apprentissage semi-supervisé pour évaluer les paramètres de modèles acoustiques. Elle a fait partie des pionniers de sa mise en œuvre en l’appliquant à des langues aussi différentes que le finnois, le roumain et le coréen, qu’elle ne comprend pas elle-même. Cette méthode permet, à partir de toutes petites quantités de données étiquetées, d’améliorer itérativement la qualité de la transcription automatique pour atteindre des performances comparables avec les systèmes construits à partir de centaines d’heures de parole annotée. Ces systèmes de reconnaissance vocale sont aujourd’hui robustes aux environnements sonores bruités et à la musique, dans la mesure où la parole reste intelligible pour un humain.

Pour retranscrire les paroles à la télé ou à la radio, nous sommes passés d’une erreur tous les deux mots à une sur dix en moyenne, et une sur quarante pour certains orateurs professionnels. 

Avec ses collègues, Lori Lamel s’est aussi intéressée à la détection, la transcription et la diarisation (segmentation par identification des orateurs) de la parole dans des documents audio, ainsi qu’à l’analyse des conversations orales dans des contextes très variés tels que les centres d’appel ou la reconnaissance automatique de communications pour le contrôle du trafic aérien. Ces avancées ont été en partie reprises dans le cadre du programme Quæro, financé par Oséo, où les scientifiques ont travaillé à la recherche de mots dans des segments audio qui ont été transcrits automatiquement. Cela intéresse entre autres le media monitoring, où des personnalités et des marques veulent savoir quand leur nom est mentionné à la radio ou à la télévision. Après une telle liste de cas d’applications, rien d’étonnant à ce que Lori Lamel soit de nouveau reconnue internationalement, après avoir été nommé Fellow de l’International Speech Communication Association (ISCA) en 2015.

« Devenir Fellow de l’IEEE est un honneur, se réjouit Lori Lamel. Je suis aussi contente car la plupart des ingénieurs, et donc des Fellows, sont des hommes. C’est toujours bien de montrer aux jeunes filles qu’elles peuvent réussir dans les sciences et les mathématiques. »

Contact :

Lori Lamel, Directrice de recherche CNRS au LISN