La lecture de lèvres assimilée par l’intelligence artificielle

Le corps humain n’est plus un secret pour la technologie. Au départ, il y avait les détecteurs de mouvement. Cette fonctionnalité a été améliorée pour capter de façon plus précise les gestes de l’individu. Résultat : la lecture sur les lèvres est devenue possible. Cette innovation serait deux fois plus performante qu’un professionnel de la discipline pour ainsi dire qu’elle fait mieux que l’homme.

 Un projet hors du commun

Il s’agit d’une intelligence artificielle qui a été mis au point par des chercheurs de l’Université d’Oxford, en partenariat avec DeepMind, une filiale de Google. Elle a la capacité de convertir les mouvements des lèves en texte. Deux semaines de cela, un projet similaire, baptisé LipNet a été développé par une autre équipe d’Oxford. LipNet consiste à étudier des phrases, or, l’expérience s’est limitée à un vocabulaire de 51 mots.

 Des performances remarquables

Avant, l’intelligence artificielle pouvait uniquement traduire un texte ou de simuler une voix presqu’humaine. Tout récemment, elle vient de passer à un niveau supérieur dans le cadre d’un projet universitaire. Afin de mette à l’épreuve ses performances, les scientifiques ont travaillé sur la base de vidéos de la BBC.

A partir de 5000 heures de programme de la chaîne britannique, ils ont créé une application de lecture sur les lèvres. On a pu relever que cette bonne masse de vidéos renferment 118.000 phrases, soit, l’équivalent de 4 émissions.

Pour commencer, les chercheurs ont soumis les programmes diffusés entre 2010 et 2015 à l’IA. Ensuite, ils ont testé l’efficacité des algorithmes. Une performance avérée, car l’IA a déchiffré sans erreur 46,8% des mots prononcés par les personnes ainsi que des phrases entières. Sinon, les quelques erreurs résultent des légères déformations de certains mots comme l’absence d’un « s » à la fin, ce qui n’est guère facile à déceler dans de nombreux cas en anglais.

 Plus performant qu’un expert

Après avoir fait ses preuves sur des programmes télés, l’IA a servi sur la base d’un jeu de 200 vidéos issues du jeu de données soumis au système WLAS Watch, Listen, Attend and Spell. Dans ce cadre, ce dernier s’est attaqué à un corpus de 17.500 mots.

En plus de cela, les données fournies par la BBC étaient des discours réels prononcés par différents sujets et des structures de phrases variées. Par ailleurs, un spécialiste fort d’une dizaine d’années d’expérience a commis plus d’erreur que l’intelligence artificielle. Les auteurs de l’étude se félicitent comme quoi c’est un véritable exploit par rapport aux autres recherches menées sur le sujet.

L’équipe de chercheurs composée de Joo Son Chung, Andrew Senior, Oriol Vinyals et Andrew Zisserman décrivent le dispositif comme « une machine qui peut lire sur les lèvres » ouvrant la voie à de multiples applications. Parmi ses utilisations futures, on note la « dictée d’instructions ou de messages à un téléphone dans un environnement bruyant, transcription ou doublage de films sans son, compréhension de discours où plusieurs personnes s’expriment ou, plus généralement, amélioration de la performance de la reconnaissance vocale ».

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.