Une paire de lunette qui détecte le mouvement des lèvres. C’est le projet sur lequel travaille Ruidong Zhang. Ce chercheur à l’Université de Cornell aux États-Unis a développé une nouvelle technologie de reconnaissance de « parole silencieuse » appelée EchoSpeech. Ce moyen de communication, montée sur des lunettes, utilise la détection acoustique et l'intelligence artificielle pour reconnaître en continu jusqu'à 31 commandes non vocales basées sur les mouvements des lèvres et de la bouche du porteur. Au-delà des fonctionnalités telles que déverrouiller son portable, changer de morceau de musique ou dicter un message de manière silencieuse, EchoSpeech pourrait favoriser l’accessibilité.

« Pour les personnes qui ne peuvent pas vocaliser le son, cette technologie de parole silencieuse pourrait être un excellent outil associé à un synthétiseur vocal. Cela pourrait redonner la parole aux patients », a déclaré Zhang à propos de l'utilisation potentielle d’EchoSpeech. Cette technologie pourrait donc, par exemple, aider les personnes atteintes de troubles de la parole ou de lésions cérébrales à retrouver leur voix. Pour le moment, le dispositif ne filtre que les fréquences les plus basses afin de ne pas capter les conversations alentours, ce qui limite l'utilisation au seul porteur des lunettes. 

Un dispositif sans caméra

Les lunettes EchoSpeech sont équipées d'une paire de petits microphones et haut-parleurs, et agissent comme un petit sonar portatif (les mouvements de la bouche sont détectés par les ondes sonores reçues par l’appareil puis envoyées au smartphone qui affiche le texte). Cet appareil à faible consommation d'énergie ne nécessite que quelques minutes d'entraînement avant de reconnaître les commandes et peut être utilisé avec un smartphone. L’algorithme de « deep learning » analyse en temps réel les profils d'écho captés par les microphones avec une précision d’environ 95%.

Le système, qui n’embarque pas de caméra, reste plus discret que les lunettes de réalité virtuelle par exemple. Et parce que les données audio sont beaucoup plus petites que les données image ou vidéo, elles nécessitent moins de bande passante pour être traitées et peuvent être relayées vers un smartphone via Bluetooth en temps réel. Ce dispositif peut également être associé à un stylet et utilisé avec des logiciels de conception graphique, éliminant ainsi presque complètement l’usage du clavier et de la souris.

 

ruidong_zhang.png

Le système fonctionne avec des micros (en rouge) et des haut-parleurs (en bleu). @Ruidong Zhang