Les robots donnent de la voix

Les interactions vocales avec nos technologies deviennent une nouvelle habitude et par la même un marqueur fort de la révolution numérique. Autrefois muets, les robots se mettent à parler pour nous offrir une expérience toujours plus riche et instaurer une relation empathique.

 

Plus aucun doute, l’engouement est bel et bien là. Avec un propriétaire de smartphone sur deux qui utilise déjà la commande vocale pour réaliser une action, la voix humaine s’impose comme LE mode d’interaction privilégié avec nos technologies. Le nombre de requêtes vocales croit de façon exponentielle grâce à l’adoption accrue des assistants vocaux (même si l’Europe demeure en retard par rapport aux Etats-Unis et à l’Asie), à l’amélioration considérable de la compréhension et de la production de langage naturel par ces machines et la multiplication des usages possibles. Car aujourd’hui, si les assistants vocaux sont encore largement utilisés pour partager les dernières actualités, renseigner sur la météo ou changer la musique jouée, ils s’apprêtent à révolutionner nos façons d’interagir dans un monde qui sera de plus en plus peuplé de robots parlants.

 

La voix constitue un véritable changement de paradigme car elle est l’un des principaux modes d’interaction humain. Quand, en moyenne, nous pouvons écrire une cinquantaine de mots sur nos écrans tactiles en une minute, nous pouvons, dans le même temps, prononcer 150 mots. Cette rapidité dans les échanges brise une barrière invisible mais qui nous empêchait d’avoir une relation fluide avec les machines. Dès lors, le choix des interactions vocales devient inéluctable et évident. L’expérience que nous souhaitons tous vivre avec nos technologies environnantes se rapproche de celle d’Iron Man s’adressant à son assistant personnel, Jarvis. Et pour cause, pas besoin de prononcer un gênant « Ok Jarvis » pour entrer en communication avec lui, il est là, toujours à l’écoute et prêt à échanger. Et dans bien des cas, en voiture ou en hiver avec le port de gants, nos mains ne sont pas disponibles pour taper du texte sur les interfaces actuelles.

 

Mais cette révolution vocale va bien plus loin. La voix permet en effet de créer des interactions plus riches, plus rapides et plus simples pour les utilisateurs, notamment dans le domaine de la formation en entreprise. Si aujourd’hui il existe déjà des expériences interactives grâce à la réalité virtuelle, elles se résument trop souvent à une succession de choix qui s’affichent devant nos yeux, une sorte de questionnaire à choix multiples dont le principal défaut est le manque de fluidité des interactions. Il est aujourd’hui possible de coupler les algorithmes de traitement de la voix avec cette réalité virtuelle et même avec l’intelligence artificielle. La start-up Pitch Boy met ainsi en situation les collaborateurs, par exemple des commerciaux face à des clients difficiles, pour qu’ils testent leur argumentaire ou apprennent à réagir face à des questions inattendues. Pour cela, ils n’ont qu’à s’exprimer naturellement et selon les propos prononcés, les contenus de la formation virtuelle s’adaptent.

 

Cette facilité d’interaction et d’échange se retrouve dans des applications de plus en plus sophistiquées permettant de retranscrire en temps réel des conversations, que cela soit dans le cadre de réunions professionnelles ou d’échanges informels. Parmi elles, Trint retranscrit n’importe quel fichier audio ou vidéo dans un texte écrit et Ava peut sous-titrer en temps réel un dialogue impliquant plusieurs orateurs.

 

Dès lors, la voix autorise un rapport plus intime avec les technologies, une empathie largement absente aujourd’hui. Car en effet, même s’ils ont une voix, caractéristique humaine fondamentale, nous considérons encore les assistants vocaux comme de simples objets. Spoon, une entreprise qui crée des créatures artificielles d’un nouveau genre, a ainsi placé la voix comme une composante majeure de l’interaction avec les machines, mieux encore de sa reconnaissance comme un autre, un alter ego robotique. L’objectif est à terme que ces créatures parlantes et ambiantes (tel Jarvis dans Iron Man) puisse nous accompagner dans notre quotidien. A la fois sur notre téléphone, dans notre ordinateur ou notre voiture, le robot comprendra ce que nous lui disons et pourra échanger avec nous de façon naturelle.

 

Au-delà des freins technologiques, qui sont encore nombreux, ces assistants vocaux, et demain ces véritables robots parlants, posent des questions éthiques majeures. Vont-ils tout écouter de nos conversations ? Que vont-ils faire des données collectées ? Comment réagirons-nous face à ces nouvelles intelligences artificielles, invisibles à l’œil nu mais toujours là par la voix ? Une chose est sûre, comme les GAFA l’ont bien compris avec les investissements massifs réalisés dans le développement des assistants vocaux (Google Home, Amazon Alexa…), la voix représente une nouvelle frontière pour le monde des nouvelles technologies tant les possibilités qu’elle ouvre sont nombreuses et riches. Et si aujourd’hui les interactions vocales sont encore confinées à des demandes purement utilitaires, elles seront le ciment d’une reconnaissance des robots – parlants - comme de véritables alter-ego.

 
Adrien Rivierre