La voix, dernière frontière entre l'homme et l'IA ?

Cet article est paru sur Usbek & Rica, le 28 mai 2017.

La richesse des communications verbales humaines passe autant sinon davantage dans l'intonation, le rythme et les nuances de la voix que dans le sens des mots eux-mêmes. Les intelligences artificielles dotées de parole sont encore bien loin de ces subtilités mais les GAFA travaillent d'arrache-pied à les humaniser. La voix sera-t-elle la clé pour nous faire tomber amoureux des IA, voire nous rendre dépendant d'eux et de leurs concepteurs ? C'est la question que pose Adrien Rivierre, lecteur et contributeur d'Usbek & Rica.

Quand Mark Zuckerberg veut éteindre la lumière, il demande à Morgan Freeman. Quand il veut un t-shirt propre, il demande à Morgan Freeman. Quand il souhaite jouer avec sa fille, il demande à Morgan Freeman. Tout le monde ne peut pas en faire autant… En réalité, même le patron de Facebook ne peut pas en faire autant. Le Morgan Freeman en question c’est en fait Jarvis, l’assistant personnel intelligent installé dans sa maison qui n’a de Morgan Freeman que la voix (cette dernière fut enregistrée par l’acteur lui-même).

Entre l'homme et l'IA : la prosodie

Ce qui ne semble être qu’un détail au premier abord est en réalité une condition sine qua non de la richesse de nos interactions avec les robots, bots et assistants personnels. Notre voix joue en effet un rôle essentiel pour entrer en relation, échanger et tisser des liens avec autrui. Les mots seuls ne disent pas tout. Nous sommes, consciemment et inconsciemment, très sensibles aux intonations de la voix, à ces nuances, à son timbre, aux changements de rythme, à son débit.

L’ensemble de ces caractéristiques sont les éléments prosodiques de la voix. Il s’agit tout simplement de la manière dont nous parlons qui est unique pour chacun d’entre nous. C’est ainsi que nous sommes capables de reconnaître la voix de notre mère, de notre supérieur ou de notre enfant sans même les voir. Mieux, nous pouvons déterminer s’ils sont en colère, enjoués ou tristes. Ces éléments nous aident à décrypter, analyser et comprendre les propos de nos semblables. A la seule écoute des mots d’une personne nous pouvons déduire l’état psychologique dans lequel elle se trouve. Une voix haute (qui est plus aiguë) et chantante renvoie plus volontiers à une personne heureuse alors qu’une voix basse et monotone renvoie plutôt à une personne triste ou blasée.

« Tu sembles être une personne réelle, mais tu es simplement une voix dans un ordinateur »

Pensez maintenant aux voix des robots ou à celles de vos assistants personnels comme Siri ou Cortana. Nous sommes encore très loin de la voix de Jarvis ou de celle de Samantha dans le film Her, voix qui est en réalité celle de l’actrice Scarlett Johansson. Et si Théodore Twombly (joué par Joaquin Phoenix) tombe amoureux de ce système d’exploitation, c’est en grande partie parce qu’il dispose d’une voix humaine, une voix emplie d’émotions, de variations, de profondeur, de nuances. Il affirme même, sans pouvoir lutter contre cette réalité rationnelle : « Tu sembles être une personne réelle, mais tu es simplement une voix dans un ordinateur ». La voix humaine du système d’exploitation est plus envoûtante et puissante que la barrière psychologique d’une incongrue relation amoureuse avec une machine !

Les GAFA peaufinent leur voix

Des recherches récentes de l’Université de Chicago prouvent c’est bien la manière dont les mots sont prononcés, davantage que ce qui est dit, qui nous importent.

La voix est une fenêtre ouverte sur un état émotif et psychologique

La voix est une fenêtre ouverte sur un état émotif et psychologique. Les expérimentations menées par Juliana Schroeder et Nicholas Epley démontrent en effet que plus les éléments prosodiques d’une voix sont nombreux, plus nous la considérons comme humaine. Théodore n’aurait donc pas pu tomber amoureux de Samantha si celle-ci avait eu la voix de Siri. Cette dernière sonne à nos oreilles comme trop saccadée, froide et désincarnée. Elle est robotique, tel un bruit de métal.

La clé pour nous pousser à avoir des interactions plus riches et longues avec les IA repose alors sur le développement de voix les plus proches possibles de celles des nôtres. Les grandes entreprises – avec en tête Apple, Google, Facebook et Amazon – se lancent aujourd’hui dans cette course. Google a sorti des applications permettant de reconnaître avec une grande finesse des voix humaines et dispose d’outils de prononciations de plus en plus sophistiqués qui s’expriment avec des changements de ton ou de rythme.

Amazon vient même de réaliser une mise à jour qui permet à Alexa de chuchoter, de faire des pauses, de varier la vitesse de son débit ou encore de varier l’intonation de certains mots

Mais aujourd’hui c’est Amazon qui accorde une importance de premier plan à la qualité de la voix de son assistant personnel intelligent Alexa. C’est cette voix qui est utilisée dans l’appareil Echo de la firme déjà vendu à plus de 10 millions d’unités.

Ce dernier dispose déjà de différentes nuances vocales selon la requête émise : une voix plus légère quand il raconte une blague, une voix auto-tunée quand il chante, une voix plus monotone quand il détaille la météo. Amazon vient même de réaliser une mise à jour qui permet à Alexa de chuchoter, de faire des pauses, de varier la vitesse de son débit ou encore de varier l’intonation de certains mots.

Cette avancée est comparable à celle réalisée lors de l’intégration de la ponctuation et des emoji dans les messageries instantanées qui permettent d’agrandir la palette des significations. Le même message envoyé sur Facebook Messenger peut être interprété de manière radicalement différente avec par exemple le simple ajout du célèbre smiley :

Je vais être en retard 

ou 

Je vais être en retard :)

Mieux parler, mieux écouter

Nous éprouvons une empathie supérieure pour le second message. Pour le dire avec les termes de la linguistique moderne, le signifiant (c’est-à-dire le visage souriant en tant que tel) smiley :) renvoie à des représentations plus profondes. Ici, le smiley :) renvoie à une volonté de pardon, il vise à dédramatiser le retard, à s’excuser. Par sa simple présence, il apaise ainsi notre agacement.

Pour les GAFA c’est un moyen de nous rendre plus accro à leurs assistants personnels et c’est pour nous tous un risque supplémentaire d’être coupé du monde réel, de tomber amoureux de machines

Tous les éléments prosodiques de la voix permettent de favoriser un échange avec une IA aussi « fort » et riche qu’avec un humain. Pourtant, des chercheurs et designers d’assistants personnels posent déjà la question de savoir si les IA doivent effectivement s’exprimer comme nous et non pas simplement délivrer leurs messages de manières monotones et plates. Car nul n’est dupe, pour les GAFA c’est un moyen de nous rendre plus accro à leurs assistants personnels et c’est pour nous tous un risque supplémentaire d’être coupé du monde réel, de tomber amoureux de machines.

Ces craintes ne seront néanmoins pas à même de freiner le progrès dans les domaines de la production et de la compréhension de la parole humaine ainsi que de la communication homme-machine. Demain, à la simple intonation de votre voix, votre assistant personnel vous répondra en adaptant la sienne pour vous réconforter, vous faire rire, vous motiver ou vous apaiser. Il vous comprendra mieux, par forcément pour ce que vous dites mais grâce à la manière dont vous le dites. Demain, les IA auront des trémolos dans la voix.

 

Image à la Une : le robot chanteur Miimu, conçu L'Institut national japonais de science et technologie insdustrielles avnacées, lors du salon japonais de l'électrinique CEATEC 2009.

 
Adrien Rivierre