Tout comme la reconnaissance d’images est rattachée au sens de la vue, la reconnaissance vocale est rattachée au sens de l’ouïe !
La reconnaissance vocale est un ensemble de techniques informatiques qui analysent la voix humaine à partir d’un microphone pour la retranscrire sous la forme d’un texte exploitable par une machine.
Plus simplement, il suffit de parler à son ordinateur ou à son Smartphone pour que l’appareil comprenne les paroles à travers les mots prononcés, telle une discussion entre deux personnes.
Une sous-partie de la reconnaissance vocale, c’est la reconnaissance d’une personne par le son de sa voix.
Les GAFAM (Facebook, Amazon, Microsoft, Google, Apple) offrent déjà ce service sur leurs différents outils comme Google Home, Amazon, Echo et Siri.
Mais bien avant les GAFA, dès le début du XXème siècle des études ont été faites sur cette technologie. Elles ont abouti à la première technologie consistant à accélérer le traitement des rapports et des comptes-rendus.
Cette technologie est utilisée dans divers secteurs : les avocats (dictaphone), la sécurité nationale (renseignements généraux et écoute), mais pas que..
Comment ça fonctionne ?
Il existe deux systèmes:
- La reconnaissance monolocuteur : cette solution nécessite d’enregistrer la voix de l’utilisateur pour que le logiciel s’en serve comme référence. L’IA va apprendre au fur et à mesure. Cet étalonnage permet d’optimiser la correspondance entre les sons captés et les phonèmes à reconnaître. Cette technique est utilisée pour dicter un texte à retranscrire à un dictaphone numérique.
- La reconnaissance multilocuteur : cette technique est la plus utilisée et fonctionne avec n’importe quelle voix. Elle nécessite l’utilisation d’internet pour comparer la requête avec une base de données présente sur le Cloud. Elle est commercialisée auprès du grand public. Nous la retrouvons sur les enceintes connectées des GAFAM, sur les assistants personnels virtuels sur les smartphones (ex : samsung galaxy S8).
La popularité de la recherche vocale
Les compagnies tiennent à ce que cette technologie soit une “norme“ sur leurs produits.
Un des objectifs consiste à ce que les assistants vocaux parlent et répondent avec une grande précision en prenant en compte le contexte et le contenu de la requête.
Des études marketing ont annoncé que l’utilisation de cette technologie va augmenter dans les années à venir :
- 40% des adultes aux Etats-Unis effectuent des requêtes vocales quotidiennement !
- 50% des recherches seront vocales en 2020
L’expérience utilisateur construite autour de cette solution doit être solide. L’IA qui est derrière cette technologie doit relever plusieurs défis comme les accents des utilisateurs, les bruits de fond.
Les récentes études marketing ont rapporté que ce marché vaudra 18 milliards de dollars d’ici 2023. Les recherches estiment que cette technologie va se retrouver dans tous nos produits de consommations du smartphone en passant du frigidaire jusqu’à la voiture.
Prenons l’exemple d’Alexa.
Non ce n’est pas une personne, mais bien l’outil d’assistant virtuel avec reconnaissance vocale d’Amazon.
Les fabricants d’appareils électroménagers Whirlpool, Delta, LG, Haier ont intégré Alexa dans leurs produits afin que les consommateurs puissent contrôler tous les aspects de leur maison de la TV en passant par le micro-onde.
La reconnaissance vocale et l’IA au service de l’expérience utilisateur
Au-delà de la recherche vocale, la maturité des technologies de reconnaissance vocale, associée aux avancées en matière d’intelligence artificielle et de machine learning, ouvre des perspectives incroyables pour améliorer l’expérience client. Ainsi, du chatbot (agent conversationnel destiné à accompagner les internautes lors de leur navigation sur un site internet) aux plateformes de gestion d’appel automatisées, les applications sont nombreuses et peuvent faire gagner énormément d’argent aux entreprises qui les emploient. Et ce, pour plusieurs raisons :
- Un chatbot favorise le processus d’achat, assure le service 24h/24, 7j/7, 365 jours par an, sans interruption de service.
- Une plateforme automatisée, sans menu interminable, permet aux usagers d’accéder directement aux informations ou aux services souhaités, sans perdre de longues minutes au téléphone.
- Dans les deux cas, la reconnaissance vocale permet de se passer de la phase d’écriture sur clavier, pénible et pénalisante pour de nombreux consommateurs.
- Dans les deux cas, l’entreprise gagne du temps et de l’argent grâce à une gestion automatisée de la relation client qui n’est pour autant pas pénalisée, si tant est que l’intelligence artificielle qui supporte l’application est suffisamment performante (et que les données sont suffisantes et suffisamment structurées).
Pour résumer
On peut affirmer que les technologies vocales sont en train de transformer, petit à petit, nos usages, tant dans la vie privée que dans la vie professionnelle, ce qui aura un impact sur la manière dont les entreprises communiqueront auprès de leurs consommateurs et prospects.