Preston So d'Oracle : bien que les choses soient meilleures pour le développement d'interfaces vocales, il reste encore du chemin à parcourir pour ceux qui les utilisent
Publié: 2021-08-21J'ai suivi l'adoption de la technologie vocale depuis que j'ai eu mon premier appareil Echo vers Thanksgiving en 2014 et que j'ai commencé 20 % de mes phrases avec « Alexa… ». Et de temps en temps, j'aime que des invités se joignent à moi pour cette série pour voir où en sont les choses aujourd'hui avec ces appareils et comment ils sont utilisés. Mais je ne me suis pas vraiment concentré sur la conception de contenu vocal auparavant, c'est pourquoi j'étais vraiment ravi de parler avec Preston So. Preston est directeur principal de la stratégie produit chez Oracle, mais plus important encore pour cette conversation, il est également l'auteur du livre « Voice Content and Usability ».
Vous trouverez ci-dessous une transcription éditée de notre récente conversation LinkedIn Live . Cliquez sur le lecteur SoundCloud intégré pour entendre la conversation complète.
Brent Leary : Comment la pandémie a-t-elle impacté le rôle de la voix à partir d'un développement de contenu dans le contexte de la transformation numérique ?
Preston So : C'est une question vraiment intéressante. Je vais répondre à cela sous deux angles différents. La première est que lorsque nous avons commencé à travailler et que je viens de réaliser que je n'avais pas encore mentionné cette étude de cas, même à ce sujet, dans l'émission, c'est qu'il y a 5 ou 6 ans, j'ai eu l'opportunité de travailler dans une équipe qui a construit AskGeorgia.gov, qui était la toute première interface vocale pour les résidents de l'État de Géorgie. De plus, c'était vraiment l'une des premières interfaces vocales axées sur le contenu ou informatives existantes.
Les deux raisons pour lesquelles nous voulions construire ceci et piloter ce projet étaient de servir ces données démographiques, que j'ai mentionnées plus tôt sont souvent ignorées ou souvent mal desservies par les sites Web que nous avons construits. Et c'est surtout la presse, car nous connaissons une préoccupation très pressante dans le secteur public, une préoccupation très, très pressante au sein du gouvernement local et des deux publics auxquels nous voulions servir le mot numéro un, les Géorgiens âgés, qui ne pourraient pas nécessairement utiliser un site Web aussi facilement. Il se peut qu'il ne soit pas nécessairement en mesure d'utiliser un ordinateur aussi rapidement et qu'il n'ait pas nécessairement la mobilité nécessaire pour se rendre dans un bureau du gouvernement du comté ou dans un bureau d'agence. Dans le même temps, nous voulions également nous concentrer sur les Géorgiens handicapés. Ceux qui pourraient ne pas être en mesure d'utiliser un sur un site Web aussi rapidement que ceux qui utilisent le site Web grâce à son approche visuelle. Et aussi ceux qui n'ont vraiment pas la capacité, à cause de ces problèmes de mobilité, excusez-moi, de se rendre dans un bureau d'agence et d'y obtenir des réponses à leurs questions. Dans le même temps, nous étions également confrontés à cette époque, bien sûr, et nous continuons encore aujourd'hui, au manque de budget, à la nature des contraintes financières des États et des gouvernements locaux aujourd'hui, où les budgets sont réduits à gauche et à droite et souvent ces lignes d'assistance attendent les temps grandissaient et grandissaient et grandissaient au téléphone.
La raison pour laquelle j'ai présenté cette étude de cas est que je pense que la pandémie de coronavirus a vraiment amplifié la façon dont certains publics sont confrontés non seulement à ces systèmes d'oppression vraiment très, très problématiques dans la société, mais aussi à des obstacles très profonds pour accéder à l'information, au contenu et aux transactions. dont ils ont besoin. Et si vous pensez, bien sûr, qui a été le plus touché par l'impact de la pandémie et les effets de la pandémie, ce sont les personnes handicapées ou les personnes âgées. Et surtout si vous ne pouvez même pas quitter votre domicile, comment obtenez-vous réellement les informations dont vous avez besoin ? Je pense donc que nous avons, à certains égards, pré-sauvé une grande partie du travail qui se passe actuellement avec la transformation numérique aujourd'hui, où de nombreuses organisations se rendent compte maintenant, et cela module bien sûr une grande partie du travail que nous avons maintenant vu sur le travail à distance sur des effectifs distribués tout cela, mais aussi maintenant comment servir au mieux les clients dans cet angle B to C, comment nous assurons-nous réellement que ceux qui sont nos clients, ceux qui sont les utilisateurs, ceux qui sont nos données démographiques réelles peuvent interagir avec notre contenu d'une manière qui ne les oblige pas potentiellement à faire des choses qui les mettent en danger.
Et je pense qu'il y a plusieurs choses qui se sont accélérées à cet égard. Le premier est le long de l'accès vocal comme nous l'avons vu, je pense que c'était l'année dernière, les systèmes de maison intelligente, les ventes de haut-parleurs intelligents ont explosé. Je veux dire, c'est maintenant, 35% des Américains ont maintenant un haut-parleur intelligent à la maison, mais du même coup, nous avons également connu une croissance incroyable des casques de jeu et des technologies de jeu. Donc, les casques de réalité virtuelle, les appareils portables et ceux-ci laissent vraiment présager, je pense que le déplacement du contenu du support écrit au support visuel, auquel nous sommes vraiment habitués au cours des dernières décennies, vers un type de contexte beaucoup plus multiforme où maintenant, nous pourrions potentiellement interagir avec notre contenu via un Oculus Rifts ou via nos smartphones, via notre téléviseur Samsung, via nos iPhones et nos iPads, mais aussi bien sûr via un Amazon Alexa et ce genre de chose, pour moi, je pense que le La plus grande chose qui se soit produite avec la pandémie de coronavirus est qu'elle a vraiment accéléré l'arrivée de cette époque, où les organisations doivent maintenant comprendre que ce n'est plus seulement le Web.
Ce n'est pas seulement mobile, c'est 15 choses différentes. C'est toutes ces considérations différentes et si vous commencez tout juste à penser au Web et au mobile, vous êtes déjà en retard.
Progrès à ce jour en matière de développement de contenu vocal
Brent Leary : Sommes-nous là où vous vous attendiez à ce que nous soyons, la voix étant un élément du canal d'interaction entre les consommateurs et les fournisseurs ?
Preston So : Oui et non. Je pense qu'il y a du point de vue du fabricant, je pense que oui. Et ce que je veux dire par là, c'est que, comme je l'ai mentionné plus tôt, nous avons ces outils vraiment formidables qui existent, Botsociety ces nouvelles startups qui développent des outils vraiment conviviaux pour les concepteurs qui vous permettent de faire comme le genre de vieux Dreamweaver ou Approche de la première page de Microsoft pour la création de sites Web. Vous transférez cela à une interface vocale et tout à coup, vous n'avez plus besoin d'écrire, disons de code matériel de très bas niveau ou d'écrire, disons du traitement du langage naturel ou de la compréhension du langage naturel dans un bot. En même temps, je pense qu'il y a un long chemin à parcourir et je pense que nous ne sommes pas vraiment là où je pensais que nous serions à ce stade, mais je pense que cela est en grande partie dû au fait que l'IA elle-même n'est pas aussi loin ainsi que beaucoup de gens le pensaient nécessairement.
L'une des raisons à cela est que nous vivons actuellement une période où de nombreuses interfaces vocales que nous avons construites sont fondamentalement encore clairement automatisées et n'ont pas vraiment de moyen réel de communiquer d'une manière que nous pouvons vraiment nous entendre. Un exemple de cela est que vous regardez certaines des communautés bilingues du sud du Texas ou de la ville de New York et que vous entendez des gens basculer littéralement entre l'espagnol et l'anglais au milieu d'une phrase ou des gens qui ouais, exactement des gens qui sont à Mumbai ou à New Delhi qui ont basculé entre l'hindi et l'anglais au milieu d'une phrase ou un changement entre le marathi et l'anglais au milieu d'une phrase.
Et ce sont des populations qui ne s'entendent pas dans ces interfaces vocales, sans parler de toutes les communautés de couleur qui n'ont pas non plus l'impression de pouvoir entendre leur propre type de dialectes et leur propre type d'expressions familières et leur propre type de manières de parler. parler dans ces interfaces vocales. Il y a des étapes intéressantes dans la bonne direction qui vont partiellement là-bas, mais pas vraiment. Je veux dire, le premier bien sûr est que je pense que j'ai été très surpris et heureux de ce que les moyens font en termes de vous permettre de configurer en quelque sorte ces voix qui lisent ces déclarations comme la police a signalé devant ou le véhicule sur l'épaule, ou garder la gauche.
Il y a aussi bien sûr de nouveaux services qui émergent comme Amazon Polly, Amazon Polly est vraiment intéressant parce qu'il prendra une entrée de textes écrits comme un paragraphe ou une page ou autre et il le lira avec un accent britannique ou un accent sud-africain ou un accent américain, une voix de femme et toutes sortes de jauges différentes que vous pouvez tordre et jouer avec. Mais toujours fondamentalement, bien sûr, ce sont des textes écrits qui ne sont pas nécessairement optimisés pour la parole.
Il n'y a aucun moyen algorithmique de transformer des textes écrits en quelque chose qui est écrit dans un style plus parlé, mais il y a aussi ce genre de gros souci que j'ai, c'est-à-dire quand il s'agit d'interfaces vocales, c'est en fait génial et d'atteindre ce point d'excellence qui nous nous attendons à certains égards, je pense que c'est presque impossible. Je pense que c'est presque une déclaration paradoxale de dire que les interfaces vocales seront à ce niveau de comportement optimal pour tout le monde. Parce que la façon dont une interface vocale sonne pour moi sera très différente de la façon dont une interface vocale sonne pour quelqu'un d'autre. Je pense que c'est vraiment genré par le fait que si vous regardez Alexa ou Siri ou Cortana ou Google Home, d'une manière générale la voix par défaut, l'identité par défaut qui sort de cette interface vocale est quelqu'un qui ressemble beaucoup à un blanc hétéro cisgenre femmes qui parlent avec le dialecte général américain ou moyen américain.
Et il n'y a pas nécessairement beaucoup d'espace pour les personnes qui parlent l'anglais comme langue seconde ou les personnes qui changent de code. Comme je l'ai déjà mentionné, qui a basculé entre l'anglais et l'espagnol, en plein milieu de la phrase ou les communautés trans et non binaires qui ont basculé entre les modes de discours directs et en quelque sorte en termes de la façon dont ils interagissent réellement les uns avec les autres jusqu'à ce que nous entendions ces sorte de bascule jusqu'à ce que nous entendions ce genre de réalité que nous avons reflété dans ces interfaces vocales. Je ne pense pas que nous ayons atteint ce noble objectif.
Ce qui m'inquiète aujourd'hui, c'est que nous sommes confrontés à une situation sans précédent avec la pandémie où beaucoup de ces agents du service client, beaucoup de ces travailleurs du service client de première ligne perdent leur emploi au profit d'une approche d'interface vocale mécanique plus automatisée. Mais la plupart de ces personnes qui perdent leur emploi et qui sont licenciées sont remplacées par des interfaces vocales dans ces entreprises, ce sont généralement des personnes qui vivent dans le sud du monde, généralement des personnes originaires des Philippines ou d'Indonésie ou l'Inde qui parlent anglais d'une manière qui devrait également se refléter dans les interfaces vocales que nous avons aujourd'hui si nous le voulons.
Quelqu'un qui est philippin américain devrait pouvoir entendre une interface vocale qui sonne également philippin américain sur une interface vocale. Ainsi, même si je pense que d'une certaine manière, les choses sont devenues vraiment géniales pour les concepteurs d'interfaces vocales, je pense que pour les utilisateurs d'interfaces vocales, nous avons encore beaucoup de chemin à parcourir, et cela prendra quelques décennies, je pense avant que nous peut même arriver à ce point.
Le futur proche de la conception de contenu vocal
Brent Leary : À quoi ressembleront les deux prochaines années pour la conception de contenu vocal ?
Preston So : Je pense certainement qu'il y aura des améliorations à certains égards. Il y aura certainement des améliorations en ce qui concerne ce que j'appelle la démocratisation de la conception des interfaces vocales. Si vous êtes quelqu'un qui ne sait pas comment créer un site Web, si vous êtes quelqu'un qui n'écrit pas de code, si vous êtes quelqu'un qui ne fait rien qui soit lié à l'informatique, vous pouvez aujourd'hui créer une interface vocale, ce qui est vraiment la première fois que nous faisons cela auparavant.
