Preston So von Oracle: Während die Dinge für die Entwicklung von Sprachschnittstellen besser sind, gibt es für diejenigen, die sie verwenden, noch einen weiten Weg

Veröffentlicht: 2021-08-21

Ich verfolge die Einführung der Voice-First-Technologie, seit ich mein erstes Echo-Gerät um Thanksgiving 2014 herum bekam und 20 % meiner Sätze mit „Alexa …“ begann. Und ab und zu lade ich gerne Gäste zu dieser Serie ein, um zu sehen, wo es heute mit diesen Geräten steht und wie sie verwendet werden. Aber ich habe mich vorher nicht wirklich auf die Gestaltung von Sprachinhalten konzentriert, weshalb ich mich sehr darauf gefreut habe, mit Preston So zu sprechen. Preston ist Senior Director, Product Strategy bei Oracle, aber was für dieses Gespräch noch wichtiger ist, er ist auch Autor des Buches „ Voice Content and Usability “.

Nachfolgend finden Sie eine bearbeitete Abschrift unseres letzten LinkedIn Live-Gesprächs . Klicken Sie auf den eingebetteten SoundCloud-Player, um das vollständige Gespräch zu hören.

smallbiztrends · Ein paar gute Minuten zum Entwerfen von Sprachinhalten mit Preston So

Brent Leary : Wie hat sich die Pandemie auf die Rolle der Stimme bei der Entwicklung von Inhalten im Kontext der digitalen Transformation ausgewirkt?

Preston So : Das ist eine wirklich interessante Frage. Ich werde dies aus zwei verschiedenen Blickwinkeln beantworten. Das erste ist, dass, als wir mit der Arbeit anfingen und mir gerade klar wurde, dass ich diese Fallstudie noch nicht einmal erwähnt habe, in der Show, dass ich vor 5 oder 6 Jahren die Gelegenheit hatte, in einem Team zu arbeiten, das aufgebaut hat AskGeorgia.gov, die erste Sprachschnittstelle für Einwohner des Staates Georgia. Außerdem war es wirklich eine der ersten inhaltsgesteuerten oder informativen Sprachschnittstellen überhaupt.

Die beiden Gründe, warum wir dies aufbauen und dieses Projekt pilotieren wollten, waren, diese demografischen Merkmale zu bedienen, die ich zuvor erwähnt habe und die von den von uns erstellten Websites oft ignoriert oder oft nicht so gut bedient werden. Und das ist besonders die Presse, wie wir wissen, ein sehr dringendes Anliegen im öffentlichen Sektor, ein sehr, sehr dringendes Anliegen innerhalb der Kommunalverwaltung und der beiden Zielgruppen, denen wir Wort Nummer eins, ältere Georgier, dienen wollten, die möglicherweise nicht unbedingt verwendet werden können eine Website so einfach. Es ist möglicherweise nicht unbedingt in der Lage, einen Computer so schnell zu verwenden, und verfügt möglicherweise auch nicht unbedingt über die Mobilität, um zu einem Bezirksregierungsbüro oder einer Agentur reisen zu können. Gleichzeitig wollten wir uns auch auf behinderte Georgier konzentrieren. Diejenigen, die möglicherweise nicht in der Lage sind, ein auf einer Website so schnell zu verwenden wie diejenigen, die die Website durch ihren visuellen Ansatz verwenden. Und auch diejenigen, die aufgrund dieser Mobilitätsprobleme wirklich nicht die Möglichkeit haben, entschuldigen Sie, tatsächlich zu einem Agenturbüro zu fahren und dort ihre Fragen beantworten zu lassen. Gleichzeitig beschäftigten wir uns natürlich damals und heute noch mit dem Mangel an Budget, der knappen Kassennatur der heutigen Länder und Kommunen, wo die Budgets nach links und rechts gekürzt werden und oft diese Hotline wartet Die Zeiten des Telefons wuchsen und wuchsen und wuchsen.

Der Grund, warum ich diese Fallstudie angesprochen habe, ist meiner Meinung nach, dass die Coronavirus-Pandemie wirklich verstärkt hat, wie bestimmte Zielgruppen nicht nur mit diesen wirklich sehr, sehr problematischen Unterdrückungssystemen in der Gesellschaft konfrontiert sind, sondern auch mit wirklich tiefen Barrieren beim Zugang zu Informationen, Inhalten und Transaktionen die sie brauchen. Und wenn Sie darüber nachdenken, wer am stärksten von den Auswirkungen der Pandemie und den Auswirkungen der Pandemie betroffen ist, sind es natürlich Menschen mit Behinderungen oder ältere Menschen. Und vor allem, wenn Sie nicht einmal Ihr Zuhause verlassen können, wie erhalten Sie eigentlich die Informationen, die Sie benötigen? Ich denke also, wir haben in gewisser Weise eine Menge Arbeit vorab eingespart, die gerade jetzt mit der digitalen Transformation passiert, die viele Organisationen jetzt realisieren, und dies wird natürlich durch einen Großteil der Arbeit, die wir jetzt haben, moduliert all das bei der Fernarbeit mit verteilten Arbeitskräften gesehen, aber auch jetzt, wie wir Kunden in diesem B-to-C-Winkel am besten bedienen können, wie stellen wir tatsächlich sicher, dass diejenigen, die unsere Kunden sind, diejenigen, die Benutzer sind, diejenigen, die unsere tatsächliche Demografie sind können mit unseren Inhalten auf eine Weise interagieren, die sie möglicherweise nicht dazu zwingt, Dinge zu tun, die sie in Gefahr bringen.

Und ich denke, es gibt einige Dinge, die sich in dieser Hinsicht beschleunigt haben. Der erste ist der Sprachzugang, wie wir gesehen haben, ich glaube, es war letztes Jahr, Smart-Home-Systeme, Smart-Lautsprecher-Verkäufe sind durch die Decke gegangen. Ich meine, jetzt haben 35 % der Amerikaner einen intelligenten Lautsprecher zu Hause, aber aus dem gleichen Grund haben wir auch ein unglaubliches Wachstum bei Gaming-Headsets und Gaming-Technologien erlebt. Also Virtual-Reality-Headsets, Wearables und all das deuten meiner Meinung nach wirklich auf die Verlagerung von Inhalten weg vom schriftlichen Medium hin zum visuellen Medium hin, an das wir uns in den letzten Jahrzehnten wirklich gewöhnt haben, hin zu einem viel facettenreicheren Kontext Jetzt könnten wir möglicherweise mit unseren Inhalten über ein Oculus Rifts oder über unsere Smartphones, über unseren Samsung-Fernseher, über unsere iPhones und unsere iPads, aber natürlich auch über Amazon Alexa interagieren, und das ist wirklich eine Art, für mich, denke ich das Das Wichtigste, was mit der Coronavirus-Pandemie passiert ist, ist, dass sie die Ankunft dieser Zeit wirklich beschleunigt hat, in der Unternehmen jetzt verstehen müssen, dass es nicht mehr nur um das Internet geht.

Es ist nicht nur mobil, es sind 15 verschiedene Dinge. Es sind all diese unterschiedlichen Überlegungen, und wenn Sie jetzt erst anfangen, über Web und Mobilgeräte nachzudenken, sind Sie bereits im Rückstand.

Bisherige Fortschritte bei der Entwicklung von Sprachinhalten

Brent Leary : Sind wir dort, wo Sie uns erwartet haben, da die Stimme ein Teil des Interaktionskanals zwischen Verbrauchern und Anbietern ist?

Preston Also : Ja und nein. Ich denke, es gibt vom Standpunkt des Herstellers aus, ich denke schon. Und was ich damit meine, ist, wie ich bereits erwähnt habe, wir haben diese wirklich großartigen Tools, die da draußen sind, Botsociety, diese neuen Startups, die wirklich Designer-freundliche Tools entwickeln, die es Ihnen ermöglichen, wie die Art von altem Dreamweaver oder Microsoft Frontpage-Ansatz zum Erstellen von Websites. Sie übernehmen das auf eine Sprachschnittstelle und plötzlich müssen Sie keinen, sagen wir, sehr niedrigen Hardwarecode schreiben oder, sagen wir, die Verarbeitung natürlicher Sprache oder das Verstehen natürlicher Sprache in einen Bot schreiben. Gleichzeitig denke ich, dass es noch ein langer Weg ist und ich denke, dass wir nicht ganz dort sind, wo ich dachte, dass wir an diesem Punkt sein würden, aber ich denke, das liegt auch daran, dass die KI selbst noch nicht ganz so weit ist zusammen, wie viele Leute notwendigerweise dachten.

Einer der Gründe dafür ist, dass wir gerade diese Zeit erleben, in der viele der Sprachschnittstellen, die wir gebaut haben, im Grunde immer noch eindeutig digital automatisiert sind und nicht wirklich über ein wirkliches Mittel verfügen, um so zu kommunizieren, wie wir es wirklich können Ein Beispiel dafür ist, dass Sie sich einige der zweisprachigen Gemeinschaften in Südtexas oder in New York City ansehen und hören, wie Leute mitten im Satz zwischen Spanisch und Englisch wechseln oder Leute, die ja, genau Leute, die sind in Mumbai oder Neu-Delhi, die mitten im Satz zwischen Hindi und Englisch oder mitten im Satz zwischen Marathi und Englisch gewechselt haben.

Und das sind Bevölkerungsgruppen, die sich innerhalb dieser Sprachschnittstellen nicht selbst hören, ganz zu schweigen von all den Farbgemeinschaften, die auch nicht das Gefühl haben, ihre eigene Art von Dialekten und ihre eigene Art von Umgangssprache und ihre eigene Art von Umgangsformen zu hören Sprechen innerhalb dieser Sprachschnittstellen. Es gibt einige interessante Schritte in die richtige Richtung, die teilweise dorthin gehen, aber nicht wirklich. Ich meine, das erste ist natürlich, dass ich sehr überrascht und glücklich darüber bin, welche Möglichkeiten es gibt, Ihnen zu ermöglichen, diese Stimmen zu konfigurieren, die diese Aussagen vorlesen, wie z links.

Es gibt natürlich auch neue Dienste, die entstehen, wie Amazon Polly, Amazon Polly ist wirklich interessant, weil es einige Eingaben von geschriebenen Texten wie einen Absatz oder eine Seite oder was auch immer braucht und es mit britischem oder südafrikanischem Akzent vorliest oder ein amerikanischer Akzent, eine Frauenstimme und alle möglichen Tonarten, mit denen man drehen und herumspielen kann. Aber grundsätzlich sind das natürlich geschriebene Texte, die nicht unbedingt für Sprache optimiert sind.

Es gibt keinen algorithmischen Weg, um geschriebene Texte in etwas zu verwandeln, das in einem eher gesprochenen Stil geschrieben ist, aber es gibt auch diese Art von großer Sorge, die ich habe, nämlich wenn es um Sprachschnittstellen geht, ist es tatsächlich großartig, diesen Punkt der Exzellenz zu erreichen Wir erwarten in gewisser Weise, dass ich denke, dass es fast unmöglich ist. Ich denke, es ist fast eine paradoxe Aussage zu sagen, dass Sprachschnittstellen auf dieser Ebene des optimalen Verhaltens für alle sein werden. Denn die Art und Weise, wie sich eine Sprachschnittstelle für mich anhört, wird sich sehr von der Art und Weise unterscheiden, wie eine Sprachschnittstelle für jemand anderen klingt. Ich denke, das ist wirklich geschlechtsspezifisch durch die Tatsache, dass, wenn Sie sich Alexa oder Siri oder Cortana oder Google Home ansehen, im Allgemeinen die Standardstimme, die Standardidentität, die aus dieser Sprachschnittstelle kommt, jemand ist, der sich sehr wie ein Cisgender Straight White anhört Frauen, die den allgemeinen amerikanischen oder mittelamerikanischen Dialekt sprechen.

Und es gibt nicht unbedingt viel Platz für Leute, die Englisch als Zweitsprache sprechen oder Leute, die Code-Switcher sind. Wie ich bereits erwähnt habe, die zwischen Englisch und Spanisch gewechselt haben, mitten im Satz, oder trans- und nicht-binäre Gemeinschaften, die zwischen direkten und artgerechten Sprechweisen gewechselt haben, in Bezug darauf, wie sie tatsächlich miteinander interagieren, bis wir diese hören eine Art Umschalten, bis wir diese Art von Realität hören, die wir in diesen Sprachschnittstellen widergespiegelt haben. Ich glaube nicht, dass wir dieses hochgesteckte Ziel tatsächlich erreicht haben.

Was mich heute beunruhigt, ist, dass wir mit einer im Zusammenhang mit der Pandemie beispiellosen Situation konfrontiert sind, in der viele dieser Kundendienstmitarbeiter, viele dieser Kundendienstmitarbeiter an vorderster Front ihren Arbeitsplatz zugunsten eines stärker automatisierten, mechanischen Sprachschnittstellenansatzes verlieren. Aber die meisten dieser Leute, die ihre Jobs verlieren, die entlassen werden, die durch Sprachschnittstellen in diesen Unternehmen ersetzt werden, sind im Allgemeinen Menschen, die im globalen Süden leben, im Allgemeinen Menschen, die von den Philippinen oder Indonesien stammen oder Indien, die Englisch auf eine Weise sprechen, die sich auch in den Sprachschnittstellen widerspiegeln sollte, die wir heute haben, wenn wir das wollen.

Jemand, der ein philippinischer Amerikaner ist, sollte in der Lage sein, eine Sprachschnittstelle zu hören, die auch auf einer Sprachschnittstelle philippinisch-amerikanisch klingt. Während ich denke, dass die Dinge für Voice-Interface-Designer in gewisser Weise wirklich großartig geworden sind, denke ich, dass wir für Voice-Interface-Benutzer noch einen langen Weg vor uns haben, und es wird ein paar Jahrzehnte dauern, denke ich, bis wir das tun kann sogar so weit kommen.

Die nahe Zukunft des Voice-Content-Designs

Brent Leary : Wie sehen die nächsten Jahre für das Design von Sprachinhalten aus?

Preston So : Ich denke, dass es in gewisser Hinsicht Verbesserungen geben wird. Es wird definitiv Verbesserungen geben, wenn es um das geht, was ich die Demokratisierung des Voice-Interface-Designs nenne. Wenn Sie jemand sind, der nicht weiß, wie man eine Website erstellt, wenn Sie jemand sind, der keinen Code schreibt, wenn Sie jemand sind, der eigentlich nichts mit Informatik zu tun hat, können Sie es heute tun eine Sprachschnittstelle zu erstellen, was wirklich das erste Mal ist, dass wir das jemals zuvor getan haben.


Ich denke, wir konzentrieren uns immer noch sehr auf die Idee von Sprachschnittstellen als etwas, das verwendet wird, um unsere Lichter auszuschalten, wenn wir damit fertig sind, um den Starter und das Vorheizen einzuschalten, wenn Sie ein Smart-Home-System haben. Jemanden an die Tür lassen, das ist die neueste Werbung, die ich gesehen habe. Und andere Dinge, die nicht wirklich diese Art von vollständigem Concierge sind, die Sprachschnittstellen sein sollten, oder?

Wenn Sie sich zum Beispiel einige der anspruchsvolleren Medien über Sprachschnittstellen ansehen, schauen Sie sich 2001: A Space Odysseys HAL an oder Sie schauen sich Star Trek, die Stimme von Majel Barrett in Star Trek an, oder wenn Sie sich besonders einige ansehen Bei der Art von Black Mirror-Episoden, die kürzlich erschienen sind, wollen wir nicht nur einen Assistenten, der mit uns über die Durchführung dieser oder jener Transaktion oder diese Aufgabe in unserem Namen sprechen kann.

Wir möchten auch, dass sie möglicherweise unseren Tag planen und Dinge tun, die viel komplexer und facettenreicher sind. Ich möchte zum Beispiel nicht nur Kinokarten kaufen. Ich möchte nicht nur Tickets kaufen, um Cruella oder In the Heights zu sehen. Ich möchte wirklich etwas über diesen Film herausfinden. Ich möchte herausfinden, wie hoch diese Punktzahl in Rotten Tomatoes war. Ich möchte herausfinden, wer die Besetzung und die Crew sind. Und oft sind diese Sprachschnittstellen immer noch nicht mit dieser Art von Fähigkeit ausgestattet.

Es gibt jedoch ein Paradoxon; Hier gibt es jedoch einen wirklich interessanten Konflikt, denn im Moment haben wir eine gewisse Segmentierung gesehen. Zum Beispiel, wenn Sie in, sagen wir, AMC-Kinos gehen, richtig? Oder Sie gehen zu Hilton Hotels oder Delta Airlines, wenn Sie Delta nach Hilton fragen wollen, oder wenn Sie AMC-Kinos nach irgendeiner anderen Theaterkette fragen wollen, sie können Ihnen nicht helfen.

Was wir hier sehen, ist dieser interessante Konflikt zwischen der Art und Weise, wie diese Sprachassistenten und Sprachschnittstellen versuchen, miteinander zu konkurrieren, um immer breiter in Bezug auf ihre Abdeckung von Informationen im Internet und Transaktionen im Internet zu sein. Aber auch die Tatsache, dass Sie zum Beispiel gefragt haben, wohin Sie gehen sollen, beantwortet nur Ihre Fragen zum Bundesstaat Georgia oder zu Themen, die für Bürger von Georgia relevant sind, für Einwohner in Georgia. Es ist also eine wirklich interessante Frage. Ich denke, wir werden hier in sehr naher Zukunft eine Art nächste Phase von Sprachschnittstellen sehen, die versuchen werden, einige dieser Linien im Sand zwischen thematischen und transaktionalen Überlegungen wegzuspülen. Außerdem werden wir viel mehr inhaltsgesteuerte Sprachschnittstellen sehen.

Dies ist Teil der One-on-One-Interview-Reihe mit Vordenkern. Das Transkript wurde für die Veröffentlichung bearbeitet. Wenn es sich um ein Audio- oder Videointerview handelt, klicken Sie oben auf den eingebetteten Player oder abonnieren Sie es über iTunes oder über Stitcher.