Preston So of Oracle: Chociaż lepiej jest opracowywać interfejsy głosowe, wciąż jest sposób na to, aby ci, którzy ich używają

Opublikowany: 2021-08-21

Śledzę przyjęcie technologii głosowej, odkąd dostałem swoje pierwsze urządzenie Echo w Święto Dziękczynienia 2014 roku i zacząłem 20% moich zdań od „Alexa…”. I od czasu do czasu lubię, gdy goście dołączają do mnie podczas tej serii, aby zobaczyć, jak wyglądają dzisiejsze rzeczy z tymi urządzeniami i jak są używane. Ale wcześniej nie koncentrowałem się na projektowaniu treści głosowych, dlatego byłem bardzo podekscytowany możliwością rozmowy z Preston So. Preston jest starszym dyrektorem ds. strategii produktu w firmie Oracle, ale co ważniejsze dla tej rozmowy, jest także autorem książki „ Treść głosu i użyteczność ”.

Poniżej znajduje się zredagowany zapis naszej ostatniej rozmowy w serwisie LinkedIn Live . Kliknij osadzony odtwarzacz SoundCloud, aby usłyszeć pełną rozmowę.

smallbiztrends · Kilka dobrych minut na temat projektowania treści głosowych za pomocą Preston So

Brent Leary : Jak pandemia wpłynęła na rolę głosu w rozwoju treści w kontekście cyfrowej transformacji?

Preston So : To naprawdę interesujące pytanie. Odpowiem na to z dwóch różnych punktów widzenia. Po pierwsze, kiedy zaczęliśmy pracować nad i właśnie zdałem sobie sprawę, że właściwie jeszcze nie wspomniałem o tym studium przypadku, nawet przy tym, w programie jest to, że 5 czy 6 lat temu miałem okazję pracować w zespole, który zbudował AskGeorgia.gov, który był pierwszym w historii interfejsem głosowym dla mieszkańców stanu Georgia. Ponadto był to naprawdę jeden z pierwszych istniejących interfejsów głosowych opartych na treści lub informacyjnych.

Dwa powody, dla których chcieliśmy to zbudować i przeprowadzić pilotaż tego projektu, to obsługa tych grup demograficznych, o których wspomniałem wcześniej, są często ignorowane lub często nie są obsługiwane przez te witryny, które zbudowaliśmy. Dotyczy to zwłaszcza prasy, ponieważ znamy bardzo pilną troskę w sektorze publicznym, bardzo, bardzo naglącą troskę władz lokalnych i dwóch odbiorców, którym chcieliśmy służyć słowo numer jeden, starszych Gruzinów, którzy niekoniecznie muszą być w stanie wykorzystać stronę internetową tak łatwo. Niekoniecznie musi być w stanie korzystać z komputera tak szybko, a także niekoniecznie musi mieć mobilność, aby móc podróżować do biura rządu hrabstwa lub biura agencji. Jednocześnie chcieliśmy również skupić się na niepełnosprawnych Gruzinach. Ci, którzy mogą nie być w stanie korzystać z witryny tak szybko, jak ci, którzy korzystają z witryny dzięki jej wizualnemu podejściu. A także tych, którzy naprawdę nie mają możliwości ze względu na problemy z mobilnością, przepraszam, aby rzeczywiście udać się do biura agencji i tam uzyskać odpowiedzi na swoje pytania. W tym samym czasie mieliśmy oczywiście do czynienia w tamtych czasach, i nadal mamy do czynienia z brakiem budżetu, brakiem środków finansowych w dzisiejszych rządach stanowych i lokalnych, gdzie budżety są obcinane z lewej i prawej strony, a często te gorące linie czekają czasy rosły i rosły i rosły przez telefon.

Powodem, dla którego przedstawiłem to studium przypadku, jest to, że myślę, że pandemia koronawirusa naprawdę spotęgowała to, jak niektórzy odbiorcy mierzą się nie tylko z bardzo, bardzo problematycznym systemem ucisku w społeczeństwie, ale także z naprawdę głębokimi barierami w dostępie do informacji, treści i transakcji że potrzebują. A jeśli pomyślimy, oczywiście, na kogo największy wpływ miał wpływ pandemii i skutki pandemii, to są to osoby niepełnosprawne lub starsze. A zwłaszcza, jeśli nie możesz nawet wyjść z domu, w jaki sposób faktycznie zdobywasz potrzebne informacje? Myślę więc, że pod pewnymi względami uratowaliśmy wiele pracy, która jest teraz wykonywana dzięki cyfrowej transformacji, którą wiele organizacji teraz realizuje, a to oczywiście moduluje wiele pracy, którą teraz mamy wszystko to widać w pracy zdalnej na rozproszonych siłach roboczych, ale teraz, jak najlepiej obsługiwać klientów pod tym kątem od B do C, w jaki sposób upewniamy się, że ci, którzy są naszymi klientami, ci, którzy są użytkownikami, ci, którzy są naszą rzeczywistą grupą demograficzną mogą wchodzić w interakcje z naszymi treściami w sposób, który nie wymaga od nich potencjalnie robienia rzeczy, które narażają ich na niebezpieczeństwo.

I myślę, że jest kilka rzeczy, które przyspieszyły w tym zakresie. Pierwsza dotyczy dostępu głosowego, jak widzieliśmy, myślę, że w zeszłym roku, systemy inteligentnego domu, sprzedaż inteligentnych głośników przeszła przez dach. Chodzi mi o to, że teraz 35% Amerykanów ma teraz inteligentny głośnik w domu, ale z tego samego powodu odnotowaliśmy również niesamowity wzrost w zakresie zestawów słuchawkowych do gier i technologii do gier. Tak więc zestawy słuchawkowe do rzeczywistości wirtualnej, urządzenia do noszenia i te naprawdę zwiastują, myślę, że odejście treści z pisanego medium od wizualnego medium, do którego naprawdę jesteśmy przyzwyczajeni w ciągu ostatnich kilku dekad, do znacznie bardziej wieloaspektowego kontekstu, w którym teraz moglibyśmy potencjalnie wchodzić w interakcję z naszymi treściami za pośrednictwem Oculus Rifts lub naszych smartfonów, naszego telewizora Samsung, naszych iPhone'ów i naszych iPadów, ale także oczywiście poprzez Amazon Alexa i to naprawdę rodzaj, dla mnie, myślę, że Największą rzeczą, jaka przydarzyła się pandemii koronawirusa, jest to, że naprawdę przyspieszyła ona nadejście tamtych czasów, w których organizacje muszą teraz zrozumieć, że to już nie tylko sieć.

To nie tylko mobilność, to 15 różnych rzeczy. To wszystko, wszystkie te różne kwestie i jeśli dopiero zaczynasz myśleć o internecie i urządzeniach mobilnych, jesteś już w tyle.

Dotychczasowe postępy w opracowywaniu treści głosowych

Brent Leary : Czy my byliśmy tam, gdzie spodziewałeś się, że będziemy z głosem będącym częścią kanału interakcji między konsumentami a sprzedawcami?

Preston Więc : Tak i nie. Myślę, że z punktu widzenia twórcy, tak myślę. I mam na myśli to, że, jak wspomniałem wcześniej, mamy te naprawdę świetne narzędzia, które są tam, Botsociety te nowe startupy, które opracowują naprawdę przyjazne dla projektantów narzędzia, które pozwalają ci robić coś w rodzaju starego Dreamweavera lub Podejście firmy Microsoft do tworzenia stron internetowych na pierwszej stronie. Przenosisz to do interfejsu głosowego i nagle nie musisz pisać, powiedzmy bardzo niskiego poziomu kodu sprzętowego lub pisać, powiedzmy przetwarzanie języka naturalnego lub rozumienie języka naturalnego do bota. Jednocześnie uważam, że jest daleko i myślę, że nie jesteśmy do końca tam, gdzie myślałem, że będziemy w tym momencie, ale myślę, że wiele z tego wynika również z tego, że sama sztuczna inteligencja nie jest tak daleko jak wielu ludzi z konieczności myślało.

Jednym z powodów jest to, że doświadczamy teraz, kiedy wiele interfejsów głosowych, które zbudowaliśmy, jest zasadniczo nadal wyraźnie zautomatyzowanych cyfrowych, które tak naprawdę nie mają rzeczywistych środków komunikowania się w sposób, w jaki naprawdę możemy słyszeć siebie. Jednym z przykładów jest to, że patrzysz na niektóre społeczności dwujęzyczne w południowym Teksasie lub w Nowym Jorku i słyszysz ludzi dosłownie przełączających się między hiszpańskim a angielskim w środku zdania lub ludzi, którzy tak, dokładnie tych, którzy są w Bombaju lub w Nowym Delhi, którzy w połowie zdania przełączają się między hindi a angielskim lub marathi i angielskim w połowie zdania.

I są to populacje, które nie słyszą siebie w tych interfejsach głosowych, nie mówiąc już o wszystkich społecznościach kolorowych, które również nie czują, że mogą słyszeć swój własny rodzaj dialektów i swój własny rodzaj kolokwializmu i swój własny rodzaj manier mówienie w obrębie tych interfejsów głosowych. Jest kilka interesujących kroków we właściwym kierunku, które idą częściowo tam, ale nie do końca. Chodzi mi o to, że po pierwsze, myślę, że byłem bardzo zaskoczony i zadowolony z tego, co robi, jeśli chodzi o umożliwienie ci pewnego rodzaju skonfigurowania tych głosów, które czytają te oświadczenia, takie jak policja zgłoszona z przodu lub pojazd na ramieniu, lub lewy.

Oczywiście pojawiają się również nowe usługi, takie jak Amazon Polly, Amazon Polly jest naprawdę interesujący, ponieważ pobiera część pisanych tekstów, takich jak akapit, strona lub cokolwiek innego, i odczytuje je z brytyjskim lub południowoafrykańskim akcentem lub amerykański akcent, kobiecy głos i różnego rodzaju wskaźniki, którymi można kręcić i bawić się. Ale nadal zasadniczo są to oczywiście teksty pisane, które niekoniecznie są zoptymalizowane pod kątem mowy.

Nie ma algorytmicznego sposobu na przekształcenie pisanego tekstu w coś, co jest napisane bardziej mówionym stylem, ale mam też pewien rodzaj dużego zmartwienia, który polega na tym, że jeśli chodzi o interfejsy głosowe, jest to naprawdę świetne i osiągnięcie tego punktu doskonałości, spodziewamy się, że pod pewnymi względami jest to prawie niemożliwe. Myślę, że stwierdzenie, że interfejsy głosowe będą na tym poziomie optymalnego zachowania dla wszystkich, jest prawie paradoksalne. Ponieważ sposób, w jaki brzmi interfejs głosowy, będzie dla mnie bardzo różny od tego, jak brzmi interfejs głosowy dla kogoś innego. Myślę, że jest to naprawdę związane z płcią, ponieważ jeśli spojrzysz na Alexę, Siri, Cortanę lub Google Home, ogólnie mówiąc jako domyślny głos, domyślną tożsamością wychodzącą z tego interfejsu głosowego jest ktoś, kto brzmi jak cisgender prosty biały kobiety posługujące się ogólnym dialektem amerykańskim lub środkowoamerykańskim.

I niekoniecznie jest dużo miejsca dla ludzi, którzy posługują się językiem angielskim jako drugim językiem lub ludźmi, którzy przełączają kody. Jak wspomniałem wcześniej, którzy przełączali się z angielskiego na hiszpański, w samym środku zdania lub społeczności trans i niebinarnych, które przełączały się między prostymi i rodzajami mowy pod względem tego, jak faktycznie współdziałają ze sobą, dopóki ich nie usłyszymy. różne rodzaje przełączania, aż usłyszymy ten rodzaj rzeczywistości, który odzwierciedliliśmy w tych interfejsach głosowych. Nie sądzę, że osiągnęliśmy ten wzniosły cel.

Martwi mnie dzisiaj to, że mamy do czynienia z bezprecedensową sytuacją pandemii, w której wielu agentów obsługi klienta traci pracę na rzecz bardziej zautomatyzowanego, mechanicznego interfejsu głosowego. Ale większość z tych ludzi, którzy tracą pracę, są zwalniani, są zastępowani przez interfejsy głosowe w tych korporacjach, to na ogół ludzie mieszkający na globalnym południu, na ogół ludzie z Filipin lub Indonezji. lub Indie, które mówią po angielsku w sposób, który powinien również znaleźć odzwierciedlenie w interfejsach głosowych, które mamy dzisiaj, jeśli tego chcemy.

Ktoś, kto jest filipińskim Amerykaninem, powinien być w stanie słyszeć interfejs głosowy, który brzmi filipińsko-amerykański, jak również na interfejsie głosowym. Więc chociaż myślę, że pod pewnymi względami sprawy stały się naprawdę świetne dla projektantów interfejsów głosowych, myślę, że dla użytkowników interfejsu głosowego wciąż mamy długą drogę do przebycia, a minie kilkadziesiąt lat, myślę, że zanim nawet może dojść do tego punktu.

Niedaleka przyszłość projektowania treści głosowych

Brent Leary : Jak będą wyglądać następne kilka lat w zakresie projektowania treści głosowych?

Preston So : Z pewnością myślę, że nastąpią pewne ulepszenia w niektórych aspektach. Na pewno nastąpią ulepszenia, jeśli chodzi o to, co nazywam demokratyzacją projektowania interfejsu głosowego. Jeśli jesteś kimś, kto nie umie stworzyć strony internetowej, jeśli jesteś kimś, kto nie pisze kodu, jeśli jesteś kimś, kto tak naprawdę nie robi niczego, co jest związane z informatyką, możesz dzisiaj stworzyć interfejs głosowy, co jest tak naprawdę pierwszym razem, kiedy zrobiliśmy to wcześniej.


Myślę, że nadal bardzo skupiamy się na idei interfejsów głosowych jako czegoś, co służy do wyłączania naszych świateł, kiedy skończymy z nimi, aby włączyć rozrusznik i podgrzewać, jeśli masz system inteligentnego domu. Niech ktoś podejdzie do drzwi, to jest ostatnia reklama, jaką widziałem. I rób inne rzeczy, które nie są tak naprawdę kompletnym concierge, jakimi miały być interfejsy głosowe, prawda?

Jeśli spojrzysz na niektóre z bardziej aspirujących mediów na temat interfejsów głosowych, na przykład, spojrzysz na 2001: A Space Odysseys HAL lub spojrzysz na Star Trek, głos Majel Barrett w Star Trek, lub jeśli spojrzysz szczególnie na niektóre tego rodzaju odcinków Black Mirror, które pojawiły się niedawno, nie chodzi tylko o to, że potrzebujemy asystenta, który może z nami porozmawiać o przeprowadzeniu tej transakcji lub tej transakcji lub wykonaniu tego zadania w naszym imieniu.

Chcemy również, aby mogli oni potencjalnie zaplanować nasz dzień, robić rzeczy, które są znacznie bardziej złożone i wieloaspektowe. Na przykład nie chcę po prostu kupować biletów do kina. Nie chcę po prostu kupować biletów na Cruellę czy In the Heights. Chcę się dowiedzieć o tym filmie. Chcę się dowiedzieć, jaki był ten wynik w Rotten Tomatoes. Chcę się dowiedzieć, kim jest obsada i ekipa. I wiele razy te interfejsy głosowe wciąż nie są wyposażone w tego rodzaju możliwości.

Jest jednak paradoks; mamy tu jednak do czynienia z naprawdę interesującym konfliktem, ponieważ w tej chwili widzieliśmy pewną segmentację. Na przykład, jeśli chodzisz do, powiedzmy, kin AMC, prawda? Lub udajesz się do Hilton Hotels lub Delta Airlines, jeśli chcesz zapytać Delta o Hiltona, lub chcesz zapytać kino AMC o jakąś inną sieć kin, nie mogą ci pomóc.

To, co widzimy tutaj, to interesujący konflikt między tym, jak ci asystenci głosowi i interfejsy głosowe próbują ze sobą konkurować, aby być coraz szerszym pod względem zakresu informacji w sieci i transakcji w sieci. Ale także fakt, że zapytany, gdzie się udać, na przykład, odpowie tylko na twoje pytania dotyczące stanu Gruzji lub tematów, które są istotne dla obywateli Gruzji, dla mieszkańców Gruzji. Więc to naprawdę ciekawe pytanie. Myślę, że w bardzo niedalekiej przyszłości zobaczymy jakąś następną fazę interfejsów głosowych, które będą próbowały zmyć niektóre z tych granic między względami bieżącymi a transakcyjnymi. A także zaczniemy widzieć znacznie więcej interfejsów głosowych opartych na treści.

Jest to część serii wywiadów jeden na jeden z liderami myśli. Transkrypcja została zredagowana do publikacji. Jeśli jest to wywiad audio lub wideo, kliknij osadzony odtwarzacz powyżej lub zasubskrybuj przez iTunes lub Stitcher.