Preston So di Oracle: mentre le cose vanno meglio per lo sviluppo di interfacce vocali, c'è ancora molta strada da fare per chi le usa

Pubblicato: 2021-08-21

Ho seguito l'adozione della prima tecnologia vocale da quando ho ricevuto il mio primo dispositivo Echo intorno al Ringraziamento del 2014 e ho iniziato il 20% delle mie frasi con "Alexa...". E ogni tanto mi piace che gli ospiti si uniscano a me per questa serie per vedere come stanno le cose oggi con questi dispositivi e come vengono utilizzati. Ma non mi sono mai concentrato sulla progettazione di contenuti vocali prima, motivo per cui ero davvero entusiasta di parlare con Preston So. Preston è Senior Director, Product Strategy di Oracle, ma soprattutto per questa conversazione è anche autore del libro " Voice Content and Usability ".

Di seguito è riportata una trascrizione modificata della nostra recente conversazione LinkedIn Live . Fai clic sul lettore SoundCloud incorporato per ascoltare l'intera conversazione.

smallbiztrends · Alcuni buoni minuti sulla progettazione di contenuti vocali con Preston So

Brent Leary : In che modo la pandemia ha influito sul ruolo della voce da uno sviluppo di contenuti nel contesto della trasformazione digitale?

Preston So : Questa è una domanda davvero interessante. Risponderò a questo da due diverse angolazioni. La prima è che quando abbiamo iniziato a lavorare e mi sono appena reso conto che in realtà non ho ancora menzionato questo caso di studio, anche su questo, nello show è che 5 o 6 anni fa ho avuto l'opportunità di lavorare in un team che ha costruito AskGeorgia.gov, che è stata la prima interfaccia vocale in assoluto per i residenti dello stato della Georgia. Inoltre, è stata davvero una delle prime interfacce vocali basate sui contenuti o informative esistenti.

I due motivi per cui abbiamo voluto costruire questo e pilotare questo progetto erano per servire quei dati demografici, che ho menzionato prima sono spesso ignorati o spesso non serviti altrettanto bene da quei siti web che abbiamo costruito. E questa è soprattutto la stampa, poiché conosciamo una preoccupazione molto pressante nel settore pubblico, una preoccupazione molto, molto pressante all'interno del governo locale e dei due pubblici a cui volevamo servire la parola numero uno, gli anziani georgiani, che potrebbero non essere necessariamente in grado di utilizzare un sito web altrettanto facilmente. Potrebbe non essere necessariamente in grado di utilizzare un computer con la stessa rapidità e potrebbe anche non avere necessariamente la mobilità per potersi recare in un ufficio del governo della contea o in un ufficio di agenzia. Allo stesso tempo, volevamo concentrarci anche sui georgiani disabili. Coloro che potrebbero non essere in grado di utilizzare un sito Web con la stessa rapidità di coloro che utilizzano il sito Web attraverso il suo tipo di approccio visivo. E anche quelli che davvero non hanno la capacità, a causa di quei problemi di mobilità, mi scusi, di recarsi effettivamente in un ufficio dell'agenzia e ottenere lì le risposte alle loro domande. Allo stesso tempo stavamo anche affrontando in quei giorni, ovviamente, e ancora oggi, la mancanza di budget, la natura a corto di liquidità dei governi statali e locali di oggi, dove i budget vengono tagliati a destra e a manca e spesso le hotline aspettano i tempi stavano crescendo e crescendo e crescendo al telefono.

Il motivo per cui ho sollevato questo caso di studio è che penso che la pandemia di coronavirus abbia davvero amplificato il modo in cui alcuni tipi di pubblico affrontano non solo questi sistemi di oppressione nella società davvero molto, molto problematici, ma anche barriere davvero profonde all'accesso alle informazioni, ai contenuti e alle transazioni di cui hanno bisogno. E se si pensa, ovviamente, a chi è stato maggiormente colpito dall'impatto della pandemia e dagli effetti della pandemia, sono le persone con disabilità o gli anziani. E soprattutto se non puoi nemmeno uscire di casa, come ottieni effettivamente le informazioni di cui hai bisogno? Quindi penso che in qualche modo abbiamo pre-salvato molto del lavoro che sta avvenendo in questo momento con la trasformazione digitale oggi, di cui molte organizzazioni si stanno rendendo conto, e questo ovviamente sta modulando molto del lavoro che ora abbiamo visto sul lavoro a distanza su forza lavoro distribuita tutto questo, ma anche ora come servire al meglio i clienti in quell'angolo da B a C, come possiamo effettivamente assicurarci che coloro che sono i nostri clienti, coloro che sono gli utenti, coloro che sono i nostri dati demografici effettivi possono interagire con i nostri contenuti in modi che non richiedono loro potenzialmente di fare cose che li mettono in pericolo.

E penso che ci siano diverse cose che hanno accelerato in questo senso. Il primo è lungo l'accesso vocale, come abbiamo visto, penso che sia stato l'anno scorso, i sistemi domestici intelligenti, le vendite di altoparlanti intelligenti sono andate alle stelle. Voglio dire, è ora, il 35% degli americani ora ha un altoparlante intelligente a casa, ma allo stesso modo, abbiamo anche avuto un'incredibile crescita nelle cuffie da gioco e nelle tecnologie di gioco. Quindi cuffie per realtà virtuale, dispositivi indossabili e questi fanno davvero presagire, penso che lo spostamento del contenuto dal mezzo scritto al mezzo visivo, a cui siamo davvero abituati negli ultimi decenni, in un tipo di contesto molto più sfaccettato in cui ora potremmo potenzialmente interagire con i nostri contenuti tramite un Oculus Rifts o tramite i nostri smartphone, tramite la nostra TV Samsung, tramite i nostri iPhone e iPad, ma ovviamente anche tramite un Amazon Alexa e questo, per me, penso che il La cosa più grande che è successa con la pandemia di coronavirus è che ha davvero accelerato l'arrivo di quel tempo, in cui le organizzazioni ora devono capire che non è più solo il web.

Non è solo mobile, sono 15 cose diverse. Sono tutte queste diverse considerazioni e se solo ora stai pensando al web e ai dispositivi mobili sei già indietro.

Progressi fino ad oggi sullo sviluppo dei contenuti vocali

Brent Leary : Eravamo dove ti aspettavi che fossimo con la voce come un pezzo del canale di interazione tra consumatori e venditori?

Preston So : Sì e no. Penso che ci sia dal punto di vista del produttore, penso di sì. E quello che voglio dire con questo è, come ho detto prima, abbiamo questi strumenti davvero fantastici che sono là fuori, Botsociety, queste nuove startup che stanno sviluppando strumenti davvero facili da progettare che ti consentono di fare come il vecchio Dreamweaver o Approccio Microsoft in prima pagina alla creazione di siti Web. Lo porti su un'interfaccia vocale e improvvisamente non devi scrivere, diciamo codice hardware di livello molto basso o scrivere, diciamo elaborazione del linguaggio naturale o comprensione del linguaggio naturale in un bot. Allo stesso tempo, anche se penso che ci sia molta strada da fare e penso che non siamo davvero dove pensavo che saremmo stati a questo punto, ma penso che molto sia anche perché l'IA stessa non è così lontana insieme come molte persone necessariamente pensavano.

Uno dei motivi è che stiamo vivendo questo momento in cui molte delle interfacce vocali che abbiamo costruito sono fondamentalmente ancora chiaramente automatizzate digitali che non hanno realmente un mezzo di comunicazione reale in un modo che possiamo davvero ascoltarci dentro. Un esempio di questo è che guardi alcune delle comunità bilingue nel sud del Texas o nella città di New York e senti persone che passano letteralmente dallo spagnolo all'inglese nel mezzo di una frase o persone che sì, esattamente persone che sono a Mumbai oa una nuova Delhi che è passato dall'hindi all'inglese a metà frase o dal marathi all'inglese a metà frase.

E queste sono popolazioni che non si sentono all'interno di queste interfacce vocali, per non parlare di tutte le comunità di colore che inoltre non sentono di poter ascoltare il proprio tipo di dialetti e il proprio tipo di colloquialismo e il proprio tipo di modi di parlando all'interno di queste interfacce vocali. Ci sono alcuni passaggi interessanti nella giusta direzione che in parte vanno lì, ma non proprio. Voglio dire, il primo ovviamente è che penso di essere stato molto sorpreso e felice di ciò che sta facendo in termini di consentire in qualche modo di configurare quelle voci che leggono ad alta voce quelle dichiarazioni come la polizia segnalata davanti o il veicolo a spalla, o tengono sinistra.

Ci sono ovviamente anche nuovi servizi che stanno emergendo come Amazon Polly, Amazon Polly è davvero interessante perché richiederà alcuni input di testi scritti come un paragrafo o una pagina o altro e lo leggerà con un accento britannico o sudafricano o un accento americano, una voce femminile e tutti i tipi di vari tipi di misure con cui puoi distorcere e giocare. Ma fondamentalmente, ovviamente, si tratta di testi scritti che non sono stati necessariamente ottimizzati per il parlato.

Non esiste un modo algoritmico per trasformare i testi scritti in qualcosa che è scritto in uno stile più parlato, ma c'è anche quel tipo di grande preoccupazione che ho, ovvero quando si tratta di interfacce vocali è davvero fantastico e arrivare a quel punto di eccellenza che ci aspettiamo in qualche modo penso sia quasi impossibile. Penso che sia quasi un'affermazione paradossale dire che le interfacce vocali saranno a questo livello di comportamento ottimale per tutti. Perché il modo in cui suona un'interfaccia vocale per me sarà molto diverso dal modo in cui suona un'interfaccia vocale per qualcun altro. Penso che sia davvero legato al genere dal fatto che se guardi Alexa o Siri o Cortana o Google Home, in generale parlando la voce predefinita, l'identità predefinita che esce da questa interfaccia vocale è qualcuno che suona molto come un bianco dritto cisgender donne che parlano con il dialetto americano generale o medio americano.

E non c'è necessariamente molto spazio per le persone che parlano l'inglese come seconda lingua o per le persone che cambiano codice. Come ho detto prima, chi è passato dall'inglese allo spagnolo, proprio nel mezzo della frase, o le comunità trans e non binarie che sono passate da un modo di parlare diretto a un tipo di discorso in termini di come interagiscono effettivamente tra loro fino a quando non sentiamo quelle sorta di interruttori finché non sentiamo quel tipo di realtà che abbiamo riflesso in quelle interfacce vocali. Non credo che abbiamo effettivamente raggiunto quell'obiettivo ambizioso.

Quello che mi preoccupa oggi è che stiamo affrontando una situazione senza precedenti con la pandemia in cui molti di questi agenti del servizio clienti, molti di questi addetti al servizio clienti in prima linea stanno perdendo il lavoro a favore di un approccio di interfaccia vocale più automatizzato e meccanico. Ma la maggior parte di queste persone che stanno perdendo il lavoro che vengono licenziate, che vengono sostituite dalle interfacce vocali in queste società, sono generalmente persone che vivono nel sud del mondo, generalmente persone che provengono dalle Filippine o dall'Indonesia o l'India che parla inglese in modi che dovrebbero riflettersi anche nelle interfacce vocali che abbiamo oggi, se lo vogliamo.

Qualcuno che è un filippino americano dovrebbe essere in grado di ascoltare un'interfaccia vocale che suona anche filippino americano su un'interfaccia vocale. Quindi, mentre penso che in qualche modo le cose siano diventate davvero grandiose per i progettisti di interfacce vocali, penso che per gli utenti di interfacce vocali, abbiamo ancora molta strada da fare e ci vorranno alcuni decenni, penso prima di persino può arrivare a quel punto.

Il prossimo futuro del design dei contenuti vocali

Brent Leary : Come saranno i prossimi due anni per la progettazione dei contenuti vocali?

Preston So : Penso sicuramente che ci saranno miglioramenti sotto certi aspetti. Ci saranno sicuramente miglioramenti quando si tratta di quella che io chiamo la democratizzazione del design dell'interfaccia vocale. Se sei qualcuno che non sa come creare un sito web, se sei qualcuno che non scrive codice, se sei qualcuno che in realtà non fa nulla che abbia a che fare con l'informatica, oggi puoi creare un'interfaccia vocale, che è davvero la prima volta che lo facciamo prima.


Penso che siamo ancora molto concentrati sull'idea delle interfacce vocali come qualcosa che viene utilizzato per spegnere le nostre luci, quando abbiamo finito con loro per accendere l'avviamento e il preriscaldamento se hai un sistema di casa intelligente. Lascia qualcuno alla porta, che è la pubblicità più recente che ho visto. E fare altre cose che non sono proprio quel tipo di portiere completo, che avrebbero dovuto essere le interfacce vocali, giusto?

Se guardi alcuni dei media più ambiziosi sulle interfacce vocali, ad esempio, guardi 2001: Odissea nello spazio HAL o guardi Star Trek, la voce di Majel Barrett in Star Trek, o se guardi in particolare alcuni del tipo di episodi di Black Mirror che sono usciti di recente, non è solo che vogliamo un assistente che possa parlarci di fare questa transazione o quella transazione o di svolgere questo compito per nostro conto.

Vogliamo anche essere in grado di programmare potenzialmente la nostra giornata, fare cose molto più complesse e sfaccettate. Ad esempio, non voglio solo comprare i biglietti per un film. Non voglio comprare solo i biglietti per vedere Crudelia o In the Heights. Voglio davvero scoprire di quel film. Voglio scoprire qual era il punteggio in Rotten Tomatoes. Voglio scoprire chi sono il cast e la troupe. E molte volte queste interfacce vocali non sono ancora dotate di quel tipo di capacità.

C'è un paradosso però; c'è un conflitto davvero interessante qui, perché in questo momento abbiamo assistito a un po' di segmentazione. Ad esempio, se vai, diciamo, nei cinema AMC, giusto? Oppure vai a Hilton Hotels o Delta Airlines, se vuoi chiedere a Delta di Hilton, o se vuoi chiedere ai teatri AMC di una sorta di altra catena di teatri, non possono aiutarti.

Quello che stiamo vedendo qui è questo interessante conflitto tra il modo in cui questi assistenti vocali e le interfacce vocali stanno cercando di competere tra loro, per essere sempre più ampi in termini di copertura delle informazioni sul Web e transazioni sul Web. Ma anche il fatto che ti sia stato chiesto dove andare, ad esempio, risponderà solo alle tue domande sullo stato della Georgia o su argomenti rilevanti per i cittadini della Georgia, per i residenti in Georgia. Quindi è una domanda davvero interessante. Penso che vedremo una sorta di prossima fase delle interfacce vocali qui in un futuro molto prossimo che cercherà di lavare via alcune di queste linee nella sabbia tra considerazioni di attualità e transazionali. Inoltre, inizieremo a vedere molte più interfacce vocali basate sui contenuti.

Questo fa parte della serie di interviste One-to-One con leader di pensiero. La trascrizione è stata modificata per la pubblicazione. Se si tratta di un'intervista audio o video, fai clic sul player incorporato in alto o iscriviti tramite iTunes o tramite Stitcher.