Preston So de la Oracle: Deși lucrurile sunt mai bune pentru dezvoltarea interfețelor de voce, există încă o cale de făcut pentru cei care le folosesc
Publicat: 2021-08-21Urmăresc adoptarea tehnologiei de voce, de când am primit primul meu dispozitiv Echo în jurul Zilei Recunoștinței din 2014 și am început 20% din propoziții cu „Alexa…”. Și din când în când îmi place să am oaspeți alături de mine pentru această serie pentru a vedea cum stau lucrurile astăzi cu aceste dispozitive și cum sunt folosite. Dar nu m-am concentrat cu adevărat pe proiectarea conținutului vocal până acum, motiv pentru care am fost foarte încântat să vorbesc cu Preston So. Preston este Senior Director, Product Strategy la Oracle, dar mai important pentru această conversație, el este și autorul cărții, „ Conținut vocal și utilizare ”.
Mai jos este o transcriere editată a conversației noastre recente pe LinkedIn Live . Faceți clic pe playerul SoundCloud încorporat pentru a asculta conversația completă.
Brent Leary : Cum a afectat pandemia rolul vocii dintr-o dezvoltare a conținutului în contextul transformării digitale?
Preston So : Aceasta este o întrebare cu adevărat interesantă. Voi răspunde la asta din două unghiuri diferite. Primul este că atunci când am început să lucrăm și tocmai mi-am dat seama că nu am menționat încă acest studiu de caz, chiar și despre asta, în emisiune este că acum 5 sau 6 ani am avut ocazia să lucrez într-o echipă care a construit AskGeorgia.gov, care a fost prima interfață vocală pentru locuitorii statului Georgia. De asemenea, a fost într-adevăr una dintre primele interfețe de voce bazate pe conținut sau informațional existente.
Cele două motive pentru care am vrut să construim acest proiect și să pilotăm acest proiect au fost de a servi acele date demografice, despre care am menționat mai devreme, de multe ori sunt ignorate sau de multe ori nu sunt servite la fel de bine de acele site-uri web pe care le-am construit. Și aceasta este în special presa, deoarece știm o preocupare foarte presantă în sectorul public, o preocupare foarte, foarte presantă în cadrul administrației locale și a celor două audiențe pe care am vrut să le servim cuvântul numărul unu, georgienii în vârstă, care ar putea să nu fie în măsură să folosească neapărat. un site la fel de ușor. S-ar putea să nu poată folosi un computer la fel de repede și, de asemenea, s-ar putea să nu aibă neapărat mobilitatea necesară pentru a se putea deplasa la un birou al guvernului județean sau la o agenție. În același timp, am vrut să ne concentrăm și pe georgienii cu dizabilități. Cei care s-ar putea să nu poată utiliza un site la fel de repede ca cei care folosesc site-ul prin abordarea sa vizuală. Și, de asemenea, cei care chiar nu au capacitatea din cauza acestor probleme de mobilitate, scuzați-mă, să călătorească efectiv la un birou de agenție și să primească răspunsuri la întrebările lor acolo. În același timp, aveam de-a face și în acele vremuri, bineînțeles, și continuă și astăzi, lipsa bugetului, natura limită de numerar a guvernelor de stat și locale de astăzi, unde bugetele sunt reduse în stânga și în dreapta și de multe ori aceste linii fierbinți așteaptă vremurile creșteau și creșteau și creșteau la telefon.
Motivul pentru care am adus în discuție acest studiu de caz este că, cred că pandemia de coronavirus a amplificat cu adevărat modul în care anumite audiențe se confruntă nu numai cu aceste sisteme de opresiune foarte, foarte problematice în societate, ci și cu bariere foarte profunde în calea accesului la informații și conținut și tranzacții. de care au nevoie. Și dacă vă gândiți, desigur, cine a fost cel mai afectat de impactul pandemiei și de efectele pandemiei, sunt cei care sunt persoane cu dizabilități sau cei care sunt în vârstă. Și mai ales dacă nici măcar nu poți părăsi casa ta, cum obții de fapt informațiile de care ai nevoie? Așadar, cred că, într-un anumit fel, am salvat în prealabil o mare parte din munca care se întâmplă chiar acum cu transformarea digitală de astăzi, în care multe organizații își dau seama acum și, desigur, acest lucru se modifică printr-o mare parte din munca pe care o avem acum. toate acestea, dar și acum cum să servim cel mai bine clienții în acel unghi de la B la C, cum ne asigurăm de fapt că cei care sunt clienții noștri, cei care sunt utilizatori, cei care sunt demografiile noastre reale poate interacționa cu conținutul nostru în moduri care să nu le solicite să facă lucruri care îi pun în pericol.
Și cred că sunt câteva lucruri care s-au accelerat în acest sens. Primul este de-a lungul accesului vocal, așa cum am văzut, cred că a fost anul trecut, sistemele de acasă inteligente, vânzările de boxe inteligente au trecut prin acoperiș. Adică, acum, 35% dintre americani au acum un difuzor inteligent acasă, dar, de asemenea, am avut o creștere incredibilă a căștilor de gaming și a tehnologiilor de gaming. Așadar, căștile de realitate virtuală, dispozitivele purtabile și acestea prevestesc, cred că, deplasarea conținutului de la mediul scris de la mediul vizual, cu care ne-am obișnuit cu adevărat în ultimele decenii într-un tip de context cu mai multe fațete, în care acum am putea interacționa cu conținutul nostru printr-un Oculus Rifts sau prin smartphone-urile noastre, prin televizorul nostru Samsung, prin iPhone-urile și iPad-urile noastre, dar, desigur, printr-un Amazon Alexa și acest lucru într-adevăr, pentru mine, cred că Cel mai mare lucru care s-a întâmplat cu pandemia de coronavirus este că a într-adevăr accelerat sosirea acelui timp, în care organizațiile trebuie acum să înțeleagă că nu mai este vorba doar de web.
Nu este doar mobil, sunt 15 lucruri diferite. Sunt toate aceste considerații diferite și dacă abia acum ai început să te gândești la web și mobil, ești deja în urmă.
Progrese până în prezent în dezvoltarea conținutului vocal
Brent Leary : Am fost noi, acolo unde v-ați așteptat să fim, vocea fiind o piesă a canalului de interacțiune dintre consumatori și vânzători?
Preston So : Da și nu. Cred că există din punctul de vedere al producătorului, cred că da. Și ceea ce vreau să spun prin asta este, așa cum am menționat mai devreme, avem aceste instrumente foarte grozave care există, Botsociety, aceste noi startup-uri care dezvoltă instrumente cu adevărat prietenoase cu designerii, care vă permit să faceți ca genul de vechi Dreamweaver sau Abordarea de pe prima pagină a Microsoft pentru construirea de site-uri web. Transferați asta la o interfață vocală și dintr-o dată nu trebuie să scrieți, să spunem cod hardware de nivel foarte scăzut sau să scrieți, să spunem procesarea limbajului natural sau înțelegerea limbajului natural într-un bot. În același timp, cred că sunt multe distanțe și cred că nu suntem chiar acolo unde credeam că am fi în acest moment, dar cred că o mare parte din asta se datorează și faptului că AI în sine nu este atât de departe. așa cum au crezut în mod necesar mulți oameni.
Unul dintre motivele pentru aceasta este că ne confruntăm în acest moment în care multe dintre interfețele de voce pe care le-am construit sunt în mod fundamental încă în mod clar automatizate digitale și nu au cu adevărat un mijloc real de comunicare într-un mod în care putem cu adevărat. ne auzim pe noi înșine. Un exemplu în acest sens este că te uiți la unele dintre comunitățile bilingve din sudul Texasului sau din orașul New York și auzi oameni care schimbă literalmente între spaniolă și engleză în mijlocul unei propoziții sau oameni care da, exact oameni care sunt în Mumbai sau într-o nouă Delhi care au schimbat între hindi și engleză la mijlocul propoziției sau o comutare între marathi și engleză la mijlocul propoziției.
Și acestea sunt populații care nu se aud pe ei înșiși în aceste interfețe vocale, cu atât mai puțin toate comunitățile de culoare care, de asemenea, nu simt că își pot auzi propriul fel de dialecte și propriul fel de colocvialism și propriile lor feluri de vorbind în cadrul acestor interfețe vocale. Există niște pași interesanți în direcția corectă, care merg parțial acolo, dar nu chiar. Vreau să spun, primul, desigur, este că cred că am fost foarte surprins și mulțumit de modurile în care se procedează în ceea ce privește ceea ce vă permite să configurați acele voci care citesc acele declarații, cum ar fi poliția raportată înainte sau vehiculul pe umăr, sau păstrați stânga.
Există, desigur, și noi servicii care apar, cum ar fi Amazon Polly, Amazon Polly este cu adevărat interesant, deoarece va fi nevoie de o introducere de texte scrise, cum ar fi un paragraf sau o pagină sau orice altceva, și le va citi cu accent britanic sau accent sud-african sau un accent american, o voce de femeie și tot felul de diverse tipuri de instrumente pe care le poți răsuci și cu care te poți juca. Dar, în mod fundamental, desigur, acestea sunt texte scrise care nu au fost neapărat optimizate pentru vorbire.
Nu există o modalitate algoritmică de a transforma textele scrise în ceva care este scris într-un stil mai vorbit, dar există și acel fel de mare îngrijorare pe care o am, care este că atunci când vine vorba de interfețele vocale, de fapt, sunt grozav și ajung la acel punct de excelență care ne așteptăm în anumite privințe cred că este aproape imposibil. Cred că este aproape o afirmație paradoxală să spunem că interfețele vocale vor fi la acest nivel de comportament optim pentru toată lumea. Pentru că felul în care sună o interfață vocală pentru mine va fi foarte diferit de felul în care sună o interfață vocală pentru altcineva. Cred că asta este într-adevăr în gen prin faptul că, dacă te uiți la Alexa sau Siri sau Cortana sau Google Home, vorbind în general, vocea implicită, identitatea implicită care iese din această interfață vocală este cineva care sună foarte mult ca un cisgender alb drept. femei care vorbesc cu dialectul american general sau mijlocul american.
Și nu există neapărat foarte mult spațiu pentru persoanele care vorbesc engleza ca a doua limbă sau pentru persoanele care schimbă codul. După cum am menționat mai devreme, cine a schimbat între engleză și spaniolă, chiar în mijlocul propoziției sau comunități trans și non-binare care au comutat între moduri de vorbire directe și un fel de fel de fel în ceea ce privește modul în care interacționează de fapt unul cu celălalt până când le auzim feluri de comutare până când auzim acel tip de realitate pe care am reflectat-o în acele interfețe vocale. Nu cred că am atins de fapt acel obiectiv înalt.
Ceea ce mă îngrijorează astăzi este că ne confruntăm cu o situație fără precedent odată cu pandemia, în care mulți dintre acești agenți de servicii pentru clienți, mulți dintre acești lucrători din prima linie, își pierd locurile de muncă în favoarea unei interfețe vocale mai automatizate și mecanice. Dar cei mai mulți dintre acești oameni care își pierd locurile de muncă, care sunt disponibilizați, care sunt înlocuiți de interfețele vocale la aceste corporații, sunt în general oameni care trăiesc în sudul global, în general oameni care sunt din Filipine sau Indonezia sau India, care vorbesc engleza în moduri care ar trebui să se reflecte și în interfețele vocale pe care le avem astăzi, dacă dorim așa.
Cineva care este filipinez american ar trebui să poată auzi o interfață vocală care sună filipineză americană și pe o interfață vocală. Deci, deși cred că, în anumite privințe, lucrurile au devenit foarte bune pentru designerii de interfețe de voce, cred că pentru utilizatorii de interfețe de voce, mai avem multe drumuri de parcurs și vor fi câteva decenii, cred că înainte chiar poate ajunge la acel punct.
Viitorul apropiat al designului de conținut vocal
Brent Leary : Cum arată următorii doi ani pentru designul conținutului vocal?
Preston So : Cu siguranță cred că vor fi îmbunătățiri în anumite privințe. Cu siguranță vor exista îmbunătățiri când vine vorba de ceea ce eu numesc democratizarea designului interfeței de voce. Dacă ești cineva care nu știe cum să creeze un site web, dacă ești cineva care nu scrie cod, dacă ești cineva care de fapt nu face nimic legat de informatică, poți astăzi creați o interfață vocală, care este într-adevăr prima dată când am făcut asta înainte.
