Preston So de Oracle: si bien las cosas son mejores para desarrollar interfaces de voz, todavía hay un camino por recorrer para quienes las usan

Publicado: 2021-08-21

He estado rastreando la adopción de la tecnología de voz desde que obtuve mi primer dispositivo Echo alrededor del Día de Acción de Gracias de 2014 y comencé el 20 % de mis oraciones con "Alexa...". Y de vez en cuando me gusta tener invitados que se unan a mí para esta serie para ver cómo están las cosas hoy en día con estos dispositivos y cómo se están utilizando. Pero nunca antes me había centrado en diseñar contenido de voz, por lo que estaba muy emocionado de hablar con Preston So. Preston es director sénior de estrategia de productos en Oracle, pero lo que es más importante para esta conversación, también es autor del libro " Contenido de voz y usabilidad ".

A continuación se muestra una transcripción editada de nuestra reciente conversación en vivo de LinkedIn . Haga clic en el reproductor de SoundCloud incorporado para escuchar la conversación completa.

smallbiztrends · Unos buenos minutos sobre el diseño de contenido de voz con Preston So

Brent Leary : ¿Cómo ha impactado la pandemia el rol de la voz desde un desarrollo de contenido en el contexto de la transformación digital?

Preston So : Esta es una pregunta realmente interesante. Contestaré esto desde dos ángulos diferentes. La primera es que cuando empezamos a trabajar y me acabo de dar cuenta de que en realidad no he mencionado este caso de estudio todavía, incluso en esto, en el programa es que hace 5 o 6 años tuve la oportunidad de trabajar en un equipo que construyó AskGeorgia.gov, que fue la primera interfaz de voz para los residentes del estado de Georgia. Además, fue realmente una de las primeras interfaces de voz informativas o impulsadas por contenido que existieron.

Las dos razones por las que queríamos construir esto y poner a prueba este proyecto eran para servir a esos datos demográficos, que mencioné anteriormente, a menudo son ignorados o no atendidos tan bien por los sitios web que construimos. Y esto es especialmente para la prensa, como sabemos, una preocupación muy apremiante en el sector público, una preocupación muy, muy apremiante dentro del gobierno local y las dos audiencias a las que queríamos atender la palabra número uno, los ancianos georgianos, que quizás no puedan usar necesariamente un sitio web con la misma facilidad. Es posible que no sea necesariamente capaz de usar una computadora con tanta rapidez y que tampoco tenga necesariamente la movilidad para poder viajar a una oficina del gobierno del condado oa la oficina de una agencia. Al mismo tiempo, también queríamos centrarnos en los georgianos discapacitados. Aquellos que tal vez no puedan usar un en un sitio web tan rápido como aquellos que están usando el sitio web a través de su tipo de enfoque visual. Y también aquellos que realmente no tienen la capacidad debido a esos problemas de movilidad, disculpe, para viajar a la oficina de una agencia y allí obtener respuestas a sus preguntas. Al mismo tiempo, también lidiamos en esos días, por supuesto, y aún hoy, con la falta de presupuesto, la naturaleza de las correas de efectivo de los gobiernos estatales y locales hoy en día, donde los presupuestos se recortan de izquierda a derecha y, a menudo, esas líneas directas esperan. Los tiempos crecían y crecían y crecían en el teléfono.

La razón por la que mencioné este estudio de caso es que creo que la pandemia de coronavirus realmente ha magnificado cómo ciertas audiencias enfrentan no solo estos sistemas de opresión muy, muy problemáticos en la sociedad, sino también barreras realmente profundas para acceder a la información, el contenido y las transacciones. que necesitan Y si piensas, por supuesto, quiénes se han visto más afectados por el impacto de la pandemia y los efectos de la pandemia son las personas con discapacidad o las personas mayores. Y especialmente si ni siquiera puede salir de su casa, ¿cómo obtiene realmente la información que necesita? Así que creo que, de alguna manera, guardamos previamente mucho del trabajo que está sucediendo ahora con la transformación digital actual, donde muchas organizaciones ahora se están dando cuenta, y esto, por supuesto, se está modulando a través de mucho del trabajo que ahora tenemos. visto en el trabajo remoto en fuerzas de trabajo distribuidas todo eso, pero también ahora cómo servir mejor a los clientes en ese ángulo B a C, ¿cómo nos aseguramos de que aquellos que son nuestros clientes, aquellos que son usuarios, aquellos que son nuestra demografía real? pueden interactuar con nuestro contenido de maneras que no requieren que hagan cosas que los pongan en peligro.

Y creo que hay varias cosas que se han acelerado en este sentido. El primero es a lo largo del acceso de voz como vimos, creo que fue el año pasado, los sistemas domésticos inteligentes, las ventas de altavoces inteligentes se han disparado. Quiero decir, es ahora, el 35% de los estadounidenses ahora tienen un altavoz inteligente en casa, pero de la misma manera, también hemos tenido una cantidad increíble de crecimiento en auriculares y tecnologías de juego. Entonces, los cascos de realidad virtual, los dispositivos portátiles y estos realmente presagian, creo que el cambio de contenido del medio escrito al medio visual, al que estamos realmente acostumbrados en las últimas décadas, hacia un tipo de contexto mucho más multifacético donde ahora podríamos estar potencialmente interactuando con nuestro contenido a través de Oculus Rifts o a través de nuestros teléfonos inteligentes, a través de nuestro televisor Samsung, a través de nuestros iPhones y iPads, pero también, por supuesto, a través de Amazon Alexa y esto realmente, para mí, creo que el Lo más importante que sucedió con la pandemia de coronavirus es que realmente aceleró la llegada de ese momento, donde las organizaciones ahora deben comprender que ya no se trata solo de la web.

No es solo móvil, son 15 cosas diferentes. Son todas estas consideraciones diferentes y si recién ahora está pensando en la web y los dispositivos móviles, ya está atrasado.

Progreso hasta la fecha en el desarrollo de contenido de voz

Brent Leary : ¿Estamos donde esperaba que estuviéramos con la voz como parte del canal de interacción entre consumidores y proveedores?

Preston So : Sí y no. Creo que hay desde el punto de vista del fabricante, creo que sí. Y lo que quiero decir con eso es que, como mencioné anteriormente, tenemos estas herramientas realmente geniales que existen, Botsociety, estas nuevas empresas que están desarrollando herramientas realmente fáciles de diseñar que le permiten hacer como el viejo Dreamweaver o Enfoque de la página principal de Microsoft para crear sitios web. Llevas eso a una interfaz de voz y de repente no tienes que estar escribiendo, digamos código de hardware de muy bajo nivel o escribiendo, digamos procesamiento de lenguaje natural o comprensión del lenguaje natural en un bot. Al mismo tiempo, creo que hay un largo camino por recorrer y creo que no estamos realmente donde pensé que estaríamos en este punto, pero creo que mucho de eso también se debe a que la IA en sí misma no está tan lejos. como mucha gente necesariamente pensaba.

Una de las razones es que estamos experimentando este momento en el que muchas de las interfaces de voz que hemos construido son fundamentalmente todavía claramente digitales automatizadas que realmente no tienen un medio real de comunicación de una manera que realmente podamos. escucharnos a nosotros mismos. Un ejemplo de esto es que miras algunas de las comunidades bilingües en el sur de Texas o en la ciudad de Nueva York y escuchas a las personas cambiar literalmente entre español e inglés en medio de una oración o personas que sí, exactamente personas que están en Mumbai o en Nueva Delhi y cambiaron entre hindi e inglés a mitad de la oración o cambiaron entre marathi e inglés a mitad de la oración.

Y estas son poblaciones que no se escuchan a sí mismas dentro de estas interfaces de voz, y mucho menos todas las comunidades de color que tampoco sienten que pueden escuchar su propio tipo de dialectos y su propio tipo de coloquialismos y su propio tipo de modales. hablando dentro de estas interfaces de voz. Hay algunos pasos interesantes en la dirección correcta que van parcialmente allí, pero no realmente. Quiero decir, la primera, por supuesto, es que creo que me ha sorprendido mucho y me ha alegrado mucho lo que está haciendo en términos de permitirle configurar esas voces que leen esas declaraciones como policía informado adelante o vehículo en el hombro, o mantener izquierda.

Por supuesto, también están surgiendo nuevos servicios como Amazon Polly, Amazon Polly es realmente interesante porque tomará algunas entradas de textos escritos como un párrafo o una página o lo que sea y lo leerá con acento británico o sudafricano o un acento americano, una voz de mujer y todo tipo de calibres que puedes manipular y jugar. Pero aún así, fundamentalmente, por supuesto, son textos escritos que no necesariamente han sido optimizados para el habla.

No hay una forma algorítmica de convertir textos escritos en algo escrito en un estilo más hablado, pero también tengo esa gran preocupación, que es que cuando se trata de interfaces de voz, en realidad es excelente y llega a ese punto de excelencia que esperamos que de alguna manera creo que es casi imposible. Creo que es casi una declaración paradójica decir que las interfaces de voz estarán en este nivel de comportamiento óptimo para todos. Porque la forma en que me suena una interfaz de voz va a ser muy diferente a la forma en que suena una interfaz de voz para otra persona. Creo que eso está realmente relacionado con el género por el hecho de que si miras a Alexa, Siri, Cortana o Google Home, en términos generales, la voz predeterminada, la identidad predeterminada que sale de esta interfaz de voz es alguien que suena mucho como un blanco heterosexual cisgénero. mujeres que hablan con el dialecto americano general o americano medio.

Y no hay necesariamente mucho espacio para las personas que hablan inglés como segundo idioma o las personas que cambian de código. Como mencioné antes, quienes cambiaron entre inglés y español, justo en el medio de la oración o comunidades trans y no binarias que cambiaron entre modos de expresión heterosexuales y más o menos en términos de cómo interactúan entre sí hasta que escuchamos esos tipo de alterna hasta que escuchamos ese tipo de realidad que hemos reflejado en esas interfaces de voz. No creo que en realidad hayamos alcanzado ese elevado objetivo.

Lo que me preocupa hoy es que nos enfrentamos a una situación sin precedentes con la pandemia en la que muchos de estos agentes de servicio al cliente, muchos de estos trabajadores de atención al cliente de primera línea están perdiendo sus trabajos a favor de un enfoque de interfaz de voz mecánico más automatizado. Pero la mayoría de estas personas que están perdiendo sus trabajos, que están siendo despedidas, que están siendo reemplazadas por interfaces de voz en estas corporaciones, generalmente son personas que viven en el sur global, generalmente personas que son de Filipinas o Indonesia. o India, que hablan inglés de una manera que también debería reflejarse en las interfaces de voz que tenemos hoy si así lo deseamos.

Alguien que sea filipino-estadounidense debería poder escuchar una interfaz de voz que suene filipino-estadounidense también en una interfaz de voz. Entonces, aunque creo que, de alguna manera, las cosas se han vuelto realmente geniales para los diseñadores de interfaces de voz, creo que para los usuarios de interfaces de voz, todavía tenemos un largo camino por recorrer, y van a pasar algunas décadas, creo que antes de que incluso puede llegar a ese punto.

El futuro cercano del diseño de contenido de voz

Brent Leary : ¿Cómo serán los próximos dos años para el diseño de contenido de voz?

Preston So : Ciertamente creo que va a haber mejoras en ciertos aspectos. Definitivamente va a haber mejoras cuando se trata de lo que yo llamo la democratización del diseño de la interfaz de voz. Si eres alguien que no sabe cómo crear un sitio web, si eres alguien que no escribe código, si eres alguien que en realidad no hace nada relacionado con la informática, hoy puedes crear una interfaz de voz, que es realmente la primera vez que lo hemos hecho antes.


Creo que todavía estamos muy enfocados en la idea de las interfaces de voz como algo que se usa para apagar nuestras luces, cuando terminamos con ellas para encender el arranque y el precalentamiento si tiene un sistema de hogar inteligente. Que alguien llame a la puerta, que es el comercial más reciente que he visto. Y hacer otras cosas que no son realmente ese tipo de conserje completo, que se suponía que eran las interfaces de voz, ¿verdad?

Si mira algunos de los medios con más aspiraciones sobre interfaces de voz, por ejemplo, mira 2001: A Space Odysseys HAL o mira Star Trek, la voz de Majel Barrett en Star Trek, o si mira especialmente algunos del tipo de episodios de Black Mirror que han aparecido recientemente, no es solo que queremos un asistente que pueda hablarnos sobre cómo hacer esta transacción o esa transacción o hacer esta tarea en nuestro nombre.

También queremos que puedan programar potencialmente nuestro día, hacer cosas que son mucho más complejas y multifacéticas. Por ejemplo, no quiero simplemente comprar entradas para una película. No quiero simplemente comprar boletos para ver Cruella o In the Heights. Quiero saber realmente acerca de esa película. Quiero averiguar cuál fue ese puntaje en Rotten Tomatoes. Quiero saber quiénes son el elenco y el equipo. Y muchas veces estas interfaces de voz todavía no están equipadas con ese tipo de capacidad.

Sin embargo, hay una paradoja; Sin embargo, hay un conflicto realmente interesante aquí, porque en este momento hemos visto que está ocurriendo un poco de segmentación. Por ejemplo, si vas, digamos a los cines AMC, ¿verdad? O va a Hilton Hotels o Delta Airlines, si quiere preguntarle a Delta sobre Hilton, o si quiere preguntarle a los teatros AMC sobre algún otro tipo de cadena de teatros, no pueden ayudarlo.

Lo que estamos viendo aquí es este conflicto interesante entre cómo estos asistentes de voz e interfaces de voz intentan competir entre sí, para ser cada vez más amplios en términos de cobertura de información en la web y transacciones en la web. Pero también el hecho de que preguntó a dónde ir, por ejemplo, solo responderá sus preguntas sobre el estado de Georgia o temas que son relevantes para los ciudadanos de Georgia, para los residentes de Georgia. Así que es una pregunta realmente interesante. Creo que veremos algún tipo de próxima fase de interfaces de voz aquí en un futuro muy cercano que intentará eliminar algunas de estas líneas en la arena entre las consideraciones tópicas y transaccionales. Y también comenzaremos a ver muchas más interfaces de voz basadas en contenido.

Esto es parte de la serie de entrevistas uno a uno con líderes de opinión. La transcripción ha sido editada para su publicación. Si se trata de una entrevista de audio o video, haga clic en el reproductor integrado de arriba o suscríbase a través de iTunes o Stitcher.