Preston So da Oracle: Embora as coisas sejam melhores para desenvolver interfaces de voz, ainda há um caminho a percorrer para quem as usa
Publicados: 2021-08-21Tenho acompanhado a adoção da tecnologia de voz desde que adquiri meu primeiro dispositivo Echo no Dia de Ação de Graças de 2014 e comecei 20% das minhas frases com “Alexa…”. E de vez em quando eu gosto de ter convidados se juntando a mim para esta série para ver como as coisas estão hoje com esses dispositivos e como eles estão sendo usados. Mas eu não me concentrei realmente em criar conteúdo de voz antes, e é por isso que fiquei muito empolgado em falar com Preston So. Preston é Diretor Sênior de Estratégia de Produto da Oracle, mas o mais importante para esta conversa ele também é autor do livro “ Conteúdo de Voz e Usabilidade ”.
Abaixo está uma transcrição editada de nossa recente conversa no LinkedIn Live . Clique no player incorporado do SoundCloud para ouvir a conversa completa.
Brent Leary : Como a pandemia impactou o papel da voz a partir de um desenvolvimento de conteúdo no contexto da transformação digital?
Preston So : Esta é uma pergunta realmente interessante. Vou responder isso de dois ângulos diferentes. A primeira é que quando começamos a trabalhar e percebi que ainda não mencionei esse estudo de caso, mesmo nisso, no programa é que 5 ou 6 anos atrás eu tive a oportunidade de trabalhar em uma equipe que construiu AskGeorgia.gov, que foi a primeira interface de voz para residentes do estado da Geórgia. Além disso, foi realmente uma das primeiras interfaces de voz orientadas a conteúdo ou informativas existentes.
As duas razões pelas quais queríamos construir isso e pilotar este projeto foram para atender a esses dados demográficos, que mencionei anteriormente são muitas vezes ignorados ou muitas vezes não atendidos tão bem pelos sites que construímos. E isso é especialmente para a imprensa, pois conhecemos uma preocupação muito urgente no setor público, uma preocupação muito, muito urgente no governo local e nos dois públicos que queríamos atender à palavra número um, georgianos idosos, que podem não ser capazes de usar necessariamente um site com a mesma facilidade. Pode não ser necessariamente capaz de usar um computador tão rapidamente e também pode não necessariamente ter a mobilidade para poder viajar para um escritório do governo do condado ou um escritório de agência. Ao mesmo tempo, também queríamos nos concentrar nos georgianos com deficiência. Aqueles que podem não conseguir usar um em um site tão rapidamente quanto aqueles que estão usando o site por meio de seu tipo de abordagem visual. E também aqueles que realmente não têm capacidade também por causa dessas questões de mobilidade, com licença, de realmente viajar para um escritório de agência e tirar suas dúvidas lá. Ao mesmo tempo, também estávamos lidando naqueles dias, é claro, e ainda continuando hoje, a falta de orçamento, a natureza de escassez de dinheiro dos governos estaduais e locais hoje, onde os orçamentos estão sendo cortados à esquerda e à direita e, muitas vezes, essas linhas diretas esperam os tempos estavam crescendo e crescendo e crescendo no telefone.
A razão pela qual eu trouxe este estudo de caso é que acho que a pandemia de coronavírus realmente ampliou como certos públicos enfrentam não apenas esses sistemas de opressão muito, muito problemáticos na sociedade, mas também barreiras muito profundas para acessar as informações, conteúdo e transações. que eles precisam. E se você pensar, é claro, quem foi mais impactado pelo impacto da pandemia e os efeitos da pandemia são aqueles que são pessoas com deficiência ou idosos. E especialmente se você não pode nem sair de casa, como você realmente obtém as informações de que precisa? Então, acho que, de certa forma, pré-salvamos muito do trabalho que está acontecendo agora com a transformação digital hoje, onde muitas organizações estão percebendo agora, e isso, é claro, está modulando muito do trabalho que agora temos visto no trabalho remoto em forças de trabalho distribuídas, tudo isso, mas também agora a melhor forma de atender os clientes nesse ângulo B a C, como podemos realmente garantir que aqueles que são nossos clientes, aqueles que são usuários, aqueles que são nossos dados demográficos reais podem interagir com nosso conteúdo de maneira que não exijam que eles façam coisas que os coloquem em perigo.
E acho que há várias coisas que aceleraram nesse sentido. A primeira é ao longo do acesso de voz, como vimos, acho que foi no ano passado, sistemas domésticos inteligentes, vendas de alto-falantes inteligentes dispararam. Quero dizer, agora, 35% dos americanos agora têm um alto-falante inteligente em casa, mas, da mesma forma, também tivemos um crescimento incrível em fones de ouvido e tecnologias de jogos. Então, headsets de realidade virtual, dispositivos vestíveis e esses realmente pressagiam, acho que a mudança do conteúdo do meio escrito do meio visual, que estamos realmente acostumados nas últimas décadas, para um tipo de contexto muito mais multifacetado, onde agora poderíamos estar interagindo com nosso conteúdo por meio de um Oculus Rifts ou por meio de nossos smartphones, por meio de nossa TV Samsung, por meio de nossos iPhones e iPads, mas também, é claro, por meio de um Amazon Alexa e isso realmente, para mim, acho que o A maior coisa que aconteceu com a pandemia de coronavírus é que realmente acelerou a chegada daquela época, onde as organizações agora precisam entender que não é mais apenas a web.
Não é apenas móvel, são 15 coisas diferentes. É, todas essas considerações diferentes e se você está começando a pensar sobre web e mobile, você já está atrasado.
Progresso até o momento no desenvolvimento de conteúdo de voz
Brent Leary : Nós estávamos onde você esperava que estivéssemos com a voz sendo uma parte do canal de interação entre consumidores e fornecedores?
Preston So : Sim e não. Acho que do ponto de vista do fabricante, acho que sim. E o que quero dizer com isso é que, como mencionei anteriormente, temos essas ferramentas realmente ótimas que estão por aí, Botsociety essas novas startups que estão desenvolvendo ferramentas realmente amigáveis ao designer que permitem que você faça como o velho Dreamweaver ou Abordagem de primeira página da Microsoft para construir sites. Você leva isso para uma interface de voz e, de repente, não precisa mais escrever, digamos, código de hardware de nível muito baixo ou escrever, digamos, processamento de linguagem natural ou compreensão de linguagem natural em um bot. Ao mesmo tempo, embora eu ache que há um longo caminho a percorrer e acho que não estamos realmente onde pensei que estaríamos neste momento, mas acho que muito disso também é porque a própria IA não está tão longe junto como muitas pessoas necessariamente pensavam.
Uma das razões para isso é que estamos vivendo este momento em que muitas das interfaces de voz que construímos são fundamentalmente ainda claramente automatizadas digitalmente que não têm um meio real de comunicação de uma maneira que realmente possamos Um exemplo disso é que você olha para algumas comunidades bilíngues no sul do Texas ou na cidade de Nova York e ouve pessoas literalmente alternando entre espanhol e inglês no meio de uma frase ou pessoas que sim, exatamente pessoas que estão em Mumbai ou em uma Nova Délhi que alternaram entre hindi e inglês no meio da frase ou alternaram entre marathi e inglês no meio da frase.
E essas são populações que não se ouvem dentro dessas interfaces de voz, muito menos todas as comunidades de cor que também não sentem que podem ouvir seu próprio tipo de dialeto e seu próprio tipo de coloquialismos e seu próprio tipo de maneiras de falar. falando dentro dessas interfaces de voz. Há alguns passos interessantes na direção certa que vão parcialmente para lá, mas não realmente. Quero dizer, o primeiro é que eu acho que fiquei muito surpreso e feliz com o que está sendo feito em termos de permitir que você configure essas vozes que lêem essas declarações como a polícia relatada à frente ou veículo no ombro, ou mantenha deixou.
É claro que também estão surgindo novos serviços como o Amazon Polly, o Amazon Polly é realmente interessante porque precisa de alguns textos escritos como um parágrafo ou uma página ou qualquer outra coisa e vai lê-lo com sotaque britânico ou sotaque sul-africano ou um sotaque americano, uma voz feminina e todos os tipos de medidores que você pode torcer e brincar. Mas ainda fundamentalmente, é claro, são textos escritos que não foram necessariamente otimizados para fala.
Não há uma maneira algorítmica de transformar textos escritos em algo escrito em um estilo mais falado, mas também há esse tipo de grande preocupação que tenho, que é quando se trata de interfaces de voz, estar realmente sendo ótimo e chegar a esse ponto de excelência que esperamos, de certa forma, acho que é quase impossível. Acho que é quase uma afirmação paradoxal dizer que as interfaces de voz estarão nesse nível de comportamento ideal para todos. Porque a maneira como uma interface de voz soa para mim será muito diferente da maneira como uma interface de voz soa para outra pessoa. Eu acho que isso está realmente relacionado ao gênero pelo fato de que, se você olhar para Alexa ou Siri ou Cortana ou Google Home, geralmente falando a voz padrão, a identidade padrão que sai dessa interface de voz é alguém que soa muito como um cisgênero hétero branco mulheres que falam com o dialeto americano geral ou americano médio.
E não há necessariamente muito espaço para pessoas que falam inglês como segunda língua ou pessoas que trocam códigos. Como mencionei antes, quem alternava entre inglês e espanhol, bem no meio da frase ou comunidades trans e não-binárias que alternavam entre modos de fala direto e meio que em termos de como eles realmente interagem uns com os outros até ouvirmos aqueles tipo de alternância até ouvirmos esse tipo de realidade que refletimos nessas interfaces de voz. Eu não acho que nós realmente alcançamos esse objetivo elevado.
O que me preocupa hoje é que estamos enfrentando uma situação sem precedentes com a pandemia, em que muitos desses agentes de atendimento ao cliente, muitos desses profissionais de atendimento ao cliente da linha de frente, estão perdendo seus empregos em favor de uma abordagem de interface de voz mais automatizada e mecânica. Mas a maioria dessas pessoas que estão perdendo seus empregos que estão sendo demitidas, que estão sendo substituídas por interfaces de voz nessas corporações, geralmente são pessoas que vivem no sul global, geralmente pessoas das Filipinas ou da Indonésia ou a Índia que falam inglês de uma maneira que também deve ser refletida nas interfaces de voz que temos hoje, se assim o desejarmos.
Alguém que é filipino-americano deve ser capaz de ouvir uma interface de voz que soe filipino-americano também em uma interface de voz. Então, embora eu ache que, de certa forma, as coisas ficaram realmente ótimas para os designers de interface de voz, acho que para os usuários de interface de voz ainda temos um longo caminho a percorrer, e serão algumas décadas, acho que antes de até pode chegar a esse ponto.
O futuro próximo do design de conteúdo de voz
Brent Leary : Como serão os próximos dois anos para o design de conteúdo de voz?
Preston So : Eu certamente acho que haverá melhorias em alguns aspectos. Definitivamente, haverá melhorias quando se trata do que chamo de democratização do design de interface de voz. Se você é alguém que não sabe como criar um site, se você é alguém que não escreve código, se você é alguém que não faz nada relacionado à ciência da computação, você pode hoje criar uma interface de voz, que é realmente a primeira vez que fizemos isso antes.
