Престон Со из Oracle: Хотя с разработкой голосовых интерфейсов дела обстоят лучше, тем, кто их использует, еще многое предстоит сделать.

Опубликовано: 2021-08-21

Я отслеживаю внедрение голосовой технологии с тех пор, как получил свое первое устройство Echo в День Благодарения 2014 года и начал 20% своих предложений со слов «Alexa…». И время от времени мне нравится приглашать гостей присоединиться ко мне в этой серии, чтобы посмотреть, как обстоят дела с этими устройствами сегодня и как они используются. Но раньше я не уделял особого внимания разработке голосового контента, поэтому мне очень хотелось поговорить с Престоном Со. Престон — старший директор по стратегии продуктов в Oracle, но, что более важно для этого разговора, он также является автором книги « Голосовой контент и удобство использования ».

Ниже приведена отредактированная стенограмма нашего недавнего разговора в LinkedIn Live . Нажмите на встроенный проигрыватель SoundCloud, чтобы прослушать разговор полностью.

smallbiztrends · Несколько хороших минут о разработке голосового контента с Престоном Со

Брент Лири : Как пандемия повлияла на роль голоса при разработке контента в контексте цифровой трансформации?

Престон Со : Это действительно интересный вопрос. Я отвечу на это с двух разных точек зрения. Во-первых, когда мы начали работать, и я только что понял, что на самом деле я еще не упомянул об этом тематическом исследовании, даже в этом, на шоу, что 5 или 6 лет назад у меня была возможность работать в команде, которая создала AskGeorgia.gov — первый голосовой интерфейс для жителей штата Джорджия. Кроме того, это был действительно один из первых существующих голосовых интерфейсов, управляемых контентом или информацией.

Две причины, по которым мы хотели создать это и запустить этот проект, заключались в том, чтобы обслуживать те демографические данные, которые, как я упоминал ранее, часто игнорируются или часто не обслуживаются теми веб-сайтами, которые мы создали. И это особенно касается прессы, поскольку мы знаем, что это очень насущная проблема в государственном секторе, очень, очень насущная проблема в местных органах власти и двух аудиториях, которые мы хотели обслужить, слово номер один, пожилые грузины, которые, возможно, не всегда могут использовать веб-сайт так же легко. Он может не обязательно иметь возможность использовать компьютер так же быстро, а также может не обязательно иметь мобильность, чтобы иметь возможность добраться до окружного правительства или офиса агентства. В то же время мы также хотели сосредоточиться на грузинах с ограниченными возможностями. Те, кто, возможно, не сможет использовать на веб-сайте так же быстро, как те, кто использует веб-сайт с помощью его визуального подхода. А также те, у кого действительно нет возможности из-за этих проблем с мобильностью, простите, поехать в офис агентства и получить там ответы на свои вопросы. В то же время мы также имели дело с теми днями, конечно, и все еще продолжающимися сегодня, нехваткой бюджета, характером нехватки денежных средств государственных и местных органов власти сегодня, когда бюджеты урезаются направо и налево, и часто эти горячие линии ждут времена росли и росли и росли на телефоне.

Причина, по которой я привел этот пример, заключается в том, что я думаю, что пандемия коронавируса действительно увеличила то, как определенные аудитории сталкиваются не только с этими действительно очень, очень проблемными системами угнетения в обществе, но и с действительно глубокими барьерами для доступа к информации, контенту и транзакциям. что им нужно. И если подумать, конечно, кто больше всего пострадал от воздействия пандемии и последствий пандемии, так это люди с ограниченными возможностями или пожилые люди. И особенно, если вы даже не можете выйти из дома, как вы на самом деле получаете необходимую информацию? Так что я думаю, что мы в некотором роде заранее сохранили большую часть работы, которая происходит прямо сейчас с цифровой трансформацией сегодня, которую сейчас осознают многие организации, и это, конечно, модулируется за счет большой работы, которую мы сейчас выполняем. все это можно увидеть при удаленной работе с распределенными сотрудниками, но также и о том, как лучше всего обслуживать клиентов с точки зрения B и C, как мы на самом деле удостоверимся, что те, кто являются нашими клиентами, те, кто являются пользователями, те, кто является нашей фактической демографией могут взаимодействовать с нашим контентом способами, которые потенциально не требуют от них действий, подвергающих их опасности.

И я думаю, что есть несколько вещей, которые ускорились в этом отношении. Во-первых, это голосовой доступ, как мы видели, я думаю, что это было в прошлом году, системы умного дома, продажи умных динамиков взлетели до небес. Я имею в виду, что сейчас у 35% американцев дома есть умная колонка, но в то же время у нас также наблюдается невероятный рост игровых гарнитур и игровых технологий. Так что гарнитуры виртуальной реальности, носимые устройства и прочее действительно предвещают, я думаю, переход контента от письменного носителя к визуальному, к которому мы действительно привыкли за последние несколько десятилетий, в гораздо более многогранный вид контекста, где теперь мы потенциально можем взаимодействовать с нашим контентом через Oculus Rifts или через наши смартфоны, через наш телевизор Samsung, через наши iPhone и iPad, но также, конечно, через Amazon Alexa, и это действительно своего рода, для меня, я думаю, Самое главное, что произошло с пандемией коронавируса, это то, что она действительно ускорила наступление того времени, когда организации теперь должны понимать, что это уже не просто Интернет.

Это не просто мобильный, это 15 разных вещей. Это все эти разные соображения, и если вы только сейчас начинаете думать о Интернете и мобильных устройствах, вы уже позади.

Текущий прогресс в разработке голосового контента

Брент Лири : Были ли мы там, где вы ожидали, когда голос стал частью канала взаимодействия между потребителями и поставщиками?

Престон Со : И да, и нет. Я думаю, что с точки зрения производителя, я так думаю. И что я имею в виду, как я упоминал ранее, у нас есть эти действительно отличные инструменты, Botsociety, эти новые стартапы, которые разрабатывают действительно удобные для дизайнеров инструменты, которые позволяют вам делать что-то вроде старого Dreamweaver или Подход Microsoft на главной странице к созданию веб-сайтов. Вы переносите это на голосовой интерфейс, и внезапно вам не нужно писать, скажем, очень низкоуровневый аппаратный код или писать, скажем, обработку естественного языка или понимание естественного языка в бота. В то же время, хотя я думаю, что это далеко, и я думаю, что мы на самом деле не совсем там, где я думал, что мы были бы в этот момент, но я думаю, что во многом это также потому, что сам ИИ не так далеко вместе с тем, как многие люди обязательно думали.

Одна из причин этого заключается в том, что мы переживаем это время прямо сейчас, когда многие голосовые интерфейсы, которые мы создали, по сути, по-прежнему явно автоматизированы в цифровом виде, и на самом деле у них нет реальных средств общения таким образом, который мы действительно можем услышать себя. Одним из примеров этого является то, что вы смотрите на некоторые двуязычные сообщества в Южном Техасе или в Нью-Йорке, и вы слышите, как люди буквально переключаются между испанским и английским языком в середине предложения или люди, которые, да, именно люди, которые находятся в Мумбаи или Нью-Дели, которые переключаются между хинди и английским языком в середине предложения или переключаются между маратхи и английским языком в середине предложения.

И это люди, которые не слышат себя в этих голосовых интерфейсах, не говоря уже обо всех цветных сообществах, которые также не чувствуют, что они могут слышать свои собственные диалекты, свои разговорные выражения и свои собственные манеры общения. говорить в этих голосовых интерфейсах. Есть несколько интересных шагов в правильном направлении, которые частично идут туда, но не совсем. Я имею в виду, во-первых, конечно, я думаю, что я был очень удивлен и доволен тем, что делает способ с точки зрения предоставления вам возможности настроить те голоса, которые зачитывают эти заявления, такие как сообщение полиции впереди или транспортное средство на плече, или держать слева.

Есть также, конечно, новые сервисы, которые появляются, такие как Amazon Polly, Amazon Polly действительно интересен, потому что он будет принимать письменные тексты, такие как абзац, страницу или что-то еще, и читать их с британским акцентом или южноафриканским акцентом или американский акцент, женский голос и всякие разного рода калибры, с которыми можно крутить и играть. Но все же в основном, конечно, это письменные тексты, которые не обязательно оптимизированы для речи.

Не существует алгоритмического способа превратить письменные тексты в то, что написано в более разговорном стиле, но есть и такое большое беспокойство, которое у меня есть, когда дело доходит до голосовых интерфейсов. мы ожидаем, в некотором смысле я думаю, что это почти невозможно. Я думаю, это почти парадоксальное утверждение, что голосовые интерфейсы будут на этом уровне оптимального поведения для всех. Потому что то, как звучит голосовой интерфейс для меня, будет сильно отличаться от того, как голосовой интерфейс звучит для кого-то другого. Я думаю, что это действительно гендерно обусловлено тем фактом, что если вы посмотрите на Alexa, Siri, Cortana или Google Home, вообще говоря, голос по умолчанию, личность по умолчанию, которая выходит из этого голосового интерфейса, — это кто-то, кто звучит очень похоже на цисгендерного гетеросексуала. женщины, говорящие на общеамериканском или среднеамериканском диалекте.

И не обязательно много места для людей, говорящих на английском как на втором языке, или людей, которые переключают код. Как я упоминал ранее, кто переключался между английским и испанским прямо в середине предложения, или трансгендерные и небинарные сообщества, которые переключались между прямым и своего рода модусами речи с точки зрения того, как они на самом деле взаимодействуют друг с другом, пока мы не услышим эти всевозможные переключатели, пока мы не услышим ту реальность, которую мы отразили в этих голосовых интерфейсах. Я не думаю, что мы на самом деле достигли этой высокой цели.

Что меня беспокоит сегодня, так это то, что мы сталкиваемся с беспрецедентной ситуацией в связи с пандемией, когда многие из этих агентов по обслуживанию клиентов, многие из этих передовых сотрудников службы поддержки клиентов теряют свои рабочие места в пользу более автоматизированного подхода с механическим голосовым интерфейсом. Но большинство из этих людей, которые теряют работу, которых увольняют, которых вытесняют голосовые интерфейсы в этих корпорациях, это, как правило, люди, живущие на глобальном юге, обычно люди с Филиппин или Индонезии. или Индии, которые говорят по-английски так, что это также должно быть отражено в голосовых интерфейсах, которые у нас есть сегодня, если мы этого захотим.

Кто-то, кто является филиппинским американцем, должен быть в состоянии услышать голосовой интерфейс, который звучит как филиппинский американец, а также в голосовом интерфейсе. Так что, хотя я думаю, что в некотором смысле дела дизайнеров голосовых интерфейсов стали действительно замечательными, я думаю, что для пользователей голосовых интерфейсов нам еще предстоит пройти долгий путь, и, я думаю, пройдет несколько десятилетий, прежде чем мы даже может дойти до этого.

Ближайшее будущее дизайна голосового контента

Брент Лири : Какими будут следующие несколько лет для дизайна голосового контента?

Престон Со : Я определенно думаю, что в некоторых отношениях будут улучшения. Определенно будут улучшения, когда дело доходит до того, что я называю демократизацией дизайна голосового интерфейса. Если вы тот, кто не знает, как создать веб-сайт, если вы тот, кто не пишет код, если вы на самом деле не делаете ничего, что связано с информатикой, вы можете сегодня создать голосовой интерфейс, что мы сделали впервые.