Oracle 的 Preston So：虽然开发语音界面的情况更好，但对于那些使用它们的人来说，还有一条路要走

已发表: 2021-08-21

自从我在 2014 年感恩节左右获得我的第一台 Echo 设备并且我 20% 的句子以“Alexa……”开头以来，我一直在跟踪语音优先技术的采用情况。每隔一段时间，我喜欢邀请客人加入我参加这个系列，看看这些设备今天的情况，以及它们是如何被使用的。但我之前并没有真正专注于设计语音内容，这就是为什么我很高兴能与 Preston So 交谈。 Preston 是 Oracle 产品战略高级总监，但更重要的是，对于这次谈话，他还是《语音内容和可用性》一书的作者。

以下是我们最近的 LinkedIn Live 对话的编辑记录。单击嵌入式 SoundCloud 播放器以收听完整的对话。

smallbiztrends · 用 Preston So 设计语音内容的几分钟

Brent Leary ：在数字化转型的背景下，大流行如何影响内容开发中声音的作用？

Preston So ：这是一个非常有趣的问题。 我将从两个不同的角度来回答这个问题。第一个是当我们开始工作时，我才意识到我实际上还没有提到这个案例研究，即使在这个节目中，5 或 6 年前我有机会在一个建立了AskGeorgia.gov，这是佐治亚州居民的第一个语音界面。此外，它确实是有史以来最早的内容驱动或信息语音界面之一。

我们想要建立这个项目并试点这个项目的两个原因是服务于那些我之前提到的人口统计数据，这些人口统计数据经常被我们建立的那些网站所忽略或不能很好地服务。这尤其是新闻界，因为我们知道公共部门的一个非常紧迫的问题，地方政府内部非常非常紧迫的问题，以及我们想服务的两个受众，第一，格鲁吉亚老人，他们可能无法使用一个网站一样容易。它可能不一定能够快速使用计算机，也可能不一定具有能够前往县政府办公室或机构办公室的移动性。同时，我们也想关注残疾格鲁吉亚人。那些可能无法像那些通过视觉方式使用网站的人那样快速地在网站上使用 a 的人。还有那些因为流动性问题而真的没有能力的人，对不起，实际上去代理办公室并在那里回答他们的问题。与此同时，我们在那些日子里当然也在处理，而且今天仍在继续，缺乏预算，今天州和地方政府的现金紧张性质，预算被左右削减，而且经常热线等待时代在手机上越来越长。

我提出这个案例研究的原因是，我认为冠状病毒大流行确实放大了某些受众不仅面临着这些非常非常有问题的社会压迫制度，而且还面临着获取信息、内容和交易的非常深的障碍他们需要的。当然，如果你想一想，谁受大流行的影响和大流行的影响最大，那就是那些残疾人或老年人。尤其是如果你甚至不能离开你的家，你如何真正获得你需要的信息？因此，我认为我们在某些方面预先保存了当今数字化转型正在发生的许多工作，许多组织现在正在实现这一点，这当然是通过我们现在拥有的许多工作进行调整在分布式劳动力的远程工作中看到了所有这些，但现在如何最好地从 B 到 C 的角度为客户服务，我们如何真正确保那些是我们的客户、那些是用户、那些是我们的实际人口统计数据的人可以与我们的内容进行交互，而无需他们潜在地做使他们处于危险之中的事情。

我认为在这方面有几件事加速了。第一个是我们看到的语音访问，我认为是去年，智能家居系统、智能扬声器的销售量已经达到顶峰。我的意思是，现在有 35% 的美国人在家中拥有智能扬声器，但出于同样的原因，我们在游戏耳机和游戏技术方面也取得了令人难以置信的增长。所以虚拟现实耳机、可穿戴设备和这些真的预示着，我认为内容从书面媒体从视觉媒体的转变，我们在过去几十年里真正习惯了一种更加多面的环境，其中现在我们可能会通过 Oculus Rifts 或智能手机、三星电视、iPhone 和 iPad，当然也可以通过亚马逊 Alexa 与我们的内容进行交互，对我来说，我认为冠状病毒大流行发生的最重要的事情是，它确实加速了那个时代的到来，组织现在必须明白，它不再只是网络了。

它不仅仅是移动设备，还有 15 种不同的东西。是的，所有这些不同的考虑因素，如果你现在才开始考虑网络和移动，那么你已经落后了。

语音内容开发的最新进展

Brent Leary ：我们是否曾经是我们，您希望我们将语音作为消费者和供应商之间互动渠道的一部分？

Preston So ：是的，也不是。 我认为从制造商的角度来看，我认为是的。我的意思是，正如我之前提到的，我们已经有了这些非常棒的工具，Botsociety 这些新的初创公司正在开发真正对设计师友好的工具，让你可以像旧的 Dreamweaver 或Microsoft 建立网站的首页方法。你把它带到一个语音界面上，突然你就不必编写了，比如说非常低级的硬件代码或编写，比如说自然语言处理或自然语言理解到机器人中。同时，虽然我认为还有很长的路要走，而且我认为我们现在并不是我认为的那样，但我认为这在很大程度上也是因为人工智能本身并没有那么远正如很多人必然认为的那样。

原因之一是我们现在正在经历这个时代，我们构建的许多语音界面基本上仍然是数字自动化的，实际上并没有以我们真正可以的方式进行交流的实际手段听到自己的声音。其中一个例子是，您查看德克萨斯州南部或纽约市的一些双语社区，您会听到人们在句子中间在西班牙语和英语之间切换，或者是的人，正是那些在孟买或新德里，在句中在印地语和英语之间切换或在句中在马拉地语和英语之间切换。

这些人在这些语音界面中听不到自己的声音，更不用说所有有色人种社区了在这些语音界面中说话。朝着正确的方向有一些有趣的步骤，它们部分地在那里，但不是真的。我的意思是，第一个当然是我认为我对在允许您配置那些读出这些陈述的方式方面所做的事情感到非常惊讶和高兴，例如警察报告的前方或肩上的车辆，或者左。

当然，还有像 Amazon Polly 这样的新服务正在出现，Amazon Polly 真的很有趣，因为它需要输入一些书面文本，如段落或页面或其他任何内容，它会以英国口音或南非口音或美国口音，女性的声音和各种你可以扭曲和玩耍的仪表。但从根本上说，当然，那是不一定针对语音进行优化的书面文本。

没有算法方法可以将书面文本转化为更口语化的内容，但我也有一种很大的担忧，那就是语音界面实际上很棒并且达到了卓越的程度我们期望在某些方面我认为这几乎是不可能的。我认为，说语音界面对每个人来说都处于最佳行为水平几乎是一种自相矛盾的说法。因为语音界面对我来说听起来的方式将与语音界面对其他人的声音方式非常不同。我认为这确实与性别有关，如果你看一下 Alexa、Siri、Cortana 或 Google Home，一般来说默认语音，从这个语音界面出来的默认身份是听起来很像顺性别直白的人说普通美国或中美洲方言的女性。

对于以英语为第二语言的人或代码转换者来说，不一定有很大的空间。正如我之前提到的，谁在英语和西班牙语之间切换，就在句子中间，或者跨性别和非二元社区在直接和某种语言模式之间切换，就他们如何实际互动而言，直到我们听到那些各种切换，直到我们听到我们在这些语音界面中反映的那种现实。我不认为我们实际上已经达到了那个崇高的目标。

今天让我担心的是，我们正面临着一场前所未有的大流行病，许多客户服务代理，许多一线客户服务人员正在失去工作，转而采用更自动化的机械语音界面方法。但是这些正在失业的人中的大多数正在被解雇，被这些公司的语音界面所取代，他们通常是生活在全球南部的人，通常是来自菲律宾或印度尼西亚的人或印度，他们说英语的方式也应该反映在我们今天拥有的语音界面中，如果我们愿意的话。

菲律宾裔美国人应该能够在语音界面上听到听起来像菲律宾裔美国人的语音界面。所以虽然我认为在某些方面，对于语音界面设计师来说，事情已经变得非常好，但我认为对于语音界面用户来说，我们还有很长的路要走，而且还需要几十年，我认为在我们之前甚至可以达到这一点。

语音内容设计的近期未来

Brent Leary ：未来几年语音内容设计会是什么样子？

Preston So ：我当然认为在某些方面会有改进。 当谈到我所说的语音界面设计的民主化时，肯定会有改进。如果您不知道如何创建网站，如果您不编写代码，如果您实际上不做任何与计算机科学相关的事情，那么您今天就可以创建一个语音界面，这真的是我们以前第一次这样做。