亚马逊的 Dave Isbitski:语音技术没有代际界限

已发表: 2020-05-30

2016 年,我在 Amazon Alexa 和 Echo 上做了第一次演示,当时有大约 700 种技能可用。 今天有超过100,000。 以及数以亿计的支持 Alexa 的设备。 因此,由于我们大多数人在家里花费的时间比以往任何时候都多,我想再次赶上亚马逊的 Alexa 和 Echo 首席布道者 Dave Isbitski。

在我们最近在 LinkedIn Live 上进行的一次相当广泛的聊天中,Dave 分享了一些关于在 Covid-19 大流行期间人们如何使用 Alexa/Echo 和智能助手的故事,为什么他认为语音技术正在团结几代人,以及他如何认为语音在 PC(后 Covid)时代发挥着重要作用。

以下是我们部分对话的编辑记录。 要收听完整的 convo,请单击嵌入式 SoundCloud 播放器。

smallbiztrends · 亚马逊的 Dave Isbitski – 语音是我的父母和我的孩子一样兴奋的第一项技术

小型企业趋势:Alexa 和 Echo 设备取得了怎样的进展?

Dave Isbitski: 2014 年,如果我说,谁有 Echo? 我不得不解释那是什么。 现在到了 2020 年,大多数人都知道 Echo 是什么。 我的意思是,甚至还有周六夜现场的小品。 他们知道 Alexa 是什么。 他们可能有多个设备。 他们只是全面的智能助手和人工智能。 作为白话的一部分,这确实发生了变化。 这是人们日常生活的一部分。

人们可能知道也可能不知道的是,您有能力教授这些 AI。 所以它不是 Alexa,而是这些智能助手中的任何一个。 我们在亚马逊所做的就是让所有人免费、开放和使用它。 因此,无论他们是否想在事物中使用 Alexa,例如汽车、汽车音响、手机。 Windows 现在内置了 Alexa,或者您想教 Alexa 如何就事物进行对话。

当您就某事进行对话时,我们称其为技能。 所以你正在教 Alexa 一项新技能,你可以就任何事情进行对话。 这可能就像现在订购你的多米诺骨牌一样,对吧? 当我们在大流行中坐在家里时,他们会提供。 你可以做一个简单的订单,或者它可能只是拉起游戏。 去亚马逊吧……如果人们很好奇,因为我确实听到有人说,“嘿,我的孩子快把我逼疯了。 有游戏吗?” 绝对有游戏。 访问 amazon.com/skills。 布伦特,你会在那里看到我们不久前没有的类别。 所以你会看到所有这些类别,就像任何其他亚马逊产品一样,你可以排序,你可以说,给我看四星及以上的评级。 其中一些现在有数以万计的收视率。

作为亚马逊客户,您现在可以做的一件事是您可以访问 blueprints.amazon.com,您可以直观地创建这些东西。 所以我从父母那里听说他们的孩子正在创造自己的故事。

小企业趋势:是的。

Dave Isbitski:也许你正在照顾其他在家的人。 你想提醒他们做事。 你想为他们创造提问的能力。 比如我吃什么药? 我几点拿? 您可以执行所有这些操作,然后您可以将其分配给他们的亚马逊帐户。

我已经为我的父母这样做了,我在那里设置了一些东西。 所以这就是我们试图创建尽可能无缝的过程,让您开始教 Alexa 能够进行对话,创建您想要的内容,无论您是否有能力编写代码。

小型企业趋势:您是否看到很多行为变化以及人们利用他们的扬声器来做他们以前没有真正做过的事情?

Dave Isbitski:嗯,我听到的一件事,你会在网上看到,你甚至可能会在你的 Facebook 订阅源和 Twitter 中看到这一点,那就是在所有这些过程中连接非常重要。 我们实际上有......我们每周尝试一次通过视频与我的父母联系,只是为了看看。 我们经常听到的一件事……如果你去这里。 这将带您访问有关 Alexa 和设备以及正在发生的事情的博客文章。 您会听到我们谈论其中的一些内容。

我不认为这在我们上次谈话时可用,但一个流行的功能是能够加入。所以你在你的生活中设置了一些人,然后他们只是说,“Alexa,加入祖父母。” 或“Alexa 拜访妈妈。” 或“Alexa 访问孩子。” 令人难以置信的是,它变得如此无缝。 尤其是在这种大流行期间,无需手机,无需更新应用程序,就可以像这样进行交流,对吧? 这是一种体验。 它就在那里。 而且声音是无缝的。 它是包容的。 每个人都可以做到。 语音是我的父母和我的孩子一样兴奋的第一个技术,对吧? 而且我爸爸还不会用电脑,但他可以把东西拉起来——

小企业趋势:真的吗?

Dave Isbitski:是的,我知道这很疯狂,对吧? 我哥哥和我都是技术人员,我妈妈为他打印电子邮件。 他从不记录……是的。 但我说的是我们在医院捐赠了这些设备,人们有能力随时交谈和联系,对吧? 因为你也没有碰它,这很重要。 我们一直在将它们提供给医院,在那里护士能够检查并通过它进行交谈,所有这些都完全免提。

我只是在和约翰霍普金斯大学的人交谈。 我不会提到他的名字。 他是纽约的外科医生。 这非常令人心旷神怡。 他只是说:“我只是想谢谢你。 两年前,我的母亲患有痴呆症和老年痴呆症,我们一直在使用 Alexa。 她有能力呼救。 她有能力随时给我们打电话。 这是我们能够与她交流的方式。”

所以我们添加了一些东西。 其中一个主题是客户关于使 Alexa 更加个性化的反馈。 例如,任何人在任何时候,你都可以告诉 Alexa 记住事情,我做的第一件事就是记住 Wi-Fi 密码,对吗? 因此,如果我们有客人过来,他们可能会问:“wifi 密码是多少?” 对。 她可以告诉你,或者让我父母记住日期和生日之类的事情。

我们都有不同的个性。 如果你看看 Myers-Briggs,如果你看看 NBTI 和五种核心人格类型,就像我在 INFJ 中一样。 我不知道你是否熟悉这些类型。 很多时候我无法摆脱自己的头脑,但我可以在脑海中处理多个想法。 我可以生活在认知失调中。 其他人不是这样的。 移动和网络是一刀切。 就像,这是我们的设计。 如果你不喜欢它,那么我们训练我们的大脑,对吧? 我们建立这些神经通路以及如何使用接口。 然后,如果您更改该界面,这对人们来说是惊人的。 如果这些社交媒体网站之一改变了他们的订阅源每天的外观。


小企业趋势:对。

Dave Isbitski:语音的好处在于它可以是你想要消费它的方式。 你可以决定你想听什么类型的人。 事实上,我们有一项名为 Polly Brand 的服务,它可以创造声音。 肯德基,我们与他们合作,你可以听到上校的声音。 这是我今天最喜欢的,使用 Alexa 设备,你可以说,“问 Sam。” 所以塞缪尔·杰克逊,他会告诉你天气和笑话。 所有这些都使用了一种称为神经 TTS(文本到语音)的技术,对吧?

使用神经网络再现声音取得了突破。 所以现在通过神经 TTS,如果你使用计算机,你会看到它是计算机生成的,但对人耳来说,它听起来像一个人,你可以改变语调。 你可以让它兴奋起来。 我们已经通过 Alexa 做到了这一点,当您创建这些体验时,我的意思是,您可以选择声音的声音。 你可以让她听起来很兴奋。 我们为客户添加了我们听到的东西,就像我们有小孩一样,我会去玩摇篮曲或者晚上关灯,对吗? 因为很多人在智能家居中使用 Alexa,他们会说,“关灯”。 而且她声音超级大,会吵醒婴儿,对吧? 就像永远不要叫醒婴儿一样。

所以你可以对 Alexa 耳语,然后她会说,“哦,听起来你在耳语。 要我回声吗?” 你说,“是的,这是耳语模式。” 所以你会说,“关灯。” 她会说,“好吧,我会关灯。” 对? 但它非常人性化。 你可以说的另一个方面是,“你知道吗,说得快点,说得慢点,慢点。” 所以她会说得慢一些,或者说得更快。

我们有能力检测音调,对吧? 所以这是非常不同的。 如果我说,“Alexa,闭嘴。” 与,“Alexa,谢谢你。 停止。” 我们有各种各样的东西。 就像我们一直都有能力一样……我想我们在你的上一场演出中谈到了这个。 从我们推出的第一天起,您就可以删除您曾经对 Alexa 说过的所有内容。 你有能力进去看看。 如果你不想处理技术,你可以打电话给亚马逊,让它完成。 但人们想听到并拥有即时的能力。 所以我们打开了它,你可以说,“Alexa,删除你刚刚听到的内容。” 你可以说,“Alexa,你刚刚听到了什么?” 然后她会重复一遍。 你可以说,“Alexa,删除你今天听到的所有内容。”

这很有趣。 你甚至可以说,“Alexa,你为什么这样做?” 她会说,“嗯,这就是我听到的,这就是我这样做的原因。” 所以它非常有力量,因为它可以帮助人们理解,因为即使作为人类,我也会说一件事,但它不一定是你听到或处理的相同方式,对吧? 所以给人们这种能力,他们就像,“哦,她一直听到这个词。 或者我是这么说的。” 它在开放式设置中非常强大。

其他一些东西是双语的。 因此,您可以在美国即时在英语和西班牙语之间切换,在幕后,我们将其纳入词典。 这样两种语言模型都可以正常工作,您可以在同一事物之间切换……在加拿大、加拿大法语、印地语和印度英语。 因为这就是我们作为人类说话的方式。 如果你在双语家庭长大,只要在单词和语言之间来回移动,她就能做到。

所以它就是那些类型的东西,因为没有什么比能够要求它更快的了。 所以这就是我想说的,我们正在像现在一样发展,这就是我们所处的位置,我们可以谈论未来的展望。

小型企业趋势:您是否看到一些通常会在您的手机上发生的交互开始发生在您的语音设备上?

Dave Isbitski:嗯,我是这样看的。 我们团队的使命始终是让 Alexa 出现在您想要的任何地方。 所以现在它在房子里。 但如果你去开车,你应该可以说,“Alexa,读我的书。” 那是有声读物,也许你只是在你的书房里听,对吧? 只是,它是无缝的。 之前有人引用过我这样说,我认为这仍然是最好的类比,就是语音是新的 HTML。

所以想一想网络是什么时候出现的,互联网是什么时候出现的。 你是如何联系公司的? 对? 就像,你写了一封信,你走进他们的大厅或打电话。 突然通过 HTML,对吗? 我不想说语音是新的网络,因为网络是如此包含社交和一切。 因为是界面。 所以 HTML 突然变成了连接世界上任何人、任何地方、任何品牌学习的接口,对吧? 就任何事情提出问题。 正是 HTML 将 Web 结合在一起的方式。 这就是你看待声音的方式。 它是所有内容的 HTML。

这是与思想领袖的一对一访谈系列的一部分。 成绩单已编辑出版。 如果是音频或视频采访,请点击上面的嵌入式播放器,或通过 iTunes 或通过 Stitcher 订阅。