NVIDIA 的 Bryan Catanzaro – 对话式 AI 在某些方面是终极 AI 挑战

已发表: 2021-10-02

许多从事游戏或严肃视频编辑的人都知道 NVIDIA 是市场上领先的图形处理技术的创造者。 但英伟达在人工智能和深度学习领域也处于领先地位; 特别是这些技术如何改善我们体验图形、文本和视频合成以及对话式人工智能的方式。

他们的一些工作在他们制作的一系列名为“我是人工智能”的视频中得到了展示,这些视频令人信服地展示了我们可以使用什么(以及将会有什么)来改善我们体验世界的方式——以及彼此之间的体验。 最近,我有机会与 NVIDIA 应用深度学习研究副总裁Bryan Catanzaro 进行了一次 LinkedIn Live 对话,了解更多关于他们与 AI 合作的信息,以重新构想我们体验视觉和听觉的方式。

以下是我们部分对话的编辑记录。 单击嵌入式 SoundCloud 播放器以收听完整的对话。

smallbiztrends · NVIDIA 的 Bryan Catanzaro – 在某些方面,对话式 AI 是 AI 的终极挑战

确保观看嵌入的剪辑,因为它们有助于构建我们的对话。

Brent Leary :那个视频中的声音对我来说听起来像是一个真实的人。 你已经习惯了像 Alexa 和 Siri 这样的声音,在此之前它就像,你知道,我们甚至不想谈论在那之前的声音,但那个声音听起来真的像一个人,和人拐点和一些深度。 当您谈论重新发明图形和重新发明语音技术以及使用更新的技术(包括人工智能和深度学习)不仅可以改变图形的外观,还可以改变机器的感觉和声音来实现它听起来更像我们中的一员。

Bryan Catanzaro :我应该确保你明白,虽然那个声音是合成的,但它也是经过严格指导的。 所以我不会说那是一个按钮,语音合成系统。 就像您与虚拟助手交谈时可能会使用的那样。 相反,它是我们的算法允许视频制作者创建的可控声音。 他们这样做的方法之一是模拟他们希望旁白视频的特定部分具有的变化、节奏和能量。 所以,所以我想说这不仅仅是一个关于人工智能变得更好的故事,它也是一个关于人类如何与人工智能更紧密地合作来构建事物的故事,并且有能力以这种方式制造出可控的合成声音。

我认为这为娱乐和艺术领域的语音合成开辟了新的机会,我认为。 我认为这很令人兴奋,但你和你的观众应该明白这件事实际上是由一个人非常密切地指导的。 现在,当然,我们正在努力研究能够预测那里所有人性的算法,节奏、变化、音高。 而且我认为在接下来的几年里,我们将看到一些非常惊人的进步,我们可以拥有一个完全按下按钮的语音合成系统,它可以根据文本的含义进行正确的变化,因为当你说的很多意思是通过你声音的变化来传达的,而不仅仅是你选择的单词的意思。

而且,如果我们有能够理解文本含义的模型,比如我之前提到的一些令人惊叹的语言模型,我们应该能够使用它们以有意义的方式指导语音合成。 这是我非常兴奋的事情。 这真有趣。

我觉得我们有一种文化偏见,也许是美国特有的。 我不确定,但我们有一种文化偏见,即计算机无法像人类一样说话。 也许它在某种程度上来自《星际迷航:下一代》,其中数据就像一台令人难以置信的计算机,他可以解决任何问题并发明新的物理学理论,但他永远无法像人类那样说话,或者也许它可以追溯到,你知道的。

Brent Leary :Spock,也许吧。

Bryan Catanzaro:就像他的那样令人反感,他的声音令人毛骨悚然,你知道的。 所以我们有 50 年,几代人的文化告诉我们,计算机不能像人类一样说话。 我实际上只是认为情况并非如此。 我认为我们可以让计算机以更像人类的方式说话,而且,我们会的。 而且我还认为,这项技术的好处对我们所有人来说都是非常好的。

Brent Leary:在那个剪辑中,另一件突出的事情是 Amelia Earhart,她的照片似乎变得栩栩如生。 你能谈谈吗,我猜这是使用人工智能重塑图形的一部分。

布莱恩·卡坦扎罗:是的,没错。 NVIDIA Research 已经真正参与了很多技术,基本上可以使用人工智能合成视频和合成图像。 这就是一个例子,你看到神经网络正在为图像着色,这为我们提供了看待过去的新方式。 当您考虑到这一点时,您就会知道为图像着色所涉及的内容。 AI 需要了解图像的内容以便为它们分配可能的颜色,例如,草通常是绿色的,但如果你不知道草在哪里,那么你不应该将任何颜色涂成绿色并且我会说传统的图像着色方法有点规避风险。 但随着人工智能更好地理解图像的内容以及那里有哪些对象以及对象之间的关系,它可以更好地为图像分配可能的颜色,从而使其栩栩如生。

这是一个例子,这个图像着色问题。 但我认为在那个视频中,我们看到了其他几个例子,我们能够拍摄图像,然后以各种方式对其进行动画处理。

视觉条件合成

我们真正感兴趣的技术之一是,称为条件视频合成,您可以在其中创建基于某种草图的视频,并且,您知道,对于这样的事情,您会做的是反对分析物体结构的识别。 例如,一张脸,这里是眼睛,这里是鼻子,然后为对象分配位置和大小。

这变得有点像卡通片,孩子可能会用简笔画画。 然后你要做的就是把它发送到另一个例程中,让那个简笔画动画,让这个人移动他们的头或微笑,或者,或者与我们想要动画一个人对特定文本说话的文本交谈,同时我们可以制作一个模型,预测他们的人物模型将如何演变为说话的人。 然后,一旦我们有了那种动画棒图,它显示了人应该如何移动,然后我们将它通过一个神经网络合成一个视频,然后从最初的图像开始,人物和人物的外观,背景等等,然后通过这种简笔画动画来制作视频。

我们称之为条件视频生成,因为您可以从同一个简笔画制作许多不同的视频。 所以我们想要做的是选择一个看似合理的条件,基于某种其他信息,比如这个人正在说话的文本,或者我们想要创建的某种动画。 条件视频生成是一个非常强大的想法,我认为随着时间的推移,它会演变成一种生成图形的新方式,一种渲染和创建图形的新方式。

Brent Leary:甚至有一段视频,那个人基本上说,画这个,它实际上开始被画了。


布莱恩·卡坦扎罗:对。 深度学习的强大之处在于它是一种从一个空间映射到另一个空间的非常灵活的方式。 所以在那个视频中,我们看到了很多这样的例子。 这是另一个例子,但从人工智能技术的角度来看,它们都是相似的,因为我们正在尝试学习从 X 到 Y 的映射。在这种情况下,我们正在尝试学习从场景的文本描述到简笔画的映射,即该场景的卡通。 假设我说的是山中树木环绕的湖泊。 我希望模型能够理解山脉在背景中并且它们具有特定的形状。

然后,树木在前景中,然后在中间,通常会有一个大湖。 可以根据一千或一百万张自然景观图像训练模型,并且您有注释显示,这些图像的内容是什么? 然后你可以训练模型走另一条路,然后说,给定文本,你能创建一个场景应该是什么样子的简笔画卡通吗? 山去哪儿了? 树去哪儿了? 水去哪儿了? 然后,一旦你有了那个简笔画,你就可以把它发送到一个模型中,然后再将它详细描述成图像。 而且,这就是你在那个视频中看到的。

数字化身和缩放通话

观看这段简短的视频,了解如何使用这项技术在不久的将来让 Zoom 通话体验更好。 在这种情况下,一个人正在通过 Zoom 电话面试工作。

Brent Leary:很酷的是,最后,他说他的形象是从他的一张照片中生成的; 那是他的声音。 你可以,在屏幕上你可以看到嘴巴的动作。 音频质量很好,他坐在咖啡店里,咖啡店里可能有很多声音,但我们没有听到任何声音。

Bryan Catanzaro 是的,我们为那个演示感到非常自豪。 我应该,我还应该指出,该演示在今年的 SIGGRAPH 会议上赢得了最佳展示,这是世界上最大的图形会议。 该模型是一个广义的视频合成模型。 我们之前讨论过如何拍摄一个人的简笔画,然后对其进行动画处理。 好吧,过去模型的一个限制是您必须针对每种情况训练一个全新的模型。 因此,假设我在家,我有一个模型。 如果我在不同背景的咖啡店,我需要另一个模特。 或者,如果您想自己执行此操作,则需要在这个地方为自己创建一个模型,为自己创建另一个模型,在另一个地方创建一个模型,每次创建这些模型中的一个时,您都必须在该位置捕获一个数据集一套衣服或者那些眼镜什么的,然后花一个星期在超级计算机上训练一个模型,那真的很贵,对吧? 所以我们大多数人永远无法做到这一点。 这将真正限制这项技术的使用方式。

我认为该特定动画背后的技术创新在于他们提出了一个通用模型,基本上可以与任何人一起使用。 你只需要提供一张你自己的照片,这已经足够便宜了。 任何人都可以做到这一点,对吧? 如果那天你去一个新的地方,或者你穿着不同的衣服或眼镜,或者其他什么,你可以拍照。 然后该模型,因为它是通用的,只需使用那张照片作为参考,就能够重新合成您的外观。

我认为这很令人兴奋。 现在,在那个视频的后面,实际上,他们也切换到了语音合成模型。 所以我们在那个片段中听到的实际上是主角用自己的声音说话,但后来咖啡店里的事情变得如此嘈杂,以至于他最终切换到了文字。 所以他只是在打字,而音频是由我们的一种语音合成模型产生的。

我认为让人们有机会以新的方式进行交流只会帮助人们更紧密地联系在一起。

Brent Leary:对话式人工智能,它将如何改变我们在未来几年的沟通和协作方式?

Bryan Catanzaro :人类交流的主要方式是通过对话,就像你我现在一样,但人类很难与计算机进行有意义的对话,原因有很多。 一是感觉不自然,对吧? 就像你在和机器人说话一样,这是阻碍交流的障碍。 它看起来不像一个人,它的反应不像一个人,显然现在的计算机,你知道,你和我与之交互的大多数系统都不理解人类可以理解的东西。 因此,在某些方面,对话式 AI 是最终的 AI 挑战。 其实大家可能对图灵测试很熟悉,被很多人认为是人工智能之父的艾伦·图灵(Alan Turing)将对话式人工智能作为人工智能的最终目标。

因为如果你有一台能够与人类智能交谈的机器,那么你基本上解决了你能想象到的任何类型的智力问题,因为人类拥有的任何信息、任何智慧、人类在过去数千年中创造的任何想法岁月已逝,它们都已通过语言表达出来。 所以这意味着语言是一种足够通用的方式。 这显然是人类交流复杂想法的唯一方式。 如果我们能够制造出能够智能地理解和交流的计算机,而且摩擦力很小,所以实际上感觉就像你在与人互动,那么我认为我们将能够解决很多问题.

我认为对话式人工智能将在很长一段时间内继续成为整个行业的研究焦点。 我认为它与人类的理解和知识一样深奥。 如果你和我有一个播客,比如说俄罗斯文学,会有很多专业的想法,俄罗斯文学博士学位的人可以比我更好地谈论,例如,对吗? 因此,即使在人类中,我们在不同学科的能力也会有所不同。 这就是为什么我认为对话式人工智能将成为一个挑战,在可预见的未来继续吸引我们,因为理解人类所理解的一切确实是一个挑战。 我们还没有接近这样做。

这是与思想领袖的一对一访谈系列的一部分。 成绩单已编辑出版。 如果是音频或视频采访,请点击上面的嵌入式播放器,或通过 iTunes 或通过 Stitcher 订阅。