NVIDIA 的 Bryan Catanzaro – 对话式 AI 在某些方面是终极 AI 挑战
已发表: 2021-10-02许多从事游戏或严肃视频编辑的人都知道 NVIDIA 是市场上领先的图形处理技术的创造者。 但英伟达在人工智能和深度学习领域也处于领先地位; 特别是这些技术如何改善我们体验图形、文本和视频合成以及对话式人工智能的方式。
他们的一些工作在他们制作的一系列名为“我是人工智能”的视频中得到了展示,这些视频令人信服地展示了我们可以使用什么(以及将会有什么)来改善我们体验世界的方式——以及彼此之间的体验。 最近,我有机会与 NVIDIA 应用深度学习研究副总裁Bryan Catanzaro 进行了一次 LinkedIn Live 对话,了解更多关于他们与 AI 合作的信息,以重新构想我们体验视觉和听觉的方式。
以下是我们部分对话的编辑记录。 单击嵌入式 SoundCloud 播放器以收听完整的对话。
确保观看嵌入的剪辑,因为它们有助于构建我们的对话。
Brent Leary :那个视频中的声音对我来说听起来像是一个真实的人。 你已经习惯了像 Alexa 和 Siri 这样的声音,在此之前它就像,你知道,我们甚至不想谈论在那之前的声音,但那个声音听起来真的像一个人,和人拐点和一些深度。 当您谈论重新发明图形和重新发明语音技术以及使用更新的技术(包括人工智能和深度学习)不仅可以改变图形的外观,还可以改变机器的感觉和声音来实现它听起来更像我们中的一员。
Bryan Catanzaro :我应该确保你明白,虽然那个声音是合成的,但它也是经过严格指导的。 所以我不会说那是一个按钮,语音合成系统。 就像您与虚拟助手交谈时可能会使用的那样。 相反,它是我们的算法允许视频制作者创建的可控声音。 他们这样做的方法之一是模拟他们希望旁白视频的特定部分具有的变化、节奏和能量。 所以,所以我想说这不仅仅是一个关于人工智能变得更好的故事,它也是一个关于人类如何与人工智能更紧密地合作来构建事物的故事,并且有能力以这种方式制造出可控的合成声音。
我认为这为娱乐和艺术领域的语音合成开辟了新的机会,我认为。 我认为这很令人兴奋,但你和你的观众应该明白这件事实际上是由一个人非常密切地指导的。 现在,当然,我们正在努力研究能够预测那里所有人性的算法,节奏、变化、音高。 而且我认为在接下来的几年里,我们将看到一些非常惊人的进步,我们可以拥有一个完全按下按钮的语音合成系统,它可以根据文本的含义进行正确的变化,因为当你说的很多意思是通过你声音的变化来传达的,而不仅仅是你选择的单词的意思。
而且,如果我们有能够理解文本含义的模型,比如我之前提到的一些令人惊叹的语言模型,我们应该能够使用它们以有意义的方式指导语音合成。 这是我非常兴奋的事情。 这真有趣。
我觉得我们有一种文化偏见,也许是美国特有的。 我不确定,但我们有一种文化偏见,即计算机无法像人类一样说话。 也许它在某种程度上来自《星际迷航:下一代》,其中数据就像一台令人难以置信的计算机,他可以解决任何问题并发明新的物理学理论,但他永远无法像人类那样说话,或者也许它可以追溯到,你知道的。
Brent Leary :Spock,也许吧。
Bryan Catanzaro:就像他的那样令人反感,他的声音令人毛骨悚然,你知道的。 所以我们有 50 年,几代人的文化告诉我们,计算机不能像人类一样说话。 我实际上只是认为情况并非如此。 我认为我们可以让计算机以更像人类的方式说话,而且,我们会的。 而且我还认为,这项技术的好处对我们所有人来说都是非常好的。
Brent Leary:在那个剪辑中,另一件突出的事情是 Amelia Earhart,她的照片似乎变得栩栩如生。 你能谈谈吗,我猜这是使用人工智能重塑图形的一部分。
布莱恩·卡坦扎罗:是的,没错。 NVIDIA Research 已经真正参与了很多技术,基本上可以使用人工智能合成视频和合成图像。 这就是一个例子,你看到神经网络正在为图像着色,这为我们提供了看待过去的新方式。 当您考虑到这一点时,您就会知道为图像着色所涉及的内容。 AI 需要了解图像的内容以便为它们分配可能的颜色,例如,草通常是绿色的,但如果你不知道草在哪里,那么你不应该将任何颜色涂成绿色并且我会说传统的图像着色方法有点规避风险。 但随着人工智能更好地理解图像的内容以及那里有哪些对象以及对象之间的关系,它可以更好地为图像分配可能的颜色,从而使其栩栩如生。
这是一个例子,这个图像着色问题。 但我认为在那个视频中,我们看到了其他几个例子,我们能够拍摄图像,然后以各种方式对其进行动画处理。
视觉条件合成
我们真正感兴趣的技术之一是,称为条件视频合成,您可以在其中创建基于某种草图的视频,并且,您知道,对于这样的事情,您会做的是反对分析物体结构的识别。 例如,一张脸,这里是眼睛,这里是鼻子,然后为对象分配位置和大小。
这变得有点像卡通片,孩子可能会用简笔画画。 然后你要做的就是把它发送到另一个例程中,让那个简笔画动画,让这个人移动他们的头或微笑,或者,或者与我们想要动画一个人对特定文本说话的文本交谈,同时我们可以制作一个模型,预测他们的人物模型将如何演变为说话的人。 然后,一旦我们有了那种动画棒图,它显示了人应该如何移动,然后我们将它通过一个神经网络合成一个视频,然后从最初的图像开始,人物和人物的外观,背景等等,然后通过这种简笔画动画来制作视频。
我们称之为条件视频生成,因为您可以从同一个简笔画制作许多不同的视频。 所以我们想要做的是选择一个看似合理的条件,基于某种其他信息,比如这个人正在说话的文本,或者我们想要创建的某种动画。 条件视频生成是一个非常强大的想法,我认为随着时间的推移,它会演变成一种生成图形的新方式,一种渲染和创建图形的新方式。
Brent Leary:甚至有一段视频,那个人基本上说,画这个,它实际上开始被画了。
