NVIDIA의 Bryan Catanzaro – 어떤 면에서 대화형 AI는 궁극적인 AI 도전 과제입니다.

게시 됨: 2021-10-02

게임이나 진지한 비디오 편집을 하는 많은 사람들은 NVIDIA를 시장에서 선도적인 그래픽 처리 기술의 제작자로 알고 있습니다. 그러나 NVIDIA는 인공 지능 및 딥 러닝 분야의 리더이기도 합니다. 특히 이러한 기술이 그래픽, 텍스트 및 비디오 합성, 대화형 AI를 경험하는 방식을 개선하는 방법에 대해 설명합니다.

그들의 작업 중 일부는 I AM AI라고 불리는 일련의 비디오에서 선보였습니다. 그리고 최근에 저는 NVIDIA의 Applied Deep Learning Research 부사장인 Bryan Catanzaro와 LinkedIn Live 대화를 나눌 기회가 있었습니다. 이 대화를 통해 우리가 시각과 소리를 경험하는 방식을 재구상하기 위해 AI를 사용한 작업에 대해 더 많이 들을 수 있었습니다.

아래는 우리 대화의 일부를 편집한 대본입니다. 내장된 SoundCloud 플레이어를 클릭하면 전체 대화를 들을 수 있습니다.

smallbiztrends · NVIDIA의 Bryan Catanzaro – 어떤 면에서 대화형 AI는 궁극적인 AI 도전 과제입니다.

포함된 클립이 대화를 구성하는 데 도움이 되므로 반드시 시청하십시오.

브렌트 리어리 : 그 비디오의 그 목소리는 나에게 진짜 인간처럼 들렸습니다. 당신은 Alexa와 Siri 같은 소리를 듣는 데 익숙합니다. 그 전에는 우리가 그 이전의 목소리에 대해 이야기하고 싶지도 않지만 그 목소리는 정말 사람처럼 들렸습니다. 굴곡과 약간의 깊이. 그래픽을 재창조하고 음성 기술을 재창조하고 AI와 딥 러닝을 포함한 새로운 기술을 사용하여 그래픽의 외양을 바꿀 뿐만 아니라 기계의 느낌과 소리를 바꾸어 그것을 만드는 것에 대해 이야기할 때 우리가 보고 있는 것입니까? 우리 중 하나처럼 들립니다.

Bryan Catanzaro : 그 목소리가 합성되었지만 밀접하게 연출되었다는 점을 이해해야 합니다. 그래서 나는 그것이 푸시 버튼, 음성 합성 시스템이라고 말하지 않을 것입니다. 가상 비서와 대화할 때 사용하는 것과 같습니다. 대신, 우리 알고리즘이 비디오 제작자가 만들 수 있도록 하는 것은 제어 가능한 음성이었습니다. 그들이 그렇게 하는 방법 중 하나는 내레이션 비디오의 특정 부분이 갖고자 하는 억양과 리듬, 에너지를 모델링하는 것입니다. 그래서 저는 이것이 AI가 더 좋아진다는 이야기가 아니라 인간이 AI와 더 긴밀하게 협력하여 사물을 만드는 방법과 이러한 방식으로 제어 가능한 합성 음성을 만드는 능력에 대한 이야기라고 말하고 싶습니다.

나는 이것이 엔터테인먼트와 예술에서 음성 합성을 위한 새로운 기회를 열어준다고 생각합니다. 신나는 일이라고 생각하지만 실제로는 한 사람이 매우 밀접하게 지시한 내용이라는 점을 여러분과 청중이 이해해야 합니다. 물론 지금 우리는 리듬, 억양, 음높이 등 모든 인간성을 예측할 수 있는 알고리즘을 개발하기 위해 열심히 노력하고 있습니다. 그리고 저는 우리가 앞으로 몇 년 동안 텍스트의 의미에 따라 적절한 억양을 가진 완전한 푸시 버튼, 음성 합성 시스템을 가질 수 있다는 점에서 꽤 놀라운 발전을 보게 될 것이라고 생각합니다. 당신은 당신이 선택한 단어의 의미뿐만 아니라 목소리의 억양을 통해 많은 의미가 전달됩니다.

그리고 앞서 언급한 놀라운 언어 모델처럼 텍스트의 의미를 이해할 수 있는 모델이 있다면 의미 있는 방식으로 음성 합성을 지시하는 데 사용할 수 있어야 합니다. 그리고 그것은 제가 매우 흥분되는 일입니다. 흥미 롭군.

나는 우리에게 일종의 문화적 편견이 있다고 생각합니다. 아마도 그것은 미국에만 국한된 것일 것입니다. 잘 모르겠지만 우리는 컴퓨터가 인간처럼 말할 수 없다는 문화적 편견을 가지고 있습니다. 그리고 아마도 그것은 데이터가 놀라운 컴퓨팅 기계와 같았고 어떤 문제도 풀 수 있고 새로운 물리학 이론을 발명할 수 있었던 스타 트렉: 넥스트 제너레이션(Star Trek: Next Generation)에서 비롯된 것일 수도 있습니다. 아마도 그것은 다시 추적 할 수 있습니다.

브렌트 리어리 : 스팍, 아마도.

Bryan Catanzaro: 그의 목소리처럼 소름 끼치는 것처럼 우스꽝스러웠습니다. 그래서 우리는 50년 동안 컴퓨터는 인간처럼 말할 수 없다고 말하는 여러 세대의 문화가 있습니다. 그리고 실제로는 그렇지 않다고 생각합니다. 나는 우리가 컴퓨터가 더 인간적인 방식으로 말하게 할 수 있다고 생각하고, 그리고 그렇게 할 것입니다. 그리고 저는 또한 이 기술의 이점이 우리 모두에게 매우 클 것이라고 생각합니다.

Brent Leary: 그 클립에서 눈에 띄는 또 다른 것은 Amelia Earhart였습니다. 그녀의 사진이 살아 움직이는 것처럼 보였습니다. AI를 사용하여 그래픽을 재창조하는 것의 일부인 것 같아요.

Bryan Catanzaro : 네, 맞습니다. NVIDIA Research는 기본적으로 인공 지능을 사용하여 비디오를 합성하고 이미지를 합성하는 많은 기술에 참여했습니다. 그리고 그것은 한 가지 예입니다. 신경망이 이미지에 색을 입히고 과거를 보는 새로운 방식을 제공하는 것을 보셨을 것입니다. 그리고 그것에 대해 생각할 때 이미지를 채색하는 것과 관련된 것이 무엇인지 알 수 있습니다. AI는 이미지에 가능한 색상을 할당하기 위해 이미지의 내용을 이해해야 합니다. 예를 들어 잔디는 일반적으로 녹색이지만 잔디가 어디에 있는지 모른다면 아무 것도 녹색으로 색칠해서는 안 됩니다. 이미지를 채색하는 전통적인 접근 방식은 약간 위험을 회피하는 것이었습니다. 그러나 AI가 이미지의 내용과 거기에 어떤 물체가 있고 물체가 서로 어떻게 관련되어 있는지 이해하는 데 더 능숙해짐에 따라 이미지에 생명을 불어넣는 가능한 색상을 훨씬 더 잘 할당할 수 있습니다.

이것이 한 가지 예입니다. 이 이미지 채색 문제입니다. 하지만 그 비디오에서 우리가 이미지를 찍은 다음 다양한 방식으로 애니메이션을 적용할 수 있었던 몇 가지 다른 예를 봤다고 생각합니다.

시각적 조건부 합성

우리가 정말로 관심을 가지고 있는 기술 중 하나는 조건부 비디오 합성이라고 하는 것입니다. 여기서 일종의 스케치를 기반으로 비디오를 생성할 수 있고, 알다시피, 이와 같은 경우에 할 수 있는 일은 사물의 구조를 분석하는 인식에 반대합니다. 예를 들어, 얼굴, 여기 눈, 여기 코, 그런 다음 개체와 크기에 일종의 위치를 ​​할당합니다.

그리고 그것은 일종의 만화처럼 되어 아이가 막대기로 그림을 그릴 수도 있습니다. 그리고 나서 당신이 하는 일은 그것을 다른 루틴으로 보내는 것입니다. 그 막대기 모양을 움직이게 하고 사람이 머리를 움직이거나 미소를 짓게 하거나, 우리가 원하는 모델을 만들 수 있는 동안 사람이 특정 텍스트에 대해 말하는 것을 애니메이션으로 만들고자 하는 텍스트와 대화하게 만듭니다. 말하는 사람처럼 막대기 모양 모델이 어떻게 진화할지 예측합니다. 그런 다음 사람이 어떻게 움직여야 하는지 보여주는 애니메이션 막대 모양 그림이 있으면 이를 신경망에 넣어 비디오를 합성하고 초기 이미지에서 다음과 같이 이동합니다. 인물의 모습과 배경, 그리고 배경 등을 애니메이션화하여 이런 종류의 막대기 모양의 애니메이션을 통해 영상을 만든다.

동일한 막대 모양으로 제작할 수 있는 다양한 비디오가 있기 때문에 우리는 이를 조건부 비디오 생성이라고 부릅니다. 그래서 우리가 하고자 하는 것은 그 사람이 말하고 있는 텍스트나 우리가 만들고자 하는 애니메이션과 같은 일종의 다른 정보에 근거하여 그럴듯해 보이는 것을 선택하는 것입니다. 그리고 조건부 비디오 생성은 매우 강력한 아이디어이며 시간이 지남에 따라 그래픽을 생성하고 렌더링하고 생성하는 새로운 방식으로 발전할 것이라고 생각합니다.

Brent Leary: 심지어 그 사람이 기본적으로 이것을 그리라고 말한 비디오의 한 부분이 있고 실제로 그리기 시작했습니다.


브라이언 카탄자로: 맞습니다. 딥 러닝의 힘은 한 공간에서 다른 공간으로 매핑하는 매우 유연한 방법이라는 것입니다. 그리고 그 비디오에서 우리는 많은 예를 보고 있습니다. 이것은 또 다른 예입니다. 하지만 AI 기술의 관점에서 보면 그것들은 모두 비슷합니다. 왜냐하면 우리가 하는 것은 X에서 Y로 가는 매핑을 배우려고 하는 것이기 때문입니다. 그리고 이 경우에, 우리는 장면에 대한 텍스트 설명에서 그 장면의 만화 막대기 그림으로 가는 매핑을 배우기 위해. 내가 산의 나무로 둘러싸인 호수를 말했다고 가정해 봅시다. 나는 모델이 산이 배경에 있고 특정한 모양을 가지고 있다는 것을 이해하기를 바랍니다.

그리고 나서, 나무들은 전경으로 가고 그 다음 바로 중앙으로, 보통 큰 호수가 있을 것입니다. 수천 또는 수백만 개의 자연 경관 이미지를 기반으로 모델을 훈련하는 것이 가능하며 주석이 있는 경우 이 이미지의 내용이 무엇입니까? 그런 다음 모델이 다른 방향으로 이동하도록 훈련하고 텍스트가 주어지면 장면이 어떻게 보여야 하는지에 대한 일종의 막대기 그림 만화를 만들 수 있다고 말할 수 있습니다. 산은 어디로 가는가? 나무는 어디로 가나요? 물은 어디로 가나요? 그리고 나서 그 막대기 그림이 있으면 그것을 이미지로 정교화하는 모델로 보낼 수 있습니다. 그리고 그 영상에서 보셨을 것입니다.

디지털 아바타 및 확대/축소 통화

가까운 장래에 Zoom 통화를 훨씬 더 나은 경험으로 만들기 위해 이 기술이 어떻게 사용될 것인지에 대한 이 짧은 비디오를 시청하십시오. 이 시나리오에는 Zoom 통화를 통해 취업 면접을 보는 사람이 있습니다.

Brent Leary: 멋진 점은 마지막에 자신의 이미지가 자신의 사진 한 장에서 생성되었다고 말했습니다. 그리고 그것은 그의 목소리였다. 화면에서 입의 움직임을 볼 수 있습니다. 오디오 품질은 훌륭하고 그는 커피숍에 앉아 있습니다. 커피숍에서 많은 소리가 들릴 수 있지만 우리는 그 소리를 듣지 못했습니다.

Bryan Catanzaro : 네, 저희는 그 데모가 정말 자랑스러웠습니다. 저는 또한 데모가 세계에서 가장 큰 그래픽 컨퍼런스인 올해 SIGGRAPH 컨퍼런스에서 베스트 인 쇼를 수상했다는 점에 주목해야 합니다. 그 모델은 일반화된 비디오 합성 모델이었습니다. 우리는 이전에 사람의 막대기 모양 표현을 어떻게 애니메이션화할 수 있는지에 대해 이야기했습니다. 음, 과거 모델의 한계 중 하나는 모든 상황에 대해 완전히 새로운 모델을 훈련해야 한다는 것이었습니다. 집에 모델이 하나 있다고 가정해 보겠습니다. 다른 배경을 가진 커피숍에 있다면 다른 모델이 필요합니다. 또는 직접 하고 싶다면 이 곳에서 자신을 위한 모델 하나, 자신을 위한 다른 모델, 다른 곳이 필요할 것입니다. 이러한 모델 중 하나를 생성할 때마다 해당 위치에 있는 데이터 세트를 캡처해야 합니다. 옷이나 안경을 쓰고 모델을 훈련시키는 슈퍼컴퓨터에 일주일을 보내면 정말 비용이 많이 듭니까? 그래서 우리 대부분은 결코 그렇게 할 수 없었습니다. 그것은 이 기술이 사용될 수 있는 방법을 정말로 제한할 것입니다.

저는 그 특정 애니메이션의 이면에 있는 기술 혁신이 기본적으로 누구와도 작업할 수 있는 일반화된 모델을 생각해 낸 것이라고 생각합니다. 당신은 당신 자신의 사진 한 장만 제공하면 됩니다. 그것은 충분히 저렴합니다. 아무나 할 수 있지, 그렇지? 그리고 그 날 새로운 장소에 가거나 다른 옷을 입고 안경을 쓰고 있다면 그냥 사진을 찍을 수 있습니다. 그런 다음 모델은 일반적이기 때문에 한 장의 사진을 참조로 사용하여 외모를 재합성할 수 있습니다.

꽤 흥미로운 일이라고 생각합니다. 이제 나중에 그 비디오에서 실제로 음성 합성 모델로도 전환했습니다. 그래서 우리가 그 클립에서 들은 것은 실제로 주인공이 자신의 목소리로 말하는 것이지만 나중에는 커피숍에서 너무 시끄러워져서 결국 그는 텍스트로 전환하게 됩니다. 그래서 그는 단지 타이핑을 하고 오디오는 우리의 음성 합성 모델 중 하나에 의해 생성됩니다.

사람들에게 새로운 방식으로 소통할 수 있는 기회를 주는 것은 사람들을 더 가깝게 만드는 데 도움이 된다고 생각합니다.

Brent Leary: 대화형 AI, 앞으로 몇 년 동안 우리가 의사 소통하고 협업하는 방식을 어떻게 바꿀까요?

Bryan Catanzaro : 인간이 의사소통을 하는 주된 방법은 바로 지금 당신과 내가 하고 있는 것과 같은 대화를 통한 것입니다. 하지만 인간이 컴퓨터와 의미 있는 대화를 하는 것은 여러 가지 이유로 매우 어렵습니다. 하나는 자연스럽지 않다는 것입니다. 마치 로봇에게 말을 걸고 있는 것처럼 들리면 그것은 의사 소통을 방해하는 장벽입니다. 그것은 사람처럼 보이지 않습니다. 그것은 사람처럼 반응하지 않으며 분명히 컴퓨터처럼 요즘에는 여러분과 제가 상호 작용한 대부분의 시스템이 인간이 이해할 수 있는 것을 이해하지 못합니다. 따라서 대화형 AI는 어떤 면에서 AI의 궁극적인 과제입니다. 실제로 많은 사람들이 인공 지능의 아버지로 간주하는 튜링 테스트 앨런 튜링(Alan Turing)에 대해 잘 알고 계실 것입니다. 그는 대화형 AI를 인공 지능의 최종 목표로 설정했습니다.

왜냐하면 인간과 지능적으로 대화할 수 있는 기계가 있다면 기본적으로 상상할 수 있는 모든 종류의 지능 문제를 해결할 수 있기 때문입니다. 세월은 모두 언어를 통해 표현되었습니다. 그래서 그것은 언어가 충분히 일반적인 방법이라는 것을 의미합니다. 그것은 분명히 인간이 복잡한 아이디어를 전달할 수 있는 유일한 방법입니다. 그리고 지능적으로 이해하고 의사 소통할 수 있고 마찰이 적은 컴퓨터를 만들 수 있다면 실제로 그 사람과 상호 작용하는 것 같은 느낌이 들며 많은 문제를 해결할 수 있을 것이라고 생각합니다. .

대화형 AI는 앞으로도 오랫동안 업계 전체의 연구 초점이 될 것이라고 생각합니다. 인간의 모든 이해와 지식만큼이나 심오한 주제라고 생각합니다. 당신과 내가 팟캐스트를 하고 있었다면, 예를 들어 러시아 문학이 있다고 가정해 봅시다. 예를 들어, 러시아 문학 박사 학위를 가진 사람이 나보다 더 잘 말할 수 있는 전문적인 아이디어가 많이 있을 것입니다. 예를 들어, 그렇죠? 그래서 인간 사이에서도 다양한 주제에 대한 우리의 능력은 다를 것입니다. 그래서 저는 대화형 AI가 가까운 미래에 계속해서 우리를 참여시키는 도전이 될 것이라고 생각합니다. 왜냐하면 인간이 이해하는 모든 것을 이해하는 것은 정말로 도전이기 때문입니다. 그리고 우리는 그렇게 하는 것에 가깝지 않습니다.

이것은 사상가들과의 일대일 인터뷰 시리즈의 일부입니다. 번역본은 출판을 위해 편집되었습니다. 오디오 또는 비디오 인터뷰인 경우 위의 내장 플레이어를 클릭하거나 iTunes 또는 Stitcher를 통해 구독하십시오.