NVIDIA의 Bryan Catanzaro – 어떤 면에서 대화형 AI는 궁극적인 AI 도전 과제입니다.
게시 됨: 2021-10-02게임이나 진지한 비디오 편집을 하는 많은 사람들은 NVIDIA를 시장에서 선도적인 그래픽 처리 기술의 제작자로 알고 있습니다. 그러나 NVIDIA는 인공 지능 및 딥 러닝 분야의 리더이기도 합니다. 특히 이러한 기술이 그래픽, 텍스트 및 비디오 합성, 대화형 AI를 경험하는 방식을 개선하는 방법에 대해 설명합니다.
그들의 작업 중 일부는 I AM AI라고 불리는 일련의 비디오에서 선보였습니다. 그리고 최근에 저는 NVIDIA의 Applied Deep Learning Research 부사장인 Bryan Catanzaro와 LinkedIn Live 대화를 나눌 기회가 있었습니다. 이 대화를 통해 우리가 시각과 소리를 경험하는 방식을 재구상하기 위해 AI를 사용한 작업에 대해 더 많이 들을 수 있었습니다.
아래는 우리 대화의 일부를 편집한 대본입니다. 내장된 SoundCloud 플레이어를 클릭하면 전체 대화를 들을 수 있습니다.
포함된 클립이 대화를 구성하는 데 도움이 되므로 반드시 시청하십시오.
브렌트 리어리 : 그 비디오의 그 목소리는 나에게 진짜 인간처럼 들렸습니다. 당신은 Alexa와 Siri 같은 소리를 듣는 데 익숙합니다. 그 전에는 우리가 그 이전의 목소리에 대해 이야기하고 싶지도 않지만 그 목소리는 정말 사람처럼 들렸습니다. 굴곡과 약간의 깊이. 그래픽을 재창조하고 음성 기술을 재창조하고 AI와 딥 러닝을 포함한 새로운 기술을 사용하여 그래픽의 외양을 바꿀 뿐만 아니라 기계의 느낌과 소리를 바꾸어 그것을 만드는 것에 대해 이야기할 때 우리가 보고 있는 것입니까? 우리 중 하나처럼 들립니다.
Bryan Catanzaro : 그 목소리가 합성되었지만 밀접하게 연출되었다는 점을 이해해야 합니다. 그래서 나는 그것이 푸시 버튼, 음성 합성 시스템이라고 말하지 않을 것입니다. 가상 비서와 대화할 때 사용하는 것과 같습니다. 대신, 우리 알고리즘이 비디오 제작자가 만들 수 있도록 하는 것은 제어 가능한 음성이었습니다. 그들이 그렇게 하는 방법 중 하나는 내레이션 비디오의 특정 부분이 갖고자 하는 억양과 리듬, 에너지를 모델링하는 것입니다. 그래서 저는 이것이 AI가 더 좋아진다는 이야기가 아니라 인간이 AI와 더 긴밀하게 협력하여 사물을 만드는 방법과 이러한 방식으로 제어 가능한 합성 음성을 만드는 능력에 대한 이야기라고 말하고 싶습니다.
나는 이것이 엔터테인먼트와 예술에서 음성 합성을 위한 새로운 기회를 열어준다고 생각합니다. 신나는 일이라고 생각하지만 실제로는 한 사람이 매우 밀접하게 지시한 내용이라는 점을 여러분과 청중이 이해해야 합니다. 물론 지금 우리는 리듬, 억양, 음높이 등 모든 인간성을 예측할 수 있는 알고리즘을 개발하기 위해 열심히 노력하고 있습니다. 그리고 저는 우리가 앞으로 몇 년 동안 텍스트의 의미에 따라 적절한 억양을 가진 완전한 푸시 버튼, 음성 합성 시스템을 가질 수 있다는 점에서 꽤 놀라운 발전을 보게 될 것이라고 생각합니다. 당신은 당신이 선택한 단어의 의미뿐만 아니라 목소리의 억양을 통해 많은 의미가 전달됩니다.
그리고 앞서 언급한 놀라운 언어 모델처럼 텍스트의 의미를 이해할 수 있는 모델이 있다면 의미 있는 방식으로 음성 합성을 지시하는 데 사용할 수 있어야 합니다. 그리고 그것은 제가 매우 흥분되는 일입니다. 흥미 롭군.
나는 우리에게 일종의 문화적 편견이 있다고 생각합니다. 아마도 그것은 미국에만 국한된 것일 것입니다. 잘 모르겠지만 우리는 컴퓨터가 인간처럼 말할 수 없다는 문화적 편견을 가지고 있습니다. 그리고 아마도 그것은 데이터가 놀라운 컴퓨팅 기계와 같았고 어떤 문제도 풀 수 있고 새로운 물리학 이론을 발명할 수 있었던 스타 트렉: 넥스트 제너레이션(Star Trek: Next Generation)에서 비롯된 것일 수도 있습니다. 아마도 그것은 다시 추적 할 수 있습니다.
브렌트 리어리 : 스팍, 아마도.
Bryan Catanzaro: 그의 목소리처럼 소름 끼치는 것처럼 우스꽝스러웠습니다. 그래서 우리는 50년 동안 컴퓨터는 인간처럼 말할 수 없다고 말하는 여러 세대의 문화가 있습니다. 그리고 실제로는 그렇지 않다고 생각합니다. 나는 우리가 컴퓨터가 더 인간적인 방식으로 말하게 할 수 있다고 생각하고, 그리고 그렇게 할 것입니다. 그리고 저는 또한 이 기술의 이점이 우리 모두에게 매우 클 것이라고 생각합니다.
Brent Leary: 그 클립에서 눈에 띄는 또 다른 것은 Amelia Earhart였습니다. 그녀의 사진이 살아 움직이는 것처럼 보였습니다. AI를 사용하여 그래픽을 재창조하는 것의 일부인 것 같아요.
Bryan Catanzaro : 네, 맞습니다. NVIDIA Research는 기본적으로 인공 지능을 사용하여 비디오를 합성하고 이미지를 합성하는 많은 기술에 참여했습니다. 그리고 그것은 한 가지 예입니다. 신경망이 이미지에 색을 입히고 과거를 보는 새로운 방식을 제공하는 것을 보셨을 것입니다. 그리고 그것에 대해 생각할 때 이미지를 채색하는 것과 관련된 것이 무엇인지 알 수 있습니다. AI는 이미지에 가능한 색상을 할당하기 위해 이미지의 내용을 이해해야 합니다. 예를 들어 잔디는 일반적으로 녹색이지만 잔디가 어디에 있는지 모른다면 아무 것도 녹색으로 색칠해서는 안 됩니다. 이미지를 채색하는 전통적인 접근 방식은 약간 위험을 회피하는 것이었습니다. 그러나 AI가 이미지의 내용과 거기에 어떤 물체가 있고 물체가 서로 어떻게 관련되어 있는지 이해하는 데 더 능숙해짐에 따라 이미지에 생명을 불어넣는 가능한 색상을 훨씬 더 잘 할당할 수 있습니다.
이것이 한 가지 예입니다. 이 이미지 채색 문제입니다. 하지만 그 비디오에서 우리가 이미지를 찍은 다음 다양한 방식으로 애니메이션을 적용할 수 있었던 몇 가지 다른 예를 봤다고 생각합니다.
시각적 조건부 합성
우리가 정말로 관심을 가지고 있는 기술 중 하나는 조건부 비디오 합성이라고 하는 것입니다. 여기서 일종의 스케치를 기반으로 비디오를 생성할 수 있고, 알다시피, 이와 같은 경우에 할 수 있는 일은 사물의 구조를 분석하는 인식에 반대합니다. 예를 들어, 얼굴, 여기 눈, 여기 코, 그런 다음 개체와 크기에 일종의 위치를 할당합니다.
그리고 그것은 일종의 만화처럼 되어 아이가 막대기로 그림을 그릴 수도 있습니다. 그리고 나서 당신이 하는 일은 그것을 다른 루틴으로 보내는 것입니다. 그 막대기 모양을 움직이게 하고 사람이 머리를 움직이거나 미소를 짓게 하거나, 우리가 원하는 모델을 만들 수 있는 동안 사람이 특정 텍스트에 대해 말하는 것을 애니메이션으로 만들고자 하는 텍스트와 대화하게 만듭니다. 말하는 사람처럼 막대기 모양 모델이 어떻게 진화할지 예측합니다. 그런 다음 사람이 어떻게 움직여야 하는지 보여주는 애니메이션 막대 모양 그림이 있으면 이를 신경망에 넣어 비디오를 합성하고 초기 이미지에서 다음과 같이 이동합니다. 인물의 모습과 배경, 그리고 배경 등을 애니메이션화하여 이런 종류의 막대기 모양의 애니메이션을 통해 영상을 만든다.
동일한 막대 모양으로 제작할 수 있는 다양한 비디오가 있기 때문에 우리는 이를 조건부 비디오 생성이라고 부릅니다. 그래서 우리가 하고자 하는 것은 그 사람이 말하고 있는 텍스트나 우리가 만들고자 하는 애니메이션과 같은 일종의 다른 정보에 근거하여 그럴듯해 보이는 것을 선택하는 것입니다. 그리고 조건부 비디오 생성은 매우 강력한 아이디어이며 시간이 지남에 따라 그래픽을 생성하고 렌더링하고 생성하는 새로운 방식으로 발전할 것이라고 생각합니다.
Brent Leary: 심지어 그 사람이 기본적으로 이것을 그리라고 말한 비디오의 한 부분이 있고 실제로 그리기 시작했습니다.
