NVIDIA 的 Bryan Catanzaro – 對話式 AI 在某些方面是終極 AI 挑戰

已發表: 2021-10-02

許多從事遊戲或嚴肅視頻編輯的人都知道 NVIDIA 是市場上領先的圖形處理技術的創造者。 但英偉達在人工智能和深度學習領域也處於領先地位; 特別是這些技術如何改善我們體驗圖形、文本和視頻合成以及對話式人工智能的方式。

他們的一些工作在他們製作的一系列名為“我是人工智能”的視頻中得到了展示,這些視頻令人信服地展示了我們可以使用什麼(以及將會有什麼)來改善我們體驗世界的方式——以及彼此之間的體驗。 最近,我有機會與 NVIDIA 應用深度學習研究副總裁Bryan Catanzaro 進行了一次 LinkedIn Live 對話,了解更多關於他們與 AI 合作的信息,以重新構想我們體驗視覺和聽覺的方式。

以下是我們部分對話的編輯記錄。 單擊嵌入式 SoundCloud 播放器以收聽完整的對話。

smallbiztrends · NVIDIA 的 Bryan Catanzaro – 在某些方面,對話式 AI 是 AI 的終極挑戰

確保觀看嵌入的剪輯,因為它們有助於構建我們的對話。

Brent Leary :那個視頻中的聲音對我來說聽起來像是一個真實的人。 你已經習慣了像 Alexa 和 Siri 這樣的聲音,在此之前它就像,你知道,我們甚至不想談論在那之前的聲音,但那個聲音聽起來真的像一個人,和人拐點和一些深度。 當您談論重新發明圖形和重新發明語音技術以及使用更新的技術(包括人工智能和深度學習)不僅改變圖形的外觀,而且改變機器的感覺和聲音來製造它時,這就是我們正在研究的東西嗎?聽起來更像我們中的一員。

Bryan Catanzaro :我應該確保你明白,雖然那個聲音是合成的,但它也是經過嚴格指導的。 所以我不會說那是一個按鈕,語音合成系統。 就像您與虛擬助手交談時可能會使用的那樣。 相反,它是我們的算法允許視頻製作者創建的可控聲音。 他們這樣做的方法之一是模擬他們希望旁白視頻的特定部分具有的變化、節奏和能量。 所以,所以我想說這不僅僅是一個關於人工智能變得更好的故事,它也是一個關於人類如何與人工智能更緊密地合作來構建事物的故事,並且有能力以這種方式製造出可控的合成聲音。

我認為這為娛樂和藝術領域的語音合成開闢了新的機會,我認為。 我認為這很令人興奮,但你和你的觀眾應該明白這件事實際上是由一個人非常密切地指導的。 現在,當然,我們正在努力研究能夠預測那裡所有人性的算法,節奏、變化、音高。 而且我認為在接下來的幾年裡,我們將看到一些非常驚人的進步,我們可以擁有一個完全按下按鈕的語音合成系統,它可以根據文本的含義進行正確的變化,因為當你說的很多意思是通過你聲音的變化來傳達的,而不僅僅是你選擇的單詞的意思。

而且,如果我們有能夠理解文本含義的模型,比如我之前提到的一些令人驚嘆的語言模型,我們應該能夠使用它們以有意義的方式指導語音合成。 這是我非常興奮的事情。 這真有趣。

我覺得我們有一種文化偏見,也許是美國特有的。 我不確定,但我們有一種文化偏見,即計算機無法像人類一樣說話。 也許它在某種程度上來自《星際迷航:下一代》,其中數據就像一台令人難以置信的計算機,他可以解決任何問題並發明新的物理學理論,但他永遠無法像人類那樣說話,或者也許它可以追溯到,你知道的。

Brent Leary :Spock,也許吧。

Bryan Catanzaro:就像他的那樣令人反感,他的聲音令人毛骨悚然,你知道的。 所以我們有 50 年,幾代人的文化告訴我們,計算機不能像人類一樣說話。 我實際上只是認為情況並非如此。 我認為我們可以讓計算機以更像人類的方式說話,而且,我們會的。 而且我還認為,這項技術的好處對我們所有人來說都是非常好的。

Brent Leary:在那個剪輯中,另一件突出的事情是 Amelia Earhart,她的照片似乎變得栩栩如生。 你能談談嗎,我猜這是使用人工智能重塑圖形的一部分。

布萊恩·卡坦扎羅:是的,沒錯。 NVIDIA Research 已經真正參與了很多技術,基本上可以使用人工智能合成視頻和合成圖像。 這就是一個例子,你看到神經網絡正在為圖像著色,這為我們提供了看待過去的新方式。 當您考慮到這一點時,您就會知道為圖像著色所涉及的內容。 AI 需要了解圖像的內容以便為它們分配可能的顏色,例如,草通常是綠色的,但如果你不知道草在哪裡,那麼你不應該將任何顏色塗成綠色並且我會說傳統的圖像著色方法有點規避風險。 但隨著人工智能更好地理解圖像的內容以及那裡有哪些對像以及對象之間的關係,它可以更好地為圖像分配可能的顏色,從而使其栩栩如生。

這是一個例子,這個圖像著色問題。 但我認為在那個視頻中,我們看到了其他幾個例子,我們能夠拍攝圖像,然後以各種方式對其進行動畫處理。

視覺條件合成

我們真正感興趣的技術之一是,稱為條件視頻合成,您可以在其中創建基於某種草圖的視頻,並且,您知道,對於這樣的事情,您會做的是反對分析物體結構的識別。 例如,一張臉,這裡是眼睛,這裡是鼻子,然後為對象分配位置和大小。

這變得有點像卡通片,孩子可能會用簡筆劃畫。 然後你要做的就是把它發送到另一個例程中,讓那個簡筆劃動畫,讓這個人移動他們的頭或微笑,或者,或者與我們想要動畫一個人對特定文本說話的文本交談,同時我們可以製作一個模型,預測他們的人物模型將如何演變為說話的人。 然後,一旦我們有了那種動畫棒圖,它顯示了人應該如何移動,然後我們將它通過一個神經網絡合成一個視頻,然後從最初的圖像開始,人物和人物的外觀,背景等等,然後通過這種簡筆劃動畫來製作視頻。

我們稱之為條件視頻生成,因為您可以從同一個簡筆劃製作許多不同的視頻。 所以我們想要做的是選擇一個看似合理的條件,基於某種其他信息,比如這個人正在說話的文本,或者我們想要創建的某種動畫。 條件視頻生成是一個非常強大的想法,我認為隨著時間的推移,它會演變成一種生成圖形的新方式,一種渲染和創建圖形的新方式。

Brent Leary:甚至有一段視頻,那個人基本上說,畫這個,它實際上開始被畫了。


布萊恩·卡坦扎羅:對。 深度學習的強大之處在於它是一種從一個空間映射到另一個空間的非常靈活的方式。 所以在那個視頻中,我們看到了很多這樣的例子。 這是另一個例子,但從人工智能技術的角度來看,它們都是相似的,因為我們正在嘗試學習從 X 到 Y 的映射。在這種情況下,我們正在嘗試學習從場景的文本描述到簡筆劃的映射,即該場景的卡通。 假設我說的是山中樹木環繞的湖泊。 我希望模型能夠理解山脈在背景中並且它們具有特定的形狀。

然後,樹木在前景中,然後在中間,通常會有一個大湖。 可以根據一千或一百萬張自然景觀圖像訓練模型,並且您有註釋顯示,這些圖像的內容是什麼? 然後你可以訓練模型走另一條路,然後說,給定文本,你能創建一個場景應該是什麼樣子的簡筆劃卡通嗎? 山去哪兒了? 樹去哪兒了? 水去哪兒了? 然後,一旦你有了那個簡筆劃,你就可以把它發送到一個模型中,然後再將它詳細描述成圖像。 而且,這就是你在那個視頻中看到的。

數字化身和縮放通話

觀看這段簡短的視頻,了解如何使用這項技術在不久的將來讓 Zoom 通話體驗更好。 在這種情況下,一個人正在通過 Zoom 電話面試工作。

Brent Leary:很酷的是,最後,他說他的形像是從他的一張照片中生成的; 那是他的聲音。 你可以,在屏幕上你可以看到嘴巴的動作。 音頻質量很好,他坐在咖啡店裡,咖啡店裡可能有很多聲音,但我們沒有聽到任何聲音。

Bryan Catanzaro 是的,我們為那個演示感到非常自豪。 我應該,我還應該指出,該演示在今年的 SIGGRAPH 會議上贏得了最佳展示,這是世界上最大的圖形會議。 該模型是一個廣義的視頻合成模型。 我們之前討論過如何拍攝一個人的簡筆劃,然後對其進行動畫處理。 好吧,過去模型的一個限制是您必須針對每種情況訓練一個全新的模型。 因此,假設我在家,我有一個模型。 如果我在不同背景的咖啡店,我需要另一個模特。 或者,如果您想自己執行此操作,則需要在這個地方為自己創建一個模型,為自己創建另一個模型,在另一個地方創建一個模型,每次創建這些模型中的一個時,您都必須在該位置捕獲一個數據集一套衣服或者那些眼鏡什麼的,然後花一個星期在超級計算機上訓練一個模型,那真的很貴,對吧? 所以我們大多數人永遠無法做到這一點。 這將真正限制這項技術的使用方式。

我認為該特定動畫背後的技術創新在於他們提出了一個通用模型,基本上可以與任何人一起使用。 你只需要提供一張你自己的照片,這已經足夠便宜了。 任何人都可以做到這一點,對吧? 如果那天你去一個新的地方,或者你穿著不同的衣服或眼鏡,或者其他什麼,你可以拍照。 然後該模型,因為它是通用的,只需使用那張照片作為參考,就能夠重新合成您的外觀。

我認為這很令人興奮。 現在,在那個視頻的後面,實際上,他們也切換到了語音合成模型。 所以我們在那個片段中聽到的實際上是主角用自己的聲音說話,但後來咖啡店裡的事情變得如此嘈雜,以至於他最終切換到了文字。 所以他只是在打字,而音頻是由我們的一種語音合成模型產生的。

我認為讓人們有機會以新的方式進行交流只會幫助人們更緊密地聯繫在一起。

Brent Leary:對話式人工智能,它將如何改變我們在未來幾年的溝通和協作方式?

Bryan Catanzaro :人類交流的主要方式是通過對話,就像你我現在一樣,但人類很難與計算機進行有意義的對話,原因有很多。 一是感覺不自然,對吧? 就像你在和機器人說話一樣,這是阻礙交流的障礙。 它看起來不像一個人,它的反應不像一個人,顯然現在的計算機,你知道,你和我與之交互的大多數係統都不理解人類可以理解的東西。 因此,在某些方面,對話式 AI 是最終的 AI 挑戰。 其實大家可能對圖靈測試很熟悉,被很多人認為是人工智能之父的艾倫·圖靈(Alan Turing)將對話式人工智能作為人工智能的最終目標。

因為如果你有一台能夠與人類智能交談的機器,那麼你基本上解決了你能想像到的任​​何類型的智力問題,因為人類擁有的任何信息、任何智慧、人類在過去數千年中創造的任何想法歲月已逝,它們都已通過語言表達出來。 所以這意味著語言是一種足夠通用的方式。 這顯然是人類交流複雜想法的唯一方式。 如果我們能夠製造出能夠智能地理解和交流的計算機,而且摩擦力很小,所以實際上感覺就像你在與人互動,那麼我認為我們將能夠解決很多問題.

我認為對話式人工智能將在很長一段時間內繼續成為整個行業的研究焦點。 我認為它與人類的理解和知識一樣深奧。 如果你和我有一個播客,比如說俄羅斯文學,會有很多專業的想法,俄羅斯文學博士學位的人可以比我更好地談論,例如,對嗎? 因此,即使在人類中,我們在不同學科的能力也會有所不同。 這就是為什麼我認為對話式人工智能將成為一個挑戰,在可預見的未來繼續吸引我們,因為理解人類所理解的一切確實是一個挑戰。 我們還沒有接近這樣做。

這是與思想領袖的一對一訪談系列的一部分。 成績單已編輯出版。 如果是音頻或視頻採訪,請點擊上面的嵌入式播放器,或通過 iTunes 或通過 Stitcher 訂閱。