NVIDIA 的 Bryan Catanzaro – 對話式 AI 在某些方面是終極 AI 挑戰
已發表: 2021-10-02許多從事遊戲或嚴肅視頻編輯的人都知道 NVIDIA 是市場上領先的圖形處理技術的創造者。 但英偉達在人工智能和深度學習領域也處於領先地位; 特別是這些技術如何改善我們體驗圖形、文本和視頻合成以及對話式人工智能的方式。
他們的一些工作在他們製作的一系列名為“我是人工智能”的視頻中得到了展示,這些視頻令人信服地展示了我們可以使用什麼(以及將會有什麼)來改善我們體驗世界的方式——以及彼此之間的體驗。 最近,我有機會與 NVIDIA 應用深度學習研究副總裁Bryan Catanzaro 進行了一次 LinkedIn Live 對話,了解更多關於他們與 AI 合作的信息,以重新構想我們體驗視覺和聽覺的方式。
以下是我們部分對話的編輯記錄。 單擊嵌入式 SoundCloud 播放器以收聽完整的對話。
確保觀看嵌入的剪輯,因為它們有助於構建我們的對話。
Brent Leary :那個視頻中的聲音對我來說聽起來像是一個真實的人。 你已經習慣了像 Alexa 和 Siri 這樣的聲音,在此之前它就像,你知道,我們甚至不想談論在那之前的聲音,但那個聲音聽起來真的像一個人,和人拐點和一些深度。 當您談論重新發明圖形和重新發明語音技術以及使用更新的技術(包括人工智能和深度學習)不僅改變圖形的外觀,而且改變機器的感覺和聲音來製造它時,這就是我們正在研究的東西嗎?聽起來更像我們中的一員。
Bryan Catanzaro :我應該確保你明白,雖然那個聲音是合成的,但它也是經過嚴格指導的。 所以我不會說那是一個按鈕,語音合成系統。 就像您與虛擬助手交談時可能會使用的那樣。 相反,它是我們的算法允許視頻製作者創建的可控聲音。 他們這樣做的方法之一是模擬他們希望旁白視頻的特定部分具有的變化、節奏和能量。 所以,所以我想說這不僅僅是一個關於人工智能變得更好的故事,它也是一個關於人類如何與人工智能更緊密地合作來構建事物的故事,並且有能力以這種方式製造出可控的合成聲音。
我認為這為娛樂和藝術領域的語音合成開闢了新的機會,我認為。 我認為這很令人興奮,但你和你的觀眾應該明白這件事實際上是由一個人非常密切地指導的。 現在,當然,我們正在努力研究能夠預測那裡所有人性的算法,節奏、變化、音高。 而且我認為在接下來的幾年裡,我們將看到一些非常驚人的進步,我們可以擁有一個完全按下按鈕的語音合成系統,它可以根據文本的含義進行正確的變化,因為當你說的很多意思是通過你聲音的變化來傳達的,而不僅僅是你選擇的單詞的意思。
而且,如果我們有能夠理解文本含義的模型,比如我之前提到的一些令人驚嘆的語言模型,我們應該能夠使用它們以有意義的方式指導語音合成。 這是我非常興奮的事情。 這真有趣。
我覺得我們有一種文化偏見,也許是美國特有的。 我不確定,但我們有一種文化偏見,即計算機無法像人類一樣說話。 也許它在某種程度上來自《星際迷航:下一代》,其中數據就像一台令人難以置信的計算機,他可以解決任何問題並發明新的物理學理論,但他永遠無法像人類那樣說話,或者也許它可以追溯到,你知道的。
Brent Leary :Spock,也許吧。
Bryan Catanzaro:就像他的那樣令人反感,他的聲音令人毛骨悚然,你知道的。 所以我們有 50 年,幾代人的文化告訴我們,計算機不能像人類一樣說話。 我實際上只是認為情況並非如此。 我認為我們可以讓計算機以更像人類的方式說話,而且,我們會的。 而且我還認為,這項技術的好處對我們所有人來說都是非常好的。
Brent Leary:在那個剪輯中,另一件突出的事情是 Amelia Earhart,她的照片似乎變得栩栩如生。 你能談談嗎,我猜這是使用人工智能重塑圖形的一部分。
布萊恩·卡坦扎羅:是的,沒錯。 NVIDIA Research 已經真正參與了很多技術,基本上可以使用人工智能合成視頻和合成圖像。 這就是一個例子,你看到神經網絡正在為圖像著色,這為我們提供了看待過去的新方式。 當您考慮到這一點時,您就會知道為圖像著色所涉及的內容。 AI 需要了解圖像的內容以便為它們分配可能的顏色,例如,草通常是綠色的,但如果你不知道草在哪裡,那麼你不應該將任何顏色塗成綠色並且我會說傳統的圖像著色方法有點規避風險。 但隨著人工智能更好地理解圖像的內容以及那裡有哪些對像以及對象之間的關係,它可以更好地為圖像分配可能的顏色,從而使其栩栩如生。
這是一個例子,這個圖像著色問題。 但我認為在那個視頻中,我們看到了其他幾個例子,我們能夠拍攝圖像,然後以各種方式對其進行動畫處理。
視覺條件合成
我們真正感興趣的技術之一是,稱為條件視頻合成,您可以在其中創建基於某種草圖的視頻,並且,您知道,對於這樣的事情,您會做的是反對分析物體結構的識別。 例如,一張臉,這裡是眼睛,這裡是鼻子,然後為對象分配位置和大小。
這變得有點像卡通片,孩子可能會用簡筆劃畫。 然後你要做的就是把它發送到另一個例程中,讓那個簡筆劃動畫,讓這個人移動他們的頭或微笑,或者,或者與我們想要動畫一個人對特定文本說話的文本交談,同時我們可以製作一個模型,預測他們的人物模型將如何演變為說話的人。 然後,一旦我們有了那種動畫棒圖,它顯示了人應該如何移動,然後我們將它通過一個神經網絡合成一個視頻,然後從最初的圖像開始,人物和人物的外觀,背景等等,然後通過這種簡筆劃動畫來製作視頻。
我們稱之為條件視頻生成,因為您可以從同一個簡筆劃製作許多不同的視頻。 所以我們想要做的是選擇一個看似合理的條件,基於某種其他信息,比如這個人正在說話的文本,或者我們想要創建的某種動畫。 條件視頻生成是一個非常強大的想法,我認為隨著時間的推移,它會演變成一種生成圖形的新方式,一種渲染和創建圖形的新方式。
Brent Leary:甚至有一段視頻,那個人基本上說,畫這個,它實際上開始被畫了。
