NVIDIAのブライアンカタンツァーロ–ある意味での会話型AIは究極のAIチャレンジです

公開: 2021-10-02

ゲームや本格的なビデオ編集に熱中している多くの人は、NVIDIAを市場をリードするグラフィックス処理テクノロジーの作成者として知っています。 しかし、NVIDIAは人工知能とディープラーニングの分野でもリーダーです。 特に、これらのテクノロジーが、グラフィックス、テキストとビデオの合成、会話型AIの体験をどのように改善できるかについてです。

彼らの作品のいくつかは、I AM AIと呼ばれる一連のビデオで紹介されました。これらのビデオは、私たちが世界をどのように体験するか、そしてお互いを改善するために何が利用できるか(そして何が利用できるか)についての説得力のある見方です。 そして最近、NVIDIAのApplied Deep LearningResearchのバイスプレジデントであるBryanCatanzaroとLinkedInLiveの会話をする機会があり、AIとの連携について詳しく聞いて、視覚と音の体験を再考しました。

以下は、会話の一部を編集したトランスクリプトです。 埋め込まれたSoundCloudプレーヤーをクリックして、完全な会話を聞いてください。

smallbiztrends・NVIDIAのBryan Catanzaro –ある意味で会話型AIは究極のAIチャレンジです

埋め込まれたクリップは会話の組み立てに役立つので、必ず見てください。

ブレント・リーリー:そのビデオのその声は、私には本物の人間のように聞こえました。 あなたはAlexaやSiriのように聞くことに慣れていて、その前は、その前の声については話したくないのですが、それは本当に人間のように聞こえました。屈折とある程度の深さ。 グラフィックスの再発明と音声テクノロジーの再発明、そしてAIやディープラーニングなどの新しいテクノロジーを使用して、グラフィックスの外観を変更するだけでなく、マシンの感触やサウンドを変更してそれを実現することについて話すときに、私たちが注目しているのはそれです。私たちのように聞こえます。

ブライアン・カタンツァーロ:その声は合成されたものの、それも密接に向けられていたことを理解しておく必要があります。 だから、それがプッシュボタン、音声合成システムだったとは言えません。 バーチャルアシスタントと話すときに使うかもしれないように。 代わりに、私たちのアルゴリズムがビデオのプロデューサーが作成できるようにするのは制御可能な声でした。 そして、彼らがそれを行う方法の1つは、ナレーションのビデオの特定の部分に持たせたい語形変化とリズム、およびエネルギーをモデル化することです。 つまり、AIが良くなるという話だけでなく、人間がAIとより緊密に連携して物を作り、このように制御可能な合成音声を作成する能力を持っているという話でもあります。

これにより、エンターテインメントや芸術における音声合成の新しい機会が開かれると思います。 それはエキサイティングだと思いますが、それはあなたとあなたの聴衆が実際に人によって非常に密接に指示されたことを理解する必要があるものです。 もちろん、今では、リズム、抑揚、ピッチなど、そこにいる人間性のすべてを予測できるアルゴリズムに取り組んでいます。 そして、今後数年間でかなり驚くべき進歩が見られると思います。ここでは、完全にプッシュボタンの音声合成システムを使用して、テキストの意味に合わせて適切な語尾変化を実現できます。あなたが話す多くの意味は、あなたが選んだ言葉の意味だけでなく、あなたの声の抑揚を通して伝えられます。

そして、私が以前に言及したこれらの驚くべき言語モデルのいくつかのように、テキストの意味を理解できるモデルがあれば、それらを使用して意味のある方法で音声合成を指示できるはずです。 そして、それは私が非常に興奮していることです。 それは面白い。

私たちにはある種の文化的偏見があると感じています。おそらくそれは米国特有のものでしょう。 よくわかりませんが、コンピューターは人間のように話すことができないという文化的な偏見があります。 そして、おそらくそれはスタートレックから来ているのかもしれません:データが信じられないほどのコンピューティングマシンのようであり、彼はあらゆる問題を解決し、物理学の新しい理論を発明することができましたが、人間ができるのとまったく同じ方法で話すことはできませんでした、または多分それはあなたが知っているにさかのぼります。

ブレント・リーリー:スポック、多分。

ブライアン・カタンツァーロ:それは彼のように不快だった、彼の声は不気味だった、あなたが知っている。 そして、私たちには50年の歴史があり、数世代にわたる文化から、コンピューターは人間のように話すことはできないと言われています。 そして、私は実際にはそうではないと思います。 私たちはコンピューターにもっと人間らしい方法で話させることができると思います、そして私たちはそうします。 また、そのテクノロジーのメリットは、私たち全員にとって非常に大きなものになると思います。

ブレント・リーリー:その中で際立っていたもう一つのことは、そのクリップの中で、彼女の写真が生き生きとしているように見えるアメリア・イアハートでした。 話していただけますか?それはAIを使ったグラフィックの再発明の一部だと思います。

ブライアン・カタンツァーロ:そうだね。 NVIDIA Researchは、基本的に人工知能を使用してビデオを合成し、画像を合成するための多くのテクノロジーに実際に関与してきました。 これはその一例です。ニューラルネットワークが画像に色を付けているのを見たことがあります。これは、過去を見る新しい方法を私たちに与えてくれます。 そして、それについて考えるとき、あなたは知っています、画像の色付けに何が関係しているのか。 AIは、画像に可能な色を割り当てるために画像の内容を理解する必要があります。たとえば、草は通常緑ですが、草がどこにあるかわからない場合は、何も緑に着色しないでください。画像を色付けするための従来のアプローチは、少しリスク回避的だったと思います。 しかし、AIが画像の内容とそこにあるオブジェクト、およびオブジェクトが互いにどのように関連しているかを理解するのが上手になると、AIは、画像に可能な色を割り当てて、画像を生き生きとさせることができます。

これは一例であり、この画像の色付けの問題です。 しかし、そのビデオでは、画像を撮影してさまざまな方法でアニメーション化することができた他のいくつかの例を見たと思います。

視覚的条件付き合成

私たちが本当に興味を持っているテクノロジーの1つは、条件付きビデオ合成と呼ばれるものです。このテクノロジーでは、ある種のスケッチに基づいてビデオを作成できます。このような場合は、次のようにします。オブジェクトの構造を分析する認識に反対します。 たとえば、顔、これが目、ここが鼻で、オブジェクトとサイズにある種の位置を割り当てます。

そしてそれは一種の漫画のようになり、子供は棒人間で描くかもしれません。 そして、それを別のルーチンに送信して、そのスティックフィギュアをアニメートし、人に頭を動かしたり、笑顔にしたり、または特定のテキストに話しかける人をアニメートしたいテキストと話したりしながら、モデルを作成することができます。話している人のように、スティックフィギュアモデルがどのように進化するかを予測します。 そして、人がどのように動くべきかを示す、そのようなアニメーションの棒人間の描画ができたら、それをニューラルネットワークに通して、そこからビデオを合成し、最初の画像から次のようになります。人物や人物の姿、背景などをアニメーション化し、このような棒人間のアニメーションで動画を作成します。

同じスティックフィギュアから作成できるビデオはたくさんあるので、これを条件付きビデオ生成と呼びます。 したがって、私たちがやりたいのは、人が話しているテキストや、作成したいアニメーションなど、ある種の他の情報に基づいて、もっともらしい条件付きのものを選択することです。 そして、条件付きビデオ生成は非常に強力なアイデアであり、時間の経過とともに、グラフィックを生成する新しい方法、グラフィックをレンダリングおよび作成する新しい方法に進化すると思います。

ブレント・リーリー:その人が基本的に言ったビデオの一部でさえ、これを描いて、それが実際に描かれ始めました。


ブライアン・カタンツァーロ:そうです。 ディープラーニングの力は、ある空間から別の空間にマッピングする非常に柔軟な方法であるということです。 そのため、そのビデオでは、その例をたくさん見ています。 これは別の例ですが、AIテクノロジーの観点からは、これらはすべて類似しています。これは、XからYへのマッピングを学習しようとしているためです。この場合は、シーンのテキスト説明からスティックフィギュアへのマッピングを学ぶために、そのシーンの漫画。 山の木々に囲まれた湖と言ったとしましょう。 山が背景にあり、特定の形をしていることをモデルに理解してもらいたい。

そして、木々が前景になり、真ん中になります。通常、大きな湖があります。 自然の風景の1000または100万の画像に基づいてモデルをトレーニングすることは可能であり、これらの画像の内容を示す注釈がありますか? 次に、モデルをトレーニングして別の方向に進み、テキストが与えられた場合、シーンがどのように見えるかを示す一種の棒人間の漫画を作成できますか? 山はどこへ行くの? 木はどこに行きますか? 水はどこに行きますか? そして、そのスティックフィギュアを手に入れたら、それをモデルに送って、それを画像に仕上げることができます。 そして、それはあなたがそのビデオで見たものです。

デジタルアバターとズームコール

近い将来、Zoomの通話をより良いものにするために、このテクノロジーがどのように使用されるかについてのこの短いビデオをご覧ください。 このシナリオでは、Zoomコールを介して仕事のためにインタビューを受けている男性がいます。

ブレント・リーリー:それについてクールだったのは、最後に、彼の画像は彼の1枚の写真から生成されたと言ったということです。 そしてそれは彼の声でした。 画面上で口の動きを見ることができます。 音質は素晴らしく、彼は喫茶店に座っていて、喫茶店ではたくさんの音が聞こえる可能性がありますが、その音はまったく聞こえませんでした。

ブライアン・カタンツァーロええ、そうですね、私たちはそのデモを本当に誇りに思っていました。 また、このデモは、世界最大のグラフィックス会議である今年のSIGGRAPH会議で最高の成績を収めたことにも注意する必要があります。 そのモデルは、一般化されたビデオ合成モデルでした。 先ほど、人の棒人間表現のようなものをアニメーション化する方法について話していました。 さて、これまでのモデルの制限の1つは、あらゆる状況でまったく新しいモデルをトレーニングする必要があったことです。 それで、私が家にいる場合、私は1つのモデルを持っているとしましょう。 別のバックグラウンドのコーヒーショップにいる場合は、別のモデルが必要です。 または、これを自分で行いたい場合は、この場所に自分用のモデル、自分用に別のモデル、別の場所が必要になります。これらのモデルの1つを作成するたびに、その場所にあるデータセットをキャプチャする必要があります。服や眼鏡などをセットしてから、スーパーコンピューターでモデルのトレーニングに1週間費やしますが、それは本当に高額ですよね? ですから、私たちのほとんどはそれを行うことができませんでした。 それは本当にこの技術が使われることができる方法を制限するでしょう。

その特定のアニメーションの背後にある技術革新は、基本的に誰でも使用できる一般化されたモデルを考案したことだと思います。 自分の写真を1枚提供するだけで十分です。 誰でもできますよね? そして、新しい場所に行ったり、別の服や眼鏡をかけている場合など、その日は写真を撮ることができます。 そして、モデルは一般的であるため、その1枚の写真を参照として使用するだけで外観を再合成できます。

とてもエキサイティングだと思います。 後でそのビデオで、実際には、彼らは音声合成モデルにも切り替えました。 そのクリップで聞いたのは、実際には主人公が自分の声で話していることでしたが、後で喫茶店の物事が騒がしくなり、結局テキストに切り替えてしまいます。 そして、彼はタイピングしているだけで、音声は私たちの音声合成モデルの1つによって生成されています。

人々に新しい方法でコミュニケーションする機会を与えることは、人々をより近づけるのに役立つだけだと思います。

ブレント・リーリー:会話型AI、これからのコミュニケーションとコラボレーションの方法はどのように変わるのでしょうか?

ブライアン・カタンツァーロ:人間がコミュニケーションをとる主な方法は、あなたと私が今しているのと同じように会話をすることですが、さまざまな理由から、人間がコンピューターと有意義な会話をすることは非常に困難です。 一つは、自然に感じられないということですよね? ロボットと話しているように聞こえるかのように、それはコミュニケーションを妨げる障壁です。 それは人のようには見えません。人のように反応せず、明らかに最近のコンピューターです。あなたと私が対話したほとんどのシステムは、人間が理解できることを理解していません。 したがって、会話型AIは、ある意味で究極のAIの課題です。 実際、あなたはチューリングテストに精通しているかもしれません。彼は多くの人から人工知能の父と見なされています。彼は会話型AIを人工知能の最終目標として設定しました。

なぜなら、人間とインテリジェントに会話できるマシンを持っている場合、人間が持っている情報、知恵、人間が過去数千年にわたって作成したアイデアなど、想像できるあらゆる種類の知能の質問を基本的に解決したからです。何年も経ちましたが、それらはすべて言語で表現されてきました。 つまり、言語は一般的な方法であるということです。 複雑なアイデアを伝えるのは、明らかに人間にとって唯一の方法です。 そして、インテリジェントに理解し、コミュニケーションをとることができ、摩擦が少ないコンピューターを作ることができれば、実際に人と対話しているように感じることができれば、多くの問題を解決できると思います。

会話型AIは、これからも業界全体の研究の焦点であり続けると思います。 それは人間の理解と知識のすべてと同じくらい深い主題だと思います。 あなたと私がポッドキャストを持っていたとしたら、たとえばロシア文学について言えば、ロシア文学の博士号を持っている人が私よりも上手に話すことができるという専門的なアイデアがたくさんあるでしょう。 ですから、人間の間でさえ、さまざまな主題における私たちの能力は異なります。 だからこそ、会話型AIは、人間が理解していることすべてを理解することが本当に課題であるため、当面の間、私たちを引き付け続ける課題になると思います。 そして、私たちはそれを行うことに近づいていません。

これは、ソートリーダーとの1対1のインタビューシリーズの一部です。 トランスクリプトは公開用に編集されています。 オーディオまたはビデオのインタビューの場合は、上の埋め込みプレーヤーをクリックするか、iTunesまたはStitcherを介してサブスクライブします。