NVIDIAのブライアンカタンツァーロ–ある意味での会話型AIは究極のAIチャレンジです
公開: 2021-10-02ゲームや本格的なビデオ編集に熱中している多くの人は、NVIDIAを市場をリードするグラフィックス処理テクノロジーの作成者として知っています。 しかし、NVIDIAは人工知能とディープラーニングの分野でもリーダーです。 特に、これらのテクノロジーが、グラフィックス、テキストとビデオの合成、会話型AIの体験をどのように改善できるかについてです。
彼らの作品のいくつかは、I AM AIと呼ばれる一連のビデオで紹介されました。これらのビデオは、私たちが世界をどのように体験するか、そしてお互いを改善するために何が利用できるか(そして何が利用できるか)についての説得力のある見方です。 そして最近、NVIDIAのApplied Deep LearningResearchのバイスプレジデントであるBryanCatanzaroとLinkedInLiveの会話をする機会があり、AIとの連携について詳しく聞いて、視覚と音の体験を再考しました。
以下は、会話の一部を編集したトランスクリプトです。 埋め込まれたSoundCloudプレーヤーをクリックして、完全な会話を聞いてください。
埋め込まれたクリップは会話の組み立てに役立つので、必ず見てください。
ブレント・リーリー:そのビデオのその声は、私には本物の人間のように聞こえました。 あなたはAlexaやSiriのように聞くことに慣れていて、その前は、その前の声については話したくないのですが、それは本当に人間のように聞こえました。屈折とある程度の深さ。 グラフィックスの再発明と音声テクノロジーの再発明、そしてAIやディープラーニングなどの新しいテクノロジーを使用して、グラフィックスの外観を変更するだけでなく、マシンの感触やサウンドを変更してそれを実現することについて話すときに、私たちが注目しているのはそれです。私たちのように聞こえます。
ブライアン・カタンツァーロ:その声は合成されたものの、それも密接に向けられていたことを理解しておく必要があります。 だから、それがプッシュボタン、音声合成システムだったとは言えません。 バーチャルアシスタントと話すときに使うかもしれないように。 代わりに、私たちのアルゴリズムがビデオのプロデューサーが作成できるようにするのは制御可能な声でした。 そして、彼らがそれを行う方法の1つは、ナレーションのビデオの特定の部分に持たせたい語形変化とリズム、およびエネルギーをモデル化することです。 つまり、AIが良くなるという話だけでなく、人間がAIとより緊密に連携して物を作り、このように制御可能な合成音声を作成する能力を持っているという話でもあります。
これにより、エンターテインメントや芸術における音声合成の新しい機会が開かれると思います。 それはエキサイティングだと思いますが、それはあなたとあなたの聴衆が実際に人によって非常に密接に指示されたことを理解する必要があるものです。 もちろん、今では、リズム、抑揚、ピッチなど、そこにいる人間性のすべてを予測できるアルゴリズムに取り組んでいます。 そして、今後数年間でかなり驚くべき進歩が見られると思います。ここでは、完全にプッシュボタンの音声合成システムを使用して、テキストの意味に合わせて適切な語尾変化を実現できます。あなたが話す多くの意味は、あなたが選んだ言葉の意味だけでなく、あなたの声の抑揚を通して伝えられます。
そして、私が以前に言及したこれらの驚くべき言語モデルのいくつかのように、テキストの意味を理解できるモデルがあれば、それらを使用して意味のある方法で音声合成を指示できるはずです。 そして、それは私が非常に興奮していることです。 それは面白い。
私たちにはある種の文化的偏見があると感じています。おそらくそれは米国特有のものでしょう。 よくわかりませんが、コンピューターは人間のように話すことができないという文化的な偏見があります。 そして、おそらくそれはスタートレックから来ているのかもしれません:データが信じられないほどのコンピューティングマシンのようであり、彼はあらゆる問題を解決し、物理学の新しい理論を発明することができましたが、人間ができるのとまったく同じ方法で話すことはできませんでした、または多分それはあなたが知っているにさかのぼります。
ブレント・リーリー:スポック、多分。
ブライアン・カタンツァーロ:それは彼のように不快だった、彼の声は不気味だった、あなたが知っている。 そして、私たちには50年の歴史があり、数世代にわたる文化から、コンピューターは人間のように話すことはできないと言われています。 そして、私は実際にはそうではないと思います。 私たちはコンピューターにもっと人間らしい方法で話させることができると思います、そして私たちはそうします。 また、そのテクノロジーのメリットは、私たち全員にとって非常に大きなものになると思います。
ブレント・リーリー:その中で際立っていたもう一つのことは、そのクリップの中で、彼女の写真が生き生きとしているように見えるアメリア・イアハートでした。 話していただけますか?それはAIを使ったグラフィックの再発明の一部だと思います。
ブライアン・カタンツァーロ:そうだね。 NVIDIA Researchは、基本的に人工知能を使用してビデオを合成し、画像を合成するための多くのテクノロジーに実際に関与してきました。 これはその一例です。ニューラルネットワークが画像に色を付けているのを見たことがあります。これは、過去を見る新しい方法を私たちに与えてくれます。 そして、それについて考えるとき、あなたは知っています、画像の色付けに何が関係しているのか。 AIは、画像に可能な色を割り当てるために画像の内容を理解する必要があります。たとえば、草は通常緑ですが、草がどこにあるかわからない場合は、何も緑に着色しないでください。画像を色付けするための従来のアプローチは、少しリスク回避的だったと思います。 しかし、AIが画像の内容とそこにあるオブジェクト、およびオブジェクトが互いにどのように関連しているかを理解するのが上手になると、AIは、画像に可能な色を割り当てて、画像を生き生きとさせることができます。
これは一例であり、この画像の色付けの問題です。 しかし、そのビデオでは、画像を撮影してさまざまな方法でアニメーション化することができた他のいくつかの例を見たと思います。
視覚的条件付き合成
私たちが本当に興味を持っているテクノロジーの1つは、条件付きビデオ合成と呼ばれるものです。このテクノロジーでは、ある種のスケッチに基づいてビデオを作成できます。このような場合は、次のようにします。オブジェクトの構造を分析する認識に反対します。 たとえば、顔、これが目、ここが鼻で、オブジェクトとサイズにある種の位置を割り当てます。
そしてそれは一種の漫画のようになり、子供は棒人間で描くかもしれません。 そして、それを別のルーチンに送信して、そのスティックフィギュアをアニメートし、人に頭を動かしたり、笑顔にしたり、または特定のテキストに話しかける人をアニメートしたいテキストと話したりしながら、モデルを作成することができます。話している人のように、スティックフィギュアモデルがどのように進化するかを予測します。 そして、人がどのように動くべきかを示す、そのようなアニメーションの棒人間の描画ができたら、それをニューラルネットワークに通して、そこからビデオを合成し、最初の画像から次のようになります。人物や人物の姿、背景などをアニメーション化し、このような棒人間のアニメーションで動画を作成します。
同じスティックフィギュアから作成できるビデオはたくさんあるので、これを条件付きビデオ生成と呼びます。 したがって、私たちがやりたいのは、人が話しているテキストや、作成したいアニメーションなど、ある種の他の情報に基づいて、もっともらしい条件付きのものを選択することです。 そして、条件付きビデオ生成は非常に強力なアイデアであり、時間の経過とともに、グラフィックを生成する新しい方法、グラフィックをレンダリングおよび作成する新しい方法に進化すると思います。
ブレント・リーリー:その人が基本的に言ったビデオの一部でさえ、これを描いて、それが実際に描かれ始めました。
