Bryan Catanzaro von NVIDIA – Conversational AI in Some Ways ist die ultimative KI-Herausforderung

Veröffentlicht: 2021-10-02

Viele von Ihnen, die sich für Spiele oder ernsthafte Videobearbeitung interessieren, kennen NVIDIA als Schöpfer der führenden Grafikverarbeitungstechnologie auf dem Markt. Aber NVIDIA ist auch führend in den Bereichen künstliche Intelligenz und Deep Learning; insbesondere, wie diese Technologien verbessern können, wie wir Grafik, Text- und Videosynthese und Konversations-KI erleben.

Einige ihrer Arbeiten wurden in einer Reihe von Videos mit dem Titel I AM AI gezeigt, die einen überzeugenden Blick darauf werfen, was uns zur Verfügung steht (und was sein wird), um die Art und Weise zu verbessern, wie wir die Welt – und einander – erleben. Und kürzlich hatte ich die Gelegenheit, ein LinkedIn Live-Gespräch mit Bryan Catanzaro , Vice President, Applied Deep Learning Research bei NVIDIA, zu führen, um mehr über ihre Arbeit mit KI zu erfahren, um neu zu erfinden, wie wir Bilder und Geräusche wahrnehmen.

Nachfolgend finden Sie eine bearbeitete Abschrift eines Teils unseres Gesprächs. Klicken Sie auf den eingebetteten SoundCloud-Player, um das vollständige Gespräch zu hören.

smallbiztrends · Bryan Catanzaro von NVIDIA – Conversational AI ist in gewisser Weise die ultimative KI-Herausforderung

Sehen Sie sich unbedingt die eingebetteten Clips an, da sie dabei helfen, unser Gespräch zu gestalten.

Brent Leary : Diese Stimme in diesem Video klang für mich wie ein echter Mensch. Du bist daran gewöhnt, wie Alexa und Siri zu hören, und davor war es so, weißt du, wir wollten vorher nicht über die Stimmen sprechen, aber diese klang wirklich wie ein menschliches Wesen mit, mit einem Menschen Flexion und etwas Tiefe. Ist das die Sache, die wir betrachten, wenn Sie über die Neuerfindung von Grafiken und die Neuerfindung von Sprachtechnologie und die Verwendung neuerer Technologien, einschließlich KI und Deep Learning, sprechen, um nicht nur das Aussehen von Grafiken zu ändern, sondern auch das Gefühl und den Klang einer Maschine, um sie zu erstellen? klingt eher wie einer von uns.

Bryan Catanzaro : Ich sollte sicherstellen, dass Sie verstehen, dass diese Stimme zwar synthetisiert, aber auch genau geleitet wurde. Ich würde also nicht sagen, dass das ein Druckknopf-Sprachsynthesesystem war. Wie Sie es vielleicht verwenden, wenn Sie mit einem virtuellen Assistenten sprechen. Stattdessen war es eine steuerbare Stimme, die unsere Algorithmen den Produzenten des Videos ermöglichen zu erstellen. Und eine Möglichkeit, dies zu tun, besteht darin, den Tonfall, den Rhythmus und die Energie zu modellieren, die ein bestimmter Teil des Videos der Erzählung haben soll. Ich würde also sagen, es ist nicht nur eine Geschichte darüber, wie KI besser wird, sondern es ist auch eine Geschichte darüber, wie Menschen enger mit KI zusammenarbeiten, um Dinge zu bauen, und dass sie die Fähigkeit haben, synthetische Stimmen zu erzeugen, die auf diese Weise kontrollierbar sind.

Ich denke, das eröffnet meiner Meinung nach neue Möglichkeiten für die Sprachsynthese in der Unterhaltung und in der Kunst. Ich finde das aufregend, aber Sie und Ihr Publikum sollten verstehen, dass es tatsächlich sehr genau von einer Person geleitet wurde. Jetzt arbeiten wir natürlich hart an Algorithmen, die in der Lage sind, all diese Menschlichkeit dort vorherzusagen, den Rhythmus, die Tonlage, die Tonhöhe. Und ich denke, dass wir in den nächsten Jahren einige ziemlich erstaunliche Fortschritte darin sehen werden, wo wir ein vollständig auf Knopfdruck bedienbares Sprachsynthesesystem haben können, das den richtigen Tonfall hat, um der Bedeutung des Textes zu entsprechen, denn wann Sie sprechen viel von der Bedeutung, die durch den Tonfall Ihrer Stimme vermittelt wird, nicht nur die Bedeutung der Worte, die Sie wählen.

Und wenn wir Modelle haben, die in der Lage sind, die Bedeutung von Texten zu verstehen, wie einige dieser erstaunlichen Sprachmodelle, auf die ich mich zuvor bezogen habe, sollten wir in der Lage sein, diese zu verwenden, um die Sprachsynthese auf eine Weise zu steuern, die Bedeutung hat. Und das ist etwas, worauf ich mich sehr freue. es ist interessant.

Ich habe das Gefühl, dass wir eine Art kulturelle Voreingenommenheit haben, vielleicht ist es spezifisch für die Vereinigten Staaten. Ich bin mir nicht sicher, aber wir haben diese kulturelle Voreingenommenheit, dass Computer nicht auf menschenähnliche Weise sprechen können. Und vielleicht kommt es etwas von Star Trek: The Next Generation, wo Data wie eine unglaubliche Rechenmaschine war, und er konnte jedes Problem lösen und neue Theorien der Physik erfinden, aber er konnte nie so sprechen, wie ein Mensch es könnte, oder vielleicht geht es darauf zurück, weißt du.

Brent Leary : Vielleicht Spock.

Bryan Catanzaro: Es war abstoßend wie seine, seine Stimme, als wäre es gruselig, wissen Sie. Und so haben wir 50 Jahre, mehrere Kulturgenerationen, die uns sagen, dass ein Computer nicht auf menschenähnliche Weise sprechen kann. Und ich denke eigentlich nur, dass das nicht der Fall ist. Ich denke, wir können einen Computer dazu bringen, menschlicher zu sprechen, und, und das werden wir. Und ich denke auch, dass die Vorteile dieser Technologie für uns alle ziemlich groß sein werden.

Brent Leary: Die andere Sache, die in diesem Clip auffiel, war die Amelia Earhart, deren Bild zum Leben erweckt zu werden schien. Können Sie darüber sprechen, ich schätze, das ist Teil der Neuerfindung von Grafiken mithilfe von KI.

Bryan Catanzaro : Ja, das stimmt. NVIDIA Research war wirklich an vielen Technologien beteiligt, um Videos und Bilder mit künstlicher Intelligenz zu synthetisieren. Und das ist ein Beispiel, Sie haben eines gesehen, bei dem das neuronale Netzwerk ein Bild koloriert hat, was uns gewissermaßen neue Sichtweisen auf die Vergangenheit gab. Und wenn Sie darüber nachdenken, wissen Sie, was es mit dem Kolorieren eines Bildes auf sich hat. Die KI muss den Inhalt des Bildes verstehen, um ihm mögliche Farben zuzuordnen, wie zum Beispiel Gras ist normalerweise grün, aber wenn Sie nicht wissen, wo das Gras ist, dann sollten Sie nichts grün einfärben Traditionelle Ansätze zum Kolorieren von Bildern waren, würde ich sagen, ein wenig risikoscheu. Aber je besser die KI den Inhalt eines Bildes versteht und welche Objekte vorhanden sind und wie die Objekte zueinander in Beziehung stehen, desto besser kann sie dem Bild mögliche Farben zuweisen, die es irgendwie zum Leben erwecken.

Das ist ein Beispiel, dieses Bildkolorierungsproblem. Aber ich denke, in diesem Video haben wir mehrere andere Beispiele gesehen, bei denen wir Bilder aufnehmen und sie dann auf verschiedene Weise animieren konnten.

Visuelle bedingte Synthese

Eine der Technologien, an der wir wirklich interessiert sind, heißt bedingte Videosynthese, bei der Sie ein Video auf der Grundlage einer Art Skizze erstellen können, und für so etwas würden Sie Folgendes tun gegen eine Erkennung, die die Struktur von Objekten analysiert. Zum Beispiel ein Gesicht, und hier sind die Augen und hier ist die Nase, und dann weist er dem Objekt Positionen und Größen zu.

Und das wird irgendwie karikaturartig, ein Kind könnte mit einem Strichmännchen zeichnen. Und dann schicken Sie das in eine andere Routine, die diese Strichmännchen animiert und die Person dazu bringt, ihren Kopf zu bewegen oder zu lächeln oder mit Texten zu sprechen, die wir animieren möchten, dass eine Person zu einem bestimmten Text spricht, während wir ein Modell dafür erstellen können sagt voraus, wie sich ihr Strichmännchenmodell entwickeln wird, als die Person, die spricht. Und wenn wir dann diese Art von animierter Strichmännchenzeichnung haben, die zeigt, wie sich die Person bewegen sollte, dann schicken wir sie durch ein neuronales Netzwerk, das daraus ein Video synthetisiert und, und geht irgendwie von dem ursprünglichen Bild aus, das so etwas hat, das Aussehen der Person und des Hintergrunds und so weiter, und animiert es dann über diese Art von Strichmännchen-Animation, um das Video zu erstellen.

Und wir nennen das bedingte Videogenerierung, weil es viele verschiedene Videos gibt, die Sie mit demselben Strichmännchen produzieren könnten. Wir möchten also eine auswählen, die plausibel erscheint, abhängig von irgendeiner anderen Information, wie vielleicht dem Text, den die Person spricht, oder vielleicht einer Art von Animation, die wir erstellen wollen. Und die bedingte Videogenerierung ist eine sehr mächtige Idee, und ich denke, dass sie sich im Laufe der Zeit zu einer neuen Art der Grafikgenerierung, einer neuen Art des Renderns und Erstellens von Grafiken entwickeln wird.

Brent Leary: Es gibt sogar einen Teil dieses Videos, in dem die Person im Grunde gesagt hat, zeichne das, und es wurde tatsächlich gezeichnet.


Bryan Catanzaro: Richtig. Die Stärke von Deep Learning besteht darin, dass es eine sehr flexible Möglichkeit ist, von einem Raum zum anderen zu kartieren. Und so sehen wir in diesem Video viele Beispiele dafür. Und dies ist ein weiteres Beispiel, aber aus Sicht der KI-Technologie sind sie alle ähnlich, weil wir versuchen, eine Zuordnung zu lernen, die von X nach Y geht. Und in diesem Fall versuchen wir es um eine Zuordnung zu lernen, die von einer Textbeschreibung der Szene zu einem Strichmännchen einer Karikatur dieser Szene führt. Nehmen wir an, ich sagte einen See, der von Bäumen in den Bergen umgeben ist. Ich möchte, dass das Modell versteht, dass Berge in den Hintergrund treten und eine bestimmte Form haben.

Und dann kommen die Bäume in den Vordergrund und dann genau in die Mitte, normalerweise gibt es einen großen See. Es ist möglich, ein Modell auf der Grundlage von beispielsweise tausend oder einer Million Bildern von Naturlandschaften zu trainieren, und Sie haben Anmerkungen, die zeigen, was der Inhalt dieser Bilder ist. Dann können Sie dem Modell beibringen, in die andere Richtung zu gehen, und sagen, können Sie angesichts des Textes eine Art Strichmännchen-Cartoon erstellen, wie die Szene aussehen sollte? Wohin gehen die Berge? Wo gehen die Bäume hin? Wo geht das Wasser hin? Und sobald Sie dieses Strichmännchen haben, können Sie es in ein Modell schicken, das daraus ein Bild macht. Und das haben Sie in diesem Video gesehen.

Digitale Avatare und Zoom-Aufrufe

Sehen Sie sich dieses kurze Video an, wie diese Technologie verwendet wird, um Zoom-Anrufe in naher Zukunft zu einem viel besseren Erlebnis zu machen. In diesem Szenario wird ein Mann über einen Zoom-Anruf für einen Job interviewt.

Brent Leary: Das Coole daran war, dass er am Ende sagte, dass das Bild von ihm aus einem Foto von ihm generiert wurde; und es war seine Stimme. Sie konnten, auf dem Bildschirm konnten Sie die Bewegung des Mundes sehen. Die Audioqualität ist großartig, und er sitzt in einem Café, in dem es viele Geräusche geben könnte, aber wir haben nichts davon gehört.

Bryan Catanzaro : Ja, nun, wir waren wirklich stolz auf diese Demo. Ich sollte, ich sollte auch anmerken, dass diese Demo dieses Jahr auf der SIGGRAPH-Konferenz, der größten Grafikkonferenz der Welt, als Best in Show ausgezeichnet wurde. Dieses Modell war ein verallgemeinertes Videosynthesemodell. Wir haben vorhin darüber gesprochen, wie man eine Art Strichmännchendarstellung einer Person nehmen und sie dann animieren kann. Nun, eine der Einschränkungen von Modellen in der Vergangenheit war, dass Sie für jede Situation ein völlig neues Modell trainieren mussten. Nehmen wir also an, wenn ich zu Hause bin, habe ich ein Modell. Wenn ich mit einem anderen Hintergrund im Café bin, brauche ich ein anderes Modell. Oder wenn Sie dies selbst tun möchten, benötigen Sie ein Modell für sich selbst an diesem Ort, ein weiteres Modell für sich selbst an einem anderen Ort. Jedes Mal, wenn Sie eines dieser Modelle erstellen, müssen Sie an diesem Ort einen Datensatz mit vielleicht dem erfassen Klamotten oder diese Brille auf oder was auch immer, und dann eine Woche an einem Supercomputer verbringen, um ein Model zu trainieren, und das ist wirklich teuer, oder? Die meisten von uns könnten das also niemals tun. Das würde die Art und Weise, wie diese Technologie verwendet werden könnte, wirklich einschränken.

Ich denke, die technische Innovation hinter dieser speziellen Animation bestand darin, dass sie ein verallgemeinertes Modell entwickelt haben, das mit praktisch jedem funktionieren kann. Sie müssen nur ein Bild von sich zur Verfügung stellen, was billig genug ist. Das kann doch jeder, oder? Und wenn du an einen neuen Ort gehst oder an diesem Tag andere Kleidung oder Brille oder was auch immer trägst, kannst du einfach ein Foto machen. Und dann ist das Modell, weil es allgemein ist, in der Lage, Ihr Aussehen neu zu synthetisieren, indem es nur dieses eine Foto als Referenz verwendet.

Das finde ich ziemlich spannend. Später in diesem Video wechselten sie tatsächlich auch zu einem Sprachsynthesemodell. Was wir in diesem Clip also gehört haben, war eigentlich die Hauptfigur, die mit ihrer eigenen Stimme sprach, aber später wird es im Café so laut, dass er schließlich auf Text umschaltet. Er tippt also nur und der Ton wird von einem unserer Sprachsynthesemodelle erzeugt.

Ich denke, Menschen die Möglichkeit zu geben, auf neue Weise zu kommunizieren, trägt nur dazu bei, Menschen näher zusammenzubringen.

Brent Leary: Conversational AI, wie wird das unsere Kommunikation und Zusammenarbeit in den kommenden Jahren verändern?

Bryan Catanzaro : Die primäre Art und Weise, wie Menschen kommunizieren, ist durch Konversation, so wie Sie und ich es gerade führen, aber es ist für Menschen aus einer Reihe von Gründen sehr schwierig, eine sinnvolle Konversation mit dem Computer zu führen. Einer ist, dass es sich nicht natürlich anfühlt, oder? Wenn es so klingt, als würden Sie mit einem Roboter sprechen, ist das eine Barriere, die die Kommunikation hemmt. Es sieht nicht aus wie eine Person, es reagiert nicht wie eine Person und offensichtlich heutzutage Computer, wissen Sie, die meisten Systeme, mit denen Sie und ich interagiert haben, verstehen nicht, was Menschen verstehen können. Und so ist Konversations-KI in gewisser Weise die ultimative KI-Herausforderung. Tatsächlich kennen Sie vielleicht den Turing-Test, Alan Turing, der von vielen als der Vater der künstlichen Intelligenz angesehen wird – er hat die Konversations-KI als Endziel der künstlichen Intelligenz festgelegt.

Denn wenn Sie eine Maschine haben, die in der Lage ist, sich intelligent mit einem Menschen zu unterhalten, dann haben Sie im Grunde jede Art von Intelligenzfrage gelöst, die Sie sich vorstellen können, denn jede Information, die Menschen haben, jede Weisheit, jede Idee, die Menschen in den letzten Tausenden geschaffen haben Jahre hat alles, sie wurden alle durch Sprache ausgedrückt. Das bedeutet also, dass die Sprache ein ausreichend allgemeiner Weg ist. Es ist offensichtlich die einzige Möglichkeit für Menschen, komplizierte Ideen zu kommunizieren. Und wenn wir in der Lage sind, Computer zu bauen, die in der Lage sind, intelligent und mit geringer Reibung zu verstehen und zu kommunizieren, sodass es sich tatsächlich so anfühlt, als ob Sie mit der Person interagieren, dann werden wir meiner Meinung nach viele Probleme lösen können .

Ich denke, dass Conversational AI noch lange im Fokus der Forschung der gesamten Branche stehen wird. Ich denke, es ist ein ebenso tiefgreifendes Thema wie alles menschliche Verständnis und Wissen. Wenn Sie und ich einen Podcast über, sagen wir, russische Literatur hätten, gäbe es viele Fachideen, über die jemand mit einem Doktortitel in russischer Literatur besser sprechen könnte als ich, oder? Sogar unter Menschen werden unsere Fähigkeiten in verschiedenen Fächern unterschiedlich sein. Und deshalb denke ich, dass Konversations-KI eine Herausforderung sein wird, die uns auf absehbare Zeit beschäftigen wird, denn es ist wirklich eine Herausforderung, alles zu verstehen, was Menschen verstehen. Und wir sind nicht in der Nähe davon.

Dies ist Teil der One-on-One-Interview-Reihe mit Vordenkern. Das Transkript wurde für die Veröffentlichung bearbeitet. Wenn es sich um ein Audio- oder Videointerview handelt, klicken Sie oben auf den eingebetteten Player oder abonnieren Sie es über iTunes oder über Stitcher.