Bryan Catanzaro von NVIDIA – Conversational AI in Some Ways ist die ultimative KI-Herausforderung
Veröffentlicht: 2021-10-02Viele von Ihnen, die sich für Spiele oder ernsthafte Videobearbeitung interessieren, kennen NVIDIA als Schöpfer der führenden Grafikverarbeitungstechnologie auf dem Markt. Aber NVIDIA ist auch führend in den Bereichen künstliche Intelligenz und Deep Learning; insbesondere, wie diese Technologien verbessern können, wie wir Grafik, Text- und Videosynthese und Konversations-KI erleben.
Einige ihrer Arbeiten wurden in einer Reihe von Videos mit dem Titel I AM AI gezeigt, die einen überzeugenden Blick darauf werfen, was uns zur Verfügung steht (und was sein wird), um die Art und Weise zu verbessern, wie wir die Welt – und einander – erleben. Und kürzlich hatte ich die Gelegenheit, ein LinkedIn Live-Gespräch mit Bryan Catanzaro , Vice President, Applied Deep Learning Research bei NVIDIA, zu führen, um mehr über ihre Arbeit mit KI zu erfahren, um neu zu erfinden, wie wir Bilder und Geräusche wahrnehmen.
Nachfolgend finden Sie eine bearbeitete Abschrift eines Teils unseres Gesprächs. Klicken Sie auf den eingebetteten SoundCloud-Player, um das vollständige Gespräch zu hören.
Sehen Sie sich unbedingt die eingebetteten Clips an, da sie dabei helfen, unser Gespräch zu gestalten.
Brent Leary : Diese Stimme in diesem Video klang für mich wie ein echter Mensch. Du bist daran gewöhnt, wie Alexa und Siri zu hören, und davor war es so, weißt du, wir wollten vorher nicht über die Stimmen sprechen, aber diese klang wirklich wie ein menschliches Wesen mit, mit einem Menschen Flexion und etwas Tiefe. Ist das die Sache, die wir betrachten, wenn Sie über die Neuerfindung von Grafiken und die Neuerfindung von Sprachtechnologie und die Verwendung neuerer Technologien, einschließlich KI und Deep Learning, sprechen, um nicht nur das Aussehen von Grafiken zu ändern, sondern auch das Gefühl und den Klang einer Maschine, um sie zu erstellen? klingt eher wie einer von uns.
Bryan Catanzaro : Ich sollte sicherstellen, dass Sie verstehen, dass diese Stimme zwar synthetisiert, aber auch genau geleitet wurde. Ich würde also nicht sagen, dass das ein Druckknopf-Sprachsynthesesystem war. Wie Sie es vielleicht verwenden, wenn Sie mit einem virtuellen Assistenten sprechen. Stattdessen war es eine steuerbare Stimme, die unsere Algorithmen den Produzenten des Videos ermöglichen zu erstellen. Und eine Möglichkeit, dies zu tun, besteht darin, den Tonfall, den Rhythmus und die Energie zu modellieren, die ein bestimmter Teil des Videos der Erzählung haben soll. Ich würde also sagen, es ist nicht nur eine Geschichte darüber, wie KI besser wird, sondern es ist auch eine Geschichte darüber, wie Menschen enger mit KI zusammenarbeiten, um Dinge zu bauen, und dass sie die Fähigkeit haben, synthetische Stimmen zu erzeugen, die auf diese Weise kontrollierbar sind.
Ich denke, das eröffnet meiner Meinung nach neue Möglichkeiten für die Sprachsynthese in der Unterhaltung und in der Kunst. Ich finde das aufregend, aber Sie und Ihr Publikum sollten verstehen, dass es tatsächlich sehr genau von einer Person geleitet wurde. Jetzt arbeiten wir natürlich hart an Algorithmen, die in der Lage sind, all diese Menschlichkeit dort vorherzusagen, den Rhythmus, die Tonlage, die Tonhöhe. Und ich denke, dass wir in den nächsten Jahren einige ziemlich erstaunliche Fortschritte darin sehen werden, wo wir ein vollständig auf Knopfdruck bedienbares Sprachsynthesesystem haben können, das den richtigen Tonfall hat, um der Bedeutung des Textes zu entsprechen, denn wann Sie sprechen viel von der Bedeutung, die durch den Tonfall Ihrer Stimme vermittelt wird, nicht nur die Bedeutung der Worte, die Sie wählen.
Und wenn wir Modelle haben, die in der Lage sind, die Bedeutung von Texten zu verstehen, wie einige dieser erstaunlichen Sprachmodelle, auf die ich mich zuvor bezogen habe, sollten wir in der Lage sein, diese zu verwenden, um die Sprachsynthese auf eine Weise zu steuern, die Bedeutung hat. Und das ist etwas, worauf ich mich sehr freue. es ist interessant.
Ich habe das Gefühl, dass wir eine Art kulturelle Voreingenommenheit haben, vielleicht ist es spezifisch für die Vereinigten Staaten. Ich bin mir nicht sicher, aber wir haben diese kulturelle Voreingenommenheit, dass Computer nicht auf menschenähnliche Weise sprechen können. Und vielleicht kommt es etwas von Star Trek: The Next Generation, wo Data wie eine unglaubliche Rechenmaschine war, und er konnte jedes Problem lösen und neue Theorien der Physik erfinden, aber er konnte nie so sprechen, wie ein Mensch es könnte, oder vielleicht geht es darauf zurück, weißt du.
Brent Leary : Vielleicht Spock.
Bryan Catanzaro: Es war abstoßend wie seine, seine Stimme, als wäre es gruselig, wissen Sie. Und so haben wir 50 Jahre, mehrere Kulturgenerationen, die uns sagen, dass ein Computer nicht auf menschenähnliche Weise sprechen kann. Und ich denke eigentlich nur, dass das nicht der Fall ist. Ich denke, wir können einen Computer dazu bringen, menschlicher zu sprechen, und, und das werden wir. Und ich denke auch, dass die Vorteile dieser Technologie für uns alle ziemlich groß sein werden.
Brent Leary: Die andere Sache, die in diesem Clip auffiel, war die Amelia Earhart, deren Bild zum Leben erweckt zu werden schien. Können Sie darüber sprechen, ich schätze, das ist Teil der Neuerfindung von Grafiken mithilfe von KI.
Bryan Catanzaro : Ja, das stimmt. NVIDIA Research war wirklich an vielen Technologien beteiligt, um Videos und Bilder mit künstlicher Intelligenz zu synthetisieren. Und das ist ein Beispiel, Sie haben eines gesehen, bei dem das neuronale Netzwerk ein Bild koloriert hat, was uns gewissermaßen neue Sichtweisen auf die Vergangenheit gab. Und wenn Sie darüber nachdenken, wissen Sie, was es mit dem Kolorieren eines Bildes auf sich hat. Die KI muss den Inhalt des Bildes verstehen, um ihm mögliche Farben zuzuordnen, wie zum Beispiel Gras ist normalerweise grün, aber wenn Sie nicht wissen, wo das Gras ist, dann sollten Sie nichts grün einfärben Traditionelle Ansätze zum Kolorieren von Bildern waren, würde ich sagen, ein wenig risikoscheu. Aber je besser die KI den Inhalt eines Bildes versteht und welche Objekte vorhanden sind und wie die Objekte zueinander in Beziehung stehen, desto besser kann sie dem Bild mögliche Farben zuweisen, die es irgendwie zum Leben erwecken.
Das ist ein Beispiel, dieses Bildkolorierungsproblem. Aber ich denke, in diesem Video haben wir mehrere andere Beispiele gesehen, bei denen wir Bilder aufnehmen und sie dann auf verschiedene Weise animieren konnten.
Visuelle bedingte Synthese
Eine der Technologien, an der wir wirklich interessiert sind, heißt bedingte Videosynthese, bei der Sie ein Video auf der Grundlage einer Art Skizze erstellen können, und für so etwas würden Sie Folgendes tun gegen eine Erkennung, die die Struktur von Objekten analysiert. Zum Beispiel ein Gesicht, und hier sind die Augen und hier ist die Nase, und dann weist er dem Objekt Positionen und Größen zu.
Und das wird irgendwie karikaturartig, ein Kind könnte mit einem Strichmännchen zeichnen. Und dann schicken Sie das in eine andere Routine, die diese Strichmännchen animiert und die Person dazu bringt, ihren Kopf zu bewegen oder zu lächeln oder mit Texten zu sprechen, die wir animieren möchten, dass eine Person zu einem bestimmten Text spricht, während wir ein Modell dafür erstellen können sagt voraus, wie sich ihr Strichmännchenmodell entwickeln wird, als die Person, die spricht. Und wenn wir dann diese Art von animierter Strichmännchenzeichnung haben, die zeigt, wie sich die Person bewegen sollte, dann schicken wir sie durch ein neuronales Netzwerk, das daraus ein Video synthetisiert und, und geht irgendwie von dem ursprünglichen Bild aus, das so etwas hat, das Aussehen der Person und des Hintergrunds und so weiter, und animiert es dann über diese Art von Strichmännchen-Animation, um das Video zu erstellen.
Und wir nennen das bedingte Videogenerierung, weil es viele verschiedene Videos gibt, die Sie mit demselben Strichmännchen produzieren könnten. Wir möchten also eine auswählen, die plausibel erscheint, abhängig von irgendeiner anderen Information, wie vielleicht dem Text, den die Person spricht, oder vielleicht einer Art von Animation, die wir erstellen wollen. Und die bedingte Videogenerierung ist eine sehr mächtige Idee, und ich denke, dass sie sich im Laufe der Zeit zu einer neuen Art der Grafikgenerierung, einer neuen Art des Renderns und Erstellens von Grafiken entwickeln wird.
Brent Leary: Es gibt sogar einen Teil dieses Videos, in dem die Person im Grunde gesagt hat, zeichne das, und es wurde tatsächlich gezeichnet.
