Bryan Catanzaro de NVIDIA - L'IA conversationnelle à certains égards est le défi ultime de l'IA

Publié: 2021-10-02

Beaucoup d'entre vous qui aiment les jeux ou le montage vidéo sérieux connaissent NVIDIA en tant que créateurs de la technologie de traitement graphique leader sur le marché. Mais NVIDIA est également un leader dans les domaines de l'intelligence artificielle et de l'apprentissage en profondeur ; spécifiquement dans la façon dont ces technologies peuvent améliorer notre expérience des graphiques, de la synthèse de texte et de vidéo et de l'IA conversationnelle.

Une partie de leur travail a été présentée dans une série de vidéos qu'ils ont rassemblées et intitulées I AM AI, qui offrent un regard convaincant sur ce qui est (et ce qui sera) à notre disposition pour améliorer notre expérience du monde - et les uns des autres. Et récemment, j'ai eu l'occasion d'avoir une conversation LinkedIn Live avec Bryan Catanzaro , vice-président, Applied Deep Learning Research chez NVIDIA, pour en savoir plus sur leur travail avec l'IA pour réinventer notre expérience des images et des sons.

Vous trouverez ci-dessous une transcription éditée d'une partie de notre conversation. Cliquez sur le lecteur SoundCloud intégré pour entendre la conversation complète.

smallbiztrends · Bryan Catanzaro de NVIDIA - L'IA conversationnelle est à certains égards le défi ultime de l'IA

Assurez-vous de regarder les clips intégrés car ils aident à encadrer notre conversation.

Brent Leary : Cette voix dans cette vidéo ressemblait à un véritable être humain pour moi. Vous avez l'habitude d'entendre comme Alexa et Siri, et avant cela, c'était comme, vous savez, nous ne voulons même pas parler des voix avant cela, mais celle-ci ressemblait vraiment à un être humain avec, avec un humain inflexion et une certaine profondeur. Est-ce la chose que nous examinons lorsque vous parlez de réinventer les graphiques et de réinventer la technologie vocale et d'utiliser des technologies plus récentes, y compris l'IA et l'apprentissage en profondeur, non seulement pour changer l'apparence des graphiques, mais aussi pour changer la sensation et le son d'une machine pour le rendre ressemble plus à l'un d'entre nous.

Bryan Catanzaro : Je dois m'assurer que vous comprenez que bien que cette voix ait été synthétisée, elle a également été dirigée de près. Donc, je ne dirais pas que c'était un bouton poussoir, un système de synthèse vocale. Comme vous pourriez l'utiliser lorsque vous parlez avec un assistant virtuel. Au lieu de cela, il s'agissait d'une voix contrôlable que nos algorithmes permettent aux producteurs de la vidéo de créer. Et l'une des façons dont ils le font est de modéliser l'inflexion, le rythme et l'énergie qu'ils veulent qu'une partie particulière de la vidéo de la narration ait. Et donc, donc je dirais que ce n'est pas seulement une histoire sur l'amélioration de l'IA, mais c'est aussi une histoire sur la façon dont les humains travaillent plus étroitement avec l'IA pour construire des choses, et ont la capacité de créer des voix synthétiques qui sont contrôlables de cette façon.

Je pense que cela ouvre de nouvelles opportunités pour la synthèse vocale dans le divertissement et les arts, je pense. Je pense que c'est excitant, mais c'est quelque chose que vous et votre public devriez comprendre, c'était en fait très étroitement dirigé par une personne. Maintenant, bien sûr, nous travaillons dur sur des algorithmes capables de prédire toute cette humanité là-bas, le rythme, l'inflexion, la hauteur. Et je pense que nous allons voir des avancées assez étonnantes dans ce domaine au cours des prochaines années, où nous pourrons avoir un système de synthèse vocale entièrement à bouton-poussoir qui a la bonne inflexion pour accompagner le sens du texte, parce que quand vous parlez beaucoup, le sens est transmis par l'inflexion de votre voix, pas seulement le sens des mots que vous choisissez.

Et, si nous avons des modèles capables de comprendre le sens des textes, comme certains de ces incroyables modèles de langage auxquels je faisais référence plus tôt, nous devrions pouvoir les utiliser pour diriger la synthèse vocale d'une manière qui a du sens. Et c'est quelque chose qui me passionne beaucoup. c'est intéressant.

J'ai l'impression que nous avons une sorte de préjugé culturel, peut-être que c'est spécifique aux États-Unis. Je ne suis pas sûr, mais nous avons ce préjugé culturel selon lequel les ordinateurs ne peuvent pas parler d'une manière humaine. Et peut-être que cela vient un peu de Star Trek: The Next Generation où Data était comme une machine informatique incroyable, et il pouvait résoudre n'importe quel problème et inventer de nouvelles théories de la physique, mais il ne pourrait jamais parler de la même manière qu'un humain, ou peut-être que cela remonte à, vous savez.

Brent Leary : Spock, peut-être.

Bryan Catanzaro: C'était rebutant comme le sien, sa voix, comme c'était effrayant, vous savez. Et donc nous avons 50 ans, plusieurs générations de culture nous disant qu'un ordinateur ne peut pas parler d'une manière humaine. Et je pense juste que ce n'est pas le cas. Je pense que nous pouvons faire parler un ordinateur d'une manière plus humaine, et, et nous le ferons. Et je pense aussi que les avantages de cette technologie vont être assez grands pour nous tous.

Brent Leary: L'autre chose qui ressortait dans ce clip était Amelia Earhart, avec sa photo semblant prendre vie. Pouvez-vous en parler, je suppose que cela fait partie de la réinvention des graphiques à l'aide de l'IA.

Bryan Catanzaro : Oui, c'est vrai. NVIDIA Research a été très impliqué dans de nombreuses technologies pour synthétiser essentiellement des vidéos et synthétiser des images à l'aide de l'intelligence artificielle. Et c'est un exemple, vous en avez vu un où le réseau neuronal colorait une image, nous donnant en quelque sorte de nouvelles façons de regarder le passé. Et quand vous y pensez, vous savez ce qu'implique la colorisation d'une image. L'IA doit comprendre le contenu de l'image afin de leur attribuer des couleurs possibles, comme, par exemple, l'herbe est généralement verte, mais si vous ne savez pas où se trouve l'herbe, vous ne devez rien colorier de vert et les approches traditionnelles de colorisation des images étaient, je dirais, un peu averses au risque. Mais au fur et à mesure que l'IA comprend mieux le contenu d'une image, quels objets s'y trouvent et comment les objets sont liés les uns aux autres, elle peut faire beaucoup mieux pour attribuer des couleurs possibles à l'image qui lui donne vie.

C'est un exemple, ce problème de colorisation d'image. Mais je pense que dans cette vidéo, nous avons vu plusieurs autres exemples où nous avons pu prendre des images puis les animer de différentes manières.

Synthèse visuelle conditionnelle

L'une des technologies qui nous intéresse vraiment s'appelle la synthèse vidéo conditionnelle, où vous êtes capable de créer une vidéo basée sur une sorte de croquis et, vous savez, pour quelque chose comme ça, ce que vous feriez est s'opposer à la reconnaissance qui analyse la structure des objets. Par exemple, un visage, et voici les yeux et voici le nez, puis attribue des positions à l'objet et des tailles.

Et cela devient une sorte de dessin animé, un enfant pourrait dessiner avec un bonhomme allumette. Et ensuite, ce que vous faites, c'est envoyer cela dans une autre routine qui anime ce bonhomme allumette et fait bouger la tête ou sourire ou, ou parler avec des textes que nous voulons animer une personne parlant à un certain texte alors que nous pouvons faire un modèle qui prédit comment leur modèle de bonhomme allumette va évoluer en tant que personne qui parle. Et puis une fois que nous avons ce genre de dessin de bonhomme allumette animé, qui montre comment la personne doit bouger, nous le faisons passer par un réseau de neurones qui synthétise une vidéo à partir de cela et, et va en quelque sorte à partir de l'image initiale qui a comme, l'apparence de la personne et de l'arrière-plan, etc., puis l'anime via ce type d'animation de bonhomme allumette pour créer la vidéo.

Et nous appelons cela la génération vidéo conditionnelle, car il existe de nombreuses vidéos différentes que vous pouvez produire à partir du même bonhomme allumette. Et donc ce que nous voulons faire, c'est en choisir une qui semble plausible, conditionnée à une sorte d'autres informations, comme peut-être le texte que la personne parle, ou peut-être une sorte d'animation que nous voulons créer. Et la génération vidéo conditionnelle est une idée très puissante et c'est quelque chose qui, je pense, évoluera avec le temps vers une nouvelle façon de générer des graphiques, une nouvelle façon de rendre et de créer des graphiques.

Brent Leary : Il y a même un morceau de cette vidéo où la personne a dit en gros, dessine ça et ça a commencé à être dessiné.


Bryan Catanzaro : C'est vrai. La puissance de l'apprentissage en profondeur réside dans le fait qu'il s'agit d'un moyen très flexible de cartographier d'un espace à un autre. Et donc dans cette vidéo, nous voyons beaucoup d'exemples de cela. Et ceci est un autre exemple, mais du point de vue de la technologie de l'IA, ils sont tous similaires, car ce que nous faisons, c'est d'apprendre une cartographie qui va de X à Y. Et dans ce cas, nous essayons pour apprendre une cartographie qui va d'une description textuelle de la scène à un bonhomme allumette un dessin animé de cette scène qui. Disons que j'ai dit un lac entouré d'arbres dans les montagnes. Je veux que le modèle comprenne que les montagnes vont à l'arrière-plan et qu'elles ont une certaine forme.

Et puis, les arbres vont au premier plan et puis juste au milieu, généralement il y aura un grand lac. Il est possible de former un modèle basé sur, disons, un millier ou un million d'images de paysages naturels et vous avez des annotations qui montrent, quel est le contenu de ces images ? Ensuite, vous pouvez entraîner le modèle à aller dans l'autre sens et à dire, étant donné le texte, pouvez-vous créer une sorte de dessin animé de bonhomme allumette de ce à quoi la scène devrait ressembler ? Où vont les montagnes ? Où vont les arbres ? Où va l'eau? Et puis une fois que vous avez ce bonhomme allumette, vous pouvez l'envoyer dans un modèle qui le transforme en image. Et, et c'est donc ce que vous avez vu dans cette vidéo.

Avatars numériques et appels Zoom

Regardez cette courte vidéo sur la façon dont cette technologie sera utilisée pour faire des appels Zoom une bien meilleure expérience dans un avenir proche. Dans ce scénario, un homme est interviewé pour un emploi via un appel Zoom.

Brent Leary : Ce qui était cool à ce sujet, c'est qu'à la fin, il a dit que l'image de lui avait été générée à partir d'une photo de lui ; et c'était sa voix. Vous pouviez, sur l'écran, vous pouviez voir le mouvement de la bouche. La qualité audio est excellente et il est assis dans un café, où il pourrait y avoir beaucoup de son dans le café, mais nous n'avons entendu aucun de ces sons.

Bryan Catanzaro : Ouais, eh bien, nous étions vraiment fiers de cette démo. Je devrais, je devrais également noter que cette démo a remporté le prix du meilleur spectacle à la conférence SIGGRAPH cette année, qui est la plus grande conférence graphique au monde. Ce modèle était un modèle de synthèse vidéo généralisé. Nous parlions plus tôt de la façon dont vous pouvez prendre une sorte de représentation en forme de bâton d'une personne, puis l'animer. Eh bien, l'une des limites des modèles du passé était qu'il fallait former un modèle entièrement nouveau pour chaque situation. Alors disons que si je suis chez moi, j'ai un modèle. Si je suis au café avec un parcours différent, j'ai besoin d'un autre modèle. Ou si vous voulez le faire vous-même, vous auriez besoin d'un modèle pour vous-même à cet endroit, d'un autre modèle pour vous-même, d'un autre endroit, chaque fois que vous créez l'un de ces modèles, vous devez capturer un ensemble de données à cet endroit avec peut-être que ensemble de vêtements ou ces lunettes ou quoi que ce soit, puis passer une semaine sur un superordinateur à former un modèle, et c'est vraiment cher, non ? Donc, la plupart d'entre nous ne pourraient jamais faire cela. Cela limiterait vraiment la façon dont cette technologie pourrait être utilisée.

Je pense que l'innovation technique derrière cette animation particulière était qu'ils ont proposé un modèle généralisé qui pourrait fonctionner avec pratiquement n'importe qui. Vous n'avez qu'à fournir une photo de vous-même, ce qui est assez bon marché. N'importe qui peut faire ça, n'est-ce pas ? Et si vous allez dans un nouvel endroit ou que vous portez des vêtements ou des lunettes différents, ou quoi que ce soit, ce jour-là, vous pouvez simplement prendre une photo. Et puis le modèle, parce que c'est général, est capable de resynthétiser votre apparence en utilisant juste cette photo comme référence.

Je pense que c'est assez excitant. Plus tard dans cette vidéo, en fait, ils sont également passés à un modèle de synthèse vocale. Donc, ce que nous avons entendu dans ce clip était en fait le personnage principal parlant avec sa propre voix, mais plus tard, les choses dans le café deviennent si bruyantes qu'il finit par passer au texte. Et donc il est juste en train de taper et l'audio est produit par l'un de nos modèles de synthèse vocale.

Je pense que donner aux gens la possibilité de communiquer de nouvelles façons ne fait que les rapprocher.

Brent Leary : L'IA conversationnelle, comment cela va-t-il changer la façon dont nous communiquons et collaborons dans les années à venir ?

Bryan Catanzaro : La principale façon dont les humains communiquent est la conversation, comme vous et moi en avons en ce moment, mais il est très difficile pour les humains d'avoir une conversation significative avec l'ordinateur, pour un certain nombre de raisons. La première est que cela ne semble pas naturel, n'est-ce pas ? Comme si on avait l'impression de parler à un robot, c'est une barrière qui empêche la communication. Ça ne ressemble pas à une personne, ça ne réagit pas comme une personne et évidemment les ordinateurs de nos jours, vous savez, la plupart des systèmes avec lesquels vous et moi avons interagi, ne comprennent pas ce que les humains peuvent comprendre. Et donc l'IA conversationnelle est à certains égards le défi ultime de l'IA. En fait, vous connaissez peut-être le test de Turing, Alan Turing, qui est considéré par beaucoup comme le père de l'intelligence artificielle - il a défini l'IA conversationnelle comme l'objectif final de l'intelligence artificielle.

Parce que si vous avez une machine capable de converser intelligemment avec un humain, alors vous avez essentiellement résolu n'importe quel type de question d'intelligence que vous pouvez imaginer, parce que toute information que les humains ont, toute sagesse, toute idée que les humains ont créée au cours des derniers milliers années a tout, ils ont tous été exprimés à travers le langage. Et donc cela signifie que le langage est un moyen assez général. C'est évidemment le seul moyen pour les humains de communiquer des idées compliquées. Et si nous sommes capables de créer des ordinateurs capables de comprendre et de communiquer intelligemment, et avec peu de friction, de sorte que vous ayez réellement l'impression d'interagir avec la personne, alors beaucoup de problèmes que je pense que nous pourrons résoudre .

Je pense que l'IA conversationnelle continuera d'être au centre des recherches de l'ensemble de l'industrie pendant longtemps. Je pense que c'est un sujet aussi profond que l'ensemble de la compréhension et de la connaissance humaines. Si vous et moi avions un podcast sur, disons, la littérature russe, il y aurait beaucoup d'idées spécialisées dont quelqu'un avec un doctorat en littérature russe serait capable de parler mieux que moi, par exemple, n'est-ce pas ? Ainsi, même parmi les humains, nos capacités dans divers domaines vont différer. Et c'est pourquoi je pense que l'IA conversationnelle va être un défi qui continuera de nous intéresser dans un avenir prévisible, car c'est vraiment un défi de comprendre tout ce que les humains comprennent. Et nous ne sommes pas près de le faire.

Cela fait partie de la série d'entretiens individuels avec des leaders d'opinion. La transcription a été éditée pour publication. S'il s'agit d'une interview audio ou vidéo, cliquez sur le lecteur intégré ci-dessus, ou abonnez-vous via iTunes ou via Stitcher.