Bryan Catanzaro de NVIDIA - L'IA conversationnelle à certains égards est le défi ultime de l'IA
Publié: 2021-10-02Beaucoup d'entre vous qui aiment les jeux ou le montage vidéo sérieux connaissent NVIDIA en tant que créateurs de la technologie de traitement graphique leader sur le marché. Mais NVIDIA est également un leader dans les domaines de l'intelligence artificielle et de l'apprentissage en profondeur ; spécifiquement dans la façon dont ces technologies peuvent améliorer notre expérience des graphiques, de la synthèse de texte et de vidéo et de l'IA conversationnelle.
Une partie de leur travail a été présentée dans une série de vidéos qu'ils ont rassemblées et intitulées I AM AI, qui offrent un regard convaincant sur ce qui est (et ce qui sera) à notre disposition pour améliorer notre expérience du monde - et les uns des autres. Et récemment, j'ai eu l'occasion d'avoir une conversation LinkedIn Live avec Bryan Catanzaro , vice-président, Applied Deep Learning Research chez NVIDIA, pour en savoir plus sur leur travail avec l'IA pour réinventer notre expérience des images et des sons.
Vous trouverez ci-dessous une transcription éditée d'une partie de notre conversation. Cliquez sur le lecteur SoundCloud intégré pour entendre la conversation complète.
Assurez-vous de regarder les clips intégrés car ils aident à encadrer notre conversation.
Brent Leary : Cette voix dans cette vidéo ressemblait à un véritable être humain pour moi. Vous avez l'habitude d'entendre comme Alexa et Siri, et avant cela, c'était comme, vous savez, nous ne voulons même pas parler des voix avant cela, mais celle-ci ressemblait vraiment à un être humain avec, avec un humain inflexion et une certaine profondeur. Est-ce la chose que nous examinons lorsque vous parlez de réinventer les graphiques et de réinventer la technologie vocale et d'utiliser des technologies plus récentes, y compris l'IA et l'apprentissage en profondeur, non seulement pour changer l'apparence des graphiques, mais aussi pour changer la sensation et le son d'une machine pour le rendre ressemble plus à l'un d'entre nous.
Bryan Catanzaro : Je dois m'assurer que vous comprenez que bien que cette voix ait été synthétisée, elle a également été dirigée de près. Donc, je ne dirais pas que c'était un bouton poussoir, un système de synthèse vocale. Comme vous pourriez l'utiliser lorsque vous parlez avec un assistant virtuel. Au lieu de cela, il s'agissait d'une voix contrôlable que nos algorithmes permettent aux producteurs de la vidéo de créer. Et l'une des façons dont ils le font est de modéliser l'inflexion, le rythme et l'énergie qu'ils veulent qu'une partie particulière de la vidéo de la narration ait. Et donc, donc je dirais que ce n'est pas seulement une histoire sur l'amélioration de l'IA, mais c'est aussi une histoire sur la façon dont les humains travaillent plus étroitement avec l'IA pour construire des choses, et ont la capacité de créer des voix synthétiques qui sont contrôlables de cette façon.
Je pense que cela ouvre de nouvelles opportunités pour la synthèse vocale dans le divertissement et les arts, je pense. Je pense que c'est excitant, mais c'est quelque chose que vous et votre public devriez comprendre, c'était en fait très étroitement dirigé par une personne. Maintenant, bien sûr, nous travaillons dur sur des algorithmes capables de prédire toute cette humanité là-bas, le rythme, l'inflexion, la hauteur. Et je pense que nous allons voir des avancées assez étonnantes dans ce domaine au cours des prochaines années, où nous pourrons avoir un système de synthèse vocale entièrement à bouton-poussoir qui a la bonne inflexion pour accompagner le sens du texte, parce que quand vous parlez beaucoup, le sens est transmis par l'inflexion de votre voix, pas seulement le sens des mots que vous choisissez.
Et, si nous avons des modèles capables de comprendre le sens des textes, comme certains de ces incroyables modèles de langage auxquels je faisais référence plus tôt, nous devrions pouvoir les utiliser pour diriger la synthèse vocale d'une manière qui a du sens. Et c'est quelque chose qui me passionne beaucoup. c'est intéressant.
J'ai l'impression que nous avons une sorte de préjugé culturel, peut-être que c'est spécifique aux États-Unis. Je ne suis pas sûr, mais nous avons ce préjugé culturel selon lequel les ordinateurs ne peuvent pas parler d'une manière humaine. Et peut-être que cela vient un peu de Star Trek: The Next Generation où Data était comme une machine informatique incroyable, et il pouvait résoudre n'importe quel problème et inventer de nouvelles théories de la physique, mais il ne pourrait jamais parler de la même manière qu'un humain, ou peut-être que cela remonte à, vous savez.
Brent Leary : Spock, peut-être.
Bryan Catanzaro: C'était rebutant comme le sien, sa voix, comme c'était effrayant, vous savez. Et donc nous avons 50 ans, plusieurs générations de culture nous disant qu'un ordinateur ne peut pas parler d'une manière humaine. Et je pense juste que ce n'est pas le cas. Je pense que nous pouvons faire parler un ordinateur d'une manière plus humaine, et, et nous le ferons. Et je pense aussi que les avantages de cette technologie vont être assez grands pour nous tous.
Brent Leary: L'autre chose qui ressortait dans ce clip était Amelia Earhart, avec sa photo semblant prendre vie. Pouvez-vous en parler, je suppose que cela fait partie de la réinvention des graphiques à l'aide de l'IA.
Bryan Catanzaro : Oui, c'est vrai. NVIDIA Research a été très impliqué dans de nombreuses technologies pour synthétiser essentiellement des vidéos et synthétiser des images à l'aide de l'intelligence artificielle. Et c'est un exemple, vous en avez vu un où le réseau neuronal colorait une image, nous donnant en quelque sorte de nouvelles façons de regarder le passé. Et quand vous y pensez, vous savez ce qu'implique la colorisation d'une image. L'IA doit comprendre le contenu de l'image afin de leur attribuer des couleurs possibles, comme, par exemple, l'herbe est généralement verte, mais si vous ne savez pas où se trouve l'herbe, vous ne devez rien colorier de vert et les approches traditionnelles de colorisation des images étaient, je dirais, un peu averses au risque. Mais au fur et à mesure que l'IA comprend mieux le contenu d'une image, quels objets s'y trouvent et comment les objets sont liés les uns aux autres, elle peut faire beaucoup mieux pour attribuer des couleurs possibles à l'image qui lui donne vie.
C'est un exemple, ce problème de colorisation d'image. Mais je pense que dans cette vidéo, nous avons vu plusieurs autres exemples où nous avons pu prendre des images puis les animer de différentes manières.
Synthèse visuelle conditionnelle
L'une des technologies qui nous intéresse vraiment s'appelle la synthèse vidéo conditionnelle, où vous êtes capable de créer une vidéo basée sur une sorte de croquis et, vous savez, pour quelque chose comme ça, ce que vous feriez est s'opposer à la reconnaissance qui analyse la structure des objets. Par exemple, un visage, et voici les yeux et voici le nez, puis attribue des positions à l'objet et des tailles.
Et cela devient une sorte de dessin animé, un enfant pourrait dessiner avec un bonhomme allumette. Et ensuite, ce que vous faites, c'est envoyer cela dans une autre routine qui anime ce bonhomme allumette et fait bouger la tête ou sourire ou, ou parler avec des textes que nous voulons animer une personne parlant à un certain texte alors que nous pouvons faire un modèle qui prédit comment leur modèle de bonhomme allumette va évoluer en tant que personne qui parle. Et puis une fois que nous avons ce genre de dessin de bonhomme allumette animé, qui montre comment la personne doit bouger, nous le faisons passer par un réseau de neurones qui synthétise une vidéo à partir de cela et, et va en quelque sorte à partir de l'image initiale qui a comme, l'apparence de la personne et de l'arrière-plan, etc., puis l'anime via ce type d'animation de bonhomme allumette pour créer la vidéo.
Et nous appelons cela la génération vidéo conditionnelle, car il existe de nombreuses vidéos différentes que vous pouvez produire à partir du même bonhomme allumette. Et donc ce que nous voulons faire, c'est en choisir une qui semble plausible, conditionnée à une sorte d'autres informations, comme peut-être le texte que la personne parle, ou peut-être une sorte d'animation que nous voulons créer. Et la génération vidéo conditionnelle est une idée très puissante et c'est quelque chose qui, je pense, évoluera avec le temps vers une nouvelle façon de générer des graphiques, une nouvelle façon de rendre et de créer des graphiques.
Brent Leary : Il y a même un morceau de cette vidéo où la personne a dit en gros, dessine ça et ça a commencé à être dessiné.
