Bryan Catanzaro da NVIDIA – IA conversacional de algumas maneiras é o desafio final da IA

Publicados: 2021-10-02

Muitos de vocês que gostam de jogos ou edição de vídeo séria conhecem a NVIDIA como criadora da tecnologia de processamento gráfico líder no mercado. Mas a NVIDIA também é líder nas áreas de inteligência artificial e aprendizado profundo; especificamente em como essas tecnologias podem melhorar a forma como experimentamos gráficos, síntese de texto e vídeo e IA de conversação.

Alguns de seus trabalhos foram exibidos em uma série de vídeos que eles montaram, chamados I AM AI, que são uma visão convincente do que está (e o que estará) disponível para melhorarmos a maneira como experimentamos o mundo – e uns aos outros. E, recentemente, tive a oportunidade de ter uma conversa ao vivo no LinkedIn com Bryan Catanzaro , vice-presidente de pesquisa aplicada em aprendizado profundo da NVIDIA, para saber mais sobre o trabalho deles com IA para reimaginar como experimentamos imagens e sons.

Abaixo está uma transcrição editada de uma parte da nossa conversa. Clique no player incorporado do SoundCloud para ouvir a conversa completa.

smallbiztrends · Bryan Catanzaro da NVIDIA – Conversational AI de certa forma é o maior desafio de AI

Certifique-se de assistir aos clipes incorporados, pois eles ajudam a enquadrar nossa conversa.

Brent Leary : Aquela voz naquele vídeo soou como um ser humano real para mim. Você está acostumado a ouvir como Alexa e Siri, e antes disso era como, você sabe, nós até não queremos falar sobre as vozes de antes disso, mas aquela realmente parecia um ser humano com, com humano inflexão e alguma profundidade. É isso que estamos vendo quando você fala sobre reinventar gráficos e reinventar a tecnologia de voz e usar tecnologias mais recentes, incluindo IA e aprendizado profundo para não apenas mudar a aparência dos gráficos, mas mudar a sensação e o som de uma máquina para torná-lo soar mais como um de nós.

Bryan Catanzaro : Eu deveria ter certeza de que você entende que, embora essa voz tenha sido sintetizada, também foi dirigida de perto. Então eu não diria que era um botão, sistema de síntese de fala. Como você pode usar quando fala com um assistente virtual. Em vez disso, era uma voz controlável que nossos algoritmos permitem que os produtores do vídeo criem. E uma das maneiras que eles fazem isso é modelando a inflexão e o ritmo e a energia que eles querem que uma parte específica do vídeo da narração tenha. E então, eu diria que não é apenas uma história sobre a melhora da IA, mas também uma história sobre como os humanos trabalham mais próximos da IA ​​para construir coisas e ter a capacidade de fazer vozes sintéticas que são controláveis ​​dessa maneira.

Acho que isso abre novas oportunidades para a síntese de fala no entretenimento e nas artes, eu acho. Eu acho isso empolgante, mas é algo que você e seu público devem entender que foi realmente muito bem dirigido por uma pessoa. Agora, é claro, estamos trabalhando duro em algoritmos que são capazes de prever toda essa humanidade lá, o ritmo, a inflexão, o tom. E acho que veremos alguns avanços surpreendentes nos próximos anos, onde podemos ter um botão totalmente pressionado, um sistema de síntese de fala que tem a inflexão certa para acompanhar o significado do texto, porque quando você fala muito do significado é transmitido através da inflexão de sua voz, não apenas o significado das palavras que você escolhe.

E, se tivermos modelos capazes de entender o significado dos textos, como alguns desses incríveis modelos de linguagem aos quais me referi anteriormente, devemos ser capazes de usá-los para direcionar a síntese de fala de uma maneira que tenha significado. E isso é algo que eu estou muito animado. é interessante.

Eu sinto que temos um tipo de viés cultural, talvez seja específico dos Estados Unidos. Não tenho certeza, mas temos esse viés cultural de que os computadores não podem falar de maneira humana. E talvez venha um pouco de Star Trek: The Next Generation, onde Data era como uma máquina de computação incrível, e ele poderia resolver qualquer problema e inventar novas teorias da física, mas ele nunca poderia falar da mesma maneira que um humano poderia, ou talvez remonta a, você sabe.

Brent Leary : Spock, talvez.

Bryan Catanzaro: Era desanimador como o dele, a voz dele, meio assustadora, sabe. E assim temos 50 anos, várias gerações de cultura nos dizendo que um computador não pode falar de maneira humana. E eu realmente acho que não é o caso. Acho que podemos fazer um computador falar de uma maneira mais humana, e vamos. E também acho que os benefícios dessa tecnologia serão muito bons para todos nós.

Brent Leary: A outra coisa que se destacou nesse clipe foi a Amelia Earhart, com sua foto parecendo ganhar vida. Você pode falar, acho que isso faz parte de reinventar gráficos usando IA.

Bryan Catanzaro : Sim, isso mesmo. A NVIDIA Research esteve realmente envolvida em muitas tecnologias para basicamente sintetizar vídeos e sintetizar imagens usando inteligência artificial. E esse é um exemplo, você viu um em que a rede neural estava colorindo uma imagem, meio que nos dando novas maneiras de olhar para o passado. E quando você pensa sobre isso, você sabe, o que está envolvido em colorir uma imagem. A IA precisa entender o conteúdo da imagem para atribuir cores possíveis a ela, como, por exemplo, a grama geralmente é verde, mas se você não sabe onde está a grama, não deve colorir nada de verde e abordagens tradicionais para colorir imagens eram, eu diria, um pouco avessas ao risco. Mas à medida que a IA fica melhor em entender o conteúdo de uma imagem e quais objetos estão lá e como os objetos se relacionam, ela pode fazer muito melhor ao atribuir cores possíveis à imagem, o que dá vida a ela.

Esse é um exemplo, esse problema de colorização de imagem. Mas acho que nesse vídeo vimos vários outros exemplos em que conseguimos tirar imagens e animá-las de várias maneiras.

Síntese Condicional Visual

Uma das tecnologias em que estamos realmente interessados ​​é chamada de síntese de vídeo condicional, onde você pode criar um vídeo com base em um esboço e, você sabe, para algo assim, o que você faria é se opõem ao reconhecimento que analisa a estrutura dos objetos. Por exemplo, um rosto, e aqui estão os olhos e aqui está o nariz, e então atribui tipos de posições ao objeto e tamanhos.

E isso se torna uma espécie de desenho animado, uma criança pode desenhar com um boneco de palito. E então o que você faz é enviar isso para outra rotina que anima aquele boneco e faz a pessoa mover a cabeça ou sorrir ou, ou falar com textos que queremos animar a fala de uma pessoa para um determinado texto enquanto podemos fazer um modelo que prevê como seu modelo de boneco de palito vai evoluir como a pessoa que está falando. E então, uma vez que temos esse tipo de desenho animado, que mostra como a pessoa deve se mover, então o colocamos através de uma rede neural que sintetiza um vídeo disso e, e vai da imagem inicial que tem como, a aparência da pessoa e o, e o fundo e assim por diante, e então anima-o através deste tipo de animação de boneco para fazer o vídeo.

E chamamos isso de geração de vídeo condicional, porque existem muitos vídeos diferentes que você pode produzir a partir do mesmo boneco. E então o que queremos fazer é escolher um que pareça plausível condicionado, em algum tipo de outra informação, como talvez o texto que a pessoa está falando, ou talvez algum tipo de animação que queremos criar. E a geração de vídeo condicional é uma ideia muito poderosa e é algo que acho que com o tempo evoluirá para uma nova maneira de gerar gráficos, uma nova maneira de renderizar e criar gráficos.

Brent Leary: Há até um pedaço desse vídeo onde a pessoa basicamente disse, desenhe isso e na verdade começou a ser desenhado.


Bryan Catanzaro: Certo. O poder do aprendizado profundo é que é uma maneira muito flexível de mapear de um espaço para outro. E nesse vídeo, estamos vendo muitos exemplos disso. E este é outro exemplo, mas do ponto de vista da tecnologia de IA eles são todos semelhantes, porque o que estamos fazendo é tentar aprender um mapeamento que vai de X a Y. E neste caso, estamos tentando aprender um mapeamento que vai desde uma descrição textual da cena até um boneco de palito um desenho daquela cena que. Digamos que eu tenha dito um lago cercado por árvores nas montanhas. Eu quero que o modelo entenda que as montanhas ficam no fundo e têm a forma certa.

E então, as árvores vão para o primeiro plano e logo no meio, geralmente haverá um grande lago. É possível treinar um modelo baseado em digamos mil ou um milhão de imagens de paisagens naturais e você tem anotações que mostram, qual é o conteúdo dessas imagens? Então você pode treinar o modelo para ir para o outro lado e dizer, dado o texto, você pode criar uma espécie de desenho animado de como a cena deve ser? Para onde vão as montanhas? Para onde vão as árvores? para onde vai a agua? E então, uma vez que você tenha esse boneco, você pode enviá-lo para um modelo que elabora isso em uma imagem. E, e isso é o que você viu nesse vídeo.

Avatares digitais e chamadas de zoom

Assista a este pequeno vídeo de como essa tecnologia será usada para tornar as chamadas do Zoom uma experiência muito melhor em um futuro próximo. Esse cenário tem um cara sendo entrevistado para um emprego por meio de uma chamada de Zoom.

Brent Leary: O legal disso é que, no final, ele disse que a imagem dele foi gerada a partir de uma foto dele; e era sua voz. Você podia, na tela você podia ver o movimento da boca. A qualidade do áudio é ótima, e ele está sentado em uma cafeteria, onde pode haver muito som acontecendo na cafeteria, mas não ouvimos nada desse som.

Bryan Catanzaro : Sim, bem, estávamos muito orgulhosos dessa demo. Devo, devo também notar que essa demo ganhou o best in show na conferência SIGGRAPH deste ano, que é a maior conferência gráfica do mundo. Esse modelo era um modelo de síntese de vídeo generalizado. Estávamos falando anteriormente sobre como você pode pegar uma espécie de figura de uma pessoa e animá-la. Bem, uma das limitações dos modelos no passado é que você tinha que treinar um modelo inteiramente novo para cada situação. Então vamos dizer que se eu estou em casa, eu tenho um modelo. Se estou no café com um background diferente, preciso de outro modelo. Ou se você quiser fazer isso sozinho, você precisaria de um modelo para você neste local, outro modelo para você, outro lugar, toda vez que você cria um desses modelos, você precisa capturar um conjunto de dados nesse local com talvez isso conjunto de roupas ou aqueles óculos ou qualquer outra coisa, e depois passar uma semana em um supercomputador treinando uma modelo, e isso é muito caro, certo? Então, a maioria de nós nunca poderia fazer isso. Isso realmente limitaria a maneira como essa tecnologia poderia ser usada.

Acho que a inovação técnica por trás dessa animação em particular foi que eles criaram um modelo generalizado que poderia funcionar com basicamente qualquer pessoa. Você só precisa fornecer uma foto sua, o que é barato o suficiente. Qualquer um pode fazer isso, certo? E se você for para um novo local ou estiver usando roupas ou óculos diferentes, ou qualquer outra coisa, naquele dia, você pode simplesmente tirar uma foto. E então o modelo, porque é geral, é capaz de ressintetizar sua aparência usando apenas aquela foto como referência.

Eu acho isso muito emocionante. Agora, mais tarde naquele vídeo, na verdade, eles também mudaram para um modelo de síntese de fala. Então, o que ouvimos naquele clipe era na verdade o personagem principal falando com sua própria voz, mas depois as coisas no café ficam tão barulhentas que ele acaba mudando para texto. E então ele está apenas digitando e o áudio está sendo produzido por um de nossos modelos de síntese de fala.

Acho que dar às pessoas a oportunidade de se comunicar de novas maneiras só ajuda a aproximar as pessoas.

Brent Leary: Conversational AI, como isso vai mudar a forma como nos comunicamos e colaboramos nos próximos anos?

Bryan Catanzaro : A principal maneira de os humanos se comunicarem é por meio de conversas, como você e eu estamos tendo agora, mas é muito difícil para os humanos ter uma conversa significativa com o computador, por várias razões. Uma é que não parece natural, certo? Como se parece que você está falando com um robô, isso é uma barreira que inibe a comunicação. Não se parece com uma pessoa, não reage como uma pessoa e obviamente computadores hoje em dia, você sabe, a maioria dos sistemas com os quais você e eu interagimos não entendem o que os humanos podem entender. E assim, a IA de conversação, de certa forma, é o desafio final da IA. Na verdade, você pode estar familiarizado com o teste de Turing, Alan Turing, que é considerado por muitos o pai da inteligência artificial – ele definiu a IA conversacional como o objetivo final da inteligência artificial.

Porque se você tem uma máquina que é capaz de conversar de forma inteligente com um humano, então você basicamente resolve qualquer tipo de questão de inteligência que você possa imaginar, porque qualquer informação que os humanos tenham, qualquer sabedoria, qualquer ideia que os humanos tenham criado nos últimos milhares anos tem tudo, todos eles foram expressos através da linguagem. E isso significa que a linguagem é um caminho bastante geral. É obviamente a única maneira de os humanos comunicarem ideias complicadas. E se formos capazes de fazer computadores que sejam capazes de entender e se comunicar de forma inteligente e com baixo atrito, então parece que você está interagindo com a pessoa, então muitos problemas acho que seremos capazes de resolver .

Acho que a IA conversacional continuará sendo um foco de pesquisa de toda a indústria por um longo tempo. Acho que é um assunto tão profundo quanto todo o entendimento e conhecimento humano. Se você e eu tivéssemos um podcast sobre, digamos, literatura russa, haveria muitas ideias de especialistas sobre as quais alguém com doutorado em literatura russa poderia falar melhor do que eu, por exemplo, certo? Assim, mesmo entre os humanos, nossas capacidades em vários assuntos serão diferentes. E é por isso que acho que a IA conversacional será um desafio que continuará a nos envolver no futuro próximo, porque realmente é um desafio entender tudo o que os humanos entendem. E não estamos perto de fazer isso.

Isso faz parte da série de entrevistas individuais com líderes de pensamento. A transcrição foi editada para publicação. Se for uma entrevista em áudio ou vídeo, clique no player incorporado acima ou assine via iTunes ou via Stitcher.