Bryan Catanzaro da NVIDIA – IA conversacional de algumas maneiras é o desafio final da IA
Publicados: 2021-10-02Muitos de vocês que gostam de jogos ou edição de vídeo séria conhecem a NVIDIA como criadora da tecnologia de processamento gráfico líder no mercado. Mas a NVIDIA também é líder nas áreas de inteligência artificial e aprendizado profundo; especificamente em como essas tecnologias podem melhorar a forma como experimentamos gráficos, síntese de texto e vídeo e IA de conversação.
Alguns de seus trabalhos foram exibidos em uma série de vídeos que eles montaram, chamados I AM AI, que são uma visão convincente do que está (e o que estará) disponível para melhorarmos a maneira como experimentamos o mundo – e uns aos outros. E, recentemente, tive a oportunidade de ter uma conversa ao vivo no LinkedIn com Bryan Catanzaro , vice-presidente de pesquisa aplicada em aprendizado profundo da NVIDIA, para saber mais sobre o trabalho deles com IA para reimaginar como experimentamos imagens e sons.
Abaixo está uma transcrição editada de uma parte da nossa conversa. Clique no player incorporado do SoundCloud para ouvir a conversa completa.
Certifique-se de assistir aos clipes incorporados, pois eles ajudam a enquadrar nossa conversa.
Brent Leary : Aquela voz naquele vídeo soou como um ser humano real para mim. Você está acostumado a ouvir como Alexa e Siri, e antes disso era como, você sabe, nós até não queremos falar sobre as vozes de antes disso, mas aquela realmente parecia um ser humano com, com humano inflexão e alguma profundidade. É isso que estamos vendo quando você fala sobre reinventar gráficos e reinventar a tecnologia de voz e usar tecnologias mais recentes, incluindo IA e aprendizado profundo para não apenas mudar a aparência dos gráficos, mas mudar a sensação e o som de uma máquina para torná-lo soar mais como um de nós.
Bryan Catanzaro : Eu deveria ter certeza de que você entende que, embora essa voz tenha sido sintetizada, também foi dirigida de perto. Então eu não diria que era um botão, sistema de síntese de fala. Como você pode usar quando fala com um assistente virtual. Em vez disso, era uma voz controlável que nossos algoritmos permitem que os produtores do vídeo criem. E uma das maneiras que eles fazem isso é modelando a inflexão e o ritmo e a energia que eles querem que uma parte específica do vídeo da narração tenha. E então, eu diria que não é apenas uma história sobre a melhora da IA, mas também uma história sobre como os humanos trabalham mais próximos da IA para construir coisas e ter a capacidade de fazer vozes sintéticas que são controláveis dessa maneira.
Acho que isso abre novas oportunidades para a síntese de fala no entretenimento e nas artes, eu acho. Eu acho isso empolgante, mas é algo que você e seu público devem entender que foi realmente muito bem dirigido por uma pessoa. Agora, é claro, estamos trabalhando duro em algoritmos que são capazes de prever toda essa humanidade lá, o ritmo, a inflexão, o tom. E acho que veremos alguns avanços surpreendentes nos próximos anos, onde podemos ter um botão totalmente pressionado, um sistema de síntese de fala que tem a inflexão certa para acompanhar o significado do texto, porque quando você fala muito do significado é transmitido através da inflexão de sua voz, não apenas o significado das palavras que você escolhe.
E, se tivermos modelos capazes de entender o significado dos textos, como alguns desses incríveis modelos de linguagem aos quais me referi anteriormente, devemos ser capazes de usá-los para direcionar a síntese de fala de uma maneira que tenha significado. E isso é algo que eu estou muito animado. é interessante.
Eu sinto que temos um tipo de viés cultural, talvez seja específico dos Estados Unidos. Não tenho certeza, mas temos esse viés cultural de que os computadores não podem falar de maneira humana. E talvez venha um pouco de Star Trek: The Next Generation, onde Data era como uma máquina de computação incrível, e ele poderia resolver qualquer problema e inventar novas teorias da física, mas ele nunca poderia falar da mesma maneira que um humano poderia, ou talvez remonta a, você sabe.
Brent Leary : Spock, talvez.
Bryan Catanzaro: Era desanimador como o dele, a voz dele, meio assustadora, sabe. E assim temos 50 anos, várias gerações de cultura nos dizendo que um computador não pode falar de maneira humana. E eu realmente acho que não é o caso. Acho que podemos fazer um computador falar de uma maneira mais humana, e vamos. E também acho que os benefícios dessa tecnologia serão muito bons para todos nós.
Brent Leary: A outra coisa que se destacou nesse clipe foi a Amelia Earhart, com sua foto parecendo ganhar vida. Você pode falar, acho que isso faz parte de reinventar gráficos usando IA.
Bryan Catanzaro : Sim, isso mesmo. A NVIDIA Research esteve realmente envolvida em muitas tecnologias para basicamente sintetizar vídeos e sintetizar imagens usando inteligência artificial. E esse é um exemplo, você viu um em que a rede neural estava colorindo uma imagem, meio que nos dando novas maneiras de olhar para o passado. E quando você pensa sobre isso, você sabe, o que está envolvido em colorir uma imagem. A IA precisa entender o conteúdo da imagem para atribuir cores possíveis a ela, como, por exemplo, a grama geralmente é verde, mas se você não sabe onde está a grama, não deve colorir nada de verde e abordagens tradicionais para colorir imagens eram, eu diria, um pouco avessas ao risco. Mas à medida que a IA fica melhor em entender o conteúdo de uma imagem e quais objetos estão lá e como os objetos se relacionam, ela pode fazer muito melhor ao atribuir cores possíveis à imagem, o que dá vida a ela.
Esse é um exemplo, esse problema de colorização de imagem. Mas acho que nesse vídeo vimos vários outros exemplos em que conseguimos tirar imagens e animá-las de várias maneiras.
Síntese Condicional Visual
Uma das tecnologias em que estamos realmente interessados é chamada de síntese de vídeo condicional, onde você pode criar um vídeo com base em um esboço e, você sabe, para algo assim, o que você faria é se opõem ao reconhecimento que analisa a estrutura dos objetos. Por exemplo, um rosto, e aqui estão os olhos e aqui está o nariz, e então atribui tipos de posições ao objeto e tamanhos.
E isso se torna uma espécie de desenho animado, uma criança pode desenhar com um boneco de palito. E então o que você faz é enviar isso para outra rotina que anima aquele boneco e faz a pessoa mover a cabeça ou sorrir ou, ou falar com textos que queremos animar a fala de uma pessoa para um determinado texto enquanto podemos fazer um modelo que prevê como seu modelo de boneco de palito vai evoluir como a pessoa que está falando. E então, uma vez que temos esse tipo de desenho animado, que mostra como a pessoa deve se mover, então o colocamos através de uma rede neural que sintetiza um vídeo disso e, e vai da imagem inicial que tem como, a aparência da pessoa e o, e o fundo e assim por diante, e então anima-o através deste tipo de animação de boneco para fazer o vídeo.
E chamamos isso de geração de vídeo condicional, porque existem muitos vídeos diferentes que você pode produzir a partir do mesmo boneco. E então o que queremos fazer é escolher um que pareça plausível condicionado, em algum tipo de outra informação, como talvez o texto que a pessoa está falando, ou talvez algum tipo de animação que queremos criar. E a geração de vídeo condicional é uma ideia muito poderosa e é algo que acho que com o tempo evoluirá para uma nova maneira de gerar gráficos, uma nova maneira de renderizar e criar gráficos.
Brent Leary: Há até um pedaço desse vídeo onde a pessoa basicamente disse, desenhe isso e na verdade começou a ser desenhado.
