Bryan Catanzaro de NVIDIA: La IA conversacional en cierto modo es el desafío definitivo de la IA

Publicado: 2021-10-02

Muchos de ustedes que están interesados ​​en los juegos o en la edición de video seria conocen a NVIDIA como creadores de la tecnología de procesamiento de gráficos líder en el mercado. Pero NVIDIA también es líder en las áreas de inteligencia artificial y aprendizaje profundo; específicamente en cómo estas tecnologías pueden mejorar la forma en que experimentamos la síntesis de gráficos, texto y video, y la IA conversacional.

Parte de su trabajo se mostró en una serie de videos que compilaron llamados YO SOY IA, que son una mirada convincente a lo que está (y lo que estará) disponible para nosotros para mejorar la forma en que experimentamos el mundo y entre nosotros. Y recientemente tuve la oportunidad de tener una conversación en vivo de LinkedIn con Bryan Catanzaro , vicepresidente de investigación de aprendizaje profundo aplicado en NVIDIA, para escuchar más sobre su trabajo con IA para reimaginar cómo experimentamos las imágenes y los sonidos.

A continuación se muestra una transcripción editada de una parte de nuestra conversación. Haga clic en el reproductor de SoundCloud incorporado para escuchar la conversación completa.

smallbiztrends · Bryan Catanzaro de NVIDIA: la IA conversacional es, de alguna manera, el último desafío de la IA

Asegúrese de ver los clips incrustados, ya que ayudan a enmarcar nuestra conversación.

Brent Leary : Esa voz en ese video me sonaba como un ser humano real. Estás acostumbrado a escuchar como Alexa y Siri, y antes de eso era como, ya sabes, ni siquiera queremos hablar de las voces antes de eso, pero esa realmente sonaba como un ser humano con, con humano inflexión y algo de profundidad. ¿Es eso lo que estamos viendo cuando habla de reinventar los gráficos y reinventar la tecnología de voz y usar tecnología más nueva, incluida la IA y el aprendizaje profundo, no solo para cambiar el aspecto de los gráficos, sino también para cambiar la sensación y el sonido de una máquina para hacerlo? sonar más como uno de nosotros.

Bryan Catanzaro : Debo asegurarme de que entiendas que aunque esa voz fue sintetizada, también fue dirigida de cerca. Así que no diría que se trata de un sistema de síntesis de voz con botón pulsador. Como podrías usar cuando hablas con un asistente virtual. En cambio, fue una voz controlable que nuestros algoritmos permitieron crear a los productores del video. Y una de las formas en que lo hacen es modelando la inflexión y el ritmo y la energía que quieren que tenga una parte particular del video de la narración. Entonces, diría que no es solo una historia sobre la mejora de la IA, sino también una historia sobre cómo los humanos trabajan más de cerca con la IA para construir cosas y tener la capacidad de hacer voces sintéticas que son controlables de esta manera.

Creo que esto abre nuevas oportunidades para la síntesis de voz en el entretenimiento y las artes. Creo que es emocionante, pero es algo que usted y su audiencia deben entender que en realidad fue dirigido muy de cerca por una persona. Ahora, por supuesto, estamos trabajando arduamente en algoritmos que puedan predecir toda esa humanidad allí, el ritmo, la inflexión, el tono. Y creo que vamos a ver algunos avances bastante sorprendentes en los próximos años, en los que podemos tener un sistema de síntesis de voz con botón pulsador que tiene la inflexión correcta para acompañar el significado del texto, porque cuando hablas mucho, el significado se transmite a través de la inflexión de tu voz, no solo el significado de las palabras que eliges.

Y, si tenemos modelos que pueden comprender el significado de los textos, como algunos de estos sorprendentes modelos de lenguaje a los que me refería antes, deberíamos poder usarlos para dirigir la síntesis del habla de una manera que tenga significado. Y eso es algo que me emociona mucho. es interesante.

Siento que tenemos una especie de sesgo cultural, tal vez sea específico de los Estados Unidos. No estoy seguro, pero tenemos este sesgo cultural de que las computadoras no pueden hablar como los humanos. Y tal vez proviene un poco de Star Trek: The Next Generation, donde Data era como una increíble máquina de computación y podía resolver cualquier problema e inventar nuevas teorías de la física, pero nunca podía hablar de la misma manera que un humano, o tal vez se remonta a, ya sabes.

Brent Leary : Spock, tal vez.

Bryan Catanzaro: Fue desagradable como la suya, su voz, como espeluznante, ya sabes. Y así tenemos 50 años, varias generaciones de cultura diciéndonos que una computadora no puede hablar como un humano. Y en realidad creo que ese no es el caso. Creo que podemos hacer que una computadora hable de una manera más humana, y lo haremos. Y también creo que los beneficios de esa tecnología van a ser muy buenos para todos nosotros.

Brent Leary: La otra cosa que se destacó en ese clip fue Amelia Earhart, con su imagen que parecía cobrar vida. ¿Puedes hablar sobre eso? Supongo que eso es parte de reinventar gráficos usando IA.

Bryan Catanzaro : Sí, así es. NVIDIA Research ha estado realmente involucrado en muchas tecnologías para sintetizar básicamente videos y sintetizar imágenes usando inteligencia artificial. Y ese es un ejemplo, viste uno en el que la red neuronal estaba coloreando una imagen, brindándonos nuevas formas de ver el pasado. Y cuando piensas en eso, sabes lo que implica colorear una imagen. La IA necesita comprender el contenido de la imagen para asignarles posibles colores, como, por ejemplo, el césped suele ser verde, pero si no sabe dónde está el césped, entonces no debe colorear nada verde y Los enfoques tradicionales para colorear imágenes eran, diría yo, un poco reacios al riesgo. Pero a medida que la IA mejora en la comprensión del contenido de una imagen y qué objetos hay allí y cómo se relacionan entre sí, puede hacer mucho mejor al asignar posibles colores a la imagen que le dan vida.

Ese es un ejemplo, este problema de coloración de imágenes. Pero creo que en ese video, vimos varios otros ejemplos en los que pudimos tomar imágenes y luego animarlas de varias maneras.

Síntesis condicional visual

Una de las tecnologías en las que hemos estado realmente interesados ​​es la llamada síntesis de video condicional, donde puedes crear un video basado en una especie de boceto y, ya sabes, para algo como esto, lo que harías es oponerse al reconocimiento que analiza la estructura de los objetos. Por ejemplo, una cara, y aquí están los ojos y aquí está la nariz, y luego asigna tipos de posiciones al objeto y tamaños.

Y eso se convierte en una especie de caricatura, un niño podría dibujar con una figura de palo. Y luego lo que haces es enviar eso a otra rutina que anima esa figura de palo y hace que la persona mueva la cabeza o sonría o hable con textos que queremos animar el habla de una persona con un texto determinado mientras podemos hacer un modelo que predice cómo va a evolucionar su modelo de figura de palitos como la persona que está hablando. Y luego, una vez que tenemos ese tipo de dibujo de figura de palo animado, que muestra cómo debe moverse la persona, lo pasamos por una red neuronal que sintetiza un video a partir de eso y va más o menos desde la imagen inicial que tiene como, la apariencia de la persona y el fondo, etc., y luego lo anima a través de este tipo de animación de figura de palo para hacer el video.

Y a eso lo llamamos generación de video condicional, porque hay muchos videos diferentes que podrías producir a partir de la misma figura de palo. Entonces, lo que queremos hacer es elegir uno que parezca plausible condicionado a algún otro tipo de información, como quizás el texto que la persona está hablando, o quizás algún tipo de animación que queremos crear. Y la generación de video condicional es una idea muy poderosa y es algo que creo que con el tiempo evolucionará hacia una nueva forma de generar gráficos, una nueva forma de renderizar y crear gráficos.

Brent Leary: Incluso hay una parte de ese video donde la persona básicamente dijo, dibuja esto y en realidad comenzó a dibujarse.


Bryan Catanzaro: Correcto. El poder del aprendizaje profundo es que es una forma muy flexible de mapear de un espacio a otro. Y entonces, en ese video, estamos viendo muchos ejemplos de eso. Y este es otro ejemplo, pero desde el punto de vista de la tecnología de IA, todos son similares, porque lo que estamos haciendo es tratar de aprender un mapeo que va de X a Y. Y en este caso, estamos tratando para aprender un mapeo que va desde una descripción de texto de la escena a una figura de palo una caricatura de esa escena que. Digamos que dije un lago rodeado de árboles en las montañas. Quiero que el modelo entienda que las montañas van al fondo y tienen cierta forma.

Y luego, los árboles van en primer plano y luego justo en el medio, por lo general habrá un gran lago. Es posible entrenar un modelo basado en, digamos, mil o un millón de imágenes de paisajes naturales y tiene anotaciones que muestran, ¿cuál es el contenido de estas imágenes? Luego, puede entrenar al modelo para que vaya hacia el otro lado y diga, dado el texto, ¿puede crear una especie de caricatura de figura de palitos de cómo debería verse la escena? ¿Adónde van las montañas? ¿Adónde van los árboles? ¿Adónde va el agua? Y luego, una vez que tienes esa figura de palo, puedes enviarla a un modelo que elabora eso en una imagen. Y, y eso es lo que viste en ese video.

Avatares digitales y llamadas de Zoom

Mire este breve video sobre cómo se usará esta tecnología para hacer que las llamadas de Zoom sean una experiencia mucho mejor en un futuro cercano. Este escenario tiene a un chico siendo entrevistado para un trabajo a través de una llamada de Zoom.

Brent Leary: Lo bueno de eso es que, al final, dijo que la imagen de él se generó a partir de una foto de él; y era su voz. Se podía, en la pantalla se podía ver el movimiento de la boca. La calidad del audio es excelente, y él está sentado en una cafetería, donde podría haber mucho sonido en la cafetería, pero no escuchamos nada de ese sonido.

Bryan Catanzaro : Sí, bueno, estábamos muy orgullosos de esa demostración. Debería, también debería señalar que esa demostración ganó el premio al mejor espectáculo en la conferencia SIGGRAPH de este año, que es la conferencia gráfica más grande del mundo. Ese modelo era un modelo de síntesis de video generalizado. Hablamos antes sobre cómo puedes tomar una especie de figura de palo que representa a una persona y luego animarla. Bueno, una de las limitaciones de los modelos en el pasado es que tenías que entrenar un modelo completamente nuevo para cada situación. Así que digamos que si estoy en casa, tengo un modelo. Si estoy en la cafetería con un fondo diferente, necesito otro modelo. O si quiere hacer esto usted mismo, necesitaría un modelo para usted en este lugar, otro modelo para usted, otro lugar, cada vez que crea uno de estos modelos, debe capturar un conjunto de datos en esa ubicación con tal vez eso ropa o esas gafas puestas o lo que sea, y luego pasar una semana en una supercomputadora entrenando a un modelo, y eso es muy caro, ¿verdad? Así que la mayoría de nosotros nunca podríamos hacer eso. Eso realmente limitaría la forma en que se podría utilizar esta tecnología.

Creo que la innovación técnica detrás de esa animación en particular fue que crearon un modelo generalizado que podía funcionar básicamente con cualquier persona. Solo tiene que proporcionar una foto suya, que es lo suficientemente barata. Cualquiera puede hacer eso, ¿verdad? Y si vas a un lugar nuevo o llevas ropa o gafas diferentes, o lo que sea, ese día, puedes simplemente tomar una foto. Y luego el modelo, porque es general, puede resintetizar tu apariencia con solo usar esa foto como referencia.

Creo que eso es bastante emocionante. Ahora, más adelante en ese video, en realidad, también cambiaron a un modelo de síntesis de voz. Entonces, lo que escuchamos en ese clip era en realidad el personaje principal hablando con su propia voz, pero luego las cosas en la cafetería se vuelven tan ruidosas que termina cambiando a texto. Entonces él solo está escribiendo y el audio está siendo producido por uno de nuestros modelos de síntesis de voz.

Creo que dar a las personas la oportunidad de comunicarse de nuevas maneras solo ayuda a acercar a las personas.

Brent Leary: IA conversacional, ¿cómo va a cambiar eso la forma en que nos comunicamos y colaboramos en los próximos años?

Bryan Catanzaro : La forma principal en que los humanos se comunican es a través de conversaciones como las que tú y yo estamos teniendo en este momento, pero es muy difícil para los humanos tener una conversación significativa con la computadora, por varias razones. Una es que no se siente natural, ¿verdad? Por ejemplo, si suena como si estuvieras hablando con un robot, esa es una barrera que inhibe la comunicación. No parece una persona, no reacciona como una persona y obviamente las computadoras en estos días, ya sabes, la mayoría de los sistemas con los que tú y yo hemos interactuado, no entienden lo que los humanos pueden entender. Y así, la IA conversacional en cierto modo es el último desafío de la IA. De hecho, es posible que esté familiarizado con la prueba de Turing, Alan Turing, a quien muchos consideran el padre de la inteligencia artificial: estableció la IA conversacional como el objetivo final de la inteligencia artificial.

Porque si tienes una máquina que es capaz de conversar inteligentemente con un humano, entonces básicamente resolviste cualquier tipo de pregunta de inteligencia que puedas imaginar, porque cualquier información que tengan los humanos, cualquier sabiduría, cualquier idea que los humanos hayan creado en los últimos miles de años tiene todo, todo se ha expresado a través del lenguaje. Y eso significa que el lenguaje es una forma bastante general. Obviamente, es la única forma en que los humanos realmente pueden comunicar ideas complicadas. Y si somos capaces de hacer computadoras que puedan entender y comunicarse de manera inteligente, y con poca fricción, para que realmente se sienta como si estuvieras interactuando con la persona, entonces creo que podremos resolver muchos problemas. .

Creo que la IA conversacional seguirá siendo un foco de investigación de toda la industria durante mucho tiempo. Creo que es un tema tan profundo como todo el entendimiento y conocimiento humano. Si tú y yo tuviéramos un podcast sobre, digamos literatura rusa, habría muchas ideas especializadas de las que alguien con un doctorado en literatura rusa podría hablar mejor que yo, por ejemplo, ¿verdad? Entonces, incluso entre los humanos, nuestras capacidades en varios temas van a diferir. Y es por eso que creo que la IA conversacional será un desafío que nos seguirá involucrando en el futuro previsible, porque realmente es un desafío comprender todo lo que los humanos comprenden. Y no estamos cerca de hacerlo.

Esto es parte de la serie de entrevistas uno a uno con líderes de opinión. La transcripción ha sido editada para su publicación. Si se trata de una entrevista de audio o video, haga clic en el reproductor integrado de arriba o suscríbase a través de iTunes o Stitcher.