Bryan Catanzaro de NVIDIA: La IA conversacional en cierto modo es el desafío definitivo de la IA
Publicado: 2021-10-02Muchos de ustedes que están interesados en los juegos o en la edición de video seria conocen a NVIDIA como creadores de la tecnología de procesamiento de gráficos líder en el mercado. Pero NVIDIA también es líder en las áreas de inteligencia artificial y aprendizaje profundo; específicamente en cómo estas tecnologías pueden mejorar la forma en que experimentamos la síntesis de gráficos, texto y video, y la IA conversacional.
Parte de su trabajo se mostró en una serie de videos que compilaron llamados YO SOY IA, que son una mirada convincente a lo que está (y lo que estará) disponible para nosotros para mejorar la forma en que experimentamos el mundo y entre nosotros. Y recientemente tuve la oportunidad de tener una conversación en vivo de LinkedIn con Bryan Catanzaro , vicepresidente de investigación de aprendizaje profundo aplicado en NVIDIA, para escuchar más sobre su trabajo con IA para reimaginar cómo experimentamos las imágenes y los sonidos.
A continuación se muestra una transcripción editada de una parte de nuestra conversación. Haga clic en el reproductor de SoundCloud incorporado para escuchar la conversación completa.
Asegúrese de ver los clips incrustados, ya que ayudan a enmarcar nuestra conversación.
Brent Leary : Esa voz en ese video me sonaba como un ser humano real. Estás acostumbrado a escuchar como Alexa y Siri, y antes de eso era como, ya sabes, ni siquiera queremos hablar de las voces antes de eso, pero esa realmente sonaba como un ser humano con, con humano inflexión y algo de profundidad. ¿Es eso lo que estamos viendo cuando habla de reinventar los gráficos y reinventar la tecnología de voz y usar tecnología más nueva, incluida la IA y el aprendizaje profundo, no solo para cambiar el aspecto de los gráficos, sino también para cambiar la sensación y el sonido de una máquina para hacerlo? sonar más como uno de nosotros.
Bryan Catanzaro : Debo asegurarme de que entiendas que aunque esa voz fue sintetizada, también fue dirigida de cerca. Así que no diría que se trata de un sistema de síntesis de voz con botón pulsador. Como podrías usar cuando hablas con un asistente virtual. En cambio, fue una voz controlable que nuestros algoritmos permitieron crear a los productores del video. Y una de las formas en que lo hacen es modelando la inflexión y el ritmo y la energía que quieren que tenga una parte particular del video de la narración. Entonces, diría que no es solo una historia sobre la mejora de la IA, sino también una historia sobre cómo los humanos trabajan más de cerca con la IA para construir cosas y tener la capacidad de hacer voces sintéticas que son controlables de esta manera.
Creo que esto abre nuevas oportunidades para la síntesis de voz en el entretenimiento y las artes. Creo que es emocionante, pero es algo que usted y su audiencia deben entender que en realidad fue dirigido muy de cerca por una persona. Ahora, por supuesto, estamos trabajando arduamente en algoritmos que puedan predecir toda esa humanidad allí, el ritmo, la inflexión, el tono. Y creo que vamos a ver algunos avances bastante sorprendentes en los próximos años, en los que podemos tener un sistema de síntesis de voz con botón pulsador que tiene la inflexión correcta para acompañar el significado del texto, porque cuando hablas mucho, el significado se transmite a través de la inflexión de tu voz, no solo el significado de las palabras que eliges.
Y, si tenemos modelos que pueden comprender el significado de los textos, como algunos de estos sorprendentes modelos de lenguaje a los que me refería antes, deberíamos poder usarlos para dirigir la síntesis del habla de una manera que tenga significado. Y eso es algo que me emociona mucho. es interesante.
Siento que tenemos una especie de sesgo cultural, tal vez sea específico de los Estados Unidos. No estoy seguro, pero tenemos este sesgo cultural de que las computadoras no pueden hablar como los humanos. Y tal vez proviene un poco de Star Trek: The Next Generation, donde Data era como una increíble máquina de computación y podía resolver cualquier problema e inventar nuevas teorías de la física, pero nunca podía hablar de la misma manera que un humano, o tal vez se remonta a, ya sabes.
Brent Leary : Spock, tal vez.
Bryan Catanzaro: Fue desagradable como la suya, su voz, como espeluznante, ya sabes. Y así tenemos 50 años, varias generaciones de cultura diciéndonos que una computadora no puede hablar como un humano. Y en realidad creo que ese no es el caso. Creo que podemos hacer que una computadora hable de una manera más humana, y lo haremos. Y también creo que los beneficios de esa tecnología van a ser muy buenos para todos nosotros.
Brent Leary: La otra cosa que se destacó en ese clip fue Amelia Earhart, con su imagen que parecía cobrar vida. ¿Puedes hablar sobre eso? Supongo que eso es parte de reinventar gráficos usando IA.
Bryan Catanzaro : Sí, así es. NVIDIA Research ha estado realmente involucrado en muchas tecnologías para sintetizar básicamente videos y sintetizar imágenes usando inteligencia artificial. Y ese es un ejemplo, viste uno en el que la red neuronal estaba coloreando una imagen, brindándonos nuevas formas de ver el pasado. Y cuando piensas en eso, sabes lo que implica colorear una imagen. La IA necesita comprender el contenido de la imagen para asignarles posibles colores, como, por ejemplo, el césped suele ser verde, pero si no sabe dónde está el césped, entonces no debe colorear nada verde y Los enfoques tradicionales para colorear imágenes eran, diría yo, un poco reacios al riesgo. Pero a medida que la IA mejora en la comprensión del contenido de una imagen y qué objetos hay allí y cómo se relacionan entre sí, puede hacer mucho mejor al asignar posibles colores a la imagen que le dan vida.
Ese es un ejemplo, este problema de coloración de imágenes. Pero creo que en ese video, vimos varios otros ejemplos en los que pudimos tomar imágenes y luego animarlas de varias maneras.
Síntesis condicional visual
Una de las tecnologías en las que hemos estado realmente interesados es la llamada síntesis de video condicional, donde puedes crear un video basado en una especie de boceto y, ya sabes, para algo como esto, lo que harías es oponerse al reconocimiento que analiza la estructura de los objetos. Por ejemplo, una cara, y aquí están los ojos y aquí está la nariz, y luego asigna tipos de posiciones al objeto y tamaños.
Y eso se convierte en una especie de caricatura, un niño podría dibujar con una figura de palo. Y luego lo que haces es enviar eso a otra rutina que anima esa figura de palo y hace que la persona mueva la cabeza o sonría o hable con textos que queremos animar el habla de una persona con un texto determinado mientras podemos hacer un modelo que predice cómo va a evolucionar su modelo de figura de palitos como la persona que está hablando. Y luego, una vez que tenemos ese tipo de dibujo de figura de palo animado, que muestra cómo debe moverse la persona, lo pasamos por una red neuronal que sintetiza un video a partir de eso y va más o menos desde la imagen inicial que tiene como, la apariencia de la persona y el fondo, etc., y luego lo anima a través de este tipo de animación de figura de palo para hacer el video.
Y a eso lo llamamos generación de video condicional, porque hay muchos videos diferentes que podrías producir a partir de la misma figura de palo. Entonces, lo que queremos hacer es elegir uno que parezca plausible condicionado a algún otro tipo de información, como quizás el texto que la persona está hablando, o quizás algún tipo de animación que queremos crear. Y la generación de video condicional es una idea muy poderosa y es algo que creo que con el tiempo evolucionará hacia una nueva forma de generar gráficos, una nueva forma de renderizar y crear gráficos.
Brent Leary: Incluso hay una parte de ese video donde la persona básicamente dijo, dibuja esto y en realidad comenzó a dibujarse.
