Bryan Catanzaro di NVIDIA – L'IA conversazionale in alcuni modi è l'ultima sfida dell'IA
Pubblicato: 2021-10-02Molti di voi appassionati di giochi o di editing video serio conoscono NVIDIA come creatori della tecnologia di elaborazione grafica leader sul mercato. Ma NVIDIA è anche leader nelle aree dell'intelligenza artificiale e del deep learning; in particolare su come queste tecnologie possono migliorare il modo in cui sperimentiamo grafica, sintesi di testo e video e IA conversazionale.
Alcuni dei loro lavori sono stati mostrati in una serie di video che hanno messo insieme chiamati I AM AI, che sono uno sguardo avvincente su ciò che è (e cosa sarà) a nostra disposizione per migliorare il modo in cui viviamo il mondo e l'altro. E di recente ho avuto l'opportunità di avere una conversazione LinkedIn Live con Bryan Catanzaro , Vice President, Applied Deep Learning Research di NVIDIA, per saperne di più sul loro lavoro con l'IA per reimmaginare il modo in cui sperimentiamo immagini e suoni.
Di seguito è riportata una trascrizione modificata di una parte della nostra conversazione. Fai clic sul lettore SoundCloud incorporato per ascoltare l'intera conversazione.
Assicurati di guardare le clip incorporate in quanto aiutano a inquadrare la nostra conversazione.
Brent Leary : Quella voce in quel video mi sembrava un vero essere umano. Sei abituato a sentire come Alexa e Siri, e prima era come, sai, non vogliamo nemmeno parlare delle voci per prima, ma quella suonava davvero come un essere umano con, con umano flessione e una certa profondità. È questa la cosa che stiamo guardando quando parli di reinventare la grafica e reinventare la tecnologia vocale e utilizzare la tecnologia più recente, inclusa l'intelligenza artificiale e il deep learning non solo per cambiare l'aspetto della grafica, ma anche per cambiare la sensazione e il suono di una macchina per farlo suona più come uno di noi.
Bryan Catanzaro : Dovrei assicurarmi che tu capisca che sebbene quella voce fosse sintetizzata, era anche diretta da vicino. Quindi non direi che quello era un pulsante, un sistema di sintesi vocale. Come potresti usare quando parli con un assistente virtuale. Invece, era una voce controllabile che i nostri algoritmi consentono ai produttori del video di creare. E uno dei modi in cui lo fanno è modellare l'inflessione, il ritmo e l'energia che vogliono che una parte particolare del video della narrazione abbia. Quindi, direi che non è solo una storia sull'intelligenza artificiale che migliora, ma è anche una storia su come gli esseri umani lavorano a stretto contatto con l'IA per costruire cose e hanno la capacità di creare voci sintetiche controllabili in questo modo.
Penso che questo apra nuove opportunità per la sintesi vocale nell'intrattenimento e nelle arti, credo. Penso che sia eccitante, ma è qualcosa che tu e il tuo pubblico dovreste capire che in realtà è stato diretto molto da vicino da una persona. Ora, ovviamente, stiamo lavorando sodo su algoritmi in grado di prevedere tutta quell'umanità lì, il ritmo, l'inflessione, l'intonazione. E penso che vedremo dei progressi piuttosto sorprendenti nei prossimi anni, in cui possiamo avere un sistema di sintesi vocale completamente a pulsante che ha la giusta flessione per andare di pari passo con il significato del testo, perché quando parli molto del significato è trasmesso attraverso l'inflessione della tua voce, non solo il significato delle parole che scegli.
E, se abbiamo modelli in grado di comprendere il significato dei testi, come alcuni di questi fantastici modelli linguistici a cui mi riferivo prima, dovremmo essere in grado di usarli per dirigere la sintesi vocale in un modo che abbia un significato. Ed è qualcosa di cui sono molto entusiasta. è interessante.
Sento che abbiamo una sorta di pregiudizio culturale, forse è specifico degli Stati Uniti. Non ne sono sicuro, ma abbiamo questo pregiudizio culturale per cui i computer non possono parlare in modo umano. E forse viene in qualche modo da Star Trek: The Next Generation in cui Data era come un'incredibile macchina informatica, e poteva risolvere qualsiasi problema e inventare nuove teorie della fisica, ma non poteva mai parlare nello stesso modo in cui potrebbe parlare un essere umano, o forse risale a, sai.
Brent Leary : Spock, forse.
Bryan Catanzaro: Era sgradevole come la sua, la sua voce, come se fosse inquietante, sai. E così abbiamo 50 anni, diverse generazioni di cultura che ci dicono che un computer non può parlare in modo umano. E in realtà penso che non sia così. Penso che possiamo far parlare un computer in un modo più umano, e, e lo faremo. E penso anche che i vantaggi di quella tecnologia saranno grandiosi per tutti noi.
Brent Leary: L'altra cosa che spiccava in quella clip era l'Amelia Earhart, con la sua foto che sembrava prendere vita. Puoi parlarne, suppongo che faccia parte del reinventare la grafica usando l'IA.
Bryan Catanzaro : Sì, è vero. NVIDIA Research è stata davvero coinvolta in molte tecnologie per sintetizzare fondamentalmente video e sintetizzare immagini utilizzando l'intelligenza artificiale. E questo è un esempio, ne hai visto uno in cui la rete neurale stava colorando un'immagine, dandoci in qualche modo nuovi modi di guardare al passato. E quando ci pensi, sai cosa comporta la colorazione di un'immagine. L'IA deve comprendere il contenuto dell'immagine per assegnargli i possibili colori, come, ad esempio, l'erba è solitamente verde, ma se non sai dove si trova l'erba, non dovresti colorare nulla di verde e gli approcci tradizionali alla colorazione delle immagini erano, direi, un po' contrari al rischio. Ma man mano che l'IA riesce a capire meglio il contenuto di un'immagine e quali oggetti ci sono e come si relazionano tra loro, allora può fare molto meglio nell'assegnare possibili colori all'immagine, in modo da darle vita.
Questo è un esempio, questo problema di colorazione dell'immagine. Ma penso che in quel video abbiamo visto molti altri esempi in cui siamo stati in grado di scattare immagini e poi animarle in vari modi.
Sintesi visiva condizionata
Una delle tecnologie a cui siamo stati davvero interessati è, si chiama sintesi video condizionale, in cui puoi creare un video basato su una sorta di schizzo e, sai, per qualcosa del genere, quello che faresti è opporsi al riconoscimento che analizza la struttura degli oggetti. Ad esempio, una faccia, e qui ci sono gli occhi e qui c'è il naso, quindi assegna un tipo di posizione all'oggetto e le dimensioni.
E questo diventa una specie di cartone animato, un bambino potrebbe disegnare con una figura stilizzata. E poi quello che fai è inviarlo in un'altra routine che anima quella figura stilizzata e fa muovere la testa o sorridere o, o parlare con i testi che vogliamo animare il discorso di una persona a un determinato testo mentre possiamo creare un modello che predice come si evolverà il loro modello a figura stilizzata, come la persona che sta parlando. E poi una volta che abbiamo quel tipo di disegno animato di una figura stilizzata, che mostra come la persona dovrebbe muoversi, lo inseriamo attraverso una rete neurale che sintetizza un video da quello e, e va in qualche modo dall'immagine iniziale che ha come, l'aspetto della persona e la, e lo sfondo e così via, e quindi lo anima tramite questa sorta di animazione di una figura stilizzata per realizzare il video.
E la chiamiamo generazione video condizionata, perché ci sono molti video diversi che potresti produrre dalla stessa figura stilizzata. E quindi quello che vogliamo fare è sceglierne una che sembri plausibile condizionata, da una sorta di altra informazione, come forse il testo che sta parlando la persona, o forse una sorta di animazione che vogliamo creare. E la generazione condizionale di video è un'idea molto potente ed è qualcosa che penso che nel tempo si evolverà in un nuovo modo di generare grafica, un nuovo modo di renderizzare e creare grafica.
Brent Leary: C'è anche un pezzo di quel video in cui la persona ha praticamente detto, disegna questo e in realtà ha iniziato a essere disegnato.
