Bryan Catanzaro di NVIDIA – L'IA conversazionale in alcuni modi è l'ultima sfida dell'IA

Pubblicato: 2021-10-02

Molti di voi appassionati di giochi o di editing video serio conoscono NVIDIA come creatori della tecnologia di elaborazione grafica leader sul mercato. Ma NVIDIA è anche leader nelle aree dell'intelligenza artificiale e del deep learning; in particolare su come queste tecnologie possono migliorare il modo in cui sperimentiamo grafica, sintesi di testo e video e IA conversazionale.

Alcuni dei loro lavori sono stati mostrati in una serie di video che hanno messo insieme chiamati I AM AI, che sono uno sguardo avvincente su ciò che è (e cosa sarà) a nostra disposizione per migliorare il modo in cui viviamo il mondo e l'altro. E di recente ho avuto l'opportunità di avere una conversazione LinkedIn Live con Bryan Catanzaro , Vice President, Applied Deep Learning Research di NVIDIA, per saperne di più sul loro lavoro con l'IA per reimmaginare il modo in cui sperimentiamo immagini e suoni.

Di seguito è riportata una trascrizione modificata di una parte della nostra conversazione. Fai clic sul lettore SoundCloud incorporato per ascoltare l'intera conversazione.

smallbiztrends · Bryan Catanzaro di NVIDIA – L'IA conversazionale in un certo senso è l'ultima sfida dell'IA

Assicurati di guardare le clip incorporate in quanto aiutano a inquadrare la nostra conversazione.

Brent Leary : Quella voce in quel video mi sembrava un vero essere umano. Sei abituato a sentire come Alexa e Siri, e prima era come, sai, non vogliamo nemmeno parlare delle voci per prima, ma quella suonava davvero come un essere umano con, con umano flessione e una certa profondità. È questa la cosa che stiamo guardando quando parli di reinventare la grafica e reinventare la tecnologia vocale e utilizzare la tecnologia più recente, inclusa l'intelligenza artificiale e il deep learning non solo per cambiare l'aspetto della grafica, ma anche per cambiare la sensazione e il suono di una macchina per farlo suona più come uno di noi.

Bryan Catanzaro : Dovrei assicurarmi che tu capisca che sebbene quella voce fosse sintetizzata, era anche diretta da vicino. Quindi non direi che quello era un pulsante, un sistema di sintesi vocale. Come potresti usare quando parli con un assistente virtuale. Invece, era una voce controllabile che i nostri algoritmi consentono ai produttori del video di creare. E uno dei modi in cui lo fanno è modellare l'inflessione, il ritmo e l'energia che vogliono che una parte particolare del video della narrazione abbia. Quindi, direi che non è solo una storia sull'intelligenza artificiale che migliora, ma è anche una storia su come gli esseri umani lavorano a stretto contatto con l'IA per costruire cose e hanno la capacità di creare voci sintetiche controllabili in questo modo.

Penso che questo apra nuove opportunità per la sintesi vocale nell'intrattenimento e nelle arti, credo. Penso che sia eccitante, ma è qualcosa che tu e il tuo pubblico dovreste capire che in realtà è stato diretto molto da vicino da una persona. Ora, ovviamente, stiamo lavorando sodo su algoritmi in grado di prevedere tutta quell'umanità lì, il ritmo, l'inflessione, l'intonazione. E penso che vedremo dei progressi piuttosto sorprendenti nei prossimi anni, in cui possiamo avere un sistema di sintesi vocale completamente a pulsante che ha la giusta flessione per andare di pari passo con il significato del testo, perché quando parli molto del significato è trasmesso attraverso l'inflessione della tua voce, non solo il significato delle parole che scegli.

E, se abbiamo modelli in grado di comprendere il significato dei testi, come alcuni di questi fantastici modelli linguistici a cui mi riferivo prima, dovremmo essere in grado di usarli per dirigere la sintesi vocale in un modo che abbia un significato. Ed è qualcosa di cui sono molto entusiasta. è interessante.

Sento che abbiamo una sorta di pregiudizio culturale, forse è specifico degli Stati Uniti. Non ne sono sicuro, ma abbiamo questo pregiudizio culturale per cui i computer non possono parlare in modo umano. E forse viene in qualche modo da Star Trek: The Next Generation in cui Data era come un'incredibile macchina informatica, e poteva risolvere qualsiasi problema e inventare nuove teorie della fisica, ma non poteva mai parlare nello stesso modo in cui potrebbe parlare un essere umano, o forse risale a, sai.

Brent Leary : Spock, forse.

Bryan Catanzaro: Era sgradevole come la sua, la sua voce, come se fosse inquietante, sai. E così abbiamo 50 anni, diverse generazioni di cultura che ci dicono che un computer non può parlare in modo umano. E in realtà penso che non sia così. Penso che possiamo far parlare un computer in un modo più umano, e, e lo faremo. E penso anche che i vantaggi di quella tecnologia saranno grandiosi per tutti noi.

Brent Leary: L'altra cosa che spiccava in quella clip era l'Amelia Earhart, con la sua foto che sembrava prendere vita. Puoi parlarne, suppongo che faccia parte del reinventare la grafica usando l'IA.

Bryan Catanzaro : Sì, è vero. NVIDIA Research è stata davvero coinvolta in molte tecnologie per sintetizzare fondamentalmente video e sintetizzare immagini utilizzando l'intelligenza artificiale. E questo è un esempio, ne hai visto uno in cui la rete neurale stava colorando un'immagine, dandoci in qualche modo nuovi modi di guardare al passato. E quando ci pensi, sai cosa comporta la colorazione di un'immagine. L'IA deve comprendere il contenuto dell'immagine per assegnargli i possibili colori, come, ad esempio, l'erba è solitamente verde, ma se non sai dove si trova l'erba, non dovresti colorare nulla di verde e gli approcci tradizionali alla colorazione delle immagini erano, direi, un po' contrari al rischio. Ma man mano che l'IA riesce a capire meglio il contenuto di un'immagine e quali oggetti ci sono e come si relazionano tra loro, allora può fare molto meglio nell'assegnare possibili colori all'immagine, in modo da darle vita.

Questo è un esempio, questo problema di colorazione dell'immagine. Ma penso che in quel video abbiamo visto molti altri esempi in cui siamo stati in grado di scattare immagini e poi animarle in vari modi.

Sintesi visiva condizionata

Una delle tecnologie a cui siamo stati davvero interessati è, si chiama sintesi video condizionale, in cui puoi creare un video basato su una sorta di schizzo e, sai, per qualcosa del genere, quello che faresti è opporsi al riconoscimento che analizza la struttura degli oggetti. Ad esempio, una faccia, e qui ci sono gli occhi e qui c'è il naso, quindi assegna un tipo di posizione all'oggetto e le dimensioni.

E questo diventa una specie di cartone animato, un bambino potrebbe disegnare con una figura stilizzata. E poi quello che fai è inviarlo in un'altra routine che anima quella figura stilizzata e fa muovere la testa o sorridere o, o parlare con i testi che vogliamo animare il discorso di una persona a un determinato testo mentre possiamo creare un modello che predice come si evolverà il loro modello a figura stilizzata, come la persona che sta parlando. E poi una volta che abbiamo quel tipo di disegno animato di una figura stilizzata, che mostra come la persona dovrebbe muoversi, lo inseriamo attraverso una rete neurale che sintetizza un video da quello e, e va in qualche modo dall'immagine iniziale che ha come, l'aspetto della persona e la, e lo sfondo e così via, e quindi lo anima tramite questa sorta di animazione di una figura stilizzata per realizzare il video.

E la chiamiamo generazione video condizionata, perché ci sono molti video diversi che potresti produrre dalla stessa figura stilizzata. E quindi quello che vogliamo fare è sceglierne una che sembri plausibile condizionata, da una sorta di altra informazione, come forse il testo che sta parlando la persona, o forse una sorta di animazione che vogliamo creare. E la generazione condizionale di video è un'idea molto potente ed è qualcosa che penso che nel tempo si evolverà in un nuovo modo di generare grafica, un nuovo modo di renderizzare e creare grafica.

Brent Leary: C'è anche un pezzo di quel video in cui la persona ha praticamente detto, disegna questo e in realtà ha iniziato a essere disegnato.


Bryan Catanzaro: Giusto. Il potere del deep learning è che è un modo molto flessibile di mappare da uno spazio all'altro. E quindi in quel video ne vediamo molti esempi. E questo è un altro esempio, ma dal punto di vista della tecnologia AI sono tutti simili, perché quello che stiamo facendo è cercare di imparare una mappatura che va da X a Y. E in questo caso, stiamo provando per imparare una mappatura che va da una descrizione testuale della scena a una figura stilizzata un cartone animato di quella scena che. Diciamo che ho detto un lago circondato da alberi in montagna. Voglio che il modello capisca che le montagne stanno sullo sfondo e hanno una certa forma.

E poi, gli alberi vanno in primo piano e poi proprio nel mezzo, di solito ci sarà un grande lago. È possibile addestrare un modello basato, diciamo, su un migliaio o un milione di immagini di paesaggi naturali e hai delle annotazioni che mostrano, quali sono i contenuti di queste immagini? Quindi puoi addestrare il modello ad andare dall'altra parte e dire, dato il testo, puoi creare una specie di cartone animato con figure stilizzate di come dovrebbe essere la scena? Dove vanno le montagne? Dove vanno gli alberi? Dove va l'acqua? E poi una volta che hai quella figura stilizzata, puoi inviarla a un modello che la elabora in un'immagine. Ed ecco cosa hai visto in quel video.

Avatar digitali e chiamate Zoom

Guarda questo breve video su come questa tecnologia verrà utilizzata per rendere le chiamate Zoom un'esperienza molto migliore nel prossimo futuro. Questo scenario ha un ragazzo che viene intervistato per un lavoro tramite una chiamata Zoom.

Brent Leary: La cosa interessante è che, alla fine, ha detto che l'immagine di lui è stata generata da una sua foto; ed era la sua voce. Potresti, sullo schermo potresti vedere il movimento della bocca. La qualità dell'audio è ottima, ed è seduto in un bar, che potrebbe esserci un sacco di suoni in corso in un bar, ma non abbiamo sentito nessuno di quei suoni.

Bryan Catanzaro : Sì, beh, eravamo davvero orgogliosi di quella demo. Dovrei, dovrei anche notare che quella demo ha vinto il Best in Show alla conferenza SIGGRAPH di quest'anno, che è la più grande conferenza grafica del mondo. Quel modello era un modello di sintesi video generalizzato. Stavamo parlando in precedenza di come puoi prendere una specie di rappresentazione di una figura stilizzata di una persona e poi animarla. Bene, uno dei limiti dei modelli in passato è che dovevi addestrare un modello completamente nuovo per ogni situazione. Quindi diciamo che se sono a casa, ho un modello. Se sono al bar con un background diverso, ho bisogno di un altro modello. Oppure, se vuoi farlo da solo, avresti bisogno di un modello per te stesso in questo posto, un altro modello per te stesso, un altro posto, ogni volta che crei uno di questi modelli, devi acquisire un set di dati in quella posizione con forse quello set di vestiti o quegli occhiali o altro, e poi passare una settimana su un supercomputer ad addestrare una modella, ed è davvero costoso, giusto? Quindi la maggior parte di noi non potrebbe mai farlo. Ciò limiterebbe davvero il modo in cui questa tecnologia potrebbe essere utilizzata.

Penso che l'innovazione tecnica alla base di quella particolare animazione sia stata che hanno escogitato un modello generalizzato che poteva funzionare praticamente con chiunque. Devi solo fornire una tua foto, che è abbastanza economica. Qualcuno può farlo, giusto? E se vai in una nuova posizione o indossi abiti o occhiali diversi, o qualsiasi altra cosa, quel giorno, puoi semplicemente scattare una foto. E poi il modello, poiché è generale, è in grado di sintetizzare nuovamente il tuo aspetto usando solo quella foto come riferimento.

Penso che sia piuttosto eccitante. Ora più avanti in quel video, in realtà, sono passati anche a un modello di sintesi vocale. Quindi quello che abbiamo sentito in quella clip era in realtà il personaggio principale che parlava con la sua stessa voce, ma in seguito le cose nella caffetteria diventano così rumorose che finisce per passare al testo. Quindi sta semplicemente digitando e l'audio viene prodotto da uno dei nostri modelli di sintesi vocale.

Penso che dare alle persone l'opportunità di comunicare in modi nuovi aiuti solo ad avvicinare le persone.

Brent Leary: AI conversazionale, come cambierà il modo in cui comunichiamo e collaboriamo negli anni a venire?

Bryan Catanzaro : Il modo principale in cui gli esseri umani comunicano è attraverso la conversazione, proprio come io e te stiamo avendo in questo momento, ma è molto difficile per gli umani avere una conversazione significativa con il computer, per una serie di motivi. Uno è che non sembra naturale, giusto? Come se sembra che tu stia parlando con un robot, è una barriera che inibisce la comunicazione. Non sembra una persona, non reagisce come una persona e ovviamente i computer in questi giorni, sai, la maggior parte dei sistemi con cui tu ed io abbiamo interagito, non capiscono cosa possono capire gli umani. E quindi l'IA conversazionale in qualche modo è l'ultima sfida dell'IA. In effetti, potresti avere familiarità con il test di Turing, Alan Turing, che è considerato da molti il ​​padre dell'intelligenza artificiale: ha impostato l'IA conversazionale come obiettivo finale dell'intelligenza artificiale.

Perché se hai una macchina che è in grado di conversare in modo intelligente con un essere umano, in pratica hai risolto qualsiasi tipo di domanda di intelligenza che puoi immaginare, perché qualsiasi informazione che gli umani hanno, qualsiasi saggezza, qualsiasi idea che gli umani hanno creato negli ultimi migliaia di anni ha tutto, sono stati tutti espressi attraverso il linguaggio. E quindi questo significa che il linguaggio è un modo abbastanza generale. Ovviamente è davvero l'unico modo per gli umani di comunicare idee complicate. E se siamo in grado di realizzare computer in grado di comprendere e comunicare in modo intelligente e con un basso attrito, in modo che sembri davvero che tu stia interagendo con la persona, penso che saremo in grado di risolvere molti problemi .

Penso che l'IA conversazionale continuerà a essere al centro della ricerca dell'intero settore per molto tempo. Penso che sia un argomento profondo come tutta la comprensione e la conoscenza umana. Se tu ed io stessimo facendo un podcast, diciamo sulla letteratura russa, ci sarebbero molte idee specialistiche di cui qualcuno con un dottorato di ricerca in letteratura russa sarebbe in grado di parlare meglio di me, per esempio, giusto? Quindi, anche tra gli esseri umani, le nostre capacità in vari argomenti saranno diverse. Ed è per questo che penso che l'IA conversazionale sarà una sfida che continua a coinvolgerci nel prossimo futuro, perché è davvero una sfida capire tutto ciò che gli umani capiscono. E non siamo vicini a farlo.

Questo fa parte della serie di interviste One-to-One con leader di pensiero. La trascrizione è stata modificata per la pubblicazione. Se si tratta di un'intervista audio o video, fai clic sul player incorporato in alto o iscriviti tramite iTunes o tramite Stitcher.