Bryan Catanzaro de la NVIDIA – Conversational AI in Some Ways este Ultimate AI Challenge
Publicat: 2021-10-02Mulți dintre voi care sunt în gaming sau editarea video serioasă cunoașteți NVIDIA ca fiind creatorii celei mai importante tehnologii de procesare grafică de pe piață. Dar NVIDIA este și lider în domeniile inteligenței artificiale și învățării profunde; în special în modul în care aceste tehnologii pot îmbunătăți modul în care experimentăm grafica, sinteza textului și video și AI conversațional.
O parte din munca lor a fost prezentată într-o serie de videoclipuri pe care le-au creat, numite EU SUNT AI, care reprezintă o privire convingătoare asupra a ceea ce ne este (și ce va fi) disponibil pentru a îmbunătăți modul în care experimentăm lumea – și unii pe alții. Și recent am avut ocazia să am o conversație pe LinkedIn Live cu Bryan Catanzaro , vicepreședinte, Cercetare aplicată în învățare profundă la NVIDIA, pentru a afla mai multe despre munca lor cu AI pentru a reimagina modul în care experimentăm imaginile și sunetele.
Mai jos este o transcriere editată a unei părți a conversației noastre. Faceți clic pe playerul SoundCloud încorporat pentru a asculta conversația completă.
Asigurați-vă că urmăriți clipurile încorporate, deoarece acestea ajută la încadrarea conversației noastre.
Brent Leary : Acea voce din acel videoclip mi-a sunat ca o ființă umană adevărată. Ești obișnuit să auzi ca Alexa și Siri, și înainte de asta era ca, știi, chiar nu vrem să vorbim despre vocile de înainte, dar aia chiar suna ca o ființă umană cu, cu oameni. inflexiune și o oarecare adâncime. Acesta este lucrul la care ne uităm atunci când vorbim despre reinventarea graficii și reinventarea tehnologiei vocale și utilizarea tehnologiilor mai noi, inclusiv AI și învățarea profundă, nu numai pentru a schimba aspectul graficii, ci și a schimba senzația și sunetul unei mașini pentru a o face sună mai mult ca unul dintre noi.
Bryan Catanzaro : Ar trebui să mă asigur că înțelegeți că, deși acea voce a fost sintetizată, a fost și regizată îndeaproape. Deci nu aș spune că a fost un buton, un sistem de sinteză a vorbirii. Așa cum ați putea folosi atunci când vorbiți cu un asistent virtual. În schimb, a fost o voce controlabilă pe care algoritmii noștri le permit producătorilor videoclipului să o creeze. Și una dintre modalitățile prin care fac asta este prin modelarea inflexiunii și a ritmului și a energiei pe care doresc să o aibă o anumită parte a videoclipului narațiunii. Și așa, aș spune că nu este doar o poveste despre AI care se îmbunătățește, ci este și o poveste despre modul în care oamenii lucrează mai strâns cu AI pentru a construi lucruri și au capacitatea de a crea voci sintetice care sunt controlabile în acest fel.
Cred că acest lucru deschide noi oportunități pentru sinteza vorbirii în divertisment și arte, cred. Cred că este interesant, dar este ceva ce tu și publicul tău ar trebui să înțelegi a fost de fapt foarte îndeaproape regizat de o persoană. Acum, desigur, lucrăm din greu la algoritmi care sunt capabili să prezică toată acea umanitate de acolo, ritmul, inflexiunea, înclinația. Și cred că vom vedea niște progrese destul de uimitoare în acest sens în următorii câțiva ani, în care putem avea un sistem de sinteză a vorbirii complet cu buton, care are inflexiunea potrivită pentru a merge împreună cu sensul textului, pentru că atunci când vorbiți o mare parte din sensul este transmis prin inflexia vocii tale, nu doar prin sensul cuvintelor pe care le alegeți.
Și, dacă avem modele care sunt capabile să înțeleagă sensul textelor, cum ar fi unele dintre aceste modele de limbaj uimitoare la care mă refeream mai devreme, ar trebui să le putem folosi pentru a direcționa sinteza vorbirii într-un mod care are sens. Și asta e ceva de care sunt foarte entuziasmat. e interesant.
Simt că avem un fel de părtinire culturală, poate este specifică Statelor Unite. Nu sunt sigur, dar avem această părtinire culturală pe care computerele nu pot vorbi într-un mod asemănător omului. Și poate că vine oarecum din Star Trek: The Next Generation, unde datele erau ca o mașină de calcul incredibilă și putea rezolva orice problemă și inventa noi teorii ale fizicii, dar nu putea niciodată să vorbească în același mod în care ar putea un om, sau poate că se reia până la, știi.
Brent Leary : Spock, poate.
Bryan Catanzaro: A fost dezamăgitor ca a lui, vocea lui, parcă era înfiorătoare, știi. Și așa avem 50 de ani, câteva generații de cultură care ne spun că un computer nu poate vorbi într-un mod asemănător omului. Și, de fapt, cred că nu este cazul. Cred că putem face un computer să vorbească într-un mod mai asemănător uman și, și vom face. Și, de asemenea, cred că beneficiile acestei tehnologii vor fi destul de grozave pentru noi toți.
Brent Leary: Celălalt lucru care a ieșit în evidență în acel clip a fost Amelia Earhart, cu poza ei părând să prindă viață. Poți să vorbești despre, presupun că asta face parte din reinventarea graficii folosind AI.
Bryan Catanzaro : Da, așa e. Cercetarea NVIDIA a fost într-adevăr implicată într-o mulțime de tehnologii pentru a sintetiza, practic, videoclipuri și imagini folosind inteligența artificială. Și acesta este un exemplu, ați văzut unul în care rețeaua neuronală colora o imagine, dându-ne un fel de noi moduri de a privi trecutul. Și când te gândești la asta, știi ce este implicat în colorarea unei imagini. AI trebuie să înțeleagă conținutul imaginii pentru a le atribui posibile culori, cum ar fi, de exemplu, iarba este de obicei verde, dar dacă nu știi unde este iarba, atunci nu ar trebui să colorezi nimic verde și abordările tradiționale de colorare a imaginilor au fost, aș spune, un pic neplăcute pentru riscuri. Dar, pe măsură ce AI înțelege mai bine conținutul unei imagini și ce obiecte sunt acolo și modul în care obiectele se relaționează între ele, atunci poate face mult mai bine în a atribui imagini posibile culori care îi dă viață.
Acesta este un exemplu, această problemă de colorare a imaginii. Dar cred că în acel videoclip am văzut alte câteva exemple în care am putut să facem imagini și apoi să le animam în diferite moduri.
Sinteza Condițională vizuală
Una dintre tehnologiile care ne-au interesat cu adevărat este, se numește sinteza video condiționată, în care poți crea un videoclip bazat pe un fel de schiță și, știi, pentru așa ceva, ceea ce ai face este se opune recunoașterii care analizează structura obiectelor. De exemplu, o față, iar aici sunt ochii și aici este nasul, apoi atribuie un fel de poziții obiectului și dimensiunilor.
Și asta devine un fel de desene animate, un copil ar putea să deseneze cu o figură. Și apoi ceea ce faci este să trimiți asta într-o altă rutină care animă acea figură și o face pe persoană să-și miște capul sau să zâmbească sau să vorbească cu texte pe care dorim să animem vorbirea unei persoane cu un anumit text, în timp ce putem face un model care prezice modul în care modelul lor stick-figure va evolua ca persoană care vorbește. Și apoi, odată ce avem acel tip de desen animat de stick-figură, care arată cum ar trebui să se miște persoana, apoi îl punem printr-o rețea neuronală care sintetizează un videoclip din asta și, și merge cam de la imaginea inițială care are ca... aspectul persoanei și al, și fundalul și așa mai departe, apoi îl animă prin acest tip de animație cu figurine pentru a realiza videoclipul.
Și o numim generație video condiționată, deoarece există multe videoclipuri diferite pe care le-ai putea produce din aceeași cifră. Și așa că ceea ce vrem să facem este să alegem una care pare plauzibilă condiționată de un fel de alte informații, cum ar fi poate textul pe care îl vorbește persoana respectivă sau poate un fel de animație pe care vrem să o creăm. Iar generarea video condiționată este o idee foarte puternică și este ceva despre care cred că în timp va evolua într-un nou mod de a genera grafică, un nou mod de a randa și de a crea grafică.
Brent Leary: Există chiar și o bucată din acel videoclip în care persoana a spus practic, desenează asta și de fapt a început să fie desenată.
