Bryan Catanzaro de la NVIDIA – Conversational AI in Some Ways este Ultimate AI Challenge

Publicat: 2021-10-02

Mulți dintre voi care sunt în gaming sau editarea video serioasă cunoașteți NVIDIA ca fiind creatorii celei mai importante tehnologii de procesare grafică de pe piață. Dar NVIDIA este și lider în domeniile inteligenței artificiale și învățării profunde; în special în modul în care aceste tehnologii pot îmbunătăți modul în care experimentăm grafica, sinteza textului și video și AI conversațional.

O parte din munca lor a fost prezentată într-o serie de videoclipuri pe care le-au creat, numite EU SUNT AI, care reprezintă o privire convingătoare asupra a ceea ce ne este (și ce va fi) disponibil pentru a îmbunătăți modul în care experimentăm lumea – și unii pe alții. Și recent am avut ocazia să am o conversație pe LinkedIn Live cu Bryan Catanzaro , vicepreședinte, Cercetare aplicată în învățare profundă la NVIDIA, pentru a afla mai multe despre munca lor cu AI pentru a reimagina modul în care experimentăm imaginile și sunetele.

Mai jos este o transcriere editată a unei părți a conversației noastre. Faceți clic pe playerul SoundCloud încorporat pentru a asculta conversația completă.

smallbiztrends · Bryan Catanzaro de la NVIDIA – AI conversațional, în anumite privințe, este provocarea supremă AI

Asigurați-vă că urmăriți clipurile încorporate, deoarece acestea ajută la încadrarea conversației noastre.

Brent Leary : Acea voce din acel videoclip mi-a sunat ca o ființă umană adevărată. Ești obișnuit să auzi ca Alexa și Siri, și înainte de asta era ca, știi, chiar nu vrem să vorbim despre vocile de înainte, dar aia chiar suna ca o ființă umană cu, cu oameni. inflexiune și o oarecare adâncime. Acesta este lucrul la care ne uităm atunci când vorbim despre reinventarea graficii și reinventarea tehnologiei vocale și utilizarea tehnologiilor mai noi, inclusiv AI și învățarea profundă, nu numai pentru a schimba aspectul graficii, ci și a schimba senzația și sunetul unei mașini pentru a o face sună mai mult ca unul dintre noi.

Bryan Catanzaro : Ar trebui să mă asigur că înțelegeți că, deși acea voce a fost sintetizată, a fost și regizată îndeaproape. Deci nu aș spune că a fost un buton, un sistem de sinteză a vorbirii. Așa cum ați putea folosi atunci când vorbiți cu un asistent virtual. În schimb, a fost o voce controlabilă pe care algoritmii noștri le permit producătorilor videoclipului să o creeze. Și una dintre modalitățile prin care fac asta este prin modelarea inflexiunii și a ritmului și a energiei pe care doresc să o aibă o anumită parte a videoclipului narațiunii. Și așa, aș spune că nu este doar o poveste despre AI care se îmbunătățește, ci este și o poveste despre modul în care oamenii lucrează mai strâns cu AI pentru a construi lucruri și au capacitatea de a crea voci sintetice care sunt controlabile în acest fel.

Cred că acest lucru deschide noi oportunități pentru sinteza vorbirii în divertisment și arte, cred. Cred că este interesant, dar este ceva ce tu și publicul tău ar trebui să înțelegi a fost de fapt foarte îndeaproape regizat de o persoană. Acum, desigur, lucrăm din greu la algoritmi care sunt capabili să prezică toată acea umanitate de acolo, ritmul, inflexiunea, înclinația. Și cred că vom vedea niște progrese destul de uimitoare în acest sens în următorii câțiva ani, în care putem avea un sistem de sinteză a vorbirii complet cu buton, care are inflexiunea potrivită pentru a merge împreună cu sensul textului, pentru că atunci când vorbiți o mare parte din sensul este transmis prin inflexia vocii tale, nu doar prin sensul cuvintelor pe care le alegeți.

Și, dacă avem modele care sunt capabile să înțeleagă sensul textelor, cum ar fi unele dintre aceste modele de limbaj uimitoare la care mă refeream mai devreme, ar trebui să le putem folosi pentru a direcționa sinteza vorbirii într-un mod care are sens. Și asta e ceva de care sunt foarte entuziasmat. e interesant.

Simt că avem un fel de părtinire culturală, poate este specifică Statelor Unite. Nu sunt sigur, dar avem această părtinire culturală pe care computerele nu pot vorbi într-un mod asemănător omului. Și poate că vine oarecum din Star Trek: The Next Generation, unde datele erau ca o mașină de calcul incredibilă și putea rezolva orice problemă și inventa noi teorii ale fizicii, dar nu putea niciodată să vorbească în același mod în care ar putea un om, sau poate că se reia până la, știi.

Brent Leary : Spock, poate.

Bryan Catanzaro: A fost dezamăgitor ca a lui, vocea lui, parcă era înfiorătoare, știi. Și așa avem 50 de ani, câteva generații de cultură care ne spun că un computer nu poate vorbi într-un mod asemănător omului. Și, de fapt, cred că nu este cazul. Cred că putem face un computer să vorbească într-un mod mai asemănător uman și, și vom face. Și, de asemenea, cred că beneficiile acestei tehnologii vor fi destul de grozave pentru noi toți.

Brent Leary: Celălalt lucru care a ieșit în evidență în acel clip a fost Amelia Earhart, cu poza ei părând să prindă viață. Poți să vorbești despre, presupun că asta face parte din reinventarea graficii folosind AI.

Bryan Catanzaro : Da, așa e. Cercetarea NVIDIA a fost într-adevăr implicată într-o mulțime de tehnologii pentru a sintetiza, practic, videoclipuri și imagini folosind inteligența artificială. Și acesta este un exemplu, ați văzut unul în care rețeaua neuronală colora o imagine, dându-ne un fel de noi moduri de a privi trecutul. Și când te gândești la asta, știi ce este implicat în colorarea unei imagini. AI trebuie să înțeleagă conținutul imaginii pentru a le atribui posibile culori, cum ar fi, de exemplu, iarba este de obicei verde, dar dacă nu știi unde este iarba, atunci nu ar trebui să colorezi nimic verde și abordările tradiționale de colorare a imaginilor au fost, aș spune, un pic neplăcute pentru riscuri. Dar, pe măsură ce AI înțelege mai bine conținutul unei imagini și ce obiecte sunt acolo și modul în care obiectele se relaționează între ele, atunci poate face mult mai bine în a atribui imagini posibile culori care îi dă viață.

Acesta este un exemplu, această problemă de colorare a imaginii. Dar cred că în acel videoclip am văzut alte câteva exemple în care am putut să facem imagini și apoi să le animam în diferite moduri.

Sinteza Condițională vizuală

Una dintre tehnologiile care ne-au interesat cu adevărat este, se numește sinteza video condiționată, în care poți crea un videoclip bazat pe un fel de schiță și, știi, pentru așa ceva, ceea ce ai face este se opune recunoașterii care analizează structura obiectelor. De exemplu, o față, iar aici sunt ochii și aici este nasul, apoi atribuie un fel de poziții obiectului și dimensiunilor.

Și asta devine un fel de desene animate, un copil ar putea să deseneze cu o figură. Și apoi ceea ce faci este să trimiți asta într-o altă rutină care animă acea figură și o face pe persoană să-și miște capul sau să zâmbească sau să vorbească cu texte pe care dorim să animem vorbirea unei persoane cu un anumit text, în timp ce putem face un model care prezice modul în care modelul lor stick-figure va evolua ca persoană care vorbește. Și apoi, odată ce avem acel tip de desen animat de stick-figură, care arată cum ar trebui să se miște persoana, apoi îl punem printr-o rețea neuronală care sintetizează un videoclip din asta și, și merge cam de la imaginea inițială care are ca... aspectul persoanei și al, și fundalul și așa mai departe, apoi îl animă prin acest tip de animație cu figurine pentru a realiza videoclipul.

Și o numim generație video condiționată, deoarece există multe videoclipuri diferite pe care le-ai putea produce din aceeași cifră. Și așa că ceea ce vrem să facem este să alegem una care pare plauzibilă condiționată de un fel de alte informații, cum ar fi poate textul pe care îl vorbește persoana respectivă sau poate un fel de animație pe care vrem să o creăm. Iar generarea video condiționată este o idee foarte puternică și este ceva despre care cred că în timp va evolua într-un nou mod de a genera grafică, un nou mod de a randa și de a crea grafică.

Brent Leary: Există chiar și o bucată din acel videoclip în care persoana a spus practic, desenează asta și de fapt a început să fie desenată.


Bryan Catanzaro: Corect. Puterea învățării profunde este că este o modalitate foarte flexibilă de a mapa de la un spațiu la altul. Și astfel, în acel videoclip, vedem o mulțime de exemple în acest sens. Și acesta este un alt exemplu, dar din punctul de vedere al tehnologiei AI sunt toate similare, pentru că ceea ce facem este să încercăm să învățăm o mapare care merge de la X la Y. Și în acest caz, încercăm pentru a învăța o cartografiere care merge de la o descriere text a scenei la o figură stick un desen animat al acelei scene care. Să zicem că am spus un lac înconjurat de copaci în munți. Vreau ca modelul să înțeleagă că munții merg pe fundal și au o anumită formă.

Și apoi, copacii merg în prim plan și apoi chiar în mijloc, de obicei va fi un lac mare. Este posibil să antrenezi un model bazat pe o mie sau un milion de imagini de peisaje naturale și ai adnotări care arată, care este conținutul acestor imagini? Apoi, puteți antrena modelul să meargă în altă direcție și să spuneți, având în vedere textul, puteți crea un fel de desen animat cu figurine care să arate cum ar trebui să arate scena? Unde merg munții? Unde se duc copacii? Unde se duce apa? Și apoi, odată ce aveți acea figurină, o puteți trimite într-un model care o elaborează într-o imagine. Și asta este ceea ce ați văzut în acel videoclip.

Avatare digitale și apeluri zoom

Urmărește acest scurt videoclip despre cum va fi utilizată această tehnologie pentru a face apelurile Zoom o experiență mult mai bună în viitorul apropiat. Acest scenariu are un tip intervievat pentru un loc de muncă printr-un apel Zoom.

Brent Leary: Ce a fost cool despre asta este că, la sfârșit, a spus că imaginea cu el a fost generată dintr-o fotografie cu el; și era vocea lui. Ai putea, pe ecran puteai vedea mișcarea gurii. Calitatea audio este grozavă, iar el stă într-o cafenea, unde ar putea exista o mulțime de sunet în cafenea, dar nu am auzit nimic din acel sunet.

Bryan Catanzaro : Da, ei bine, am fost foarte mândri de acel demo. Ar trebui, ar trebui să remarc, de asemenea, că acel demo a câștigat cel mai bun spectacol la conferința SIGGRAPH de anul acesta, care este cea mai mare conferință de grafică din lume. Acest model a fost un model de sinteză video generalizat. Vorbeam mai devreme despre cum poți lua un fel de reprezentare a unei figură a unei persoane, apoi o poți anima. Ei bine, una dintre limitările modelelor din trecut este că trebuia să antrenezi un model complet nou pentru fiecare situație. Deci, să zicem că dacă sunt acasă, am un model. Dacă sunt în cafenea cu alt background, am nevoie de un alt model. Sau dacă doriți să faceți acest lucru singur, ați avea nevoie de un model pentru dvs. în acest loc, un alt model pentru dvs., un alt loc, de fiecare dată când creați unul dintre aceste modele, trebuie să capturați un set de date în acea locație cu poate asta set de haine sau acei ochelari pe sau orice altceva, și apoi petreceți o săptămână pe un supercomputer antrenând un model, și asta este foarte scump, nu? Deci majoritatea dintre noi nu am putea face asta niciodată. Asta ar limita cu adevărat modul în care această tehnologie ar putea fi utilizată.

Cred că inovația tehnică din spatele acelei animații a fost aceea că au venit cu un model generalizat care ar putea funcționa practic cu oricine. Trebuie doar să oferi o poză a ta, care este suficient de ieftină. Oricine poate face asta, nu? Și dacă mergi într-o locație nouă sau porți haine sau ochelari diferite, sau orice altceva, în ziua aceea, poți pur și simplu să faci o poză. Și apoi modelul, pentru că este general, este capabil să îți resintetizeze aspectul folosind doar acea fotografie ca referință.

Cred că este destul de interesant. Acum, mai târziu, în acel videoclip, de fapt, au trecut și la un model de sinteză a vorbirii. Deci, ceea ce am auzit în acel clip a fost de fapt personajul principal vorbind cu propria sa voce, dar mai târziu lucrurile de la cafenea devin atât de zgomotoase încât ajunge să treacă la mesaj. Și așa că scrie doar și sunetul este produs de unul dintre modelele noastre de sinteză a vorbirii.

Cred că oferirea oamenilor oportunitatea de a comunica în moduri noi nu face decât să-i apropie pe oameni.

Brent Leary: Inteligența artificială conversațională, cum va schimba asta modul în care comunicăm și colaborăm în anii următori?

Bryan Catanzaro : Principalul mod în care oamenii comunică este prin conversație, la fel ca tu și cu mine în acest moment, dar este foarte dificil pentru oameni să aibă o conversație semnificativă cu computerul, din mai multe motive. Una este că nu se simte natural, nu? Ca și cum sună ca și cum ai vorbi cu un robot, aceasta este o barieră care inhibă comunicarea. Nu arată ca o persoană, nu reacționează ca o persoană și, evident, computerele în zilele noastre, știi, majoritatea sistemelor cu care tu și eu am interacționat, nu înțeleg ce pot înțelege oamenii. Și astfel, AI conversațional, în anumite privințe, este provocarea supremă AI. De fapt, s-ar putea să fii familiarizat cu testul Turing, Alan Turing, care este considerat de mulți părintele inteligenței artificiale – el a stabilit AI conversațională ca obiectiv final al inteligenței artificiale.

Pentru că dacă ai o mașină care este capabilă să converseze inteligent cu un om, atunci ai rezolvat practic orice fel de întrebare de inteligență pe care ți-o poți imagina, pentru că orice informație pe care o au oamenii, orice înțelepciune, orice idee pe care oamenii au creat-o în ultimele mii de oameni. ani au tot, toate au fost exprimate prin limbaj. Și asta înseamnă că limbajul este un mod destul de general. Este, evident, singura modalitate prin care oamenii cu adevărat, de a comunica idei complicate. Și dacă suntem capabili să facem computere capabile să înțeleagă și să comunice inteligent și cu frecare scăzută, astfel încât să se simtă ca și cum interacționați cu persoana respectivă, atunci cred că vom putea rezolva multe probleme. .

Cred că IA conversațională va continua să fie un punct central al cercetării din întreaga industrie pentru o lungă perioadă de timp. Cred că este un subiect la fel de profund ca toată înțelegerea și cunoașterea umană. Dacă tu și cu mine am avea un podcast despre, să zicem literatura rusă, ar exista o mulțime de idei de specialitate despre care cineva cu un doctorat în literatura rusă ar putea vorbi mai bine decât aș face eu, de exemplu, nu? Deci, chiar și în rândul oamenilor, capacitățile noastre în diferite subiecte vor diferi. Și de aceea cred că inteligența artificială conversațională va fi o provocare care continuă să ne implice în viitorul apropiat, deoarece este într-adevăr o provocare să înțelegem tot ceea ce înțeleg oamenii. Și nu suntem aproape de a face asta.

Aceasta face parte din seria de interviuri unu-la-unu cu lideri de gândire. Transcrierea a fost editată pentru publicare. Dacă este un interviu audio sau video, dați clic pe playerul încorporat de mai sus sau abonați-vă prin iTunes sau prin Stitcher.