Bryan Catanzaro z firmy NVIDIA — konwersacyjna sztuczna inteligencja pod pewnymi względami jest największym wyzwaniem sztucznej inteligencji

Opublikowany: 2021-10-02

Wielu z was, którzy interesują się grami lub poważną edycją wideo, zna firmę NVIDIA jako twórców wiodącej technologii przetwarzania grafiki na rynku. Ale NVIDIA jest również liderem w obszarach sztucznej inteligencji i głębokiego uczenia się; w szczególności w tym, jak te technologie mogą poprawić sposób, w jaki doświadczamy grafiki, syntezy tekstu i wideo oraz konwersacyjnej sztucznej inteligencji.

Niektóre z ich prac zostały zaprezentowane w serii filmów, które stworzyli, zatytułowanych JESTEM AI, które są przekonującym spojrzeniem na to, co jest (i co będzie) dostępne dla nas, aby poprawić sposób, w jaki doświadczamy świata – i siebie nawzajem. Niedawno miałem okazję przeprowadzić rozmowę LinkedIn Live z Bryanem Catanzaro , wiceprezesem Applied Deep Learning Research w firmie NVIDIA, aby dowiedzieć się więcej o ich pracy ze sztuczną inteligencją, aby na nowo wyobrazić sobie, jak doświadczamy obrazów i dźwięków.

Poniżej znajduje się zredagowany zapis fragmentu naszej rozmowy. Kliknij osadzony odtwarzacz SoundCloud, aby usłyszeć pełną rozmowę.

smallbiztrends · Bryan Catanzaro z firmy NVIDIA — konwersacyjna sztuczna inteligencja pod pewnymi względami jest największym wyzwaniem dla sztucznej inteligencji

Upewnij się, że oglądasz osadzone klipy, ponieważ pomagają ułożyć naszą rozmowę.

Brent Leary : Ten głos w tym filmie brzmiał dla mnie jak prawdziwa ludzka istota. Przywykłeś do słuchania jak Alexa i Siri, a wcześniej było tak, że wiesz, nawet nie chcemy rozmawiać o głosach przed tym, ale ten naprawdę brzmiał jak człowiek z, z człowiekiem przegięcie i trochę głębi. Czy to jest rzecz, na którą patrzymy, gdy mówisz o wymyślaniu na nowo grafiki i technologii głosowej oraz korzystaniu z nowszych technologii, w tym sztucznej inteligencji i głębokiego uczenia się, aby nie tylko zmienić wygląd grafiki, ale także zmienić wrażenia i dźwięk maszyny, aby to zrobić brzmieć bardziej jak jeden z nas.

Bryan Catanzaro : Powinienem upewnić się, że rozumiesz, że chociaż ten głos został zsyntetyzowany, był również ściśle wyreżyserowany. Więc nie powiedziałbym, że to był przycisk, system syntezy mowy. Jak możesz użyć, gdy rozmawiasz z wirtualnym asystentem. Zamiast tego był to kontrolowany głos, który nasze algorytmy umożliwiają producentom wideo. Jednym ze sposobów, w jaki to robią, jest modelowanie przegięcia, rytmu i energii, którą chcą, aby dana część filmu narracji miała. Powiedziałbym więc, że nie jest to tylko opowieść o ulepszaniu sztucznej inteligencji, ale także o tym, jak ludzie ściślej współpracują ze sztuczną inteligencją przy tworzeniu rzeczy i mają zdolność do tworzenia syntetycznych głosów, które można kontrolować w ten sposób.

Myślę, że otwiera to nowe możliwości syntezy mowy w rozrywce i sztuce. Myślę, że to ekscytujące, ale jest to coś, co Ty i Twoi widzowie powinniście zrozumieć, było to bardzo ściśle kierowane przez osobę. Teraz oczywiście ciężko pracujemy nad algorytmami, które są w stanie przewidzieć całą tę ludzkość, rytm, przegięcie, wysokość. I myślę, że w ciągu najbliższych kilku lat zobaczymy całkiem zdumiewające postępy, kiedy będziemy mogli mieć w pełni wciskany system syntezy mowy, który ma odpowiednią fleksję, aby dopasować się do znaczenia tekstu, ponieważ kiedy mówisz, wiele znaczeń jest przekazywanych poprzez modulację twojego głosu, a nie tylko znaczenie słów, które wybierzesz.

A jeśli mamy modele, które są w stanie zrozumieć znaczenie tekstów, jak niektóre z tych niesamowitych modeli językowych, o których wspomniałem wcześniej, powinniśmy być w stanie wykorzystać je do kierowania syntezą mowy w sposób, który ma znaczenie. I to jest coś, co mnie bardzo ekscytuje. to interesujące.

Czuję, że mamy pewien rodzaj kulturowego uprzedzenia, może jest to specyficzne dla Stanów Zjednoczonych. Nie jestem pewien, ale mamy to kulturowe uprzedzenie, że komputery nie mogą mówić po ludzku. I może pochodzi trochę ze Star Trek: The Next Generation, w którym Data była jak niesamowita maszyna obliczeniowa i mógł rozwiązać każdy problem i wymyślić nowe teorie fizyki, ale nigdy nie mógł mówić w taki sam sposób, jak człowiek, lub może to sięga wstecz, wiesz.

Brent Leary : Może Spock.

Bryan Catanzaro: To było odpychające, jak jego, jego głos był przerażający, wiesz. I tak mamy 50 lat, kilka pokoleń kultury, która mówi nam, że komputer nie może mówić po ludzku. I właściwie myślę, że tak nie jest. Myślę, że możemy sprawić, by komputer przemawiał w sposób bardziej ludzki, i tak zrobimy. Myślę też, że korzyści płynące z tej technologii będą dla nas wszystkich bardzo duże.

Brent Leary: Inną rzeczą, która się w tym wyróżniała, w tym klipie była Amelia Earhart, z jej obrazem, który wydawał się ożywać. Czy możesz o tym porozmawiać, domyślam się, że jest to część odkrywania na nowo grafiki za pomocą sztucznej inteligencji.

Bryan Catanzaro : Tak, zgadza się. Firma NVIDIA Research była naprawdę zaangażowana w wiele technologii służących do syntezy filmów i obrazów przy użyciu sztucznej inteligencji. I to jest jeden przykład, widzieliście taki, w którym sieć neuronowa kolorowała obraz, w pewnym sensie dając nam nowe sposoby patrzenia na przeszłość. A kiedy myślisz o tym, wiesz, co jest związane z kolorowaniem obrazu. AI musi zrozumieć zawartość obrazu, aby przypisać mu możliwe kolory, na przykład trawa jest zwykle zielona, ​​ale jeśli nie wiesz, gdzie jest trawa, nie powinieneś kolorować niczego na zielono i tradycyjne podejście do kolorowania obrazów było, powiedziałbym, nieco awersją do ryzyka. Ale w miarę jak sztuczna inteligencja lepiej rozumie zawartość obrazu i jakie obiekty się tam znajdują oraz jak obiekty te są ze sobą powiązane, może znacznie lepiej przypisywać możliwe kolory do obrazu, który ożywia go.

To jeden z przykładów, problem z koloryzacją obrazu. Ale myślę, że w tym filmie widzieliśmy kilka innych przykładów, w których byliśmy w stanie robić zdjęcia, a następnie animować je na różne sposoby.

Wizualna synteza warunkowa

Jedną z technologii, którymi naprawdę się interesowaliśmy, jest warunkowa synteza wideo, w której możesz stworzyć wideo na podstawie szkicu i wiesz, dla czegoś takiego, co byś zrobił, to sprzeciwić się rozpoznaniu, które analizuje strukturę przedmiotów. Na przykład twarz, a tu oczy, a tu nos, a następnie przypisuje rodzaj pozycji przedmiotowi i rozmiarom.

I to staje się trochę podobne do kreskówek, dziecko może rysować postacią z patyka. A potem wysyłasz to do innej rutyny, która animuje figurę ludzika i sprawia, że ​​osoba porusza głową lub uśmiecha się lub rozmawia z tekstami, które chcemy animować mówienie osoby do określonego tekstu, podczas gdy możemy stworzyć model, który przewiduje, jak ich model z patyczków będzie ewoluował jako osoba, która mówi. A potem, kiedy mamy taki animowany rysunek ludzika, który pokazuje, jak dana osoba powinna się poruszać, wtedy przepuszczamy go przez sieć neuronową, która syntetyzuje wideo z tego i przechodzi trochę od początkowego obrazu, który ma podobny do: wygląd osoby i tła, i tak dalej, a następnie animuje je za pomocą tego rodzaju animacji w postaci ludzików, aby nagrać wideo.

Nazywamy to warunkowym generowaniem wideo, ponieważ istnieje wiele różnych filmów, które można wyprodukować z tej samej postaci. Więc to, co chcemy zrobić, to wybrać taką, która wydaje się wiarygodna, uzależniona od pewnego rodzaju innych informacji, na przykład tekstu, który mówi dana osoba, a może jakiejś animacji, którą chcemy stworzyć. Warunkowe generowanie wideo to bardzo potężny pomysł i myślę, że z czasem rozwinie się w nowy sposób generowania grafiki, nowy sposób renderowania i tworzenia grafiki.

Brent Leary: Jest nawet fragment tego filmu, w którym osoba zasadniczo powiedziała: narysuj to i faktycznie zaczęło się rysować.


Bryan Catanzaro: Tak. Siła uczenia głębokiego polega na tym, że jest to bardzo elastyczny sposób mapowania z jednej przestrzeni do drugiej. W tym filmie widzimy wiele przykładów. I to jest kolejny przykład, ale z punktu widzenia technologii AI wszystkie są podobne, ponieważ to, co robimy, to nauka mapowania, które przechodzi od X do Y. W tym przypadku próbujemy nauczyć się mapowania, które przechodzi od opisu tekstowego sceny do postaci z patyka, do kreskówek tej sceny. Powiedzmy, że powiedziałem, że jezioro otoczone drzewami w górach. Chcę, żeby modelka zrozumiała, że ​​góry idą w tle i mają określony kształt.

A potem drzewa wychodzą na pierwszy plan, a potem pośrodku, zwykle będzie duże jezioro. Możliwe jest wytrenowanie modelu na podstawie, powiedzmy, tysiąca lub miliona zdjęć naturalnych krajobrazów i masz adnotacje, które pokazują, jaka jest zawartość tych zdjęć? Następnie możesz wytrenować model, aby poszedł w drugą stronę i powiedzieć, biorąc pod uwagę tekst, czy możesz stworzyć coś w rodzaju kreskówkowej kreskówki przedstawiającej, jak powinna wyglądać scena? Gdzie idą góry? Gdzie idą drzewa? Dokąd płynie woda? A kiedy już masz tę figurkę z patyka, możesz wysłać ją do modelu, który rozwinie to w obraz. A więc to właśnie widziałeś w tym filmie.

Cyfrowe awatary i wywołania Zoom

Obejrzyj ten krótki film o tym, jak ta technologia zostanie wykorzystana, aby w najbliższej przyszłości rozmowy w Zoom były znacznie lepsze. W tym scenariuszu facet jest przesłuchiwany przez telefon Zoom.

Brent Leary: To, co było w tym fajne, to na koniec powiedział, że jego wizerunek został wygenerowany z jednego jego zdjęcia; i to był jego głos. Na ekranie można było zobaczyć ruch ust. Jakość dźwięku jest świetna, a on siedzi w kawiarni, w której może być dużo dźwięku, ale nie słyszeliśmy żadnego z tych dźwięków.

Bryan Catanzaro : Tak, cóż, byliśmy naprawdę dumni z tego demo. Powinienem, powinienem również zauważyć, że to demo wygrało najlepiej pokazowo na tegorocznej konferencji SIGGRAPH, która jest największą konferencją grafiki na świecie. Model ten był uogólnionym modelem syntezy wideo. Rozmawialiśmy wcześniej o tym, jak można wziąć postać przedstawiającą osobę, a następnie ją animować. Cóż, jednym z ograniczeń modeli w przeszłości było to, że trzeba było trenować zupełnie nowy model dla każdej sytuacji. Powiedzmy, że jeśli jestem w domu, mam jeden model. Jeśli jestem w kawiarni z innym pochodzeniem, potrzebuję innego modelu. Lub jeśli chcesz zrobić to sam, potrzebujesz jednego modelu dla siebie w tym miejscu, innego modelu dla siebie, innego miejsca, za każdym razem, gdy tworzysz jeden z tych modeli, musisz uchwycić zbiór danych w tej lokalizacji, być może tak zestaw ubrań lub tych okularów, czy cokolwiek, a potem spędzić tydzień na superkomputerze szkoląc modelkę, a to jest naprawdę drogie, prawda? Więc większość z nas nigdy by tego nie zrobiła. To naprawdę ograniczyłoby możliwości wykorzystania tej technologii.

Myślę, że innowacją techniczną stojącą za tą konkretną animacją było to, że wymyślili uogólniony model, który mógłby pracować w zasadzie z każdym. Wystarczy podać jedno zdjęcie, które jest wystarczająco tanie. Każdy może to zrobić, prawda? A jeśli wybierasz się w nowe miejsce lub nosisz inne ubrania, okulary, czy cokolwiek, tego dnia możesz po prostu zrobić zdjęcie. A potem model, ponieważ jest ogólny, jest w stanie ponownie zsyntetyzować twój wygląd, używając tylko tego jednego zdjęcia jako odniesienia.

Myślę, że to bardzo ekscytujące. W dalszej części tego filmu faktycznie przeszli również na model syntezy mowy. Więc to, co słyszeliśmy w tym klipie, to właściwie główny bohater mówiący własnym głosem, ale później w kawiarni robi się tak głośno, że w końcu przełącza się na tekst. Więc on po prostu pisze, a dźwięk jest wytwarzany przez jeden z naszych modeli syntezy mowy.

Myślę, że danie ludziom możliwości komunikowania się na nowe sposoby tylko pomaga zbliżyć ludzi do siebie.

Brent Leary: Konwersacyjna sztuczna inteligencja, jak to zmieni sposób komunikowania się i współpracy w nadchodzących latach?

Bryan Catanzaro : Podstawowym sposobem, w jaki ludzie komunikują się, jest rozmowa, tak jak ty i ja teraz, ale z wielu powodów ludziom jest bardzo trudno prowadzić sensowną rozmowę z komputerem. Po pierwsze, nie wydaje się to naturalne, prawda? Na przykład, jeśli brzmi to tak, jakbyś rozmawiał z robotem, jest to bariera, która utrudnia komunikację. Nie wygląda jak osoba, nie reaguje jak osoba i oczywiście komputery w dzisiejszych czasach, wiesz, większość systemów, z którymi ty i ja współpracowaliśmy, nie rozumieją tego, co ludzie mogą zrozumieć. A zatem konwersacyjna sztuczna inteligencja pod pewnymi względami jest ostatecznym wyzwaniem dla sztucznej inteligencji. W rzeczywistości możesz być zaznajomiony z testem Turinga, Alan Turing, który jest uważany przez wielu za ojca sztucznej inteligencji – jako ostateczny cel sztucznej inteligencji wyznaczył konwersacyjną sztuczną inteligencję.

Ponieważ jeśli masz maszynę, która jest w stanie inteligentnie rozmawiać z człowiekiem, to w zasadzie rozwiązałeś wszelkie pytania dotyczące inteligencji, jakie możesz sobie wyobrazić, ponieważ wszelkie informacje, które ludzie mają, wszelka mądrość, wszelkie pomysły, które ludzie stworzyli w ciągu ostatnich wielu tysięcy wszystkie lata, wszystkie zostały wyrażone poprzez język. A to oznacza, że ​​język jest wystarczająco ogólny. To oczywiście jedyny sposób, w jaki ludzie mogą komunikować skomplikowane idee. A jeśli jesteśmy w stanie stworzyć komputery, które są w stanie inteligentnie rozumieć i komunikować się z niskimi tarciami, dzięki czemu faktycznie czujemy, że wchodzimy w interakcję z daną osobą, to myślę, że będziemy w stanie rozwiązać wiele problemów .

Myślę, że konwersacyjna sztuczna inteligencja przez długi czas będzie nadal przedmiotem badań całej branży. Myślę, że jest to temat tak głęboki, jak całe ludzkie zrozumienie i wiedza. Gdybyśmy mieli podcast o, powiedzmy, literaturze rosyjskiej, byłoby wiele specjalistycznych pomysłów, o których ktoś z doktoratem z literatury rosyjskiej byłby w stanie opowiedzieć lepiej niż ja, na przykład, prawda? Nawet więc wśród ludzi nasze możliwości w najróżniejszych tematach będą się różnić. I dlatego uważam, że konwersacyjna sztuczna inteligencja będzie wyzwaniem, które nadal będzie nas angażować w przewidywalnej przyszłości, ponieważ naprawdę wyzwaniem jest zrozumienie wszystkiego, co rozumieją ludzie. I nie jesteśmy blisko tego.

Jest to część serii wywiadów jeden na jeden z liderami myśli. Transkrypcja została zredagowana do publikacji. Jeśli jest to wywiad audio lub wideo, kliknij osadzony odtwarzacz powyżej lub zasubskrybuj przez iTunes lub Stitcher.