Bryan Catanzaro z firmy NVIDIA — konwersacyjna sztuczna inteligencja pod pewnymi względami jest największym wyzwaniem sztucznej inteligencji
Opublikowany: 2021-10-02Wielu z was, którzy interesują się grami lub poważną edycją wideo, zna firmę NVIDIA jako twórców wiodącej technologii przetwarzania grafiki na rynku. Ale NVIDIA jest również liderem w obszarach sztucznej inteligencji i głębokiego uczenia się; w szczególności w tym, jak te technologie mogą poprawić sposób, w jaki doświadczamy grafiki, syntezy tekstu i wideo oraz konwersacyjnej sztucznej inteligencji.
Niektóre z ich prac zostały zaprezentowane w serii filmów, które stworzyli, zatytułowanych JESTEM AI, które są przekonującym spojrzeniem na to, co jest (i co będzie) dostępne dla nas, aby poprawić sposób, w jaki doświadczamy świata – i siebie nawzajem. Niedawno miałem okazję przeprowadzić rozmowę LinkedIn Live z Bryanem Catanzaro , wiceprezesem Applied Deep Learning Research w firmie NVIDIA, aby dowiedzieć się więcej o ich pracy ze sztuczną inteligencją, aby na nowo wyobrazić sobie, jak doświadczamy obrazów i dźwięków.
Poniżej znajduje się zredagowany zapis fragmentu naszej rozmowy. Kliknij osadzony odtwarzacz SoundCloud, aby usłyszeć pełną rozmowę.
Upewnij się, że oglądasz osadzone klipy, ponieważ pomagają ułożyć naszą rozmowę.
Brent Leary : Ten głos w tym filmie brzmiał dla mnie jak prawdziwa ludzka istota. Przywykłeś do słuchania jak Alexa i Siri, a wcześniej było tak, że wiesz, nawet nie chcemy rozmawiać o głosach przed tym, ale ten naprawdę brzmiał jak człowiek z, z człowiekiem przegięcie i trochę głębi. Czy to jest rzecz, na którą patrzymy, gdy mówisz o wymyślaniu na nowo grafiki i technologii głosowej oraz korzystaniu z nowszych technologii, w tym sztucznej inteligencji i głębokiego uczenia się, aby nie tylko zmienić wygląd grafiki, ale także zmienić wrażenia i dźwięk maszyny, aby to zrobić brzmieć bardziej jak jeden z nas.
Bryan Catanzaro : Powinienem upewnić się, że rozumiesz, że chociaż ten głos został zsyntetyzowany, był również ściśle wyreżyserowany. Więc nie powiedziałbym, że to był przycisk, system syntezy mowy. Jak możesz użyć, gdy rozmawiasz z wirtualnym asystentem. Zamiast tego był to kontrolowany głos, który nasze algorytmy umożliwiają producentom wideo. Jednym ze sposobów, w jaki to robią, jest modelowanie przegięcia, rytmu i energii, którą chcą, aby dana część filmu narracji miała. Powiedziałbym więc, że nie jest to tylko opowieść o ulepszaniu sztucznej inteligencji, ale także o tym, jak ludzie ściślej współpracują ze sztuczną inteligencją przy tworzeniu rzeczy i mają zdolność do tworzenia syntetycznych głosów, które można kontrolować w ten sposób.
Myślę, że otwiera to nowe możliwości syntezy mowy w rozrywce i sztuce. Myślę, że to ekscytujące, ale jest to coś, co Ty i Twoi widzowie powinniście zrozumieć, było to bardzo ściśle kierowane przez osobę. Teraz oczywiście ciężko pracujemy nad algorytmami, które są w stanie przewidzieć całą tę ludzkość, rytm, przegięcie, wysokość. I myślę, że w ciągu najbliższych kilku lat zobaczymy całkiem zdumiewające postępy, kiedy będziemy mogli mieć w pełni wciskany system syntezy mowy, który ma odpowiednią fleksję, aby dopasować się do znaczenia tekstu, ponieważ kiedy mówisz, wiele znaczeń jest przekazywanych poprzez modulację twojego głosu, a nie tylko znaczenie słów, które wybierzesz.
A jeśli mamy modele, które są w stanie zrozumieć znaczenie tekstów, jak niektóre z tych niesamowitych modeli językowych, o których wspomniałem wcześniej, powinniśmy być w stanie wykorzystać je do kierowania syntezą mowy w sposób, który ma znaczenie. I to jest coś, co mnie bardzo ekscytuje. to interesujące.
Czuję, że mamy pewien rodzaj kulturowego uprzedzenia, może jest to specyficzne dla Stanów Zjednoczonych. Nie jestem pewien, ale mamy to kulturowe uprzedzenie, że komputery nie mogą mówić po ludzku. I może pochodzi trochę ze Star Trek: The Next Generation, w którym Data była jak niesamowita maszyna obliczeniowa i mógł rozwiązać każdy problem i wymyślić nowe teorie fizyki, ale nigdy nie mógł mówić w taki sam sposób, jak człowiek, lub może to sięga wstecz, wiesz.
Brent Leary : Może Spock.
Bryan Catanzaro: To było odpychające, jak jego, jego głos był przerażający, wiesz. I tak mamy 50 lat, kilka pokoleń kultury, która mówi nam, że komputer nie może mówić po ludzku. I właściwie myślę, że tak nie jest. Myślę, że możemy sprawić, by komputer przemawiał w sposób bardziej ludzki, i tak zrobimy. Myślę też, że korzyści płynące z tej technologii będą dla nas wszystkich bardzo duże.
Brent Leary: Inną rzeczą, która się w tym wyróżniała, w tym klipie była Amelia Earhart, z jej obrazem, który wydawał się ożywać. Czy możesz o tym porozmawiać, domyślam się, że jest to część odkrywania na nowo grafiki za pomocą sztucznej inteligencji.
Bryan Catanzaro : Tak, zgadza się. Firma NVIDIA Research była naprawdę zaangażowana w wiele technologii służących do syntezy filmów i obrazów przy użyciu sztucznej inteligencji. I to jest jeden przykład, widzieliście taki, w którym sieć neuronowa kolorowała obraz, w pewnym sensie dając nam nowe sposoby patrzenia na przeszłość. A kiedy myślisz o tym, wiesz, co jest związane z kolorowaniem obrazu. AI musi zrozumieć zawartość obrazu, aby przypisać mu możliwe kolory, na przykład trawa jest zwykle zielona, ale jeśli nie wiesz, gdzie jest trawa, nie powinieneś kolorować niczego na zielono i tradycyjne podejście do kolorowania obrazów było, powiedziałbym, nieco awersją do ryzyka. Ale w miarę jak sztuczna inteligencja lepiej rozumie zawartość obrazu i jakie obiekty się tam znajdują oraz jak obiekty te są ze sobą powiązane, może znacznie lepiej przypisywać możliwe kolory do obrazu, który ożywia go.
To jeden z przykładów, problem z koloryzacją obrazu. Ale myślę, że w tym filmie widzieliśmy kilka innych przykładów, w których byliśmy w stanie robić zdjęcia, a następnie animować je na różne sposoby.
Wizualna synteza warunkowa
Jedną z technologii, którymi naprawdę się interesowaliśmy, jest warunkowa synteza wideo, w której możesz stworzyć wideo na podstawie szkicu i wiesz, dla czegoś takiego, co byś zrobił, to sprzeciwić się rozpoznaniu, które analizuje strukturę przedmiotów. Na przykład twarz, a tu oczy, a tu nos, a następnie przypisuje rodzaj pozycji przedmiotowi i rozmiarom.
I to staje się trochę podobne do kreskówek, dziecko może rysować postacią z patyka. A potem wysyłasz to do innej rutyny, która animuje figurę ludzika i sprawia, że osoba porusza głową lub uśmiecha się lub rozmawia z tekstami, które chcemy animować mówienie osoby do określonego tekstu, podczas gdy możemy stworzyć model, który przewiduje, jak ich model z patyczków będzie ewoluował jako osoba, która mówi. A potem, kiedy mamy taki animowany rysunek ludzika, który pokazuje, jak dana osoba powinna się poruszać, wtedy przepuszczamy go przez sieć neuronową, która syntetyzuje wideo z tego i przechodzi trochę od początkowego obrazu, który ma podobny do: wygląd osoby i tła, i tak dalej, a następnie animuje je za pomocą tego rodzaju animacji w postaci ludzików, aby nagrać wideo.
Nazywamy to warunkowym generowaniem wideo, ponieważ istnieje wiele różnych filmów, które można wyprodukować z tej samej postaci. Więc to, co chcemy zrobić, to wybrać taką, która wydaje się wiarygodna, uzależniona od pewnego rodzaju innych informacji, na przykład tekstu, który mówi dana osoba, a może jakiejś animacji, którą chcemy stworzyć. Warunkowe generowanie wideo to bardzo potężny pomysł i myślę, że z czasem rozwinie się w nowy sposób generowania grafiki, nowy sposób renderowania i tworzenia grafiki.
Brent Leary: Jest nawet fragment tego filmu, w którym osoba zasadniczo powiedziała: narysuj to i faktycznie zaczęło się rysować.
