NVIDIA'dan Bryan Catanzaro - Bazı Yönlerden Konuşmaya Dayalı Yapay Zeka, Nihai Yapay Zeka Mücadelesidir

Yayınlanan: 2021-10-02

Oyun oynama veya ciddi video düzenleme ile ilgilenen birçoğunuz NVIDIA'yı piyasadaki lider grafik işleme teknolojisinin yaratıcıları olarak tanıyor. Ancak NVIDIA, yapay zeka ve derin öğrenme alanlarında da liderdir; özellikle bu teknolojilerin grafik, metin ve video sentezi ve konuşma yapay zekasını nasıl deneyimlediğimizi nasıl geliştirebileceği konusunda.

Çalışmalarından bazıları, dünyayı ve birbirimizi nasıl deneyimlediğimizi geliştirmek için bizim için neyin mevcut olduğuna (ve ne olacağına) ikna edici bir bakış sunan I AM AI adlı bir araya getirdikleri bir dizi videoda sergilendi. Yakın zamanda , NVIDIA Uygulamalı Derin Öğrenme Araştırması Başkan Yardımcısı Bryan Catanzaro ile görüntüleri ve sesleri nasıl deneyimlediğimizi yeniden tasarlamak için AI ile yaptıkları çalışmalar hakkında daha fazla bilgi almak için LinkedIn Canlı sohbet etme fırsatım oldu .

Aşağıda, konuşmamızın bir bölümünün düzenlenmiş bir dökümü bulunmaktadır. Konuşmanın tamamını dinlemek için yerleşik SoundCloud oynatıcısına tıklayın.

smallbiztrends · NVIDIA'dan Bryan Catanzaro – Konuşmaya dayalı yapay zeka, bazı yönlerden en büyük yapay zeka mücadelesidir

Sohbetimizi çerçevelemeye yardımcı oldukları için gömülü klipleri izlediğinizden emin olun.

Brent Leary : O videodaki ses bana gerçek bir insan gibi geldi. Alexa ve Siri gibi duymaya alışkınsın ve ondan önce sanki, bilirsin, ondan önceki sesler hakkında konuşmak bile istemiyoruz, ama bu gerçekten bir insan gibi geliyordu, insanla bükülme ve biraz derinlik. Grafikleri yeniden icat etmekten ve ses teknolojisini yeniden icat etmekten ve yalnızca grafiklerin görünümünü değiştirmek için değil, aynı zamanda bunu yapmak için bir makinenin hissini ve sesini değiştirmek için AI ve derin öğrenme dahil olmak üzere daha yeni teknolojileri kullanmaktan bahsettiğinizde baktığımız şey bu mu? daha çok bizden biri gibi.

Bryan Catanzaro : Bu sesin sentezlenmiş olmasına rağmen aynı zamanda yakından yönlendirildiğini anlamanızı sağlamalıyım. Bu yüzden bunun bir basma düğmesi, konuşma sentez sistemi olduğunu söyleyemem. Bir sanal asistanla konuşurken kullanabileceğiniz gibi. Bunun yerine, algoritmalarımızın video yapımcılarının oluşturmasına izin verdiği kontrol edilebilir bir sesti. Ve bunu yapmanın yollarından biri, anlatımın videosunun belirli bir bölümünün sahip olmasını istedikleri bükülmeyi, ritmi ve enerjiyi modellemektir. Ve bu yüzden, bunun sadece AI'nın daha iyi hale gelmesiyle ilgili bir hikaye olmadığını söyleyebilirim, aynı zamanda insanların bir şeyler inşa etmek için AI ile nasıl daha yakın çalıştıkları ve bu şekilde kontrol edilebilen sentetik sesler üretme yeteneğine sahip oldukları hakkında bir hikaye.

Bunun eğlence ve sanatta konuşma sentezi için yeni fırsatlar açtığını düşünüyorum. Bence bu heyecan verici, ancak sizin ve izleyicilerinizin anlaması gereken bir şey, aslında bir kişi tarafından çok yakından yönetildi. Şimdi, tabii ki, oradaki tüm insanlığı, ritmi, bükülmeyi, perdeyi tahmin edebilen algoritmalar üzerinde çok çalışıyoruz. Ve bence önümüzdeki birkaç yıl içinde, metnin anlamı ile birlikte gitmek için doğru bükülmeye sahip olan tam bir düğmeye, konuşma sentez sistemine sahip olabileceğimiz oldukça şaşırtıcı gelişmeler göreceğiz, çünkü ne zaman Konuştuğunuz kelimelerin anlamı sadece seçtiğiniz kelimelerin anlamı değil, sesinizin bükülmesiyle aktarılır.

Ve daha önce bahsettiğim bu şaşırtıcı dil modellerinden bazıları gibi metinlerin anlamını anlayabilen modellerimiz varsa, bunları anlamlı bir şekilde konuşma sentezini yönlendirmek için kullanabilmeliyiz. Ve bu beni çok heyecanlandıran bir şey. ilginç.

Bir tür kültürel önyargımız olduğunu hissediyorum, belki de Amerika Birleşik Devletleri'ne özgüdür. Emin değilim ama bilgisayarların insan gibi konuşamayacağına dair kültürel bir önyargımız var. Ve belki de bir şekilde Star Trek: The Next Generation'dan geliyor, burada Veri inanılmaz bir bilgisayar makinesi gibiydi ve herhangi bir sorunu çözebilir ve yeni fizik teorileri icat edebilir, ancak asla bir insanın konuşabileceği şekilde konuşamaz veya belki de geriye doğru uzanır, bilirsin.

Brent Leary : Spock, belki.

Bryan Catanzaro: Onun sesi gibi iticiydi, ürkütücüydü, bilirsiniz. Ve bir bilgisayarın insan gibi konuşamayacağını söyleyen 50 yıllık kültürümüz var. Ve aslında durumun böyle olmadığını düşünüyorum. Bence bir bilgisayarın daha insansı bir şekilde konuşmasını sağlayabiliriz ve yapacağız. Ayrıca bu teknolojinin faydalarının hepimiz için oldukça büyük olacağını düşünüyorum.

Brent Leary: O klipte göze çarpan diğer şey, resmi canlanmış gibi görünen Amelia Earhart'tı. Bunun hakkında konuşabilir misiniz, sanırım bu, AI kullanarak grafikleri yeniden icat etmenin bir parçası.

Bryan Catanzaro : Evet, doğru. NVIDIA Research, videoları yapay zeka kullanarak temel olarak sentezlemek ve görüntüleri sentezlemek için birçok teknolojiye gerçekten dahil olmuştur. Ve bu bir örnek, sinir ağının bir görüntüyü renklendirdiği, bize geçmişe bakmanın yeni yollarını verdiği bir örnek gördünüz. Ve bunu düşündüğünüzde, bir görüntüyü renklendirmenin ne anlama geldiğini bilirsiniz. AI'nın onlara olası renkler atamak için görüntünün içeriğini anlaması gerekir, örneğin, çimen genellikle yeşildir, ancak çimenin nerede olduğunu bilmiyorsanız, o zaman hiçbir şeyi yeşil renklendirmemelisiniz ve Görüntüleri renklendirmeye yönelik geleneksel yaklaşımlar, biraz riskten kaçındığını söyleyebilirim. Ancak AI, bir görüntünün içeriğini ve orada hangi nesnelerin olduğunu ve nesnelerin birbirleriyle nasıl ilişkili olduğunu anlamada daha iyi hale geldikçe, görüntüye onu hayata geçiren olası renkleri atamada çok daha iyisini yapabilir.

Bu bir örnek, bu görüntü renklendirme sorunu. Ama sanırım o videoda, resim çekip çeşitli şekillerde canlandırabildiğimiz birkaç örnek daha gördük.

Görsel Koşullu Sentez

Bizim gerçekten ilgilendiğimiz teknolojilerden biri, koşullu video sentezi olarak adlandırılır, burada bir tür eskize dayalı bir video oluşturabilirsiniz ve bilirsiniz, bunun gibi bir şey için, yapacağınız şey şudur: nesnelerin yapısını analiz eden tanımaya karşı çıkar. Örneğin, bir yüz ve işte gözler ve işte burun ve sonra nesneye ve boyutlara bir tür konum atar.

Ve bu bir tür karikatür gibi olur, bir çocuk bir çöp adam figürü ile çizebilir. Ve sonra yaptığınız şey, o sopa figürünü canlandıran ve kişinin kafasını hareket ettirmesini veya gülümsemesini sağlayan veya veya bir kişinin belirli bir metinle konuşmasını canlandırmak istediğimiz metinlerle konuşmasını sağlayan başka bir rutine göndermektir. çöp adam modellerinin konuşan kişi olarak nasıl gelişeceğini tahmin ediyor. Ve sonra, kişinin nasıl hareket etmesi gerektiğini gösteren bir tür animasyonlu çubuk figür çizimimiz olduğunda, onu bundan bir video sentezleyen bir sinir ağına koyarız ve şuna benzeyen ilk görüntüden yola çıkarız, kişinin ve kişinin görünümü, arka plan ve benzerleri ve ardından videoyu yapmak için bu tür bir çubuk figür animasyonu ile onu canlandırıyor.

Ve buna koşullu video oluşturma diyoruz, çünkü aynı çubuk figürden üretebileceğiniz birçok farklı video var. Ve böylece yapmak istediğimiz şey, belki kişinin konuştuğu metin veya belki de yaratmak istediğimiz bir tür animasyon gibi bir tür başka bilgiye dayalı olarak makul görünen birini seçmek. Ve koşullu video oluşturma çok güçlü bir fikir ve zaman içinde grafik oluşturmanın yeni bir yoluna, grafik oluşturmanın ve oluşturmanın yeni bir yoluna dönüşeceğini düşündüğüm bir şey.

Brent Leary: Hatta o videonun bir parçası var ki, kişi temelde şunu çiz dedi ve aslında çizilmeye başladı.


Bryan Catanzaro: Doğru. Derin öğrenmenin gücü, bir uzaydan diğerine haritalamanın çok esnek bir yolu olmasıdır. Ve bu videoda bunun birçok örneğini görüyoruz. Ve bu başka bir örnek, ancak AI teknolojisi açısından hepsi birbirine benziyor, çünkü yaptığımız şey X'ten Y'ye giden bir haritalamayı öğrenmeye çalışmak. Ve bu durumda, deniyoruz. sahnenin bir metin açıklamasından bir çubuk şekline, o sahnenin bir karikatürüne giden bir eşleme öğrenmek. Diyelim ki dağlarda ağaçlarla çevrili bir göl dedim. Modelin dağların arka planda olduğunu ve belirli bir şekle sahip olduğunu anlamasını istiyorum.

Ve sonra ağaçlar ön plana çıkıyor ve sonra tam ortada, genellikle büyük bir göl olacak. Bin veya bir milyon doğal manzara görüntüsüne dayalı bir model yetiştirmek mümkün ve bu görüntülerin içeriğinin ne olduğunu gösteren açıklamalarınız var. Sonra modeli diğer yöne gitmesi için eğitebilir ve metne göre, sahnenin nasıl görünmesi gerektiğine dair bir tür çubuk figür karikatürü oluşturabilir misiniz diyebilirsiniz. Dağlar nereye gider? Ağaçlar nereye gidiyor? Su nereye gidiyor? Ve sonra o çubuk şekline sahip olduğunuzda, onu bir görüntüye dönüştüren bir modele gönderebilirsiniz. Ve işte o videoda gördüğün şey buydu.

Dijital Avatarlar ve Yakınlaştırma Çağrıları

Yakın gelecekte Zoom aramalarını çok daha iyi bir deneyim haline getirmek için bu teknolojinin nasıl kullanılacağına dair bu kısa videoyu izleyin. Bu senaryoda, Zoom araması yoluyla bir iş için röportaj yapan bir adam var.

Brent Leary: Bunun güzel yanı, sonunda kendi görüntüsünün tek bir fotoğraftan oluşturulduğunu söyledi; ve bu onun sesiydi. Ekranda ağzın hareketini görebilirdiniz. Ses kalitesi harika ve bir kafede oturuyor, kafede çok fazla ses olabilir ama biz o sesin hiçbirini duymadık.

Bryan Catanzaro : Evet, o demodan gerçekten gurur duyduk. Şunu da belirtmeliyim ki, bu demo bu yıl dünyanın en büyük grafik konferansı olan SIGGRAPH konferansında en iyi gösteriyi kazandı. Bu model, genelleştirilmiş bir video sentez modeliydi. Daha önce, bir kişinin bir tür çubuk figür temsilini nasıl alıp canlandırabileceğinizden bahsediyorduk. Pekala, geçmişteki modellerin sınırlamalarından biri, her durum için tamamen yeni bir model eğitmeniz gerekmesiydi. Diyelim ki evdeysem bir modelim var. Farklı bir geçmişe sahip kafedeysem, başka bir modele ihtiyacım var. Veya bunu kendiniz yapmak istiyorsanız, bu yerde kendiniz için bir modele, kendiniz için başka bir modele, başka bir yere ihtiyacınız olacak, bu modellerden birini her oluşturduğunuzda, o konumda bir veri kümesi yakalamanız gerekir belki de bir takım elbiseler ya da o gözlükler ya da her neyse, ve sonra bir süper bilgisayarda bir model eğitmek için bir hafta harcamak ve bu gerçekten pahalı, değil mi? Yani çoğumuz bunu asla yapamayız. Bu, bu teknolojinin kullanım şeklini gerçekten sınırlayacaktır.

Bence bu özel animasyonun arkasındaki teknik yenilik, temelde herkesle çalışabilecek genelleştirilmiş bir model bulmalarıydı. Yeterince ucuz olan tek bir resminizi sağlamanız yeterli. Bunu herkes yapabilir, değil mi? Ve o gün yeni bir yere giderseniz veya farklı kıyafetler veya gözlükler takarsanız veya her neyse, o gün sadece bir fotoğraf çekebilirsiniz. Ve sonra model, genel olduğu için, sadece bir fotoğrafı referans olarak kullanarak görünümünüzü yeniden sentezleyebilir.

Bence bu oldukça heyecan verici. Şimdi o videonun devamında, aslında bir konuşma sentezi modeline de geçtiler. Yani o klipte duyduğumuz şey aslında ana karakterin kendi sesiyle konuşmasıydı, ancak daha sonra kafede işler o kadar gürültülü oluyor ki sonunda metne geçiyor. Ve böylece sadece yazıyor ve ses, konuşma sentezi modellerimizden biri tarafından üretiliyor.

İnsanlara yeni yollarla iletişim kurma fırsatı vermenin yalnızca insanları birbirine daha da yakınlaştırmaya yardımcı olduğunu düşünüyorum.

Brent Leary: Konuşmaya Dayalı Yapay Zeka, önümüzdeki yıllarda iletişim kurma ve işbirliği yapma şeklimizi nasıl değiştirecek?

Bryan Catanzaro : İnsanların iletişim kurmasının birincil yolu, tıpkı şu anda sizin ve benim yaptığımız gibi, konuşma yoluyladır, ancak birçok nedenden dolayı, insanların bilgisayarla anlamlı bir konuşma yapması çok zordur. Birincisi, doğal hissetmemesi, değil mi? Sanki bir robotla konuşuyormuşsunuz gibi geliyorsa, bu iletişimi engelleyen bir engeldir. Bir insana benzemiyor, Bir insan ve açıkçası bilgisayarlar gibi tepki vermiyor bu günlerde, bilirsiniz, etkileşimde bulunduğumuz sistemlerin çoğu, insanların neyi anlayabildiğini anlamıyor. Ve bu nedenle, bazı yönlerden konuşma AI, nihai AI mücadelesidir. Aslında, birçok kişi tarafından yapay zekanın babası olarak kabul edilen Alan Turing, Turing testine aşina olabilirsiniz - yapay zekanın nihai hedefi olarak konuşma yapay zekasını belirledi.

Çünkü eğer bir insanla akıllıca konuşabilen bir makineniz varsa, o zaman temelde hayal edebileceğiniz her türlü zeka sorusunu çözmüşsünüzdür, çünkü insanların sahip olduğu herhangi bir bilgi, herhangi bir bilgelik, insanların son bin yılda yarattığı herhangi bir fikir. yılların hepsi var, hepsi dil yoluyla ifade edildi. Ve bu, dilin yeterince genel bir yol olduğu anlamına gelir. Açıkçası, insanlar için karmaşık fikirleri iletmenin tek yolu bu. Ve eğer anlayan ve akıllıca iletişim kurabilen bilgisayarlar yapabilirsek ve düşük sürtünme ile, bu yüzden aslında kişiyle etkileşime giriyormuşsunuz gibi hissettirirse, o zaman çözebileceğimizi düşündüğüm birçok sorunu çözebileceğimizi düşünüyorum. .

Bence konuşma yapay zekası, uzun bir süre tüm endüstrinin araştırmalarının odak noktası olmaya devam edecek. Bence bu, tüm insan anlayışı ve bilgisi kadar derin bir konu. Sen ve ben Rus edebiyatı diyelim, bir podcast yapıyor olsaydık, Rus edebiyatında doktora yapmış birinin benden daha iyi konuşabileceği birçok uzman fikri olurdu, örneğin, değil mi? Yani insanlar arasında bile çeşitli konulardaki yeteneklerimiz farklı olacak. İşte bu yüzden konuşma yapay zekasının bizi yakın gelecekte meşgul etmeye devam eden bir meydan okuma olacağını düşünüyorum, çünkü insanların anladığı her şeyi anlamak gerçekten zor. Ve bunu yapmaya yakın değiliz.

Bu, düşünce liderleriyle Bire Bir Röportaj serisinin bir parçasıdır. Transkript yayın için düzenlenmiştir. Sesli veya görüntülü bir röportajsa, yukarıdaki gömülü oynatıcıya tıklayın veya iTunes veya Stitcher aracılığıyla abone olun.