NVIDIA'dan Bryan Catanzaro - Bazı Yönlerden Konuşmaya Dayalı Yapay Zeka, Nihai Yapay Zeka Mücadelesidir
Yayınlanan: 2021-10-02Oyun oynama veya ciddi video düzenleme ile ilgilenen birçoğunuz NVIDIA'yı piyasadaki lider grafik işleme teknolojisinin yaratıcıları olarak tanıyor. Ancak NVIDIA, yapay zeka ve derin öğrenme alanlarında da liderdir; özellikle bu teknolojilerin grafik, metin ve video sentezi ve konuşma yapay zekasını nasıl deneyimlediğimizi nasıl geliştirebileceği konusunda.
Çalışmalarından bazıları, dünyayı ve birbirimizi nasıl deneyimlediğimizi geliştirmek için bizim için neyin mevcut olduğuna (ve ne olacağına) ikna edici bir bakış sunan I AM AI adlı bir araya getirdikleri bir dizi videoda sergilendi. Yakın zamanda , NVIDIA Uygulamalı Derin Öğrenme Araştırması Başkan Yardımcısı Bryan Catanzaro ile görüntüleri ve sesleri nasıl deneyimlediğimizi yeniden tasarlamak için AI ile yaptıkları çalışmalar hakkında daha fazla bilgi almak için LinkedIn Canlı sohbet etme fırsatım oldu .
Aşağıda, konuşmamızın bir bölümünün düzenlenmiş bir dökümü bulunmaktadır. Konuşmanın tamamını dinlemek için yerleşik SoundCloud oynatıcısına tıklayın.
Sohbetimizi çerçevelemeye yardımcı oldukları için gömülü klipleri izlediğinizden emin olun.
Brent Leary : O videodaki ses bana gerçek bir insan gibi geldi. Alexa ve Siri gibi duymaya alışkınsın ve ondan önce sanki, bilirsin, ondan önceki sesler hakkında konuşmak bile istemiyoruz, ama bu gerçekten bir insan gibi geliyordu, insanla bükülme ve biraz derinlik. Grafikleri yeniden icat etmekten ve ses teknolojisini yeniden icat etmekten ve yalnızca grafiklerin görünümünü değiştirmek için değil, aynı zamanda bunu yapmak için bir makinenin hissini ve sesini değiştirmek için AI ve derin öğrenme dahil olmak üzere daha yeni teknolojileri kullanmaktan bahsettiğinizde baktığımız şey bu mu? daha çok bizden biri gibi.
Bryan Catanzaro : Bu sesin sentezlenmiş olmasına rağmen aynı zamanda yakından yönlendirildiğini anlamanızı sağlamalıyım. Bu yüzden bunun bir basma düğmesi, konuşma sentez sistemi olduğunu söyleyemem. Bir sanal asistanla konuşurken kullanabileceğiniz gibi. Bunun yerine, algoritmalarımızın video yapımcılarının oluşturmasına izin verdiği kontrol edilebilir bir sesti. Ve bunu yapmanın yollarından biri, anlatımın videosunun belirli bir bölümünün sahip olmasını istedikleri bükülmeyi, ritmi ve enerjiyi modellemektir. Ve bu yüzden, bunun sadece AI'nın daha iyi hale gelmesiyle ilgili bir hikaye olmadığını söyleyebilirim, aynı zamanda insanların bir şeyler inşa etmek için AI ile nasıl daha yakın çalıştıkları ve bu şekilde kontrol edilebilen sentetik sesler üretme yeteneğine sahip oldukları hakkında bir hikaye.
Bunun eğlence ve sanatta konuşma sentezi için yeni fırsatlar açtığını düşünüyorum. Bence bu heyecan verici, ancak sizin ve izleyicilerinizin anlaması gereken bir şey, aslında bir kişi tarafından çok yakından yönetildi. Şimdi, tabii ki, oradaki tüm insanlığı, ritmi, bükülmeyi, perdeyi tahmin edebilen algoritmalar üzerinde çok çalışıyoruz. Ve bence önümüzdeki birkaç yıl içinde, metnin anlamı ile birlikte gitmek için doğru bükülmeye sahip olan tam bir düğmeye, konuşma sentez sistemine sahip olabileceğimiz oldukça şaşırtıcı gelişmeler göreceğiz, çünkü ne zaman Konuştuğunuz kelimelerin anlamı sadece seçtiğiniz kelimelerin anlamı değil, sesinizin bükülmesiyle aktarılır.
Ve daha önce bahsettiğim bu şaşırtıcı dil modellerinden bazıları gibi metinlerin anlamını anlayabilen modellerimiz varsa, bunları anlamlı bir şekilde konuşma sentezini yönlendirmek için kullanabilmeliyiz. Ve bu beni çok heyecanlandıran bir şey. ilginç.
Bir tür kültürel önyargımız olduğunu hissediyorum, belki de Amerika Birleşik Devletleri'ne özgüdür. Emin değilim ama bilgisayarların insan gibi konuşamayacağına dair kültürel bir önyargımız var. Ve belki de bir şekilde Star Trek: The Next Generation'dan geliyor, burada Veri inanılmaz bir bilgisayar makinesi gibiydi ve herhangi bir sorunu çözebilir ve yeni fizik teorileri icat edebilir, ancak asla bir insanın konuşabileceği şekilde konuşamaz veya belki de geriye doğru uzanır, bilirsin.
Brent Leary : Spock, belki.
Bryan Catanzaro: Onun sesi gibi iticiydi, ürkütücüydü, bilirsiniz. Ve bir bilgisayarın insan gibi konuşamayacağını söyleyen 50 yıllık kültürümüz var. Ve aslında durumun böyle olmadığını düşünüyorum. Bence bir bilgisayarın daha insansı bir şekilde konuşmasını sağlayabiliriz ve yapacağız. Ayrıca bu teknolojinin faydalarının hepimiz için oldukça büyük olacağını düşünüyorum.
Brent Leary: O klipte göze çarpan diğer şey, resmi canlanmış gibi görünen Amelia Earhart'tı. Bunun hakkında konuşabilir misiniz, sanırım bu, AI kullanarak grafikleri yeniden icat etmenin bir parçası.
Bryan Catanzaro : Evet, doğru. NVIDIA Research, videoları yapay zeka kullanarak temel olarak sentezlemek ve görüntüleri sentezlemek için birçok teknolojiye gerçekten dahil olmuştur. Ve bu bir örnek, sinir ağının bir görüntüyü renklendirdiği, bize geçmişe bakmanın yeni yollarını verdiği bir örnek gördünüz. Ve bunu düşündüğünüzde, bir görüntüyü renklendirmenin ne anlama geldiğini bilirsiniz. AI'nın onlara olası renkler atamak için görüntünün içeriğini anlaması gerekir, örneğin, çimen genellikle yeşildir, ancak çimenin nerede olduğunu bilmiyorsanız, o zaman hiçbir şeyi yeşil renklendirmemelisiniz ve Görüntüleri renklendirmeye yönelik geleneksel yaklaşımlar, biraz riskten kaçındığını söyleyebilirim. Ancak AI, bir görüntünün içeriğini ve orada hangi nesnelerin olduğunu ve nesnelerin birbirleriyle nasıl ilişkili olduğunu anlamada daha iyi hale geldikçe, görüntüye onu hayata geçiren olası renkleri atamada çok daha iyisini yapabilir.
Bu bir örnek, bu görüntü renklendirme sorunu. Ama sanırım o videoda, resim çekip çeşitli şekillerde canlandırabildiğimiz birkaç örnek daha gördük.
Görsel Koşullu Sentez
Bizim gerçekten ilgilendiğimiz teknolojilerden biri, koşullu video sentezi olarak adlandırılır, burada bir tür eskize dayalı bir video oluşturabilirsiniz ve bilirsiniz, bunun gibi bir şey için, yapacağınız şey şudur: nesnelerin yapısını analiz eden tanımaya karşı çıkar. Örneğin, bir yüz ve işte gözler ve işte burun ve sonra nesneye ve boyutlara bir tür konum atar.
Ve bu bir tür karikatür gibi olur, bir çocuk bir çöp adam figürü ile çizebilir. Ve sonra yaptığınız şey, o sopa figürünü canlandıran ve kişinin kafasını hareket ettirmesini veya gülümsemesini sağlayan veya veya bir kişinin belirli bir metinle konuşmasını canlandırmak istediğimiz metinlerle konuşmasını sağlayan başka bir rutine göndermektir. çöp adam modellerinin konuşan kişi olarak nasıl gelişeceğini tahmin ediyor. Ve sonra, kişinin nasıl hareket etmesi gerektiğini gösteren bir tür animasyonlu çubuk figür çizimimiz olduğunda, onu bundan bir video sentezleyen bir sinir ağına koyarız ve şuna benzeyen ilk görüntüden yola çıkarız, kişinin ve kişinin görünümü, arka plan ve benzerleri ve ardından videoyu yapmak için bu tür bir çubuk figür animasyonu ile onu canlandırıyor.
Ve buna koşullu video oluşturma diyoruz, çünkü aynı çubuk figürden üretebileceğiniz birçok farklı video var. Ve böylece yapmak istediğimiz şey, belki kişinin konuştuğu metin veya belki de yaratmak istediğimiz bir tür animasyon gibi bir tür başka bilgiye dayalı olarak makul görünen birini seçmek. Ve koşullu video oluşturma çok güçlü bir fikir ve zaman içinde grafik oluşturmanın yeni bir yoluna, grafik oluşturmanın ve oluşturmanın yeni bir yoluna dönüşeceğini düşündüğüm bir şey.
Brent Leary: Hatta o videonun bir parçası var ki, kişi temelde şunu çiz dedi ve aslında çizilmeye başladı.
