Bryan Catanzaro dari NVIDIA – AI Percakapan dalam Beberapa Cara adalah Tantangan AI Utama

Diterbitkan: 2021-10-02

Banyak dari Anda yang menyukai game atau penyuntingan video yang serius mengenal NVIDIA sebagai pencipta teknologi pemrosesan grafis terkemuka di pasar. Namun NVIDIA juga merupakan pemimpin di bidang kecerdasan buatan dan pembelajaran mendalam; khususnya tentang bagaimana teknologi ini dapat meningkatkan pengalaman grafis, sintesis teks dan video, serta AI percakapan.

Beberapa karya mereka dipamerkan dalam serangkaian video yang mereka kumpulkan berjudul I AM AI yang merupakan tampilan menarik tentang apa (dan apa yang akan) tersedia bagi kita untuk meningkatkan cara kita mengalami dunia – dan satu sama lain. Dan baru-baru ini saya berkesempatan untuk melakukan percakapan LinkedIn Live dengan Bryan Catanzaro , Wakil Presiden, Applied Deep Learning Research di NVIDIA, untuk mendengar lebih banyak tentang pekerjaan mereka dengan AI untuk membayangkan kembali bagaimana kita mengalami pemandangan dan suara.

Di bawah ini adalah transkrip yang diedit dari sebagian percakapan kami. Klik pemutar SoundCloud yang disematkan untuk mendengar percakapan lengkapnya.

smallbiztrends · Bryan Catanzaro dari NVIDIA – AI percakapan dalam beberapa hal adalah tantangan AI utama

Pastikan untuk menonton klip yang disematkan karena membantu membingkai percakapan kita.

Brent Leary : Suara dalam video itu terdengar seperti manusia nyata bagiku. Anda terbiasa mendengar seperti Alexa dan Siri, dan sebelum itu seperti, Anda tahu, kami bahkan tidak ingin berbicara tentang suara-suara untuk sebelumnya, tetapi yang itu benar-benar terdengar seperti manusia dengan, dengan manusia. infleksi dan beberapa kedalaman. Apakah itu hal yang kita lihat ketika Anda berbicara tentang menciptakan kembali grafik dan menemukan kembali teknologi suara dan menggunakan teknologi yang lebih baru, termasuk AI dan pembelajaran mendalam untuk tidak hanya mengubah tampilan grafik tetapi juga mengubah nuansa dan suara mesin untuk membuatnya terdengar lebih seperti salah satu dari kita.

Bryan Catanzaro : Saya harus memastikan bahwa Anda memahami bahwa meskipun suara itu disintesis, itu juga diarahkan dengan cermat. Jadi saya tidak akan mengatakan bahwa itu adalah tombol tekan, sistem sintesis ucapan. Seperti yang mungkin Anda gunakan saat berbicara dengan asisten virtual. Alih-alih, itu adalah suara yang dapat dikontrol yang memungkinkan algoritme kami dibuat oleh produsen video. Dan salah satu cara yang mereka lakukan adalah dengan memodelkan infleksi dan ritme serta energi yang mereka inginkan pada bagian tertentu dari video narasi. Jadi, saya akan mengatakan ini bukan hanya cerita tentang AI yang menjadi lebih baik, tetapi juga cerita tentang bagaimana manusia bekerja lebih dekat dengan AI untuk membangun sesuatu, dan memiliki kemampuan untuk membuat suara sintetis yang dapat dikontrol dengan cara ini.

Saya pikir ini membuka peluang baru untuk sintesis pidato dalam hiburan dan seni, saya pikir. Saya pikir itu menarik, tetapi itu adalah sesuatu yang Anda dan audiens Anda harus pahami sebenarnya diarahkan dengan sangat dekat oleh seseorang. Sekarang, tentu saja, kami bekerja keras pada algoritme yang mampu memprediksi semua umat manusia di sana, ritme, infleksi, nada. Dan saya pikir kita akan melihat beberapa kemajuan luar biasa dalam beberapa tahun ke depan, di mana kita dapat memiliki tombol tekan penuh, sistem sintesis ucapan yang memiliki infleksi yang tepat untuk mengikuti makna teks, karena ketika Anda berbicara banyak makna yang disampaikan melalui infleksi suara Anda, bukan hanya arti dari kata-kata yang Anda pilih.

Dan, jika kita memiliki model yang dapat memahami makna teks, seperti beberapa model bahasa menakjubkan yang saya rujuk sebelumnya, kita harus dapat menggunakannya untuk mengarahkan sintesis ucapan dengan cara yang memiliki makna. Dan itu adalah sesuatu yang saya sangat bersemangat. ini menarik.

Saya merasa bahwa kita memiliki semacam bias budaya, mungkin itu khusus untuk Amerika Serikat. Saya tidak yakin, tetapi kami memiliki bias budaya bahwa komputer tidak dapat berbicara dengan cara seperti manusia. Dan mungkin itu berasal dari Star Trek: The Next Generation di mana Data seperti mesin komputasi yang luar biasa, dan dia bisa memecahkan masalah apa pun dan menemukan teori fisika baru, tapi dia tidak pernah bisa berbicara dengan cara yang sama seperti yang bisa dilakukan manusia, atau mungkin itu melacak kembali ke, Anda tahu.

Brent Leary : Spock, mungkin.

Bryan Catanzaro: Itu tidak menyenangkan seperti dia, suaranya, seperti menyeramkan, Anda tahu. Jadi kita memiliki 50 tahun, beberapa generasi budaya memberi tahu kita bahwa komputer tidak dapat berbicara dengan cara seperti manusia. Dan saya sebenarnya hanya berpikir bukan itu masalahnya. Saya pikir kita dapat membuat komputer berbicara dengan cara yang lebih mirip manusia, dan, dan kita akan melakukannya. Dan saya juga berpikir bahwa manfaat dari teknologi itu akan sangat besar bagi kita semua.

Brent Leary: Hal lain yang menonjol dalam klip itu adalah Amelia Earhart, dengan fotonya tampak hidup. Bisakah Anda berbicara tentang, saya kira itu bagian dari menciptakan kembali grafik menggunakan AI.

Bryan Catanzaro : Ya, benar. NVIDIA Research telah benar-benar terlibat dalam banyak teknologi untuk menyintesis video dan mensintesis gambar menggunakan kecerdasan buatan. Dan itu salah satu contohnya, Anda melihat salah satu di mana jaringan saraf mewarnai gambar, semacam memberi kita cara baru untuk melihat masa lalu. Dan ketika Anda memikirkannya, Anda tahu, apa yang terlibat dalam mewarnai sebuah gambar. AI perlu memahami konten gambar untuk menetapkan kemungkinan warna pada gambar tersebut, seperti, misalnya, rumput biasanya berwarna hijau, tetapi jika Anda tidak tahu di mana rumput itu berada, maka Anda tidak boleh mewarnai apa pun dengan warna hijau dan pendekatan tradisional untuk mewarnai gambar adalah, saya akan mengatakan sedikit menghindari risiko. Tetapi karena AI semakin baik dalam memahami konten gambar dan objek apa yang ada di sana dan bagaimana objek saling berhubungan, maka AI dapat melakukan jauh lebih baik dalam menetapkan kemungkinan warna pada gambar yang membuatnya hidup.

Itu salah satu contohnya, masalah pewarnaan gambar ini. Tapi saya rasa dalam video itu, kami melihat beberapa contoh lain di mana kami dapat mengambil gambar dan kemudian menganimasikannya dengan berbagai cara.

Sintesis Kondisional Visual

Salah satu teknologi yang sangat kami minati adalah, disebut sintesis video bersyarat, di mana Anda dapat membuat video berdasarkan semacam sketsa dan, Anda tahu, untuk hal seperti ini, yang akan Anda lakukan adalah menentang pengenalan yang menganalisis struktur objek. Sebagai contoh, sebuah wajah, dan inilah matanya dan inilah hidungnya, dan kemudian berikan jenis posisi pada objek dan ukurannya.

Dan itu menjadi seperti kartun, seorang anak mungkin menggambar dengan tongkat. Lalu apa yang Anda lakukan adalah mengirimkannya ke rutinitas lain yang menjiwai sosok tongkat itu dan membuat orang tersebut menggerakkan kepala atau tersenyum atau, atau berbicara dengan teks yang kita ingin menganimasikan ucapan seseorang ke teks tertentu sementara kita bisa membuat model yang memprediksi bagaimana model figur tongkat mereka akan berkembang sebagai, sebagai orang yang berbicara. Dan setelah kami memiliki gambar figur tongkat animasi semacam itu, yang menunjukkan bagaimana orang tersebut harus bergerak, lalu kami memasukkannya ke jaringan saraf yang mensintesis video dari itu dan, dan melanjutkan semacam dari gambar awal yang memiliki seperti, penampilan orang dan, dan latar belakang dan sebagainya, dan kemudian menganimasikannya melalui animasi figur tongkat semacam ini untuk membuat video.

Dan kami menyebutnya generasi video bersyarat, karena ada banyak video berbeda yang dapat Anda hasilkan dari figur tongkat yang sama. Jadi yang ingin kita lakukan adalah memilih salah satu yang tampaknya masuk akal dikondisikan, pada semacam informasi lain, seperti mungkin teks yang dibicarakan orang tersebut, atau mungkin semacam animasi yang ingin kita buat. Dan pembuatan video bersyarat adalah ide yang sangat kuat dan itu adalah sesuatu yang saya pikir seiring waktu akan berkembang menjadi cara baru untuk menghasilkan grafik, cara baru untuk merender dan membuat grafik.

Brent Leary: Bahkan ada bagian dari video di mana orang tersebut pada dasarnya berkata, gambar ini dan itu benar-benar mulai digambar.


Bryan Catanzaro: Benar. Kekuatan pembelajaran mendalam adalah cara pemetaan yang sangat fleksibel dari satu ruang ke ruang lainnya. Dan dalam video itu, kami melihat banyak contoh tentang itu. Dan ini adalah contoh lain, tetapi dari sudut pandang teknologi AI, semuanya serupa, karena apa yang kami lakukan adalah mencoba mempelajari pemetaan dari X ke Y. Dan dalam kasus ini, kami mencoba untuk mempelajari pemetaan yang beralih dari deskripsi teks adegan ke figur tongkat kartun adegan itu. Katakanlah saya mengatakan sebuah danau yang dikelilingi oleh pepohonan di pegunungan. Saya ingin model memahami bahwa gunung berada di latar belakang dan mereka memiliki bentuk tertentu.

Dan kemudian, pepohonan berada di latar depan dan kemudian tepat di tengah, biasanya akan ada sebuah danau besar. Dimungkinkan untuk melatih model berdasarkan katakanlah seribu atau sejuta gambar pemandangan alam dan Anda memiliki anotasi yang menunjukkan, apa isi gambar ini? Kemudian Anda dapat melatih model untuk pergi ke arah lain dan mengatakan, berdasarkan teksnya, dapatkah Anda membuat semacam kartun figur tongkat tentang seperti apa pemandangan itu seharusnya? Ke mana perginya gunung-gunung? Ke mana pohon-pohon pergi? Ke mana perginya air? Dan setelah Anda memiliki figur tongkat itu, Anda dapat mengirimkannya ke dalam model yang menguraikannya menjadi sebuah gambar. Dan, dan itulah yang Anda lihat di video itu.

Avatar Digital dan Panggilan Zoom

Tonton video singkat tentang bagaimana teknologi ini akan digunakan untuk membuat panggilan Zoom menjadi pengalaman yang jauh lebih baik dalam waktu dekat. Skenario ini memiliki seorang pria yang diwawancarai untuk pekerjaan melalui panggilan Zoom.

Brent Leary: Apa yang keren tentang itu, pada akhirnya, dia mengatakan bahwa gambar dirinya dihasilkan dari satu foto dirinya; dan itu adalah suaranya. Anda bisa, di layar Anda bisa melihat pergerakan mulut. Kualitas audionya bagus, dan dia sedang duduk di kedai kopi, yang mungkin ada banyak suara di kedai kopi, tapi kami tidak mendengar suara itu.

Bryan Catanzaro : Ya, kami sangat bangga dengan demo itu. Saya harus, saya juga harus mencatat bahwa demo itu memenangkan pertunjukan terbaik di konferensi SIGGRAPH tahun ini, yang merupakan konferensi grafis terbesar di dunia. Model itu adalah model sintesis video umum. Kami berbicara sebelumnya tentang bagaimana Anda dapat mengambil semacam representasi figur tongkat dari seseorang kemudian menghidupkannya. Nah, salah satu keterbatasan model di masa lalu adalah Anda harus melatih model yang sama sekali baru untuk setiap situasi. Jadi katakanlah jika saya di rumah, saya punya satu model. Jika saya berada di kedai kopi dengan latar belakang yang berbeda, saya membutuhkan model lain. Atau jika Anda ingin melakukan ini sendiri, Anda akan memerlukan satu model untuk diri Anda sendiri di tempat ini, model lain untuk diri Anda sendiri, tempat lain, setiap kali Anda membuat salah satu model ini, Anda harus menangkap kumpulan data di lokasi itu dengan mungkin itu set pakaian atau kacamata itu atau apa pun, dan kemudian menghabiskan seminggu di superkomputer untuk melatih seorang model, dan itu sangat mahal, bukan? Jadi kebanyakan dari kita tidak pernah bisa melakukan itu. Itu benar-benar akan membatasi cara penggunaan teknologi ini.

Saya pikir inovasi teknis di balik animasi itu adalah mereka datang dengan model umum yang pada dasarnya dapat bekerja dengan siapa saja. Anda hanya perlu memberikan satu foto diri Anda, yang cukup murah. Siapapun bisa melakukannya, kan? Dan jika Anda pergi ke lokasi baru atau Anda mengenakan pakaian atau kacamata yang berbeda, atau apa pun, hari itu, Anda bisa memotretnya. Kemudian modelnya, karena bersifat umum, mampu mensintesis ulang penampilan Anda hanya dengan menggunakan satu foto itu sebagai referensi.

Saya pikir itu cukup menarik. Sekarang di video itu, sebenarnya, mereka juga beralih ke model sintesis ucapan. Jadi apa yang kami dengar di klip itu sebenarnya adalah karakter utama yang berbicara dengan suaranya sendiri, tetapi kemudian hal-hal di kedai kopi menjadi sangat bising sehingga dia akhirnya beralih ke teks. Jadi dia hanya mengetik dan audio diproduksi oleh salah satu model sintesis ucapan kami.

Saya pikir memberi orang kesempatan untuk berkomunikasi dengan cara baru hanya membantu mendekatkan orang.

Brent Leary: AI Percakapan, bagaimana hal itu akan mengubah cara kita berkomunikasi dan berkolaborasi di tahun-tahun mendatang?

Bryan Catanzaro : Cara utama manusia berkomunikasi adalah melalui percakapan seperti yang Anda dan saya lakukan saat ini, tetapi sangat sulit bagi manusia untuk melakukan percakapan yang bermakna dengan komputer, karena beberapa alasan. Salah satunya adalah tidak terasa alami, bukan? Seperti jika Anda berbicara dengan robot, itu adalah penghalang yang menghambat komunikasi. Itu tidak terlihat seperti manusia, Tidak bereaksi seperti manusia dan jelas komputer hari ini, Anda tahu, sebagian besar sistem yang Anda dan saya telah berinteraksi dengannya, tidak mengerti apa yang dapat dipahami manusia. Dan AI percakapan dalam beberapa hal adalah tantangan AI utama. Bahkan, Anda mungkin akrab dengan tes Turing, Alan Turing, yang dianggap oleh banyak orang sebagai bapak kecerdasan buatan – ia menetapkan AI percakapan sebagai tujuan akhir dari kecerdasan buatan.

Karena jika Anda memiliki mesin yang mampu berkomunikasi secara cerdas dengan manusia, maka pada dasarnya Anda memecahkan semua jenis pertanyaan kecerdasan yang dapat Anda bayangkan, karena informasi apa pun yang dimiliki manusia, kebijaksanaan apa pun, gagasan apa pun yang telah diciptakan manusia selama ribuan tahun terakhir. tahun memiliki semua, mereka semua telah diungkapkan melalui bahasa. Dan itu berarti bahasa adalah cara yang cukup umum. Jelas ini satu-satunya cara bagi manusia, untuk mengomunikasikan ide-ide yang rumit. Dan jika kita dapat membuat komputer yang dapat memahami dan berkomunikasi dengan cerdas, dan dengan gesekan yang rendah, sehingga benar-benar terasa seperti Anda sedang berinteraksi dengan orang tersebut, maka banyak masalah yang saya pikir akan dapat kita selesaikan .

Saya pikir AI percakapan akan terus menjadi fokus penelitian dari seluruh industri untuk waktu yang lama. Saya pikir ini adalah subjek yang sedalam semua pemahaman dan pengetahuan manusia. Jika Anda dan saya mengadakan podcast, katakanlah sastra Rusia, akan ada banyak ide khusus yang dapat dibicarakan oleh seseorang dengan gelar PhD dalam sastra Rusia daripada saya, misalnya, bukan? Jadi bahkan di antara manusia, kemampuan kita dalam berbagai mata pelajaran akan berbeda. Dan itulah mengapa saya pikir AI percakapan akan menjadi tantangan yang terus melibatkan kita di masa mendatang, karena itu benar-benar tantangan untuk memahami semua yang dipahami manusia. Dan kami tidak dekat untuk melakukan itu.

Ini adalah bagian dari seri Wawancara Satu-satu dengan para pemimpin pemikiran. Transkrip telah diedit untuk publikasi. Jika ini adalah wawancara audio atau video, klik pemutar tersemat di atas, atau berlangganan melalui iTunes atau melalui Stitcher.