Bryan Catanzaro dari NVIDIA – AI Percakapan dalam Beberapa Cara adalah Tantangan AI Utama
Diterbitkan: 2021-10-02Banyak dari Anda yang menyukai game atau penyuntingan video yang serius mengenal NVIDIA sebagai pencipta teknologi pemrosesan grafis terkemuka di pasar. Namun NVIDIA juga merupakan pemimpin di bidang kecerdasan buatan dan pembelajaran mendalam; khususnya tentang bagaimana teknologi ini dapat meningkatkan pengalaman grafis, sintesis teks dan video, serta AI percakapan.
Beberapa karya mereka dipamerkan dalam serangkaian video yang mereka kumpulkan berjudul I AM AI yang merupakan tampilan menarik tentang apa (dan apa yang akan) tersedia bagi kita untuk meningkatkan cara kita mengalami dunia – dan satu sama lain. Dan baru-baru ini saya berkesempatan untuk melakukan percakapan LinkedIn Live dengan Bryan Catanzaro , Wakil Presiden, Applied Deep Learning Research di NVIDIA, untuk mendengar lebih banyak tentang pekerjaan mereka dengan AI untuk membayangkan kembali bagaimana kita mengalami pemandangan dan suara.
Di bawah ini adalah transkrip yang diedit dari sebagian percakapan kami. Klik pemutar SoundCloud yang disematkan untuk mendengar percakapan lengkapnya.
Pastikan untuk menonton klip yang disematkan karena membantu membingkai percakapan kita.
Brent Leary : Suara dalam video itu terdengar seperti manusia nyata bagiku. Anda terbiasa mendengar seperti Alexa dan Siri, dan sebelum itu seperti, Anda tahu, kami bahkan tidak ingin berbicara tentang suara-suara untuk sebelumnya, tetapi yang itu benar-benar terdengar seperti manusia dengan, dengan manusia. infleksi dan beberapa kedalaman. Apakah itu hal yang kita lihat ketika Anda berbicara tentang menciptakan kembali grafik dan menemukan kembali teknologi suara dan menggunakan teknologi yang lebih baru, termasuk AI dan pembelajaran mendalam untuk tidak hanya mengubah tampilan grafik tetapi juga mengubah nuansa dan suara mesin untuk membuatnya terdengar lebih seperti salah satu dari kita.
Bryan Catanzaro : Saya harus memastikan bahwa Anda memahami bahwa meskipun suara itu disintesis, itu juga diarahkan dengan cermat. Jadi saya tidak akan mengatakan bahwa itu adalah tombol tekan, sistem sintesis ucapan. Seperti yang mungkin Anda gunakan saat berbicara dengan asisten virtual. Alih-alih, itu adalah suara yang dapat dikontrol yang memungkinkan algoritme kami dibuat oleh produsen video. Dan salah satu cara yang mereka lakukan adalah dengan memodelkan infleksi dan ritme serta energi yang mereka inginkan pada bagian tertentu dari video narasi. Jadi, saya akan mengatakan ini bukan hanya cerita tentang AI yang menjadi lebih baik, tetapi juga cerita tentang bagaimana manusia bekerja lebih dekat dengan AI untuk membangun sesuatu, dan memiliki kemampuan untuk membuat suara sintetis yang dapat dikontrol dengan cara ini.
Saya pikir ini membuka peluang baru untuk sintesis pidato dalam hiburan dan seni, saya pikir. Saya pikir itu menarik, tetapi itu adalah sesuatu yang Anda dan audiens Anda harus pahami sebenarnya diarahkan dengan sangat dekat oleh seseorang. Sekarang, tentu saja, kami bekerja keras pada algoritme yang mampu memprediksi semua umat manusia di sana, ritme, infleksi, nada. Dan saya pikir kita akan melihat beberapa kemajuan luar biasa dalam beberapa tahun ke depan, di mana kita dapat memiliki tombol tekan penuh, sistem sintesis ucapan yang memiliki infleksi yang tepat untuk mengikuti makna teks, karena ketika Anda berbicara banyak makna yang disampaikan melalui infleksi suara Anda, bukan hanya arti dari kata-kata yang Anda pilih.
Dan, jika kita memiliki model yang dapat memahami makna teks, seperti beberapa model bahasa menakjubkan yang saya rujuk sebelumnya, kita harus dapat menggunakannya untuk mengarahkan sintesis ucapan dengan cara yang memiliki makna. Dan itu adalah sesuatu yang saya sangat bersemangat. ini menarik.
Saya merasa bahwa kita memiliki semacam bias budaya, mungkin itu khusus untuk Amerika Serikat. Saya tidak yakin, tetapi kami memiliki bias budaya bahwa komputer tidak dapat berbicara dengan cara seperti manusia. Dan mungkin itu berasal dari Star Trek: The Next Generation di mana Data seperti mesin komputasi yang luar biasa, dan dia bisa memecahkan masalah apa pun dan menemukan teori fisika baru, tapi dia tidak pernah bisa berbicara dengan cara yang sama seperti yang bisa dilakukan manusia, atau mungkin itu melacak kembali ke, Anda tahu.
Brent Leary : Spock, mungkin.
Bryan Catanzaro: Itu tidak menyenangkan seperti dia, suaranya, seperti menyeramkan, Anda tahu. Jadi kita memiliki 50 tahun, beberapa generasi budaya memberi tahu kita bahwa komputer tidak dapat berbicara dengan cara seperti manusia. Dan saya sebenarnya hanya berpikir bukan itu masalahnya. Saya pikir kita dapat membuat komputer berbicara dengan cara yang lebih mirip manusia, dan, dan kita akan melakukannya. Dan saya juga berpikir bahwa manfaat dari teknologi itu akan sangat besar bagi kita semua.
Brent Leary: Hal lain yang menonjol dalam klip itu adalah Amelia Earhart, dengan fotonya tampak hidup. Bisakah Anda berbicara tentang, saya kira itu bagian dari menciptakan kembali grafik menggunakan AI.
Bryan Catanzaro : Ya, benar. NVIDIA Research telah benar-benar terlibat dalam banyak teknologi untuk menyintesis video dan mensintesis gambar menggunakan kecerdasan buatan. Dan itu salah satu contohnya, Anda melihat salah satu di mana jaringan saraf mewarnai gambar, semacam memberi kita cara baru untuk melihat masa lalu. Dan ketika Anda memikirkannya, Anda tahu, apa yang terlibat dalam mewarnai sebuah gambar. AI perlu memahami konten gambar untuk menetapkan kemungkinan warna pada gambar tersebut, seperti, misalnya, rumput biasanya berwarna hijau, tetapi jika Anda tidak tahu di mana rumput itu berada, maka Anda tidak boleh mewarnai apa pun dengan warna hijau dan pendekatan tradisional untuk mewarnai gambar adalah, saya akan mengatakan sedikit menghindari risiko. Tetapi karena AI semakin baik dalam memahami konten gambar dan objek apa yang ada di sana dan bagaimana objek saling berhubungan, maka AI dapat melakukan jauh lebih baik dalam menetapkan kemungkinan warna pada gambar yang membuatnya hidup.
Itu salah satu contohnya, masalah pewarnaan gambar ini. Tapi saya rasa dalam video itu, kami melihat beberapa contoh lain di mana kami dapat mengambil gambar dan kemudian menganimasikannya dengan berbagai cara.
Sintesis Kondisional Visual
Salah satu teknologi yang sangat kami minati adalah, disebut sintesis video bersyarat, di mana Anda dapat membuat video berdasarkan semacam sketsa dan, Anda tahu, untuk hal seperti ini, yang akan Anda lakukan adalah menentang pengenalan yang menganalisis struktur objek. Sebagai contoh, sebuah wajah, dan inilah matanya dan inilah hidungnya, dan kemudian berikan jenis posisi pada objek dan ukurannya.
Dan itu menjadi seperti kartun, seorang anak mungkin menggambar dengan tongkat. Lalu apa yang Anda lakukan adalah mengirimkannya ke rutinitas lain yang menjiwai sosok tongkat itu dan membuat orang tersebut menggerakkan kepala atau tersenyum atau, atau berbicara dengan teks yang kita ingin menganimasikan ucapan seseorang ke teks tertentu sementara kita bisa membuat model yang memprediksi bagaimana model figur tongkat mereka akan berkembang sebagai, sebagai orang yang berbicara. Dan setelah kami memiliki gambar figur tongkat animasi semacam itu, yang menunjukkan bagaimana orang tersebut harus bergerak, lalu kami memasukkannya ke jaringan saraf yang mensintesis video dari itu dan, dan melanjutkan semacam dari gambar awal yang memiliki seperti, penampilan orang dan, dan latar belakang dan sebagainya, dan kemudian menganimasikannya melalui animasi figur tongkat semacam ini untuk membuat video.
Dan kami menyebutnya generasi video bersyarat, karena ada banyak video berbeda yang dapat Anda hasilkan dari figur tongkat yang sama. Jadi yang ingin kita lakukan adalah memilih salah satu yang tampaknya masuk akal dikondisikan, pada semacam informasi lain, seperti mungkin teks yang dibicarakan orang tersebut, atau mungkin semacam animasi yang ingin kita buat. Dan pembuatan video bersyarat adalah ide yang sangat kuat dan itu adalah sesuatu yang saya pikir seiring waktu akan berkembang menjadi cara baru untuk menghasilkan grafik, cara baru untuk merender dan membuat grafik.
Brent Leary: Bahkan ada bagian dari video di mana orang tersebut pada dasarnya berkata, gambar ini dan itu benar-benar mulai digambar.
