Bryan Catanzaro จาก NVIDIA – Conversational AI ในบางวิธีคือความท้าทายด้าน AI ขั้นสูงสุด
เผยแพร่แล้ว: 2021-10-02พวกคุณหลายคนที่เล่นเกมหรือตัดต่อวิดีโออย่างจริงจังรู้จัก NVIDIA ในฐานะผู้สร้างเทคโนโลยีการประมวลผลกราฟิกชั้นนำในตลาด แต่ NVIDIA ก็เป็นผู้นำในด้านปัญญาประดิษฐ์และการเรียนรู้เชิงลึกเช่นกัน โดยเฉพาะอย่างยิ่งในวิธีที่เทคโนโลยีเหล่านี้สามารถปรับปรุงประสบการณ์การใช้งานกราฟิก การสังเคราะห์ข้อความและวิดีโอ และ AI การสนทนา
งานบางส่วนของพวกเขาได้รับการจัดแสดงในชุดวิดีโอที่พวกเขาได้รวบรวมไว้ซึ่งเรียกว่า I AM AI ซึ่งเป็นการดูที่น่าสนใจว่ามีอะไร (และอะไรจะเกิดขึ้น) ให้เราได้ปรับปรุงวิธีที่เราสัมผัสโลกนี้และกันและกัน และเมื่อเร็วๆ นี้ ฉันได้มีโอกาส สนทนาใน LinkedIn Live กับ Bryan Catanzaro รองประธาน Applied Deep Learning Research ที่ NVIDIA เพื่อฟังเพิ่มเติมเกี่ยวกับงานของพวกเขากับ AI เพื่อจินตนาการว่าเราได้สัมผัสกับภาพและเสียงอย่างไร
ด้านล่างนี้คือข้อความถอดเสียงที่แก้ไขแล้วของส่วนหนึ่งของการสนทนาของเรา คลิกที่เครื่องเล่น SoundCloud ที่ฝังไว้เพื่อฟังการสนทนาแบบเต็ม
อย่าลืมดูคลิปที่ฝังไว้เพราะจะช่วยจัดกรอบการสนทนาของเรา
Brent Leary : เสียงในวิดีโอนั้นฟังดูเหมือนมนุษย์จริงๆ สำหรับฉัน คุณเคยได้ยินเหมือน Alexa และ Siri และก่อนหน้านั้นก็เหมือนกับเราไม่ต้องการพูดถึงเสียงก่อนหน้านั้น แต่เสียงนั้นฟังดูเหมือนมนุษย์จริงๆ กับมนุษย์ ผันผวนและความลึกบางส่วน นั่นคือสิ่งที่เรากำลังดูอยู่เมื่อคุณพูดถึงการสร้างสรรค์กราฟิกใหม่และการคิดค้นเทคโนโลยีเสียงและการใช้เทคโนโลยีที่ใหม่กว่ารวมถึง AI และการเรียนรู้เชิงลึกที่ไม่เพียงเปลี่ยนรูปลักษณ์ของกราฟิก แต่ยังเปลี่ยนความรู้สึกและเสียงของเครื่องเพื่อให้ เสียงเหมือนพวกเราคนหนึ่ง
ไบรอัน คาทันซาโร : ฉันควรแน่ใจว่าคุณเข้าใจว่าแม้เสียงนั้นจะถูกสังเคราะห์ขึ้น แต่ก็ถูกควบคุมอย่างใกล้ชิดเช่นกัน ฉันจะไม่พูดว่านั่นเป็นปุ่มกด ระบบสังเคราะห์เสียงพูด เช่นเดียวกับที่คุณอาจใช้เมื่อคุณพูดคุยกับผู้ช่วยเสมือน แต่เป็นเสียงที่ควบคุมได้ซึ่งอัลกอริธึมของเราอนุญาตให้ผู้ผลิตวิดีโอสร้างได้ และวิธีหนึ่งที่พวกเขาทำคือการสร้างแบบจำลองการผันแปร จังหวะ และพลังงานที่พวกเขาต้องการให้ส่วนใดส่วนหนึ่งในวิดีโอของการบรรยายมี ดังนั้น ฉันจะบอกว่าไม่ใช่แค่เรื่องราวเกี่ยวกับ AI ที่ดีขึ้นเท่านั้น แต่ยังเป็นเรื่องราวเกี่ยวกับวิธีที่มนุษย์ทำงานอย่างใกล้ชิดกับ AI เพื่อสร้างสิ่งต่างๆ และมีความสามารถในการสร้างเสียงสังเคราะห์ที่ควบคุมได้ในลักษณะนี้
ฉันคิดว่านี่เป็นการเปิดโอกาสใหม่ ๆ สำหรับการสังเคราะห์เสียงพูดในวงการบันเทิงและศิลปะ ฉันคิดว่ามันน่าตื่นเต้น แต่บางสิ่งที่คุณและผู้ฟังของคุณควรเข้าใจนั้นจริงๆ แล้วถูกควบคุมโดยบุคคลอย่างใกล้ชิด แน่นอนว่าตอนนี้ เรากำลังทำงานอย่างหนักกับอัลกอริธึม ที่สามารถทำนายความเป็นมนุษย์ทั้งหมดที่นั่น จังหวะ การผันผวน ระดับเสียง และฉันคิดว่าเราจะได้เห็นความก้าวหน้าที่น่าทึ่งในอีกไม่กี่ปีข้างหน้า ที่ซึ่งเราสามารถมีปุ่มกดอย่างเต็มที่ ระบบสังเคราะห์เสียงพูดที่มีการผันแปรที่ถูกต้องสอดคล้องกับความหมายของข้อความเพราะเมื่อ คุณพูดความหมายมากมายผ่านการผันเสียงของคุณ ไม่ใช่แค่ความหมายของคำที่คุณเลือก
และถ้าเรามีแบบจำลองที่สามารถเข้าใจความหมายของข้อความได้ เช่นเดียวกับแบบจำลองภาษาที่น่าทึ่งบางตัวที่ฉันกล่าวถึงก่อนหน้านี้ เราก็ควรจะสามารถใช้แบบจำลองเหล่านั้นเพื่อควบคุมการสังเคราะห์เสียงพูดในทางที่มีความหมายได้ และนั่นคือสิ่งที่ฉันรู้สึกตื่นเต้นมาก มันน่าสนใจ
ฉันรู้สึกว่าเรามีอคติทางวัฒนธรรม บางทีมันอาจจะเฉพาะเจาะจงกับสหรัฐอเมริกา ฉันไม่แน่ใจ แต่เรามีความลำเอียงทางวัฒนธรรมที่คอมพิวเตอร์ไม่สามารถพูดในลักษณะที่เหมือนมนุษย์ได้ และบางทีมันอาจมาจาก Star Trek: The Next Generation ที่ Data เปรียบเสมือนเครื่องคอมพิวเตอร์ที่เหลือเชื่อ และเขาสามารถแก้ปัญหาใดๆ ก็ตามและประดิษฐ์ทฤษฎีฟิสิกส์ใหม่ๆ ได้ แต่เขาไม่เคยพูดในลักษณะเดียวกับที่มนุษย์ทำได้ หรือ บางทีมันอาจจะย้อนไปถึง คุณก็รู้
เบรนท์ เลียรี : สป็อค บางที
ไบรอัน คาทันซาโร: มันฟังดูไม่เข้าท่าเหมือนเขา น้ำเสียงของเขา น่าขนลุก คุณรู้ไหม ดังนั้นเราจึงมีเวลา 50 ปี วัฒนธรรมหลายชั่วอายุคนบอกเราว่าคอมพิวเตอร์ไม่สามารถพูดแบบมนุษย์ได้ และฉันคิดว่าไม่เป็นเช่นนั้นจริงๆ ฉันคิดว่าเราสามารถทำให้คอมพิวเตอร์พูดได้เหมือนมนุษย์มากขึ้น และและเราจะทำให้ และฉันยังคิดว่าประโยชน์ของเทคโนโลยีนั้นจะค่อนข้างดีสำหรับพวกเราทุกคน
Brent Leary: อีกสิ่งหนึ่งที่โดดเด่นในคลิปนั้นคือ Amelia Earhart โดยที่ภาพของเธอดูเหมือนจะมีชีวิตขึ้นมา คุณพูดได้ไหม ฉันเดาว่ามันเป็นส่วนหนึ่งของการสร้างสรรค์กราฟิกใหม่โดยใช้ AI
ไบรอัน คาทันซาโร : ใช่ ถูกต้อง การวิจัยของ NVIDIA มีส่วนเกี่ยวข้องอย่างมากกับเทคโนโลยีจำนวนมากในการสังเคราะห์วิดีโอและสังเคราะห์ภาพโดยพื้นฐานโดยใช้ปัญญาประดิษฐ์ และนั่นคือตัวอย่างหนึ่ง คุณเห็นโครงข่ายประสาทเทียมทำให้ภาพมีสี ทำให้เรามีวิธีใหม่ๆ ในการมองอดีต และเมื่อคุณคิดเกี่ยวกับสิ่งนั้น คุณก็รู้ สิ่งที่เกี่ยวข้องกับการทำให้สีภาพเป็นสี AI จำเป็นต้องเข้าใจเนื้อหาของภาพเพื่อกำหนดสีที่เป็นไปได้ เช่น หญ้ามักจะเป็นสีเขียว แต่ถ้าคุณไม่รู้ว่าหญ้าอยู่ที่ไหน ก็ไม่ควรใส่สีเขียวและ วิธีการดั้งเดิมในการลงสีภาพคือ ฉันคิดว่าไม่ชอบความเสี่ยง แต่เมื่อ AI เข้าใจเนื้อหาในรูปภาพได้ดีขึ้นและมีวัตถุใดบ้าง และวัตถุนั้นสัมพันธ์กันอย่างไร จึงสามารถกำหนดสีที่เป็นไปได้ให้กับภาพที่มีชีวิตชีวาได้ดียิ่งขึ้น
นั่นเป็นตัวอย่างหนึ่ง ปัญหาการปรับสีของรูปภาพนี้ แต่ฉันคิดว่าในวิดีโอนั้น เราได้เห็นตัวอย่างอื่นๆ อีกหลายตัวอย่างที่เราสามารถถ่ายภาพแล้วทำให้เคลื่อนไหวได้หลากหลายวิธี
การสังเคราะห์ตามเงื่อนไขทางสายตา
หนึ่งในเทคโนโลยีที่เราสนใจจริงๆ เรียกว่า การสังเคราะห์วิดีโอแบบมีเงื่อนไข ซึ่งคุณสามารถสร้างวิดีโอตามการสเก็ตช์ และสำหรับสิ่งนี้ สิ่งที่คุณจะทำคือ ต่อต้านการรับรู้ที่วิเคราะห์โครงสร้างของวัตถุ ตัวอย่างเช่น ใบหน้า และนี่คือดวงตา และนี่คือจมูก จากนั้นกำหนดตำแหน่งประเภทให้กับวัตถุและขนาด
และนั่นก็กลายเป็นเหมือนการ์ตูน เด็กอาจวาดรูปแท่ง แล้วสิ่งที่คุณทำคือส่งสิ่งนั้นไปเป็นกิจวัตรอื่นที่ทำให้คนพูดเคลื่อนไหวได้และทำให้คนๆ นั้นขยับหัวหรือยิ้ม หรือหรือพูดคุยกับข้อความที่เราต้องการให้คนพูดเป็นข้อความในขณะที่เราทำแบบจำลองที่ คาดการณ์ว่าโมเดลหุ่นติดของพวกเขาจะมีวิวัฒนาการอย่างไรในฐานะบุคคลที่กำลังพูด แล้วเมื่อเราได้รูปแท่งเคลื่อนไหวแบบนั้นแล้ว แสดงว่าคนๆ นั้นควรเคลื่อนไหวอย่างไร จากนั้นเราก็ใส่มันผ่านโครงข่ายประสาทที่สังเคราะห์วิดีโอจากสิ่งนั้น และเริ่มจากภาพเริ่มต้นที่มีแบบ การปรากฏตัวของบุคคลและพื้นหลังและอื่น ๆ จากนั้นทำให้เคลื่อนไหวผ่านแอนิเมชั่นรูปแท่งเพื่อสร้างวิดีโอ
และเราเรียกสิ่งนี้ว่าการสร้างวิดีโอแบบมีเงื่อนไข เพราะมีวิดีโอมากมายที่คุณสามารถสร้างขึ้นจากรูปทรงแท่งเดียวกันได้ ดังนั้นสิ่งที่เราต้องการทำคือเลือกสิ่งที่ดูเหมือนมีเงื่อนไข บนข้อมูลประเภทอื่น เช่น ข้อความที่บุคคลนั้นพูด หรือภาพเคลื่อนไหวบางประเภทที่เราต้องการสร้าง และการสร้างวิดีโอแบบมีเงื่อนไขเป็นแนวคิดที่ทรงพลังมาก และเป็นสิ่งที่ฉันคิดว่าเมื่อเวลาผ่านไปจะพัฒนาไปสู่วิธีการใหม่ในการสร้างกราฟิก วิธีการเรนเดอร์และการสร้างกราฟิกแบบใหม่
เบรนท์ เลียรี: มีแม้กระทั่งวิดีโอชิ้นหนึ่งที่บุคคลนั้นพูดโดยพื้นฐานแล้ว วาดนี่ และมันก็เริ่มถูกวาดจริงๆ
