Bryan Catanzaro จาก NVIDIA – Conversational AI ในบางวิธีคือความท้าทายด้าน AI ขั้นสูงสุด

เผยแพร่แล้ว: 2021-10-02

พวกคุณหลายคนที่เล่นเกมหรือตัดต่อวิดีโออย่างจริงจังรู้จัก NVIDIA ในฐานะผู้สร้างเทคโนโลยีการประมวลผลกราฟิกชั้นนำในตลาด แต่ NVIDIA ก็เป็นผู้นำในด้านปัญญาประดิษฐ์และการเรียนรู้เชิงลึกเช่นกัน โดยเฉพาะอย่างยิ่งในวิธีที่เทคโนโลยีเหล่านี้สามารถปรับปรุงประสบการณ์การใช้งานกราฟิก การสังเคราะห์ข้อความและวิดีโอ และ AI การสนทนา

งานบางส่วนของพวกเขาได้รับการจัดแสดงในชุดวิดีโอที่พวกเขาได้รวบรวมไว้ซึ่งเรียกว่า I AM AI ซึ่งเป็นการดูที่น่าสนใจว่ามีอะไร (และอะไรจะเกิดขึ้น) ให้เราได้ปรับปรุงวิธีที่เราสัมผัสโลกนี้และกันและกัน และเมื่อเร็วๆ นี้ ฉันได้มีโอกาส สนทนาใน LinkedIn Live กับ Bryan Catanzaro รองประธาน Applied Deep Learning Research ที่ NVIDIA เพื่อฟังเพิ่มเติมเกี่ยวกับงานของพวกเขากับ AI เพื่อจินตนาการว่าเราได้สัมผัสกับภาพและเสียงอย่างไร

ด้านล่างนี้คือข้อความถอดเสียงที่แก้ไขแล้วของส่วนหนึ่งของการสนทนาของเรา คลิกที่เครื่องเล่น SoundCloud ที่ฝังไว้เพื่อฟังการสนทนาแบบเต็ม

smallbiztrends · Bryan Catanzaro จาก NVIDIA – Conversational AI ในบางแง่มุมคือความท้าทายด้าน AI ขั้นสูงสุด

อย่าลืมดูคลิปที่ฝังไว้เพราะจะช่วยจัดกรอบการสนทนาของเรา

Brent Leary : เสียงในวิดีโอนั้นฟังดูเหมือนมนุษย์จริงๆ สำหรับฉัน คุณเคยได้ยินเหมือน Alexa และ Siri และก่อนหน้านั้นก็เหมือนกับเราไม่ต้องการพูดถึงเสียงก่อนหน้านั้น แต่เสียงนั้นฟังดูเหมือนมนุษย์จริงๆ กับมนุษย์ ผันผวนและความลึกบางส่วน นั่นคือสิ่งที่เรากำลังดูอยู่เมื่อคุณพูดถึงการสร้างสรรค์กราฟิกใหม่และการคิดค้นเทคโนโลยีเสียงและการใช้เทคโนโลยีที่ใหม่กว่ารวมถึง AI และการเรียนรู้เชิงลึกที่ไม่เพียงเปลี่ยนรูปลักษณ์ของกราฟิก แต่ยังเปลี่ยนความรู้สึกและเสียงของเครื่องเพื่อให้ เสียงเหมือนพวกเราคนหนึ่ง

ไบรอัน คาทันซาโร : ฉันควรแน่ใจว่าคุณเข้าใจว่าแม้เสียงนั้นจะถูกสังเคราะห์ขึ้น แต่ก็ถูกควบคุมอย่างใกล้ชิดเช่นกัน ฉันจะไม่พูดว่านั่นเป็นปุ่มกด ระบบสังเคราะห์เสียงพูด เช่นเดียวกับที่คุณอาจใช้เมื่อคุณพูดคุยกับผู้ช่วยเสมือน แต่เป็นเสียงที่ควบคุมได้ซึ่งอัลกอริธึมของเราอนุญาตให้ผู้ผลิตวิดีโอสร้างได้ และวิธีหนึ่งที่พวกเขาทำคือการสร้างแบบจำลองการผันแปร จังหวะ และพลังงานที่พวกเขาต้องการให้ส่วนใดส่วนหนึ่งในวิดีโอของการบรรยายมี ดังนั้น ฉันจะบอกว่าไม่ใช่แค่เรื่องราวเกี่ยวกับ AI ที่ดีขึ้นเท่านั้น แต่ยังเป็นเรื่องราวเกี่ยวกับวิธีที่มนุษย์ทำงานอย่างใกล้ชิดกับ AI เพื่อสร้างสิ่งต่างๆ และมีความสามารถในการสร้างเสียงสังเคราะห์ที่ควบคุมได้ในลักษณะนี้

ฉันคิดว่านี่เป็นการเปิดโอกาสใหม่ ๆ สำหรับการสังเคราะห์เสียงพูดในวงการบันเทิงและศิลปะ ฉันคิดว่ามันน่าตื่นเต้น แต่บางสิ่งที่คุณและผู้ฟังของคุณควรเข้าใจนั้นจริงๆ แล้วถูกควบคุมโดยบุคคลอย่างใกล้ชิด แน่นอนว่าตอนนี้ เรากำลังทำงานอย่างหนักกับอัลกอริธึม ที่สามารถทำนายความเป็นมนุษย์ทั้งหมดที่นั่น จังหวะ การผันผวน ระดับเสียง และฉันคิดว่าเราจะได้เห็นความก้าวหน้าที่น่าทึ่งในอีกไม่กี่ปีข้างหน้า ที่ซึ่งเราสามารถมีปุ่มกดอย่างเต็มที่ ระบบสังเคราะห์เสียงพูดที่มีการผันแปรที่ถูกต้องสอดคล้องกับความหมายของข้อความเพราะเมื่อ คุณพูดความหมายมากมายผ่านการผันเสียงของคุณ ไม่ใช่แค่ความหมายของคำที่คุณเลือก

และถ้าเรามีแบบจำลองที่สามารถเข้าใจความหมายของข้อความได้ เช่นเดียวกับแบบจำลองภาษาที่น่าทึ่งบางตัวที่ฉันกล่าวถึงก่อนหน้านี้ เราก็ควรจะสามารถใช้แบบจำลองเหล่านั้นเพื่อควบคุมการสังเคราะห์เสียงพูดในทางที่มีความหมายได้ และนั่นคือสิ่งที่ฉันรู้สึกตื่นเต้นมาก มันน่าสนใจ

ฉันรู้สึกว่าเรามีอคติทางวัฒนธรรม บางทีมันอาจจะเฉพาะเจาะจงกับสหรัฐอเมริกา ฉันไม่แน่ใจ แต่เรามีความลำเอียงทางวัฒนธรรมที่คอมพิวเตอร์ไม่สามารถพูดในลักษณะที่เหมือนมนุษย์ได้ และบางทีมันอาจมาจาก Star Trek: The Next Generation ที่ Data เปรียบเสมือนเครื่องคอมพิวเตอร์ที่เหลือเชื่อ และเขาสามารถแก้ปัญหาใดๆ ก็ตามและประดิษฐ์ทฤษฎีฟิสิกส์ใหม่ๆ ได้ แต่เขาไม่เคยพูดในลักษณะเดียวกับที่มนุษย์ทำได้ หรือ บางทีมันอาจจะย้อนไปถึง คุณก็รู้

เบรนท์ เลียรี : สป็อค บางที

ไบรอัน คาทันซาโร: มันฟังดูไม่เข้าท่าเหมือนเขา น้ำเสียงของเขา น่าขนลุก คุณรู้ไหม ดังนั้นเราจึงมีเวลา 50 ปี วัฒนธรรมหลายชั่วอายุคนบอกเราว่าคอมพิวเตอร์ไม่สามารถพูดแบบมนุษย์ได้ และฉันคิดว่าไม่เป็นเช่นนั้นจริงๆ ฉันคิดว่าเราสามารถทำให้คอมพิวเตอร์พูดได้เหมือนมนุษย์มากขึ้น และและเราจะทำให้ และฉันยังคิดว่าประโยชน์ของเทคโนโลยีนั้นจะค่อนข้างดีสำหรับพวกเราทุกคน

Brent Leary: อีกสิ่งหนึ่งที่โดดเด่นในคลิปนั้นคือ Amelia Earhart โดยที่ภาพของเธอดูเหมือนจะมีชีวิตขึ้นมา คุณพูดได้ไหม ฉันเดาว่ามันเป็นส่วนหนึ่งของการสร้างสรรค์กราฟิกใหม่โดยใช้ AI

ไบรอัน คาทันซาโร : ใช่ ถูกต้อง การวิจัยของ NVIDIA มีส่วนเกี่ยวข้องอย่างมากกับเทคโนโลยีจำนวนมากในการสังเคราะห์วิดีโอและสังเคราะห์ภาพโดยพื้นฐานโดยใช้ปัญญาประดิษฐ์ และนั่นคือตัวอย่างหนึ่ง คุณเห็นโครงข่ายประสาทเทียมทำให้ภาพมีสี ทำให้เรามีวิธีใหม่ๆ ในการมองอดีต และเมื่อคุณคิดเกี่ยวกับสิ่งนั้น คุณก็รู้ สิ่งที่เกี่ยวข้องกับการทำให้สีภาพเป็นสี AI จำเป็นต้องเข้าใจเนื้อหาของภาพเพื่อกำหนดสีที่เป็นไปได้ เช่น หญ้ามักจะเป็นสีเขียว แต่ถ้าคุณไม่รู้ว่าหญ้าอยู่ที่ไหน ก็ไม่ควรใส่สีเขียวและ วิธีการดั้งเดิมในการลงสีภาพคือ ฉันคิดว่าไม่ชอบความเสี่ยง แต่เมื่อ AI เข้าใจเนื้อหาในรูปภาพได้ดีขึ้นและมีวัตถุใดบ้าง และวัตถุนั้นสัมพันธ์กันอย่างไร จึงสามารถกำหนดสีที่เป็นไปได้ให้กับภาพที่มีชีวิตชีวาได้ดียิ่งขึ้น

นั่นเป็นตัวอย่างหนึ่ง ปัญหาการปรับสีของรูปภาพนี้ แต่ฉันคิดว่าในวิดีโอนั้น เราได้เห็นตัวอย่างอื่นๆ อีกหลายตัวอย่างที่เราสามารถถ่ายภาพแล้วทำให้เคลื่อนไหวได้หลากหลายวิธี

การสังเคราะห์ตามเงื่อนไขทางสายตา

หนึ่งในเทคโนโลยีที่เราสนใจจริงๆ เรียกว่า การสังเคราะห์วิดีโอแบบมีเงื่อนไข ซึ่งคุณสามารถสร้างวิดีโอตามการสเก็ตช์ และสำหรับสิ่งนี้ สิ่งที่คุณจะทำคือ ต่อต้านการรับรู้ที่วิเคราะห์โครงสร้างของวัตถุ ตัวอย่างเช่น ใบหน้า และนี่คือดวงตา และนี่คือจมูก จากนั้นกำหนดตำแหน่งประเภทให้กับวัตถุและขนาด

และนั่นก็กลายเป็นเหมือนการ์ตูน เด็กอาจวาดรูปแท่ง แล้วสิ่งที่คุณทำคือส่งสิ่งนั้นไปเป็นกิจวัตรอื่นที่ทำให้คนพูดเคลื่อนไหวได้และทำให้คนๆ นั้นขยับหัวหรือยิ้ม หรือหรือพูดคุยกับข้อความที่เราต้องการให้คนพูดเป็นข้อความในขณะที่เราทำแบบจำลองที่ คาดการณ์ว่าโมเดลหุ่นติดของพวกเขาจะมีวิวัฒนาการอย่างไรในฐานะบุคคลที่กำลังพูด แล้วเมื่อเราได้รูปแท่งเคลื่อนไหวแบบนั้นแล้ว แสดงว่าคนๆ นั้นควรเคลื่อนไหวอย่างไร จากนั้นเราก็ใส่มันผ่านโครงข่ายประสาทที่สังเคราะห์วิดีโอจากสิ่งนั้น และเริ่มจากภาพเริ่มต้นที่มีแบบ การปรากฏตัวของบุคคลและพื้นหลังและอื่น ๆ จากนั้นทำให้เคลื่อนไหวผ่านแอนิเมชั่นรูปแท่งเพื่อสร้างวิดีโอ

และเราเรียกสิ่งนี้ว่าการสร้างวิดีโอแบบมีเงื่อนไข เพราะมีวิดีโอมากมายที่คุณสามารถสร้างขึ้นจากรูปทรงแท่งเดียวกันได้ ดังนั้นสิ่งที่เราต้องการทำคือเลือกสิ่งที่ดูเหมือนมีเงื่อนไข บนข้อมูลประเภทอื่น เช่น ข้อความที่บุคคลนั้นพูด หรือภาพเคลื่อนไหวบางประเภทที่เราต้องการสร้าง และการสร้างวิดีโอแบบมีเงื่อนไขเป็นแนวคิดที่ทรงพลังมาก และเป็นสิ่งที่ฉันคิดว่าเมื่อเวลาผ่านไปจะพัฒนาไปสู่วิธีการใหม่ในการสร้างกราฟิก วิธีการเรนเดอร์และการสร้างกราฟิกแบบใหม่

เบรนท์ เลียรี: มีแม้กระทั่งวิดีโอชิ้นหนึ่งที่บุคคลนั้นพูดโดยพื้นฐานแล้ว วาดนี่ และมันก็เริ่มถูกวาดจริงๆ


ไบรอัน คาทันซาโร: ถูกต้อง พลังของการเรียนรู้เชิงลึกคือวิธีการทำแผนที่ที่ยืดหยุ่นมากจากที่หนึ่งไปยังอีกที่หนึ่ง ในวิดีโอนั้น เราได้เห็นตัวอย่างมากมาย และนี่คืออีกตัวอย่างหนึ่ง แต่จากมุมมองของเทคโนโลยี AI พวกมันทั้งหมดคล้ายกัน เพราะสิ่งที่เราทำคือพยายามเรียนรู้การทำแผนที่ที่เปลี่ยนจาก X ถึง Y และในกรณีนี้ เรากำลังพยายาม เพื่อเรียนรู้การทำแผนที่ที่เปลี่ยนจากคำอธิบายข้อความของฉากไปยังรูปการ์ตูนของฉากนั้น สมมุติว่าทะเลสาบล้อมรอบด้วยต้นไม้ในภูเขา ฉันต้องการให้นางแบบเข้าใจว่าภูเขาอยู่เบื้องหลังและมีรูปร่างที่แน่นอน

แล้วต้นไม้ก็ไปเบื้องหน้า แล้วก็ตรงกลาง ซึ่งปกติแล้วจะเป็นทะเลสาบขนาดใหญ่ เป็นไปได้ที่จะฝึกแบบจำลองโดยอ้างอิงจากภาพทิวทัศน์ธรรมชาตินับพันหรือล้านภาพ และคุณมีคำอธิบายประกอบที่แสดง เนื้อหาของภาพเหล่านี้มีอะไรบ้าง จากนั้นคุณสามารถฝึกโมเดลให้ไปทางอื่นและพูดตามข้อความว่าคุณสามารถสร้างการ์ตูนรูปแท่งที่ฉากควรมีลักษณะอย่างไร? ภูเขาไปทางไหน? ต้นไม้ไปไหน น้ำไปไหน? และเมื่อคุณมีหุ่นแท่งนั้นแล้ว คุณก็สามารถส่งมันไปเป็นแบบจำลองที่อธิบายรายละเอียดนั้นลงในรูปภาพได้ และนั่นคือสิ่งที่คุณเห็นในวิดีโอนั้น

อวตารดิจิทัลและการโทรแบบซูม

ชมวิดีโอสั้นๆ นี้เกี่ยวกับวิธีที่เทคโนโลยีนี้จะถูกนำมาใช้เพื่อทำให้การโทรผ่าน Zoom เป็นประสบการณ์ที่ดียิ่งขึ้นในอนาคตอันใกล้นี้ สถานการณ์นี้มีผู้ชายคนหนึ่งกำลังสัมภาษณ์งานผ่านการโทร Zoom

เบรนท์ เลียรี: สิ่งที่ยอดเยี่ยมเกี่ยวกับสิ่งนั้นคือ ในตอนท้าย เขากล่าวว่าภาพของเขาถูกสร้างขึ้นจากภาพถ่ายหนึ่งของเขา และเป็นเสียงของเขา คุณสามารถเห็นการเคลื่อนไหวของปากได้บนหน้าจอ คุณภาพเสียงนั้นยอดเยี่ยม และเขากำลังนั่งอยู่ในร้านกาแฟ ซึ่งอาจมีเสียงมากมายเกิดขึ้นในร้านกาแฟ แต่เราไม่ได้ยินเสียงนั้นเลย

Bryan Catanzaro : ใช่ เราภูมิใจกับเดโมนั้นมาก ฉันควร ฉันควรทราบด้วยว่าการสาธิตชนะการแสดงได้ดีที่สุดในการประชุม SIGGRAPH ในปีนี้ ซึ่งเป็นงานประชุมด้านกราฟิกที่ใหญ่ที่สุดในโลก โมเดลนั้นเป็นแบบจำลองการสังเคราะห์วิดีโอทั่วไป ก่อนหน้านี้เรากำลังพูดถึงวิธีที่คุณสามารถใช้รูปแท่งแทนตัวบุคคลแล้วทำให้เคลื่อนไหวได้ ข้อจำกัดอย่างหนึ่งของโมเดลในอดีตคือ คุณต้องฝึกโมเดลใหม่ทั้งหมดสำหรับทุกสถานการณ์ สมมุติว่าถ้าผมอยู่บ้าน ผมมีรุ่นเดียว ถ้าฉันอยู่ในร้านกาแฟที่มีภูมิหลังแตกต่างกัน ฉันต้องการโมเดลอื่น หรือถ้าคุณอยากจะทำด้วยตัวเอง คุณจะต้องมีโมเดลสำหรับตัวคุณเองในที่นี้ อีกแบบสำหรับตัวคุณเอง ที่อื่น ทุกครั้งที่คุณสร้างโมเดลเหล่านี้ คุณต้องจับชุดข้อมูลในตำแหน่งนั้นด้วยบางที ชุดเสื้อผ้าหรือแว่นตาที่ใส่หรืออะไรก็ตาม แล้วใช้เวลาหนึ่งสัปดาห์ในซูเปอร์คอมพิวเตอร์ฝึกนางแบบ และนั่นก็แพงจริงๆ ใช่ไหม? พวกเราส่วนใหญ่ไม่สามารถทำเช่นนั้นได้ นั่นจะเป็นการจำกัดวิธีการใช้เทคโนโลยีนี้อย่างแท้จริง

ฉันคิดว่านวัตกรรมทางเทคนิคที่อยู่เบื้องหลังแอนิเมชั่นนั้นคือพวกเขาสร้างโมเดลทั่วไปที่สามารถทำงานร่วมกับใครก็ได้ คุณเพียงแค่ต้องให้รูปตัวเองหนึ่งรูป ซึ่งถือว่าถูกพอ ทุกคนสามารถทำได้ใช่มั้ย? และถ้าคุณไปที่ใหม่หรือคุณสวมเสื้อผ้าหรือแว่นตาที่แตกต่างกันหรืออะไรก็ตามในวันนั้นคุณก็สามารถถ่ายรูปได้ จากนั้นโมเดล เนื่องจากโดยทั่วไปแล้ว โมเดลจึงสามารถสังเคราะห์รูปลักษณ์ของคุณใหม่ได้โดยใช้เพียงภาพถ่ายเดียวเป็นข้อมูลอ้างอิง

ฉันคิดว่ามันค่อนข้างน่าตื่นเต้น ต่อมาในวิดีโอนั้น อันที่จริง พวกเขาเปลี่ยนไปใช้โมเดลการสังเคราะห์เสียงพูดด้วย สิ่งที่เราได้ยินในคลิปนั้นจริงๆ แล้วคือตัวละครหลักที่พูดด้วยเสียงของเขาเอง แต่ต่อมาในร้านกาแฟก็มีเสียงดังมากจนทำให้เขาเปลี่ยนไปใช้ข้อความ ดังนั้นเขาก็แค่พิมพ์ และเสียงก็ถูกสร้างขึ้นโดยหนึ่งในโมเดลการสังเคราะห์เสียงพูดของเรา

ฉันคิดว่าการให้โอกาสผู้คนในการสื่อสารในรูปแบบใหม่จะช่วยให้ผู้คนใกล้ชิดกันมากขึ้นเท่านั้น

Brent Leary: Conversational AI สิ่งนั้นจะเปลี่ยนวิธีที่เราสื่อสารและทำงานร่วมกันในปีต่อๆ ไปได้อย่างไร

Bryan Catanzaro : วิธีหลักที่มนุษย์สื่อสารกันคือผ่านการสนทนาเช่นเดียวกับคุณและฉันกำลังมีอยู่ในตอนนี้ แต่มันยากมากสำหรับมนุษย์ที่จะสนทนาอย่างมีความหมายกับคอมพิวเตอร์ ด้วยเหตุผลหลายประการ หนึ่งคือมันรู้สึกไม่เป็นธรรมชาติใช่ไหม? ราวกับว่าคุณกำลังพูดกับหุ่นยนต์ นั่นเป็นอุปสรรคที่ขัดขวางการสื่อสาร มันดูไม่เหมือนคน มันไม่ตอบสนองเหมือนคน และเห็นได้ชัดว่าคอมพิวเตอร์ทุกวันนี้ คุณรู้ไหม ระบบส่วนใหญ่ที่คุณและฉันโต้ตอบด้วย ไม่เข้าใจสิ่งที่มนุษย์สามารถเข้าใจได้ ดังนั้น AI ในการสนทนาในบางแง่มุมจึงเป็นความท้าทายด้าน AI ขั้นสูงสุด ที่จริงแล้ว คุณอาจคุ้นเคยกับการทดสอบของทัวริง Alan Turing ซึ่งหลายคนมองว่าเป็นบิดาแห่งปัญญาประดิษฐ์ เขาตั้ง AI การสนทนาเป็นเป้าหมายสุดท้ายของปัญญาประดิษฐ์

เพราะถ้าคุณมีเครื่องจักรที่สามารถสนทนาอย่างชาญฉลาดกับมนุษย์ได้ โดยพื้นฐานแล้ว คุณก็สามารถแก้ปัญหาความฉลาดแบบใดแบบหนึ่งที่คุณจินตนาการได้ เพราะข้อมูลใดๆ ที่มนุษย์มี ภูมิปัญญาใดๆ ความคิดใดๆ ที่มนุษย์สร้างขึ้นในช่วงหลายพันปีที่ผ่านมา ปีมีทั้งหมด พวกเขาทั้งหมดแสดงผ่านภาษา และนั่นก็หมายความว่าภาษาเป็นวิธีทั่วไปนั่นเอง เห็นได้ชัดว่าเป็นวิธีเดียวสำหรับมนุษย์ในการสื่อสารความคิดที่ซับซ้อน และถ้าเราสามารถสร้างคอมพิวเตอร์ที่สามารถเข้าใจและสื่อสารอย่างชาญฉลาดและด้วยความเสียดสีต่ำจึงรู้สึกเหมือนกำลังโต้ตอบกับคนๆ นั้นจริงๆ ปัญหามากมายที่ผมคิดว่าเราจะแก้ได้ .

ฉันคิดว่า AI เชิงสนทนาจะยังคงเป็นจุดสนใจของการวิจัยจากทั้งอุตสาหกรรมมาเป็นเวลานาน ฉันคิดว่ามันเป็นเรื่องที่ลึกซึ้งพอ ๆ กับความเข้าใจและความรู้ทั้งหมดของมนุษย์ หากคุณและฉันกำลังเปิดพอดแคสต์ สมมติว่าวรรณคดีรัสเซีย อาจมีแนวคิดเฉพาะทางมากมายที่ผู้สำเร็จการศึกษาระดับปริญญาเอกสาขาวรรณคดีรัสเซียจะสามารถพูดคุยเกี่ยวกับเรื่องนี้ได้ดีกว่าฉัน ใช่ไหม ดังนั้นแม้ในหมู่มนุษย์ ความสามารถของเราในวิชาต่างๆ จะแตกต่างกัน และนั่นเป็นเหตุผลที่ฉันคิดว่า AI เชิงสนทนาจะเป็นความท้าทายที่ยังคงดึงดูดเราต่อไปในอนาคตอันใกล้ เพราะมันเป็นความท้าทายจริงๆ ที่จะเข้าใจทุกสิ่งที่มนุษย์เข้าใจ และเราไม่ได้อยู่ใกล้ที่จะทำอย่างนั้น

นี่เป็นส่วนหนึ่งของซีรีส์สัมภาษณ์ตัวต่อตัวกับผู้นำทางความคิด แก้ไขการถอดเสียงเพื่อเผยแพร่แล้ว หากเป็นการสัมภาษณ์ด้วยเสียงหรือวิดีโอ ให้คลิกที่โปรแกรมเล่นที่ฝังไว้ด้านบน หรือสมัครผ่าน iTunes หรือผ่าน Stitcher