Preston So จาก Oracle: แม้ว่าสิ่งต่าง ๆ จะดีขึ้นสำหรับการพัฒนาส่วนต่อประสานเสียง แต่ก็ยังมีทางเลือกสำหรับผู้ที่ใช้งาน
เผยแพร่แล้ว: 2021-08-21ฉันได้ติดตามการนำเทคโนโลยีที่เน้นเสียงเป็นอันดับแรกมาใช้ตั้งแต่ได้รับอุปกรณ์ Echo เครื่องแรกในช่วงวันขอบคุณพระเจ้าปี 2014 และเริ่มประโยค 20% ของฉันด้วย "Alexa ... " และบ่อยครั้งที่ฉันชอบให้แขกมาชมซีรีส์นี้เพื่อดูว่าอุปกรณ์เหล่านี้มีจุดใดบ้างในปัจจุบัน และใช้งานอย่างไร แต่ฉันไม่ได้มุ่งเน้นที่การออกแบบเนื้อหาเสียงมาก่อน นั่นเป็นเหตุผลที่ฉันตื่นเต้นมากที่จะได้พูดคุยกับ Preston So เพรสตันเป็นผู้อำนวยการอาวุโสฝ่ายกลยุทธ์ผลิตภัณฑ์ที่ Oracle แต่ที่สำคัญกว่านั้นสำหรับการสนทนานี้ เขายังเป็นผู้แต่งหนังสือ " เนื้อหาเสียงและการใช้งาน " อีกด้วย
ด้านล่างนี้คือข้อความถอดเสียงที่แก้ไขของ การสนทนา LinkedIn Live ล่าสุดของ เรา คลิกเครื่องเล่น SoundCloud ที่ฝังไว้เพื่อฟังการสนทนาแบบเต็ม
Brent Leary : โรคระบาดส่งผลกระทบต่อบทบาทของเสียงจากการพัฒนาเนื้อหาในบริบทของการเปลี่ยนแปลงทางดิจิทัลอย่างไร
เพรสตัน โซ : นี่เป็นคำถามที่น่าสนใจจริงๆ ฉันจะตอบคำถามนี้จากสองมุมที่ต่างกัน อย่างแรกคือเมื่อเราเริ่มทำงานและเพิ่งรู้ว่ายังไม่ได้กล่าวถึงกรณีศึกษานี้จริงๆ แม้แต่เรื่องนี้ ในรายการคือเมื่อ 5 หรือ 6 ปีที่แล้ว ผมได้มีโอกาสทำงานกับทีมที่สร้าง AskGeorgia.gov ซึ่งเป็นอินเทอร์เฟซเสียงครั้งแรกสำหรับผู้พักอาศัยในรัฐจอร์เจีย นอกจากนี้ยังเป็นหนึ่งในอินเทอร์เฟซเสียงที่ขับเคลื่อนด้วยเนื้อหาหรือข้อมูลเป็นครั้งแรกจริงๆ
เหตุผลสองประการที่เราต้องการสร้างสิ่งนี้และนำร่องโครงการนี้คือการให้บริการข้อมูลประชากรเหล่านั้น ซึ่งฉันได้กล่าวไว้ก่อนหน้านี้มักถูกละเลยหรือบ่อยครั้งที่ไม่ได้ให้บริการเช่นกันโดยเว็บไซต์ที่เราสร้างขึ้น และนี่เป็นข่าวโดยเฉพาะอย่างยิ่ง เนื่องจากเราทราบข้อกังวลเร่งด่วนมากในภาครัฐ ความกังวลเร่งด่วนมากภายในรัฐบาลท้องถิ่นและผู้ชมสองคนที่เราต้องการให้บริการคำหมายเลขหนึ่ง ชาวจอร์เจียสูงอายุ ที่อาจไม่จำเป็นต้องใช้ เว็บไซต์ได้อย่างง่ายดาย อาจไม่จำเป็นต้องใช้คอมพิวเตอร์อย่างรวดเร็วและอาจไม่จำเป็นต้องเคลื่อนย้ายเพื่อเดินทางไปที่ทำการของรัฐในเทศมณฑลหรือสำนักงานตัวแทน ในเวลาเดียวกัน เรายังต้องการเน้นที่ชาวจอร์เจียที่ทุพพลภาพด้วย ผู้ที่อาจไม่สามารถใช้ a บนเว็บไซต์ได้เร็วเท่ากับผู้ที่ใช้เว็บไซต์ผ่านวิธีการแสดงภาพ และคนที่ไม่มีความสามารถจริงๆ เช่นกันเนื่องจากปัญหาเรื่องการเดินทาง ขอโทษด้วย จริงๆ แล้วเดินทางไปที่สำนักงานตัวแทนและรับคำถามของพวกเขาที่นั่น ในเวลาเดียวกัน เราก็จัดการกับในสมัยนั้น แน่นอน และยังคงดำเนินต่อไปจนถึงทุกวันนี้ การขาดงบประมาณ เงินสดรัดตัว ธรรมชาติของรัฐและรัฐบาลท้องถิ่นในปัจจุบัน ที่งบประมาณถูกเฉือนไปทางซ้ายและขวา และบ่อยครั้งที่สายด่วนเหล่านั้นรอ เวลาเติบโตและเติบโตและเติบโตบนโทรศัพท์
เหตุผลที่ฉันนำเสนอกรณีศึกษานี้ขึ้นมาคือ ฉันคิดว่าการระบาดใหญ่ของโคโรนาไวรัสได้ขยายขอบเขตการที่ผู้ฟังบางคนเผชิญ ไม่เพียงแต่ระบบการกดขี่ที่เป็นปัญหาและเป็นปัญหาอย่างมากในสังคมเท่านั้น แต่ยังเป็นอุปสรรคในการเข้าถึงข้อมูล เนื้อหา และธุรกรรมอีกด้วย ที่พวกเขาต้องการ และถ้าคุณคิดถึง แน่นอนว่า ใครได้รับผลกระทบมากที่สุดจากผลกระทบของการแพร่ระบาดและผลกระทบของการแพร่ระบาด ก็คือผู้ที่มีความทุพพลภาพหรือผู้สูงอายุ และโดยเฉพาะอย่างยิ่ง หากคุณไม่สามารถออกจากบ้านได้ คุณจะได้รับข้อมูลที่ต้องการได้อย่างไร ดังนั้น ฉันคิดว่าเราด้วยวิธีบางอย่าง ได้บันทึกงานจำนวนมากที่กำลังเกิดขึ้นในขณะนี้ด้วยการเปลี่ยนแปลงทางดิจิทัลในปัจจุบัน ซึ่งองค์กรจำนวนมากกำลังตระหนัก และแน่นอนว่านี่คือการปรับผ่านงานมากมายที่เรามีในขณะนี้ เห็นได้จากการทำงานระยะไกลกับพนักงานแบบกระจายทั้งหมด แต่ในตอนนี้วิธีการให้บริการลูกค้าในมุม B ถึง C ได้ดีที่สุด เราจะแน่ใจได้อย่างไรว่าผู้ที่เป็นลูกค้าของเรา ผู้ใช้ ผู้ที่เป็นกลุ่มประชากรจริงของเรา สามารถโต้ตอบกับเนื้อหาของเราในลักษณะที่ไม่ต้องการให้พวกเขาทำสิ่งที่ทำให้พวกเขาตกอยู่ในอันตราย
และฉันคิดว่ามีหลายสิ่งหลายอย่างที่เร่งรีบในเรื่องนี้ อย่างแรกคือการเข้าถึงด้วยเสียงตามที่เราเห็น ฉันคิดว่าปีที่แล้ว ระบบบ้านอัจฉริยะ ยอดขายลำโพงอัจฉริยะได้ผ่านพ้นไปแล้ว ฉันหมายความว่าตอนนี้ 35% ของชาวอเมริกันมีลำโพงอัจฉริยะที่บ้าน แต่ในทำนองเดียวกันเราก็มีการเติบโตอย่างไม่น่าเชื่อในชุดหูฟังสำหรับเล่นเกมและเทคโนโลยีการเล่นเกม ดังนั้นชุดหูฟังเสมือนจริง อุปกรณ์สวมใส่ได้ และสิ่งเหล่านี้มีความหมายจริงๆ ฉันคิดว่าการเปลี่ยนเนื้อหาจากสื่อที่เขียนจากสื่อภาพ ซึ่งเราเคยชินกับบริบทที่หลากหลายมากขึ้นในช่วงสองสามทศวรรษที่ผ่านมา ตอนนี้เราอาจโต้ตอบกับเนื้อหาของเราผ่าน Oculus Rifts หรือผ่านสมาร์ทโฟนของเรา ผ่าน Samsung TV ผ่าน iPhone และ iPad ของเรา แต่แน่นอนว่าผ่าน Amazon Alexa และสิ่งนี้ สำหรับฉัน ฉันคิดว่า สิ่งที่ใหญ่ที่สุดที่เกิดขึ้นกับการระบาดใหญ่ของโคโรนาไวรัสก็คือการมาถึงของยุคนั้นอย่างรวดเร็วจริงๆ ซึ่งตอนนี้องค์กรต้องเข้าใจว่าไม่ใช่แค่เว็บอีกต่อไป
ไม่ใช่แค่มือถือเท่านั้น แต่ยังมีอีก 15 อย่าง ข้อควรพิจารณาที่แตกต่างกันทั้งหมดเหล่านี้ และหากคุณเพิ่งเริ่มคิดเกี่ยวกับเว็บและอุปกรณ์เคลื่อนที่ แสดงว่าคุณล้าหลังไปแล้ว
ความคืบหน้าในการพัฒนาเนื้อหาเสียง
เบรนท์ เลียรี : เราเคยเป็นหรือเปล่า ที่คุณคาดหวังให้เราใช้เสียงเป็นส่วนหนึ่งของช่องทางปฏิสัมพันธ์ระหว่างผู้บริโภคและผู้ขาย?
เพรสตัน โซ : ใช่และไม่ใช่ ฉันคิดว่ามีจากมุมมองของผู้ผลิต ฉันคิดอย่างนั้น และสิ่งที่ผมหมายถึงก็คือ ตามที่ได้กล่าวไว้ก่อนหน้านี้ เรามีเครื่องมือที่ยอดเยี่ยมจริงๆ ที่มีอยู่ ซึ่ง Botsociety สตาร์ทอัพใหม่เหล่านี้ที่กำลังพัฒนาเครื่องมือที่เป็นมิตรต่อนักออกแบบจริงๆ ซึ่งช่วยให้คุณทำเช่น Dreamweaver แบบเก่าหรือ แนวทางหน้าแรกของ Microsoft ในการสร้างเว็บไซต์ คุณนำสิ่งนั้นไปยังส่วนต่อประสานเสียงและทันใดนั้นคุณไม่จำเป็นต้องเขียน สมมติว่ารหัสฮาร์ดแวร์ระดับต่ำมากหรือการเขียน สมมติว่าการประมวลผลภาษาธรรมชาติหรือความเข้าใจภาษาธรรมชาติในบอท ทั้งที่ฉันคิดว่าหนทางยังอีกยาวไกล และฉันคิดว่าเรายังไม่ถึงจุดที่ฉันคิดว่าเราจะมาอยู่จุดนี้ได้ แต่ฉันว่าหลายๆ อย่างก็เพราะว่า AI เองก็ไม่ได้ไกลขนาดนั้น อย่างที่หลายคนคิด
สาเหตุหนึ่งก็คือเรากำลังประสบกับช่วงเวลานี้อยู่ในขณะนี้ ซึ่งอินเทอร์เฟซเสียงจำนวนมากที่เราสร้างขึ้นนั้นยังคงเป็นระบบดิจิทัลอัตโนมัติโดยพื้นฐานอย่างชัดเจน ซึ่งไม่มีวิธีการสื่อสารที่แท้จริงในแบบที่เราสามารถทำได้จริงๆ ตัวอย่างหนึ่งของสิ่งนี้คือคุณดูชุมชนสองภาษาบางแห่งในเซาท์เท็กซัสหรือในนิวยอร์กซิตี้ และคุณได้ยินผู้คนสลับไปมาระหว่างภาษาสเปนและอังกฤษอย่างแท้จริงในประโยคกลางประโยค หรือคนที่ใช่ นั่นเอง อยู่ในมุมไบหรือนิวเดลีที่เปลี่ยนระหว่างประโยคกลางภาษาฮินดีและภาษาอังกฤษหรือสลับระหว่างภาษามราฐีและภาษาอังกฤษในช่วงกลางประโยค
และนี่คือกลุ่มประชากรที่ไม่ได้ยินตัวเองภายในอินเทอร์เฟซเสียงเหล่านี้ นับประสาชุมชนที่มีสีทั้งหมดที่ไม่รู้สึกว่าพวกเขาสามารถได้ยินภาษาถิ่นของตนเองและการใช้ภาษาพูดและกิริยาท่าทางของพวกเขาเอง พูดภายในอินเทอร์เฟซเสียงเหล่านี้ มีขั้นตอนที่น่าสนใจบางอย่างไปในทิศทางที่ถูกต้องซึ่งเป็นส่วนหนึ่งของที่นั่น แต่ไม่ใช่จริงๆ ฉันหมายถึง อย่างแรกเลยคือ ฉันคิดว่าฉันประหลาดใจและมีความสุขมากกับสิ่งที่ทำอยู่ในแง่ของการอนุญาตให้คุณปรับแต่งเสียงที่อ่านข้อความเหล่านั้นได้ เช่น ตำรวจที่รายงานข้างหน้า หรือยานพาหนะบนไหล่ทาง หรือเก็บไว้ ซ้าย.
แน่นอนว่ายังมีบริการใหม่ๆ ที่กำลังเกิดขึ้น เช่น Amazon Polly ซึ่ง Amazon Polly น่าสนใจมาก เพราะจะมีการป้อนข้อความที่เป็นลายลักษณ์อักษร เช่น ย่อหน้าหรือหน้าหรืออะไรก็ตาม แล้วมันจะอ่านออกมาเป็นสำเนียงอังกฤษหรือสำเนียงแอฟริกาใต้ หรือ สำเนียงอเมริกัน เสียงของผู้หญิง และมาตรวัดแบบต่างๆ ที่คุณสามารถบิดและเล่นได้ แต่โดยพื้นฐานแล้ว แน่นอนว่าเป็นข้อความที่เขียนขึ้นซึ่งไม่จำเป็นต้องปรับให้เหมาะกับคำพูดเสมอไป
ไม่มีทางที่อัลกอริธึมในการเปลี่ยนข้อความที่เขียนให้เป็นสิ่งที่เขียนด้วยรูปแบบการพูดมากขึ้น แต่ก็มีความกังวลอย่างมากที่ฉันมี ซึ่งก็คือการที่อินเทอร์เฟซเสียงนั้นยอดเยี่ยมจริง ๆ และเข้าถึงจุดที่เป็นเลิศนั้นได้ เราคาดหวังในบางแง่มุม ฉันคิดว่ามันแทบจะเป็นไปไม่ได้เลย ฉันคิดว่ามันเกือบจะเป็นคำพูดที่ขัดแย้งกันที่จะบอกว่าอินเทอร์เฟซเสียงจะอยู่ในระดับที่เหมาะสมที่สุดสำหรับทุกคน เพราะวิธีที่อินเทอร์เฟซเสียงฟังสำหรับฉันจะแตกต่างอย่างมากกับวิธีที่อินเทอร์เฟซเสียงฟังสำหรับคนอื่น ฉันคิดว่านั่นเป็นเรื่องเพศโดยข้อเท็จจริงที่ว่าถ้าคุณดูที่ Alexa หรือ Siri หรือ Cortana หรือ Google Home โดยทั่วไปแล้วพูดด้วยเสียงเริ่มต้น ข้อมูลประจำตัวเริ่มต้นที่ออกมาจากอินเทอร์เฟซเสียงนี้คือคนที่ฟังดูเหมือน cisgender ตรงสีขาว ผู้หญิงที่พูดภาษาถิ่นอเมริกันทั่วไปหรืออเมริกากลาง
และไม่จำเป็นต้องมีพื้นที่เพียงพอสำหรับผู้ที่พูดภาษาอังกฤษเป็นภาษาที่สองหรือผู้ที่เปลี่ยนรหัส อย่างที่บอกไปก่อนหน้านี้ว่า ใครสลับระหว่างภาษาอังกฤษและสเปน ตรงกลางประโยค หรือ ชุมชนทรานส์และที่ไม่ใช่ไบนารี ที่สลับไปมาระหว่างรูปแบบการพูดแบบตรงไปตรงมาและแบบต่างๆ ในแง่ของการโต้ตอบกันจริง ๆ จนกว่าเราจะได้ยินสิ่งเหล่านั้น การสลับประเภทต่าง ๆ จนกว่าเราจะได้ยินความเป็นจริงที่เราได้สะท้อนให้เห็นในอินเทอร์เฟซเสียงเหล่านั้น ฉันไม่คิดว่าเราบรรลุเป้าหมายที่สูงส่งขนาดนั้น
สิ่งที่ทำให้ฉันกังวลในวันนี้คือ เรากำลังเผชิญกับสถานการณ์ที่ไม่เคยเกิดขึ้นมาก่อนกับการระบาดใหญ่ที่ตัวแทนฝ่ายบริการลูกค้าจำนวนมาก พนักงานบริการลูกค้าในแนวหน้าเหล่านี้จำนวนมากกำลังตกงานเพื่อหันมาใช้แนวทางอินเทอร์เฟซด้วยเสียงแบบกลไกอัตโนมัติที่เป็นระบบอัตโนมัติ แต่คนส่วนใหญ่ที่กำลังตกงานและกำลังถูกเลิกจ้าง นั่นคือ ถูกแทนที่ด้วยอินเทอร์เฟซเสียงในบริษัทเหล่านี้ พวกเขามักเป็นคนที่อาศัยอยู่ทางตอนใต้ของโลก คนทั่วไปที่มาจากฟิลิปปินส์หรืออินโดนีเซีย หรืออินเดียที่พูดภาษาอังกฤษในลักษณะที่ควรสะท้อนให้เห็นในอินเทอร์เฟซเสียงที่เรามีในทุกวันนี้ หากเราต้องการให้พวกเขาทำเช่นนั้น
ผู้ที่เป็นชาวฟิลิปปินส์อเมริกันควรจะสามารถได้ยินอินเทอร์เฟซเสียงที่ฟังเสียงชาวฟิลิปปินส์อเมริกันและอินเทอร์เฟซเสียง ดังนั้นในขณะที่ฉันคิดว่าในบางแง่มุม สิ่งต่าง ๆ ได้ดีมากสำหรับนักออกแบบส่วนต่อประสานเสียง ฉันคิดว่าสำหรับผู้ใช้อินเทอร์เฟซเสียง เรายังมีหนทางอีกยาวไกล และจะใช้เวลาสองสามทศวรรษก่อนที่เราจะ ก็สามารถไปถึงจุดนั้นได้
อนาคตอันใกล้ของการออกแบบเนื้อหาเสียง
Brent Leary : อีกไม่กี่ปีข้างหน้าสำหรับการออกแบบเนื้อหาเสียงจะเป็นอย่างไร?
เพรสตัน โซ : แน่นอนฉันคิดว่าจะต้องมีการปรับปรุงในบางเรื่อง จะมีการปรับปรุงอย่างแน่นอนเมื่อพูดถึงสิ่งที่ฉันเรียกว่าการทำให้เป็นประชาธิปไตยของการออกแบบส่วนต่อประสานเสียง หากคุณเป็นคนที่ไม่รู้วิธีสร้างเว็บไซต์ หากคุณเป็นคนที่ไม่เขียนโค้ด หากคุณเป็นคนที่ไม่ได้ทำอะไรที่เกี่ยวกับวิทยาการคอมพิวเตอร์จริงๆ วันนี้ คุณทำได้ สร้างอินเทอร์เฟซเสียง ซึ่งเป็นครั้งแรกที่เราเคยทำมาก่อนจริงๆ
