بريستون سو من أوراكل: في حين أن الأمور أفضل لتطوير واجهات الصوت ، لا يزال هناك طريقة للذهاب لمن يستخدمها

نشرت: 2021-08-21

لقد كنت أتتبع تبني تقنية الصوت أولاً منذ أن حصلت على أول جهاز صدى حول عيد الشكر لعام 2014 وبدأت 20٪ من جملتي باستخدام "Alexa ...". وفي كثير من الأحيان أحب أن ينضم إلي ضيوف في هذه السلسلة لأرى أين تقف الأشياء اليوم مع هذه الأجهزة ، وكيف يتم استخدامها. لكنني لم أركز حقًا على تصميم المحتوى الصوتي من قبل ، ولهذا السبب كنت متحمسًا حقًا للتحدث مع Preston So. بريستون هو مدير أول ، إستراتيجية المنتجات في Oracle ، ولكن الأهم من ذلك أنه مؤلف كتاب " محتوى الصوت وقابلية الاستخدام " في هذه المحادثة.

يوجد أدناه نسخة منقحة من محادثتنا المباشرة الأخيرة على LinkedIn . انقر فوق مشغل SoundCloud المضمن للاستماع إلى المحادثة الكاملة.

smallbiztrends · بضع دقائق جيدة في تصميم المحتوى الصوتي مع بريستون هكذا

برنت ليري : كيف أثر الوباء على دور الصوت من تطوير المحتوى في سياق التحول الرقمي؟

بريستون لذا : هذا سؤال مثير للاهتمام حقًا. سأجيب على هذا من زاويتين مختلفتين. الأول هو أنه عندما بدأنا العمل وأدركت للتو أنني لم أذكر بالفعل دراسة الحالة هذه حتى الآن ، حتى في هذا الصدد ، في العرض ، أنه منذ 5 أو 6 سنوات أتيحت لي الفرصة للعمل في فريق قام ببناء AskGeorgia.gov ، والتي كانت أول واجهة صوتية على الإطلاق لسكان ولاية جورجيا. أيضًا ، كانت حقًا واحدة من أولى واجهات الصوت المدفوعة بالمحتوى أو المعلومات الموجودة على الإطلاق.

السببان وراء رغبتنا في بناء هذا المشروع وتجريبه كانا لخدمة تلك التركيبة السكانية ، والتي ذكرتها سابقًا يتم تجاهلها في كثير من الأحيان أو في كثير من الأحيان لا تخدمها تلك المواقع التي أنشأناها. وهذه هي الصحافة على وجه الخصوص ، نظرًا لأننا نعلم مصدر قلق شديد الأهمية في القطاع العام ، فهو مصدر قلق ملح للغاية داخل الحكومة المحلية والجمهورين اللذين أردنا تقديم خدماتهما للكلمة الأولى ، وهما الجورجيون المسنون ، الذين قد لا يكونون قادرين على استخدامها بالضرورة موقع على شبكة الإنترنت بسهولة. قد لا يكون بالضرورة قادرًا على استخدام الكمبيوتر بالسرعة ، وقد لا يكون بالضرورة قادرًا على التنقل ليكون قادرًا على السفر إلى مكتب حكومي في المقاطعة أو مكتب وكالة. في الوقت نفسه ، أردنا أيضًا التركيز على الجورجيين المعاقين. أولئك الذين قد لا يكونون قادرين على استخدام موقع على شبكة الإنترنت بالسرعة التي يستخدمها أولئك الذين يستخدمون الموقع من خلال أسلوبه المرئي. وأيضًا أولئك الذين ليس لديهم القدرة أيضًا بسبب مشكلات التنقل هذه ، معذرةً ، للسفر فعليًا إلى مكتب وكالة والحصول على إجابات لأسئلتهم هناك. في نفس الوقت الذي كنا نتعامل فيه أيضًا في تلك الأيام ، بالطبع ، وما زلنا مستمرين حتى اليوم ، نقص الميزانية ، وطبيعة القيود النقدية لحكومات الولايات والحكومات المحلية اليوم حيث يتم تخفيض الميزانيات يمينًا ويسارًا ، وفي كثير من الأحيان ينتظر الخط الساخن. كانت الأوقات تنمو وتنمو وتنمو على الهاتف.

السبب وراء طرح دراسة الحالة هذه هو أنني أعتقد أن جائحة الفيروس التاجي قد زاد حقًا من كيفية مواجهة جمهور معين ليس فقط لهذا النوع من أنظمة الاضطهاد التي تنطوي على إشكالية كبيرة في المجتمع فحسب ، بل وأيضًا حواجز عميقة أمام الوصول إلى المعلومات والمحتوى والمعاملات التي يحتاجونها. وإذا فكرت ، بالطبع ، في الأشخاص الذين تأثروا بشدة بتأثير الوباء وتأثيرات الوباء ، فهم الأشخاص ذوو الإعاقة أو كبار السن. وخصوصًا إذا كنت لا تستطيع حتى مغادرة منزلك ، فكيف تحصل على المعلومات التي تحتاجها؟ لذلك أعتقد أننا ، من بعض النواحي ، وفرنا مسبقًا الكثير من العمل الذي يحدث الآن مع التحول الرقمي اليوم ، حيث تدرك الكثير من المؤسسات الآن ، وهذا بالطبع يعدل من خلال الكثير من العمل الذي لدينا الآن شوهد في العمل عن بُعد على القوى العاملة الموزعة كل ذلك ، ولكن الآن أيضًا أفضل طريقة لخدمة العملاء في الزاوية B إلى C ، كيف نتأكد حقًا من أن هؤلاء هم عملاؤنا ، هؤلاء المستخدمون ، أولئك الذين يمثلون التركيبة السكانية الفعلية يمكن أن يتفاعلوا مع المحتوى الخاص بنا بطرق لا تتطلب منهم القيام بأشياء تعرضهم للخطر.

وأعتقد أن هناك العديد من الأشياء التي تسارعت في هذا الصدد. الأول هو الوصول الصوتي كما رأينا ، أعتقد أنه كان العام الماضي ، أنظمة المنزل الذكي ، ومبيعات مكبرات الصوت الذكية قد تجاوزت السقف. أعني ، الآن ، 35٪ من الأمريكيين لديهم الآن مكبر صوت ذكي في المنزل ، ولكن على نفس المنوال أيضًا ، فقد حققنا أيضًا قدرًا لا يُصدق من النمو في سماعات الألعاب وتقنيات الألعاب. لذا فإن سماعات الرأس الواقعية الافتراضية والأجهزة القابلة للارتداء وهذه تنذر حقًا ، أعتقد أن تحول المحتوى بعيدًا عن الوسيط المكتوب من الوسط المرئي ، الذي اعتدنا عليه حقًا خلال العقود القليلة الماضية إلى نوع من السياق متعدد الأوجه حيث الآن من المحتمل أن نتفاعل مع المحتوى الخاص بنا من خلال Oculus Rifts أو من خلال هواتفنا الذكية ، من خلال تلفزيون Samsung الخاص بنا ، من خلال أجهزة iPhone و iPad الخاصة بنا ، ولكن أيضًا بالطبع من خلال Amazon Alexa وهذا النوع حقًا ، بالنسبة لي ، أعتقد أن أكبر شيء حدث مع جائحة الفيروس التاجي هو أنه نوعًا ما تم تسريع وصوله في ذلك الوقت ، حيث يتعين على المؤسسات الآن أن تفهم أنه لم يعد مجرد الويب.

إنه ليس مجرد هاتف محمول ، إنه 15 شيئًا مختلفًا. إنها ، كل هذه الاعتبارات المختلفة ، وإذا كنت تفكر الآن في الويب والجوّال ، فأنت متأخر بالفعل.

التقدم حتى الآن في تطوير المحتوى الصوتي

برنت ليري : هل كنا نحن ، حيث توقعت منا أن نكون مع كون الصوت جزءًا من قناة التفاعل بين المستهلكين والبائعين؟

بريستون لذا : نعم ولا. أعتقد أن هناك من وجهة نظر صانع ، أعتقد ذلك. وما أعنيه بذلك ، كما ذكرت سابقًا ، لدينا هذه الأدوات الرائعة حقًا الموجودة هناك ، Botsociety هذه الشركات الناشئة الجديدة التي تعمل على تطوير أدوات صديقة للمصممين تتيح لك فعل مثل Dreamweaver القديم أو نهج الصفحة الأولى لـ Microsoft لبناء مواقع الويب. تأخذ ذلك إلى واجهة صوتية وفجأة لا يتعين عليك الكتابة ، دعنا نقول أن مستوى منخفض جدًا من كود الأجهزة أو الكتابة ، دعنا نقول معالجة اللغة الطبيعية أو فهم اللغة الطبيعية في روبوت. في الوقت نفسه ، على الرغم من أنني أعتقد أن هناك طرقًا طويلة وأعتقد أننا لسنا تمامًا حيث اعتقدت أننا سنكون في هذه المرحلة ، لكنني أعتقد أن الكثير من ذلك يرجع أيضًا إلى أن الذكاء الاصطناعي نفسه ليس بعيدًا تمامًا على طول كما يعتقد الكثير من الناس بالضرورة.

أحد أسباب ذلك هو أننا نشهد هذه المرة في الوقت الحالي حيث الكثير من الواجهات الصوتية التي قمنا ببنائها لا تزال بشكل أساسي رقمية مؤتمتة بشكل واضح ولا تحتوي في الواقع على وسائل فعلية للتواصل بطريقة يمكننا فعلاً نسمع أنفسنا في. أحد الأمثلة على ذلك هو أنك تنظر إلى بعض المجتمعات ثنائية اللغة في جنوب تكساس أو في مدينة نيويورك وتسمع أشخاصًا يتحولون حرفياً بين الإسبانية والإنجليزية في منتصف الجملة أو الأشخاص الذين كنت في مومباي أو في نيودلهي الذين تحولوا بين الجملتين في منتصف الجملة الهندية والإنجليزية أو التبديل بين اللغتين الماراثية والإنجليزية في منتصف الجملة.

وهؤلاء هم السكان الذين لا يسمعون أنفسهم داخل هذه الواجهات الصوتية ، ناهيك عن جميع مجتمعات اللون الذين لا يشعرون أيضًا أنهم يستطيعون سماع نوع اللهجات الخاصة بهم ونوعهم العامية ونوعهم الخاص من آداب يتحدث داخل هذه الواجهات الصوتية. هناك بعض الخطوات الممتعة في الاتجاه الصحيح والتي تسير جزئيًا هناك ، لكن ليس في الحقيقة. أعني ، الأول بالطبع هو أنني كنت مندهشًا وسعيدًا للغاية بشأن الطرق التي يتم اتباعها فيما يتعلق بالسماح لك بتهيئة تلك الأصوات التي تقرأ تلك العبارات مثل الشرطة التي أبلغت عنها أمامك أو السيارة على كتفك ، أو احتفظ بها اليسار.

هناك أيضًا خدمات جديدة تظهر مثل Amazon Polly ، أما Amazon Polly فهي مثيرة للاهتمام حقًا لأنها ستتطلب بعض المدخلات من نصوص مكتوبة مثل فقرة أو صفحة أو أيًا كان ، وسوف تقرأها بلهجة بريطانية أو بلهجة جنوب أفريقية أو لهجة أمريكية وصوت نسائي وجميع أنواع المقاييس المختلفة التي يمكنك تحريفها واللعب بها. ولكن لا تزال هذه نصوص مكتوبة بشكل أساسي ، ولم يتم تحسينها بالضرورة للتحدث.

لا توجد طريقة خوارزمية لتحويل النصوص المكتوبة إلى شيء مكتوب بأسلوب منطوق أكثر ، ولكن هناك أيضًا هذا النوع من القلق الكبير الذي يساورني ، وهو عندما يتعلق الأمر بالواجهات الصوتية فهي في الواقع رائعة وتصل إلى نقطة التميز تلك نتوقع من بعض النواحي أنه يكاد يكون مستحيلاً. أعتقد أنه من المفارقات تقريبًا أن نقول إن واجهات الصوت ستكون في هذا المستوى من السلوك الأمثل للجميع. لأن الطريقة التي تبدو بها واجهة الصوت بالنسبة لي ستكون مختلفة تمامًا عن الطريقة التي تبدو بها الواجهة الصوتية لشخص آخر. أعتقد أن هذا حقًا مرتبط بالجنس من خلال حقيقة أنه إذا نظرت إلى Alexa أو Siri أو Cortana أو Google Home ، تتحدث بشكل عام عن الصوت الافتراضي ، فإن الهوية الافتراضية التي تظهر من واجهة الصوت هذه هي شخص يبدو كثيرًا مثل الأبيض المستقيم. النساء اللواتي يتحدثن باللهجة الأمريكية العامة أو لهجة أمريكا الوسطى.

وليس هناك بالضرورة مساحة كبيرة كاملة للأشخاص المتحدثين باللغة الإنجليزية كلغة ثانية أو الأشخاص الذين يبدّلون رمزًا. كما ذكرت من قبل ، من قام بالتبديل بين الإنجليزية والإسبانية ، في منتصف الجملة مباشرة أو المجتمعات العابرة وغير الثنائية التي بدلت بين أنماط الكلام المستقيمة ونوع من الكلام من حيث كيفية تفاعلها مع بعضها البعض في الواقع حتى نسمع هذه أنواع من التبديل حتى نسمع هذا النوع من الواقع الذي انعكس في تلك الواجهات الصوتية. لا أعتقد أننا وصلنا بالفعل إلى هذا الهدف النبيل.

ما يقلقني اليوم هو أننا نواجه موقفًا غير مسبوق مع الوباء حيث يفقد الكثير من وكلاء خدمة العملاء هؤلاء ، والكثير من عمال خدمة العملاء في الخطوط الأمامية وظائفهم لصالح نهج واجهة صوتية أكثر آلية وميكانيكية. لكن معظم هؤلاء الأشخاص الذين فقدوا وظائفهم والذين تم تسريحهم من العمل ، والتي حلت محلها واجهات صوتية في هذه الشركات ، فهم عمومًا أشخاص يعيشون في جنوب الكرة الأرضية ، وهم عمومًا من الفلبين أو إندونيسيا أو الهند الذين يتحدثون الإنجليزية بطرق ينبغي أن تنعكس أيضًا في الواجهات الصوتية التي لدينا اليوم إذا أردنا ذلك.

يجب أن يكون أي شخص أمريكي فلبيني قادرًا على سماع واجهة صوتية تبدو فلبينية أمريكية أيضًا على واجهة صوتية. لذا بينما أعتقد أنه من بعض النواحي ، أصبحت الأمور رائعة حقًا لمصممي الواجهة الصوتية ، أعتقد أنه بالنسبة لمستخدمي الواجهة الصوتية ، لا يزال أمامنا طريق طويل لنقطعه ، وستستغرق بضعة عقود ، أعتقد قبل أن حتى يمكنه الوصول إلى هذه النقطة.

المستقبل القريب لتصميم المحتوى الصوتي

برنت ليري : كيف سيبدو العامان المقبلان في تصميم المحتوى الصوتي؟

بريستون لذا : أعتقد بالتأكيد أنه ستكون هناك تحسينات في بعض الأمور. بالتأكيد ستكون هناك تحسينات عندما يتعلق الأمر بما أسميه دمقرطة تصميم الواجهة الصوتية. إذا كنت شخصًا لا يعرف كيفية إنشاء موقع ويب ، إذا كنت شخصًا لا يكتب رمزًا ، إذا كنت شخصًا لا يفعل شيئًا ما له علاقة بعلوم الكمبيوتر ، فيمكنك اليوم إنشاء واجهة صوتية ، وهي حقًا المرة الأولى التي نقوم فيها بذلك من قبل.


أعتقد أننا ما زلنا نركز بشدة على فكرة الواجهات الصوتية كشيء يُستخدم لإطفاء الأضواء ، عندما ننتهي منها لتشغيل بداية التشغيل والتسخين المسبق إذا كان لديك نظام منزل ذكي. دع شخصًا ما عند الباب ، وهو أحدث إعلان تجاري رأيته. وهل تقوم بأشياء أخرى ليست بهذا النوع من البواب الكامل ، كان من المفترض أن تكون واجهات الصوت ، أليس كذلك؟

إذا نظرت إلى بعض الوسائط الأكثر طموحًا حول واجهات الصوت ، على سبيل المثال ، تنظر إلى 2001: A Space Odysseys HAL أو تنظر إلى Star Trek ، أو صوت Majel Barrett في Star Trek ، أو إذا نظرت بشكل خاص إلى بعض من نوع حلقات Black Mirror التي ظهرت مؤخرًا ، لا يقتصر الأمر على أننا نريد مساعدًا يمكنه التحدث إلينا بشأن إجراء هذه المعاملة أو تلك المعاملة أو القيام بهذه المهمة نيابةً عنا.

نريد أيضًا أن نكون قادرين على جعلهم يحتمل أن يقوموا بجدولة يومنا ، والقيام بأشياء أكثر تعقيدًا ومتعددة الأوجه. على سبيل المثال ، لا أريد شراء تذاكر فيلم فقط. لا أريد شراء تذاكر لمشاهدة Cruella أو In the Heights. اريد فعلا ان اعرف عن هذا الفيلم. أريد معرفة النتيجة في Rotten Tomatoes. أريد أن أعرف من هم الممثلين وطاقم العمل. وفي كثير من الأحيان لا تزال واجهات الصوت هذه غير مجهزة بهذا النوع من الإمكانيات.

لكن هناك مفارقة. هناك صراع مثير للاهتمام حقًا على الرغم من هنا ، لأننا شهدنا الآن حدوث القليل من التقسيم. على سبيل المثال ، إذا ذهبت إلى مسارح AMC ، أليس كذلك؟ أو تذهب إلى فنادق هيلتون أو دلتا إيرلاينز ، إذا كنت تريد أن تسأل دلتا عن هيلتون ، أو تريد أن تسأل مسارح AMC عن نوع من سلسلة المسارح الأخرى ، فلن يستطيعوا مساعدتك.

ما نراه هنا هو هذا التعارض المثير للاهتمام بين كيفية محاولة هؤلاء المساعدين الصوتيين والواجهات الصوتية التنافس ضد بعضهم البعض ، ليكونوا أكثر وأكثر اتساعًا فيما يتعلق بتغطيتهم للمعلومات عبر الويب والمعاملات عبر الويب. ولكن أيضًا حقيقة أن السؤال إلى أين تذهب على سبيل المثال ، سوف يجيب فقط على أسئلتك حول ولاية جورجيا أو الموضوعات ذات الصلة بمواطني جورجيا ، للمقيمين في جورجيا. لذا فهو سؤال مثير للاهتمام حقًا. أعتقد أننا سنشهد نوعًا من المرحلة التالية من واجهات الصوت هنا في المستقبل القريب جدًا والتي ستحاول إزالة بعض هذه الخطوط في الرمال بين الاعتبارات الموضعية والمعاملات. وسنبدأ أيضًا في رؤية المزيد من واجهات الصوت المدفوعة بالمحتوى.

هذا جزء من سلسلة مقابلات فردية مع قادة الفكر. تم تحرير النص للنشر. إذا كانت مقابلة صوتية أو فيديو ، فانقر فوق المشغل المضمن أعلاه ، أو اشترك عبر iTunes أو عبر Stitcher.