Oracle'dan Preston So: Ses arabirimleri geliştirmek için her şey daha iyi olsa da, bunları kullananlar için hala gidilecek bir yol var
Yayınlanan: 2021-08-212014'ün Şükran Günü civarında ilk Echo cihazımı aldığımdan ve cümlelerimin %20'sini “Alexa…” ile başlattığımdan beri önce ses teknolojisinin benimsenmesini izliyorum. Ve sık sık, bu cihazlarla işlerin bugün nerede durduğunu ve nasıl kullanıldığını görmek için bu seride bana katılmayı seviyorum. Ancak daha önce ses içeriği tasarlamaya gerçekten odaklanmamıştım, bu yüzden Preston So ile konuşmaktan gerçekten heyecan duydum. Preston, Oracle'da Ürün Stratejisi Kıdemli Direktörüdür, ancak daha da önemlisi, bu konuşma için “ Sesli İçerik ve Kullanılabilirlik ” kitabının da yazarıdır .
Aşağıda, en son LinkedIn Canlı konuşmamızın düzenlenmiş bir dökümü bulunmaktadır . Konuşmanın tamamını dinlemek için yerleşik SoundCloud oynatıcısına tıklayın.
Brent Leary : Pandemi, dijital dönüşüm bağlamında içerik geliştirmede sesin rolünü nasıl etkiledi?
Preston So : Bu gerçekten ilginç bir soru. Buna iki farklı açıdan cevap vereceğim. Birincisi, üzerinde çalışmaya başladığımızda ve bu vaka çalışmasından henüz bahsetmediğimi fark ettiğimde, bu konuda bile, şovda 5 ya da 6 yıl önce inşa edilmiş bir ekipte çalışma fırsatım oldu. Georgia eyaletinin sakinleri için ilk sesli arayüz olan AskGeorgia.gov. Ayrıca, gerçekten var olan ilk içerik odaklı veya bilgilendirici ses arayüzlerinden biriydi.
Bunu inşa etmek ve bu projeye pilotluk yapmak istememizin iki nedeni, daha önce bahsettiğim bu demografiye hizmet etmekti, ki çoğu zaman inşa ettiğimiz web siteleri tarafından göz ardı edilir veya çoğu zaman da sunulmaz. Ve bu özellikle basın, kamu sektöründe çok acil bir endişe, yerel yönetim içinde çok, çok acil bir endişe ve hizmet etmek istediğimiz iki izleyici kitlesi, her zaman kullanamayacak durumda olan yaşlı Gürcüler. kadar kolay bir web sitesi. Bir bilgisayarı o kadar hızlı kullanamayabilir ve ayrıca bir ilçe devlet dairesine veya bir acente ofisine seyahat edebilmek için hareket kabiliyetine sahip olmayabilir. Aynı zamanda engelli Gürcülere de odaklanmak istedik. Bir web sitesinde bir web sitesini görsel yaklaşımıyla kullananlar kadar hızlı kullanamayanlar. Ayrıca, bu hareketlilik sorunları nedeniyle gerçekten de yeteneği olmayanlar, kusura bakmayın, aslında bir acente ofisine gidip sorularını orada yanıtlayabilirler. Aynı zamanda tabii o günlerde de uğraştığımız ve bugün de devam eden bütçe eksikliği, bütçelerin sağa sola kısıldığı ve çoğu zaman bu telefon hattının beklediği günümüzde devletin ve yerel yönetimlerin nakit sıkıntısı çekmesi. zamanlar telefonda büyüyor, büyüyor ve büyüyordu.
Bu vaka çalışmasını gündeme getirmemin nedeni, koronavirüs pandemisinin belirli izleyicilerin yalnızca toplumdaki bu gerçekten çok, çok sorunlu baskı sistemleriyle değil, aynı zamanda bilgiye, içeriğe ve işlemlere erişmenin önündeki gerçekten derin engellerle nasıl yüzleştiğini gerçekten büyüttüğünü düşünüyorum. ihtiyaçları olduğunu. Ve tabii pandeminin etkisinden ve pandeminin etkilerinden en çok kimlerin etkilendiğini düşünürseniz engelliler mi yoksa yaşlılar mı? Ve özellikle, evinizden bile çıkamıyorsanız, ihtiyacınız olan bilgiyi gerçekte nasıl edinirsiniz? Bu yüzden, birçok kuruluşun şu anda farkına vardığı, bugün dijital dönüşümle birlikte şu anda gerçekleşen birçok işi bir şekilde önceden kurtardığımızı düşünüyorum ve bu elbette şu anda sahip olduğumuz birçok çalışmayı modüle ediyor. Dağıtılmış iş gücü üzerinde uzaktan çalışmanın tüm bunlar üzerinde görüldüğü gibi, aynı zamanda şimdi bu B'den C'ye bakış açısına göre müşterilere en iyi nasıl hizmet verileceği konusunda, bizim müşterilerimiz, kullanıcılar, gerçek demografimiz olanlardan gerçekten nasıl emin olabiliriz? içeriğimizle, potansiyel olarak kendilerini tehlikeye atacak şeyler yapmalarını gerektirmeyen şekillerde etkileşime girebilir.
Ve bence bu konuda hızlanan birkaç şey var. Birincisi sesli erişim boyunca gördüğümüz gibi, sanırım geçen sene akıllı ev sistemleri, akıllı hoparlör satışları tavan yaptı. Demek istediğim, şu anda Amerikalıların %35'inin evinde akıllı bir hoparlör var ama aynı şekilde oyun kulaklıkları ve oyun teknolojilerinde de inanılmaz miktarda büyüme kaydettik. Bu yüzden sanal gerçeklik kulaklıkları, giyilebilir cihazlar ve bunlar gerçekten haber veriyor, bence içeriğin yazılı ortamdan görsel ortamdan, geçtiğimiz birkaç on yılda gerçekten alıştığımız çok daha çok yönlü bir bağlama kayması var. şimdi potansiyel olarak içeriğimizle bir Oculus Rifts aracılığıyla veya akıllı telefonlarımız aracılığıyla, Samsung TV'miz aracılığıyla, iPhone'larımız ve iPad'lerimiz aracılığıyla ve ayrıca tabii ki bir Amazon Alexa aracılığıyla etkileşime girebiliriz ve bu benim için gerçekten bir tür, bence koronavirüs pandemisinde olan en büyük şey, kuruluşların artık sadece web olmadığını anlamaları gereken o zamanın gelişini gerçekten hızlandırmış olmasıdır.
Sadece mobil değil, 15 farklı şey. Bu, tüm bu farklı düşünceler ve web ve mobil hakkında yeni düşünmeye başladıysanız, zaten geridesiniz.
Ses içeriği geliştirmede bugüne kadarki ilerleme
Brent Leary : Tüketiciler ve satıcılar arasındaki etkileşim kanalının bir parçası olan ses ile olmamızı beklediğiniz yerde miydik?
Preston So : Evet ve hayır. Bence yapımcı açısından var, bence öyle. Ve bununla demek istediğim, daha önce de bahsettiğim gibi, orada gerçekten harika araçlara sahibiz, Botsociety, eski Dreamweaver gibi yapmanıza izin veren gerçekten tasarımcı dostu araçlar geliştiren bu yeni girişimler veya Web siteleri oluşturmaya Microsoft ön sayfa yaklaşımı. Bunu bir ses arayüzüne alıyorsunuz ve birden bire çok düşük seviyeli donanım kodu yazmanız veya yazmanız gerekmiyor, diyelim ki doğal dil işleme veya doğal dil anlama bir bota. Aynı zamanda, çok uzak bir yol olduğunu düşünüyorum ve bu noktada olacağımızı düşündüğüm yerde olmadığımızı düşünüyorum, ancak bunun çoğunun aynı zamanda AI'nın kendisinin o kadar da uzak olmamasından kaynaklandığını düşünüyorum. birçok insanın mutlaka düşündüğü gibi.
Bunun nedenlerinden biri, şu anda inşa ettiğimiz birçok ses arabiriminin temelde hala açıkça dijital otomatik olduğu ve gerçekten yapabileceğimiz bir şekilde gerçek bir iletişim aracına sahip olmadığı bu zamanı yaşıyor olmamızdır. Kendimizi duyun. Bunun bir örneği, Güney Teksas'taki veya New York'taki bazı İki Dilli Topluluklara bakmanız ve insanların bir cümlenin ortasında kelimenin tam anlamıyla İspanyolca ve İngilizce arasında geçiş yaptığını duymanızdır. Mumbai'de veya yeni Delhi'de olup cümlenin ortasında Hintçe ve İngilizce arasında geçiş yapmış veya cümlenin ortasında Marathi ve İngilizce arasında geçiş yapmışlardır.
Ve bunlar, kendi lehçelerini, kendi konuşma dillerini ve kendi konuşma tarzlarını duyabildiklerini hissetmeyen tüm renkli toplulukları, bu ses arayüzlerinde kendilerini duymayan popülasyonlardır. bu ses arayüzleri içinde konuşma. Doğru yönde, kısmen oraya giden bazı ilginç adımlar var, ama gerçekten değil. Demek istediğim, elbette ilki, polisin önceden ihbar ettiği veya omuzdaki araç gibi bu ifadeleri okuyan sesleri bir tür yapılandırmanıza veya tutmanıza izin verme açısından hangi yolların yapıldığı konusunda çok şaşırdığımı ve mutlu olduğumu düşünüyorum. sol.
Tabii ki Amazon Polly gibi ortaya çıkan yeni hizmetler de var, Amazon Polly gerçekten ilginç çünkü bir paragraf veya sayfa gibi bazı yazılı metin girdilerini alacak ve İngiliz aksanıyla veya Güney Afrika aksanıyla okuyacak veya bir Amerikan aksanı, bir kadın sesi ve eğip büküp oynayabileceğiniz her türden çeşitli göstergeler. Ama yine de temelde, elbette, bunlar mutlaka konuşma için optimize edilmemiş yazılı metinlerdir.
Yazılı metinleri daha sözlü bir tarzda yazılmış bir şeye dönüştürmenin algoritmik bir yolu yok, ama aynı zamanda o tür büyük endişelerim var ki, konu sesli arayüzler olduğunda aslında harika olmak ve o mükemmellik noktasına ulaşmak, Bazı yönlerden bekliyoruz, bunun neredeyse imkansız olduğunu düşünüyorum. Bence ses arayüzlerinin herkes için bu optimum davranış düzeyinde olacağını söylemek neredeyse paradoksal bir ifadedir. Çünkü bir ses arabiriminin bana ses çıkarma şekli, bir ses arabiriminin bir başkası için seslendirme biçiminden çok farklı olacak. Alexa'ya, Siri'ye, Cortana'ya veya Google Home'a bakarsanız, genel olarak varsayılan sesi konuşursanız, bu ses arayüzünden çıkan varsayılan kimliğin, kulağa çok düz beyaz bir cisgender gibi gelen biri olduğu gerçeğiyle gerçekten cinsiyetlendirilmiş olduğunu düşünüyorum. genel Amerikan veya orta Amerika lehçesi ile konuşan kadınlar.
Ve ikinci dil olarak İngilizce konuşan kişiler veya kod değiştiriciler için çok fazla alan olması gerekmez. Daha önce de belirttiğim gibi, kim İngilizce ve İspanyolca arasında geçiş yaptı, cümlenin tam ortasında veya trans ve ikili olmayan topluluklar, biz bunları duyana kadar birbirleriyle gerçekte nasıl etkileşime girdikleri açısından düz ve bir tür konuşma tarzı arasında geçiş yaptılar. bu ses arayüzlerine yansıttığımız bu tür bir gerçekliği duyana kadar bir tür geçiş yapar. Bu yüce hedefe gerçekten ulaştığımızı sanmıyorum.
Bugün beni endişelendiren, bu müşteri hizmetleri temsilcilerinin birçoğunun, bu ön saflardaki müşteri hizmetleri çalışanlarının birçoğunun işlerini daha otomatik, mekanik bir ses arabirimi yaklaşımı lehine kaybettiği pandemi ile benzeri görülmemiş bir durumla karşı karşıya olmamız. Ancak işlerini kaybeden, işten çıkarılan, bu şirketlerdeki ses arayüzlerinin yerini alan bu insanların çoğu, genellikle küresel güneyde yaşayan insanlar, genellikle Filipinler veya Endonezya'dan gelen insanlar. ya da eğer istersek bugün sahip olduğumuz ses arayüzlerine de yansıtılması gereken şekillerde İngilizce konuşan Hindistan.
Filipinli bir Amerikalı olan biri, sesli bir arayüzde Filipinli Amerikalı gibi görünen bir ses arayüzü duyabilmelidir. Bu nedenle, bazı yönlerden, sesli arayüz tasarımcıları için her şeyin gerçekten harika olduğunu düşünürken, sesli arayüz kullanıcıları için bence daha gidecek çok yolumuz var ve birkaç on yıl olacak, bence biz ondan önce hatta o noktaya gelebilir.
Sesli içerik tasarımının yakın geleceği
Brent Leary : Sesli içerik tasarımı için önümüzdeki birkaç yıl nasıl görünüyor?
Preston So : Kesinlikle bazı konularda iyileştirmeler olacağını düşünüyorum. Sesli arayüz tasarımının demokratikleşmesi dediğim şey söz konusu olduğunda kesinlikle iyileştirmeler olacak. Web sitesi oluşturmayı bilmeyen biriyseniz, kod yazmayan biriyseniz, aslında bilgisayar bilimi ile ilgili hiçbir şey yapmayan biriyseniz, bugün yapabilirsiniz. bir ses arabirimi oluşturun, bunu gerçekten daha önce ilk kez yapıyoruz.
