Oracle 的 Preston So:雖然開發語音界面的情況更好,但對於那些使用它們的人來說,還有一條路要走
已發表: 2021-08-21自從我在 2014 年感恩節左右獲得我的第一台 Echo 設備並且我 20% 的句子以“Alexa……”開頭以來,我一直在跟踪語音優先技術的採用情況。 每隔一段時間,我喜歡邀請客人加入我參加這個系列,看看這些設備今天的情況,以及它們是如何被使用的。 但我之前並沒有真正專注於設計語音內容,這就是為什麼我很高興能與 Preston So 交談。 Preston 是 Oracle 產品戰略高級總監,但更重要的是,對於這次談話,他還是《語音內容和可用性》一書的作者。
以下是我們最近的 LinkedIn Live 對話的編輯記錄。 單擊嵌入式 SoundCloud 播放器以收聽完整的對話。
Brent Leary :在數字化轉型的背景下,大流行如何影響內容開發中聲音的作用?
Preston So :這是一個非常有趣的問題。 我將從兩個不同的角度來回答這個問題。 第一個是當我們開始工作時,我才意識到我實際上還沒有提到這個案例研究,即使在這個節目中,5 或 6 年前我有機會在一個建立了AskGeorgia.gov,這是佐治亞州居民的第一個語音界面。 此外,它確實是有史以來最早的內容驅動或信息語音界面之一。
我們想要建立這個項目並試點這個項目的兩個原因是服務於那些我之前提到的人口統計數據,這些人口統計數據經常被我們建立的那些網站所忽略或不能很好地服務。 這尤其是新聞界,因為我們知道公共部門的一個非常緊迫的問題,地方政府內部非常非常緊迫的問題,以及我們想服務的兩個受眾,第一,格魯吉亞老人,他們可能無法使用一個網站一樣容易。 它可能不一定能夠快速使用計算機,也可能不一定具有能夠前往縣政府辦公室或機構辦公室的移動性。 同時,我們也想關注殘疾格魯吉亞人。 那些可能無法像那些通過視覺方式使用網站的人那樣快速地在網站上使用 a 的人。 還有那些因為流動性問題而真的沒有能力的人,對不起,實際上去代理辦公室並在那裡回答他們的問題。 與此同時,我們在那些日子里當然也在處理,而且今天仍在繼續,缺乏預算,今天州和地方政府的現金緊張性質,預算被左右削減,而且經常熱線等待時代在手機上越來越長。
我提出這個案例研究的原因是,我認為冠狀病毒大流行確實放大了某些受眾不僅面臨著這些非常非常有問題的社會壓迫制度,而且還面臨著獲取信息、內容和交易的非常深的障礙他們需要的。 當然,如果你想一想,誰受大流行的影響和大流行的影響最大,那就是那些殘疾人或老年人。 尤其是如果你甚至不能離開你的家,你如何真正獲得你需要的信息? 因此,我認為我們在某些方面預先保存了當今數字化轉型正在發生的許多工作,許多組織現在正在實現這一點,這當然是通過我們現在擁有的許多工作進行調整在分佈式勞動力的遠程工作中看到了所有這些,但現在如何最好地從 B 到 C 的角度為客戶服務,我們如何真正確保那些是我們的客戶、那些是用戶、那些是我們的實際人口統計數據的人可以與我們的內容進行交互,而無需他們潛在地做使他們處於危險之中的事情。
我認為在這方面有幾件事加速了。 第一個是我們看到的語音訪問,我認為是去年,智能家居系統、智能揚聲器的銷售量已經達到頂峰。 我的意思是,現在有 35% 的美國人在家中擁有智能揚聲器,但出於同樣的原因,我們在遊戲耳機和遊戲技術方面也取得了令人難以置信的增長。 所以虛擬現實耳機、可穿戴設備和這些真的預示著,我認為內容從書面媒體從視覺媒體的轉變,我們在過去幾十年裡真正習慣了一種更加多面的環境,其中現在我們可能會通過 Oculus Rifts 或智能手機、三星電視、iPhone 和 iPad,當然也可以通過亞馬遜 Alexa 與我們的內容進行交互,對我來說,我認為冠狀病毒大流行發生的最重要的事情是,它確實加速了那個時代的到來,組織現在必須明白,它不再只是網絡了。
它不僅僅是移動設備,還有 15 種不同的東西。 是的,所有這些不同的考慮因素,如果你現在才開始考慮網絡和移動,那麼你已經落後了。
語音內容開發的最新進展
Brent Leary :我們是否曾經是我們,您希望我們將語音作為消費者和供應商之間互動渠道的一部分?
Preston So :是的,也不是。 我認為從製造商的角度來看,我認為是的。 我的意思是,正如我之前提到的,我們已經有了這些非常棒的工具,Botsociety 這些新的初創公司正在開發真正對設計師友好的工具,讓你可以像舊的 Dreamweaver 或Microsoft 建立網站的首頁方法。 你把它帶到一個語音界面上,突然你就不必編寫了,比如說非常低級的硬件代碼或編寫,比如說自然語言處理或自然語言理解到機器人中。 同時,雖然我認為還有很長的路要走,而且我認為我們現在並不是我認為的那樣,但我認為這在很大程度上也是因為人工智能本身並沒有那麼遠正如很多人必然認為的那樣。
原因之一是我們現在正在經歷這個時代,我們構建的許多語音界面基本上仍然是數字自動化的,實際上並沒有以我們真正可以的方式進行交流的實際手段聽到自己的聲音。其中一個例子是,您查看德克薩斯州南部或紐約市的一些雙語社區,您會聽到人們在句子中間在西班牙語和英語之間切換,或者是的人,正是那些在孟買或新德里,在句中在印地語和英語之間切換或在句中在馬拉地語和英語之間切換。
這些人在這些語音界面中聽不到自己的聲音,更不用說所有有色人種社區了在這些語音界面中說話。 朝著正確的方向有一些有趣的步驟,它們部分地在那裡,但不是真的。 我的意思是,第一個當然是我認為我對在允許您配置那些讀出這些陳述的方式方面所做的事情感到非常驚訝和高興,例如警察報告的前方或肩上的車輛,或者左。
當然,還有像 Amazon Polly 這樣的新服務正在出現,Amazon Polly 真的很有趣,因為它需要輸入一些書面文本,如段落或頁面或其他任何內容,它會以英國口音或南非口音或美國口音,女性的聲音和各種你可以扭曲和玩耍的儀表。 但從根本上說,當然,那是不一定針對語音進行優化的書面文本。
沒有算法方法可以將書面文本轉化為更口語化的內容,但我也有一種很大的擔憂,那就是語音界面實際上很棒並且達到了卓越的程度我們期望在某些方面我認為這幾乎是不可能的。 我認為,說語音界面對每個人來說都處於最佳行為水平幾乎是一種自相矛盾的說法。 因為語音界面對我來說聽起來的方式將與語音界面對其他人的聲音方式非常不同。 我認為這確實與性別有關,如果你看一下 Alexa、Siri、Cortana 或 Google Home,一般來說默認語音,從這個語音界面出來的默認身份是聽起來很像順性別直白的人說普通美國或中美洲方言的女性。
對於以英語為第二語言的人或代碼轉換者來說,不一定有很大的空間。 正如我之前提到的,誰在英語和西班牙語之間切換,就在句子中間,或者跨性別和非二元社區在直接和某種語言模式之間切換,就他們如何實際互動而言,直到我們聽到那些各種切換,直到我們聽到我們在這些語音界面中反映的那種現實。 我不認為我們實際上已經達到了那個崇高的目標。
今天讓我擔心的是,我們正面臨著一場前所未有的大流行病,許多客戶服務代理,許多一線客戶服務人員正在失去工作,轉而採用更自動化的機械語音界面方法。 但是這些正在失業的人中的大多數正在被解僱,被這些公司的語音界面所取代,他們通常是生活在全球南部的人,通常是來自菲律賓或印度尼西亞的人或印度,他們說英語的方式也應該反映在我們今天擁有的語音界面中,如果我們願意的話。
菲律賓裔美國人應該能夠在語音界面上聽到聽起來像菲律賓裔美國人的語音界面。 所以雖然我認為在某些方面,對於語音界面設計師來說,事情已經變得非常好,但我認為對於語音界面用戶來說,我們還有很長的路要走,而且還需要幾十年,我認為在我們之前甚至可以達到這一點。
語音內容設計的近期未來
Brent Leary :未來幾年語音內容設計會是什麼樣子?
Preston So :我當然認為在某些方面會有改進。 當談到我所說的語音界面設計的民主化時,肯定會有改進。 如果您不知道如何創建網站,如果您不編寫代碼,如果您實際上不做任何與計算機科學相關的事情,那麼您今天就可以創建一個語音界面,這真的是我們以前第一次這樣做。
