オラクルのプレストン・ソー:音声インターフェースの開発には物事が優れていますが、それを使用している人のために行く方法はまだあります
公開: 2021-08-212014年の感謝祭の頃に最初のEchoデバイスを入手し、文章の20%を「Alexa…」で始めて以来、音声ファーストテクノロジーの採用を追跡してきました。 そして、このシリーズにゲストを招待して、これらのデバイスの現在の状況と、それらがどのように使用されているかを確認することがよくあります。 しかし、私はこれまで音声コンテンツのデザインに集中したことがなかったので、プレストン・ソーと話すことに本当に興奮していました。 プレストンはオラクルの製品戦略担当シニアディレクターですが、この会話でさらに重要なのは、「音声コンテンツとユーザビリティ」という本の著者でもあるということです。
以下は、最近のLinkedInLive会話の編集されたトランスクリプトです。 埋め込まれたSoundCloudプレーヤーをクリックして、会話全体を聞きます。
ブレント・リーリー:パンデミックは、デジタルトランスフォーメーションのコンテキストでのコンテンツ開発からの音声の役割にどのように影響しましたか?
Preston So :これは本当に興味深い質問です。 これには2つの異なる角度から答えます。 1つ目は、作業を開始したときに、このケーススタディについてまだ実際に言及していないことに気付いたときです。それでも、ショーでは5〜6年前に構築したチームで作業する機会がありました。 AskGeorgia.govは、ジョージア州の住民にとって初めての音声インターフェースでした。 また、これは実際に存在する最初のコンテンツ駆動型または情報音声インターフェースの1つでした。
これを構築してこのプロジェクトを試験的に実施したかった2つの理由は、前述の人口統計を提供するためでした。これは、構築したWebサイトによって無視されるか、提供されないことがよくあります。 そして、これは特に報道機関です。公共部門で非常に差し迫った懸念があり、地方自治体と2人の聴衆の中で、必ずしも使用できない可能性のある1番目の高齢者であるグルジア人に奉仕したいと考えている非常に差し迫った懸念です。簡単にウェブサイト。 コンピュータをそれほど速く使用できるとは限らず、郡の役所や政府機関に移動できる機動性も必ずしも備えていない可能性があります。 同時に、障害のあるグルジア人にも焦点を当てたかったのです。 視覚的なアプローチでウェブサイトを使用している人ほど速くウェブサイトで使用できない可能性がある人。 また、モビリティの問題のために実際に能力を持っていない人も、すみません、実際に代理店のオフィスに行き、そこで質問に答えてもらいます。 同時に、もちろん当時も対処していましたが、今日も続けていますが、予算の不足、予算が左右に削減されている今日の州や地方自治体の帯封の性質、そしてしばしばそれらのホットラインは待っています時代は成長し、成長し、電話で成長していました。
私がこの事例研究を取り上げた理由は、コロナウイルスのパンデミックが、特定の聴衆が社会におけるこれらの非常に非常に問題のある抑圧システムだけでなく、情報やコンテンツやトランザクションにアクセスするための非常に深い障壁に直面する方法を本当に拡大したと思います彼らが必要としていること。 そしてもちろん、パンデミックの影響とパンデミックの影響によって最も影響を受けたのは、障害者または高齢者です。 特に、家を出ることができない場合、実際に必要な情報をどのように入手しますか? ですから、私たちはある意味で、多くの組織が現在認識している今日のデジタルトランスフォーメーションで現在行われている多くの作業を事前に保存したと思います。これはもちろん、現在私たちが行っている多くの作業を通じて調整されています。分散した労働力でのリモートワークで見られるように、B to Cの角度で顧客にサービスを提供する最善の方法、実際に顧客である人、ユーザーである人、実際の人口統計である人を実際に確認するにはどうすればよいですか?コンテンツを危険にさらすようなことをする必要がない方法でコンテンツを操作できます。
そして、私はこの点で加速しているいくつかのことがあると思います。 1つ目は、私たちが見たように音声アクセスに沿ったものです。昨年だったと思いますが、スマートホームシステム、スマートスピーカーの販売は急上昇しました。 つまり、今では、アメリカ人の35%が自宅にスマートスピーカーを持っていますが、同じように、ゲーミングヘッドセットとゲーミングテクノロジーも驚異的な成長を遂げています。 ですから、バーチャルリアリティヘッドセット、ウェアラブルデバイス、そしてこれらは本当に前兆であり、コンテンツが視覚媒体から書面媒体から離れて、過去数十年にわたってはるかに多面的な種類のコンテキストに実際に慣れていると思います。今では、Oculus Riftsやスマートフォン、Samsung TV、iPhoneやiPadだけでなく、もちろんAmazon Alexaを介してコンテンツを操作できる可能性があります。これは、私にとっては、コロナウイルスのパンデミックで起こった最大のことは、それがその時代の到来を本当に加速させたことです。組織は、それがもはやWebだけではないことを理解する必要があります。
モバイルだけでなく、15種類あります。 それは、これらのさまざまな考慮事項のすべてであり、Webとモバイルについて考え始めたばかりの場合は、すでに遅れを取っています。
音声コンテンツ開発のこれまでの進捗状況
ブレント・リーリー:私たちは、消費者とベンダーの間の相互作用チャネルの一部である音声を使用することを期待していた私たちでしたか?
Preston So :はい、いいえ。 メーカーの立場からするとそう思います。 つまり、先に述べたように、これらの非常に優れたツールがあります。Botsocietyは、古いDreamweaverのようなものを実行できる、本当にデザイナーフレンドリーなツールを開発しているこれらの新しいスタートアップです。 Webサイトを構築するためのMicrosoftフロントページアプローチ。 それを音声インターフェースに引き継ぐと、突然、非常に低レベルのハードウェアコードを記述したり、ボットに自然言語処理や自然言語理解を書き込んだりする必要がなくなります。 同時に、まだまだ先は遠いと思いますし、現時点では思っていたところとは言えないと思いますが、それはAI自体もそれほど遠くないからだと思います。多くの人が必然的に考えたように。
その理由の1つは、私たちが構築した多くの音声インターフェースが基本的にまだ明らかにデジタル自動化されており、実際に私たちができる方法で実際に通信する手段がないということです。この一例は、南テキサスまたはニューヨーク市のバイリンガルコミュニティのいくつかを見て、人々が文の途中で文字通りスペイン語と英語を切り替えるのを聞いたり、そうだと思っている人々、正確にはムンバイまたはニューデリーにいて、文の途中でヒンディー語と英語を切り替えたり、文の途中でマラーティー語と英語を切り替えたりしています。
そして、これらは、これらの音声インターフェース内で自分自身を聞いていない集団です。ましてや、自分たちの種類の方言や自分たちの口語表現、自分たちの種類のマナーを聞くことができるとは感じていないすべての色のコミュニティは言うまでもありません。これらの音声インターフェース内で話します。 正しい方向にいくつかの興味深いステップがあり、そのようなものは部分的にそこに行きますが、実際にはそうではありません。 つまり、最初はもちろん、警察が先に報告したり、車を肩に乗せたりするなどの声明を読み上げるような声を設定できるようにするという点で、どのように機能しているかについて非常に驚いて満足していると思います。左。
もちろん、Amazon Pollyのような新しいサービスも登場しています。AmazonPollyは、段落やページなどのテキストの入力を受け取り、英国のアクセントや南アフリカのアクセントで読み上げるため、非常に興味深いものです。アメリカのアクセント、女性の声、そしてひねったり遊んだりできるさまざまな種類のゲージ。 しかし、それでも基本的には、もちろん、それは必ずしもスピーチ用に最適化されていない書かれたテキストです。
書かれたテキストをより話し言葉のスタイルで書かれたものに変えるアルゴリズム的な方法はありませんが、音声インターフェイスに関しては、実際には素晴らしいものであり、その卓越性のポイントに到達しているということです。いくつかの点で、それはほとんど不可能だと思います。 音声インターフェイスは、すべての人にとってこのレベルの最適な動作になると言うのは、ほぼ逆説的なことだと思います。 なぜなら、音声インターフェイスが私に聞こえる方法は、音声インターフェイスが他の人に聞こえる方法とは大きく異なるからです。 Alexa、Siri、Cortana、Google Homeを見ると、一般的にデフォルトの音声で言えば、この音声インターフェースから出てくるデフォルトのIDは、シスジェンダーの真っ白によく似た人であるという事実によって、それは本当に性別によるものだと思います一般的なアメリカ人または中米の方言と話す女性。
そして、第二言語としての英語を話す人々やコードスイッチャーである人々のために、必ずしも十分なスペースがあるわけではありません。 前に述べたように、英語とスペイン語を切り替えたのは、文の真ん中で、またはトランスと非バイナリのコミュニティで、実際にどのように相互作用するかという点で、ストレートと非バイナリのコミュニティを切り替えました。それらの音声インターフェースに反映されたその種の現実を聞くまで、一種のトグル。 私たちは実際にその高い目標を達成したとは思いません。
今日私が心配しているのは、これらのカスタマーサービスエージェントの多く、これらの最前線のカスタマーサービスワーカーの多くが、より自動化された機械的な音声インターフェイスアプローチを支持して職を失っているというパンデミックで前例のない状況に直面していることです。 しかし、解雇されて仕事を失っているこれらの人々のほとんどは、これらの企業の音声インターフェースに取って代わられています。彼らは一般的に南北に住んでいる人々であり、一般的にフィリピンやインドネシアから来ています。または、私たちが望むのであれば、今日私たちが持っている音声インターフェースにも反映されるべき方法で英語を話すインド。
フィリピン系アメリカ人である誰かは、音声インターフェースでもフィリピン系アメリカ人に聞こえる音声インターフェースを聞くことができるはずです。 ですから、ある意味で、音声インターフェイスの設計者にとっては本当に素晴らしいことだと思いますが、音声インターフェイスのユーザーにとっては、まだ長い道のりがあり、数十年になると思います。その点に到達することさえできます。
音声コンテンツデザインの近い将来
ブレント・リーリー:音声コンテンツのデザインについて、今後数年間はどのようになりますか?
プレストン・ソー:確かに、特定の点で改善があると思います。 私が音声インターフェース設計の民主化と呼んでいるものに関しては、間違いなく改善が見込まれます。 あなたがウェブサイトを作成する方法を知らない人、あなたがコードを書かない人、あなたが実際にコンピュータサイエンスに関連することを何もしない人なら、あなたは今日することができます音声インターフェイスを作成します。これは、これまでに行ったのは初めてのことです。
