AmazonのDaveIsbitski:VoiceTechは世代の境界を知らない

公開: 2020-05-30

2016年にAmazonAlexaとEchoで最初のプレゼンテーションを行いましたが、当時は約700のスキルが利用可能でした。 今日、10万人以上がいます。 そして、何億ものAlexa対応デバイス。 それで、私たちのほとんどがこれまで以上に家で過ごしているので、AmazonのAlexaとEchoのチーフエバンジェリストであるDaveIsbitskiにもう一度追いつきたいと思いました。

最近LinkedInLiveで行ったかなり大規模なチャットで、デイブはCovid-19のパンデミック中に人々がAlexa / Echoとスマートアシスタントをどのように使用しているか、音声技術が世代を統合していると考える理由、そして彼がどのようにPC(Post Covid)の時代に音声が主要な役割を果たしているのを見ています。

以下は、会話の一部を編集したトランスクリプトです。 完全なコンボを聞くには、埋め込まれたSoundCloudプレーヤーをクリックしてください。

smallbiztrends・AmazonのDave Isbitski – Voiceは、私の両親が私の子供と同じくらい興奮している最初のテクノロジーです

中小企業の動向:AlexaおよびEchoデバイスはどこまで進んでいますか?

Dave Isbitski: 2014年、私が言うなら、誰がエコーを持っていますか? 私はそれが何であるかを説明しなければなりませんでした。 今2020年に、ほとんどの人はエコーが何であるかを知っています。 つまり、サタデーナイトライブのスキットもあります。 彼らはAlexaが何であるかを理解します。 彼らはおそらく複数のデバイスを持っています。 彼らは単なるスマートアシスタントであり、全面的にAIです。 それは、言葉の一部として実際に変更されました。 それは人々の日常の一部です。

人々が知っているかもしれないし知らないかもしれないことは、あなたがこれらのAIを教える能力を持っているということです。 つまり、Alexaではなく、これらのスマートアシスタントのいずれかです。 アマゾンで私たちがしていることは、それを無料で、オープンで、誰もが利用できるようにすることです。 つまり、Alexaを使用したいのかどうか、つまり自動車、カーステレオ、携帯電話などです。 WindowsにはAlexaが組み込まれています。または、Alexaに物事について会話する方法を教えたいと考えています。

そして、あなたが何かについて会話するとき、私たちはそれをスキルと呼びます。 つまり、Alexaに新しいスキルを教えているので、何でも会話することができます。 そして、それはあなたのドミノを今すぐ注文するようなものかもしれませんね? 私たちがパンデミックの中で家に座っているとき、彼らは配達します。 簡単な注文をすることも、ゲームをプルアップすることもできます。 アマゾンに行ってください…人々が興味を持っているなら、私は「ねえ、私の子供たちは私を夢中にさせている。 ゲームはありますか?」 絶対にゲームがあります。 amazon.com/skillsにアクセスします。 ブレント、私たちがしばらく前に持っていなかったカテゴリがそこに表示されます。 したがって、他のAmazon製品と同じように、これらすべてのカテゴリが表示されます。並べ替えたり、4つ星以上の評価を表示したりできます。 これらのいくつかは、現在、数万から数万の評価を受けています。

Amazonの顧客として今できることの1つは、blueprints.amazon.comにアクセスして、これらを視覚的に作成できることです。 だから私は両親から彼らの子供たちが彼ら自身の物語を作っていると聞きます。

中小企業の動向:ええ。

Dave Isbitski:たぶんあなたは家にいる他の誰かの世話をしているのでしょう。 あなたは彼らに何かをするように思い出させたいのです。 あなたは彼らが質問をする能力を作りたいのです。 どのような薬を服用しますか? 何時にかかりますか? あなたができるすべてのこと、そしてあなたはそれを彼らのAmazonアカウントに割り当てることができます。

私は両親のためにそれをしました、そこで私は物事を準備しました。 そのため、コードを記述できるかどうかに関係なく、会話ができるように、また必要なコンテンツを作成できるようにAlexaに教え始めることができるように、可能な限りシームレスなプロセスを作成しようとしました。

中小企業の動向:多くの行動の変化が見られ、人々はスピーカーを活用して、以前は実際には行っていなかったことを実行していますか?

Dave Isbitski:ええと、私が聞いていることの1つで、これはオンラインで見られます。これはFacebookフィードやTwitterでも見られるかもしれませんが、このすべての間に接続することが非常に重要です。 私たちは実際に持っています…私たちは週に一度、ビデオで両親とつながるようにしています。 そして、私たちが一貫して聞いていることの1つ…ここに行けば。 それはあなたをAlexaとデバイスに関するブログ投稿に連れて行きます、そして何が起こっているのか。 あなたは私たちがこれについて話すのを聞くでしょう。

前回お話ししたときには利用できなかったと思いますが、人気のある機能は立ち寄る機能です。そこで、あなたはあなたの人生に人々を設定し、彼らはただ「アレクサ、祖父母に立ち寄りなさい」と言います。 または「アレクサはお母さんに立ち寄ります。」 または「アレクサは子供たちに立ち寄ります。」 そして、それがどれほどシームレスになるかは信じられないほどです。 そして特にこのパンデミックの間、電話を必要とせずに、アプリを更新することなく、そのように通信する能力がありますよね? これは経験です。 そこにあります。 そして、音声はシームレスです。 それは包括的です。 誰でもできます。 音声は、私の両親が私の子供と同じように興奮している最初のテクノロジーですよね? そして、私の父はまだコンピューターを使用していませんが、彼は物事を引き上げることができます-

中小企業の動向:本当に?

デイブ・イスビツキー:ええ、それはクレイジーだと思いますよね? 私の兄と私は両方とも技術者です、私の母は彼のために電子メールを印刷します。 彼は決してログに記録しません…ええ。 しかし、私は病院のどこにこれらのデバイスを寄付したかについて話していました。人々はいつでも話し合って接続することができますよね? あなたもそれに触れていないので、それは重要なことです。 私たちは、看護師がチェックインして話し合うことができる病院に、すべて完全にハンズフリーでそれらを提供してきました。

私はジョンズホプキンスの人々と話していました。 そして、私は彼の名前については言及しません。 彼はニューヨークにいる外科医です。 そして、それはとても心温まるものでした。 彼はただ言いました「私はただあなたに感謝したいだけです2年前、私の母は認知症とアルツハイマー病で、私たちはいつもAlexaを使用していました。 彼女には助けを求める能力がありました。 彼女はいつでも私たちに電話をかけることができました。 そして、それは私たちが彼女とコミュニケーションをとることができた方法です。」

そこで、いくつか追加しました。 テーマの1つは、Alexaをより個人的なものにすることについての顧客からのフィードバックです。 たとえば、いつでも誰でも、Alexaに物事を覚えておくように指示できます。これは、私が最初に行ったのはWi-Fiパスワードを覚えていることでしたね。 したがって、ゲストがいる場合は、「wifiパスワードは何ですか?」のようになります。 右。 そして、彼女はあなたに言うことができます、あるいはそれは私の両親が日付と誕生日とそのようなことを覚えているようなものかもしれません。

私たちは皆、異なる性格を持っています。 Myers-Briggsを見ると、NBTIと、私がINFJにいるような5つのコアパーソナリティタイプを見ると。 あなたがそれらのタイプに精通しているかどうかはわかりません。 多くの場合、自分の頭から抜け出すことはできませんが、頭の中で複数のアイデアを巧みに操ることはできます。 私は認知的不協和の中で生きることができます。 他の人はそのようではありません。 そして、モバイルとウェブはワンサイズですべてに適合します。 これが私たちのデザインのようなものです。 そして、あなたがそれが難しいのが気に入らなければ、それから私たちは私たちの脳を訓練しますよね? これらの神経経路とインターフェースの使い方を構築します。 そして、そのインターフェースを変更すると、人々にとって驚異的です。 これらのソーシャルメディアサイトの1つが、フィードの外観を毎日変更した場合。


中小企業の動向:そうです。

Dave Isbitski:声の素晴らしいところは、それを消費したい方法かもしれないということです。 聞きたい人のタイプを決めることができます。 実際、私たちはポリーブランドと呼ばれるサービスを持っており、それは声を生み出します。 KFC、私たちは彼らと協力しました、そしてあなたは大佐の声を得ることができます。 これは私の絶対的なお気に入りです。Alexaデバイスを使用すると、「サムに聞いて」と言うことができます。 サミュエル・L・ジャクソン、そして彼はあなたに天気とジョークを教えてくれます。 そして、そのすべてがニューラルTTS(テキスト読み上げ)と呼ばれるテクノロジーを使用していますよね?

音を再生するためにニューラルネットを使用するというブレークスルーがありました。 つまり、Neural TTSを使用すると、コンピューターを使用して、それがコンピューターで生成されたものであることがわかりますが、人間の耳には人間のように聞こえ、語尾変化を変えることができます。 あなたはそれを興奮させることができます。 私たちはAlexaでそれを行いました。ここでは、これらのエクスペリエンスを作成するときに、声がどのように聞こえるかを選択します。 彼女の音をワクワクさせることができます。 小さな子守唄を持っていると聞いているお客様のために、子守唄をしたり、夜に電気を消したりするものを追加しましたよね? スマートホームでAlexaを使用している人が多いので、「電気を消して」のようになります。 そして、彼女はとてもうるさくて、赤ちゃんを起こしますよね? 赤ちゃんを決して起こさないように。

つまり、Alexaにささやくと、彼女は次のようになります。「ああ、ささやいているように聞こえます。 ささやいてくれませんか?」 そして、あなたは「はい、それはささやきモードです」と言います。 そうすれば、「電気を消して」のようになります。 そして、彼女は「さて、私は電気を消します」のようになります。 右? しかし、それは非常に人間的です。 あなたが言うことができるもう一つの領域は、「あなたは何を知っているか、速く話す、遅く話す、遅くする」です。 そして、彼女は物事をより遅く言うか、より速く言うでしょう。

トーンを検出する機能がありますよね? ですから、それは非常に異なります。 「アレクサ、黙れ」と言えば対、「アレクサ、ありがとう。 止まる。" そして、私たちはあらゆる種類のものを持っています。 私たちがいつも能力を持っていたように…私たちはあなたの最後のショーでこれについて話し合ったと思います。 初日から、私たちがローンチして以来、Alexaにこれまでに言ったことをすべて削除することができました。 あなたは入って物事を見る能力を持っていました。 また、テクノロジーを扱いたくない場合は、Amazonに電話して、それを実行してもらうことができます。 しかし、人々はその場で聞き、能力を持ちたいと思っていました。 だから私たちはそれを開いて、「アレクサ、今聞いたものを削除して」のようなことを言うことができます。 「アレクサ、何を聞いたの?」と言うことができます。 そして、彼女はそれを繰り返します。 「アレクサ、今日聞いたものをすべて削除して」と言うことができます。

そして、それは興味深いです。 「アレクサ、どうしてそんなことをしたの?」などと言うこともできます。 そして、彼女は「まあ、これは私が聞いたことであり、これが私がそれをした理由です」のようになります。 それで、それは人々が理解するのを助けるので非常に力を与えます、なぜなら人間としてさえ、私は一つのことを言います、しかしそれは必ずしもあなたが同じように聞いたり処理したものではありませんよね? そして、人々にその能力を与えると、彼らは「ああ、彼女はこの言葉を聞き続けます。 あるいは、私はこのように言っているのかもしれません。」 オープンなセットアップで非常に力を与えます。

他のいくつかはバイリンガルです。 そのため、米国では英語とスペイン語をその場で、舞台裏で切り替えることができます。私たちはそれをレキシコンに入れています。 そして、両方の言語モデルが機能し、同じものを切り替えることができるように…カナダでは、カナダのフランス語、ヒンディー語、インドの英語。 それが私たちが人間として話す方法だからです。 あなたがバイリンガルの家族で育ったなら、言葉と言語の間を行ったり来たりするだけで、彼女はそれをすることができるでしょう。

そして、それはそれらのタイプのものです。なぜなら、単にそれを求めることができるよりも速いものはないからです。 そして、それが私が言うところです、私たちは今日のように進化しています、それは私たちがいる場所であり、私たちは将来の展望について話すことができます。

中小企業の動向:電話で通常行われていたであろうインタラクションのいくつかが、音声デバイスで行われ始めているのを見ていますか?

Dave Isbitski:ええと、私はそれをこのように見ています。 私たちのグループの使命は、あなたが望むところならどこでも、常にAlexaです。 そして今、それは家の中にあります。 しかし、ドライブに行く場合は、「アレクサ、私の本を読んでください」と言うことができるはずです。 そして、それはたぶんあなたがちょうどあなたの巣窟で聞いていたオーディオブックでしたね? ただ、シームレスです。 私は以前にこれを言ったと言われていますが、それは今でも最高のアナロジーだと思います。それは、音声が新しいHTMLであるということです。

では、Webが最初に登場し、インターネットが最初に登場したのはいつかを考えてみてください。 どのように企業に連絡しましたか? 右? まるで、手紙を書いたり、ロビーに入ったり、電話をかけたりしたようなものでした。 そして突然HTMLを介してね? そして、私は音声が新しいWebであるとは言いたくありませんでした。なぜなら、Webはソーシャルやすべてのものに非常に包括的だからです。 それはインターフェースだからです。 それで、HTMLは突然、世界中の誰とでも、世界中のどのブランドとも、学ぶためのインターフェースになりましたね。 何かについて質問すること。 それは本当にHTMLがウェブをまとめた方法でした。 そして、それはあなたが声を見る方法です。 それはすべてのHTMLです。

これは、ソートリーダーとの1対1のインタビューシリーズの一部です。 トランスクリプトは公開用に編集されています。 オーディオまたはビデオのインタビューの場合は、上の埋め込みプレーヤーをクリックするか、iTunesまたはStitcherを介してサブスクライブします。