Dave Isbitski von Amazon: Voice Tech kennt keine Generationengrenzen

Veröffentlicht: 2020-05-30

2016 habe ich meine erste Präsentation auf Amazon Alexa und Echo gemacht, und damals waren etwa 700 Skills verfügbar. Heute sind es über 100.000. Und Hunderte Millionen von Alexa-fähigen Geräten. Da die meisten von uns also mehr Zeit als je zuvor in ihren Häusern verbringen, wollte ich mich wieder mit Dave Isbitski, Amazons Chief Evangelist für Alexa und Echo, treffen.

In einem ziemlich ausführlichen Chat, den wir kürzlich auf LinkedIn Live hatten, erzählt Dave einige der Geschichten darüber, wie Menschen Alexa/Echo und intelligente Assistenten im Allgemeinen während der Covid-19-Pandemie verwenden, warum er glaubt, dass Sprachtechnologie Generationen vereint, und wie er das tut sieht Stimme in der PC-Ära (Post Covid) eine große Rolle.

Nachfolgend finden Sie eine bearbeitete Abschrift eines Teils unseres Gesprächs. Um den vollständigen Convo zu hören, klicken Sie auf den eingebetteten SoundCloud-Player.

smallbiztrends · Dave Isbitski von Amazon – Voice ist die erste Technologie, von der meine Eltern genauso begeistert sind wie meine Kinder

Small Business Trends: Wie weit sind die Dinge mit Alexa- und Echo-Geräten gekommen?

Dave Isbitski: 2014, wenn ich sagen würde, wer hat einen Echo? Ich musste erklären, was das überhaupt war. Jetzt im Jahr 2020 wissen die meisten Menschen, was Echo ist. Ich meine, es gibt sogar den Saturday Night Live-Sketch. Sie verstehen, was Alexa ist. Sie haben wahrscheinlich mehrere Geräte. Sie sind nur intelligente Assistenten und KI auf ganzer Linie. Das hat sich wirklich als Teil der Umgangssprache geändert. Es gehört zum Alltag der Menschen.

Was die Leute vielleicht wissen oder nicht wissen, ist, dass Sie die Fähigkeit haben, diese KIs zu unterrichten. Es ist also nicht Alexa, sondern einer dieser intelligenten Assistenten. Was wir bei Amazon tun, ist, dass wir das kostenlos, offen und für alle verfügbar machen. Ob sie also Alexa in Dingen haben wollen, das könnten Autos sein, es könnten Autoradios sein, es könnte Ihr Telefon sein. Windows hat jetzt Alexa integriert, oder Sie möchten Alexa beibringen, wie man Gespräche über Dinge führt.

Und wenn Sie sich über etwas unterhalten, nennen wir das eine Fähigkeit. Sie bringen Alexa also eine neue Fähigkeit bei und können sich über alles unterhalten. Und das könnte so sein, dass Sie jetzt gleich Ihre Dominos bestellen, oder? Wenn wir in einer Pandemie zu Hause sitzen, liefern sie. Sie könnten eine einfache Bestellung aufgeben oder einfach nur Spiele abrufen. Gehen Sie einfach zu Amazon … Wenn die Leute neugierig sind, denn ich höre von Leuten, die sagen: „Hey, meine Kinder machen mich verrückt. Gibt es Spiele?“ Es gibt durchaus Spiele. Gehen Sie zu amazon.com/skills. Sie werden dort oben Kategorien sehen, Brent, die wir vor einiger Zeit nicht hatten. Sie sehen also alle diese Kategorien, genau wie jedes andere Amazon-Produkt, Sie können sortieren, Sie können sagen, zeigen Sie mir vier Sterne und mehr Bewertungen. Einige davon haben jetzt Zehntausende von Bewertungen.

Eines der Dinge, die Sie als Amazon-Kunde jetzt tun können, ist, dass Sie zu blueprints.amazon.com gehen und diese Dinge visuell erstellen können. So höre ich von Eltern, dass ihre Kinder ihre eigenen Geschichten erfinden.

Trends für kleine Unternehmen: Ja.

Dave Isbitski: Vielleicht kümmerst du dich um jemand anderen, der zu Hause ist. Sie möchten sie daran erinnern, Dinge zu tun. Sie möchten ihnen die Möglichkeit geben, Fragen zu stellen. Welche Medikamente nehme ich zum Beispiel? Wann nehme ich es? All das können Sie tun und dann können Sie es ihrem Amazon-Konto zuweisen.

Ich habe das für meine Eltern gemacht, wo ich Sachen aufgebaut habe. Deshalb haben wir versucht, den Prozess so nahtlos wie möglich zu gestalten, damit Sie Alexa beibringen können, Gespräche zu führen und Inhalte zu erstellen, die Sie möchten, unabhängig davon, ob Sie Code schreiben können oder nicht.

Small Business Trends: Sehen Sie viele Verhaltensänderungen und Leute, die ihre Lautsprecher dazu nutzen, Dinge zu tun, die sie vorher nicht wirklich getan haben?

Dave Isbitski: Nun, eines der Dinge, die ich höre und die Sie online sehen werden, vielleicht sogar in Ihren Facebook-Feeds und auf Twitter, ist, dass es so wichtig ist, sich während all dessen zu vernetzen. Wir haben tatsächlich … Wir versuchen einmal pro Woche, per Video mit meinen Eltern in Kontakt zu treten, nur um zu sehen. Und eines der Dinge, die wir ständig hören … Wenn Sie hierher gehen. Das bringt Sie zu einem Blog-Post über Alexa und Geräte und was los ist. Sie werden uns über einiges davon sprechen hören.

Ich glaube nicht, dass dies verfügbar war, als wir uns das letzte Mal unterhalten haben, aber eine beliebte Funktion ist die Möglichkeit, vorbeizuschauen. Sie richten also Leute in Ihrem Leben ein und dann sagen sie einfach: „Alexa, schau bei den Großeltern vorbei.“ Oder „Alexa schau bei Mama vorbei.“ Oder „Alexa kommt bei Kindern vorbei.“ Und es ist unglaublich, wie nahtlos das wird. Und besonders während dieser Pandemie ist die Möglichkeit, einfach so zu kommunizieren, ohne ein Telefon zu benötigen, ohne Apps zu aktualisieren, richtig? Dies ist eine Erfahrung. Es ist einfach da. Und die Stimme ist nahtlos. Es ist inklusive. Jeder kann es tun. Sprache ist die erste Technologie, die meine Eltern genauso begeistert wie meine Kinder, oder? Und mein Dad benutzt immer noch keinen Computer, aber er kann Dinge auf-

Small Business Trends: Wirklich?

Dave Isbitski: Ja, ich weiß, es ist verrückt, oder? Sowohl mein Bruder als auch ich sind Techniker, meine Mutter druckt E-Mails für ihn aus. Er meldet sich nie … Ja. Aber ich habe darüber gesprochen, wo wir diese Geräte in den Krankenhäusern gespendet haben und die Leute die Möglichkeit haben, jederzeit einfach durchzusprechen und sich zu verbinden, richtig? Weil Sie es auch nicht berühren, was eine wichtige Sache ist. Wir haben sie Krankenhäusern gegeben, in denen Krankenschwestern die Möglichkeit haben, sich einzuloggen und darüber zu sprechen, alles völlig freihändig.

Ich habe gerade mit den Leuten von Johns Hopkins gesprochen. Und ich werde seinen Namen nicht nennen. Er ist Chirurg in New York. Und es war sehr herzerwärmend. Er sagte nur: „Ich möchte Ihnen nur danken. Vor zwei Jahren hatte meine Mutter Demenz und Alzheimer und wir haben die ganze Zeit Alexa benutzt. Sie hatte die Fähigkeit, um Hilfe zu rufen. Sie hatte die Möglichkeit, uns jederzeit anzurufen. Und so konnten wir mit ihr kommunizieren.“

Also haben wir ein paar Dinge hinzugefügt. Eines der Themen ist das Feedback von Kunden, Alexa persönlicher zu machen. Zum Beispiel kann jeder jederzeit Alexa sagen, dass es sich Dinge merken soll. Das erste, was ich getan habe, war, mich an das WLAN-Passwort zu erinnern, richtig? Und wenn wir Gäste haben, können sie sagen: „Wie lautet das WLAN-Passwort?“ Recht. Und sie kann es dir sagen, oder es könnten Dinge sein wie, dass meine Eltern sich an Daten und Geburtstage erinnern und solche Sachen.

Wir alle haben unterschiedliche Persönlichkeiten. Wenn Sie sich Myers-Briggs ansehen, wenn Sie sich NBTI und fünf Kernpersönlichkeitstypen ansehen, wie ich in INFJ bin. Ich weiß nicht, ob Sie diese Typen kennen. Oft komme ich nicht aus meinem eigenen Kopf heraus, aber ich kann mit mehreren Ideen in meinem Kopf jonglieren. Ich kann in kognitiver Dissonanz leben. Andere Menschen sind nicht so. Und Mobile und Web sind eine Einheitsgröße. Es ist wie, hier ist unser Design. Und wenn du es nicht so hart magst, dann trainieren wir unser Gehirn, oder? Wir bauen diese neuralen Bahnen auf und wie man eine Schnittstelle benutzt. Und wenn Sie dann diese Schnittstelle ändern, ist es für die Leute umwerfend. Wenn eine dieser Social-Media-Sites jeden Tag die Art und Weise ändert, wie ihr Feed aussieht.


Trends für kleine Unternehmen: Richtig.

Dave Isbitski: Das Tolle an der Stimme ist, dass sie die Art und Weise sein kann, wie Sie sie konsumieren möchten. Sie können entscheiden, welche Art von Person Sie hören möchten. Tatsächlich haben wir einen Dienst namens Polly Brand, der Stimmen erzeugt. KFC, wir haben mit ihnen zusammengearbeitet und Sie können die Stimme des Colonels hören. Das ist heute mein absoluter Favorit, mit dem Alexa-Gerät können Sie sagen: „Fragen Sie Sam.“ Also Samuel L. Jackson, und er wird Ihnen Wetter und Witze erzählen. Und all das nutzt eine Technologie namens Neural TTS (Text to Speech), richtig?

Es gab einen Durchbruch bei der Verwendung von neuronalen Netzen, um Ton zu reproduzieren. Also jetzt durch Neural TTS, wenn Sie einen Computer benutzen und es sehen, dass es computergeneriert ist, aber für das menschliche Ohr klingt es wie ein menschliches Wesen und Sie können die Beugung ändern. Sie können es aufregend machen. Wir haben das mit Alexa gemacht, wo Sie, wenn Sie diese Erfahrungen erstellen, ich meine, Sie wählen, wie die Stimme klingt. Du kannst sie aufgeregt klingen lassen. Wir haben das Ding für Kunden hinzugefügt, wo wir hören, als hätten wir kleine Kinder, und ich gehe ein Schlaflied spielen oder schalte nachts das Licht aus, richtig? Denn viele Leute, die Alexa mit Smart Home verwenden, sagen: „Schalten Sie das Licht aus.“ Und sie ist super laut und weckt das Baby, oder? Wie niemals das Baby wecken.

Sie können Alexa also etwas zuflüstern und sie sagt dann: „Oh, das klingt, als würden Sie flüstern. Soll ich zurückflüstern?" Und Sie sagen: „Ja, es ist der Flüstermodus.“ Und so werden Sie sagen: „Schalten Sie das Licht aus.“ Und sie wird sagen: „Okay, ich mache das Licht aus.“ Recht? Aber es ist sehr menschlich. Ein anderer Bereich, den Sie sagen können, ist: „Weißt du was, sprich schneller, sprich langsamer, mach langsamer.“ Und so wird sie die Dinge langsamer sagen, oder sie wird die Dinge schneller sagen.

Wir haben die Fähigkeit, Töne zu erkennen, richtig? Es ist also sehr unterschiedlich. Wenn ich sage: „Alexa, halt die Klappe.“ Im Gegensatz zu „Alexa, danke. Stoppen." Und wir haben allerhand. Als ob wir schon immer die Fähigkeit dazu gehabt hätten … Ich glaube, wir haben bei deiner letzten Show darüber gesprochen. Seit dem ersten Tag, seit unserer Einführung, hatten Sie die Möglichkeit, alles zu löschen, was Sie jemals zu Alexa gesagt haben. Du hattest die Fähigkeit hineinzugehen und Dinge zu sehen. Und wer sich nicht mit Technik auseinandersetzen möchte, kann einfach bei Amazon anrufen, machen lassen. Aber die Leute wollten hören und die Möglichkeit haben, spontan zu sein. Also haben wir das geöffnet und Sie können Dinge sagen wie: „Alexa, lösche, was du gerade gehört hast.“ Sie könnten sagen: „Alexa, was hast du gerade gehört?“ Und dann wird sie es wiederholen. Du könntest sagen: „Alexa, lösche alles, was du heute gehört hast.“

Und es ist interessant. Sie können sogar Dinge sagen wie „Alexa, warum hast du das getan?“ Und sie wird sagen: „Nun, das habe ich gehört und deshalb habe ich das getan.“ Und so ist es sehr ermächtigend, weil es den Menschen hilft zu verstehen, denn selbst als Menschen sage ich eines, aber es ist nicht unbedingt das, was Sie gehört oder auf die gleiche Weise verarbeitet haben, oder? Und wenn sie den Leuten diese Fähigkeit geben, sagen sie: „Oh, sie hört dieses Wort immer wieder. Oder vielleicht sage ich das so.“ Es ist sehr ermächtigend in einem offenen Setup.

Einige der anderen Dinge sind zweisprachig. Damit Sie in den USA schnell und hinter den Kulissen zwischen Englisch und Spanisch wechseln können, nehmen wir das und fügen es in ein Lexikon ein. Und damit beide Sprachmodelle funktionieren und Sie zwischen denselben Dingen wechseln können mit… In Kanada, Französisch-Kanadisch, Hindi und Englisch in Indien. Denn so sprechen wir als Menschen. Wenn Sie in einer zweisprachigen Familie aufgewachsen sind, müssen Sie nur zwischen Wörtern und Sprachen hin und her wechseln, und sie kann das.

Und so sind es diese Dinge, denn nichts geht schneller, als einfach danach fragen zu können. Und das ist, wo ich sagen würde, wir entwickeln uns wie heute, das ist, wo wir sind, und wir können über den Blick in die Zukunft sprechen.

Small Business Trends: Sehen Sie einige der Interaktionen, die normalerweise mit Ihrem Telefon stattgefunden hätten, beginnend mit Ihren Sprachgeräten stattzufinden?

Dave Isbitski: Nun, ich sehe es so. Die Mission unserer Gruppe war immer, Alexa überall dort zu haben, wo Sie es haben möchten. Und das ist jetzt im Haus. Aber wenn Sie eine Fahrt machen, sollten Sie sagen können: „Alexa, lies mein Buch.“ Und es war das Hörbuch, das Sie vielleicht gerade in Ihrem Wohnzimmer gehört haben, richtig? Es ist einfach, es ist nahtlos. Ich wurde schon einmal mit diesen Worten zitiert, und ich denke, es ist immer noch die beste Analogie, dass die Stimme das neue HTML ist.

Denken Sie also daran, wann das Web zum ersten Mal herauskam und das Internet zum ersten Mal herauskam. Wie haben Sie Kontakt zu Unternehmen aufgenommen? Recht? Es war, als hättest du einen Brief geschrieben, bist in ihre Lobby gegangen oder hast telefoniert. Und plötzlich durch HTML, richtig? Und ich wollte nicht sagen, dass Sprache das neue Web ist, denn das Web ist so umfassend mit Social Media und allem. Weil es die Schnittstelle ist. HTML wurde also plötzlich zur Schnittstelle, um sich mit jedem, überall auf der Welt, jeder Marke der Welt zu verbinden, um zu lernen, richtig? Fragen zu irgendetwas stellen. Es war wirklich, wie HTML das Web zusammenbrachte. Und so sollten Sie die Stimme betrachten. Es ist das HTML für alles.

Dies ist Teil der One-on-One-Interview-Reihe mit Vordenkern. Das Transkript wurde für die Veröffentlichung bearbeitet. Wenn es sich um ein Audio- oder Videointerview handelt, klicken Sie oben auf den eingebetteten Player oder abonnieren Sie es über iTunes oder über Stitcher.