Amazon의 Dave Isbitski: 음성 기술은 세대 간 경계를 모릅니다

게시 됨: 2020-05-30

2016년에 나는 Amazon Alexa와 Echo에 대한 첫 번째 프레젠테이션을 했고 당시에는 약 700개의 기술을 사용할 수 있었습니다. 오늘날에는 100,000개가 넘습니다. 그리고 수억 대의 Alexa 지원 장치가 있습니다. 그래서 우리 대부분은 집에서 그 어느 때보다 많은 시간을 보내고 있기 때문에 Amazon Alexa 및 Echo의 수석 에반젤리스트인 Dave Isbitski를 다시 만나고 싶었습니다.

최근 LinkedIn Live에서 있었던 광범위한 채팅에서 Dave는 Covid-19 전염병 동안 사람들이 일반적으로 Alexa/Echo 및 스마트 비서를 사용하는 방법, 음성 기술이 세대를 통합한다고 생각하는 이유, 그리고 그가 어떻게 PC(포스트 코비드) 시대에 목소리가 중요한 역할을 한다고 봅니다.

아래는 우리 대화의 일부를 편집한 대본입니다. 전체 대화를 들으려면 내장된 SoundCloud 플레이어를 클릭하십시오.

smallbiztrends · Amazon의 Dave Isbitski – 음성은 부모님이 내 아이만큼 기대하는 첫 번째 기술입니다.

소규모 비즈니스 동향: Alexa 및 Echo 장치는 어디까지 왔습니까?

Dave Isbitski: 2014년에 누가 Echo를 가지고 있습니까? 나는 그것이 무엇인지 설명해야했습니다. 이제 2020년에 대부분의 사람들은 Echo가 무엇인지 압니다. 내 말은, 새터데이 나이트 라이브(Saturday Night Live) 희극도 있습니다. 그들은 Alexa가 무엇인지 이해합니다. 아마도 여러 장치가 있을 것입니다. 그들은 단지 스마트 비서이자 전반적으로 AI일 뿐입니다. 그것은 모국어의 일부로 정말 변경되었습니다. 그것은 사람들의 일상의 일부입니다.

사람들이 모를 수도 있고 모를 수도 있는 것은 이러한 AI를 가르칠 수 있는 능력이 있다는 것입니다. 따라서 이것은 Alexa가 아니라 이러한 스마트 비서 중 하나입니다. Amazon에서 하는 일은 모든 사람이 무료로 공개하고 사용할 수 있도록 하는 것입니다. 그래서 그들이 알렉사를 원하는 것이 자동차가 될 수도 있고, 카 스테레오가 될 수도 있고, 당신의 전화가 될 수도 있습니다. Windows에 Alexa가 내장되어 있거나 Alexa에게 사물에 대해 대화하는 방법을 가르치고자 합니다.

그리고 당신이 무언가에 대해 대화를 할 때, 우리는 그것을 기술이라고 부릅니다. 따라서 Alexa에게 새로운 기술을 가르치고 있으며 무엇이든 대화할 수 있습니다. 그리고 그것은 바로 지금 도미노를 주문하는 것과 같은 것일 수 있습니다. 맞습니까? 우리가 전염병으로 집에 앉아 있을 때 그들은 배달합니다. 당신은 쉬운 주문을 할 수도 있고 그냥 게임을 풀 수도 있습니다. 그냥 아마존으로 가세요… 사람들이 궁금해 한다면, 저는 사람들로부터 "이봐, 내 아이들이 나를 미치게 만들고 있어. 게임이 있습니까?” 게임이 절대적으로 있습니다. amazon.com/skills로 이동합니다. Brent, 얼마 전까지는 볼 수 없었던 카테고리가 위쪽에 표시됩니다. 따라서 다른 Amazon 제품과 마찬가지로 이 모든 범주를 볼 수 있습니다. 정렬할 수 있습니다. 별 4개 이상 등급을 표시할 수 있습니다. 이들 중 일부는 현재 수만에서 수만 개의 평가를 받았습니다.

Amazon 고객으로서 지금 할 수 있는 일 중 하나는 blueprints.amazon.com으로 이동하여 이러한 것들을 시각적으로 생성할 수 있다는 것입니다. 그래서 부모로부터 아이들이 자신만의 이야기를 만들어 낸다는 이야기를 듣습니다.

중소기업 동향: 그렇습니다.

Dave Isbitski: 아마도 당신은 집에 있는 다른 사람을 돌보고 있을 것입니다. 당신은 그들에게 일을 상기시키길 원합니다. 당신은 그들이 질문할 수 있는 능력을 만들고 싶어합니다. 어떤 약을 복용합니까? 몇시에 받나요? 할 수 있는 모든 작업을 수행한 다음 Amazon 계정에 할당할 수 있습니다.

저는 부모님을 위해 그렇게 했고, 그곳에서 제가 물건을 마련했습니다. 그래서 우리는 여러분이 코드 작성 능력이 있든 없든 간에 대화를 나누고 원하는 콘텐츠를 만들 수 있도록 Alexa를 가르치기 시작할 수 있도록 최대한 원활하게 프로세스를 만들려고 노력했습니다.

소규모 비즈니스 동향: 이전에는 실제로 하지 않았던 일을 하기 위해 스피커를 활용하는 많은 행동 변화와 사람들을 보고 있습니까?

Dave Isbitski: 음, 제가 듣고 온라인에서 이것을 보게 될 것 중 하나는 Facebook 피드와 Twitter에서 볼 수도 있습니다. 이 모든 과정에서 연결하는 것이 매우 중요하다는 것입니다. 우리는 실제로… 일주일에 한 번 비디오를 통해 부모님과 소통하려고 노력합니다. 단지 보기 위해서입니다. 그리고 우리가 일관되게 듣는 것 중 하나는... 여기 가시면. 그러면 Alexa 및 장치에 대한 블로그 게시물과 현재 진행 중인 작업이 표시됩니다. 우리가 이것에 대해 이야기하는 것을 듣게 될 것입니다.

우리가 마지막으로 이야기했을 때는 이것이 가능하지 않았다고 생각합니다. 하지만 인기 있는 기능은 바로 들르는 기능입니다. 그래서 당신은 당신의 삶에서 사람들을 설정하고 그들은 단지 "Alexa, 조부모님에게 들르세요"라고 말합니다. 또는 “Alexa가 엄마에게 들러”. 또는 "Alexa가 아이들을 돌봐줍니다." 그리고 그것이 얼마나 매끄럽게되는지는 놀랍습니다. 그리고 특히 이번 대유행 동안에는 앱 업데이트 없이 전화 없이 그냥 그렇게 소통할 수 있는 기능이 있죠? 이것은 경험입니다. 그냥 거기에 있어요. 그리고 음성은 끊김이 없습니다. 포함되어 있습니다. 누구나 할 수 있습니다. 음성은 우리 아이들만큼 부모님도 신나는 첫 번째 기술이죠? 그리고 우리 아빠는 여전히 컴퓨터를 사용하지 않으시지만,

중소기업 동향: 정말?

Dave Isbitski: 예, 미친 짓이라는 걸 압니다. 맞죠? 저와 제 동생은 모두 기술자이고 엄마는 동생을 위해 이메일을 인쇄해 주십니다. 그는 결코 기록하지 않습니다 ... 예. 하지만 저는 우리가 병원에서 이러한 장치를 기증한 곳에서 이야기하고 있었고 사람들은 언제든지 대화하고 연결할 수 있는 능력을 가지고 있습니다. 그렇죠? 당신도 그것을 만지지 않기 때문에, 이것은 중요한 것입니다. 우리는 간호사가 모든 것을 완전히 핸즈프리로 체크인하고 대화할 수 있는 병원에 제공했습니다.

방금 존스 홉킨스에 ​​있는 사람들과 이야기하고 있었습니다. 그리고 그의 이름은 언급하지 않겠습니다. 그는 뉴욕에 있는 외과의사입니다. 그리고 그것은 매우 마음이 따뜻해졌습니다. 그는 그저 “고맙습니다. 2년 전, 어머니는 치매와 알츠하이머를 앓고 계셨고 우리는 항상 Alexa를 사용했습니다. 그녀는 도움을 요청할 수 있는 능력이 있었습니다. 그녀는 언제든지 우리에게 전화할 수 있는 능력이 있었습니다. 그리고 그것이 우리가 그녀와 소통할 수 있었던 방법입니다.”

그래서 몇 가지를 추가했습니다. 주제 중 하나는 Alexa를 더욱 개인화하는 방법에 대한 고객의 피드백입니다. 예를 들어, 아무 때나 Alexa에게 기억하라고 말할 수 있습니다. 내가 가장 먼저 한 일은 Wi-Fi 비밀번호를 기억하는 것이었습니다. 맞죠? 그래서 손님이 있으면 "와이파이 비밀번호가 뭐죠?"라고 말할 수 있습니다. 권리. 그리고 그녀는 당신에게 말할 수 있습니다. 또는 우리 부모님이 날짜와 생일 등을 기억하는 것과 같은 것일 수 있습니다.

우리는 모두 다른 성격을 가지고 있습니다. Myers-Briggs를 보면 NBTI와 5가지 핵심 성격 유형을 보면 제가 INFJ에 있는 것처럼요. 그런 유형에 대해 잘 알고 있는지 모르겠습니다. 많은 경우 내 머리에서 벗어날 수 없지만 머리 속에서 여러 아이디어를 저글링할 수 있습니다. 나는 인지 부조화 속에서 살 수 있다. 다른 사람들은 그렇지 않습니다. 모바일과 웹은 모두에게 적합합니다. 여기 우리 디자인이 있습니다. 그리고 당신이 힘든 것을 좋아하지 않는다면, 우리는 우리의 두뇌를 훈련시킵니다. 그렇죠? 우리는 이러한 신경 경로와 인터페이스를 사용하는 방법을 구축합니다. 그런 다음 해당 인터페이스를 변경하면 사람들이 놀랄 것입니다. 이러한 소셜 미디어 사이트 중 하나가 매일 피드가 표시되는 방식을 변경하는 경우.


중소기업 동향: 맞습니다.

Dave Isbitski: 음성의 장점은 원하는 대로 사용할 수 있다는 것입니다. 당신이 듣고 싶은 사람의 유형을 결정할 수 있습니다. 사실, Polly Brand라는 서비스가 있고 그것은 목소리를 만들어냅니다. KFC, 우리는 그들과 함께 일했고 대령의 목소리를 들을 수 있습니다. 오늘 제가 가장 좋아하는 것은 Alexa 장치로 "Sam에게 물어보세요"라고 말할 수 있습니다. 그래서 Samuel L. Jackson이 날씨와 농담을 알려줄 것입니다. 그리고 그 모든 것이 Neural TTS(텍스트 음성 변환)라는 기술을 사용하고 있습니다. 맞습니까?

소리를 재생하기 위해 신경망을 사용하는 돌파구가 있었습니다. 그래서 이제 Neural TTS를 통해 컴퓨터를 사용하면 컴퓨터로 생성된 것을 볼 수 있지만 사람의 귀에는 사람처럼 들리고 억양을 변경할 수 있습니다. 당신은 그것을 흥분시킬 수 있습니다. Alexa를 사용하여 이러한 경험을 만들 때 음성이 어떻게 들리는지 선택합니다. 당신은 그녀의 소리를 흥분하게 만들 수 있습니다. 우리는 아기가 있는 것처럼 들리고 자장가를 연주하거나 밤에 불을 끄는 고객을 위해 기능을 추가했습니다. 맞죠? Alexa를 스마트 홈과 함께 사용하는 많은 사람들이 "조명을 끄세요"라고 생각할 것입니다. 그리고 그녀는 매우 시끄럽고 아기를 깨우죠, 그렇죠? 아기를 절대 깨우지 않는 것처럼.

따라서 Alexa에게 속삭이면 그녀는 이렇게 말할 것입니다. “오, 속삭이는 것 같군요. 다시 속삭이는 소리를 들을까요?” "예, 속삭임 모드입니다."라고 말합니다. 그래서 당신은 "불을 꺼라"라고 말할 것입니다. 그러면 그녀는 "알겠습니다. 불을 끄겠습니다."라고 말할 것입니다. 권리? 그러나 그것은 매우 인간적입니다. 당신이 말할 수 있는 또 다른 영역은 "너도 알잖아, 빨리 말하고, 천천히 말하고, 천천히 해."입니다. 그래서 그녀는 더 느리게 말하거나 더 빨리 말할 것입니다.

우리는 음색을 감지하는 능력이 있습니다, 그렇죠? 그래서 그것은 매우 다릅니다. 내가 "알렉사, 닥쳐"라고 말하면 "알렉사, 고마워. 중지." 그리고 우리는 모든 종류의 것들을 가지고 있습니다. 우리가 항상 그런 능력을 가지고 있었던 것처럼… 우리가 지난 쇼에서 이것에 대해 이야기한 것 같아요. 출시 첫날부터 Alexa에게 말한 모든 것을 삭제할 수 있는 기능이 있었습니다. 당신은 들어가서 사물을 볼 수 있는 능력이 있었습니다. 그리고 기술을 다루고 싶지 않다면 아마존에 전화를 걸어 처리하면 됩니다. 그러나 사람들은 듣고 싶어했고 즉시 능력을 갖기를 원했습니다. 그래서 우리는 그것을 열었고 "Alexa, 방금 들은 것을 삭제해"와 같이 말할 수 있습니다. "Alexa, 방금 무엇을 들었습니까?"라고 말할 수 있습니다. 그리고 나서 그녀는 그것을 다시 반복할 것입니다. "Alexa, 오늘 들은 모든 것을 삭제해"라고 말할 수 있습니다.

그리고 흥미롭습니다. "Alexa, 왜 그랬어?"와 같은 말을 할 수도 있습니다. 그리고 그녀는 "글쎄, 이것이 내가 들은 것이고 이것이 내가 그렇게 한 이유입니다."라고 말할 것입니다. 사람들이 이해하는 데 도움이 되기 때문에 매우 힘이 됩니다. 왜냐하면 인간이더라도 한 가지만 말하겠습니다. 하지만 반드시 같은 방식으로 듣고 처리한 것은 아닙니다. 그렇죠? 그래서 사람들에게 그런 능력을 부여하면 그들은 "오, 그녀는 이 말을 계속 듣고 있어요. 아니면 내가 이렇게 말하는 것일지도." 열린 환경에서 매우 강력합니다.

다른 것들 중 일부는 이중 언어입니다. 따라서 미국에서 영어와 스페인어 사이를 즉석에서 전환할 수 있고 무대 뒤에서 우리는 그것을 취하여 사전에 넣습니다. 그리고 두 언어 모델이 모두 작동하고 다음과 같은 언어로 전환할 수 있습니다. 캐나다에서는 캐나다 프랑스어, 인도에서는 힌디어 및 영어입니다. 그것이 우리가 인간으로서 말하는 방식이기 때문입니다. 이중 언어 사용 가정에서 자랐다면 단어와 언어 사이를 왔다갔다 하는 것만으로도 그녀는 할 수 있을 것입니다.

요청하는 것보다 더 빠른 것은 없기 때문입니다. 그리고 그것이 바로 우리가 현재와 같이 진화하고 있는 곳이며 우리가 있는 곳이며 미래 지향적인 것에 대해 이야기할 수 있는 곳입니다.

소규모 비즈니스 동향: 일반적으로 휴대전화에서 발생했던 일부 상호작용이 음성 장치에서 발생하기 시작하고 있습니까?

Dave Isbitski: 글쎄요, 저는 이렇게 봅니다. 우리 그룹의 사명은 항상 당신이 원하는 곳이면 어디든 알렉사가 되는 것이었습니다. 그리고 바로 지금 그것이 집에 있습니다. 하지만 운전을 하러 간다면 "Alexa, 내 책을 읽어줘"라고 말할 수 있어야 합니다. 그리고 그것은 아마도 당신이 서재에서 듣고 있던 오디오 북이었을 것입니다. 맞습니까? 그냥, 매끄럽습니다. 이전에 이 말을 인용한 적이 있으며 여전히 가장 좋은 비유는 음성이 새로운 HTML이라는 것입니다.

웹이 처음 나왔을 때와 인터넷이 처음 나왔을 때를 생각해 보십시오. 회사에 어떻게 연락했습니까? 권리? 당신은 편지를 쓰고 그들의 로비로 걸어가거나 전화를 걸었습니다. 그리고 갑자기 HTML을 통해, 그렇죠? 그리고 저는 음성이 새로운 웹이라고 말하고 싶지 않았습니다. 웹은 소셜 및 모든 것을 포함하고 있기 때문입니다. 인터페이스이기 때문입니다. 그래서 HTML은 갑자기 세계 어느 곳에서나 배울 수 있는 세계의 모든 브랜드와 연결하는 인터페이스가 되었습니다. 그렇죠? 무엇이든 물어볼 수 있습니다. HTML이 웹을 하나로 묶는 방식이었습니다. 그리고 그것이 당신이 목소리를 봐야 하는 방식입니다. 모든 것을 위한 HTML입니다.

이것은 사상가들과의 일대일 인터뷰 시리즈의 일부입니다. 번역본은 출판을 위해 편집되었습니다. 오디오 또는 비디오 인터뷰인 경우 위의 내장 플레이어를 클릭하거나 iTunes 또는 Stitcher를 통해 구독하십시오.