Oracle의 Preston So: 음성 인터페이스를 개발하는 것이 더 낫지만 이를 사용하는 사람들에게는 아직 갈 길이 있습니다.
게시 됨: 2021-08-212014년 추수감사절 경에 첫 Echo 장치를 구입하고 "Alexa…"로 문장의 20%를 시작한 이후로 음성 우선 기술의 채택을 추적해 왔습니다. 그리고 종종 저는 게스트가 이 시리즈에 참여하여 오늘날 이 장치의 위치와 사용 방법을 확인하기를 원합니다. 하지만 이전에는 음성 콘텐츠를 디자인하는 데 집중하지 않았기 때문에 Preston So와 이야기하게 되어 정말 기뻤습니다. Preston은 Oracle의 제품 전략 수석 이사이지만 이 대화에서 그는 " 음성 콘텐츠 및 사용성 " 이라는 책의 저자이기도 합니다 .
아래는 최근 LinkedIn 라이브 대화 의 편집된 스크립트입니다 . 내장된 SoundCloud 플레이어를 클릭하면 전체 대화를 들을 수 있습니다.
Brent Leary : 대유행이 디지털 혁신의 맥락에서 콘텐츠 개발의 목소리 역할에 어떤 영향을 미쳤습니까?
Preston So : 이것은 정말 흥미로운 질문입니다. 두 가지 다른 각도에서 답하겠습니다. 첫 번째는 우리가 작업을 시작했을 때 이 사례 연구에 대해 아직 실제로 언급하지 않았다는 것을 깨달았습니다. 심지어 이것에 대해서도 쇼에서 5~6년 전에 다음을 구축한 팀에서 일할 기회가 있었습니다. AskGeorgia.gov는 조지아주 거주자를 위한 최초의 음성 인터페이스였습니다. 또한 실제로 존재하는 최초의 콘텐츠 기반 또는 정보 음성 인터페이스 중 하나였습니다.
우리가 이것을 구축하고 이 프로젝트를 시범 운영하기를 원했던 두 가지 이유는 앞서 언급한 인구 통계를 제공하기 위한 것이었습니다. 우리가 구축한 웹 사이트에서는 종종 무시되거나 잘 제공되지 않습니다. 그리고 이것은 특히 언론입니다. 우리가 공공 부문에서 매우 시급한 우려를 알고 있기 때문에 지방 정부와 두 청중 내에서 우리가 첫 번째 단어인 그루지야 노인에게 서비스를 제공하고자 하는 매우 긴급한 우려를 알고 있습니다. 웹사이트를 쉽게. 컴퓨터를 빨리 사용하지 못할 수도 있고 카운티 관공서나 기관 사무소로 이동할 수 있는 이동성이 반드시 필요하지 않을 수도 있습니다. 동시에 우리는 장애인 조지아인들에게도 초점을 맞추고 싶었습니다. 시각적 접근 방식을 통해 웹 사이트를 사용하는 사람들만큼 빨리 웹 사이트에서 사용할 수 없는 사람들. 또한 이러한 이동 문제로 인해 실제로 능력이 없는 사람들은 실례지만 실제로 대행사 사무실에 방문하여 질문에 대한 답변을 얻을 수 있습니다. 동시에 우리는 그 당시에도 물론 처리했고 오늘날에도 여전히 계속되고 있습니다. 예산 부족, 예산이 좌우로 삭감되고 종종 핫라인이 대기하는 오늘날 주 및 지방 정부의 현금 결박 특성 시간은 전화에서 성장하고 성장했습니다.
내가 이 사례 연구를 제기한 이유는 코로나바이러스 전염병이 특정 청중이 사회에서 이러한 종류의 매우 문제가 많은 억압 시스템뿐만 아니라 정보, 콘텐츠 및 거래에 액세스하는 데 있어 정말 깊은 장벽에 직면하는 방식을 실제로 확대했다고 생각하기 때문입니다. 그들이 필요합니다. 그리고 물론 팬데믹의 영향과 팬데믹의 영향으로 가장 큰 영향을 받은 사람을 생각한다면 장애인이나 노인입니다. 특히 집을 떠날 수도 없는 경우 필요한 정보를 실제로 어떻게 얻습니까? 그래서 제 생각에는 많은 조직이 현재 깨닫고 있는 디지털 혁신과 함께 바로 지금 일어나고 있는 많은 작업을 어떤 면에서 미리 저장했다고 생각합니다. 분산된 인력에 대한 원격 작업에서 볼 수 있는 모든 것뿐 아니라 이제 B에서 C로의 각도에서 고객에게 가장 좋은 서비스를 제공하는 방법, 우리의 고객, 사용자, 실제 인구 통계가 실제로 있는지 확인하는 방법 잠재적으로 자신을 위험에 빠뜨리는 일을 하도록 요구하지 않는 방식으로 콘텐츠와 상호 작용할 수 있습니다.
그리고 이와 관련하여 가속화된 몇 가지 사항이 있다고 생각합니다. 첫 번째는 우리가 본 것처럼 음성 액세스를 따라가는데, 작년에 스마트 홈 시스템, 스마트 스피커 판매가 지붕을 통과했다고 생각합니다. 제 말은, 이제 미국인의 35%가 집에 스마트 스피커를 가지고 있습니다. 그러나 같은 이유로 게임 헤드셋과 게임 기술에서도 엄청난 성장을 이뤘습니다. 그래서 가상 현실 헤드셋, 웨어러블 장치 및 이것들은 실제로 지난 몇 십 년 동안 우리가 실제로 익숙해진 훨씬 더 다면적인 종류의 맥락으로 콘텐츠가 시각적 매체에서 서면 매체에서 멀어지는 것을 의미한다고 생각합니다. 이제 우리는 잠재적으로 Oculus Rifts나 스마트폰, Samsung TV, iPhone 및 iPad를 통해 콘텐츠와 상호 작용할 수 있을 뿐만 아니라 Amazon Alexa와 이런 종류의 정말 제 생각에 코로나바이러스 대유행으로 일어난 가장 큰 일은 조직이 이제 더 이상 웹만이 아니라는 사실을 이해해야 하는 시대의 도래가 정말로 가속화되었다는 것입니다.
모바일뿐만 아니라 15가지가 있습니다. 이 모든 다른 고려 사항과 웹과 모바일에 대해 생각하기 시작했다면 이미 뒤쳐져 있습니다.
현재까지의 음성 콘텐츠 개발 진행 상황
Brent Leary : 음성이 소비자와 공급업체 간의 상호작용 채널의 일부가 되기를 기대했던 우리가 우리였습니까?
프레스턴 소 : 예, 아니오. 메이커 입장에서는 그런 것 같아요. 제가 의미하는 바는 앞서 언급했듯이 우리는 정말 훌륭한 도구를 가지고 있다는 것입니다. Botsociety는 디자이너에게 친숙한 도구를 개발하는 이 새로운 스타트업에서 이전 Dreamweaver 또는 웹 사이트 구축에 대한 Microsoft 첫 페이지 접근 방식. 음성 인터페이스로 넘어가면 갑자기 매우 낮은 수준의 하드웨어 코드를 작성하거나 봇에 자연어 처리 또는 자연어 이해를 작성하는 등의 작성이 필요하지 않습니다. 그와 동시에 아직 갈 길이 멀다고 생각하고 내가 생각했던 이 시점에 도달하지 못했다고 생각하지만 그 중 많은 부분이 AI 자체가 그리 멀지 않기 때문이기도 합니다. 많은 사람들이 필연적으로 생각하는 것처럼.
그 이유 중 하나는 우리가 구축한 많은 음성 인터페이스가 근본적으로 여전히 명백하게 디지털 자동화되어 실제로 할 수 있는 방식으로 통신할 수 있는 실제 수단이 없는 지금 이 시간을 경험하고 있기 때문입니다. 한 가지 예는 텍사스 남부나 뉴욕시에 있는 이중 언어 커뮤니티를 보면 사람들이 문장 중간에 스페인어와 영어를 문자 그대로 전환하는 것을 듣습니다. 뭄바이 또는 뉴델리에 거주하며 문장 중간에 힌디어와 영어 간에 전환하거나 문장 중간에 마라티어와 영어 간에 전환합니다.
그리고 이들은 이러한 음성 인터페이스 내에서 자신의 소리를 듣지 못하는 인구입니다. 또한 자신의 방언과 구어체 및 매너를 들을 수 있다고 느끼지 않는 모든 유색인종 커뮤니티는 고사하고 있습니다. 이러한 음성 인터페이스 내에서 말하기. 올바른 방향으로 가는 몇 가지 흥미로운 단계가 있어 부분적으로 진행되지만 실제로는 그렇지 않습니다. 내 말은, 물론 첫 번째는 앞서 보고된 경찰이나 어깨에 짊어진 차량, 또는 왼쪽.
물론 Amazon Polly와 같은 새로운 서비스가 등장하고 있습니다. Amazon Polly는 단락이나 페이지 등의 텍스트를 입력받아 영국식 억양이나 남아프리카 공화국의 억양으로 읽어주기 때문에 정말 흥미롭습니다. 미국식 억양, 여성의 목소리, 비틀고 놀 수 있는 온갖 종류의 게이지. 그러나 여전히 근본적으로, 그것은 반드시 음성에 최적화되어 있지 않은 서면 텍스트입니다.
작성된 텍스트를 보다 구어적인 스타일로 작성된 것으로 바꾸는 알고리즘적 방법은 없지만 음성 인터페이스와 관련하여 실제로는 훌륭하고 탁월한 수준에 도달하는 것입니다. 우리는 그것이 거의 불가능하다고 생각합니다. 음성 인터페이스가 모든 사람에게 이 수준의 최적 동작이 될 것이라고 말하는 것은 거의 역설적인 말이라고 생각합니다. 나에게 음성 인터페이스가 들리는 방식은 다른 사람에게 음성 인터페이스가 들리는 방식과 매우 다를 것이기 때문입니다. Alexa, Siri, Cortana 또는 Google Home을 보면 일반적으로 기본 음성으로 말하면 이 음성 인터페이스에서 나오는 기본 신원은 시스젠더 백인과 매우 흡사하다는 사실에 의해 성별이 결정된다고 생각합니다. 일반적인 미국 또는 중미 방언으로 말하는 여성.
그리고 제 2외국어로 영어를 사용하는 사람들이나 코드 스위처인 사람들을 위한 공간이 반드시 많지는 않습니다. 내가 전에 언급했듯이, 문장의 중간에 영어와 스페인어 사이를 전환한 사람 또는 트랜스 및 논바이너리 커뮤니티는 우리가 들을 때까지 실제로 서로 어떻게 상호 작용하는지에 관해 이성애자와 일종의 언어 방식 사이를 전환했습니다. 이러한 음성 인터페이스에 반영된 그런 종류의 현실을 들을 때까지 일종의 토글입니다. 나는 우리가 실제로 그 높은 목표에 도달했다고 생각하지 않습니다.
오늘날 제가 걱정되는 것은 이러한 많은 고객 서비스 상담원, 많은 최전선 고객 서비스 직원이 보다 자동화된 기계적 음성 인터페이스 접근 방식에 찬성하여 일자리를 잃는 전염병으로 전례 없는 상황에 직면하고 있다는 것입니다. 하지만 이들 기업에서 음성 인터페이스로 대체되고 있는 해고된 일자리를 잃는 대부분의 사람들은 일반적으로 남반구에 사는 사람들, 일반적으로 필리핀이나 인도네시아 사람들입니다. 또는 우리가 원할 경우 오늘날 우리가 가지고 있는 음성 인터페이스에도 반영되어야 하는 방식으로 영어를 사용하는 인도.
필리핀계 미국인은 음성 인터페이스에서도 필리핀계 미국인처럼 들리는 음성 인터페이스를 들을 수 있어야 합니다. 그래서 제 생각에는 어떤 면에서 음성 인터페이스 디자이너에게는 상황이 정말 좋아졌지만 음성 인터페이스 사용자에게는 아직 갈 길이 멀고 수십 년이 걸릴 것이라고 생각합니다. 심지어 그 지점에 도달할 수 있습니다.
음성 콘텐츠 디자인의 가까운 미래
Brent Leary : 음성 콘텐츠 디자인의 향후 몇 년은 어떻게 될까요?
Preston So : 확실히 어떤 면에서는 개선이 있을 거라고 생각합니다. 내가 음성 인터페이스 디자인의 민주화라고 부르는 것과 관련하여 분명히 개선이 있을 것입니다. 웹사이트를 만드는 방법을 모르는 사람, 코드를 작성하지 않는 사람, 실제로 컴퓨터 과학과 관련된 일을 하지 않는 사람이라면 오늘 할 수 있습니다. 음성 인터페이스를 만들었습니다. 이것은 우리가 전에 해 본 것은 정말 처음입니다.
