Preston So of Oracle: Sementara segalanya lebih baik untuk mengembangkan antarmuka suara, masih ada cara bagi mereka yang menggunakannya
Diterbitkan: 2021-08-21Saya telah melacak adopsi teknologi suara-pertama sejak saya mendapatkan perangkat Echo pertama saya sekitar Thanksgiving tahun 2014 dan memulai 20% kalimat saya dengan "Alexa...". Dan sering kali saya ingin tamu bergabung dengan saya untuk seri ini untuk melihat di mana keadaan saat ini dengan perangkat ini, dan bagaimana mereka digunakan. Tapi saya belum pernah benar-benar fokus merancang konten suara sebelumnya, itulah sebabnya saya sangat bersemangat untuk berbicara dengan Preston So. Preston adalah Direktur Senior, Strategi Produk di Oracle, tetapi yang lebih penting untuk percakapan ini, dia juga penulis buku, “ Konten Suara dan Kegunaan ”.
Di bawah ini adalah transkrip yang diedit dari percakapan LinkedIn Live kami baru-baru ini . Klik pemutar SoundCloud yang disematkan untuk mendengar percakapan penuh.
Brent Leary : Bagaimana pandemi memengaruhi peran suara dari pengembangan konten dalam konteks transformasi digital?
Preston Jadi : Ini adalah pertanyaan yang sangat menarik. Saya akan menjawab ini dari dua sudut yang berbeda. Yang pertama adalah ketika kami mulai mengerjakan dan saya baru menyadari bahwa saya belum benar-benar menyebutkan studi kasus ini, bahkan di acara ini adalah bahwa 5 atau 6 tahun yang lalu saya memiliki kesempatan untuk bekerja dalam tim yang membangun AskGeorgia.gov, yang merupakan antarmuka suara pertama untuk penduduk negara bagian Georgia. Juga, itu benar-benar salah satu antarmuka suara yang didorong konten atau informasional pertama yang ada.
Dua alasan mengapa kami ingin membangun ini dan menguji coba proyek ini adalah untuk melayani demografi tersebut, yang saya sebutkan sebelumnya seringkali diabaikan oleh atau seringkali tidak dilayani dengan baik oleh situs web yang kami bangun. Dan ini terutama pers, seperti yang kita ketahui keprihatinan yang sangat mendesak di sektor publik, keprihatinan yang sangat, sangat mendesak di dalam pemerintah daerah dan dua audiens yang ingin kami layani kata nomor satu, orang tua Georgia, yang mungkin tidak dapat selalu menggunakan sebuah situs web dengan mudah. Mungkin belum tentu dapat menggunakan komputer dengan cepat dan mungkin juga belum tentu memiliki mobilitas untuk dapat melakukan perjalanan ke kantor pemerintah daerah atau kantor agen. Pada saat yang sama, kami juga ingin fokus pada penyandang disabilitas Georgia. Mereka yang mungkin tidak dapat menggunakan situs web secepat mereka yang menggunakan situs web melalui pendekatan visualnya. Dan juga mereka yang memang tidak memiliki kemampuan juga karena masalah mobilitas itu, permisi, untuk benar-benar pergi ke kantor agen dan mendapatkan jawaban atas pertanyaan mereka di sana. Pada saat yang sama kami juga berurusan dengan hari-hari itu, tentu saja, dan masih berlanjut hingga hari ini, kekurangan anggaran, sifat kas negara bagian dan pemerintah daerah saat ini di mana anggaran dipangkas ke kiri dan ke kanan dan seringkali hotline itu menunggu. kali tumbuh dan tumbuh dan berkembang di telepon.
Alasan saya mengangkat studi kasus ini adalah saya pikir pandemi virus corona telah benar-benar memperbesar bagaimana khalayak tertentu menghadapi tidak hanya sistem penindasan yang sangat, sangat bermasalah di masyarakat ini, tetapi juga hambatan yang sangat dalam untuk mengakses informasi dan konten serta transaksi. yang mereka butuhkan. Dan jika Anda memikirkan, tentu saja, siapa yang paling terkena dampak dari dampak pandemi dan dampak pandemi itu adalah para penyandang disabilitas atau mereka yang berusia lanjut. Dan terutama jika Anda bahkan tidak dapat meninggalkan rumah Anda, bagaimana Anda benar-benar mendapatkan informasi yang Anda butuhkan? Jadi saya pikir kami dalam beberapa hal, menyelamatkan banyak pekerjaan yang terjadi sekarang dengan transformasi digital hari ini, di mana banyak organisasi sekarang menyadarinya, dan ini tentu saja memodulasi melalui banyak pekerjaan yang sekarang kami miliki terlihat pada pekerjaan jarak jauh pada tenaga kerja terdistribusi semua itu, tetapi juga sekarang cara terbaik untuk melayani pelanggan dalam sudut B ke C, bagaimana kami benar-benar memastikan bahwa mereka yang adalah pelanggan kami, mereka yang adalah pengguna, mereka yang merupakan demografi kami yang sebenarnya dapat berinteraksi dengan konten kami dengan cara yang tidak mengharuskan mereka melakukan hal-hal yang membahayakan mereka.
Dan saya pikir ada beberapa hal yang telah dipercepat dalam hal ini. Yang pertama adalah sepanjang akses suara seperti yang kita lihat, saya pikir itu tahun lalu, sistem rumah pintar, penjualan speaker pintar telah mencapai puncaknya. Maksud saya, sekarang, 35% orang Amerika sekarang memiliki speaker pintar di rumah, tetapi dengan cara yang sama, kami juga mengalami pertumbuhan yang luar biasa dalam headset game dan teknologi game. Jadi headset realitas virtual, perangkat yang dapat dikenakan, dan ini benar-benar menandakan, saya pikir pergeseran konten dari media tertulis dari media visual, bahwa kita benar-benar terbiasa selama beberapa dekade terakhir menjadi jenis konteks yang jauh lebih beragam di mana sekarang kami berpotensi berinteraksi dengan konten kami melalui Oculus Rifts atau melalui ponsel cerdas kami, melalui TV Samsung kami, melalui iPhone dan iPad kami, tetapi juga tentu saja melalui Amazon Alexa dan ini benar-benar semacam, bagi saya, saya pikir hal terbesar yang terjadi dengan pandemi coronavirus adalah bahwa itu benar-benar mempercepat kedatangan waktu itu, di mana organisasi sekarang harus memahami bahwa itu bukan hanya web lagi.
Ini bukan hanya seluler, ini 15 hal yang berbeda. Ini, semua pertimbangan yang berbeda ini dan jika Anda baru saja mulai berpikir tentang web dan seluler, Anda sudah ketinggalan.
Kemajuan hingga saat ini dalam pengembangan konten suara
Brent Leary : Apakah kami adalah kami, di mana Anda mengharapkan kami dengan suara menjadi bagian dari saluran interaksi antara konsumen dan vendor?
Preston Jadi : Ya dan tidak. Saya pikir ada dari sudut pandang pembuatnya, saya kira begitu. Dan yang saya maksud adalah, seperti yang saya sebutkan sebelumnya, kami memiliki alat yang sangat hebat yang ada di luar sana, Botsociety startup baru ini yang mengembangkan alat yang sangat ramah desainer yang memungkinkan Anda melakukan seperti Dreamweaver lama atau Pendekatan halaman depan Microsoft untuk membangun situs web. Anda membawanya ke antarmuka suara dan tiba-tiba Anda tidak perlu menulis, katakanlah kode perangkat keras tingkat sangat rendah atau menulis, katakanlah pemrosesan bahasa alami atau pemahaman bahasa alami ke dalam bot. Pada saat yang sama meskipun saya pikir ada jalan yang panjang dan saya pikir kita tidak benar-benar berada di tempat yang saya pikir kita akan berada pada titik ini, tetapi saya pikir banyak juga karena AI itu sendiri tidak sejauh itu. bersama sebagai banyak orang tentu berpikir.
Salah satu alasannya adalah kami mengalami saat ini di mana banyak antarmuka suara yang kami buat pada dasarnya masih digital otomatis yang tidak benar-benar memiliki sarana komunikasi yang sebenarnya dengan cara yang benar-benar dapat kami lakukan. dengarkan diri kita sendiri. Salah satu contohnya adalah Anda melihat beberapa Komunitas Bilingual di Texas Selatan atau di kota New York dan Anda mendengar orang secara harfiah beralih antara bahasa Spanyol dan Inggris di tengah kalimat atau orang yang ya, tepatnya orang yang berada di Mumbai atau Delhi baru yang beralih antara bahasa Hindi dan Inggris di tengah kalimat atau peralihan antara Marathi dan Inggris di tengah kalimat.
Dan ini adalah populasi yang tidak mendengar diri mereka sendiri dalam antarmuka suara ini, apalagi semua komunitas kulit berwarna yang juga tidak merasa bahwa mereka dapat mendengar jenis dialek mereka sendiri dan jenis bahasa sehari-hari mereka sendiri dan jenis perilaku mereka sendiri. berbicara dalam antarmuka suara ini. Ada beberapa langkah menarik ke arah yang benar yang sebagian mengarah ke sana, tetapi tidak juga. Maksud saya, yang pertama tentu saja saya pikir saya sangat terkejut dan senang dengan cara apa yang memungkinkan Anda untuk mengonfigurasi suara-suara yang membacakan pernyataan seperti polisi yang dilaporkan di depan atau kendaraan di bahu, atau tetap kiri.
Tentu saja ada juga layanan baru yang muncul seperti Amazon Polly, Amazon Polly sangat menarik karena akan mengambil beberapa input teks tertulis seperti paragraf atau halaman atau apa pun dan itu akan membacanya dalam aksen Inggris atau aksen Afrika Selatan atau aksen Amerika, suara wanita dan segala macam jenis pengukur yang dapat Anda putar dan mainkan. Tapi tetap saja pada dasarnya, itu adalah teks tertulis yang belum tentu dioptimalkan untuk pidato.
Tidak ada cara algoritmik untuk mengubah teks tertulis menjadi sesuatu yang ditulis dalam gaya yang lebih diucapkan, tetapi ada juga kekhawatiran besar yang saya miliki, yaitu ketika berbicara tentang antarmuka suara yang benar-benar hebat dan mencapai titik keunggulan itu. kami berharap dalam beberapa hal saya pikir itu hampir mustahil. Saya pikir itu hampir pernyataan paradoks untuk mengatakan bahwa antarmuka suara akan berada pada tingkat perilaku yang optimal untuk semua orang. Karena cara antarmuka suara terdengar bagi saya akan sangat berbeda dengan cara antarmuka suara terdengar untuk orang lain. Saya pikir itu benar-benar berdasarkan gender oleh fakta bahwa jika Anda melihat Alexa atau Siri atau Cortana atau Google Home, secara umum suara default, identitas default yang keluar dari antarmuka suara ini adalah seseorang yang terdengar sangat mirip dengan cisgender. wanita yang berbicara dengan dialek umum Amerika atau Amerika tengah.
Dan tidak perlu ada banyak ruang bagi orang-orang yang berbicara bahasa Inggris sebagai bahasa kedua atau orang-orang yang beralih kode. Seperti yang saya sebutkan sebelumnya, siapa yang beralih antara bahasa Inggris dan Spanyol, tepat di tengah kalimat atau komunitas trans dan non-biner yang beralih antara mode bicara lurus dan semacam dalam hal bagaimana mereka benar-benar berinteraksi satu sama lain sampai kita mendengarnya semacam matikan sampai kita mendengar realitas semacam itu yang telah kita refleksikan dalam antarmuka suara itu. Saya tidak berpikir kita telah benar-benar mencapai tujuan yang tinggi itu.
Yang membuat saya khawatir hari ini adalah bahwa kita menghadapi situasi yang belum pernah terjadi sebelumnya dengan pandemi di mana banyak agen layanan pelanggan ini, banyak dari pekerja layanan pelanggan garis depan kehilangan pekerjaan mereka demi pendekatan antarmuka suara mekanis yang lebih otomatis. Tetapi sebagian besar dari orang-orang ini yang kehilangan pekerjaan mereka yang diberhentikan yaitu, yang digantikan oleh antarmuka suara di perusahaan-perusahaan ini mereka umumnya orang-orang yang tinggal di selatan global, umumnya orang-orang yang berasal dari Filipina atau Indonesia atau India yang berbicara bahasa Inggris dengan cara yang juga harus tercermin dalam antarmuka suara yang kita miliki saat ini jika kita menginginkannya.
Seseorang yang merupakan orang Amerika Filipina harus dapat mendengar antarmuka suara yang terdengar seperti orang Amerika Filipina juga pada antarmuka suara. Jadi sementara saya berpikir bahwa dalam beberapa hal, segalanya menjadi sangat bagus untuk desainer antarmuka suara, saya pikir untuk pengguna antarmuka suara, kita masih harus menempuh jalan panjang, dan itu akan memakan waktu beberapa dekade, saya pikir sebelum kita bahkan bisa sampai ke titik itu.
Masa depan desain konten suara
Brent Leary : Seperti apa beberapa tahun ke depan untuk desain konten suara?
Preston Jadi : Saya yakin akan ada perbaikan dalam beberapa hal. Pasti akan ada peningkatan dalam hal apa yang saya sebut demokratisasi desain antarmuka suara. Jika Anda adalah seseorang yang tidak tahu cara membuat situs web, jika Anda adalah seseorang yang tidak menulis kode, jika Anda adalah seseorang yang tidak benar-benar melakukan apa pun yang berhubungan dengan ilmu komputer, Anda dapat melakukannya hari ini membuat antarmuka suara, yang benar-benar pertama kalinya kami melakukannya sebelumnya.
