Legalitas Mengekstrak Konten Buatan Pengguna yang Tersedia untuk Umum – PromptCloud

Diterbitkan: 2017-08-22

Sebagai perusahaan solusi data web, kami sering menghadapi pertanyaan tentang legalitas web scraping. Sebelum kita menjawab pertanyaan itu, mari kita pahami dulu istilah “web scraping”. Sederhananya, ini adalah bagian dari perayapan web (menemukan halaman web dan mengunduhnya) yang melibatkan ekstraksi data dari halaman web untuk mengumpulkan informasi yang relevan. Faktor kunci di sini adalah bahwa bot (mirip dengan bot Google) melakukan aktivitas ini secara otomatis dan dengan demikian menghilangkan aktivitas manual seseorang. Ketika bot mencapai halaman web untuk mengambil konten, mereka bertindak sangat mirip dengan cara agen browser melakukan panggilan ke halaman. Jadi, mengapa kita memiliki begitu banyak kehebohan di sekitar "menggores"? Alasan di balik ini terutama dapat dikaitkan dengan tidak menghormati protokol yang ditetapkan.

Konten Buatan Pengguna yang Tersedia untuk Publik

Berikut adalah beberapa aturan dasar yang harus diikuti oleh siapa pun yang ingin merayapi data dari web:

  • File robots.txt

File ini menentukan bagaimana situs web ingin dirayapi. Ini termasuk daftar halaman yang dapat diakses, halaman terbatas, batas permintaan selain bot yang disebutkan secara eksplisit yang diizinkan atau diblokir dari perayapan. Lihat posting ini untuk mempelajari lebih lanjut tentang membaca dan menghormati file robots.txt.

  • Syarat Penggunaan

Satu lagi pos pemeriksaan penting adalah halaman syarat & ketentuan yang membahas secara spesifik tentang bagaimana data itu harus dikumpulkan dan digunakan bersama dengan pedoman lainnya. Pastikan Anda tidak melanggar apa pun yang disebutkan di halaman ini.

  • Konten publik

Kecuali Anda memiliki izin dari situs tersebut, tetap berpegang pada data yang tersedia untuk umum. Artinya, jika data hanya dapat diakses dengan login, itu ditujukan untuk pengguna situs, bukan untuk bot.

  • Frekuensi perayapan

File robots.txt menyebutkan frekuensi dan kecepatan perayapan bot yang dapat mencapai situs. Oleh karena itu, Anda harus tetap berpegang pada ini dan jika ini belum disebutkan, tanggung jawab ada pada Anda untuk memastikan bahwa server situs tidak kelebihan beban oleh hit. Ini diperlukan untuk memastikan bahwa pengikis itu sopan; server tidak menghabiskan sumber dayanya dan gagal melayani pengguna yang sebenarnya.

Terlepas dari aturan wajib ini, ada praktik terbaik lain untuk pengikisan web yang telah dibahas dalam posting ini. Kembali ke pertanyaan pertama kami, yaitu, apakah pengikisan web legal atau tidak?—kami dapat dengan aman mengatakan bahwa jika Anda mengikuti aturan yang disebutkan di atas, Anda berada di batas hukum. Tapi, Anda harus memverifikasi ini oleh pengacara agar benar-benar aman. Ada beberapa kasus tuntutan hukum seperti Facebook vs. Pete Warden, Associated Press vs. Meltwater holdings, Inc., Southwest Airlines Co. v. BoardFirst, LLC, dan banyak lagi.

Yang mengatakan, ada pertanyaan yang lebih besar di sekitar kita — haruskah perusahaan kuat yang meng-host petabyte data yang tersedia untuk umum (terutama data yang dibuat pengguna) selektif sambil memberikan akses ke data yang sama? Pertanyaan ini pada dasarnya muncul di sekitar peristiwa baru-baru ini terkait dengan proses hukum yang melibatkan LinkedIn (dimiliki oleh Microsoft) dan hiQ Labs. Bagi yang belum tahu, hiQ Labs adalah startup yang mengambil data dari profil publik di LinkedIn untuk melatih algoritme pembelajaran mesinnya. Pada bulan Mei, LinkedIn mengirim surat penghentian (C&D) ke hiQ yang menginstruksikan mereka untuk berhenti mengambil data dari jejaring sosialnya. Surat itu menyebutkan beberapa kasus termasuk Craigslist Inc. v. 3Taps Inc., di mana putusannya bertentangan dengan 3Taps dan mereka ditemukan melanggar Undang-Undang Penipuan dan Penyalahgunaan Komputer karena melewati teknik pemblokiran IP yang digunakan oleh Craigslist. Kami juga harus mencatat bahwa LinkedIn telah menerapkan langkah-langkah teknis untuk hiQ dari mengakses data publik. Namun, HiQ Labs menanggapi dengan mengajukan gugatan terhadap LinkedIn pada bulan Juni, dengan alasan bahwa LinkedIn melanggar undang-undang antimonopoli.

Salah satu masalah utama yang diangkat oleh hiQ adalah tentang praktik anti persaingan LinkedIn yang menyatakan bahwa LinkedIn ingin meluncurkan solusi analitik dan ilmu datanya sendiri yang mungkin terhalang oleh penawaran sebelumnya. Mereka juga menyatakan bahwa LinkedIn sudah mengenalnya selama bertahun-tahun dan mereka bahkan telah menerima penghargaan dari hiQ pada konferensi analisis data tertentu.

Sampai pada inti masalah, kita dapat melihat bahwa "otorisasi" tidak diperlukan untuk mengakses halaman profil publik di LinkedIn. Oleh karena itu, klaim LinkedIn bahwa mengorek data ini mungkin melanggar Undang-Undang Penipuan dan Penyalahgunaan Komputer dengan mengabaikan persyaratan otentikasi tidak memiliki dasar yang kuat. Apa yang membuat kasus ini istimewa adalah bahwa hiQ hanya menggores data yang tersedia untuk umum sedangkan dalam kasus lain, pengikis melanggar privasi pengguna atau penggunaan data tanpa pemberitahuan. Jika kita hanya mempertimbangkan aktivitas manual, siapa pun dapat mengklik setiap profil dan melihat data untuk menyalin semua info, lalu memasukkan data ke sistem komputasi. Meskipun secara teoritis layak, ini adalah cara pengumpulan data yang tidak efisien dan rawan kesalahan karena akan membutuhkan banyak waktu dan tenaga. Itulah alasan utama mengapa kami memiliki bot yang dapat diprogram untuk melakukan tugas ini secara otomatis dan berulang.

LinkedIn memungkinkan mesin pencari untuk merayapi dan mengindeks halaman publik mereka untuk mempromosikan jaringan mereka. Lalu mengapa aplikasi dan situs web lainnya tidak mendapatkan level permainan dengan mendapatkan manfaat dari data yang sama juga? Jadi, poin untuk direnungkan adalah – apakah perusahaan listrik memiliki hak untuk menghentikan robot agar tidak mengambil data publik dari situs web mereka? Terlebih lagi, ketika data telah dipublikasikan oleh pengguna, bagaimana platform dapat mengklaim hak sedemikian rupa untuk memblokir orang lain agar tidak mengaksesnya?

Meskipun kasusnya masih jauh dari selesai, keputusan terbaru mengatakan bahwa HiQ dan algoritmenya bebas untuk merayapi data dan LinkedIn harus membiarkannya. Hakim tampaknya selaras dengan argumen hiQ bahwa pengumpulan data publik hiQ dapat menjadi kegiatan yang dilindungi oleh Amandemen Pertama dan memberikan perintah sebagai berikut:

Sejauh LinkedIn telah menerapkan teknologi untuk mencegah hiQ mengakses profil publik ini, ia diperintahkan untuk menghilangkan hambatan tersebut.

Berikut adalah tautan untuk mengunduh salinan perintah pengadilan jika Anda tertarik untuk mempelajari lebih lanjut.

Untuk saat ini, kita dapat menganggap pertempuran ini dan tanggapan terbaru dari pengadilan sebagai kemenangan kebebasan berbicara bagi para pemain dalam bisnis solusi data. Ini juga meletakkan dasar bagi perusahaan internet yang bisa saja terjerat dalam kasus kriminal karena mengakses halaman web yang dapat dilihat oleh publik di seluruh dunia. Bola sekarang ada di pengadilan LinkedIn dan ini mungkin menjadi argumen kebebasan berbicara.

Putusan akhir akan melampaui LinkedIn dan hiQ Labs dan dapat menjadi preseden tentang seberapa banyak kontrol yang akan dimiliki bisnis atas data yang tersedia untuk umum yang di-host oleh layanan mereka. Kami percaya bahwa sama sekali tidak boleh ada pembatasan akses ke data publik melalui internet, dan inovasi tidak boleh dibatasi oleh senjata yang kuat secara hukum atau mengejar agenda anti-persaingan dari sekelompok kecil perusahaan yang kuat.