The Greyness of Web Scraping – Legal atau Tidak?
Diterbitkan: 2022-05-26"Pengikisan web," dalam istilah yang cukup harfiah, melibatkan pengikisan data dari web. Di tangan mesin pencari, pengikisan web adalah aktivitas yang menghasilkan hasil pencarian dengan menilai jutaan situs web untuk informasi yang relevan dengan permintaan pencarian. Di sisi lain, di tangan pelaku usaha (menggunakan alat pengikis), legalitasnya dipertanyakan.
Mengapa?
Undang-Undang Penipuan dan Penyalahgunaan Komputer (CFAA) melarang penggunaan komputer dan informasi yang tidak sah di dalamnya – termasuk pengikisan web. Namun, ruang lingkup kegiatan ini masih belum jelas. Baru-baru ini, Mahkamah Agung AS memutuskan mendukung Van Buren v. Amerika Serikat dengan mengumumkan bahwa mengakses data yang diizinkan, meskipun untuk penggunaan yang tidak sah/dilarang, tidak dapat dikatakan sebagai pelanggaran terhadap CFAA.
"Keabu-abuan" dari pertanyaan tentang legalitas data tergores tidak dapat diklarifikasi tanpa melihat secara mendalam ekosistem pengikisan web, apa yang diperlukan, dan apa yang membuatnya legal atau ilegal.
Apakah Menggores Situs Web Legal?
Banyak faktor yang memerintahkan betapa legalnya mengikis data web. Sifat pengikisan web yang ada di mana-mana mungkin termasuk dalam lingkup undang-undang Pelanggaran terhadap Chattel, di mana penggunaan informasi seseorang secara tidak sah dapat menjadi masalah hukum.
Selain itu, banyak undang-undang, tindakan, dan peraturan lainnya telah dimobilisasi hari ini untuk melindungi privasi konsumen dan pencurian informasi. Anda mungkin pernah mendengar tentang General Data Protection Act (GDPA), Children's Online Privacy Protection Act (COPPA), dan Health Insurance Portability and Accountability Act (HIPAA) – semua tindakan perlindungan ini telah diterapkan untuk mencegah penyalahgunaan yang tidak terkendali. data konsumen pribadi.
Namun, dengan putusan Van Buren v. Amerika Serikat, tampaknya web scraping, dalam keadaan tertentu, mungkin baik-baik saja.
Dalam putusan Pengadilan Banding Sirkuit Kesembilan untuk kasus LinkedIn v. hiQ Labs, diumumkan bahwa mengorek informasi dari profil publik boleh saja karena aktivitas ini tidak tercakup dalam lingkup CFAA (karena data yang digores tersedia untuk umum) . Namun, itu menyebabkan LinkedIn membatasi profil pengguna agar tidak diakses secara publik - login oleh pemirsa sekarang diperlukan.
Persyaratan masuk ke akun pengguna Anda di situs web untuk melihat informasi yang terkandung di dalamnya membawa semua aktivitas Anda di bawah syarat dan ketentuan situs web. Syarat dan ketentuan ini mungkin memiliki klausa yang menghalangi atau melarang pengikisan web – jika Anda masih terlibat dalam mengekstraksi data, Anda mungkin mengalami kekacauan hukum.

Omong-omong, inilah tepatnya mengapa LinkedIn mengamanatkan login untuk melihat profil pengguna – untuk membatasi informasi web scraping penggunanya.
Dengan itu, area abu-abu masih tetap luas. Jadi ... apakah web scraping ilegal ? Ini sangat tergantung pada jenis data yang Anda coba kikis dan sifat data itu:
Data Publik
Data yang Anda temui di internet sebagian besar adalah data publik. Kecuali Anda diminta untuk masuk ke akun Anda atau menyetujui persyaratan penggunaan data atau mengautentikasi identitas atau kredensial Anda untuk mengakses data tertentu, mengikis adalah sah-sah saja.
Satu-satunya pencegah pengambilan web di sini adalah langkah-langkah yang dilakukan situs web ini untuk membelokkan pencakar web Anda (untuk melindungi informasi mereka, tentu saja).
Data Pribadi/Data Pribadi
Adalah ilegal untuk mengikis informasi pribadi seseorang. Informasi pribadi dapat berupa apa saja – nama, alamat, perincian keuangan, perincian kesehatan, tanggal lahir, informasi kontak lainnya, dll. Apa pun yang memberikan identitas pribadi seseorang (Informasi Identifikasi Pribadi, atau PII) adalah tanda bahaya untuk web scraping . Ini adalah larangan yang ketat.
Namun, jika Anda harus melakukannya, adalah wajib untuk meminta persetujuan orang tersebut terlebih dahulu. Selain itu, jika motivasi hukum menjadi penyebab di balik penghapusan PII, itu harus diketahui.
Data Hak Cipta
Data apa pun di internet yang merupakan kekayaan intelektual penerbit adalah ilegal untuk dikikis. Jika Anda harus menggunakan data ini, terlepas dari hak ciptanya, Anda harus mencantumkan sumber informasi tersebut di mana pun Anda menggunakannya.
Persyaratan Layanan
Ini adalah contoh bersyarat dari ilegalitas web scraping. Jika situs web secara eksplisit membatasi pengikisan data, anggap ilegal untuk melakukannya. Sebelum Anda melanjutkan dengan bot scraper Anda, yang terbaik adalah memeriksa persyaratan penggunaan dan layanan secara menyeluruh.
Akun Masuk
Sama seperti LinkedIn telah mengamanatkan login akun untuk mengakses profil penggunanya, instance login hampir selalu mendapatkan persetujuan Anda pada syarat dan ketentuan situs web. Syarat dan ketentuan ini mungkin berisi klausa tentang pengikisan data. Ketika Anda masih melepaskan bot scraper Anda setelah masuk, Anda mempertaruhkan larangan atau bahkan tindakan hukum.
Cara Mengikis Data Secara Legal
Untuk memastikan bahwa tidak ada tindakan hukum yang diambil terhadap Anda, pahami secara menyeluruh aspek-aspek berikut sebelum Anda melanjutkan dengan web scraping:
- Apakah data tersedia untuk umum?
- Apakah itu mengungkapkan PII individu mana pun?
- Apakah situs web menyebutkan larangan apa pun terkait pengikisan?
- Apakah ada undang-undang, tindakan, kebijakan, atau peraturan yang mengontrol informasi apa yang dapat Anda kikis dan gunakan?
Menimbang dengan cermat jawaban untuk semua pertanyaan ini akan membantu menentukan tingkat keabuan aktivitas pengikisan web Anda.
Membungkus
Intinya, "Apakah legal untuk mengikis situs web " bukanlah pertanyaannya. Pertanyaan sebenarnya adalah, “ Seberapa legalkah pengikisan situs web? “.
Yang terbaik adalah memastikan bahwa web scraping hanya mengambil data yang tersedia untuk umum dan tidak dilindungi oleh klausa yang dapat ditindaklanjuti secara hukum. Anda juga dapat mengalihdayakan pengikisan web ke agensi profesional seperti PromptCloud yang tahu apa yang mereka lakukan.
