Alternatif Portia untuk Ekstraksi Data Web

Diterbitkan: 2019-07-15
Daftar Isi menunjukkan
Apa keuntungan dari pencakar web visual?
Di area mana pencakar web visual gagal?
Apa alternatif lain yang kita miliki?
Penyedia DaaS vs tim internal?
Kesimpulan

Portia adalah alat visual yang memungkinkan pengguna merayapi situs web tanpa memiliki pengetahuan pemrograman. Itu adalah layanan yang dihosting tetapi karena berkurangnya penggunaan pencakar visual, itu telah dihapus dan tidak lagi digunakan hari ini. Jadi bagaimana orang menggunakan Portia ketika itu ada? Untuk menggunakan Portia, Anda perlu memasukkan pola URL yang perlu dikunjungi, lalu memilih elemen di halaman web tersebut dengan gerakan tunjuk dan klik, atau dengan menggunakan CSS atau XPath. Meskipun mudah digunakan, masalah terbesar dengan Portia adalah sebagai berikut:

  • Itu adalah alat yang memakan waktu untuk mendapatkan kontrol dibandingkan dengan alat pengikisan web sumber terbuka lainnya.
  • Menavigasi situs web sulit ditangani.
  • Anda perlu menyebutkan halaman target saat Anda mulai merangkak untuk mencegah Portia mengunjungi URL yang tidak perlu.
  • Tidak ada cara untuk menyambungkan database untuk menyimpan titik data Anda yang tergores.

Apa keuntungan dari pencakar web visual?

Saat Anda memiliki persyaratan pengikisan web satu kali, Anda dapat menggunakan pengikis web visual, tetapi menggunakannya sebagai bagian dari alur kerja bisnis tidak disarankan. Jika Anda menjalankan bisnis di mana Anda perlu merayapi data dari sangat sedikit halaman web statis, dan itu juga sangat jarang (katakanlah sebulan sekali), Anda bisa mendapatkan seseorang di tim Anda yang mengetahui data apa yang harus dikikis untuk memahami cara kerja pengikis web visual dalam hitungan jam dan kemudian ekstraksi data web dari waktu ke waktu. Perayap web visual sangat membantu untuk usaha kecil yang tidak memiliki tim teknologi dan memiliki persyaratan pengikisan menit.

Perayap web visual hampir sama dengan seseorang yang mengklik "memeriksa elemen" di halaman web dan menyalin-menempelkan data dari konten HTML. Sebagai gantinya, ketika Anda menggunakan pengikis web visual, Anda akhirnya mengklik bagian dari halaman web dan perangkat lunak menyalin data untuk Anda ke lokasi pilihan Anda.

Alternatif Portia

Di area mana pencakar web visual gagal?

Pengikis visual, bagaimanapun, gagal ketika Anda memiliki pekerjaan berat yang serius untuk dilakukan.

Anda mungkin perlu menyertakan pengikisan beberapa data sebagai bagian dari alur kerja bisnis Anda (yang seharusnya otomatis).
Data mungkin perlu di-scrap di ratusan atau ribuan halaman dan mungkin perlu sangat sering di-refresh.

Mungkin ada kebutuhan untuk umpan langsung dari data tergores untuk modul bisnis tertentu. Dalam sebagian besar kasus di atas, scraper web berbasis kode akan lebih mudah digunakan daripada scraper visual.

Sebagian besar proyek pengikisan massal menemukan kebutuhan untuk merayapi satu ton halaman web serupa ke data ekstraksi data web tentang item yang berbeda. Item ini dapat berkisar dari informasi penerbangan di situs web e-booking hingga detail produk di situs web e-niaga. Logika yang diterapkan dalam skenario seperti itu adalah Anda mencoba memahami pola penyimpanan data di halaman web menggunakan beberapa halaman web, dan menggunakan kode yang tidak hanya dapat merayapi halaman dengan struktur yang sama persis tetapi bahkan halaman dengan struktur serupa. . Juga saat menggores semua halaman yang tersedia di situs web, halaman dengan struktur tertentu mungkin perlu diabaikan. Semua penyesuaian ini tidak mungkin dilakukan pada pengikis visual dan karenanya, menggores terlalu banyak halaman menggunakan pengikis visual tidak disarankan.

Di sisi lain spektrum, karena perubahan tampilan dan nuansa situs web setiap beberapa minggu atau bulan, Anda mungkin perlu melatih pengikis web visual Anda setiap kali Antarmuka Pengguna situs web berubah. Di sisi lain, saat menggunakan scraper berbasis kode, sering kali perubahan UI bahkan mungkin tidak memerlukan perubahan apa pun pada scraper karena situs web mungkin secara struktural masih tetap sama. Bahkan jika ada beberapa perubahan di Antarmuka Pengguna yang mungkin memerlukan perubahan di scraper, perubahan biasanya minimal dan menyesuaikan scraper dengan perubahan cukup sederhana.

Apa alternatif lain yang kita miliki?

Ada banyak alternatif selain Portia. Bahasa seperti Python, R dan Golang sedang digunakan oleh pengembang dan tim web scraping di seluruh dunia untuk ekstraksi data web dari halaman web. Cara-cara baru sedang dikembangkan untuk membuat proses lebih cepat. Misalnya, dengan bantuan pemrograman paralel dan caching di Golang, menggunakan paket yang disebut Colly, Anda dapat menggunakan pengaturan khusus seperti berikut:

  1. Jumlah halaman yang ingin Anda jelajahi secara bersamaan pada waktu tertentu.
  2. Kedalaman maksimum pengikis harus dilakukan setelah mulai mengikis dari halaman web. (Artinya, jika Anda menyetel kedalaman maksimum ke 3, itu akan merayapi halaman teratas, pergi ke URL yang ditemukan di dalamnya, merayapinya, lalu pergi ke URL yang ditemukan di halaman itu, dan merayapi itu juga, tapi sekarang di halaman ketiga jika menemukan URL, itu tidak akan melangkah lebih jauh).
  3. Anda dapat menyetel tanda centang untuk kata-kata yang ada di URL – yaitu jika sebuah kata ada di URL, maka halaman web di URL itu harus dihapus. Atau Anda dapat mengatur pengecualian- URL dengan kata tertentu, tidak boleh diakses oleh scraper.

Ini hanyalah beberapa contoh dari ratusan fungsi kecil yang Anda dapatkan saat membuat scraper web sendiri.

Penyedia DaaS vs tim internal?

Sebagian besar bisnis yang tidak memiliki tim teknologi, atau bahkan anggota tanpa pemahaman dasar tentang bahasa skrip apa pun, harus mencoba untuk tidak mulai membangun tim scraping internal. Alasan di balik ini sederhana. Uang yang Anda keluarkan untuk merekrut pengembang dan kemudian membuat mereka membangun dan memelihara sistem pengikisan web yang benar-benar baru untuk kebutuhan bisnis Anda akan sangat besar. Dan pada akhirnya jika Anda adalah perusahaan kecil, dan web scraping bukanlah bahan bakar untuk bisnis Anda (yaitu bisnis Anda tidak berpusat pada data yang Anda jelajahi dari web), maka tidak masuk akal untuk membangun sebuah tim internal.

Solusi sederhana, dalam hal ini, adalah penyedia DaaS yang mengambil kebutuhan Anda dan memberikan data Anda dalam format pilihan Anda. Tim kami di PromptCloud sangat bangga dalam mengurangi pengikisan web menjadi proses dua langkah untuk bisnis dan perusahaan.

Kesimpulan

Meskipun alat visual bagus untuk tim bisnis, kami dapat menyetujui bahwa pengikisan web bukan hanya tugas bisnis yang sederhana. Ini adalah tugas yang harus efisien, cepat, dan sepenuhnya dapat disesuaikan. Jika Anda memiliki persyaratan web scraping volume besar atau ingin ekstraksi data web dalam skala yang jauh lebih besar, disarankan untuk menggunakan layanan web scraping.

Jika Anda tidak mahir dalam pemrograman atau persyaratan Anda rumit, Anda dapat menggunakan penyedia layanan yang terkelola sepenuhnya seperti PromptCloud untuk mendapatkan data bersih secara otomatis tanpa kerumitan teknis atau mempelajari alat apa pun.