Contoh Scraping Web Terbaik- oleh Promptcloud
Diterbitkan: 2019-08-19Data telah menjadi komponen kunci dari strategi pertumbuhan untuk setiap perusahaan. Ketika datang untuk mengumpulkan data, banyak sumber yang tersedia. Namun, pengumpulan data secara manual sulit dilakukan karena dua alasan – a) meningkatnya kemungkinan kesalahan, dan b) proses yang memakan waktu. Cara yang lebih baik untuk mengumpulkan data adalah dengan merayapi data dari web, singkatnya, web scraping. Setelah Anda menyiapkan sistem untuk merayapi data dari situs tertentu dan menggunakan data tergores dalam alur kerja bisnis Anda, Anda dapat terus menggunakan sistem yang sama selama bertahun-tahun. Hari ini kita akan membahas beberapa contoh web scraping teratas yang pernah kita temui di PromptCloud.
Mengikis Data Real Estat Menggunakan Python
Ini adalah salah satu data yang paling dicari di dunia. Sebagian besar buku atau kursus pembelajaran mesin dimulai dengan sekumpulan rumah, detailnya, dan harganya untuk mengajarkan regresi linier sebelum beralih ke model ML yang kompleks. Beberapa situs web real estat teratas di seluruh AS berisi jutaan catatan rumah baik di pasar maupun di luar. Mereka bahkan berisi harga sewa, perkiraan harga rumah setelah beberapa tahun, dll. Kami mengambil data dari situs terkemuka dan Anda dapat memeriksa tautan ini bersama dengan file JSON dengan beberapa titik data.
Contoh 1
[bahasa kode="python"] {
“deskripsi”: “327 101st St #1A, Brooklyn, NY adalah rumah dengan 3 tempat tidur, 3 kamar mandi, 1302 kaki persegi di penyitaan. Masuk ke Trulia untuk menerima semua informasi penyitaan.”,
“tautan”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"harga": {
“jumlah”: “510000”,
"mata uang": "USD"
},
“broad-description”: “Unit Duplex Sangat Besar dengan lantai 1 menampilkan Ruang Rekreasi Selesai, Ruang Hiburan, dan Kamar Mandi Setengah. Lantai Kedua Memiliki 2 Kamar Tidur, 2 Kamar Mandi Lengkap, Ruang Tamu/Ruang Makan, dan Ruang Terbuka. Ada pemandangan Jembatan Verrazano. Lihat Panduan Penyitaan kami”,
"gambaran": [
“Kondominium”,
“3 Tempat Tidur”,
“3 Kamar Mandi”,
“Dibangun pada tahun 2006”,
“5 hari di Trulia”,
“1.302 kaki persegi”,
“$392/sqft”,
“143 tampilan”
] }
[/kode]
Contoh 2
[bahasa kode="python"] {
“Rincian_Luas”: {
“Jumlah Kamar”: 4,
“Ukuran Lantai (dalam sqft)”: “1.728”
},
"Alamat": {
"Jalan": "638 Grant Ave",
"Lokalitas": "Baldwin Utara",
“Wilayah”: “NY”,
“Kode Pos”: “11510”
},
“Judul”: “638 Grant Ave, Baldwin Utara, NY 11510 | MLS #3137924 | Zillow”,
“Detail_Short”: “638 Grant Ave , North baldwin, NY 11510-1332 adalah rumah keluarga tunggal yang terdaftar untuk dijual seharga $299,000. Rumah seluas 1.728 kaki persegi adalah properti dengan 4 tempat tidur, 2,0 kamar mandi. Temukan 31 foto rumah 638 Grant Ave di Zillow. Lihat lebih banyak detail properti, riwayat penjualan, dan data Zestimate di Zillow. MLS #3137924”,
“Harga dalam $”: 299000,
“Gambar”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/kode]
Mengikis Data Hotel dari Portal Perjalanan Teratas
Situs web pemesanan hotel berisi banyak sekali data seperti harga, ulasan, peringkat, jumlah orang yang memberi peringkat hotel, dan banyak lagi. Kami menunjukkan cara merayapi data dari perusahaan pemesanan ulasan hotel terbesar di artikel lain.
Menggunakan perpustakaan penguraian HTML yang disebut Beautiful Soup, kami dapat merayapi beberapa titik data. Menggunakan potongan kecil kode yang diberikan di bawah ini, Anda dapat membuka situs web, mendapatkan konten HTML dan mengubahnya menjadi objek Beautiful Soup. Setelah ini selesai, mem-parsing objek dan menemukan titik data tertentu dalam tag tertentu yang memiliki atribut tertentu adalah tugas yang mudah.
[code language="python"] warnings.simplefilter("ignore")#Untuk mengabaikan kesalahan sertifikat SSL
ctx = ssl.create_default_context()
ctx.check_hostname = Salah
ctx.verify_mode = ssl.CERT_NONE
url=input(“Masukkan Url Hotel –“)
html = urllib.request.urlopen(url, konteks=ctx).read()
sup = BeautifulSoup(html, 'html.parser')
html = sup.prettify(“utf-8”)
hotel_json = {}
[/kode]
Kode untuk mendapatkan konten HTML dari halaman web dan mengubahnya menjadi objek Beautiful Soup.
Mengikis Data Media Sosial
Salah satu sumber data pengguna terbesar adalah media sosial. Baik Anda ingin memeriksa apakah orang menyukai lagu, film, atau perusahaan tertentu, data media sosial dapat membantu Anda memahami sentimen pengguna serta melacak reputasi publik perusahaan Anda. Di PromptCloud, kami telah mengumpulkan data dari Twitter️, Instagram️, dan bahkan YouTube️. Titik data di ketiganya berbeda. Misalnya, dari Instagram, pengikisan data berfungsi seperti ini..
[bahasa kode=”python”] Pengguna: Ariana Grande (@arianagrande)
Pengikut: 130.5m
Mengikuti: 1,348
Postingan: 3,669
[/kode]
Data diambil dari akun Instagram
Namun, titik data yang kami ambil dari YouTube️ sangat berbeda. Contohnya adalah data yang diambil dari lagu terkenal yang menyebabkan tantangan online itu sendiri.
[bahasa kode="python"]
{
“TITLE”: “Drake – In My Feelings (Lirik, Audio) ”Kiki Do you love me””,
“CHANNEL_NAME”: “Kesatuan Khusus”,
“NUMBER_OF_VIEWS”: “278.121.686 tampilan”,
“SUKA”: “2.407.688”,
“TIDAK SUKA”: “114.933”,
“NUMBER_OF_SUBSCRIPTIONS”: “614K”,
“HASH_TAGS”: [
“#InMyFeelings”,
"#Itik jantan",
"#Kalajengking"
] }
[/kode]

Data diambil dari halaman YouTube️
Untuk Twitter, perlu dicatat bahwa kami membutuhkan akun pengembang, dan kami juga dapat merayapi tweet untuk setiap akun, hanya sampai hitungan 3240 tweet terakhir dari pengguna tersebut. Oleh karena itu, Anda dapat melihat bahwa contoh pengikisan web yang berbeda dapat memiliki pendekatan serta hasil yang berbeda.
Menggores Lirik Lagu menggunakan Python dari Sites Like Genius️
Menggores lirik lagu merupakan hal yang sudah dilakukan orang sejak dahulu kala. Satu-satunya perbedaan adalah sekarang Anda dapat menelusuri lirik lagu dengan lebih mudah dalam beberapa detik, menggunakan sepotong kode daripada menghabiskan berjam-jam atau menit melakukannya secara manual. Salah satu contohnya adalah artikel ini di mana kami menunjukkan cara merayapi lirik lagu dan data terkait lainnya dari situs web musik populer bernama Genius.
Karena situs web ini berisi lebih dari sekadar lirik lagu, kami juga dapat menangkap poin data seperti komentar, judul, dan tanggal rilis.
Mengikis Data Stok Python Dari Situs Seperti Yang dari Yahoo️ Finance
Data pasar saham adalah salah satu gudang data besar yang biasanya dianalisis oleh orang-orang yang mempelajari pasar dan memutuskan di mana akan memasang taruhan mereka. Baik data saat ini maupun data historis sangat berharga. Salah satu situs web yang dapat digores dengan cukup mudah untuk menangkap informasi saham tentang berbagai perusahaan adalah Yahoo Finance. Informasi stok tidak hanya berarti harga saham saat ini karena kami juga dapat menelusuri banyak titik data lainnya menggunakan proses ini.
Ini adalah poin data yang kami gores untuk Apple️
[bahasa kode="python"] {
“PRESENT_VALUE”: “198,87”,
“PRESENT_GROWTH”: “-0,08 (-0,04%)”,
"RINCIAN LAINNYA": {
“PREV_CLOSE”: “198,95”,
“BUKA”: “199.20”,
“TAWARAN”: “198,91 x 800”,
“TANYA”: “198,99 x 1000”,
“TD_VOLUME”: “27.760.668”,
“AVERAGE_VOLUME_3MONTH”: “28.641.896”,
“MARKET_CAP”: “937.728B”,
“BETA_3Y”: “0.91”,
“PE_RATIO”: “16.41”,
“EPS_RATIO”: “12.12”,
“EARNINGS_DATE”: [
“30 Apr 2019”
],
“DIVIDEND_AND_YIELD”: “2.92 (1.50%),
“EX_DIVIDEND_DATE”: “08-02-2019”,
“SATU_YEAR_TARGET_PRICE”: “193.12”
}
}
[/kode]
Mengikis Data Produk, Harga, dan Ulasan dari Situs Web eCommerce
Untuk informasi tentang berbagai produk dan harga pasarnya saat ini, tidak ada tempat yang lebih baik untuk mengumpulkan data, selain perusahaan eCommerce besar seperti Amazon️. Meskipun Amazon️ memang memiliki tata letak halaman yang berbeda di berbagai kategori dan subkategori dan bahkan di berbagai wilayah di seluruh dunia, Anda dapat dengan aman merayapi sejumlah kecil data di seluruh kategori terbatas seperti yang telah kami tunjukkan di halaman ini, tempat kami mengambil data produk dan informasi harga .
Dengan menggunakan kode, Anda dapat mengekstrak harga artikel dan fitur utamanya. Setelah tautan yang perlu Anda jelajahi secara teratur siap, Anda dapat menjalankan kode Anda pada frekuensi tertentu. Dengan cara ini Anda dapat melacak perubahan harga barang tersebut dan memanfaatkannya.
Mengikis Situs Web Berita Data dari Situs Web Seperti BBC, New York Times, Al Jazeera
Agregator berita sangat diminati saat ini. Mereka membuat salah satu contoh pengikisan web terbaik yang secara langsung membantu pengguna meningkatkan produktivitas mereka. Tidak ada lagi orang yang punya waktu untuk membaca koran atau bahkan seluruh halaman web. Jadi apa yang dilakukan agregator berita secara berbeda?
- Pengumpul berita mengumpulkan berita dan hanya menampilkan satu atau dua baris yang menjelaskan artikel berita secara singkat. Jika Anda ingin tahu lebih banyak, Anda dapat mengklik tautan dan mereka akan mengarahkan Anda ke halaman web berita yang sebenarnya.
- Mereka mengumpulkan artikel berita dari kantor berita besar seperti BBC️ dan New York Times️ dan seringkali ini membantu memberi Anda gambaran yang lebih lengkap dengan lebih banyak detail.
- Seiring waktu, aplikasi memastikan suka dan tidak suka Anda dan memberi Anda artikel berita tergantung pada penggunaan Anda sebelumnya.
Anda lihat, ini adalah beberapa hal yang membedakan agregator berita, namun, langkah pertama dalam semua proses ini adalah menggabungkan data, yang seringkali hanya menggores artikel berita dari situs web yang berbeda.
Menggores Data Pekerjaan
Perekrutan adalah salah satu industri yang, seperti industri real estat, telah menemukan dorongan besar berkat pengikisan web dan ledakan internet. Hari-hari ini, Anda dapat merayapi daftar pekerjaan dari situs web perusahaan dan papan pekerjaan berbasis internet yang populer dan kemudian menggunakan data yang dikumpulkan untuk meningkatkan bisnis Anda. Apakah Anda seorang perusahaan rekrutmen atau konsultan atau Anda menjalankan papan pekerjaan sendiri, menggores data pekerjaan adalah suatu keharusan. Salah satu dari banyak solusi pengikisan web kami, JobsPikr, membuatnya sangat mudah untuk mendapatkan daftar pekerjaan yang diperbarui untuk mengelola perencanaan tenaga kerja strategis Anda dan menjalankan bisnis secara efisien. Ini adalah alat penemuan pekerjaan yang sepenuhnya otonom yang dapat mengambilkan Anda daftar pekerjaan baru menggunakan filter seperti judul, lokasi, pos, dan banyak lagi.
Menggores Gambar dan Data Tekstual Diperlukan untuk Penelitian
Sejumlah besar data diperlukan dalam proyek penelitian saat mengerjakan model pembelajaran mesin yang berbeda. Bahkan untuk melatih komputer membedakan antara gambar anjing dan kucing, Anda akan membutuhkan ribuan gambar anjing dan kucing. Persyaratan data tersebut diselesaikan melalui solusi pengikisan web dan para ilmuwan hari ini merayapi gambar Google dan sumber gambar lainnya untuk mendapatkan gambar untuk proyek mereka. Saya menggunakan data Twitter untuk mengumpulkan gambar yang diunggah ke situs media sosial saat banjir. Saya mencoba untuk memisahkan gambar yang berhubungan dengan banjir dari yang tidak.
Pengikisan Web untuk Pembuatan Konten
Perusahaan perlu membangun konten berkualitas tinggi secara teratur untuk meningkatkan visibilitas, mendidik pelanggan, membangun merek, dan meningkatkan penjualan. Mengikis konten di internet membantu orang pemasaran dan periklanan mendapatkan ide yang lebih baik, bertukar pikiran, dan menemukan cara baru untuk menarik pelanggan, dan meningkatkan penjualan.
Sementara kami menjelaskan beberapa contoh web scraping, kemungkinannya tidak terbatas dan web scraping adalah sesuatu yang dapat dimanfaatkan oleh bisnis yang berbeda dalam skenario yang berbeda. Pada akhirnya, ini membantu membuat proses dan keputusan menjadi lebih cerdas menggunakan kekuatan data.
