I migliori esempi di web scraping - di Promptcloud
Pubblicato: 2019-08-19I dati sono diventati una componente chiave della strategia di crescita di ogni azienda. Quando si tratta di raccogliere dati, sono disponibili molte fonti. Tuttavia, la raccolta manuale dei dati è difficile per due motivi: a) maggiore possibilità di errori e b) processo che richiede tempo. Un modo migliore per raccogliere dati è eseguire la scansione dei dati dal Web, in breve, il web scraping. Dopo aver impostato un sistema per eseguire la scansione dei dati da determinati siti e utilizzare i dati raschiati all'interno del flusso di lavoro aziendale, è possibile continuare a utilizzare lo stesso sistema per molti anni. Oggi parleremo di alcuni dei migliori esempi di web scraping che abbiamo incontrato su PromptCloud.
Raschiare i dati immobiliari usando Python
Questo è uno dei dati più ricercati al mondo. La maggior parte dei libri o dei corsi di machine learning iniziano con una serie di case, i loro dettagli e i loro prezzi per insegnare la regressione lineare prima di passare a modelli ML complessi. Alcuni dei migliori siti Web immobiliari negli Stati Uniti contengono milioni di record di case sia sul mercato che fuori. Contengono persino i prezzi degli affitti, le stime dei prezzi delle case dopo alcuni anni, ecc. Abbiamo raschiato i dati dai siti principali e puoi controllare questi collegamenti insieme ai file JSON con i punti dati multipli.
Esempio 1
[lingua del codice =”python”] {
"descrizione": "327 101st St # 1A, Brooklyn, NY è una casa con 3 letti, 3 bagni, 1302 piedi quadrati in preclusione. Accedi a Trulia per ricevere tutte le informazioni sulla preclusione.",
“link”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"prezzo": {
“importo”: “510000”,
“valuta”: “USD”
},
"ampia descrizione": "Unità duplex molto ampia al 1° piano con una sala ricreativa finita, una sala di intrattenimento e un bagno di servizio. Il secondo livello dispone di 2 camere da letto, 2 bagni completi, un soggiorno/sala da pranzo e uno spazio esterno. C'è Verrazano Bridge views.n Visualizza le nostre guide sui pignoramenti",
"panoramica": [
“Condominio”,
“3 Letti”,
“3 Bagni”,
“Costruito nel 2006”,
“5 giorni su Trulia”,
“1.302 piedi quadrati”,
“$ 392/mq”,
“143 visualizzazioni”
] }
[/codice]
Esempio 2
[lingua del codice =”python”] {
"Dettagli_ampio": {
“Numero di Camere”: 4,
“Dimensioni del pavimento (in piedi quadrati)”: “1.728”
},
"Indirizzo": {
“Strada”: “638 Grant Ave”,
“Località”: “Nord Baldwin”,
“Regione”: “NY”,
“Codice postale”: “11510”
},
“Titolo”: “638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zillow”,
"Detail_Short": "638 Grant Ave, North baldwin, NY 11510-1332 è una casa unifamiliare in vendita a $ 299.000. La casa di 1.728 piedi quadrati è una proprietà con 4 letti e 2 bagni. Trova 31 foto della casa 638 Grant Ave su Zillow. Visualizza più dettagli sulla proprietà, cronologia delle vendite e dati Zestimate su Zillow. MLS # 3137924”,
“Prezzo in $”: 299000,
“Immagine”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/codice]
Raschiare i dati degli hotel dai principali portali di viaggio
I siti Web di prenotazione di hotel contengono un sacco di dati come prezzi, recensioni, valutazioni, numero di persone che hanno valutato l'hotel e altro ancora. Abbiamo mostrato come eseguire la scansione dei dati dalla più grande società di prenotazione di recensioni di hotel in un altro articolo.
Utilizzando la libreria di analisi HTML chiamata Beautiful Soup, siamo stati in grado di eseguire la scansione di più punti dati. Usando il piccolo pezzo di codice riportato di seguito, puoi visitare il sito Web, ottenere il contenuto HTML e convertirlo in un oggetto Beautiful Soup. Una volta eseguita questa operazione, l'analisi dell'oggetto e la ricerca di punti dati specifici in tag specifici che hanno determinati attributi è un'attività semplice.
[code language=”python”] warnings.simplefilter(“ignore”)#Per ignorare gli errori del certificato SSL
ctx = ssl.create_default_context()
ctx.check_hostname = Falso
ctx.verify_mode = ssl.CERT_NONE
url=input ("Inserisci l'URL dell'hotel - ")
html = urllib.request.urlopen(url, context=ctx).read()
zuppa = BeautifulSoup(html, 'html.parser')
html = soup.prettify(“utf-8”)
hotel_json = {}
[/codice]
Codice per ottenere il contenuto HTML di una pagina Web e convertirlo in un oggetto Beautiful Soup.
Raschiare i dati dei social media
Una delle maggiori fonti di dati degli utenti sono i social media. Sia che tu voglia verificare se alle persone piace una particolare canzone, un film o un'azienda, i dati dei social media possono aiutarti a comprendere i sentimenti degli utenti e tenere traccia della reputazione pubblica della tua azienda. Su PromptCloud, abbiamo raschiato i dati da Twitter️, Instagram️ e persino YouTube️. I punti dati in tutti e tre erano diversi. Ad esempio, da Instagram, lo scraping dei dati funziona in questo modo..
[code language=”python”] Utente: Ariana Grande (@arianagrande)
Seguaci: 130,5 m
A seguire: 1.348
Messaggi: 3.669
[/codice]
Dati estratti dagli account Instagram
Tuttavia, i punti dati che abbiamo raschiato da YouTube️ erano completamente diversi. Un esempio sono i dati raschiati da una famosa canzone che ha portato a una sfida online stessa.
[lingua del codice =”python”]
{
“TITLE”: “Drake – In My Feelings (Testi, Audio) “Kiki Do you love me””,
"CHANNEL_NAME": "Unità speciale",
"NUMBER_OF_VIEWS": "278.121.686 visualizzazioni",
“MI PIACE”: “2.407.688”,
“NON MI PIACE”: “114.933”,
"NUMERO_DI_ ABBONAMENTO": "614K",
"HASH_TAGS": [
“#InMyFeelings”,
“#Drake”,
“#Scorpione”
] }
[/codice]

Dati estratti dalle pagine di YouTube️
Per Twitter, va notato che avevamo bisogno di un account sviluppatore e inoltre potevamo eseguire la scansione dei tweet per ciascun account, solo fino al conteggio degli ultimi 3240 tweet di quel particolare utente. Quindi, puoi vedere che diversi esempi di web scraping possono avere approcci e risultati diversi.
Scraping testi di canzoni usando Python da siti come Genius️
Raschiare i testi delle canzoni è qualcosa che è stato fatto dalle persone da tempi immemorabili. L'unica differenza è che ora puoi eseguire la scansione dei testi delle canzoni molto più facilmente in pochi secondi, utilizzando un pezzo di codice invece di passare ore o minuti a farlo manualmente. Uno di questi esempi è questo articolo in cui abbiamo mostrato come eseguire la scansione dei testi delle canzoni e altri dati correlati da un popolare sito Web di musica chiamato Genius.
Poiché il sito Web contiene molto di più dei soli testi delle canzoni, siamo stati in grado di acquisire dati come commenti, titoli e anche la data di rilascio.
Scrape Stock Data Python da siti come quelli di Yahoo️ Finance
I dati del mercato azionario sono un enorme archivio di dati che di solito viene analizzato da persone che studiano il mercato e decidono dove scommettere. Sia i dati attuali che quelli storici hanno molto valore. Un sito Web che può essere raschiato abbastanza facilmente per acquisire informazioni sulle azioni di diverse società è Yahoo Finance. Le informazioni sulle azioni non significano solo i prezzi correnti delle azioni poiché siamo stati in grado di eseguire la scansione anche di molti altri punti dati utilizzando questo processo.
Questi sono i punti dati che abbiamo raccolto per Apple️
[lingua del codice =”python”] {
“VALORE_PRESENTE”: “198.87”,
“PRESENT_GROWTH”: “-0,08 (-0,04%)”,
"ALTRI DETTAGLI": {
“PREV_CLOSE”: “198.95”,
“APERTO”: “199.20”,
“OFFERTA”: “198,91 x 800”,
“CHIEDI”: “198,99 x 1000”,
“TD_VOLUME”: “27.760.668”,
"VOLUME_MEDIA_3MESE": "28.641.896",
“MERCATO_CAP”: “937.728B”,
"BETA_3Y": "0,91",
“PE_RATIO”: “16.41”,
“RAPPORTO_EPS”: “12.12”,
“DATA_GUADAGNO”: [
“30 aprile 2019”
],
"DIVIDEND_AND_YIELD": "2,92 (1,50%)",
"EX_DIVIDEND_DATE": "08-02-2019",
“UN_YEAR_TARGET_PRICE”: “193.12”
}
}
[/codice]
Raschiare i dati dei prodotti, i prezzi e le recensioni dai siti Web di e-commerce
Per informazioni sui diversi prodotti e sui loro attuali prezzi di mercato, non c'è posto migliore per raccogliere dati delle grandi società di eCommerce come Amazon️. Sebbene Amazon️ abbia layout di pagina diversi in diverse categorie e sottocategorie e anche in diverse regioni del mondo, puoi eseguire in sicurezza la scansione sul Web di una piccola quantità di dati in categorie limitate, come mostrato in questa pagina, dove abbiamo raschiato i dati dei prodotti e le informazioni sui prezzi .
Utilizzando il codice è possibile estrarre il prezzo di un articolo e le sue caratteristiche principali. Una volta che i collegamenti di cui dovrai eseguire la scansione regolare sono pronti, puoi eseguire il codice a una frequenza particolare. In questo modo saresti in grado di tenere traccia delle variazioni di prezzo di quell'articolo e trarne vantaggio.
Raschiare i dati dei siti Web di notizie da siti Web come BBC, New York Times, Al Jazeera
Gli aggregatori di notizie sono molto richiesti oggi. Sono uno dei migliori esempi di scraping web che hanno aiutato direttamente gli utenti ad aumentare la loro produttività. Le persone non hanno più tempo per leggere i giornali o anche intere pagine web. Allora, cosa fanno di diverso gli aggregatori di notizie?
- Gli aggregatori di notizie raccolgono notizie e mostrano solo una o due righe che spiegano in breve un articolo di notizie. Nel caso in cui desideri saperne di più, puoi fare clic su un collegamento e ti indirizzeranno a una vera e propria pagina web di notizie.
- Aggregano articoli di notizie di grandi agenzie di stampa come la BBC️ e il New York Times️ e spesso questo aiuta a fornirti un quadro più completo con maggiori dettagli.
- Con il tempo, l'app rileva i tuoi Mi piace e Non mi piace e ti presenta articoli di notizie a seconda del tuo utilizzo passato.
Vedete, queste sono alcune delle cose che contraddistinguono gli aggregatori di notizie, eppure, il primo passo in tutti questi processi è l'aggregazione dei dati, che spesso si limita a raccogliere articoli di notizie da siti Web diversi.
Raschiare i dati del lavoro
Il reclutamento è un settore che, come quello immobiliare, ha trovato un enorme impulso grazie al web scraping e al boom di Internet. Al giorno d'oggi, puoi eseguire la scansione degli elenchi di lavoro dai siti Web dell'azienda e dalle popolari bacheche di lavoro basate su Internet e quindi utilizzare i dati raccolti per potenziare la tua attività. Che tu sia una società di reclutamento o una società di consulenza o gestisci tu stesso una bacheca di lavoro, lo scraping dei dati sul lavoro è d'obbligo. Una delle nostre numerose soluzioni di web scraping, JobsPikr, rende molto semplice ottenere elenchi di lavoro aggiornati per gestire la pianificazione strategica della forza lavoro e gestire l'azienda in modo efficiente. È uno strumento di ricerca di lavoro completamente autonomo che può procurarti un nuovo elenco di lavoro utilizzando filtri come titolo, posizione, post e altro.
Immagine di raschiamento e dati testuali necessari per la ricerca
Un'enorme quantità di dati è necessaria nei progetti di ricerca quando si lavora su diversi modelli di machine learning. Anche per addestrare il computer a distinguere tra l'immagine di un cane e un gatto, avresti bisogno di migliaia di immagini di cani e gatti. Tali requisiti di dati vengono risolti attraverso soluzioni di web scraping e gli scienziati oggi eseguono la scansione delle immagini di Google e di altre fonti di immagini per ottenere immagini per i loro progetti. Ho usato i dati di Twitter per raccogliere immagini che sono state caricate sul sito di social media durante un'alluvione. Stavo cercando di separare le immagini che erano legate al diluvio da quelle che non lo erano.
Web scraping per la creazione di contenuti
Le aziende devono creare regolarmente contenuti di alta qualità per aumentare la visibilità, educare i clienti, costruire un marchio e aumentare le vendite. Raschiare i contenuti su Internet aiuta le persone del marketing e della pubblicità a ottenere idee migliori, fare brainstorming e trovare nuovi modi per attirare clienti e aumentare le vendite.
Mentre abbiamo spiegato alcuni degli esempi di scraping web, le possibilità sono infinite e lo scraping web è qualcosa che può essere sfruttato da diverse aziende in diversi scenari. Alla fine della giornata, aiuta a rendere i processi e le decisioni più intelligenti utilizzando la potenza dei dati.
