Cele mai bune exemple de web scraping - de Promptcloud

Publicat: 2019-08-19
Cuprins arată
Razuirea datelor imobiliare folosind Python
Scraping datele despre hotel de pe cele mai importante portaluri de călătorie
Razuirea datelor din rețelele sociale
Scraping Song Lyrics folosind Python de pe site-uri precum Genius️
Scrape Stock Data Python de pe site-uri ca cele de la Yahoo️ Finance
Răzuiți datele despre produse, prețurile și recenziile de pe site-urile de comerț electronic
Scrape News Site-uri Date de pe site-uri precum BBC, New York Times, Al Jazeera
Scraping Data Job
Razuirea imaginilor și a datelor textuale necesare pentru cercetare
Web Scraping pentru crearea de conținut

Datele au devenit o componentă cheie a strategiei de creștere pentru fiecare companie. Când vine vorba de colectarea datelor, sunt disponibile o mulțime de surse. Cu toate acestea, colectarea manuală a datelor este dificilă din două motive: a) șansa crescută de greșeli și b) proces care necesită timp. O modalitate mai bună de a colecta date este să accesați cu crawlere datele de pe web, pe scurt, web scraping. Odată ce ați configurat un sistem pentru a accesa cu crawlere datele de pe anumite site-uri și a utiliza datele răzuite în fluxul de lucru al afacerii, puteți continua să utilizați același sistem timp de mulți ani. Astăzi vom discuta câteva dintre cele mai importante exemple de web scraping pe care le-am întâlnit la PromptCloud.

Razuirea datelor imobiliare folosind Python

Aceasta este una dintre cele mai căutate date din lume. Majoritatea cărților sau cursurilor de învățare automată încep cu un set de case, detaliile și prețurile acestora pentru a preda regresia liniară înainte de a trece la modele complexe de ML. Unele dintre cele mai bune site-uri imobiliare din SUA conțin milioane de înregistrări de case atât pe piață, cât și în afara acesteia. Acestea conțin chiar și prețuri de închiriere, estimări ale prețurilor caselor după câțiva ani, etc. Am răzuit datele de pe site-uri de top și puteți verifica aceste link-uri împreună cu fișierele JSON cu mai multe puncte de date.

Exemplul 1

[code language=”python”] {
„descriere”: „327 101st St # 1A, Brooklyn, NY este o casă cu 3 paturi, 3 băi, 1302 sq ft aflată în executare silită. Conectați-vă la Trulia pentru a primi toate informațiile despre executare silită.”,
„link”: „https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"Preț": {
„suma”: „510000”,
„valută”: „USD”
},
„descriere amplă”: „Unitate duplex foarte mare, cu etajul 1, cu o cameră de agrement finisată, o cameră de divertisment și o jumătate de baie. Al doilea nivel are 2 dormitoare, 2 băi complete, o cameră de zi/sufragerie și un spațiu în aer liber. Există vederi la podul Verrazano.n Consultați ghidurile noastre de executare silită”,
"Prezentare generală": [
„Condo”,
„3 paturi”,
„3 băi”,
„Construit în 2006”,
„5 zile pe Trulia”,
„1.302 sqft”,
„392 USD/mp”,
„143 vizualizări”
] }
[/cod]

Exemplul 2

[code language=”python”] {
„Details_Broad”: {
„Număr de camere”: 4,
„Dimensiunea podelei (în mp)”: „1.728”
},
"Abordare": {
„Strada”: „638 Grant Ave”,
„Localitate”: „North Baldwin”,
„Regiune”: „NY”,
„Cod poștal”: „11510”
},
„Titlu”: „638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zillow”,
„Detail_Short”: „638 Grant Ave , North Baldwin, NY 11510-1332 este o casă unifamilială listată spre vânzare la 299.000 USD. Casa de 1.728 mp este o proprietate cu 4 paturi și 2 băi. Găsiți 31 de fotografii ale casei 638 Grant Ave din Zillow. Vedeți mai multe detalii despre proprietate, istoricul vânzărilor și datele Zestimate pe Zillow. MLS # 3137924”,
„Preț în USD”: 299000,
„Imagine”: „https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/cod]

Scraping datele despre hotel de pe cele mai importante portaluri de călătorie

Site-urile web de rezervare la hotel conțin o mulțime de date, cum ar fi prețuri, recenzii, evaluări, numărul de persoane care au evaluat hotelul și multe altele. Am arătat cum să accesăm cu crawlere datele de la cea mai mare companie de rezervare a recenziilor hoteliere într-un alt articol.

Folosind biblioteca de analiză HTML numită Beautiful Soup, am putut să accesăm cu crawlere mai multe puncte de date. Folosind fragmentul mic de cod prezentat mai jos, puteți accesa site-ul web, puteți obține conținutul HTML și îl puteți converti într-un obiect Beautiful Soup. Odată făcut acest lucru, analizarea obiectului și găsirea anumitor puncte de date în etichete specifice care au anumite atribute este o sarcină simplă.

[code language=”python”] warnings.simplefilter(„ignore”)#Pentru ignorarea erorilor de certificat SSL
ctx = ssl.create_default_context()
ctx.check_hostname = Fals
ctx.verify_mode = ssl.CERT_NONE
url=input(„Introduceți adresa URL a hotelului – „)
html = urllib.request.urlopen(url, context=ctx).read()
supă = BeautifulSoup(html, 'html.parser')
html = sup.prettify(„utf-8”)
hotel_json = {}
[/cod]

Cod pentru a obține conținutul HTML al unei pagini web și a-l converti într-un obiect Beautiful Soup.

Razuirea datelor din rețelele sociale

Una dintre cele mai mari surse de date despre utilizatori este rețelele sociale. Indiferent dacă doriți să verificați dacă oamenilor le place o anumită melodie, un film sau o companie, datele din rețelele sociale vă pot ajuta să înțelegeți sentimentele utilizatorilor, precum și să urmăriți reputația publică a companiei dvs. La PromptCloud, am răzuit date de pe Twitter️, Instagram️ și chiar YouTube️. Punctele de date din toate trei au fost diferite. De exemplu, de pe Instagram, răzuirea datelor funcționează așa..

[code language=”python”] Utilizator: Ariana Grande (@arianagrande)
Urmatori: 130,5 m
Urmează: 1.348
Posturi: 3.669
[/cod]

Date răzuite din conturile de Instagram

Cu toate acestea, punctele de date pe care le-am îndepărtat de pe YouTube️ au fost complet diferite. Un exemplu sunt datele extrase dintr-o melodie celebră care a dus la o provocare online.

[limbajul codului=”python”]

{
„TITLU”: „Drake – In My Feelings (Versuri, Audio) „Kiki Do you love me””,
„CHANNEL_NAME”: „Unitate specială”,
„NUMBER_OF_VIEWS”: „278.121.686 de vizualizări”,
„APLICAȚI”: „2.407.688”,
„NU-I PACE”: „114.933”,
„NUMBER_OF_SUBSCRIPTIONS”: „614K”,
„HASH_TAGS”: [
„#InMyFeelings”,
„#Drake”,
"#Scorpion"
] }
[/cod]

Date răzuite din paginile YouTube️

Pentru Twitter, trebuie remarcat că aveam nevoie de un cont de dezvoltator și, de asemenea, puteam accesa cu crawlere tweet-urile pentru fiecare cont, doar până la numărarea ultimelor 3240 de tweet-uri ale respectivului utilizator. Prin urmare, puteți vedea că diferite exemple de web scraping pot avea abordări diferite, precum și rezultate.

Scraping Song Lyrics folosind Python de pe site-uri precum Genius️

Scraping lyrics melodie este ceva care a fost făcut de oameni din vremuri imemoriale. Singura diferență este că acum puteți accesa cu crawlere versurile melodiilor mult mai ușor în câteva secunde, folosind o bucată de cod în loc să petreceți ore sau minute făcând asta manual. Un astfel de exemplu este acest articol în care am arătat cum să accesăm cu crawlere versurile melodiilor și alte date asociate de pe un site web de muzică populară numit Genius.

Întrucât site-ul web conține mult mai mult decât versuri ale cântecului, am putut captura și puncte de date precum comentarii, titluri și data lansării.

Scrape Stock Data Python de pe site-uri ca cele de la Yahoo️ Finance

Datele bursiere sunt un depozit uriaș de date care sunt de obicei analizate de oameni care studiază piața și decid unde să-și pună pariurile. Atât datele actuale, cât și cele istorice sunt de mare valoare. Un site web care poate fi răzuit destul de ușor pentru a capta informații despre stocuri despre diferite companii este Yahoo Finance. Informațiile despre stoc nu înseamnă doar prețurile actuale ale acțiunilor, deoarece am putut accesa cu crawlere și multe alte puncte de date folosind acest proces.

Acestea sunt punctele de date pe care le-am răzuit pentru Apple️

[code language=”python”] {
„PRESENT_VALUE”: „198,87”,
„PRESENT_GROWTH”: „-0,08 (-0,04%)”,
"ALTE DETALII": {
„PREV_CLOSE”: „198,95”,
„DESCHIS”: „199.20”,
„BID”: „198,91 x 800”,
„ASK”: „198,99 x 1000”,
„TD_VOLUME”: „27.760.668”,
„AVERAGE_VOLUME_3MONTH”: „28.641.896”,
„MARKET_CAP”: „937.728B”,
„BETA_3Y”: „0,91”,
„PE_RATIO”: „16.41”,
„EPS_RATIO”: „12.12”,
„EARNINGS_DATE”: [
„30 aprilie 2019”
],
„DIVIDEND_AND_YIELD”: „2,92 (1,50%)”,
„EX_DIVIDEND_DATE”: „2019-02-08”,
„ONE_YEAR_TARGET_PRICE”: „193,12”
}
}
[/cod]

Răzuiți datele despre produse, prețurile și recenziile de pe site-urile de comerț electronic

Pentru informații despre diferite produse și prețurile lor actuale de piață, nu există un loc mai bun pentru a aduna date decât marile companii de comerț electronic precum Amazon️. Deși Amazon️ are diferite aspecte de pagină în diferite categorii și subcategorii și chiar în diferite regiuni din întreaga lume, puteți accesa cu crawlere web în siguranță o cantitate mică de date în categorii limitate, așa cum am arătat în această pagină, unde am răzuit datele despre produse și informațiile despre prețuri. .

Folosind codul, puteți extrage prețul unui articol și caracteristicile sale de top. Odată ce linkurile pe care va trebui să le accesați cu crawlere în mod regulat sunt gata, vă puteți rula codul la o anumită frecvență. În acest fel, veți putea urmări modificările de preț ale acelui articol și veți putea profita de el.

Scrape News Site-uri Date de pe site-uri precum BBC, New York Times, Al Jazeera

Agregatoarele de știri sunt la mare căutare astăzi. Ele reprezintă unul dintre cele mai bune exemple de web scraping care i-au ajutat direct pe utilizatori să-și crească productivitatea. Oamenii nu mai au timp să parcurgă ziare sau chiar pagini web întregi. Deci, ce fac diferit agregatorii de știri?

  • Agregatorii de știri adună știri și arată doar un rând sau două care explică pe scurt un articol de știri. În cazul în care doriți să aflați mai multe, puteți face clic pe un link și vă vor direcționa către o pagină web de știri reală.
  • Aceștia cumulează articole de știri de la agenții de presă mari precum BBC️ și New York Times️ și adesea acest lucru vă ajută să vă oferiți o imagine mai completă, cu mai multe detalii.
  • Cu timpul, aplicația vă stabilește preferințele și antipatiile și vă prezintă articole de știri în funcție de utilizarea dvs. anterioară.

Vedeți, acestea sunt câteva dintre lucrurile care îi deosebesc pe agregatorii de știri și, totuși, primul pas în toate aceste procese este agregarea datelor, care de multe ori este doar răzuirea articolelor de știri de pe diferite site-uri web.

Scraping Data Job

Recrutarea este o industrie care, la fel ca industria imobiliară, a găsit un impuls uriaș datorită web scraping și a boom-ului internetului. În zilele noastre, puteți accesa cu crawlere listele de locuri de muncă atât de pe site-urile web ale companiei, cât și de la popularele panouri de locuri de muncă bazate pe internet și apoi puteți utiliza datele colectate pentru a vă stimula afacerea. Indiferent dacă sunteți o firmă de recrutare sau o companie de consultanță sau dacă conduceți singur un job board, răzuirea datelor despre job este o necesitate. Una dintre numeroasele noastre soluții de web scraping, JobsPikr, face foarte simplă obținerea de liste de locuri de muncă actualizate pentru a gestiona planificarea strategică a forței de muncă și gestionarea eficientă a afacerii. Este un instrument complet autonom de descoperire a locurilor de muncă, care vă poate aduce o nouă listă de locuri de muncă folosind filtre precum titlu, locație, postare și multe altele.

Razuirea imaginilor și a datelor textuale necesare pentru cercetare

O cantitate imensă de date este necesară în proiectele de cercetare atunci când se lucrează pe diferite modele de învățare automată. Chiar și pentru a antrena computerul să facă diferența între imaginea unui câine și a unei pisici, ai avea nevoie de mii de imagini cu câini și pisici. Astfel de cerințe de date sunt rezolvate prin soluții de web-scraping, iar oamenii de știință accesează cu crawlere imaginile Google și alte surse de imagini pentru a obține imagini pentru proiectele lor. Am folosit datele Twitter pentru a aduna imagini care au fost încărcate pe site-ul de socializare în timpul unei inundații. Încercam să separ imaginile care erau legate de potop de cele care nu erau.

Web Scraping pentru crearea de conținut

Companiile trebuie să creeze conținut de înaltă calitate în mod regulat pentru a crește vizibilitatea, a educa clienții, a construi un brand și a crește vânzările. Reducerea conținutului de pe internet îi ajută pe cei din marketing și publicitate să obțină idei mai bune, să facă brainstorming și să vină cu noi modalități de a atrage clienți și de a crește vânzările.

În timp ce am explicat câteva dintre exemplele de web scraping, posibilitățile sunt nesfârșite și web scraping este ceva de care poate fi profitat de diferite companii în diferite scenarii. La sfârșitul zilei, ajută la luarea proceselor și a deciziilor mai inteligente folosind puterea datelor.