Utilizarea Foilor de calcul Google ca un element de răzuire web de bază – Ghidul lui PromptCloud

Publicat: 2022-11-08

Cuprins arată

Google Suite ca un Web Scraper

Sintaxă pentru a extrage datele web în foi

ImportXML

ImportHTML

ImportFEED

ImportData și ImportRange

Importarea datelor de pe site-uri web

Fișa Google: Tabele

Anteturi și titluri

Feed de conținut

Limitări ale utilizării foilor ca racletor

Concluzie

Google Suite ca un Web Scraper

Foile Google au câteva funcționalități fantastice și ușurință de accesibilitate. Face cea mai mare parte a sarcinilor grele pentru extragerea anumitor puncte și secțiuni de date. Scraping sheets Google pentru datele site-ului funcționează prin utilizarea sintaxei de import și familiarizarea cu scriptul Google sau cu un add-on Python. După cum arată cercetarea, documentele de scraping web funcționează cel mai bine cu persoanele care analizează site-urile web și forumurile în mod regulat. Inginerii noștri de date și directorii de produs folosesc produse precum PromptCloud, pentru o experiență mai robustă, pentru scanarea datelor web. În acest blog, găsiți informații despre utilizarea formulelor Google Suite, despre cum să importați date de pe site-uri web și despre limitările utilizării foilor Google ca răzuitor web. Dar, mai întâi, să începem prin a ne uita la formulele de structurare a datelor.

Sintaxă pentru a extrage datele web în foi

Mai jos sunt menționate formulele de scraping web pe care le puteți utiliza pentru a extrage date.

ImportXML

Această sintaxă este folosită pentru a obține date dintr-o adresă URL structurată construită pe fluxuri HTML și XML. Puteți obține detalii despre titlurile paginilor, date și numele autorilor. Folosind o interogare, puteți decide ce secțiune a paginii web să răzuiți. Această funcție acceptă și fluxurile CSV și ATOM XML fără a utiliza un cod. Scanați adresa URL a paginii web și, folosind XPath, găsiți secțiunea pentru a naviga prin elemente. Datele scanate pot fi atribuite unui document XML. Începeți cu un nou document Google Sheet și adăugați adresa URL a paginii web din care doriți să răzuiți datele. Când găsiți Xpath-ul elementului, utilizați sintaxa ImportXML și obțineți date web structurate. Treceți cu mouse-ul peste secțiune, accesați opțiuni, faceți clic pe inspectați și alegeți Copiați Xpath pentru a extrage datele în noua foaie.

Introduceți URL-ul Xpath în foi cu câteva modificări minore, mai ales dacă utilizați Chrome. Adresele URL copiate din acest browser includ întotdeauna calea între paranteze duble. Cu toate acestea, pentru a răzui site-ul, parantezele duble trebuie schimbate cu un singur ghilimeleu. De asemenea, modificați titlul paginii pentru a începe și trimiteți interogarea pentru a captura elementele principale ale paginii web. În câteva secunde, interogarea returnează informațiile din foaia Google într-un format structurat.

ImportHTML

Această sintaxă este utilizată în principal pentru crearea de liste și importarea tabelelor de pe site. Această funcție nu numai că va importa cu ușurință tabelul, dar va continua și actualizarea datelor extrase la intervale regulate. O scanare de sintaxă HTML pentru puncte de date, cum ar fi eticheta de tabel, lista neordonată și eticheta de listă ordonată în text pentru a copia datele din pagina web. Pentru importarea datelor prin HTML, adresa URL trebuie inclusă între ghilimele duble cu indexarea corectă a tabelului. Procesul devine dificil dacă aveți mai multe tabele de scanat pe pagină. Aici va trebui să operați scanarea folosind consola pentru dezvoltatori sau meniul folosind F12 de pe tastatură. Copiați formula în consolă pentru indexarea elementelor.

Pentru a importa doar anumite coloane sau rânduri, puteți utiliza filtrul din sintaxă pentru a prelua date. Ca o setare generală de costum Google, documentul se reîmprospătează la fiecare oră. Cu toate acestea, dacă aveți nevoie de date în timp real, puteți configura viteza de reîmprospătare în consecință. Pentru a automatiza reîmprospătarea paginii, folosiți un declanșator precum code.gs și myfunction. De asemenea, trimite notificări dacă declanșatorul nu mai funcționează sau nu mai reîmprospătează tabelele. Foi de calcul Google poate gestiona până la 50 de solicitări recurente ImportHTML.

ImportFEED

Această sintaxă este utilizată pentru scanarea conținutului dintr-o pagină direct în foile Google. ImportFeed vă oferă acces la RSS și feeduri granulare pentru importarea automată a datelor. Trimiteți o interogare pentru a importa datele folosind coduri precum StartRow pentru a selecta același rând pentru a copia datele și NumberRow pentru a cuantifica cantitatea de date scanate. Când specificați intervalul de celule, datele sunt importate din fluxurile Atom printr-o cale URL specificată. Datele preluate de această sintaxă sunt utile pentru înțelegerea blogurilor și articolelor. Utilizarea argumentelor precum interogare și antet va spune în mod specific crawler-ului ce informații sunt necesare și din ce cale.

ImportData și ImportRange

Sintaxa de mai sus, ImportData este folosită pentru scanarea și copierea datelor din diferite surse și foi Google. În timp ce ImportRange copie o secțiune a paginii web. După cum sugerează și numele, intervalul de import este cea mai importantă și utilă funcție din foile Google, deoarece poate copia celule din foi de calcul independente. Folosind o interogare, puteți căuta, filtra și sorta datele ca orice alt set de date. Interogarea ca funcție economisește mult timp în timp ce se ocupă cu mai multe foi de calcul și poate fi folosită în tandem pentru oricare două formule. După cum sa observat, interogarea ajută la manipularea datelor în mai multe moduri, iar funcționalitatea de import decide modul în care sunt afișate datele.

Importarea datelor de pe site-uri web

Am văzut cum să folosim formulele Google Suite pentru a ușura efortul de cercetare și a învăța cum să importați date de pe site-uri web. Obținerea experienței practice în aceste două lucruri vă va oferi încrederea necesară pentru a efectua scraping web folosind foile Google pentru sarcinile zilnice.

Fișa Google: Tabele

Razuirea tabelelor de pe site este ușoară, dar trebuie efectuată corect. Faceți clic pe orice celulă goală, scrieți sintaxa Import și inserați URL-ul pe care doriți să o răzuiți și adăugați numărul tabelului la adresa URL. Executați această funcție și veți vedea foaia de calcul populată cu un întreg tabel. Utilizați matricea de valori din funcția de index pentru a filtra rândurile și coloanele.

Anteturi și titluri

Această funcționalitate este mai bună pentru a scana titlurile și titlurile articolelor de știri și cele mai recente bloguri. Odată ce identificați adresa URL specifică și un identificator în scriptul HTML care poate direcționa crawler-ul către anteturi. Această metodă este utilă atunci când aveți peste 50 de site-uri web de scanat pentru a vă face o opinie asupra unui subiect. Deoarece fiecare site web este construit diferit, URL-ul de identificare continuă să se schimbe și atunci un instrument de scraping web precum PromptCloud poate fi de ajutor pentru a răspunde nevoilor dvs. de afaceri.

Feed de conținut

Această funcționalitate poate fi folosită pentru a importa tot conținutul recent de pe site-uri web, bloguri și articole. Puteți filtra aceste date trimițând interogări pe blogurile de top și blogurile recente. De asemenea, trimiteți o interogare pe URL pentru a vă crea propria listă de feeduri. Această metodă este folosită în principal de companii pentru a ține evidența modului în care concurenții publică actualizări de conținut pe site-urile lor web și pe paginile de rețele sociale.

Limitări ale utilizării foilor ca racletor

Utilizarea de bază a foilor Google nu este pentru răzuirea datelor web. Așadar, ne putem aștepta la limitări în timpul utilizării foilor atunci când se ține cont de cantitatea și rata la care datele sunt răzuite. De îndată ce numărul de scraping depășește 50 de rânduri sau 100, Google pur și simplu se blochează sau revine cu o eroare. Lucrurile simple precum înțelegerea conținutului web și separarea acestuia în consecință sunt sortate folosind funcționalitățile Google.

Concluzie

Folosind foile Google, puteți răzui date H1, titluri, descrieri și link-uri de pagină. Atât de mult încât puteți extrage conținut în afara paginii, cum ar fi meta titluri și descrieri de pe o pagină web. De asemenea, puteți răzui pagini web cu mai mulți autori combinând codurile de import și indexare. În general, foaia de calcul Google vă va oferi o experiență bună pentru răzuirea datelor web, atâta timp cât cantitatea poate fi cuantificabilă și este predefinită. Este cel mai bine pentru proiecte mici la nivel de echipă sau funcționează perfect pentru realizarea unui proiect de cercetare universitar. Dacă aveți proiecte la scară largă, contactați [email protected] pentru personalizare web scraping.