Utilizzo di Fogli Google come raschietto Web di base: Guida di PromptCloud

Pubblicato: 2022-11-08
Mostra il sommario
Google Suite come web scraper
Sintassi per estrarre i dati Web in fogli
ImportXML
ImportHTML
ImportFEED
ImportData e ImportRange
Importazione di dati da siti Web
Foglio Google: Tabelle
Intestazioni e titoli
Feed di contenuti
Limitazioni dell'uso dei fogli come raschietto
Conclusione

Google Suite come web scraper

I fogli di Google hanno alcune fantastiche funzionalità e facilità di accessibilità. Svolge la maggior parte del lavoro pesante per l'estrazione di punti dati e sezioni specifici. Lo scraping dei fogli di Google per i dati del sito Web funziona utilizzando la sintassi di importazione e familiarizzando con lo script di Google o un componente aggiuntivo Python. Come afferma la ricerca, i documenti di scraping web funzionano meglio con le persone che analizzano regolarmente siti Web e forum. I nostri ingegneri dei dati e i dirigenti in prima linea del prodotto utilizzano prodotti come PromptCloud, per un'esperienza più solida, per la scansione dei dati web. In questo blog trovi informazioni sull'utilizzo delle formule della suite Google, su come importare dati dai siti Web e sui limiti dell'utilizzo dei fogli Google come web scraper. Ma, prima, iniziamo guardando le formule per strutturare i dati.

Sintassi per estrarre i dati Web in fogli

Di seguito sono indicate le formule di scraping web che puoi utilizzare per estrarre i dati.

ImportXML

Questa sintassi viene utilizzata per ottenere dati da un URL strutturato basato su feed HTML e XML. Puoi ottenere dettagli sui titoli delle pagine, le date e i nomi degli autori. Usando una query puoi decidere quale sezione della pagina web raschiare. Questa funzione supporta anche feed CSV e ATOM XML senza utilizzare un codice. Scansiona l'URL della pagina web e utilizzando XPath trova la sezione per navigare tra gli elementi. I dati scansionati possono essere attribuiti a un documento XML. Inizia con un nuovo documento del foglio di Google e aggiungi l'URL della pagina Web da cui desideri estrarre i dati. Quando trovi l'Xpath dell'elemento, usa la sintassi ImportXML e ottieni dati web strutturati. Passa il mouse sopra la sezione, vai alle opzioni, fai clic su ispeziona e scegli copia Xpath per estrarre i dati nel nuovo foglio.

Introduci l'URL di Xpath nei fogli con alcune piccole modifiche, specialmente se stai utilizzando Chrome. Gli URL copiati da questo browser racchiudono sempre il percorso tra doppie parentesi. Tuttavia, per raschiare il sito Web, le doppie parentesi devono essere modificate in un'unica citazione. Inoltre, modifica il titolo della pagina per iniziare e invia la query per acquisire gli elementi principali della pagina web. In pochi secondi, la query restituisce le informazioni nel foglio di Google in un formato strutturato.

ImportHTML

Questa sintassi viene utilizzata principalmente per la creazione di elenchi e l'importazione di tabelle dal sito Web. Questa funzione non solo importerà facilmente la tabella, ma continuerà anche ad aggiornare i dati estratti a intervalli regolari. Una scansione della sintassi HTML per punti dati come tag tabella, elenco non ordinato e tag elenco ordinato all'interno del testo per copiare i dati dalla pagina Web. Per importare dati tramite HTML, l'URL deve essere racchiuso tra virgolette con un'adeguata indicizzazione della tabella. Il processo diventa complicato se hai più di una tabella da scansionare sulla pagina. Ecco dove dovrai eseguire la scansione utilizzando la console per sviluppatori o il menu utilizzando F12 sulla tastiera. Copia la formula nella console per l'indicizzazione degli elementi.

Per importare solo colonne o righe specifiche, puoi utilizzare il filtro nella sintassi per recuperare i dati. Come impostazione generale del seme di Google, il documento si aggiorna ogni 1 ora. Tuttavia, se hai bisogno di dati in tempo reale, puoi impostare la velocità di aggiornamento di conseguenza. Per automatizzare l'aggiornamento della pagina, l'utilizzo di un trigger come code.gs e myfunction farà il trucco. Invia anche notifiche se il trigger smette di funzionare o smette di aggiornare le tabelle. Fogli Google può gestire fino a 50 richieste ricorrenti ImportHTML.

ImportFEED

Questa sintassi viene utilizzata per scansionare il contenuto da una pagina direttamente nei fogli di Google. ImportFeed ti dà accesso a feed RSS e granulari per l'importazione automatica dei dati. Invii una query per importare i dati utilizzando codici come StartRow per selezionare la stessa riga per copiare i dati e NumberRow per quantificare la quantità di dati scansionati. Quando specifichi l'intervallo di celle, i dati vengono importati dai feed Atom tramite un percorso URL specificato. I dati raccolti da questa sintassi sono utili per comprendere blog e articoli. L'uso di argomenti come query e header indicherà specificamente al crawler quali informazioni sono necessarie e da quale percorso.

ImportData e ImportRange

La sintassi di cui sopra, ImportData viene utilizzata per la scansione e la copia di dati da diverse fonti e fogli di Google. Mentre ImportRange copia una sezione della pagina web. Come suggerisce il nome, Importa intervallo è la funzione più importante e utile nei fogli di Google perché può copiare celle da fogli di calcolo indipendenti. Utilizzando una query puoi cercare, filtrare e ordinare i dati come qualsiasi altro set di dati. Query come funzione consente di risparmiare molto tempo durante la gestione di più fogli di calcolo e può essere utilizzato in tandem per due formule qualsiasi. Come osservato, la query aiuta a manipolare i dati in più modi e la funzionalità di importazione decide come vengono visualizzati i dati.

Importazione di dati da siti Web

Abbiamo visto come utilizzare le formule di Google Suite per facilitare lo sforzo di ricerca e imparare a importare dati dai siti web. L'esperienza pratica in queste due cose ti darà la sicurezza di eseguire lo scraping web utilizzando i fogli di Google per le attività quotidiane.

Foglio Google: Tabelle

Raschiare le tabelle dal sito Web è facile, ma deve essere eseguito correttamente. Fare clic su una cella vuota, scrivere la sintassi Importa e incollare l'URL che si desidera raschiare e aggiungere il numero della tabella all'URL. Esegui questa funzione e vedrai il foglio di calcolo popolato con un'intera tabella. Utilizzare la matrice di valori all'interno della funzione di indice per filtrare le righe e le colonne.

Intestazioni e titoli

Questa funzionalità è migliore per la scansione di titoli e titoli di articoli di notizie e blog più recenti. Dopo aver identificato l'URL specifico e un identificatore all'interno dello script HTML che può indirizzare il crawler verso le intestazioni. Questo metodo è utile quando hai più di 50 siti Web da scansionare per esprimere un'opinione su un argomento. Poiché ogni sito Web è costruito in modo diverso, l'identificatore Url continua a cambiare ed è allora che uno strumento di scraping web come PromptCloud può essere di aiuto per soddisfare le esigenze della tua azienda.

Feed di contenuti

Questa funzionalità può essere utilizzata per importare tutti i contenuti recenti da siti Web, blog e articoli. Puoi filtrare questi dati inviando query sui blog migliori e sui blog recenti. Inoltre, invia una query sull'URL per creare il tuo elenco di feed. Questo metodo viene utilizzato principalmente dalle aziende per tenere traccia di come i concorrenti pubblicano gli aggiornamenti dei contenuti sui loro siti Web e sulle pagine dei social media.

Limitazioni dell'uso dei fogli come raschietto

L'uso di base dei fogli di Google non è per lo scraping dei dati web. Quindi possiamo aspettarci limitazioni durante l'utilizzo dei fogli quando si tiene conto della quantità e della velocità con cui i dati vengono raschiati. Non appena il numero di scraping supera le 50 righe o 100, Google si arresta in modo anomalo o torna con un errore. Cose semplici come la comprensione del contenuto web e la segregazione di conseguenza vengono ordinate utilizzando le funzionalità di Google.

Conclusione

Usando i fogli di Google puoi raschiare dati H1, titoli, descrizioni e collegamenti a pagine. Tanto che puoi estrarre contenuti off-page come meta titoli e descrizioni da una pagina web. Puoi anche eseguire lo scraping di pagine Web multi-autore combinando i codici di importazione e di indice. Nel complesso, il foglio di lavoro di Google ti fornirà una buona esperienza per lo scraping dei dati Web purché la quantità sia quantificabile e predefinita. È meglio per piccoli progetti a livello di gruppo o funziona perfettamente per condurre un progetto di ricerca universitaria. Se hai progetti su larga scala, contatta [email protected] per lo scraping web personalizzato.