Lezioni apprese da 6 anni di scansione del Web
Pubblicato: 2017-04-18Quando l'era digitale ha iniziato a fiorire e le aziende si sono rivolte al web per le loro esigenze di big data, c'erano innumerevoli ostacoli davanti a loro. L'estrazione di dati dal Web ha comportato problemi complicati e semplicemente non è stato facile per le aziende affrontarli tutti senza perdere la concentrazione sulle loro attività principali. PromptCloud è stata fondata con l'obiettivo di aiutare le aziende ad acquisire dati dal Web, nel modo in cui ne hanno bisogno, senza dover affrontare nessuno di questi colli di bottiglia. Da quando abbiamo iniziato, abbiamo acquisito una solida esperienza in questo settore. Ora che la scansione del Web è diventata uno degli strumenti inestimabili sul fronte dell'acquisizione di big data, siamo felici di condividere ciò che abbiamo imparato dagli ultimi 6 anni di scansione del Web.

1. Il web è di natura altamente dinamica
Che tu te ne accorga o meno, il web è un mondo in continua evoluzione. Ogni sito subisce una sorta di cambiamento su base giornaliera. Potrebbe trattarsi di gestione del codice, correzioni di falle di sicurezza, aggiunta di nuove offerte o semplicemente modifiche al design. Sebbene la maggior parte di tali modifiche possa sembrare insignificante per i visitatori umani, queste modifiche hanno il potenziale per interrompere i bot di scansione del Web. La modifica dei nomi delle classi, l'aggiunta di nuovi elementi o anche le minime modifiche al design possono causare interruzioni durante la scansione. Questa natura altamente dinamica del web ci ha insegnato l'importanza di disporre di un solido sistema di monitoraggio per rilevare i cambiamenti del sito. Questa costante necessità di monitoraggio non solo aumenta il costo complessivo dell'estrazione dei dati, ma la rende anche tecnicamente complicata.
2. Con l'evoluzione delle tecnologie web, i siti web stanno diventando complessi e più non uniformi
Sono finiti i giorni in cui i siti Web venivano realizzati utilizzando semplici HTML e PHP. Gli sviluppatori Web ora utilizzano pratiche di codifica moderne per fornire ai visitatori un'esperienza utente fluida. Ciò ha aumentato in larga misura la complessità dei siti web. Mentre l'esperienza dell'utente sta diventando più semplice, il back-end sta diventando complesso. La maggior parte dei siti Web moderni utilizza le chiamate AJAX per sincronizzare dinamicamente i dati dal database alla pagina live, rendendo il sito Web più dinamico e potente. Il recupero dei dati diventa ancora più difficile con le chiamate AJAX nell'immagine, poiché spesso richiederebbe l'emulazione di un vero visitatore umano. Pertanto, abbiamo costantemente aggiornato il nostro stack tecnologico per gestire casi come questi e soddisfare qualsiasi esigenza di scansione del Web.
3. Il recupero dei dati dalle pagine web fa solo il 10% del gioco di acquisizione dati
L'acquisizione dei dati non riguarda solo lo scraping dei dati da una pagina Web live su Internet. In effetti, il recupero dei dati è solo un piccolo passo con cui inizia il gioco di acquisizione dei dati. I dati raschiati sono spesso enormi e all'inizio richiederebbero un sistema di archiviazione adeguato. I server distribuiti vengono utilizzati per archiviare i dati recuperati, il che aiuta a migliorare la velocità di elaborazione e ridurre la latenza. La conservazione dei dati è un'altra sfida che richiede backup automatici frequenti. Anche la pulizia e la strutturazione dei dati per renderli compatibili con le applicazioni è una parte essenziale dell'acquisizione dei dati. Con l'aumento della quantità di dati trattati, è necessario configurare una pipeline di dati affidabile per recuperare regolarmente questi set di dati. Ci sono una serie di processi in esecuzione dietro una soluzione di scansione del Web di quanto non sembri.

4. La maggior parte delle aziende non ha stanziato un budget per la scansione dei dati
La maggior parte delle aziende tende ad allocare un budget comune per il proprio progetto di dati senza tener conto delle fasi importanti e autonome che ne fanno parte. L'acquisizione dei dati in sé è un processo impegnativo e meritevole di attenzione che dovrebbe avere un budget esclusivo. Con un budget ristretto per occuparti del progetto dati, ti ritroveresti ad esaurire circa il 50% di esso solo acquisendo dati web. È quindi fondamentale avere una migliore comprensione dei punti di costo associati all'acquisizione dei dati.
5. Disattivare i bot può avere un impatto negativo sull'esposizione e sul traffico del sito web
I web crawling spider, noti anche come bot, contribuiscono a circa il 61% del traffico Internet. Molte aziende commettono l'errore di presumere che il traffico proveniente dai bot sia irrilevante o addirittura dannoso. Questo è il motivo per cui alcuni arrivano al punto di non consentire del tutto i bot tramite il robots.txt. Poco sanno dei vantaggi positivi forniti dai bot. Molti bot gestiti da siti di aggregazione di feed, motori di ricerca, blog o directory aziendali servono come mezzo di esposizione ai siti. In poche parole, quando blocchi i bot, stai rendendo difficile per il tuo sito web ottenere backlink, visibilità e traffico.
6. I siti Web non memorizzano più tutto il contenuto nel codice
Un decennio fa, la maggior parte dei siti Web aveva tutti i propri contenuti nel codice sorgente della pagina. Questo di solito significava caricare tutto il contenuto di una pagina ogni volta che l'utente la ricarica poiché la memorizzazione nella cache non è possibile qui. È stato anche un incubo per gli sviluppatori che hanno dovuto fare i conti con questo pasticcio di codice. Le pratiche di codifica si sono evolute drasticamente da allora e la maggior parte dei siti Web ora segue le migliori pratiche come il caricamento asincrono di script, l'evitare CSS in linea ecc. Le pratiche di codifica sul Web si sono evolute molto nell'ultimo decennio.
7. Il 26% di tutti i siti web gira su WordPress
WordPress è un sistema di gestione dei contenuti molto popolare e un'ampia quota di siti Web su Internet viene eseguita su questa piattaforma. Dei milioni di siti Web che abbiamo scansionato finora, circa il 26% di essi è stato realizzato utilizzando WordPress. Ciò indica la versatilità di WordPress come CMS e riteniamo che la popolarità sia ben meritata.
8. Le aziende credono di poter eseguire la scansione dei dati senza alcun know-how tecnologico
Molte aziende che non sono ben informate su quanto sia davvero complicato un processo di estrazione dei dati commettono l'errore di utilizzare uno strumento fai-da-te o una configurazione di scansione interna. Gli strumenti fai-da-te potrebbero sembrare una soluzione interessante considerando il modo in cui vengono pubblicizzati come strumenti di estrazione dati facili da usare. Tuttavia, la loro semplicità ha un prezzo. Questi strumenti non sono in grado di gestire un'esigenza di estrazione di dati seria e su larga scala e sono pensati per l'estrazione di livello base in cui il sito di destinazione è semplice e la qualità dei dati non è un problema.
Sebbene l'esternalizzazione dell'estrazione dei dati Web a un fornitore possa liberare risorse e il personale tecnico sarà più concentrato sull'applicazione dei dati, tieni presente che avrai comunque bisogno di personale tecnico da parte tua per accedere e archiviare i dati.
La scansione del Web è un processo di nicchia
Dai nostri anni di esperienza con la scansione e il recupero di dati da milioni di siti Web per centinaia di clienti, una cosa è chiara: sono necessari un team dedicato e risorse di fascia alta per eseguire un processo di estrazione dei dati Web. Le tecniche che ora abbiamo utilizzato per rendere l'estrazione più veloce, efficiente e priva di errori sono il prodotto di anni di esperienza e di armeggiare. Potresti facilmente eludere questa barriera tecnica esternalizzando a noi il tuo progetto di estrazione di dati web e dedicando più tempo al core business.
