Web scraping nell'era del GDPR: impatto e opportunità
Pubblicato: 2018-09-05Come sempre, prima le cose. Se vai su Google GDPR, è probabile che questa definizione di Wikipedia venga in cima
Il regolamento generale sulla protezione dei dati
"Il regolamento generale sulla protezione dei dati (UE) 2016/679 ("GDPR") è un regolamento nel diritto dell'UE sulla protezione dei dati e la privacy per tutti gli individui all'interno dell'Unione Europea (UE) e dello Spazio economico europeo (SEE). Si occupa anche dell'esportazione di dati personali al di fuori delle aree dell'UE e del SEE. Il GDPR mira principalmente a dare il controllo alle persone sui propri dati personali e a semplificare l'ambiente normativo per gli affari internazionali unificando il regolamento all'interno dell'UE".
Non troppo chiaro, vero? Bene, ciò che sostanzialmente significa è che, quando raccogli, elabori, vendi o acquisti dati personali di clienti che vivono nell'UE, così come nei paesi SEE di Islanda, Liechtenstein e Norvegia, devi assicurarti che hai il consenso esplicito degli utenti per la memorizzazione o il trasferimento delle informazioni. Non puoi dire che "Il cliente ha digitato questi dettagli in un modulo o in un campo dati nel mio sito Web, quindi li sto archiviando". No, è necessario richiedere un'autorizzazione esplicita e anche il cliente dovrebbe avere un'opzione di rinuncia, nel caso in cui la persona decida di non volere che i propri dati siano pubblicamente disponibili in seguito.
Questo quadro normativo offre sia opportunità che restrizioni sul tavolo. Le aziende che utilizzano il web-scraping come strumento possono potenziare le loro attività aiutando gli altri a essere conformi al GDPR e, allo stesso tempo, devono anche assicurarsi di non raschiare informazioni private dei cittadini dell'UE (e di qualsiasi persona per quella materia ) senza il loro consenso. Discuteremo entrambe le facce della medaglia.
In che modo il GDPR infligge un duro colpo alle aziende che raschiano le informazioni personali?
Il GDPR tratta rigorosamente i dati personali, per assicurarsi che le persone non possano fare un uso ingiusto dei dati. Gli ultimi scandali che hanno coinvolto Cambridge Analytica e Facebook hanno effettivamente portato la necessità di un tale quadro di fronte alle persone. I dati sono potere e, nelle mani sbagliate, possono persino influenzare i risultati elettorali delle nazioni più potenti del mondo. Quindi, nel caso in cui lavori con dati relativi a descrizioni di prodotti, dettagli tecnici e così via, non devi preoccuparti del GDPR. La maggior parte dei fornitori di servizi di scraping web come PromptCloud, infatti, non esegue la scansione delle informazioni personali. Alcune aziende eseguono la scansione delle e-mail che utilizzano per campagne di marketing e lead generation.
Ma sfortunatamente per gli scraper di posta elettronica (o fortunatamente per i clienti), anche e-mail e numeri di cellulare rientrano nell'ambito delle informazioni personali ai sensi del GDPR e è necessario il consenso prima di cancellarlo. La maggior parte delle aziende sta affrontando questo problema creando strumenti semplici (calcolatore delle tasse, calcolatore patrimoniale e altro) che a loro volta fungono da motori di raccolta dati per le aziende. Tuttavia, le regole non si applicano solo alle future attività di web scraping, ma anche ai dati che hai attualmente archiviato nel tuo database. Devi assicurarti che per tutti i dati personali che hai nel tuo database; hai il consenso dei proprietari.
Per riassumere, ci sono tre fattori principali con cui le aziende devono fare i conti quando si parla di GDPR:
- Ottieni il consenso: secondo la legge, se desideri memorizzare il nome, l'indirizzo e-mail o anche gli indirizzi IP dei clienti, devi chiedere loro il consenso.
- Segnala violazione dei dati: i dati archiviati dalle aziende sono vulnerabili agli hack. A volte, quando si verificano violazioni dei dati, non vengono segnalate per paura del contraccolpo pubblico e di un circo mediatico. Questo non può continuare sotto GDPR. Le aziende hanno solo 3 giorni (72 ore), per informare gli utenti, in caso di violazione dei dati.
- Non è possibile raccogliere dati extra: ogni volta che stai eseguendo lo scraping dei dati, ogni singolo pezzo che esegui la scansione, il report è stato eseguito e devi avere un motivo valido per lo scraping. Non puoi semplicemente indicare "esigenze future" come motivo per raschiare determinati campi di dati, che attualmente non ti servono, ma stai comunque raccogliendo. Potrebbe portare a una pesante multa.
Ma vedi, le opportunità che sono emerse dal GDPR superano di gran lunga le restrizioni.

In che modo il GDPR può aumentare la base di clienti delle aziende di web scraping?
Le aziende di sicurezza e conformità sono quelle che traggono il massimo vantaggio dal GDPR. Non solo la loro base di clienti è aumentata di molto durante la notte. Le linee guida del GDPR chiedono alle aziende di assicurarsi che le violazioni dei dati siano costantemente monitorate. Ciò ha portato le grandi aziende a stringere partnership per essere conformi al GDPR. Il settore dei servizi ne ha beneficiato enormemente perché la maggior parte delle aziende è stata colta all'oscuro e impreparata quando le linee guida sono entrate effettivamente in azione.
La maggior parte delle grandi aziende tecnologiche ha a che fare con milioni di clienti e migliaia di fornitori e attualmente non dispone di un sistema per mappare tutti i propri dati e trovare quali di essi sono informazioni personali e devono essere adeguatamente protetti. È qui che entrano in gioco le aziende di web scraping. La verifica delle pratiche correnti e la gestione dei dati personali dei clienti e dei visitatori online sono state eseguite manualmente per le grandi aziende, perché quando sono state formate anni fa. Non erano consapevoli del fatto che un tale quadro di conformità potrebbe entrare in vigore un giorno. Con i petabyte di dati raccolti da alcuni siti web aziendali, il processo di auditing diventa sempre più difficile.
Un esempio di come il web scraping può essere utile nel processo di auditing è la soluzione di monitoraggio delle pagine web. Ad esempio, un elenco mirato di siti Web può essere fornito al fornitore di servizi di scraping e l'azienda può creare crawler per rilevare vari meccanismi di tracciamento dei dati del sito Web come i seguenti:
- Google Analytics/Gestione tag
- Pixel di Facebook o Quora per la pubblicità
- Soluzioni per la registrazione del comportamento degli utenti
- App di chat di terze parti
Questo può essere continuamente monitorato in modo da poter intraprendere le azioni necessarie per la conformità. Inoltre, ciò garantisce che ogni volta che si verifica un cambiamento nelle tecniche di raccolta dei dati. Aggiornate le condizioni di utilizzo del sito e il piano di raccolta del consenso.
No, questo è particolarmente un problema per le grandi organizzazioni come grandi università, agenzie governative e legali, multinazionali con attività in tutti i continenti, che hanno costruito grandi siti altamente distribuiti con numerosi contributori. Utilizzando le impostazioni di monitoraggio delle pagine create da PromptCloud, è possibile identificare facilmente tutti i punti di accesso e prendere le misure necessarie.
Utilizzo dei dati per le medie imprese
Per le piccole e medie imprese, tuttavia, la gestione dei dati personali degli utenti non sarà particolarmente impegnativa. Per i vecchi siti Web di grandi dimensioni di solito hanno più contributori di dati. Tenere traccia delle informazioni personali visualizzate sul loro sito Web potrebbe rivelarsi difficile.
C'è anche un'opportunità all'altra estremità dello spettro. Aziende che desiderano sapere se sono state esposte informazioni personali sui loro associati. Puoi semplicemente inviare un elenco di tutti i suoi associati. E i dettagli del suo marchio a un fornitore di servizi di scraping web esperto. Sarebbero facilmente in grado di trovare se le loro informazioni sono state esposte apertamente da qualsiasi sito web. E, a sua volta, perseguire un'azione legale.
Questi servizi non vengono utilizzati solo dalle società nell'UE. Ma anche giganti della tecnologia in altri paesi come USA e India. Questi sono i paesi che trattano con clienti in tutto il mondo (compresa l'UE). Devono assicurarsi di essere conformi al GDPR per non essere multati.
Il GDPR è agli albori. E c'è tempo perché aziende e marchi inizino a cambiare in meglio prima che scada il tempo. Mentre gli svantaggi potrebbero emergere attualmente. Potrebbe infatti aiutare le aziende a prevenire azioni legali e accordi extragiudiziali che hanno avuto luogo in precedenza. Attenersi alle linee guida GDPR. Sfruttare la maggior parte del quadro può, con il tempo. Puoi preparare queste aziende per il futuro. Quando la maggior parte dei paesi avrà regole rigide per regolamentare i dati e prevenirne l'uso improprio.
