Il grigiore del web scraping: legale o no?
Pubblicato: 2022-05-26Il "web scraping", in termini abbastanza letterali, implica lo scraping di dati dal web. Nelle mani di un motore di ricerca, il web scraping è l'attività che genera risultati di ricerca valutando milioni di siti Web per informazioni rilevanti per le query di ricerca. D'altra parte, nelle mani delle imprese (che utilizzano strumenti di raschiatura), la legalità diventa discutibile.
Perché, però?
Il Computer Fraud and Abuse Act (CFAA) vieta l'uso non autorizzato dei computer e delle informazioni ivi contenute, incluso il web scraping. Tuttavia, la portata di questa attività non è ancora chiara. Di recente, la Corte Suprema degli Stati Uniti si è pronunciata a favore di Van Buren v. the United States annunciando che l'accesso ai dati consentiti, anche se per uso non autorizzato/proibito, non può essere considerato una violazione del CFAA.
Il "grigio" della questione della legalità dei dati scrappati non può essere chiarito senza dare uno sguardo approfondito all'ecosistema del web scraping, cosa comporta e cosa lo rende legale o illegale.
Raschiare un sito web è legale?
Molti fattori determinano quanto sia legale raschiare i dati web. La natura onnipresente del web scraping può rientrare nell'ambito delle leggi Trespass to Chattel, in cui l'uso non autorizzato delle informazioni di una persona potrebbe diventare un problema legale.
Inoltre, oggi sono state mobilitate una moltitudine di altre leggi, atti e regolamenti per proteggere la privacy dei consumatori e il furto di informazioni. Potresti aver sentito parlare del General Data Protection Act (GDPA), del Children's Online Privacy Protection Act (COPPA) e dell'Health Insurance Portability and Accountability Act (HIPAA): tutte queste misure di protezione sono state messe in atto per prevenire abusi incontrollati dei dati dei consumatori privati.
Tuttavia, con la sentenza Van Buren v. the United States, sembrerebbe che il web scraping, in determinate circostanze, possa andare bene.
In una sentenza della Corte d'Appello del Nono Circuito per il caso LinkedIn v. hiQ Labs, è stato annunciato che lo scraping delle informazioni dai profili pubblici andava bene poiché questa attività non era coperta dall'ambito del CFAA (perché i dati scrappati erano disponibili pubblicamente) . Tuttavia, ha indotto LinkedIn a limitare l'accesso pubblico ai profili utente: ora è necessario un accesso da parte del visualizzatore.
Il requisito di accedere al tuo account utente su un sito Web per visualizzare le informazioni in esso contenute porta tutte le tue attività sotto i termini e le condizioni del sito Web. Questi termini e condizioni possono avere clausole che scoraggiano o vietano lo scraping del web: se continui a estrarre dati, potresti finire in un pasticcio legale.

A proposito, questo è esattamente il motivo per cui LinkedIn ha imposto gli accessi per visualizzare i profili utente, per limitare le informazioni di scraping web dei suoi utenti.
Detto questo, l'area grigia rimane comunque ampia. Quindi... il web scraping è illegale ? Dipende in gran parte dal tipo di dati che stai cercando di raschiare e dalla natura di tali dati:
Dati pubblici
I dati che incontri su Internet sono per lo più dati pubblici. A meno che non ti venga richiesto di accedere al tuo account o di accettare i termini di utilizzo dei dati o di autenticare la tua identità o le tue credenziali per accedere a determinati dati, è perfettamente legale raschiare.
L'unico deterrente al web harvesting qui sarebbero le misure che questi siti Web mettono in atto per deviare i tuoi web scraper (per proteggere le loro informazioni, ovviamente).
Dati Personali/Dati Privati
È illegale raschiare le informazioni personali di un individuo. Le informazioni personali possono essere qualsiasi cosa: nome, indirizzo, dettagli finanziari, dettagli sanitari, data di nascita, qualsiasi altra informazione di contatto, ecc. Tutto ciò che rivela l'identità personale di un individuo (Informazioni di identificazione personale o PII) è una bandiera rossa per il web scraping . È un rigoroso no-no.
Se è necessario, tuttavia, è obbligatorio chiedere prima il consenso di quella persona. Inoltre, se una motivazione legale è una causa alla base dello scraping delle PII, deve essere resa nota.
Dati sul copyright
Qualsiasi dato su Internet che sia una proprietà intellettuale dell'editore è illegale da raschiare. Se è necessario utilizzare questi dati, nonostante i relativi diritti d'autore, è necessario accreditare la fonte di tali informazioni ovunque le utilizzi.
Termini di servizio
Questo è un esempio condizionale dell'illegalità del web scraping. Se un sito Web limita esplicitamente lo scraping dei dati, considera illegale farlo. Prima di procedere con i robot scraper, è meglio controllare accuratamente i termini di utilizzo e di servizio.
Account login
Proprio come LinkedIn ha imposto gli accessi all'account per accedere ai suoi profili utente, un'istanza di accesso ottiene quasi sempre il tuo consenso sui termini e le condizioni del sito web. Questi termini e condizioni possono contenere clausole sullo scraping dei dati. Quando rilasci ancora i tuoi robot scraper dopo aver effettuato l'accesso, stai rischiando un divieto o addirittura un'azione legale.
Come raschiare legalmente i dati
Per assicurarti che non siano intraprese azioni legali contro di te, comprendi a fondo i seguenti aspetti prima di procedere con lo scraping web:
- I dati sono pubblicamente disponibili?
- Rivela le PII di qualsiasi individuo?
- Il sito web menziona dei divieti in merito allo scraping?
- Esistono leggi, atti, politiche o regolamenti che controllano quali informazioni puoi raccogliere e utilizzare?
Soppesare attentamente le risposte a tutte queste domande aiuterebbe a determinare il grado di grigio in cui si trova la tua attività di scraping web.
Avvolgendo
Nella quintessenza, "È legale raschiare un sito Web " non è la domanda. La vera domanda è: " Quanto è legale lo scraping di siti Web? “.
È meglio assicurarsi che il web scraping recuperi solo i dati pubblicamente disponibili e non protetti da clausole legalmente perseguibili. Puoi anche esternalizzare lo scraping web ad agenzie professionali come PromptCloud che sanno cosa stanno facendo.
