Legalità dell'estrazione di contenuti generati dagli utenti disponibili pubblicamente - PromptCloud

Pubblicato: 2017-08-22

In qualità di azienda di soluzioni di dati web, incontriamo spesso domande sulla legalità del web scraping. Prima di rispondere a questa domanda, comprendiamo innanzitutto il termine “web scraping”. In poche parole, è una parte del web crawling (trovare le pagine web e scaricarle) che prevede l'estrazione di dati dalle pagine web per raccogliere informazioni rilevanti. Il fattore chiave qui è che un bot (simile al bot di Google) esegue questa attività in modo automatizzato, eliminando così le attività manuali di una persona. Quando i bot colpiscono le pagine Web per acquisire contenuti, agiscono in modo abbastanza simile al modo in cui l'agente browser effettua chiamate alle pagine. Allora, perché abbiamo così tanto trambusto intorno allo "scraping"? La ragione di ciò può essere principalmente attribuita alla mancanza di rispetto per i protocolli stabiliti.

Contenuti generati dagli utenti disponibili pubblicamente

Ecco alcune delle regole di base che devono essere seguite da chiunque cerchi di eseguire la scansione dei dati dal Web:

File Robots.txt

Questo file specifica la modalità di scansione di un sito Web. Include l'elenco delle pagine accessibili, delle pagine riservate, del limite di richiesta oltre ai bot esplicitamente menzionati a cui è consentita o bloccata la scansione. Dai un'occhiata a questo post per saperne di più sulla lettura e il rispetto del file robots.txt.

Termini di utilizzo

Un altro punto di controllo importante è la pagina dei termini e condizioni che parla delle specifiche di come tali dati dovrebbero essere raccolti e utilizzati insieme ad altre linee guida. Assicurati di non violare nulla menzionato in questa pagina.

Contenuti pubblici

A meno che tu non abbia il permesso dal sito, attieniti ai dati disponibili al pubblico. Ciò significa che se i dati sono accessibili solo effettuando il login, sono pensati per gli utenti del sito, non per i bot.

Frequenza di scansione

Il file robots.txt menziona la frequenza di scansione e la velocità con cui i bot possono colpire il sito. Quindi, devi attenerti a questo e nel caso in cui ciò non sia stato menzionato, spetta a te assicurarti che il server del sito non sia sovraccarico di hit. Questo è necessario per assicurarsi che il raschietto sia educato; il server non esaurisce le sue risorse e non riesce a servire gli utenti effettivi.

Oltre a queste regole obbligatorie, ci sono altre migliori pratiche per il web scraping che sono state trattate in questo post. Tornando alla nostra prima domanda, cioè se il web scraping è legale o meno? — possiamo tranquillamente dire che se stai aderendo alle regole sopra menzionate, sei nel perimetro legale. Ma devi farlo verificare da un avvocato per essere completamente al sicuro. Ci sono stati diversi casi di cause legali come Facebook contro Pete Warden, Associated Press contro Meltwater Holdings, Inc., Southwest Airlines Co. contro BoardFirst, LLC e altro ancora.

Detto questo, c'è una domanda più ampia intorno a noi: le aziende potenti che ospitano petabyte di dati disponibili pubblicamente (in particolare i dati generati dagli utenti) dovrebbero essere selettive fornendo accesso agli stessi? Questa domanda incombe fondamentalmente sui recenti eventi relativi ai procedimenti legali che coinvolgono LinkedIn (di proprietà di Microsoft) e hiQ Labs. Per chi non lo sapesse, hiQ Labs è una startup che stava raccogliendo dati dai profili pubblici su LinkedIn per addestrare i suoi algoritmi di apprendimento automatico. A maggio, LinkedIn ha inviato una lettera di cessazione (C&D) a hiQ chiedendo loro di interrompere lo scraping dei dati dal suo social network. La lettera menzionava diversi casi tra cui Craigslist Inc. v. 3Taps Inc., in cui il verdetto era contro 3Taps e che erano stati trovati in violazione del Computer Fraud and Abuse Act per aver aggirato le tecniche di blocco dell'IP implementate da Craigslist. Dobbiamo anche notare che LinkedIn ha implementato misure tecniche per impedire l'accesso ai dati pubblici. Tuttavia, HiQ Labs ha risposto intentando una causa contro LinkedIn a giugno, citando che LinkedIn ha violato le leggi antitrust.

Uno dei principali problemi sollevati da hiQ riguarda le pratiche anticoncorrenziali di LinkedIn che affermano che LinkedIn voleva implementare le proprie soluzioni di analisi e scienza dei dati che potrebbero essere scoraggiate dalle offerte del primo. Affermano inoltre che LinkedIn lo conosceva già da anni e aveva persino accettato un premio da hiQ in una determinata conferenza sull'analisi dei dati.

Venendo al nocciolo delle questioni, possiamo vedere che non è richiesta "autorizzazione" per accedere alle pagine del profilo pubblico su LinkedIn. Pertanto, l'affermazione di LinkedIn secondo cui lo scraping di questi dati potrebbe violare il Computer Fraud and Abuse Act aggirando un requisito di autenticazione non ha solide basi. Ciò che rende speciale questo caso è che hiQ estrae solo i dati pubblicamente disponibili, mentre in altri casi gli scraper hanno violato la privacy degli utenti o l'utilizzo dei dati senza preavviso. Se consideriamo solo l'attività manuale, chiunque potrebbe fare clic su ogni profilo e guardare i dati per copiare tutte le informazioni, quindi inviare i dati al sistema informatico. Sebbene teoricamente fattibile, questo è un modo inefficiente e soggetto a errori di raccolta dei dati poiché richiederebbe tempo e manodopera enormi. Questo è il motivo principale per cui disponiamo di bot programmabili per svolgere questa attività in modo automatizzato e ripetitivo.

LinkedIn consente ai motori di ricerca di eseguire la scansione e indicizzare le proprie pagine pubbliche per promuovere la propria rete. Allora perché il resto delle applicazioni e dei siti Web non dovrebbe ottenere condizioni di parità traendo vantaggio anche dagli stessi dati? Quindi, il punto su cui riflettere è: le compagnie elettriche hanno il diritto di impedire ai robot di raschiare i dati pubblici dai loro siti web? Inoltre, quando i dati sono stati resi pubblici dagli utenti, come può la piattaforma arrivare a tal punto rivendicando il diritto di impedire ad altri di accedervi?

Sebbene il caso sia tutt'altro che concluso, l'ultima sentenza afferma che HiQ e i suoi algoritmi sono liberi di eseguire la scansione dei dati e LinkedIn deve consentirlo. Il giudice sembrava essere in sintonia con l'argomento di hiQ secondo cui la raccolta di dati pubblici di hiQ potrebbe essere un'attività protetta dal Primo Emendamento e ha dato il seguente ordine:

Nella misura in cui LinkedIn ha già messo in atto una tecnologia per impedire a hiQ di accedere a questi profili pubblici, gli viene ordinato di rimuovere tali barriere.

Di seguito il link per scaricare la copia dell'ordinanza del tribunale se siete interessati a saperne di più.

Per ora, possiamo considerare questa battaglia e l'ultima risposta della corte come una vittoria della libertà di parola per i giocatori nel business delle soluzioni dati. Ciò pone anche le basi per le società Internet che altrimenti sarebbero potute rimanere invischiate in procedimenti penali per l'accesso a pagine Web pubbliche per essere visualizzate da tutto il mondo. La palla è ora nel campo di LinkedIn e questo potrebbe benissimo rivelarsi un argomento di libertà di parola.

Il verdetto finale andrà oltre LinkedIn e hiQ Labs e potrebbe stabilire il precedente su quanto controllo avranno le aziende sui dati pubblicamente disponibili che sono ospitati dai loro servizi. Riteniamo che non ci dovrebbe essere assolutamente alcuna restrizione all'accesso ai dati pubblici su Internet e l'innovazione non deve essere frenata da forti armamenti legali o perseguendo l'agenda anticoncorrenziale di un piccolo gruppo di potenti aziende.