Web scraping în era GDPR – Impact și oportunități
Publicat: 2018-09-05Ca întotdeauna, primul lucru. Dacă accesați Google GDPR, sunt șanse ca această definiție din Wikipedia să ajungă pe primul loc
Regulamentul general privind protecția datelor
„Regulamentul general privind protecția datelor (UE) 2016/679 („GDPR”) este un regulament din legislația UE privind protecția datelor și confidențialitatea pentru toate persoanele din Uniunea Europeană (UE) și Spațiul Economic European (SEE). De asemenea, se adresează exportului de date cu caracter personal în afara zonelor UE și SEE. GDPR urmărește în primul rând să ofere persoanelor fizice control asupra datelor lor personale și să simplifice mediul de reglementare pentru afacerile internaționale prin unificarea reglementărilor în UE.”
Nu prea clar, nu? Ei bine, ceea ce înseamnă în esență este că, atunci când colectați, procesați, vindeți sau cumpărați date personale ale clienților care locuiesc în UE, precum și în țările SEE din Islanda, Liechtenstein și Norvegia, trebuie să vă asigurați că aveți consimțământul explicit al utilizatorilor pentru stocarea sau transferul informațiilor. Nu puteți spune că „Clientul a introdus aceste detalii într-un formular sau un câmp de date de pe site-ul meu, așa că le stochez.” Nu, trebuie să primiți permisiunea explicită, iar clientul ar trebui să aibă și o opțiune de renunțare, în cazul în care persoana decide că nu dorește ca datele sale să fie disponibile public mai târziu.
Acest cadru de reglementare aduce atât oportunități, cât și restricții. Companiile care folosesc web-scraping ca instrument își pot stimula afacerile, ajutându-i pe ceilalți să respecte GDPR și, în același timp, trebuie să se asigure că nu șterg informațiile private ale cetățenilor UE (și, de altfel, orice persoană). ) fără acordul lor. Vom discuta ambele fețe ale monedei.
Cum dă GDPR o lovitură companiilor care răpesc informațiile personale?
GDPR se ocupă strict de datele personale, pentru a se asigura că oamenii nu pot face o utilizare neloială a datelor. Ultimele scandaluri care au implicat Cambridge Analytica și Facebook au adus de fapt nevoia unui astfel de cadru în fața oamenilor. Datele sunt putere și, în mâini greșite, pot influența chiar rezultatele alegerilor din cele mai puternice națiuni ale lumii. Deci, în cazul în care lucrați cu date legate de descrierile produselor sau detalii tehnice și așa mai departe, nu trebuie să vă faceți griji cu privire la GDPR. Majoritatea furnizorilor de servicii de scraping web precum PromptCloud, de fapt, nu accesează cu crawlere informațiile personale. Unele companii accesează cu crawlere e-mailurile pe care le folosesc pentru campanii de marketing și generații de clienți potențiali.
Dar, din păcate, pentru e-mail-urile (sau din fericire pentru clienți), chiar și numerele de e-mail și de telefon mobil intră în domeniul informațiilor personale în conformitate cu GDPR și aveți nevoie de consimțământ înainte de a le elimina. Majoritatea companiilor abordează această problemă prin crearea unor instrumente simple (calculator de taxe, calculator de avere și multe altele) care, la rândul lor, acționează ca motoare de colectare a datelor pentru companii. Cu toate acestea, regulile nu se aplică numai activităților viitoare de web scraping, ci și datelor pe care le aveți în prezent stocate în baza de date. Trebuie să vă asigurați că pentru toate datele personale pe care le aveți în baza de date; aveți acordul proprietarilor.
Pentru a rezuma, există trei factori principali cu care companiile trebuie să se confrunte atunci când vine vorba de GDPR:
- Obțineți consimțământ: conform legii, indiferent dacă doriți să stocați numele, adresa de e-mail sau chiar adresele IP ale clienților, trebuie să le cereți consimțământul.
- Raportați încălcarea datelor: datele stocate de companii sunt vulnerabile la hack-uri. Uneori, când au loc încălcări ale datelor, acestea nu sunt raportate de teama reacțiilor publice și a unui circ media. Acest lucru nu poate continua în conformitate cu GDPR. Companiile au la dispoziție doar 3 zile (72 de ore), pentru a informa utilizatorii, în cazul unei încălcări a datelor.
- Nu pot fi colectate date suplimentare: de fiecare dată când răzuiți date, fiecare bucată pe care o accesați cu crawlere, raportarea este gata și trebuie să aveți un motiv valid în spatele răzuirii lor. Nu puteți afirma doar „nevoile viitoare” drept motiv pentru a elimina anumite câmpuri de date, de care nu aveți nevoie în prezent, dar cu toate acestea le colectați. Ar putea duce la o amendă uriașă.
Dar vedeți, oportunitățile care au apărut din GDPR depășesc cu mult restricțiile.

Cum poate GDPR să mărească baza de clienți a companiilor de web scraping?
Companiile de securitate și conformitate sunt cele care beneficiază cel mai mult de GDPR. Nu numai că baza lor de clienți a crescut peste noapte. Orientările GDPR cer companiilor să se asigure că încălcările datelor sunt monitorizate continuu. Acest lucru a făcut ca marile companii să intre în parteneriate pentru a respecta GDPR. Industria serviciilor a beneficiat enorm de pe urma acesteia, deoarece majoritatea companiilor au fost surprinse neștiutoare și nepregătite atunci când liniile directoare au intrat efectiv în acțiune.
Majoritatea companiilor mari de tehnologie au de-a face cu milioane de clienți și mii de furnizori și nu au în prezent un sistem care să le cartografiaze toate datele și să găsească care dintre ele sunt informații personale și trebuie să fie bine protejate. Aici intervin companiile de web-scraping. Auditarea practicilor curente și gestionarea datelor personale ale clienților, precum și vizitatorilor online au făcut-o manual pentru companiile mari, pentru că atunci când s-au înființat cu ani în urmă. Ei nu știau că un astfel de cadru de conformitate poate intra în vigoare într-o zi. Cu petabytes de date colectate de unele site-uri web ale companiilor, procesul de audit devine din ce în ce mai dificil.
Un exemplu al modului în care web scraping poate fi util în procesul de audit este soluția de monitorizare a paginii web. De exemplu, o listă direcționată de site-uri web poate fi furnizată furnizorului de servicii de scraping, iar compania poate construi crawler-uri pentru a detecta diferite mecanisme de urmărire a datelor ale site-ului web, cum ar fi următoarele:
- Google Analytics/Manager de etichete
- Pixel Facebook sau Quora pentru publicitate
- Soluții de înregistrare a comportamentului utilizatorului
- Aplicații de chat de la terțe părți
Acest lucru poate fi monitorizat continuu, astfel încât să se poată lua măsurile necesare pentru conformitate. De asemenea, acest lucru asigură că ori de câte ori există o schimbare în tehnicile de colectare a datelor. Condițiile de utilizare ale site-ului și planul de colectare a consimțământului au fost actualizate.
Nu, că aceasta este o problemă în special pentru organizațiile mari, cum ar fi universitățile mari, agențiile guvernamentale și de drept, corporațiile multinaționale cu operațiuni pe continente, care au construit site-uri mari foarte distribuite, cu numeroși colaboratori. Folosind setările de monitorizare a paginii create de PromptCloud, puteți identifica cu ușurință toate punctele de acces și puteți lua măsurile necesare.
Utilizarea datelor pentru întreprinderile mijlocii
Pentru întreprinderile mici și mijlocii, gestionarea datelor personale ale utilizatorilor nu va fi însă deosebit de dificilă. Pentru site-urile web vechi mari, de obicei, au mai mulți contributori de date. Urmărirea informațiilor personale afișate pe site-ul lor s-ar putea dovedi dificilă.
Există, de asemenea, o oportunitate la celălalt capăt al spectrului. Companiile care doresc să știe dacă au fost expuse informații personale despre asociații lor. Puteți trimite doar o listă cu toți asociații săi. Și detaliile mărcii sale către un furnizor de servicii web scraping cu experiență. Ei ar putea afla cu ușurință dacă informațiile lor au fost expuse în mod deschis de către orice site web. Și, la rândul său, urmăriți acțiunea în justiție.
Aceste servicii nu sunt folosite doar de companiile din UE. Dar și giganți ai tehnologiei din alte țări, cum ar fi SUA și India. Acestea sunt țările care au de-a face cu clienți din întreaga lume (inclusiv UE). Trebuie să se asigure că respectă GDPR pentru a nu fi amendați.
GDPR este la început. Și este timp ca companiile și mărcile să înceapă să se schimbe în bine înainte să expire timpul. În timp ce dezavantajele ar putea ieși în evidență în prezent. De fapt, ar putea ajuta companiile să prevină procesele și reglementările extrajudiciare care au avut loc înainte. Respectarea regulilor GDPR. A face cea mai mare parte a cadrului poate, cu timpul. Puteți pregăti aceste companii pentru viitor. Când majoritatea țărilor vor avea reguli stricte pentru a reglementa datele și a preveni utilizarea abuzivă a acestora.
