GDPR 時代的網絡抓取——影響和機遇
已發表: 2018-09-05像往常一樣,第一件事。 如果你繼續谷歌 GDPR,維基百科的這個定義很可能會排在首位
通用數據保護條例
“通用數據保護條例 (EU) 2016/679 (“GDPR”) 是歐盟法律中關於歐盟 (EU) 和歐洲經濟區 (EEA) 內所有個人的數據保護和隱私的法規。 它還解決了歐盟和歐洲經濟區以外的個人數據出口問題。 GDPR 的主要目的是讓個人控制他們的個人數據,並通過統一歐盟內部的監管來簡化國際商業的監管環境。”
不太清楚,是嗎? 嗯,這基本上意味著,當您收集、處理、出售或購買居住在歐盟以及冰島、列支敦士登和挪威等歐洲經濟區國家的客戶的個人數據時,您需要確保您已獲得用戶明確同意存儲或傳輸信息。 您不能說“客戶在我網站的表單或數據字段中輸入了這些詳細信息,因此我將其存儲起來。” 不,您需要獲得明確許可,並且客戶也應該有一個退出選項,以防該人決定他或她不希望他們的數據稍後公開。
這種監管框架既帶來了機遇,也帶來了限制。 使用網絡抓取作為工具的公司可以通過幫助其他人遵守 GDPR 來促進他們的業務,同時,他們還需要確保他們不會抓取歐盟公民(以及任何人的私人信息) ) 未經他們同意。 我們將討論硬幣的兩面。
GDPR 如何打擊竊取個人信息的公司?
GDPR 嚴格處理個人數據,以確保人們不會不公平地使用數據。 涉及劍橋分析和 Facebook 的最新醜聞實際上將這樣一個框架的需求擺在人們面前。 數據就是力量,如果落入壞人之手,它甚至會影響世界上最強大國家的選舉結果。 因此,如果您正在處理與產品描述或技術細節等相關的數據,則無需擔心 GDPR。 事實上,像 PromptCloud 這樣的大多數網絡抓取服務提供商都不會抓取個人信息。 一些公司確實會抓取用於營銷活動和潛在客戶生成的電子郵件。
但不幸的是,對於電子郵件抓取工具(或者幸運的是,對於客戶而言),即使是電子郵件和手機號碼也屬於 GDPR 規定的個人信息的範圍,您在抓取之前需要徵得同意。 大多數公司通過創建簡單的工具(稅收計算器、財富計算器等)來解決這個問題,這些工具反過來又充當公司的數據收集引擎。 但是,這些規則不僅適用於未來的網絡抓取活動,還適用於您當前存儲在數據庫中的數據。 您需要確保您在數據庫中擁有的所有個人數據; 您已徵得業主同意。
總而言之,企業在 GDPR 方面必須處理三個主要因素:
- 徵得同意:根據法律規定,無論您要存儲客戶的姓名、電子郵件地址,甚至是 IP 地址,都必須徵得他們的同意。
- 報告數據洩露:公司存儲的數據容易受到黑客攻擊。 有時,當數據洩露發生時,出於對公眾強烈反對和媒體馬戲團的恐懼,他們不會被報導。 這在 GDPR 下無法繼續。 如果發生數據洩露,公司只有 3 天(72 小時)通知用戶。
- 不能收集額外的數據:每當您抓取數據時,您抓取的每一塊數據、報告都已完成,並且您必須有一個合理的理由來抓取它。 您不能僅將“未來需求”作為抓取某些數據字段的原因,這些數據您當前不需要,但仍在收集。 這可能會導致巨額罰款。
但是你看,GDPR 帶來的機會遠遠超過了限制。

GDPR 如何增加網絡抓取公司的客戶群?
安全和合規公司是從 GDPR 中受益最多的公司。 他們的客戶群不僅在一夜之間成倍增加。 GDPR 指南要求公司確保持續監控數據洩露。 這使得大公司建立合作夥伴關係以符合 GDPR。 服務業從中受益匪淺,因為大多數公司在指導方針實際實施時都沒有意識到並且沒有做好準備。
大多數大型科技公司與數以百萬計的客戶和數以千計的供應商打交道,目前沒有一個系統來映射他們的所有數據並找出其中哪些是個人信息並且需要得到很好的保護。 這就是網絡抓取公司的用武之地。審計當前做法和管理客戶以及在線訪問者的個人數據是為大公司手動完成的,因為它們是幾年前成立的。 他們不知道這樣的合規框架有一天會生效。 隨著一些公司網站收集到數 PB 的數據,審計過程變得越來越困難。
網頁抓取如何在審計過程中發揮作用的一個例子是網頁監控解決方案。 例如,可以向抓取服務提供商提供有針對性的網站列表,公司可以構建爬蟲來檢測網站的各種數據跟踪機制,如下所示:
- 谷歌分析/標籤管理器
- 用於廣告的 Facebook 或 Quora 像素
- 用戶行為記錄解決方案
- 第三方聊天應用
這可以被持續監控,以便可以採取必要的行動來遵守。 此外,這確保了無論何時數據收集技術發生變化。 更新了網站的使用條款和同意收集計劃。
不,這對於大型組織來說尤其是一個問題,例如大型大學、政府和法律機構、在各大洲開展業務的跨國公司,他們已經建立了具有眾多貢獻者的大型高度分佈式站點。 使用 PromptCloud 構建的頁面監控設置,可以輕鬆識別所有訪問點並採取必要的步驟。
中型企業的數據使用
然而,對於中小型企業來說,處理用戶的個人數據並不是特別具有挑戰性。 對於大型舊網站,通常有多個數據貢獻者。 跟踪他們網站上顯示的個人信息可能會很困難。
在光譜的另一端也有機會。 希望了解其員工的任何個人信息是否已被洩露的公司。 您只需提交其所有員工的列表即可。 並將其品牌詳細信息提供給經驗豐富的網絡抓取服務提供商。 他們將很容易找到他們的信息是否已被任何網站公開披露。 反過來,採取法律行動。
這些服務不僅適用於歐盟的公司。 但也包括美國和印度等其他國家的科技巨頭。 這些是與全球客戶打交道的國家(包括歐盟)。 他們需要確保他們符合 GDPR 的規定,不會被罰款。
GDPR 還處於起步階段。 在時間用完之前,公司和品牌有時間開始向好的方向改變。 雖然缺點目前可能會突出。 事實上,它可能有助於公司防止以前發生的訴訟和庭外和解。 遵守 GDPR 指南。 製作大部分框架都可以,隨著時間的推移。 您可以為這些公司的未來做好準備。 當大多數國家/地區將製定嚴格的規則來規範數據並防止其濫用時。
