網絡抓取的灰色性——合法與否?

已發表: 2022-05-26
目錄顯示
抓取網站合法嗎?
公共數據
個人資料/私人資料
版權數據
服務條款
帳號登錄
如何合法地抓取數據
包起來

從字面上看,“網絡抓取”涉及從網絡上抓取數據。 在搜索引擎手中,網絡抓取是通過評估數百萬個網站以獲取與搜索查詢相關的信息來生成搜索結果的活動。 另一方面,在企業手中(使用抓取工具),它的合法性變得值得懷疑。

為什麼呢?

計算機欺詐和濫用法案 (CFAA) 禁止未經授權使用計算機和其中的信息——包括網絡抓取。 然而,這項活動的範圍仍不清楚。 最近,美國最高法院裁定 Van Buren 訴美國案,宣布訪問允許的數據,即使是未經授權/禁止使用,也不能說是違反 CFAA。

如果不深入研究網絡抓取的生態系統、它的含義以及使其合法或非法的原因,就無法澄清抓取數據的合法性問題的“灰色”。

抓取網站合法嗎?

許多因素決定了抓取網絡數據的合法性。 網絡抓取無處不在的性質可能屬於非法侵入動產法的範圍,未經授權使用個人信息可能會成為法律問題。

此外,今天已經動員了許多其他法律、法案和法規來保護消費者隱私和信息盜竊。 您可能聽說過《通用數據保護法》(GDPA)、《兒童在線隱私保護法》(COPPA)和《健康保險流通與責任法》(HIPAA)——所有這些保護措施都已到位,以防止未經檢查的濫用私人消費者數據。

然而,隨著範布倫訴美國案的裁決,在某些情況下,網絡抓取似乎是可以的。

在第九巡迴上訴法院對 LinkedIn 訴 hiQ Labs 案的裁決中,宣布從公共資料中抓取信息是可以的,因為該活動不在 CFAA 的範圍內(因為抓取的數據是公開的) . 然而,它確實導致 LinkedIn 限制用戶個人資料被公開訪問——現在需要查看者登錄。

在網站上登錄您的用戶帳戶以查看其中包含的信息的要求使您的所有活動都在網站的條款和條件下進行。 這些條款和條件可能包含阻止或禁止網絡抓取的條款——如果您仍然從事提取數據的工作,您可能會陷入法律混亂。

說到這一點,這正是 LinkedIn 要求登錄以查看用戶個人資料的原因——以限制其用戶的網絡抓取信息。

話雖如此,灰色區域仍然很寬。 那麼……網絡抓取違法嗎? 這在很大程度上取決於您嘗試抓取的數據類型以及該數據的性質:

公共數據

您在互聯網上遇到的數據大多是公共數據。 除非您需要登錄您的帳戶或同意數據使用條款或驗證您的身份或憑據以訪問某些數據,否則抓取是完全合法的。

此處對網絡收集的唯一威懾將是這些網站為轉移您的網絡爬蟲而採取的措施(當然是為了保護他們的信息)。

個人資料/私人資料

抓取個人的個人信息是違法的。 個人信息可以是任何東西——姓名、地址、財務信息、健康信息、出生日期、任何其他聯繫信息等。任何洩露個人身份(個人身份信息,或 PII)的東西都是網絡抓取的危險信號. 這是一個嚴格的禁忌。

但是,如果您必須這樣做,則必須先徵得該人的同意。 此外,如果法律動機是抓取 PII 背後的原因,則必須公開。

版權數據

互聯網上任何屬於出版商知識產權的數據都是非法的。 如果您必須使用此數據,儘管有其版權,您必須在任何地方使用該信息的來源。

服務條款

這是網絡抓取非法的一個條件實例。 如果網站明確限制數據抓取,則認為這樣做是非法的。 在繼續使用爬蟲機器人之前,最好徹底檢查使用和服務條款。

帳號登錄

就像LinkedIn強制要求帳戶登錄來訪問其用戶資料一樣,登錄實例幾乎總是會得到您對網站條款和條件的同意。 這些條款和條件可能包含有關數據抓取的條款。 當您在登錄後仍然釋放您的爬蟲機器人時,您將面臨被禁止甚至採取法律行動的風險。

如何合法地抓取數據

為確保不會對您採取任何法律行動,請在進行網絡抓取之前徹底了解以下方面:

  • 數據是否公開?
  • 它是否揭示了任何個人的 PII?
  • 該網站是否提到任何關於抓取的禁令?
  • 是否有任何法律、法案、政策或法規來控制您可以抓取和使用哪些信息?

仔細權衡所有這些問題的答案將有助於確定您的網絡抓取活動的灰色程度。

包起來

本質上, “抓取網站是否合法”不是問題。 真正的問題是,“網站抓取的合法性如何? “。

最好確保網絡抓取僅獲取公開可用且不受任何法律可訴條款保護的數據。 您還可以將網絡抓取外包給 PromptCloud 等知道自己在做什麼的專業機構。