网络抓取的灰色性——合法与否？

已发表: 2022-05-26

目录显示

抓取网站合法吗？

公共数据

个人资料/私人资料

版权数据

服务条款

帐号登录

如何合法地抓取数据

包起来

从字面上看，“网络抓取”涉及从网络上抓取数据。在搜索引擎手中，网络抓取是通过评估数百万个网站以获取与搜索查询相关的信息来生成搜索结果的活动。另一方面，在企业手中（使用抓取工具），它的合法性变得值得怀疑。

为什么呢？

计算机欺诈和滥用法案 (CFAA) 禁止未经授权使用计算机和其中的信息——包括网络抓取。然而，这项活动的范围仍不清楚。最近，美国最高法院裁定 Van Buren 诉美国案，宣布访问允许的数据，即使是未经授权/禁止使用，也不能说是违反 CFAA。

如果不深入研究网络抓取的生态系统、它的含义以及使其合法或非法的原因，就无法澄清抓取数据的合法性问题的“灰色”。

许多因素决定了抓取网络数据的合法性。网络抓取无处不在的性质可能属于非法侵入动产法的范围，未经授权使用个人信息可能会成为法律问题。

此外，今天已经动员了许多其他法律、法案和法规来保护消费者隐私和信息盗窃。您可能听说过《通用数据保护法》（GDPA）、《儿童在线隐私保护法》（COPPA）和《健康保险流通与责任法》（HIPAA）——所有这些保护措施都已到位，以防止未经检查的滥用私人消费者数据。

然而，随着范布伦诉美国案的裁决，在某些情况下，网络抓取似乎是可以的。

在第九巡回上诉法院对 LinkedIn 诉 hiQ Labs 案的裁决中，宣布从公共资料中抓取信息是可以的，因为该活动不在 CFAA 的范围内（因为抓取的数据是公开的） . 然而，它确实导致 LinkedIn 限制用户个人资料被公开访问——现在需要查看者登录。

在网站上登录您的用户帐户以查看其中包含的信息的要求使您的所有活动都在网站的条款和条件下进行。这些条款和条件可能包含阻止或禁止网络抓取的条款——如果您仍然从事提取数据的工作，您可能会陷入法律混乱。

说到这一点，这正是 LinkedIn 要求登录以查看用户个人资料的原因——以限制其用户的网络抓取信息。

话虽如此，灰色区域仍然很宽。 那么……网络抓取违法吗？ 这在很大程度上取决于您尝试抓取的数据类型以及该数据的性质：

您在互联网上遇到的数据大多是公共数据。除非您需要登录您的帐户或同意数据使用条款或验证您的身份或凭据以访问某些数据，否则抓取是完全合法的。

此处对网络收集的唯一威慑将是这些网站为转移您的网络爬虫而采取的措施（当然是为了保护他们的信息）。

抓取个人的个人信息是违法的。个人信息可以是任何东西——姓名、地址、财务信息、健康信息、出生日期、任何其他联系信息等。任何泄露个人身份（个人身份信息，或 PII）的东西都是网络抓取的危险信号. 这是一个严格的禁忌。

但是，如果您必须这样做，则必须先征得该人的同意。此外，如果法律动机是抓取 PII 背后的原因，则必须公开。

互联网上任何属于出版商知识产权的数据都是非法的。如果您必须使用此数据，尽管有其版权，您必须在任何地方使用该信息的来源。

这是网络抓取非法的一个条件实例。如果网站明确限制数据抓取，则认为这样做是非法的。在继续使用爬虫机器人之前，最好彻底检查使用和服务条款。

就像LinkedIn强制要求帐户登录来访问其用户资料一样，登录实例几乎总是会得到您对网站条款和条件的同意。这些条款和条件可能包含有关数据抓取的条款。当您在登录后仍然释放您的爬虫机器人时，您将面临被禁止甚至采取法律行动的风险。

为确保不会对您采取任何法律行动，请在进行网络抓取之前彻底了解以下方面：

仔细权衡所有这些问题的答案将有助于确定您的网络抓取活动的灰色程度。

本质上， “抓取网站是否合法”不是问题。真正的问题是，“网站抓取的合法性如何？ “。

最好确保网络抓取仅获取公开可用且不受任何法律可诉条款保护的数据。您还可以将网络抓取外包给 PromptCloud 等知道自己在做什么的专业机构。