hiQ vs. LinkedIn — 抓取公开可用的 Web 数据确实是合法的
已发表: 2019-10-15通往天堂的阶梯,如果您从事网络抓取业务,那就是。
抓取公开可用的数据是合法的。 在网络的公共领域中有大量可用的数据。 然而,当涉及到相同的利用时,迄今为止几乎没有做任何事情。 但今天,服务公司正在提供数据即服务,或构建由数据支持的解决方案。 假设您想知道 5 个不同网站上 20000 件商品的价格,一些服务可以帮助您。 无论是招聘新兵,还是决定以什么价格列出您的房子,网络抓取都可以帮助您。 然而,尽管网络抓取通常涉及公司从开放的互联网上抓取数据,但许多公司对此表示反对。 为什么? 他们声称来自用户的数据是他们自己的。 显然,他们是唯一有权使用它的人。 最近在 hiQ 与 LinkedIn 的案例中看到了免费和开放访问公共数据的强烈意愿。
事实证明,对于 hiQ Labs 来说,抓取数据令人生畏——这是一家一直在从 LinkedIn 抓取可公开访问数据的数据分析公司。 后者选择援引《计算机欺诈和滥用法案》(CFAA)并指责 hiQ “未经授权”访问信息。 然而,具有里程碑意义的举措是,美国第九巡回上诉法院作出有利于 hiQ Labs 的裁决,从而为“开放互联网”铺平了道路。
hiQ 与 LinkedIn
CFAA 是一项联邦网络安全法,旨在防止“未经授权”对政府安全系统进行黑客攻击。 但“授权”一词的模糊性意味着公司可以在必要时对其进行调整以适应自己的需求,例如 hiQ 与 LinkedIn 的案例。 hiQ 所做的很简单,它会使用抓取的数据来创建与 HR 相关的分析产品。 例如,Keeper 识别轻浮的员工,而 Skill Mapper 将评估员工并发现劳动力中的差距。 但随后,LinkedIn 在 2017 年推出了一组类似的产品,那时情况开始向南发展。
- 2017 年 5 月 23 日,它向 hiQ 发送了停止和终止信函,要求 hiQ 停止从其上抓取数据。 两周后,hiQ 对 LinkedIn 提起了禁令救济诉讼。
- 法庭很清楚,如果没有来自 LinkedIn 的数据,hiQ 作为一家公司将无法生存。 此外,LinkedIn 上的数据是公开的,因为用户没有对信息密码进行加密。 “几乎没有证据表明,选择公开个人资料的LinkedIn用户实际上保持着对隐私的期望,”法院说。
- LinkedIn 的隐私政策规定“您在个人资料中发布的任何信息以及您在 LinkedIn 上发布的任何内容都可能被其他人看到。” 赔率有利于 hiQ。
- hiQ 声称侵权干扰合同——LinkedIn 只是试图推销其产品,同时将其竞争对手抛在身后。 虽然 LinkedIn 认为这种激进的竞争是合法的,但法院却没有。
- LinkedIn 试图打 CFAA 卡。 根据法律,“任何人……未经授权故意访问计算机或超出授权访问权限,从而从任何受保护的计算机中获取……信息……将受到处罚”,并处以罚款或监禁。 此外,“任何因违反该规定而遭受损害或损失的人”可以“对违反者提起民事诉讼,以获得补偿性损害赔偿和禁令救济或其他衡平法救济”。
- 但是,这些数据不受用户 ID 和密码的保护,因此,LinkedIn 的论点变得毫无意义。 法院裁定,CFAA不适用于本案。 数据是公开的; 没有发生非法“闯入”。
CFAA的问题
虽然这是数据分析的重大胜利,但它也揭示了第九巡回法院的案件,该案件设法模糊了 CFAA 的范围——Facebook 诉 Power Ventures,该裁决也在停止和终止中被引用领英的信。

Power Ventures 是一家允许个人从一个地方管理所有社交媒体帐户的公司。 与数据公开的 LinkedIn 不同,Power Ventures 会征求用户的同意。 因此,授予 Power Ventures 访问数据的是用户,而不是 Facebook。 因此,尽管该公司在某种程度上“在授权范围内”,但仍被发现违反了 CFAA。
CFAA 的问题就在于此。 虽然从理论上讲,它应该可以防止黑客入侵,但它已成为大公司的工具。 每个大型企业都以自己的方式解释法律并利用它为自己谋利。 Power Ventures 只是用户自己选择的附加功能; hiQ 创建了 LinkedIn 关注的分析产品,由于大公司希望这些第三方脱颖而出,他们求助于强大的 CFAA。
虽然法院已经锁定了在任何时候都可以调用 CFAA 的锁定,但它仍然没有完全关上门。 最近的 Stackla 诉 Facebook 案发现了另一个通过网络抓取引发争议的平台。
随着新案件的不断涌现,最终将由法院来澄清CFAA和“未经授权”之类的术语。 数据无处不在,区分合法与非法变得至关重要。 数据垄断对创新来说是危险的,在快节奏的互联网世界里,创新就是一切。
结论
随着胜利的到来,hiQ 为开放网络数据的应用扫清了道路。 网络爬取和提取是收集数据的最便宜的方法,长期以来一直被视为一种怀疑的方法。 必须明白,大小公司在公平竞争环境中竞争的唯一方法是互联网及其上的数据仍然可供所有人免费使用。
谷歌可以声称它为搜索结果显示的数据是它自己的吗? 维基百科能阻止我们从它的页面中学习吗? 毕竟,互联网公有领域中的大部分信息属于个人或市场,任何公司都不能声称对其拥有垄断权。 相反,公司可以竞争的是他们可以如何使用数据以及他们可以创建什么服务。 这些服务可以消化开放数据并产生可供企业使用的有价值的输出。
