hiQ vs. LinkedIn ⁠— É realmente legal raspar dados da Web publicamente disponíveis

Publicados: 2019-10-15
Índice mostrar
hiQ vs. LinkedIn
O problema do CFAA
Conclusão

Escada para o céu, se você está no negócio de raspagem da web, isso é.

É legal extrair dados publicamente disponíveis. Há uma enorme quantidade de dados disponíveis no domínio público da web. No entanto, quando se trata da utilização do mesmo, pouco foi feito até o momento. Mas hoje, as empresas de serviços estão fornecendo dados como um serviço ou criando soluções que são apoiadas por dados. Digamos que você queira saber os preços de 20.000 itens em 5 sites diferentes, alguns serviços podem ajudá-lo com isso. Seja contratando recrutas ou decidindo qual seria o preço certo para listar sua casa, a raspagem da web ajuda em tudo. No entanto, embora o web-scraping geralmente envolva empresas que extraem dados da Internet aberta, muitas empresas se opõem a isso. Por quê? Eles reivindicam os dados dos usuários como seus. E, aparentemente, eles são os únicos que têm algum direito a isso. Uma grande vontade de acesso gratuito e aberto a dados públicos foi vista no caso hiQ vs LinkedIn recentemente.

A extração de dados provou ser assustadora para a hiQ Labs – uma empresa de análise de dados que vinha extraindo dados publicamente acessíveis do LinkedIn. Este último optou por invocar o Computer Fraud And Abuse Act (CFAA) e acusou o hiQ de aceder à informação “sem autorização”. No entanto, em um movimento histórico, o Tribunal de Apelações do Nono Circuito dos EUA decidiu a favor do hiQ Labs, abrindo caminho para a “internet aberta”.

hiQ vs. LinkedIn

A CFAA é uma lei federal de segurança cibernética que foi criada para impedir a invasão de sistemas de segurança do governo “sem autorização”. Mas a imprecisão do termo “autorização” significava que as empresas poderiam moldá-lo para atender às suas próprias necessidades sempre que necessário, como no caso hiQ vs. LinkedIn. O que a hiQ fez foi simples, usaria dados extraídos para criar produtos de análise relacionados a RH. Por exemplo, o Keeper identificou funcionários inconstantes, enquanto o Skill Mapper avaliaria os funcionários e encontraria lacunas na força de trabalho. Mas então o LinkedIn lançou um conjunto semelhante de produtos em 2017, e foi aí que o cenário começou a piorar.

  • Em 23 de maio de 2017, enviou uma carta de cessação e desistência ao hiQ exigindo que o hiQ parasse de extrair dados dele. Duas semanas depois, o hiQ entrou com uma ação de medida cautelar contra o LinkedIn.
  • Ficou claro para o tribunal que a hiQ não sobreviveria como empresa se não fossem os dados do LinkedIn. Além disso, os dados no LinkedIn estavam disponíveis publicamente, pois os usuários não mantinham a senha das informações criptografadas. “Há poucas evidências de que os usuários do LinkedIn que optam por tornar seus perfis públicos realmente mantenham uma expectativa de privacidade”, disse o tribunal.
  • A política de privacidade do LinkedIn afirmava que “qualquer informação que você coloca em seu perfil e qualquer conteúdo que você publica no LinkedIn pode ser visto por outras pessoas”. As probabilidades eram a favor do hiQ.
  • A hiQ alegou interferência de contrato - o LinkedIn estava simplesmente tentando comercializar seus produtos enquanto jogava seu concorrente sob o ônibus. Embora o LinkedIn tenha considerado legal a concorrência agressiva, o tribunal não o considerou.
  • LinkedIn tentou jogar o cartão CFAA. De acordo com a lei, “quem… intencionalmente acessar um computador sem autorização ou exceder o acesso autorizado, e assim obtiver… informações de qualquer computador protegido… será punido”, com multa ou prisão. Além disso, “qualquer pessoa que sofra danos ou perdas em razão de uma violação” dessa disposição pode mover uma ação civil “contra o infrator para obter danos compensatórios e medidas cautelares ou outras medidas equitativas”.
  • No entanto, os dados não foram protegidos por um ID de usuário e senha e, portanto, o argumento do LinkedIn tornou-se discutível. O tribunal decidiu que a CFAA não se aplicava ao caso. Os dados eram públicos; nenhum “arrombamento e invasão” ilegal ocorreu.

O problema do CFAA

Embora seja uma grande vitória para a análise de dados, também lança luz sobre um caso do Nono Circuito que conseguiu obscurecer o alcance da CFAA – o Facebook v. Power Ventures, uma decisão que também foi citada no cessar e desistir carta do LinkedIn.

A Power Ventures era uma empresa que permitia que um indivíduo gerenciasse todas as suas contas de mídia social em um só lugar. Ao contrário do LinkedIn, onde os dados estavam disponíveis publicamente, a Power Ventures solicitava o consentimento do usuário. Portanto, foi o usuário que concedeu à Power Ventures acesso aos dados e não o Facebook. Portanto, embora a empresa estivesse “dentro da autorização” de certa forma, ainda foi considerada uma violação da CFAA.

Aí reside o problema com a CFAA. Embora, em teoria, deva evitar hackers, tornou-se nada mais do que uma ferramenta para grandes corporações. Toda grande empresa interpreta a lei à sua maneira e a usa a seu favor. Power Ventures era apenas um recurso adicional que o usuário escolhia para si mesmo; A hiQ criou produtos analíticos nos quais o LinkedIn estava de olho e, como as empresas maiores queriam esses terceiros fora de seu forte, recorreram à poderosa CFAA.

Embora o tribunal tenha localizado o bloqueio para invocar a CFAA a qualquer momento, ele ainda não fechou a porta completamente. O mais recente Stackla v. Facebook encontrou outra plataforma que entrou em controvérsia por meio de web scraping.

Com novos casos surgindo de vez em quando, eventualmente caberá ao tribunal esclarecer a CFAA e termos como “sem autorização”. Os dados estão presentes em todos os lugares e criar uma distinção entre o legal e o ilegal se torna de primordial importância. O monopólio dos dados seria perigoso para a inovação e, no mundo da Internet acelerada, inovação é tudo.

Conclusão

Com a vitória no bolso, o hiQ abriu caminho para a aplicação de dados abertos da web. O rastreamento e extração da Web é a maneira mais barata de coletar dados e, por muito tempo, foi visto como uma abordagem cética. É preciso entender que a única maneira de pequenas e grandes empresas competirem em igualdade de condições é se a Internet e os dados nela presentes permanecerem livres para uso de todos.

O Google pode afirmar que os dados que mostra para um resultado de pesquisa são seus? A Wikipedia pode nos impedir de aprender com suas páginas? Afinal, a maior parte da informação disponível no domínio público da internet pertence a indivíduos ou ao mercado, e nenhuma empresa pode alegar ter o monopólio sobre ela. Em vez disso, as empresas podem competir em quão bem podem usar os dados e quais serviços podem criar. Esses serviços podem digerir os dados abertos e produzir uma saída valiosa que pode ser usada pelas empresas.