hiQ vs. LinkedIn — De hecho, es legal raspar datos web disponibles públicamente
Publicado: 2019-10-15Escalera al cielo, si estás en el negocio del web scraping, eso es.
Es legal raspar los datos disponibles públicamente. Hay una gran cantidad de datos disponibles en el dominio público de la web. Sin embargo, en lo que respecta a la utilización de los mismos, poco se ha hecho hasta la fecha. Pero hoy en día, las empresas de servicios brindan datos como servicio o crean soluciones respaldadas por datos. Digamos que desea conocer los precios de 20000 artículos en 5 sitios web diferentes, algunos servicios pueden ayudarlo con eso. Ya sea contratando reclutas o decidiendo a qué precio sería correcto poner su casa en venta, el web scraping ayuda con todo. Sin embargo, a pesar de que el web-scraping generalmente implica que las empresas raspen datos de la Internet abierta, muchas empresas se oponen a esto. ¿Por qué? Reclaman los datos de los usuarios como propios. Y aparentemente, ellos son los únicos que tienen derecho a ello. Recientemente se vio una gran voluntad de acceso libre y abierto a los datos públicos en el caso hiQ vs LinkedIn.
El raspado de datos resultó abrumador para hiQ Labs, una empresa de análisis de datos que había estado extrayendo datos de acceso público de LinkedIn. Este último optó por invocar la Ley de Abuso y Fraude Informático (CFAA) y acusó a hiQ de acceder a la información “sin autorización”. Sin embargo, en un movimiento histórico, el Tribunal de Apelaciones del Noveno Circuito de EE. UU. falló a favor de hiQ Labs, allanando así el camino para la "internet abierta".
hiQ frente a LinkedIn
La CFAA es una ley federal de seguridad cibernética que se creó para evitar la piratería de los sistemas de seguridad del gobierno "sin autorización". Pero la vaguedad del término "autorización" significaba que las empresas podían moldearlo para que se ajustara a sus propias necesidades siempre que fuera necesario, como en el caso de hiQ vs. LinkedIn. Lo que hizo hiQ fue simple, usaría datos raspados para crear productos analíticos relacionados con recursos humanos. Por ejemplo, Keeper identificó a los empleados volubles, mientras que Skill Mapper evaluaría a los empleados y encontraría brechas en la fuerza laboral. Pero luego, LinkedIn lanzó un conjunto similar de productos en 2017, y fue entonces cuando el escenario comenzó a empeorar.
- El 23 de mayo de 2017, envió una carta de cese y desistimiento a hiQ exigiendo que hiQ dejara de extraer datos de él. Dos semanas después, hiQ presentó una demanda de medidas cautelares contra LinkedIn.
- Estaba claro para el tribunal que hiQ no sobreviviría como empresa si no fuera por los datos de LinkedIn. Además, los datos de LinkedIn estaban disponibles públicamente, ya que los usuarios no habían guardado la contraseña de la información encriptada. “Hay poca evidencia de que los usuarios de LinkedIn que eligen hacer públicos sus perfiles realmente mantengan una expectativa de privacidad”, dijo el tribunal.
- La política de privacidad de LinkedIn establece que "cualquier información que coloque en su perfil y cualquier contenido que publique en LinkedIn puede ser visto por otros". Las probabilidades estaban a favor de hiQ.
- hiQ reclamó por interferencia tortuosa del contrato: LinkedIn simplemente estaba tratando de comercializar sus productos mientras arrojaba a su competidor debajo del autobús. Si bien LinkedIn consideró legal la competencia agresiva, el tribunal no lo hizo.
- LinkedIn intentó jugar la carta CFAA. Según la ley, “quien… intencionalmente acceda a una computadora sin autorización o exceda el acceso autorizado, y con ello obtenga… información de cualquier computadora protegida… será sancionado con multa o prisión. Además, “cualquier persona que sufra daños o pérdidas a causa de una violación” de esa disposición puede entablar una demanda civil “contra el infractor para obtener daños compensatorios y medidas cautelares u otra reparación equitativa”.
- Sin embargo, los datos no estaban protegidos por una identificación de usuario y contraseña y, por lo tanto, el argumento de LinkedIn se volvió discutible. El tribunal dictaminó que CFAA no se aplicaba al caso. Los datos eran públicos; no se llevó a cabo ningún “robo y entrada” ilegal.
El problema con CFAA
Si bien es una gran victoria para el análisis de datos, también arroja luz sobre un caso del Noveno Circuito que ha logrado desdibujar el alcance de la CFAA: Facebook v. Power Ventures, un fallo que también se citó en el cese y desistimiento. carta de LinkedIn.

Power Ventures era una empresa que permitía a una persona administrar todas sus cuentas de redes sociales desde un solo lugar. A diferencia de LinkedIn, donde los datos estaban disponibles públicamente, Power Ventures solicitaría el consentimiento del usuario. Por lo tanto, fue el usuario el que otorgó a Power Ventures acceso a los datos y no Facebook. Por lo tanto, aunque la empresa estaba "dentro de la autorización" de alguna manera, aún se descubrió que violaba la CFAA.
Ahí está el problema con la CFAA. Si bien, en teoría, debería evitar la piratería, se ha convertido en nada más que una herramienta para las grandes empresas. Toda gran empresa interpreta la ley a su manera y la utiliza en su beneficio. Power Ventures era solo una función adicional que el usuario elegía por sí mismo; hiQ creó productos analíticos en los que LinkedIn puso sus ojos, y dado que las empresas más grandes querían a estos terceros fuera de su fuerte, recurrieron a la poderosa CFAA.
Si bien el tribunal ha ubicado el candado para invocar la CFAA en cualquier momento, todavía no ha cerrado la puerta por completo. El más reciente Stackla v. Facebook encontró otra plataforma que entró en controversia a través del web scraping.
Con nuevos casos apareciendo de vez en cuando, eventualmente recaerá en la corte aclarar la CFAA y términos como "sin autorización". Los datos están presentes en todas partes y crear una distinción entre lo legal y lo ilegal se vuelve de suma importancia. El monopolio de los datos sería peligroso para la innovación, y en el mundo de Internet acelerado, la innovación lo es todo.
Conclusión
Con la victoria en su bolsa, hiQ ha despejado el camino para la aplicación de datos web abiertos. El rastreo y la extracción web es la forma más económica de recopilar datos, y durante demasiado tiempo se ha considerado un enfoque escéptico. Uno debe entender que la única forma en que las pequeñas y grandes empresas pueden competir en igualdad de condiciones es si Internet y los datos presentes en él siguen siendo de uso gratuito para todos.
¿Puede Google afirmar que los datos que muestra para un resultado de búsqueda son propios? ¿Puede Wikipedia impedir que aprendamos de sus páginas? Después de todo, la mayor parte de la información disponible en el dominio público de Internet pertenece a los individuos o al mercado, y ninguna empresa puede pretender tener el monopolio de la misma. En cambio, las empresas pueden competir en qué tan bien pueden usar los datos y qué servicios pueden crear. Estos servicios pueden digerir los datos abiertos y producir un resultado valioso que las empresas pueden utilizar.
