El gris del web scraping: ¿legal o no?
Publicado: 2022-05-26El "web scraping", en términos bastante literales, implica el scraping de datos de la web. En manos de un motor de búsqueda, el web scraping es la actividad que genera resultados de búsqueda al evaluar millones de sitios web en busca de información relevante para las consultas de búsqueda. Por otro lado, en manos de empresas (usando herramientas de raspado), la legalidad de la misma se vuelve cuestionable.
¿Por qué sin embargo?
La Ley de Abuso y Fraude Informático (CFAA, por sus siglas en inglés) prohíbe el uso no autorizado de computadoras y la información contenida en ellas, lo que incluye el web scraping. Sin embargo, el alcance de esta actividad aún no está claro. Recientemente, la Corte Suprema de los EE. UU. falló a favor de Van Buren contra los Estados Unidos al anunciar que el acceso a datos permitidos, aunque sea para uso no autorizado/prohibido, no puede considerarse una violación de la CFAA.
El “gris” de la cuestión de la legalidad de los datos extraídos no se puede aclarar sin analizar en profundidad el ecosistema del web scraping, lo que implica y lo que lo hace legal o ilegal.
¿Es legal raspar un sitio web?
Muchos factores controlan qué tan legal es raspar datos web. La naturaleza omnipresente del web scraping puede caer dentro del ámbito de las leyes de traspaso a bienes muebles, donde el uso no autorizado de la información de una persona podría convertirse en un problema legal.
Además, una multitud de otras leyes, actos y reglamentos se han movilizado hoy para proteger la privacidad del consumidor y el robo de información. Es posible que haya oído hablar de la Ley general de protección de datos (GDPA), la Ley de protección de la privacidad en línea para niños (COPPA) y la Ley de portabilidad y responsabilidad del seguro médico (HIPAA): todas estas medidas de protección se han implementado para evitar el abuso sin control. de datos privados de consumidores.
Sin embargo, con el fallo de Van Buren contra los Estados Unidos, parecería que el web scraping, bajo ciertas circunstancias, puede estar bien.
En un fallo del Tribunal de Apelaciones del Noveno Circuito para el caso de LinkedIn v. hiQ Labs, se anunció que estaba bien extraer información de los perfiles públicos, ya que esta actividad no estaba cubierta por el ámbito de la CFAA (porque los datos extraídos estaban disponibles públicamente) . Sin embargo, hizo que LinkedIn restringiera el acceso público a los perfiles de usuario; ahora se requiere que el espectador inicie sesión.
El requisito de iniciar sesión en su cuenta de usuario en un sitio web para ver la información contenida allí trae todas sus actividades bajo los términos y condiciones del sitio web. Estos términos y condiciones pueden tener cláusulas que disuadan o prohíban el web scraping; si aún se involucra en la extracción de datos, puede meterse en un lío legal.

Hablando de eso, esta es precisamente la razón por la cual LinkedIn exigió inicios de sesión para ver los perfiles de los usuarios, para restringir el raspado web de la información de sus usuarios.
Dicho esto, la zona gris sigue siendo amplia. Entonces… ¿ es ilegal el web scraping ? Depende en gran medida del tipo de datos que está tratando de raspar y la naturaleza de esos datos:
Datos públicos
Los datos que encuentra en Internet son en su mayoría datos públicos. A menos que deba iniciar sesión en su cuenta o aceptar los términos de uso de datos o autenticar su identidad o credenciales para acceder a ciertos datos, es perfectamente legal raspar.
El único impedimento para la recolección web aquí serían las medidas que estos sitios web implementan para desviar sus raspadores web (para proteger su información, por supuesto).
Datos Personales/Datos Privados
Es ilegal raspar la información personal de un individuo. La información personal puede ser cualquier cosa: nombre, dirección, detalles financieros, detalles de salud, fecha de nacimiento, cualquier otra información de contacto, etc. Cualquier cosa que revele la identidad personal de un individuo (información de identificación personal o PII) es una señal de alerta para el web scraping. . Es un estricto no-no.
Sin embargo, si debe hacerlo, es obligatorio buscar primero el consentimiento de esa persona. Además, si una motivación legal es una causa detrás del raspado de PII, debe darse a conocer.
Datos de derechos de autor
Es ilegal raspar cualquier dato en Internet que sea propiedad intelectual del editor. Si debe usar estos datos, a pesar de sus derechos de autor, debe dar crédito a la fuente de esa información donde sea que la use.
Términos de servicio
Esta es una instancia condicional de la ilegalidad del web scraping. Si un sitio web restringe explícitamente el raspado de datos, considéralo ilegal hacerlo. Antes de seguir adelante con sus bots raspadores, es mejor verificar los términos de uso y servicio a fondo.
Cuenta de Ingreso
Al igual que LinkedIn tiene inicios de sesión de cuenta obligatorios para acceder a sus perfiles de usuario, una instancia de inicio de sesión casi siempre obtiene su consentimiento en los términos y condiciones del sitio web. Estos términos y condiciones pueden contener cláusulas sobre el raspado de datos. Cuando aún libera sus bots raspadores después de iniciar sesión, se arriesga a una prohibición o incluso a una acción legal.
Cómo raspar datos legalmente
Para asegurarse de que no se tomen acciones legales en su contra, comprenda a fondo los siguientes aspectos antes de proceder con el web scraping:
- ¿Los datos están disponibles públicamente?
- ¿Revela la PII de cualquier individuo?
- ¿El sitio web menciona alguna prohibición con respecto al raspado?
- ¿Existen leyes, actas, políticas o reglamentos que controlen qué información puede recopilar y utilizar?
Sopesar cuidadosamente las respuestas a todas estas preguntas ayudaría a determinar el grado de gris en el que se encuentra su actividad de web scraping.
Terminando
En esencia, "¿Es legal raspar un sitio web ?" no es la pregunta. La verdadera pregunta es: “ ¿Qué tan legal es el scraping de sitios web? “.
Lo mejor es asegurarse de que el web scraping obtenga solo los datos que están disponibles públicamente y que no están protegidos por ninguna cláusula procesable legalmente. También puede externalizar el web scraping a agencias profesionales como PromptCloud que saben lo que están haciendo.
