La grisaille du Web Scraping – légal ou non ?
Publié: 2022-05-26Le « grattage Web », en termes assez littéraux, implique le grattage de données sur le Web. Entre les mains d'un moteur de recherche, le scraping Web est l'activité qui génère des résultats de recherche en évaluant des millions de sites Web pour obtenir des informations pertinentes pour les requêtes de recherche. De l'autre côté, entre les mains des entreprises (utilisant des outils de grattage), la légalité de celui-ci devient discutable.
Pourquoi, cependant ?
La loi sur la fraude et les abus informatiques (CFAA) interdit l'utilisation non autorisée des ordinateurs et des informations qu'ils contiennent, ce qui inclut le grattage Web. Cependant, la portée de cette activité reste encore floue. Récemment, la Cour suprême des États-Unis s'est prononcée en faveur de Van Buren c. États-Unis en annonçant que l'accès à des données autorisées, même pour une utilisation non autorisée/interdite, ne peut être considéré comme une violation de la CFAA.
La « grisaille » de la question de la légalité des données scrapées ne peut être clarifiée sans examiner en profondeur l'écosystème du web scraping, ce qu'il implique et ce qui le rend légal ou illégal.
Scraper un site Web est-il légal ?
De nombreux facteurs commandent à quel point il est légal de gratter des données Web. La nature omniprésente du web scraping peut tomber sous le coup des lois Trespass to Chattel, où l'utilisation non autorisée des informations d'une personne pourrait devenir un problème juridique.
De plus, une multitude d'autres lois, actes et règlements ont été mobilisés aujourd'hui pour protéger la vie privée des consommateurs et le vol d'informations. Vous avez peut-être entendu parler du General Data Protection Act (GDPA), du Children's Online Privacy Protection Act (COPPA) et du Health Insurance Portability and Accountability Act (HIPAA) - toutes ces mesures de protection ont été mises en place pour prévenir les abus incontrôlés des données privées des consommateurs.
Cependant, avec la décision Van Buren c. États-Unis, il semblerait que le web scraping, dans certaines circonstances, puisse être acceptable.
Dans une décision de la Cour d'appel du neuvième circuit pour l'affaire LinkedIn c. hiQ Labs, il a été annoncé que le grattage des informations des profils publics était correct puisque cette activité n'était pas couverte par le CFAA (car les données grattées étaient disponibles publiquement) . Cependant, cela a amené LinkedIn à restreindre l'accès public aux profils d'utilisateurs - une connexion par le spectateur est désormais requise.
L'obligation de vous connecter à votre compte d'utilisateur sur un site Internet pour consulter les informations qui y sont contenues entraîne l'ensemble de vos activités selon les termes et conditions du site Internet. Ces termes et conditions peuvent contenir des clauses qui dissuadent ou interdisent le grattage Web - si vous continuez à extraire des données, vous risquez de vous retrouver dans un pétrin juridique.

En parlant de cela, c'est précisément pourquoi LinkedIn a mandaté les connexions pour afficher les profils d'utilisateurs - pour restreindre les informations de grattage Web de ses utilisateurs.
Cela dit, la zone grise reste encore large. Alors… le web scraping est-il illégal ? Cela dépend en grande partie du type de données que vous essayez de récupérer et de la nature de ces données :
Données publiques
Les données que vous rencontrez sur Internet sont pour la plupart des données publiques. Sauf si vous êtes tenu de vous connecter à votre compte ou d'accepter les conditions d'utilisation des données ou d'authentifier votre identité ou vos informations d'identification pour accéder à certaines données, il est parfaitement légal de gratter.
Le seul élément dissuasif à la récolte Web ici serait les mesures que ces sites Web mettent en place pour détourner vos grattoirs Web (pour protéger leurs informations, bien sûr).
Données personnelles/Données privées
Il est illégal de gratter les informations personnelles d'un individu. Les informations personnelles peuvent être n'importe quoi - nom, adresse, informations financières, informations sur la santé, date de naissance, toute autre information de contact, etc. . C'est un strict non-non.
Si vous devez, cependant, il est obligatoire de demander d'abord le consentement de cette personne. De plus, si une motivation légale est une cause derrière le grattage des PII, elle doit être connue.
Données de droit d'auteur
Toute donnée sur Internet qui est une propriété intellectuelle de l'éditeur est illégale à gratter. Si vous devez utiliser ces données, nonobstant leurs droits d'auteur, vous devez mentionner la source de ces informations où que vous les utilisiez.
Conditions d'utilisation
Il s'agit d'une instance conditionnelle de l'illégalité du web scraping. Si un site Web restreint explicitement le grattage des données, considérez qu'il est illégal de le faire. Avant d'aller de l'avant avec vos robots scrapers, il est préférable de vérifier attentivement les conditions d'utilisation et de service.
Connexion au compte
Tout comme LinkedIn a mandaté les connexions de compte pour accéder à ses profils d'utilisateurs, une instance de connexion obtient presque toujours votre consentement sur les termes et conditions du site Web. Ces termes et conditions peuvent contenir des clauses sur le grattage des données. Lorsque vous libérez toujours vos bots scraper après vous être connecté, vous risquez une interdiction ou même une action en justice.
Comment supprimer légalement des données
Pour vous assurer qu'aucune action en justice n'est intentée contre vous, comprenez parfaitement les aspects suivants avant de procéder au scraping Web :
- Les données sont-elles accessibles au public ?
- Révèle-t-il les informations personnelles d'un individu ?
- Le site mentionne-t-il des interdictions concernant le scraping ?
- Existe-t-il des lois, actes, politiques ou réglementations qui contrôlent les informations que vous pouvez récupérer et utiliser ?
Peser soigneusement les réponses à toutes ces questions aiderait à déterminer le degré de gris dans lequel se trouve votre activité de grattage Web.
Emballer
En quintessence, "Est-il légal de scraper un site web " n'est pas la question. La vraie question est : « Dans quelle mesure le scraping de sites Web est-il légal ? “.
Il est préférable de s'assurer que le scraping Web ne récupère que les données accessibles au public et non protégées par des clauses juridiquement applicables. Vous pouvez également sous-traiter le scraping Web à des agences professionnelles comme PromptCloud qui savent ce qu'elles font.
