Légalité de l'extraction de contenu généré par l'utilisateur accessible au public - PromptCloud

Publié: 2017-08-22

En tant qu'entreprise de solutions de données Web, nous rencontrons souvent des questions sur la légalité du web scraping. Avant de répondre à cette question, comprenons d'abord le terme "grattage Web". En termes simples, il s'agit d'une partie de l'exploration Web (trouver les pages Web et les télécharger) qui implique l'extraction de données à partir de pages Web pour recueillir des informations pertinentes. Le facteur clé ici est qu'un bot (similaire à Google bot) effectue cette activité de manière automatisée et élimine ainsi les activités manuelles d'une personne. Lorsque les bots accèdent aux pages Web pour récupérer du contenu, ils agissent de manière assez similaire à la façon dont l'agent du navigateur effectue des appels vers les pages. Alors, pourquoi avons-nous tant de battage autour du "grattage" ? La raison derrière cela peut être principalement attribuée au non-respect des protocoles établis.

Contenu généré par l'utilisateur accessible au public

Voici quelques-unes des règles de base qui doivent être suivies par toute personne souhaitant explorer des données sur le Web :

  • Fichier robots.txt

Ce fichier spécifie comment un site Web souhaite être exploré. Il comprend la liste des pages accessibles, des pages restreintes, de la limite de requêtes, à l'exception des robots explicitement mentionnés qui sont autorisés ou bloqués pour l'exploration. Consultez cet article pour en savoir plus sur la lecture et le respect du fichier robots.txt.

  • Conditions d'utilisation

Un autre point de contrôle important est la page des termes et conditions qui explique en détail comment ces données doivent être collectées et utilisées avec d'autres directives. Assurez-vous que vous ne violez rien de ce qui est mentionné sur cette page.

  • Contenu public

Sauf si vous avez la permission du site, respectez les données accessibles au public. Cela signifie que si les données ne sont accessibles qu'en se connectant, elles sont destinées aux utilisateurs du site, pas aux bots.

  • Fréquence d'exploration

Le fichier robots.txt mentionne la fréquence d'exploration et la vitesse à laquelle les bots peuvent accéder au site. Par conséquent, vous devez vous en tenir à cela et au cas où cela n'aurait pas été mentionné, il vous incombe de vous assurer que le serveur du site n'est pas surchargé de visites. Ceci est nécessaire pour s'assurer que le grattoir est poli ; le serveur n'épuise pas ses ressources et ne parvient pas à servir les utilisateurs réels.

Outre ces règles obligatoires, il existe d'autres bonnes pratiques pour le grattage Web qui ont été abordées dans cet article. Pour en revenir à notre première question, à savoir si le web scraping est légal ou non ?, nous pouvons affirmer que si vous respectez les règles susmentionnées, vous êtes dans le périmètre légal. Mais, vous devez faire vérifier cela par un avocat pour être complètement du bon côté. Il y a eu plusieurs cas de poursuites telles que Facebook contre Pete Warden, Associated Press contre Meltwater holdings, Inc., Southwest Airlines Co. contre BoardFirst, LLC, et plus encore.

Cela dit, il y a une question plus large autour de nous : les entreprises puissantes qui hébergent des pétaoctets de données accessibles au public (en particulier les données générées par les utilisateurs) doivent-elles être sélectives tout en offrant un accès aux mêmes ? Cette question se profile essentiellement autour des événements récents liés aux procédures judiciaires impliquant LinkedIn (propriété de Microsoft) et hiQ Labs. Pour les non-initiés, hiQ Labs est une startup qui récupérait les données des profils publics sur LinkedIn pour former ses algorithmes d'apprentissage automatique. En mai, LinkedIn a envoyé une lettre de cessation (C&D) à hiQ leur demandant de cesser de récupérer les données de son réseau social. La lettre mentionnait plusieurs cas, dont Craigslist Inc. contre 3Taps Inc., dans lesquels le verdict était contre 3Taps et ils ont été reconnus coupables de violation de la loi sur la fraude et les abus informatiques pour avoir contourné les techniques de blocage IP déployées par Craigslist. Notons également que LinkedIn avait mis en place des mesures techniques pour empêcher l'accès aux données publiques. Cependant, HiQ Labs a répondu en intentant une action contre LinkedIn en juin, citant que LinkedIn avait violé les lois antitrust.

L'un des principaux problèmes soulevés par hiQ concerne les pratiques anticoncurrentielles de LinkedIn indiquant que LinkedIn souhaitait déployer ses propres solutions d'analyse et de science des données qui pourraient être découragées par les offres du premier. Ils déclarent également que LinkedIn le connaissait déjà depuis des années et qu'ils avaient même accepté un prix de hiQ lors d'une certaine conférence sur l'analyse de données.

Venant au cœur des questions, nous pouvons voir que «l'autorisation» n'est pas nécessaire pour accéder aux pages de profil public sur LinkedIn. Par conséquent, l'affirmation de LinkedIn selon laquelle le grattage de ces données pourrait constituer une violation de la loi sur la fraude et les abus informatiques en contournant une exigence d'authentification n'a pas de fondement solide. Ce qui rend ce cas spécial, c'est que hiQ ne récupère que les données accessibles au public, alors que dans d'autres cas, les récupérateurs ont violé la vie privée des utilisateurs ou l'utilisation des données sans préavis. Si nous ne considérons que l'activité manuelle, n'importe qui peut cliquer sur chaque profil et consulter les données pour copier toutes les informations, puis transmettre les données au système informatique. Bien que théoriquement réalisable, il s'agit d'une méthode de collecte de données inefficace et sujette aux erreurs, car cela exigerait énormément de temps et de main-d'œuvre. C'est la principale raison pour laquelle nous avons des robots programmables pour effectuer cette tâche de manière automatisée et répétitive.

LinkedIn permet aux moteurs de recherche d'explorer et d'indexer leurs pages publiques pour promouvoir leur réseau. Alors pourquoi les autres applications et sites Web ne devraient-ils pas être sur un pied d'égalité en bénéficiant également des mêmes données ? Ainsi, le point à considérer est le suivant : les compagnies d'électricité ont-elles le droit d'empêcher les robots de récupérer les données publiques de leurs sites Web ? De plus, lorsque les données ont été rendues publiques par les utilisateurs, comment la plateforme peut-elle aller jusqu'à réclamer des droits pour empêcher les autres d'y accéder ?

Bien que l'affaire soit loin d'être terminée, la dernière décision indique que HiQ et ses algorithmes sont libres d'explorer les données et que LinkedIn doit le laisser faire. Le juge a semblé en résonance avec l'argument de hiQ selon lequel la collecte de données publiques de hiQ pourrait être une activité protégée par le premier amendement et a rendu l'ordonnance suivante :

Dans la mesure où LinkedIn a déjà mis en place une technologie pour empêcher hiQ d'accéder à ces profils publics, il lui est ordonné de supprimer ces barrières.

Voici le lien pour télécharger la copie de l'ordonnance du tribunal si vous souhaitez en savoir plus.

Pour l'instant, on peut considérer cette bataille et la dernière réponse du tribunal comme une victoire de la liberté d'expression pour les acteurs du business des solutions data. Cela jette également les bases pour les sociétés Internet qui auraient autrement pu être empêtrées dans des affaires pénales pour avoir accédé à des pages Web accessibles au monde entier. La balle est maintenant dans le camp de LinkedIn et cela pourrait très bien s'avérer être un argument de liberté d'expression.

Le verdict final ira au-delà de LinkedIn et de hiQ Labs et pourrait créer un précédent sur le degré de contrôle que les entreprises auront sur les données accessibles au public hébergées par leurs services. Nous pensons qu'il ne devrait y avoir absolument aucune restriction à l'accès aux données publiques sur Internet, et que l'innovation ne doit pas être freinée par l'armement légal ou la poursuite du programme anticoncurrentiel d'un petit groupe d'entreprises puissantes.