Portia Alternatives pour l'extraction de données Web

Publié: 2019-07-15

Table des matières afficher

Quels sont les avantages des scrapers Web visuels ?

Dans quels domaines les scrapers Web visuels sont-ils insuffisants ?

Quelles autres alternatives avons-nous ?

Fournisseurs DaaS vs équipe interne ?

Conclusion

Portia était un outil visuel qui permettait aux utilisateurs d'explorer des sites Web sans avoir aucune connaissance en programmation. Il s'agissait d'un service hébergé, mais en raison de la diminution de l'utilisation des grattoirs visuels, il a été supprimé et n'est plus utilisé aujourd'hui. Alors, comment les gens utilisaient-ils Portia lorsqu'elle existait ? Pour utiliser Portia, vous devez entrer le modèle d'URL à visiter, puis sélectionner des éléments dans ces pages Web avec des gestes pointer-cliquer, ou en utilisant CSS ou XPath. Malgré sa facilité d'utilisation, les plus gros problèmes avec Portia étaient les suivants :

C'était un outil qui prenait beaucoup de temps à contrôler par rapport à d'autres outils de grattage Web open source.
La navigation sur les sites Web était difficile à gérer.
Vous deviez mentionner les pages cibles lorsque vous avez commencé à explorer pour empêcher Portia de visiter des URL inutiles.
Il n'y avait aucun moyen de brancher une base de données pour enregistrer vos points de données récupérés.

Quels sont les avantages des scrapers Web visuels ?

Lorsque vous avez besoin d'un grattage Web ponctuel, vous pouvez utiliser un grattoir Web visuel, mais son utilisation dans le cadre d'un flux de travail d'entreprise n'est pas recommandée. Si vous dirigez une entreprise où vous avez besoin d'explorer des données à partir de très peu de pages Web statiques, et cela aussi très occasionnellement (disons une fois par mois), vous pouvez avoir quelqu'un dans votre équipe qui sait quelles données doivent être extraites pour comprendre le fonctionnement d'un grattoir Web visuel en quelques heures, puis extraction de données Web de temps en temps. Les robots d'exploration Web visuels sont particulièrement utiles pour les petites entreprises qui n'ont pas d'équipe technique et qui ont des exigences de raclage minutieuses.

Un robot d'exploration Web visuel est presque identique à quelqu'un qui clique sur "inspecter les éléments" sur une page Web et copie-colle des données à partir du contenu HTML. Au lieu de cela, lorsque vous utilisez un grattoir Web visuel, vous finissez par cliquer sur une partie de la page Web et le logiciel copie les données pour vous à l'emplacement de votre choix.

Alternatives à Portia

Dans quels domaines les scrapers Web visuels sont-ils insuffisants ?

Les grattoirs visuels, cependant, ne sont pas à la hauteur lorsque vous avez de gros travaux à faire.

Vous devrez peut-être inclure le grattage de certaines données dans le cadre de votre flux de travail d'entreprise (qui devrait être automatisé).
Les données peuvent devoir être récupérées sur des centaines ou des milliers de pages et être actualisées très fréquemment.

Il peut être nécessaire de disposer d'un flux en direct de données extraites pour un module métier particulier. Dans la plupart des cas ci-dessus, un grattoir Web basé sur du code serait beaucoup plus pratique qu'un grattoir visuel.

La plupart des projets de grattage en masse ont besoin d'explorer une tonne de pages Web similaires pour extraire des données Web sur différents éléments. Ces éléments peuvent aller des informations sur les vols sur les sites de réservation en ligne aux détails des produits sur les sites de commerce en ligne. La logique appliquée dans de tels scénarios est que vous essayez de comprendre le modèle dans lequel les données sont stockées dans des pages Web à l'aide de quelques pages Web, et utilisez un code qui peut non seulement explorer des pages avec exactement la même structure, mais même des pages avec une structure similaire. . De plus, lors du grattage de toutes les pages disponibles sur un site Web, les pages avec une certaine structure peuvent devoir être ignorées. Toutes ces personnalisations ne sont pas possibles sur un scraper visuel et donc, scraper trop de pages à l'aide d'un scraper visuel n'est pas recommandé.

D'autre part, en raison des changements d'apparence des sites Web toutes les quelques semaines ou tous les mois, vous devrez peut-être entraîner votre grattoir Web visuel chaque fois que l'interface utilisateur d'un site Web change. D'autre part, lors de l'utilisation d'un grattoir basé sur du code, une modification de l'interface utilisateur peut même ne nécessiter aucune modification du grattoir, car le site Web peut rester structurellement le même. Même s'il y a des changements dans l'interface utilisateur qui peuvent nécessiter un changement dans le scraper, les changements sont généralement minimes et ajuster le scraper aux changements est assez simple.

Quelles autres alternatives avons-nous ?

Il existe de nombreuses alternatives à Portia. Des langages tels que Python, R et Golang sont utilisés par les développeurs et les équipes de grattage Web du monde entier pour extraire des données Web à partir de pages Web. De nouvelles façons sont en cours de développement pour accélérer le processus. Par exemple, à l'aide de la programmation parallèle et de la mise en cache dans Golang, à l'aide du package appelé Colly, vous pouvez utiliser des paramètres personnalisés comme ceux-ci :

Le nombre de pages que vous souhaitez explorer simultanément à un moment donné.
Profondeur maximale à laquelle le scraper doit aller une fois qu'il commence à scraper à partir d'une page Web. (Ce que cela signifie, c'est que si vous définissez la profondeur maximale sur 3, il explorera la page d'accueil, accédera à une URL qui s'y trouve, l'explorera, puis accédera à une URL trouvée dans cette page et l'explorera également, mais maintenant dans la troisième page s'il trouve une URL, il n'ira pas plus loin).
Vous pouvez définir une vérification des mots présents dans les URL - c'est-à-dire que si un mot est présent dans une URL, la page Web de cette URL doit être supprimée. Ou vous pouvez définir des exclusions - les URL avec un mot particulier ne doivent pas être accessibles par le scraper.

Ce ne sont là que quelques exemples des centaines de minuscules fonctionnalités que vous obtenez lorsque vous créez vous-même un grattoir Web.

Fournisseurs DaaS vs équipe interne ?

La plupart des entreprises qui n'ont pas d'équipe technique, ou même des membres sans connaissances de base d'un langage de script, devraient essayer de ne pas commencer à constituer une équipe de scraping interne. La raison derrière cela est simple. L'argent que vous dépensez pour recruter des développeurs, puis les amener à créer et à maintenir un tout nouveau système de grattage Web pour les besoins de votre entreprise serait énorme. Et en fin de compte, si vous êtes une petite entreprise et que le web scraping n'est pas le carburant de votre entreprise (c'est-à-dire que votre entreprise n'est pas centrée sur les données que vous explorez sur le Web), cela n'a aucun sens de créer un équipe interne.

La solution simple, dans ce cas, ce sont les fournisseurs DaaS qui prennent vos exigences et vous fournissent vos données dans un format de votre choix. Notre équipe de PromptCloud est très fière de réduire le scraping Web à un processus en deux étapes pour les entreprises et les entreprises.

Conclusion

Bien que les outils visuels soient bons pour les équipes commerciales, nous pouvons convenir que le web scraping n'est pas une simple tâche commerciale. C'est une tâche qui doit être efficace, rapide et entièrement personnalisable. Si vous avez des besoins de grattage Web en grand volume ou si vous souhaitez extraire des données Web à une échelle beaucoup plus grande, il est recommandé d'utiliser des services de grattage Web.

Si vous n'êtes pas adepte de la programmation ou si vos besoins sont complexes, vous pouvez utiliser un fournisseur de services entièrement géré comme PromptCloud pour obtenir des données propres de manière automatisée sans aucun problème technique ni apprentissage d'aucun outil.