Les meilleurs exemples de scraping Web - par Promptcloud

Publié: 2019-08-19
Table des matières afficher
Récupération de données immobilières à l'aide de Python
Extraction des données hôtelières des principaux portails de voyage
Scraping des données des médias sociaux
Gratter les paroles de chansons en utilisant Python à partir de sites comme Genius️
Grattez les données boursières Python à partir de sites comme ceux de Yahoo️ Finance
Extrayez les données, les prix et les avis sur les produits des sites Web de commerce électronique
Grattez les données des sites Web d'actualités à partir de sites Web comme la BBC, le New York Times, Al Jazeera
Récupération des données de travail
Gratter les images et les données textuelles nécessaires à la recherche
Scraping Web pour la création de contenu

Les données sont devenues un élément clé de la stratégie de croissance de chaque entreprise. Lorsqu'il s'agit de collecter des données, de nombreuses sources sont disponibles. Cependant, la collecte manuelle des données est difficile pour deux raisons : a) un risque accru d'erreurs et b) un processus qui prend du temps. Une meilleure façon de collecter des données consiste à explorer les données sur le Web, en bref, le grattage Web. Une fois que vous avez configuré un système pour explorer les données de certains sites et utiliser les données récupérées dans votre flux de travail d'entreprise, vous pouvez continuer à utiliser le même système pendant de nombreuses années. Aujourd'hui, nous discuterons de certains des meilleurs exemples de grattage Web que nous avons rencontrés chez PromptCloud.

Récupération de données immobilières à l'aide de Python

C'est l'une des données les plus recherchées au monde. La plupart des livres ou des cours d'apprentissage automatique commencent par un ensemble de maisons, leurs détails et leurs prix pour enseigner la régression linéaire avant de passer à des modèles ML complexes. Certains des meilleurs sites Web immobiliers aux États-Unis contiennent des millions d'enregistrements de maisons sur le marché ou non. Ils contiennent même des prix de location, des estimations des prix des maisons après quelques années, etc. Nous avons extrait les données des principaux sites et vous pouvez vérifier ces liens avec les fichiers JSON avec les multiples points de données.

Exemple 1

[code language="python"] {
"description": "327 101st St # 1A, Brooklyn, NY est une maison de 3 chambres, 3 salles de bain, 1302 pieds carrés en forclusion. Connectez-vous à Trulia pour recevoir toutes les informations de forclusion. »
"lien": "https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215",
"le prix": {
"montant": "510000",
"Devise: USD"
},
"description large": "Très grande unité duplex avec 1er étage comprenant une salle de loisirs finie, une salle de divertissement et une salle d'eau. Le deuxième niveau comprend 2 chambres, 2 salles de bain complètes, un salon/salle à manger et un espace extérieur. Il y a des vues sur le pont de Verrazano.n Consultez nos guides de forclusion »,
"Aperçu": [
« Copropriété »,
"3 lits",
"3 Bains",
"Construit en 2006",
"5 jours sur Trulia",
"1 302 pieds carrés",
"392 $/pi²",
"143 vues"
] }
[/code]

Exemple 2

[code language="python"] {
"Details_Broad": {
"Nombre de chambres": 4,
"Taille du sol (en pieds carrés)": "1 728"
},
"Adresse": {
"Rue": "638 Grant Ave",
"Localité": "North baldwin",
"Région": "NY",
« Code postal » : « 11510 »
},
"Titre": "638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zillow",
"Detail_Short": "638 Grant Ave, North baldwin, NY 11510-1332 est une maison unifamiliale mise en vente à 299 000 $. La maison de 1 728 pieds carrés est une propriété de 4 chambres et 2,0 salles de bain. Retrouvez 31 photos de la maison du 638 Grant Ave sur Zillow. Affichez plus de détails sur la propriété, l'historique des ventes et les données Zestimate sur Zillow. MLS # 3137924",
"Prix en $": 299000,
"Image": "https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg"
}
[/code]

Extraction des données hôtelières des principaux portails de voyage

Les sites Web de réservation d'hôtels contiennent une tonne de données telles que les prix, les avis, les notes, le nombre de personnes qui ont évalué l'hôtel, etc. Nous avons montré comment explorer les données de la plus grande société de réservation d'avis d'hôtels dans un autre article.

En utilisant la bibliothèque d'analyse HTML appelée Beautiful Soup, nous avons pu explorer plusieurs points de données. En utilisant le petit morceau de code ci-dessous, vous pouvez accéder au site Web, obtenir le contenu HTML et le convertir en un objet Beautiful Soup. Une fois cela fait, analyser l'objet et trouver des points de données spécifiques dans des balises spécifiques qui ont certains attributs est une tâche simple.

[code language=”python”] warnings.simplefilter(“ignore”)#Pour ignorer les erreurs de certificat SSL
ctx = ssl.create_default_context()
ctx.check_hostname=Faux
ctx.verify_mode = ssl.CERT_NONE
url=input("Entrez l'url de l'hôtel - ")
html = urllib.request.urlopen(url, context=ctx).read()
soupe = BelleSoup(html, 'html.parser')
html = soup.prettify("utf-8")
hôtel_json = {}
[/code]

Code pour obtenir le contenu HTML d'une page Web et le convertir en un objet Beautiful Soup.

Scraping des données des médias sociaux

Les médias sociaux sont l'une des principales sources de données sur les utilisateurs. Que vous souhaitiez vérifier si les gens aiment une chanson en particulier, un film ou une entreprise, les données des médias sociaux peuvent vous aider à comprendre les sentiments des utilisateurs et à suivre la réputation publique de votre entreprise. Chez PromptCloud, nous avons extrait des données de Twitter️, Instagram️ et même YouTube️. Les points de données dans les trois étaient différents. Par exemple, depuis Instagram, le data scraping fonctionne comme ça..

[code language= »python »] Utilisateur : Ariana Grande (@arianagrande)
Abonnés : 130,5 m
Suivi : 1 348
Postes : 3 669
[/code]

Données extraites des comptes Instagram

Cependant, les points de données que nous avons extraits de YouTube️ étaient entièrement différents. Un exemple est les données extraites d'une chanson célèbre qui ont conduit à un défi en ligne lui-même.

[langage de code = "python"]

{
« TITRE » : « Drake – In My Feelings (Paroles, Audio) » Kiki, tu m'aimes » »,
"CHANNEL_NAME": "Unité spéciale",
"NUMBER_OF_VIEWS": "278 121 686 vues",
"J'AIME": "2 407 688",
"N'AIME PAS": "114 933",
"NUMBER_OF_SUBSCRIPTIONS": "614K",
"HASH_TAGS" : [
"#InMyFeelings",
"#Canard",
"#Scorpion"
] }
[/code]

Données extraites des pages YouTube️

Pour Twitter, il convient de noter que nous avions besoin d'un compte développeur, et nous pouvions également explorer les tweets pour chaque compte, uniquement jusqu'au décompte des 3240 derniers tweets de cet utilisateur particulier. Par conséquent, vous pouvez voir que différents exemples de grattage Web peuvent avoir des approches et des résultats différents.

Gratter les paroles de chansons en utilisant Python à partir de sites comme Genius️

Gratter les paroles des chansons est quelque chose qui a été fait par les gens depuis des temps immémoriaux. La seule différence est que vous pouvez maintenant analyser les paroles des chansons beaucoup plus facilement en quelques secondes, en utilisant un morceau de code au lieu de passer des heures ou des minutes à le faire manuellement. Un tel exemple est cet article où nous avons montré comment explorer les paroles de chansons et d'autres données connexes à partir d'un site Web de musique populaire appelé Genius.

Étant donné que le site Web contient bien plus que de simples paroles de chansons, nous avons également pu capturer des points de données tels que des commentaires, des titres et la date de sortie.

Grattez les données boursières Python à partir de sites comme ceux de Yahoo️ Finance

Les données boursières sont un immense référentiel de données qui sont généralement analysées par des personnes qui étudient le marché et décident où placer leurs paris. Les données actuelles et historiques ont beaucoup de valeur. Un site Web qui peut être récupéré assez facilement pour capturer des informations boursières sur différentes sociétés est Yahoo Finance. Les informations sur les actions ne signifient pas seulement les prix actuels des actions, car nous avons également pu analyser de nombreux autres points de données en utilisant ce processus.

Ce sont les points de données que nous avons récupérés pour Apple️

[code language="python"] {
"PRESENT_VALUE": "198.87",
"PRESENT_GROWTH": "-0,08 (-0,04%)",
"AUTRES DÉTAILS": {
"PREV_CLOSE": "198.95",
"OUVERT": "199.20",
« ENCHÈRE » : « 198,91 x 800 »,
« DEMANDER » : « 198,99 x 1000 »,
"TD_VOLUME": "27 760 668",
"VOLUME_MOYEN_3MOIS": "28 641 896",
« MARKET_CAP » : « 937.728B »,
"BETA_3Y": "0.91",
"PE_RATIO": "16.41",
"EPS_RATIO": "12.12",
"GAINS_DATE" : [
“30 avril 2019”
],
"DIVIDEND_AND_YIELD": "2,92 (1,50%)",
"EX_DIVIDEND_DATE": "2019-02-08",
« ONE_YEAR_TARGET_PRICE » : « 193,12 »
}
}
[/code]

Extrayez les données, les prix et les avis sur les produits des sites Web de commerce électronique

Pour obtenir des informations sur différents produits et leurs prix actuels sur le marché, il n'y a pas de meilleur endroit pour recueillir des données que les grandes entreprises de commerce électronique comme Amazon️. Bien qu'Amazon️ ait différentes mises en page dans différentes catégories et sous-catégories et même dans différentes régions du monde, vous pouvez explorer en toute sécurité sur le Web une petite quantité de données dans des catégories limitées, comme nous l'avons montré sur cette page, où nous avons extrait les données produit et les informations de tarification. .

À l'aide du code, vous pouvez extraire le prix d'un article et ses principales caractéristiques. Une fois que les liens que vous devrez explorer régulièrement sont prêts, vous pouvez exécuter votre code à une fréquence particulière. De cette façon, vous pourrez suivre les changements de prix de cet article et en tirer parti.

Grattez les données des sites Web d'actualités à partir de sites Web comme la BBC, le New York Times, Al Jazeera

Les agrégateurs de nouvelles sont en forte demande aujourd'hui. Ils constituent l'un des meilleurs exemples de grattage Web qui ont directement aidé les utilisateurs à augmenter leur productivité. Les gens n'ont plus le temps de parcourir les journaux ou même des pages Web entières. Alors, qu'est-ce que les agrégateurs d'actualités font différemment ?

  • Les agrégateurs de nouvelles rassemblent des nouvelles et ne montrent qu'une ligne ou deux expliquant brièvement un article de presse. Si vous souhaitez en savoir plus, vous pouvez cliquer sur un lien et ils vous dirigeront vers une page Web d'actualités.
  • Ils regroupent des articles de presse de grandes agences de presse comme la BBC️ et le New York Times️ et cela aide souvent à vous fournir une image plus complète avec plus de détails.
  • Au fil du temps, l'application détermine vos goûts et vos aversions et vous présente des articles d'actualité en fonction de votre utilisation passée.

Vous voyez, ce sont quelques-unes des choses qui distinguent les agrégateurs de nouvelles, et pourtant, la première étape de tous ces processus consiste à agréger les données, qui consistent souvent à récupérer des articles de presse de différents sites Web.

Récupération des données de travail

Le recrutement est un secteur qui, à l'instar du secteur de l'immobilier, a connu un énorme essor grâce au web scraping et au boom d'Internet. De nos jours, vous pouvez parcourir les offres d'emploi à la fois sur les sites Web des entreprises et sur les sites d'emploi populaires sur Internet, puis utiliser les données collectées pour dynamiser votre entreprise. Que vous soyez un cabinet de recrutement, un cabinet de conseil ou que vous gériez vous-même un site d'emploi, la collecte des données d'emploi est un must. L'une de nos nombreuses solutions de grattage Web, JobsPikr, permet d'obtenir très simplement des listes d'emplois mises à jour pour gérer votre planification stratégique de la main-d'œuvre et gérer efficacement l'entreprise. Il s'agit d'un outil de recherche d'emploi entièrement autonome qui peut vous apporter une nouvelle liste d'emplois à l'aide de filtres tels que le titre, le lieu, la publication, etc.

Gratter les images et les données textuelles nécessaires à la recherche

Une énorme quantité de données est nécessaire dans les projets de recherche lorsque l'on travaille sur différents modèles d'apprentissage automatique. Même pour entraîner l'ordinateur à faire la différence entre l'image d'un chien et celle d'un chat, vous auriez besoin de milliers d'images de chiens et de chats. Ces exigences en matière de données sont résolues grâce à des solutions de grattage Web et les scientifiques explorent aujourd'hui les images Google et d'autres sources d'images pour obtenir des images pour leurs projets. J'ai utilisé les données de Twitter pour rassembler des images qui ont été téléchargées sur le site de médias sociaux lors d'une inondation. J'essayais de séparer les images liées au déluge de celles qui ne l'étaient pas.

Scraping Web pour la création de contenu

Les entreprises doivent créer régulièrement du contenu de haute qualité pour accroître leur visibilité, éduquer les clients, créer une marque et stimuler les ventes. Récupérer du contenu sur Internet aide les spécialistes du marketing et de la publicité à trouver de meilleures idées, à réfléchir et à trouver de nouvelles façons d'attirer les clients et d'augmenter les ventes.

Bien que nous ayons expliqué certains des exemples de grattage Web, les possibilités sont infinies et le grattage Web est quelque chose dont différentes entreprises peuvent tirer parti dans différents scénarios. En fin de compte, cela aide à rendre les processus et les décisions plus intelligents en utilisant la puissance des données.