Najlepsze przykłady skrobania stron internetowych — od Promptcloud

Opublikowany: 2019-08-19
Spis treści pokaż
Pozyskiwanie danych dotyczących nieruchomości za pomocą Pythona
Pozyskiwanie danych hoteli z najlepszych portali turystycznych
Pozyskiwanie danych z mediów społecznościowych
Skrobanie tekstów piosenek za pomocą Pythona z witryn takich jak Genius️
Zdrap dane giełdowe Python ze stron podobnych do Yahoo️ Finance
Zdrap dane produktu, ceny i recenzje z witryn eCommerce
Witryny Scrape News Dane z witryn takich jak BBC, New York Times, Al Jazeera
Skrobanie danych zadania
Skrobanie obrazu i danych tekstowych wymaganych do badań
Skrobanie stron internetowych w celu tworzenia treści

Dane stały się kluczowym elementem strategii rozwoju każdej firmy. Jeśli chodzi o zbieranie danych, dostępnych jest wiele źródeł. Jednak ręczne zbieranie danych jest trudne z dwóch powodów – a) zwiększonej szansy na pomyłki oraz b) czasochłonnego procesu. Lepszym sposobem zbierania danych jest indeksowanie danych z sieci, w skrócie, web scraping. Po skonfigurowaniu systemu do indeksowania danych z niektórych witryn i wykorzystaniu zebranych danych w ramach przepływu pracy biznesowej możesz korzystać z tego samego systemu przez wiele lat. Dzisiaj omówimy niektóre z najlepszych przykładów skrobania sieci, z którymi zetknęliśmy się w PromptCloud.

Pozyskiwanie danych dotyczących nieruchomości za pomocą Pythona

To jedna z najbardziej poszukiwanych danych na świecie. Większość książek lub kursów dotyczących uczenia maszynowego zaczyna się od zestawu domów, ich szczegółów i ich cen, aby nauczyć regresji liniowej przed przejściem do złożonych modeli ML. Niektóre z najlepszych witryn internetowych dotyczących nieruchomości w Stanach Zjednoczonych zawierają miliony rekordów domów zarówno na rynku, jak i poza nim. Zawierają nawet ceny wynajmu, szacunkowe ceny domów po kilku latach itp. Zebraliśmy dane z wiodących witryn i możesz sprawdzić te linki wraz z plikami JSON z wieloma punktami danych.

Przykład 1

[język kodu=”python”] {
„opis”: „327 101st St #1A, Brooklyn, NY to dom z 3 łóżkami i 3 łazienkami o powierzchni 1302 stóp kwadratowych w wykluczeniu. Zaloguj się do Trulia, aby otrzymać wszystkie informacje o wykluczeniu.”,
„link”: „https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"Cena £": {
„kwota”: „510000”,
"Waluta: USD"
},
„szeroki opis”: „Bardzo duża jednostka dwupoziomowa z 1. piętrem z wykończonym pokojem rekreacyjnym, pokojem rozrywkowym i pół-łazienką. Drugi poziom składa się z 2 sypialni, 2 pełnych łazienek, salonu/jadalni i przestrzeni na zewnątrz. Są widoki mostu Verrazano. n Zobacz nasze przewodniki dotyczące wykluczeń”,
"Przegląd": [
„Mieszkanie”,
„3 Łóżka”,
„3 wanny”,
„Zbudowany w 2006 roku”,
„5 dni na Trulia”,
„1302 stóp kwadratowych”,
„392 USD/m²”,
„143 odsłon”
] }
[/kod]

Przykład 2

[język kodu=”python”] {
„Szczegóły_szerokie”: {
„Liczba pokoi”: 4,
„Rozmiar podłogi (w metrach kwadratowych)”: „1728”
},
"Adres zamieszkania": {
„Ulica”: „638 Grant Ave”,
„Miejscowość”: „North Baldwin”,
„Region”: „NY”,
„Kod pocztowy”: „11510”
},
„Tytuł”: „638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zillow”,
„Detail_Short”: „638 Grant Ave , North Baldwin, NY 11510-1332 to dom jednorodzinny wystawiony na sprzedaż za 299 000 USD. Dom o powierzchni 1728 stóp kwadratowych ma 4 łóżka i 2 łazienki. Znajdź 31 zdjęć domu przy 638 Grant Ave na Zillow. Zobacz więcej szczegółów dotyczących nieruchomości, historii sprzedaży i danych Zestimate w Zillow. Numer MLS 3137924”,
„Cena w $”: 299000,
„Obraz”: „https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/kod]

Pozyskiwanie danych hoteli z najlepszych portali turystycznych

Strony internetowe do rezerwacji hoteli zawierają mnóstwo danych, takich jak ceny, recenzje, oceny, liczba osób, które oceniły hotel i inne. W innym artykule pokazaliśmy, jak przeszukiwać dane od największej firmy rezerwującej recenzje hoteli.

Korzystając z biblioteki analizującej HTML o nazwie Beautiful Soup, byliśmy w stanie przeszukać wiele punktów danych. Korzystając z małego fragmentu kodu podanego poniżej, możesz wejść na stronę, pobrać zawartość HTML i przekonwertować ją na obiekt Beautiful Soup. Po wykonaniu tej czynności parsowanie obiektu i znajdowanie określonych punktów danych w określonych znacznikach, które mają określone atrybuty, jest prostym zadaniem.

[język kodu=”python”] warnings.simplefilter(„ignore”)#Do ignorowania błędów certyfikatu SSL
ctx = ssl.utwórz_domyślny_kontekst()
ctx.check_hostname = Fałsz
ctx.verify_mode = ssl.CERT_Brak
url=input("Wprowadź adres URL hotelu – ")
html = urllib.request.urlopen(url, context=ctx).read()
zupa = PięknaZupa(html, 'html.parser')
html = zupa.prettify("utf-8")
hotel_json = {}
[/kod]

Kod, aby pobrać zawartość HTML strony internetowej i przekonwertować ją na obiekt Beautiful Soup.

Pozyskiwanie danych z mediów społecznościowych

Jednym z największych źródeł danych użytkowników są media społecznościowe. Niezależnie od tego, czy chcesz sprawdzić, czy ludzie lubią konkretną piosenkę, film lub firmę, dane z mediów społecznościowych mogą pomóc Ci zrozumieć nastroje użytkowników, a także śledzić publiczną reputację Twojej firmy. W PromptCloud zebraliśmy dane z Twitter️, Instagram️, a nawet YouTube️. Punkty danych we wszystkich trzech były różne. Na przykład z Instagrama zbieranie danych działa tak..

[język kodu=”python”] Użytkownik: Ariana Grande (@arianagrande)
Obserwujący: 130,5 m
Obserwujesz: 1348
Posty: 3669
[/kod]

Dane zeskrobane z kont na Instagramie

Jednak punkty danych, które zebraliśmy z YouTube️, były zupełnie inne. Przykładem są dane zebrane ze słynnej piosenki, która doprowadziła do samego wyzwania online.

[język kodu=”python”]

{
„TITLE”: „Drake – In My Feelings (teksty, audio) „Kiki Czy mnie kochasz””,
„CHANNEL_NAME”: „Specjalna jedność”,
„NUMBER_OF_VIEWS”: „278 121 686 wyświetleń”,
„LUBIE”: „2407,688”,
„NIE LUBI”: „114.933”,
„NUMBER_OF_SUBSCRIPTIONS”: „614K”,
„HASH_TAGS”: [
„#InMyFeelings”,
"#Kaczor",
"#Skorpion"
] }
[/kod]

Dane zeskrobane ze stron YouTube️

W przypadku Twittera należy zauważyć, że potrzebowaliśmy konta programisty, a także mogliśmy indeksować tweety dla każdego konta, tylko do liczby ostatnich 3240 tweetów tego konkretnego użytkownika. W związku z tym widać, że różne przykłady web scrapingu mogą mieć różne podejścia, a także wyniki.

Skrobanie tekstów piosenek za pomocą Pythona z witryn takich jak Genius️

Skrobanie tekstów piosenek to coś, co ludzie robili od niepamiętnych czasów. Jedyną różnicą jest to, że teraz możesz znacznie łatwiej przeszukiwać teksty piosenek w kilka sekund, używając fragmentu kodu, zamiast spędzać godziny lub minuty na robieniu tego ręcznie. Jednym z takich przykładów jest ten artykuł, w którym pokazaliśmy, jak indeksować teksty piosenek i inne powiązane dane z popularnej witryny muzycznej o nazwie Genius.

Ponieważ strona internetowa zawiera znacznie więcej niż tylko teksty piosenek, byliśmy w stanie zebrać dane, takie jak komentarze, tytuły i datę wydania.

Zdrap dane giełdowe Python ze stron podobnych do Yahoo️ Finance

Dane giełdowe to jedno ogromne repozytorium danych, które są zwykle analizowane przez osoby badające rynek i decydujące, gdzie postawić zakłady. Dużą wartość mają zarówno dane bieżące, jak i historyczne. Jedną z witryn, które można łatwo zeskrobać w celu przechwycenia informacji giełdowych o różnych firmach, jest Yahoo Finance. Informacje o akcjach oznaczają nie tylko aktualne ceny akcji, ponieważ dzięki temu procesowi byliśmy w stanie zindeksować również wiele innych punktów danych.

To są punkty danych, które zebraliśmy dla Apple️

[język kodu=”python”] {
„PRESENT_VALUE”: „198,87”,
„OBECNY_WZROST”: „-0,08 (-0,04%)”,
"INNE SZCZEGÓŁY": {
„PREV_CLOSE”: „198,95”,
„OTWÓRZ”: „199.20”,
„OFERTA”: „198,91 x 800”,
„ZAPYTAJ”: „198,99 x 1000”,
„TD_VOLUME”: „27 760 668”,
„ŚREDNIA_WOLUMEN_3 MIESIĄC”: „28 641 896”,
„WSPÓŁPRACA_RYNKOWA”: „937.728B”,
„BETA_3Y”: „0,91”,
„WSKAŹNIK PE_RATIO”: „16,41”,
„WSKAŹNIK_EPS”: „12.12”,
„DATA_ZARODÓW”: [
„30 kwi 2019”
],
„DZIELNICAEND_I_ZYSK”: „2,92 (1,50%)”,
„EX_DIVIDEND_DATE”: „2019-02-08”,
„ONE_YEAR_TARGET_PRICE”: „193.12”
}
}
[/kod]

Zdrap dane produktu, ceny i recenzje z witryn eCommerce

Aby uzyskać informacje o różnych produktach i ich obecnych cenach rynkowych, nie ma lepszego miejsca do gromadzenia danych niż duże firmy eCommerce, takie jak Amazon️. Chociaż Amazon️ ma różne układy stron w różnych kategoriach i podkategoriach, a nawet w różnych regionach świata, możesz bezpiecznie indeksować niewielką ilość danych w ograniczonych kategoriach, jak pokazaliśmy na tej stronie, gdzie zebraliśmy dane produktów i informacje o cenach .

Korzystając z kodu, możesz wyodrębnić cenę artykułu i jego najważniejsze cechy. Gdy linki, które będziesz regularnie indeksować, będą gotowe, możesz uruchamiać swój kod z określoną częstotliwością. W ten sposób będziesz mógł śledzić zmiany cen tego przedmiotu i czerpać z niego korzyści.

Witryny Scrape News Dane z witryn takich jak BBC, New York Times, Al Jazeera

Agregatory wiadomości są dziś bardzo poszukiwane. Stanowią jeden z najlepszych przykładów web scrapingu, który bezpośrednio pomógł użytkownikom zwiększyć ich produktywność. Ludzie nie mają już czasu na przeglądanie gazet, a nawet całych stron internetowych. Co zatem robią agregatory wiadomości inaczej?

  • Agregatory wiadomości gromadzą wiadomości i wyświetlają tylko jedną lub dwie linijki wyjaśniające pokrótce artykuł z wiadomościami. Jeśli chcesz dowiedzieć się więcej, możesz kliknąć link, który przekieruje Cię do rzeczywistej strony z wiadomościami.
  • Gromadzą artykuły z dużych agencji informacyjnych, takich jak BBC️ i New York Times️, co często pomaga w uzyskaniu pełniejszego obrazu z większą ilością szczegółów.
  • Z czasem aplikacja ustala Twoje upodobania i niechęci oraz prezentuje artykuły z wiadomościami w zależności od Twojego wcześniejszego użycia.

Widzisz, to niektóre z rzeczy, które wyróżniają agregatory wiadomości, a jednak pierwszym krokiem we wszystkich tych procesach jest agregowanie danych, które często jest po prostu zeskrobywaniem artykułów z różnych stron internetowych.

Skrobanie danych zadania

Rekrutacja to jedna z branż, która, podobnie jak branża nieruchomości, zyskała ogromny rozkwit dzięki web scrapingowi i boomowi internetowemu. W dzisiejszych czasach możesz indeksować oferty pracy zarówno ze stron firmowych, jak i popularnych internetowych tablic ogłoszeniowych, a następnie wykorzystać zebrane dane do rozwoju swojej firmy. Niezależnie od tego, czy jesteś firmą rekrutacyjną, firmą konsultingową, czy sam prowadzisz tablicę ogłoszeń o pracę, skrobanie danych o pracę jest koniecznością. Jedno z naszych wielu rozwiązań do skrobania stron internetowych, JobsPikr, bardzo ułatwia uzyskiwanie zaktualizowanych ofert pracy w celu zarządzania strategicznym planowaniem siły roboczej i efektywnym prowadzeniem firmy. Jest to całkowicie autonomiczne narzędzie do wyszukiwania ofert pracy, które może pobrać nową ofertę pracy za pomocą filtrów, takich jak tytuł, lokalizacja, stanowisko i inne.

Skrobanie obrazu i danych tekstowych wymaganych do badań

Ogromna ilość danych jest wymagana w projektach badawczych podczas pracy na różnych modelach uczenia maszynowego. Nawet aby nauczyć komputer rozróżniać obraz psa i kota, potrzeba tysięcy zdjęć psów i kotów. Takie wymagania dotyczące danych są rozwiązywane za pomocą rozwiązań do przeszukiwania sieci, a naukowcy indeksują dziś obrazy Google i inne źródła obrazów, aby uzyskać obrazy do swoich projektów. Wykorzystałem dane z Twittera, aby zebrać obrazy, które zostały przesłane do serwisu społecznościowego podczas powodzi. Próbowałem oddzielić obrazy związane z powodzią od tych, które nie były.

Skrobanie stron internetowych w celu tworzenia treści

Firmy muszą regularnie tworzyć wysokiej jakości treści, aby zwiększyć widoczność, edukować klientów, budować markę i zwiększać sprzedaż. Pozyskiwanie treści w Internecie pomaga osobom zajmującym się marketingiem i reklamą w zdobywaniu lepszych pomysłów, burzy mózgów i wymyślaniu nowych sposobów przyciągania klientów i zwiększania sprzedaży.

Podczas gdy wyjaśniliśmy niektóre przykłady web scrapingu, możliwości są nieskończone, a web scraping to coś, z czego mogą skorzystać różne firmy w różnych scenariuszach. W ostatecznym rozrachunku pomaga w podejmowaniu mądrzejszych procesów i decyzji, wykorzystując moc danych.