5 najczęstszych przypadków użycia scrapingu danych z YouTube za pomocą analizy słów kluczowych

Opublikowany: 2022-06-16
Spis treści pokaż
Lista słów kluczowych
Porównaj hashtagi
Znajdowanie popularnych kanałów
Śledzenie popularności kanału
Nagrywanie wyświetleń filmów
Korzystanie z kodu robota YouTube
Używanie BeautifulSoup (BS4) do wyodrębniania punktów danych
Punkty danych, które możesz zeskrobać z YouTube
Tytuł
Nazwa kanału
Liczba wyświetleń
Popularność
Subskrypcje
HASHTAGI
Wniosek

YouTube stał się wyraźnym zwycięzcą wśród wszystkich innych witryn do udostępniania filmów, których liczba widzów rośnie każdego dnia. Chociaż mówi się, że ta platforma do oglądania filmów jest wyceniana na ponad 160 miliardów dolarów. Liczba osób, które zarabiają na życie za pośrednictwem strony internetowej, jest również ogromna, podobnie jak ich dochody z tworzenia filmów. Ci twórcy treści dołączają do programu partnerskiego YouTube i zaczynają zarabiać na swoich treściach, co prowadzi do zarobienia mnóstwa pieniędzy dzięki reklamom displayowym i reklamom polecającym. Dane z YouTube są przydatne w wielu różnych zastosowaniach, wymienionych poniżej:

Lista słów kluczowych

Podczas wyszukiwania, aby znaleźć najpopularniejsze filmy wyświetlane w YouTube dla określonych słów. W wynikach wyszukiwania zobaczysz mnóstwo filmów informacyjnych. Tam, gdzie możesz zeskrobać punkty danych, takie jak upodobania, antypatie, wyświetlenia i tytuły każdego z tych filmów, możesz stworzyć listę słów kluczowych, które po wstawieniu do tytułów YouTube mogą prowadzić do lepszych przychodów.

Porównaj hashtagi

Porównując polubienia i wyświetlenia filmów z konkretnym hashtagiem, możesz lepiej zorientować się, jakich hashtagów użyć w swoim filmie, aby uczynić go bardziej popularnym, lub zrozumieć rodzaj hashtagów, które mogłyby lepiej pasować do tytułu filmu, a nawet treści .

Znajdowanie popularnych kanałów

Wyodrębnienie najlepszych filmów z YouTube może pomóc w utworzeniu wykresu częstotliwości nazw kanałów wyświetlanych po uruchomieniu zapytania wyszukiwania. Dzięki temu możesz znaleźć najlepsze kanały, które ludzie lubią oglądać. Ten proces z kolei pomoże Ci również zrozumieć, jakie tematy są najpopularniejsze wśród widzów YouTube.

Śledzenie popularności kanału

Wyodrębniając dane z nowo przesłanych filmów z określonego kanału YouTube, będziesz w stanie sprawdzić, czy popularność kanału rośnie, maleje, czy też jest w stagnacji. Możesz także znaleźć informacje o filmach, które prowadzą na listach przebojów.

Nagrywanie wyświetleń filmów

Możesz utworzyć wykres z czasem na osi X i polubieniami, niechęciami lub wyświetleniami na osi y, zbierając dane z tych filmów w regularnych odstępach czasu. Ponieważ wyjaśniliśmy już proces instalacji i inicjalizacji w poprzednim „Jak zeskrobać dane z wiki”, mamy nadzieję, że będziesz w stanie uruchomić kod za pomocą polecenia Pythona, wprowadzając adres URL wideo YouTube, gdy zostaniesz o to poproszony.

skrobanie danych z YouTube za pomocą analizy słów kluczowych

Korzystanie z kodu robota YouTube

Jak zwykle zaczynamy od zeskrobania kodu HTML ze strony internetowej i zapisania go do pliku w naszym lokalnym katalogu, abyśmy mogli go przeanalizować i znaleźć punkty danych, które można łatwo wyodrębnić i które również byłyby cenne. Większość badań punktów danych na stronie HTML należy przeprowadzić ręcznie, wyszukując określone słowa kluczowe lub wartości i znajdując, gdzie one występują.

Używanie BeautifulSoup (BS4) do wyodrębniania punktów danych

Element span z klasą „yt-subscription-button-subscriber count-branded-horizontal yt-subscriber-count” to taki, z którego można wyodrębnić liczbę subskrybentów kanału, który przesłał dany film. Chociaż znalezienie hashtagów powiązanych z danym filmem jest nieco bardziej skomplikowane niż inne punkty danych. Najpierw musisz wyodrębnić wszystkie spany za pomocą klasy „standalone-collection-badge-renderer-text”, a stamtąd musisz wyodrębnić wszystkie tagi a za pomocą klasy „yt-uix-sessionlink”.

  • Element typu span mający klasę „watch-title” to miejsce, w którym można znaleźć tytuł filmu.
  • Element script o typie „application/ld+json” zawiera nazwę kanału.
  • Element div z klasą watch-view-count pomoże Ci uzyskać liczbę wyświetleń tego konkretnego filmu
  • Element przycisku o tytule „Podoba mi się to” zawiera liczbę polubień tego konkretnego filmu.
  • Element przycisku o tytule „Nie podoba mi się to” zawiera liczbę negatywnych opinii w konkretnym filmie.

Wyodrębniając tekst ze wszystkich tagów a do tablicy, będziesz mógł utworzyć listę hashtagów. Ta tablica może zostać dodana do wyniku JSON pod określonym kluczem o nazwie „HASH_TAGS”, aby uzyskać informacje w ustrukturyzowanym formacie w końcowym wyniku w JSON.

Punkty danych, które możesz zeskrobać z YouTube

Korzystając ze skryptu i kodu Pythona, możesz zeskrobać określone punkty danych z dowolnego filmu na YouTube, o ile posiadasz ich adres URL. W niektórych filmach może brakować tylko pola hashtags, ponieważ nie jest to pole obowiązkowe na stronach z filmami YouTube. Punkty danych, które można zeskrobać, są następujące:

Tytuł

Najważniejszym punktem danych jest ten, który wyodrębniamy od samego początku. Tytuł filmu zawiera wiele informacji i ma ogromne znaczenie, bez których wszystkie inne punkty danych nie miałyby żadnego sensu.

Nazwa kanału

Tuż po tytule nazwa kanału jest ważna dla powiązania tytułu z twórcą. Możesz uzyskać szczegółowe informacje o tym, kto stworzył treść. Zwłaszcza w YouTube filmy są kojarzone według nazw kanałów, a nie twórców, ponieważ w wielu przypadkach nad filmami na jednym kanale pracuje więcej niż jedna osoba.

Liczba wyświetleń

Najprostszym wskaźnikiem pozwalającym zrozumieć zasięg filmu jest określenie liczby jego wyświetleń. Jest to również najważniejszy wskaźnik związany z filmem w YouTube i pod wieloma względami określa, jakie przychody zarobi twórca wideo.

Popularność

Polubienia filmu na YouTube to po prostu procent widzów, który polubił film na tyle, aby kliknąć przycisk kciuka w górę poniżej, aby obejrzeć film. Podobnie jak w przypadku powyższego punktu danych, liczba negatywnych opinii określa liczbę kliknięć przycisku niechęci dla filmu.

Subskrypcje

Podczas gdy sympatie, antypatie i wyświetlenia obrazują popularność pojedynczego filmu na YouTube, liczba subskrypcji daje lepsze wyobrażenie o popularności kanału YouTube. W przypadku kanałów YouTube nie mamy innych danych. Liczba subskrypcji jest jedynym pojedynczym punktem danych i im jest wyższa, tym bardziej popularny jest dany kanał YouTube.

HASHTAGI

Hashtagi stały się popularnym sposobem na umożliwienie wyszukiwania treści w różnych mediach. Czy to posty na Facebooku, czy zdjęcia na Instagramie, ludzie używają dziś hashtagów z różnymi rodzajami treści online, dzięki czemu różne rodzaje treści mogą być ze sobą powiązane. To jest powód, dla którego „trenujące hashtagi” są dzisiaj czymś ważnym.

Wniosek

Chociaż kod Pythona może wyodrębnić tylko niektóre określone punkty danych ze strony wideo YouTube, eksploracja stron HTML z różnych stron YouTube może pomóc w znalezieniu większej liczby punktów danych, które występują pod podobnymi elementami HTML. Web scraping nie ma twardych i szybkich zasad, ponieważ same strony internetowe ciągle się zmieniają. Dlatego nauczenie się, jakie dane należy zeskrobać i jak zeskrobać, jest czymś, co można zebrać tylko na podstawie doświadczenia, zeskrobując różne strony internetowe i mając różne formaty danych.