키워드 분석을 사용하여 YouTube 데이터를 스크랩하는 상위 5가지 사용 사례
게시 됨: 2022-06-16YouTube는 YouTube 시청자 수가 매일 증가하고 있는 다른 모든 동영상 공유 웹사이트 중에서 확실한 승자로 떠올랐습니다. 이 비디오 시청 플랫폼의 가치는 1600억 달러 이상이라고 합니다. 웹 사이트를 통해 생계를 유지하는 사람들의 수도 방대하고 비디오 제작에 대한 수입도 엄청납니다. 이러한 콘텐츠 제작자는 YouTube 파트너십 프로그램에 가입하고 콘텐츠로 수익을 창출하기 시작하여 디스플레이 광고 및 추천 광고를 통해 많은 돈을 벌게 됩니다. YouTube 데이터는 아래와 같이 다양한 사용 사례에 유용합니다.
키워드 나열
검색을 실행하는 동안 특정 단어에 대해 YouTube에 표시되는 인기 동영상을 찾습니다. 검색 결과에 수많은 정보 동영상이 표시됩니다. 각 동영상의 좋아요, 싫어요, 조회수 및 제목과 같은 데이터 포인트를 스크랩할 수 있는 곳에서 YouTube 제목에 삽입할 때 더 나은 수익으로 이어질 수 있는 키워드 목록을 만들 수 있습니다.
해시태그 비교
특정 해시태그가 있는 동영상의 좋아요 및 조회수를 비교하면 동영상에 어떤 해시태그를 사용하여 동영상을 더 유명하게 만들지 또는 동영상 제목 및 콘텐츠와 더 잘 어울리는 해시태그 유형을 더 잘 이해할 수 있습니다. .
인기 채널 찾기
YouTube에서 인기 동영상을 추출하면 검색어를 실행한 후 표시되는 채널 이름의 빈도 그래프를 만드는 데 도움이 됩니다. 따라서 사람들이 즐겨 시청하는 상위 채널을 찾을 수 있습니다. 이 과정은 또한 YouTube 시청자 사이에서 가장 인기 있는 주제의 종류를 이해하는 데 도움이 될 것입니다.
채널 인기도 추적
특정 유튜브 채널의 새로 업로드된 영상의 데이터를 추출하면 해당 채널의 인기도가 상승 또는 하락하고 있는지, 정체되어 있는지 알 수 있습니다. 차트를 주도하는 동영상에 대한 정보도 찾을 수 있습니다.
녹화 동영상 조회수
x축에는 시간이 표시되고 y축에는 좋아요, 싫어요 또는 조회수가 표시되는 그래프를 만들 수 있습니다. 이러한 비디오에서 일정한 시간 간격으로 데이터를 스크랩하면 됩니다. 이전 "위키에서 데이터를 스크랩하는 방법"에서 설치 및 초기화 프로세스를 이미 설명했으므로 프롬프트가 표시될 때 YouTube 비디오 URL을 입력하여 python 명령을 사용하여 코드를 실행할 수 있기를 바랍니다.


YouTube 크롤러 코드 사용
평소와 같이 먼저 웹 페이지에서 HTML 코드를 스크랩하고 로컬 디렉토리의 파일에 저장하여 분석하고 쉽게 추출할 수 있고 가치 있는 데이터 요소를 찾는 것으로 시작합니다. HTML 페이지의 데이터 포인트에 대한 대부분의 연구는 특정 키워드나 값을 검색하고 발생 위치를 찾아 수동으로 수행해야 합니다.
데이터 포인트 추출을 위해 BeautifulSoup(BS4) 사용
'yt-subscription-button-subscriber-count-branded-horizontal yt-subscriber-count' 클래스가 있는 span 요소는 특정 동영상을 업로드한 채널의 구독자 수를 추출할 수 있는 요소입니다. 주어진 비디오와 관련된 해시태그를 찾는 것은 다른 데이터 포인트보다 약간 더 복잡합니다. 먼저 'standalone-collection-badge-renderer-text' 클래스가 있는 모든 범위를 추출해야 하며, 거기에서 'yt-uix-sessionlink' 클래스가 있는 모든 a-태그를 추출해야 합니다.
- 'watch-title' 클래스를 가지는 span 유형 요소는 비디오의 제목을 찾을 수 있는 곳입니다.
- 'application/ld+json' 유형의 스크립트 요소에는 채널 이름이 포함됩니다.
- watch-view-count 클래스가 있는 div 요소는 특정 비디오의 조회수를 얻는 데 도움이 됩니다.
- 제목이 '좋아요'인 버튼 요소에는 해당 비디오의 좋아요 수가 있습니다.
- '싫어요'라는 제목의 버튼 요소는 특정 비디오에 대한 싫어요 횟수를 포함합니다.
모든 a-태그의 텍스트를 배열로 추출하여 해시태그 목록을 만들 수 있습니다. 이 배열은 JSON의 최종 결과에서 구조화된 형식의 정보를 얻기 위해 'HASH_TAGS'라는 특정 키 아래의 결과 JSON에 추가할 수 있습니다.
Youtube에서 스크랩할 수 있는 데이터 포인트
python 스크립트와 코드를 사용하면 URL이 있는 한 모든 YouTube 동영상에서 특정 데이터 포인트를 스크랩할 수 있습니다. YouTube 동영상 페이지의 필수 필드가 아니므로 특정 동영상에는 해시태그 필드만 없을 수 있습니다. 스크랩할 수 있는 데이터 포인트는 다음과 같습니다.
제목
가장 중요한 데이터 포인트는 처음부터 추출한 데이터 포인트입니다. 비디오의 제목에는 많은 정보가 포함되어 있으며 가장 중요합니다. 이 정보가 없으면 다른 모든 데이터 요소는 의미가 없습니다.
채널 이름
제목 바로 뒤에 채널 이름은 제목과 작성자를 연결하는 데 중요합니다. 콘텐츠를 만든 사람에 대한 세부 정보를 얻을 수 있습니다. 특히 YouTube에서 동영상은 제작자가 아닌 채널 이름으로 연결됩니다. 많은 경우 한 채널에서 한 명 이상의 사람이 동영상 작업을 하기 때문입니다.
조회수
동영상의 도달범위를 이해하는 가장 간단한 측정항목은 동영상의 조회수를 찾는 것입니다. 이것은 또한 YouTube 동영상과 관련된 가장 중요한 측정항목이며 여러 면에서 동영상 제작자가 벌어들일 수익을 결정합니다.
인기
YouTube 동영상의 좋아요 수는 단순히 동영상 아래에 있는 좋아요 버튼을 실제로 클릭할 만큼 동영상을 좋아한 시청자의 비율입니다. 위의 데이터 요소와 유사하게 싫어요 횟수는 동영상의 싫어요 버튼 클릭 수를 결정합니다.
구독
좋아요, 싫어요 및 조회수가 단일 YouTube 동영상의 인기도를 나타내는 반면 구독 수는 YouTube 채널의 인기도를 더 잘 알 수 있습니다. YouTube 채널의 경우 다른 측정항목이 없습니다. 구독 수는 유일한 단일 데이터 포인트이며 높을수록 해당 YouTube 채널의 인기도가 높아집니다.
해시태그
해시태그는 다양한 매체에서 콘텐츠를 검색할 수 있도록 하는 인기 있는 방법이 되었습니다. Facebook 게시물이든 Instagram 사진이든 오늘날 사람들은 다양한 유형의 콘텐츠를 함께 연결할 수 있도록 다양한 유형의 온라인 콘텐츠와 함께 해시태그를 사용하고 있습니다. 그것이 오늘날 '트렌드 해시태그'가 화제가 된 이유다.
결론
Python 코드는 YouTube 비디오 페이지에서 일부 특정 데이터 포인트만 추출할 수 있지만 다른 YouTube 페이지에서 HTML 페이지를 탐색하면 유사한 HTML 요소에서 발생하는 더 많은 데이터 포인트를 찾는 데 도움이 될 수 있습니다. 웹 사이트 자체가 계속 변경되기 때문에 웹 스크래핑은 엄격하고 빠른 규칙을 제공하지 않았습니다. 따라서 어떤 데이터를 긁어낼지, 어떻게 긁어낼지 배우는 것은 다양한 웹 페이지를 긁고 다양한 데이터 형식을 가짐으로써 경험을 통해서만 수집할 수 있는 것입니다.
