최고의 웹 스크래핑 예제 - Promptcloud 제공

게시 됨: 2019-08-19

목차 쇼

Python을 사용하여 부동산 데이터 스크랩

최고의 여행 포털에서 호텔 데이터 스크래핑

소셜 미디어 데이터 스크랩

Genius와 같은 사이트에서 Python을 사용하여 노래 가사 스크랩하기️

Yahoo️ Finance와 같은 사이트에서 주식 데이터 Python 스크랩

전자 상거래 웹 사이트에서 제품 데이터, 가격 및 리뷰 스크랩

BBC, New York Times, Al Jazeera와 같은 웹사이트에서 뉴스 웹사이트 데이터 스크랩

작업 데이터 스크래핑

연구에 필요한 이미지 및 텍스트 데이터 스크래핑

콘텐츠 생성을 위한 웹 스크래핑

데이터는 모든 기업의 성장 전략의 핵심 구성 요소가 되었습니다. 데이터 수집과 관련하여 많은 소스를 사용할 수 있습니다. 그러나 수동으로 데이터를 수집하는 것은 두 가지 이유로 인해 어렵습니다. a) 오류 가능성 증가, b) 시간 소모적인 프로세스. 데이터를 수집하는 더 좋은 방법은 웹에서 데이터를 크롤링하는 것, 즉 웹 스크래핑입니다. 특정 사이트에서 데이터를 크롤링하고 비즈니스 워크플로 내에서 스크랩한 데이터를 사용하도록 시스템을 설정하면 몇 년 동안 동일한 시스템을 계속 사용할 수 있습니다. 오늘 우리는 PromptCloud에서 만난 최고의 웹 스크래핑 예제 중 일부에 대해 논의할 것입니다.

Python을 사용하여 부동산 데이터 스크랩

이것은 세계에서 가장 많이 찾는 데이터 중 하나입니다. 대부분의 기계 학습 책이나 과정은 복잡한 ML 모델로 진행하기 전에 선형 회귀를 가르치기 위해 주택, 세부 정보 및 가격으로 시작합니다. 미국 전역의 최고의 부동산 웹사이트 중 일부에는 시장에 나와 있든 없든 수백만 건의 주택 기록이 있습니다. 여기에는 임대 가격, 몇 년 후 예상 주택 가격 등이 포함됩니다. 주요 사이트에서 데이터를 스크랩했으며 여러 데이터 포인트가 있는 JSON 파일과 함께 이 링크를 확인할 수 있습니다.

실시예 1

[코드 언어 = "파이썬"] {
"설명": "327 101st St #1A, Brooklyn, NY는 압류된 3개의 침대, 3개의 욕실, 1302제곱피트 주택입니다. 모든 압류 정보를 받으려면 Trulia에 로그인하십시오.",
"링크": "https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215",
"가격": {
"금액": "510000",
"통화": "USD"
},
"broad-description": "1층에 있는 초대형 복층 유닛으로 완성된 레크리에이션 룸, 엔터테인먼트 룸 및 하프 욕실을 갖추고 있습니다. 2층에는 침실 2개, 완비된 욕실 2개, 거실/식사 공간 및 야외 공간이 있습니다. Verrazano Bridge 보기가 있습니다.n 압류 가이드 보기”,
"개요": [
"콘도",
"침대 3개",
"3 목욕",
"2006년에 지어진",
"트룰리아에서의 5일",
"1,302제곱피트",
"$392/제곱피트",
“143 조회수”
] }
[/암호]

실시예 2

[코드 언어 = "파이썬"] {
'세부정보_광범위': {
"방 수": 4,
"바닥 크기(제곱피트)": "1,728"
},
"주소": {
"거리": "638 Grant Ave",
"지역": "노스 볼드윈",
"지역": "뉴욕",
"우편번호": "11510"
},
"제목": "638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | 질로”,
“Detail_Short”: “638 Grant Ave , North baldwin, NY 11510-1332는 $299,000에 매물로 나와 있는 단독 주택입니다. 1,728평방피트의 이 집은 침대 4개, 욕실 2.0개 건물입니다. Zillow에서 638 Grant Ave 주택 사진 31장을 찾으세요. Zillow에서 더 많은 부동산 세부 정보, 판매 내역 및 Zestimate 데이터를 확인하십시오. MLS # 3137924”,
"$의 가격": 299000,
"이미지": "https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg"
}
[/암호]

최고의 여행 포털에서 호텔 데이터 스크래핑

호텔 예약 웹사이트에는 가격, 리뷰, 평점, 호텔을 평가한 사람들의 수 등과 같은 수많은 데이터가 포함되어 있습니다. 다른 기사에서 가장 큰 호텔 리뷰 예약 회사의 데이터를 크롤링하는 방법을 보여주었습니다.

Beautiful Soup이라는 HTML 파싱 라이브러리를 사용하여 여러 데이터 포인트를 크롤링할 수 있었습니다. 아래에 제공된 작은 코드 조각을 사용하여 웹사이트를 방문하고 HTML 콘텐츠를 가져와 Beautiful Soup 개체로 변환할 수 있습니다. 이 작업이 완료되면 개체를 구문 분석하고 특정 속성이 있는 특정 태그에서 특정 데이터 포인트를 찾는 것은 간단한 작업입니다.

[code language="python"] warnings.simplefilter("ignore")#SSL 인증서 오류 무시
ctx = ssl.create_default_context()
ctx.check_hostname = 거짓
ctx.verify_mode = ssl.CERT_NONE
url=input("호텔 URL 입력 - ")
html = urllib.request.urlopen(url, 컨텍스트=ctx).read()
수프 = BeautifulSoup(html, 'html.parser')
html = 수프.prettify("utf-8")
호텔_json = {}
[/암호]

웹 페이지의 HTML 콘텐츠를 가져와 Beautiful Soup 개체로 변환하는 코드입니다.

소셜 미디어 데이터 스크랩

사용자 데이터의 가장 큰 소스 중 하나는 소셜 미디어입니다. 사람들이 특정 노래, 영화 또는 회사를 좋아하는지 확인하려는 경우 소셜 미디어 데이터는 사용자 감정을 이해하고 회사의 대중적 평판을 추적하는 데 도움이 될 수 있습니다. PromptCloud에서는 Twitter️, Instagram️, 심지어 YouTube️까지 데이터를 스크랩했습니다. 세 곳의 데이터 포인트는 모두 달랐습니다. 예를 들어 Instagram에서 데이터 스크래핑은 다음과 같이 작동합니다.

[코드 언어=”python”] 사용자: Ariana Grande(@arianagrande)
팔로워: 130.5m
다음: 1,348
게시물: 3,669
[/암호]

Instagram 계정에서 스크랩한 데이터

그러나 YouTube️에서 스크랩한 데이터 포인트는 완전히 다릅니다. 한 예로 온라인 챌린지 자체로 이어진 유명한 노래에서 스크랩한 데이터가 있습니다.

[코드 언어 = "파이썬"]

{
"TITLE": "Drake - In My Feelings (가사, 오디오) "Kiki Do you love me"",
"CHANNEL_NAME": "특별한 통일",
"NUMBER_OF_VIEWS": "278,121,686 조회수",
"좋아요": "2,407,688",
"싫어요": "114,933",
"NUMBER_OF_SUBSCRIPTIONS": "614K",
"HASH_TAGS": [
“#내감성”,
"#드레이크",
"#투석기"
] }
[/암호]

YouTube️ 페이지에서 스크랩한 데이터

Twitter의 경우 개발자 계정이 필요했으며 각 계정에 대한 트윗을 크롤링할 수 있었습니다. 해당 사용자의 마지막 3240개 트윗 수까지만 가능합니다. 따라서 웹 스크래핑 예제마다 접근 방식과 결과가 다를 수 있음을 알 수 있습니다.

Genius와 같은 사이트에서 Python을 사용하여 노래 가사 스크랩하기️

노래 가사를 긁는 것은 태곳적부터 사람들이 해온 일입니다. 유일한 차이점은 이제 수동으로 몇 시간 또는 몇 분을 소비하는 대신 코드 조각을 사용하여 몇 초 만에 훨씬 더 쉽게 노래 가사를 크롤링할 수 있다는 것입니다. 이러한 예는 Genius라는 인기 있는 음악 웹사이트에서 노래 가사 및 기타 관련 데이터를 크롤링하는 방법을 보여주는 이 기사입니다.

웹사이트에는 노래 가사보다 훨씬 많은 내용이 포함되어 있기 때문에 댓글, 제목 및 출시 날짜와 같은 데이터 포인트도 캡처할 수 있었습니다.

Yahoo️ Finance와 같은 사이트에서 주식 데이터 Python 스크랩

주식 시장 데이터는 일반적으로 시장을 연구하고 베팅할 위치를 결정하는 사람들이 분석하는 거대한 데이터 저장소입니다. 현재 데이터와 과거 데이터 모두 많은 가치가 있습니다. 다른 회사에 대한 주식 정보를 캡처하기 위해 아주 쉽게 스크랩할 수 있는 웹사이트 중 하나는 Yahoo Finance입니다. 이 프로세스를 사용하여 다른 많은 데이터 포인트도 크롤링할 수 있었기 때문에 주식 정보는 현재 주가만을 의미하는 것이 아닙니다.

이것은 우리가 Apple을 위해 스크랩한 데이터 포인트입니다️

[코드 언어 = "파이썬"] {
"PRESENT_VALUE": "198.87",
"PRESENT_GROWTH": "-0.08(-0.04%)",
"기타 세부 사항": {
"PREV_CLOSE": "198.95",
"오픈": "199.20",
"입찰가": "198.91 x 800",
"묻기": "198.99 x 1000",
"TD_VOLUME": "27,760,668",
"AVERAGE_VOLUME_3MONTH": "28,641,896",
"MARKET_CAP": "937.728B",
"BETA_3Y": "0.91",
"PE_RATIO": "16.41",
"EPS_RATIO": "12.12",
"수익_날짜": [
“2019년 4월 30일”
],
"DIVIDEND_AND_YIELD": "2.92(1.50%)",
"EX_DIVIDEND_DATE": "2019-02-08",
"ONE_YEAR_TARGET_PRICE": "193.12"
}
}
[/암호]

전자 상거래 웹 사이트에서 제품 데이터, 가격 및 리뷰 스크랩

다양한 제품과 현재 시장 가격에 대한 정보를 얻으려면 Amazon️과 같은 대형 전자 상거래 회사보다 데이터를 수집하기에 더 좋은 곳이 없습니다. Amazon️은 다양한 카테고리와 하위 카테고리, 심지어 전 세계 여러 지역에서 페이지 레이아웃이 다르지만 이 페이지에서 제품 데이터와 가격 정보를 스크랩한 것처럼 제한된 카테고리에서 소량의 데이터를 안전하게 웹 크롤링할 수 있습니다. .

코드를 사용하여 기사의 가격과 주요 기능을 추출할 수 있습니다. 정기적으로 크롤링해야 하는 링크가 준비되면 특정 빈도로 코드를 실행할 수 있습니다. 이렇게 하면 해당 항목의 가격 변동을 추적하고 활용할 수 있습니다.

BBC, New York Times, Al Jazeera와 같은 웹사이트에서 뉴스 웹사이트 데이터 스크랩

오늘날 뉴스 애그리게이터는 수요가 많습니다. 사용자가 생산성을 높이는 데 직접적인 도움을 준 최고의 웹 스크래핑 예제 중 하나입니다. 더 이상 사람들은 신문이나 전체 웹 페이지를 볼 시간이 없습니다. 그렇다면 뉴스 애그리게이터는 어떻게 다를까요?

뉴스 애그리게이터는 뉴스를 수집하고 뉴스 기사를 간략하게 설명하는 한두 줄만 보여줍니다. 더 자세히 알고 싶은 경우 링크를 클릭하면 실제 뉴스 웹페이지로 연결됩니다.
BBC️ 및 New York Times️와 같은 대형 뉴스 에이전시의 뉴스 기사를 집계하며 이는 종종 더 자세한 내용과 함께 전체 그림을 제공하는 데 도움이 됩니다.
시간이 지남에 따라 앱은 좋아하는 것과 싫어하는 것을 확인하고 과거 사용에 따라 뉴스 기사를 제공합니다.

알다시피, 이것들은 뉴스 애그리게이터를 차별화하는 몇 가지 요소이지만, 이러한 모든 프로세스의 첫 번째 단계는 데이터를 집계하는 것이며, 이는 종종 다른 웹사이트에서 뉴스 기사를 스크랩하는 것입니다.

작업 데이터 스크래핑

채용은 부동산 산업과 마찬가지로 웹 스크래핑과 인터넷 붐 덕분에 큰 성장을 이룬 산업 중 하나입니다. 요즘에는 회사 웹사이트와 인기 있는 인터넷 기반 구인 게시판에서 구인 목록을 크롤링한 다음 수집된 데이터를 사용하여 비즈니스를 향상시킬 수 있습니다. 채용 회사이든 컨설팅 회사이든 아니면 직접 구인 게시판을 운영하든 관계없이 작업 데이터를 스크랩하는 것은 필수입니다. 당사의 많은 웹 스크래핑 솔루션 중 하나인 JobsPikr을 사용하면 업데이트된 구인 목록을 매우 간단하게 받아 전략적 인력 계획을 관리하고 비즈니스를 효율적으로 운영할 수 있습니다. 제목, 위치, 게시물 등과 같은 필터를 사용하여 새로운 구인 목록을 가져올 수 있는 완전히 자율적인 구인 검색 도구입니다.

연구에 필요한 이미지 및 텍스트 데이터 스크래핑

다양한 기계 학습 모델을 작업할 때 연구 프로젝트에 엄청난 양의 데이터가 필요합니다. 개와 고양이의 사진을 구별하도록 컴퓨터를 훈련시키더라도 수천 장의 개와 고양이 사진이 필요합니다. 이러한 데이터 요구 사항은 웹 스크래핑 솔루션을 통해 해결되며 오늘날 과학자들은 Google 이미지 및 기타 이미지 소스를 크롤링하여 프로젝트용 이미지를 얻습니다. 홍수 때 소셜 미디어 사이트에 업로드된 이미지를 수집하기 위해 트위터 데이터를 사용했습니다. 홍수와 관련된 이미지와 그렇지 않은 이미지를 분리하려고 했습니다.

콘텐츠 생성을 위한 웹 스크래핑

회사는 가시성을 높이고 고객을 교육하며 브랜드를 구축하고 판매를 늘리기 위해 정기적으로 고품질 콘텐츠를 구축해야 합니다. 인터넷에서 콘텐츠를 스크랩하면 마케팅 및 광고 담당자가 더 나은 아이디어를 얻고 브레인스토밍을 하며 고객을 유치하고 판매를 늘리는 새로운 방법을 고안하는 데 도움이 됩니다.

웹 스크래핑 예제 중 일부를 설명했지만 가능성은 무한하며 웹 스크래핑은 다양한 시나리오에서 다양한 비즈니스에서 활용할 수 있는 것입니다. 결국 데이터의 힘을 사용하여 프로세스와 의사 결정을 더 스마트하게 만드는 데 도움이 됩니다.