Os melhores exemplos de web scraping - por Promptcloud

Publicados: 2019-08-19
Índice mostrar
Raspagem de dados imobiliários usando Python
Extraindo dados de hotéis dos principais portais de viagens
Raspagem de dados de mídia social
Raspagem de letras de músicas usando Python de sites como o Genius️
Raspe o Python de dados de ações de sites como os do Yahoo️ Finance
Raspe dados, preços e análises de produtos de sites de comércio eletrônico
Raspe dados de sites de notícias de sites como BBC, New York Times, Al Jazeera
Raspagem de dados de trabalho
Raspagem de imagem e dados textuais necessários para pesquisa
Web Scraping para criação de conteúdo

Os dados se tornaram um componente-chave da estratégia de crescimento de todas as empresas. Quando se trata de coletar dados, muitas fontes estão disponíveis. No entanto, a coleta manual de dados é difícil devido a dois motivos – a) maior chance de erros eb) processo demorado. Uma maneira melhor de coletar dados é rastreá-los para fora da web, em suma, web scraping. Depois de configurar um sistema para rastrear dados de determinados sites e usar os dados extraídos em seu fluxo de trabalho de negócios, você poderá continuar usando o mesmo sistema por muitos anos. Hoje vamos discutir alguns dos principais exemplos de web scraping que encontramos no PromptCloud.

Raspagem de dados imobiliários usando Python

Este é um dos dados mais procurados do mundo. A maioria dos livros ou cursos de aprendizado de máquina começa com um conjunto de casas, seus detalhes e seus preços para ensinar regressão linear antes de passar para modelos complexos de ML. Alguns dos principais sites imobiliários dos EUA contêm milhões de registros de casas no mercado ou não. Eles até contêm preços de aluguel, estimativas de preços de casas depois de alguns anos, etc. Nós extraímos os dados dos principais sites e você pode verificar esses links junto com os arquivos JSON com os vários pontos de dados.

Exemplo 1

[linguagem de código=”python”] {
“description”: “327 101st St #1A, Brooklyn, NY é uma casa de 3 quartos, 3 banheiros e 1302 pés quadrados em execução duma hipoteca. Faça login no Trulia para receber todas as informações de encerramento.”,
“link”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"preço": {
“quantidade”: “510000”,
“moeda”: “USD”
},
“descrição ampla”: “Unidade Duplex Muito Grande com 1º andar com Sala de Recreação Acabada, Sala de Entretenimento e Banheiro Social. Segundo Andar possui 2 quartos, 2 banheiros completos, sala de estar/jantar e espaço ao ar livre. Há vistas da Ponte Verrazano.n Veja nossos Guias de Foreclosure”,
"visão global": [
“Condomínio”,
“3 Camas”,
“3 Banhos”,
“Construído em 2006”,
“5 dias em Trulia”,
“1.302 pés quadrados”,
“$ 392/m²”,
“143 visualizações”
] }
[/código]

Exemplo 2

[linguagem de código=”python”] {
“Detalhes_Amplo”: {
“Número de quartos”: 4,
“Tamanho do piso (em pés quadrados)”: “1.728”
},
"Endereço": {
“Rua”: “638 Grant Ave”,
“Localidade”: “baldwin norte”,
“Região”: “NY”,
“Código postal”: “11510”
},
“Título”: “638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zillow”,
“Detail_Short”: “638 Grant Ave, North baldwin, NY 11510-1332 é uma casa unifamiliar listada à venda por US$ 299.000. A casa de 1.728 pés quadrados é uma propriedade de 4 quartos e 2 banheiros. Encontre 31 fotos da casa 638 Grant Ave em Zillow. Veja mais detalhes da propriedade, histórico de vendas e dados Zestimate no Zillow. MLS # 3137924”,
“Preço em $”: 299000,
“Imagem”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/código]

Extraindo dados de hotéis dos principais portais de viagens

Os sites de reservas de hotéis contêm muitos dados, como preços, avaliações, classificações, o número de pessoas que avaliaram o hotel e muito mais. Mostramos como rastrear dados da maior empresa de reservas de avaliações de hotéis em outro artigo.

Usando a biblioteca de análise HTML chamada Beautiful Soup, conseguimos rastrear vários pontos de dados. Usando o pequeno pedaço de código abaixo, você pode acessar o site, obter o conteúdo HTML e convertê-lo em um objeto Beautiful Soup. Feito isso, analisar o objeto e encontrar pontos de dados específicos em tags específicas que possuem determinados atributos é uma tarefa simples.

[code language=”python”] warnings.simplefilter(“ignore”)#Para ignorar erros de certificado SSL
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE
url=input("Digite o URL do hotel - ")
html = urllib.request.urlopen(url, context=ctx).read()
sopa = BeautifulSoup(html, 'html.parser')
html = sopa.prettify(“utf-8”)
hotel_json = {}
[/código]

Código para obter o conteúdo HTML de uma página da Web e convertê-lo em um objeto Beautiful Soup.

Raspagem de dados de mídia social

Uma das maiores fontes de dados do usuário são as mídias sociais. Se você deseja verificar se as pessoas gostam de uma determinada música, um filme ou uma empresa, os dados de mídia social podem ajudá-lo a entender os sentimentos dos usuários, além de acompanhar a reputação pública de sua empresa. No PromptCloud, coletamos dados do Twitter️, Instagram️ e até do YouTube️. Os pontos de dados em todos os três eram diferentes. Por exemplo, do Instagram, a raspagem de dados funciona assim.

[code language=”python”] Usuário: Ariana Grande (@arianagrande)
Seguidores: 130,5m
A seguir: 1.348
Postagens: 3.669
[/código]

Dados extraídos de contas do Instagram

No entanto, os pontos de dados que extraímos do YouTube️ eram totalmente diferentes. Um exemplo são os dados extraídos de uma música famosa que levou a um desafio online.

[linguagem de código=”python”]

{
“TITLE”: “Drake – In My Feelings (Lyrics, Audio) ”Kiki Do you love me””,
“CHANNEL_NAME”: “Unidade Especial”,
“NUMBER_OF_VIEWS”: “278.121.686 visualizações”,
“Curtidas”: “2.407.688”,
“NÃO GOSTA”: “114.933”,
“NUMBER_OF_SUBSCRIPTIONS”: “614K”,
“HASH_TAGS”: [
“#InMyFeelings”,
“#Drake”,
"#Escorpião"
] }
[/código]

Dados extraídos de páginas do YouTube️

Para o Twitter, deve-se notar que precisávamos de uma conta de desenvolvedor e também poderíamos rastrear tweets para cada conta, apenas até a contagem dos últimos 3240 tweets desse usuário em particular. Portanto, você pode ver que diferentes exemplos de web scraping podem ter abordagens e resultados diferentes.

Raspagem de letras de músicas usando Python de sites como o Genius️

Raspar letras de músicas é algo que tem sido feito por pessoas desde tempos imemoriais. A única diferença é que agora você pode rastrear letras de músicas com muito mais facilidade em alguns segundos, usando um pedaço de código em vez de gastar horas ou minutos fazendo isso manualmente. Um exemplo é este artigo onde mostramos como rastrear letras de músicas e outros dados relacionados de um site de música popular chamado Genius.

Como o site contém muito mais do que apenas letras de músicas, também conseguimos capturar pontos de dados como comentários, títulos e data de lançamento.

Raspe o Python de dados de ações de sites como os do Yahoo️ Finance

Os dados do mercado de ações são um enorme repositório de dados que geralmente são analisados ​​por pessoas que estudam o mercado e decidem onde apostar. Tanto os dados atuais quanto os históricos são de muito valor. Um site que pode ser raspado com bastante facilidade para capturar informações sobre ações de diferentes empresas é o Yahoo Finance. As informações de ações não significam apenas os preços atuais das ações, pois também conseguimos rastrear muitos outros pontos de dados usando esse processo.

Estes são os pontos de dados que coletamos para a Apple️

[linguagem de código=”python”] {
“PRESENT_VALUE”: “198,87”,
“PRESENT_GROWTH”: “-0,08 (-0,04%)”,
"OUTROS DETALHES": {
“PREV_CLOSE”: “198,95”,
“ABERTO”: “199,20”,
“BID”: “198,91 x 800”,
“PERGUNTAR”: “198,99 x 1000”,
“TD_VOLUME”: “27.760.668”,
“AVERAGE_VOLUME_3MONTH”: “28.641.896”,
“MARKET_CAP”: “937.728B”,
“BETA_3Y”: “0,91”,
“PE_RATIO”: “16.41”,
“EPS_RATIO”: “12.12”,
“GANHO_DATA”: [
“30 de abril de 2019”
],
“DIVIDEND_AND_YIELD”: “2,92 (1,50%)”,
“EX_DIVIDEND_DATE”: “2019-02-08”,
“ONE_YEAR_TARGET_PRICE”: “193,12”
}
}
[/código]

Raspe dados, preços e análises de produtos de sites de comércio eletrônico

Para obter informações sobre diferentes produtos e seus preços atuais de mercado, não há melhor lugar para coletar dados do que grandes empresas de comércio eletrônico como a Amazon️. Embora a Amazon️ tenha layouts de página diferentes em diferentes categorias e subcategorias e até mesmo em diferentes regiões do mundo, você pode rastrear com segurança uma pequena quantidade de dados em categorias limitadas, como mostramos nesta página, onde coletamos dados de produtos e informações de preços .

Usando o código, você pode extrair o preço de um artigo e seus principais recursos. Quando os links que você precisa rastrear regularmente estiverem prontos, você poderá executar seu código em uma frequência específica. Dessa forma, você poderá acompanhar as alterações de preço desse item e aproveitá-lo.

Raspe dados de sites de notícias de sites como BBC, New York Times, Al Jazeera

Agregadores de notícias estão em alta demanda hoje. Eles são um dos melhores exemplos de web scraping que ajudaram diretamente os usuários a aumentar sua produtividade. As pessoas não têm mais tempo para ler jornais ou mesmo páginas inteiras da web. Então, o que os agregadores de notícias fazem de diferente?

  • Os agregadores de notícias reúnem notícias e mostram apenas uma ou duas linhas explicando resumidamente uma notícia. Caso você queira saber mais, você pode clicar em um link e eles o direcionarão para uma página de notícias real.
  • Eles agregam artigos de notícias de grandes agências de notícias como a BBC️ e o New York Times️ e muitas vezes isso ajuda a fornecer uma imagem mais completa com mais detalhes.
  • Com o tempo, o aplicativo verifica seus gostos e desgostos e apresenta notícias, dependendo do seu uso anterior.

Veja, essas são algumas das coisas que diferenciam os agregadores de notícias e, no entanto, o primeiro passo em todos esses processos é agregar os dados, que geralmente é apenas extrair artigos de notícias de diferentes sites.

Raspagem de dados de trabalho

O recrutamento é um setor que, como o setor imobiliário, encontrou um grande impulso graças à raspagem da web e ao boom da internet. Atualmente, você pode rastrear listas de empregos de sites de empresas e dos populares quadros de empregos baseados na Internet e, em seguida, usar os dados coletados para impulsionar seus negócios. Seja você uma empresa de recrutamento ou uma consultoria, ou você mesmo administra um quadro de empregos, a coleta de dados do trabalho é uma obrigação. Uma de nossas muitas soluções de web scraping, JobsPikr, torna muito simples obter listas de empregos atualizadas para gerenciar o planejamento estratégico da força de trabalho e administrar os negócios com eficiência. É uma ferramenta de descoberta de empregos completamente autônoma que pode buscar uma nova lista de empregos usando filtros como título, local, postagem e muito mais.

Raspagem de imagem e dados textuais necessários para pesquisa

Uma enorme quantidade de dados é necessária em projetos de pesquisa ao trabalhar em diferentes modelos de aprendizado de máquina. Mesmo para treinar o computador para diferenciar entre a imagem de um cachorro e de um gato, você precisaria de milhares de fotos de cães e gatos. Esses requisitos de dados são resolvidos por meio de soluções de raspagem da Web e os cientistas hoje rastreiam imagens do Google e outras fontes de imagens para obter imagens para seus projetos. Usei dados do Twitter para coletar imagens que foram enviadas para o site de mídia social durante uma enchente. Eu estava tentando separar imagens relacionadas ao dilúvio daquelas que não eram.

Web Scraping para criação de conteúdo

As empresas precisam criar conteúdo de alta qualidade regularmente para aumentar a visibilidade, educar os clientes, construir uma marca e aumentar as vendas. A extração de conteúdo na internet ajuda o pessoal de marketing e publicidade a obter melhores ideias, fazer brainstorming e criar novas maneiras de atrair clientes e aumentar as vendas.

Embora tenhamos explicado alguns dos exemplos de web scraping, as possibilidades são infinitas e o web scraping é algo que pode ser aproveitado por diferentes empresas em diferentes cenários. No final das contas, ele ajuda a tornar os processos e as decisões mais inteligentes usando o poder dos dados.