Aggregatori di notizie che utilizzano il web scraping per potenziare i rapporti sulle notizie
Pubblicato: 2018-12-15L'aggregazione di notizie consiste nella raccolta di articoli di notizie da diversi siti Web e forum insieme in un unico database. Sebbene ciò avvenga da un po' di tempo ormai, gli aggregatori di notizie hanno iniziato a utilizzare diverse strategie come mostrare notizie correlate quando ne visualizzi una o personalizzare il feed di notizie in base al tuo utilizzo passato. Ma il fulcro del moderno aggregatore di notizie è il web scraping, ed è ciò di cui parleremo oggi.
Che cos'è l'aggregazione di notizie?
La maggior parte degli Aggregatori di notizie segue i seguenti passaggi per portare i propri contenuti alle masse:
un. Raccolgono dati eseguendo la scansione di siti Web di notizie popolari. Cercano anche notizie nei motori di ricerca per trovare notizie importanti che sono coperte da testate giornalistiche regionali o minori. Tutte queste informazioni sono ordinate e organizzate insieme ai collegamenti.
b. Una piccola introduzione per ogni articolo in evidenza viene estratta dai dati grezzi. Questo viene utilizzato come anteprima, facendo clic su cui un utente verrà inviato al sito Web vero e proprio. In genere, questo finisce per essere il primo paragrafo. Può anche essere solo l'intestazione e una singola riga, nei casi in cui la notizia è un singolo video clip o qualcosa che manca del tutto di un paragrafo introduttivo o di dati testuali.
c. Gli articoli correlati sono raggruppati in modo da fornire all'utente più munizioni una volta che inizia con un articolo particolare. Spesso gli articoli sono anche ordinati secondo la sequenza temporale. Quindi supponiamo che tu stia leggendo un articolo sul verdetto della corte in merito a una questione di accaparramento di terre. I collegamenti per tutti gli articoli relativi al caso uscito in passato potrebbero anche essere mostrati in una barra laterale per ottenere l'immagine completa.
d. Spesso c'è più di un articolo su un singolo argomento, contenente esattamente gli stessi dati fattuali. In tal caso, l'aggregatore di notizie deve decidere quale articolo mostrare perché fornire più collegamenti per la stessa notizia non sarà utile. Quello che sembra essere un fattore decisivo in questa materia è quale articolo ha sintetizzato meglio l'intero contesto.
e. Vedresti spesso che il link per un articolo di notizie è accompagnato non solo da un piccolo testo ma anche da un'immagine o da un grafico. Questa visualizzazione fa parte del lavoro dell'aggregatore di notizie e potrebbe non essere presa dall'articolo stesso. La visualizzazione è un semplice trucco. Vedi il grafico/foto/cartone animato e ti interessi. Poi leggi la breve introduzione. E alla fine, apri il link e dai un'occhiata all'intero articolo.

In che modo Web Scraping può avvantaggiare gli aggregatori di notizie?
1. Raccogli gli articoli di notizie in modo efficiente
Le aziende devono concentrarsi sul loro prodotto o offerta principale prima di esaminare tutto il resto e fare in modo che le cose sembrino buone e cose del genere. Per gli aggregatori di notizie, questi sono gli articoli di notizie che raccolgono da Internet. In questo caso, lo scraping web non comporterebbe solo l'acquisizione di articoli dai migliori siti Web, ma anche la ricerca di parole chiave specifiche nei media locali e più piccoli, in modo che gli aggregatori di notizie possano ottenere più notizie per le persone locali e allo stesso tempo dare visibilità ai giocatori più piccoli che stanno effettivamente coprendo responsabilmente le indagini civiche e penali in alcune regioni.
2. Raccogli i link di articoli e video
Quando si fornisce un riepilogo delle notizie sul sito Web di aggregazione delle notizie, è necessario fornire anche il collegamento all'articolo sul sito Web originale. Questo collegamento potrebbe essere già stato cancellato e archiviato nel tuo database. Questi collegamenti sono importanti poiché trovando interessante il riassunto di un articolo, un cliente potrebbe benissimo voler leggere l'intera notizia e ottenere una piena comprensione della situazione attuale.
3. Costruisci la cronologia delle notizie
Spesso, per un singolo evento, riceverai più di un articolo di notizie da diversi siti di notizie. Se si tratta di un grande evento o di una notizia, potrebbe anche accadere che gli ultimi sviluppi continuino ad arrivare ogni pochi giorni o settimane. È tua responsabilità raccogliere tutti questi articoli di notizie, rimuovere le ripetizioni in caso di articoli simili mantenendo quello con il miglior riepilogo e anche costruendo una cronologia degli eventi per l'intero episodio in modo che una persona possa capire come è andata, cosa effettivamente è successo, e come le autorità l'hanno affrontato e quale è stato il risultato finale. In questo modo, il lettore ha accesso a una cronologia storica di una storia degna di nota.
4. Commenti e articoli di notizie sul web scraping
Come fai a sapere quale articolo è scritto meglio quando ne hai versioni diverse su siti Web di notizie simili. Un'opzione è l'intervento manuale, ma può essere tenuto da parte per situazioni uniche poiché l'intervento manuale è costoso e non può essere implementato su larga scala. Quindi si potrebbe costruire un meccanismo di scraping intelligente con l'aiuto di un servizio di scraping web come PromptCloud, che sarebbe in grado di rilevare il numero di pollici in su e commenti positivi su un articolo e fornire solo quelli con le migliori statistiche.
5. Cattura le tendenze tra le persone che leggono le notizie online
Alcuni siti di notizie online sono più popolari di altri, anche se in teoria ogni sito Web copre effettivamente le stesse notizie. Puoi eseguire la scansione dei principali siti Web di aggregatori di notizie/notizie per vedere cosa sta facendo clic sui loro siti. Puoi anche acquisire il comportamento dei clienti sul loro sito Web esaminando i commenti, gli articoli più visti e altro ancora. Controlli sistematici sui tuoi concorrenti possono aiutarti a rimanere in attività a lungo.
News and Media è un grande business e, come qualsiasi altro business, ha bisogno della tecnologia per ridurre i costi operativi e rimanere redditizia. Il web scraping e i sistemi intelligenti possono fornire questo vantaggio agli aggregatori di notizie.
