Agregatorii de știri care folosesc Web Scraping pentru a stimula raportarea știrilor
Publicat: 2018-12-15News Aggregation se referă la compilarea articolelor de știri de pe diferite site-uri web și forumuri într-o singură bază de date. Deși acest lucru se întâmplă de ceva timp, agregatorii de știri au început să folosească diferite strategii, cum ar fi afișarea de știri asociate atunci când vizualizați una sau personalizarea fluxului de știri pe baza utilizării anterioare. Dar miezul agregatorului modern de știri este web scraping și despre asta vom discuta astăzi.
Ce este agregarea de știri?
Majoritatea agregatorilor de știri urmează următorii pași pentru a-și transmite conținutul în masă:
A. Ei adună date accesând cu crawlere site-urile de știri populare. De asemenea, ei caută știri în motoarele de căutare pentru a găsi știri importante care sunt acoperite de instituțiile de știri regionale sau mai mici. Toate aceste informații sunt sortate și aranjate împreună cu link-uri.
b. O mică introducere pentru fiecare articol prezentat este extrasă din datele brute. Acesta este folosit ca o previzualizare, făcând clic pe care utilizatorul va fi trimis pe site-ul propriu-zis. În general, acesta ajunge să fie primul paragraf. Poate fi chiar doar titlul și o singură linie, în cazurile în care știrea este un singur clip video sau ceva care nu are cu totul un paragraf introductiv sau date textuale.
c. Articolele înrudite sunt grupate astfel încât să ofere unui utilizator mai multă muniție odată ce începe cu un anumit articol. Adesea articolele sunt, de asemenea, sortate conform cronologiei. Deci, să presupunem că citiți un articol despre verdictul instanței cu privire la o problemă de acaparare a terenurilor. Link-uri pentru toate articolele legate de cazul care a apărut în trecut ar putea fi, de asemenea, afișate într-o bară laterală pentru a obține întreaga imagine.
d. Adesea, există mai mult de un articol pe un singur subiect, care conţin exact aceleaşi date faptice. În acest caz, agregatorul de știri trebuie să decidă ce articol să afișeze, deoarece furnizarea de link-uri multiple pentru aceeași știre nu va fi de ajutor. Ceea ce se vede a fi un factor decisiv în această chestiune este articolul care a rezumat mai bine întregul context.
e. Veți vedea adesea că linkul pentru un articol de știri este însoțit nu numai de un text mic, ci și de o imagine sau de un grafic. Această vizualizare face parte din activitatea agregatorului de știri și este posibil să nu fie preluată din articolul în sine. Vizualizarea este un truc simplu. Vedeți, graficul / fotografia / desenul animat și deveniți interesați de el. Apoi ai citit scurta introducere. Și, în cele din urmă, deschideți linkul și verificați întregul articol.

Cum poate beneficia Web Scraping agregatorilor de știri?
1. Colectați eficient articole de știri
Companiile trebuie să se concentreze pe produsul sau oferta lor principală înainte de a trece peste orice altceva și de a face lucrurile să arate bine și alte lucruri. Pentru agregatorii de știri, acestea sunt articolele de știri pe care le colectează de pe internet. Aici scraping web nu ar implica doar obținerea de articole de pe site-uri web de top, ci și căutarea de cuvinte cheie specifice în mediile de știri locale și mai mici, astfel încât agregatorii de știri să poată obține mai multe știri pentru localnici și, în același timp, să ofere vizibilitate jucătorilor mai mici care acoperă de fapt investigațiile civice și penale din anumite regiuni în mod responsabil.
2. Colectați link-uri de articole și videoclipuri
Când oferiți un rezumat al știrilor pe site-ul dvs. de agregare de știri, trebuie să furnizați linkul pentru articol și pe site-ul original. Este posibil ca acest link să fi fost răzuit și stocat deja în baza ta de date. Aceste link-uri sunt importante deoarece, când găsește interesant rezumatul unui articol, un client ar putea foarte bine să dorească să citească întreaga știre și să obțină o înțelegere completă a situației prezente.
3. Creați cronologie pentru știri
Adesea, pentru un singur eveniment, veți primi mai multe articole de știri de la diferite site-uri de știri. Dacă este un eveniment sau o știre mare, s-ar putea chiar să se întâmple ca cele mai recente evoluții să vină la fiecare câteva zile sau săptămâni. Este responsabilitatea dumneavoastră să colectați toate aceste articole de știri, să eliminați repetările în cazul articolelor similare, păstrându-l pe cel cu cel mai bun rezumat și, de asemenea, construind o cronologie a evenimentelor pentru întregul episod, astfel încât o persoană să poată înțelege cum s-a întâmplat lucrul, ce de fapt. s-a întâmplat și cum au tratat autoritățile cu aceasta și care a fost rezultatul final. În acest fel, cititorul are acces la o cronologie istorică a unei povești demne de știre.
4. Web scrape comentarii și articole de știri
De unde știi care articol este mai bine scris atunci când ai versiuni diferite ale acestuia pe site-uri web de știri similare. O opțiune este intervenția manuală, dar aceasta poate fi ținută deoparte pentru situații unice, deoarece intervenția manuală este costisitoare și nu poate fi implementată la scară. Deci s-ar putea construi un mecanism inteligent de scraping cu ajutorul unui serviciu de web scraping precum PromptCloud, care ar fi capabil să detecteze numărul de degete în sus și comentarii pozitive la un articol și să le livreze doar pe cele cu cele mai bune statistici.
5. Captați tendințele în rândul persoanelor care citesc știri online
Anumite site-uri de știri online sunt mai populare decât altele, deși, teoretic, fiecare site web acoperă de fapt aceleași știri. Puteți accesa cu crawlere primele site-uri web de știri/agregatoare de știri pentru a vedea ce anume face ca site-urile lor să facă clic. De asemenea, puteți surprinde comportamentul clienților pe site-ul lor, parcurgând comentarii, articolele cele mai vizionate și multe altele. Verificările sistematice ale concurenților vă pot ajuta să rămâneți în afaceri mult timp.
News and Media este o afacere mare și, ca orice altă afacere, are nevoie de tehnologie pentru a reduce costurile operaționale și a rămâne viabilă. Web scraping și sistemele inteligente pot oferi acest avantaj agregatorilor de știri.
