Agregadores de noticias que utilizan Web Scraping para potenciar los informes de noticias
Publicado: 2018-12-15Agregación de noticias se trata de compilar artículos de noticias de diferentes sitios web y foros en una sola base de datos. Si bien esto ha estado sucediendo desde hace bastante tiempo, los agregadores de noticias han comenzado a usar diferentes estrategias, como mostrar noticias relacionadas cuando está viendo una, o personalizar su fuente de noticias en función de su uso anterior. Pero el núcleo del agregador de noticias moderno es el web scraping, y eso es lo que discutiremos hoy.
¿Qué es la agregación de noticias?
La mayoría de los agregadores de noticias siguen los siguientes pasos para hacer llegar su contenido a las masas:
una. Recopilan datos rastreando sitios web de noticias populares. También buscan noticias en los motores de búsqueda para encontrar noticias importantes que estén cubiertas por medios de comunicación regionales o más pequeños. Toda esta información se ordena y organiza junto con los enlaces.
b. Una pequeña introducción para cada artículo destacado se extrae de los datos sin procesar. Esto se usa como una vista previa, al hacer clic en el cual se enviará al usuario al sitio web real. Generalmente, esto termina siendo el primer párrafo. Incluso puede ser solo el encabezado y una sola línea, en los casos en que la noticia es un solo videoclip o algo que carece por completo de un párrafo introductorio o datos textuales.
C. Los artículos relacionados se agrupan para dar al usuario más munición una vez que comienza con un artículo en particular. A menudo, los artículos también se ordenan según la línea de tiempo. Así que suponga que está leyendo un artículo sobre el veredicto de la corte con respecto a un problema de apropiación de tierras. Los enlaces de todos los artículos relacionados con el caso que se publicaron en el pasado también se pueden mostrar en una barra lateral para que pueda obtener una imagen completa.
d. A menudo hay más de un artículo sobre un solo tema, que contiene exactamente los mismos datos fácticos. En ese caso, el agregador de noticias tiene que decidir qué artículo mostrar porque dar varios enlaces para la misma noticia no será útil. Lo que se ve como un factor decisivo en este asunto es qué artículo ha resumido mejor todo el contexto.
mi. A menudo verá que el enlace de un artículo de noticias va acompañado no solo de un pequeño texto, sino también de una imagen o un gráfico. Esta visualización es parte del trabajo del agregador de noticias y es posible que no se tome del artículo en sí. La visualización es un truco simple. Ves el gráfico/foto/dibujo y te interesas en él. Luego lees la breve introducción. Y finalmente, abres el enlace y miras el artículo completo.

¿Cómo puede Web Scraping beneficiar a los agregadores de noticias?
1. Recopila artículos de noticias de manera eficiente
Las empresas deben centrarse primero en su producto u oferta principal antes de revisar todo lo demás y hacer que las cosas se vean bien y demás. Para los agregadores de noticias, estos son los artículos de noticias que recopilan de Internet. Aquí, raspar la web no solo implicaría obtener artículos de los principales sitios web, sino también buscar palabras clave específicas en medios de comunicación locales y más pequeños, de modo que los agregadores de noticias puedan obtener más noticias para la gente local y, al mismo tiempo, dar visibilidad a los jugadores más pequeños que en realidad están cubriendo las investigaciones cívicas y criminales en ciertas regiones de manera responsable.
2. Recoge enlaces de artículos y videos.
Cuando proporcione un resumen de noticias en su sitio web agregador de noticias, también debe proporcionar el enlace para el artículo en el sitio web original. Es posible que este enlace ya haya sido extraído y almacenado en su base de datos. Estos enlaces son importantes ya que al encontrar interesante el resumen de un artículo, es muy posible que un cliente desee leer la noticia completa y obtener una comprensión completa de la situación actual.
3. Cree líneas de tiempo de noticias
A menudo, para un solo evento, obtendrá más de un artículo de noticias de diferentes sitios de noticias. Si se trata de un gran evento o de una noticia, incluso puede suceder que los últimos desarrollos sigan apareciendo cada pocos días o semanas. Es su responsabilidad recopilar todos estos artículos de noticias, eliminar repeticiones en caso de artículos similares manteniendo el que tiene el mejor resumen y también construir una línea de tiempo de eventos para todo el episodio para que una persona pueda entender cómo sucedió, qué es lo que realmente sucedió. sucedió, y cómo las autoridades lo manejaron, y cuál fue el resultado final. De esta manera, el lector obtiene acceso a una cronología histórica de una historia de interés periodístico.
4. Comentarios web scrape y artículos de noticias.
¿Cómo sabe qué artículo está mejor escrito cuando tiene diferentes versiones en sitios web de noticias similares? Una opción es la intervención manual, pero se puede dejar de lado para situaciones únicas, ya que la intervención manual es costosa y no se puede implementar a escala. Entonces, uno podría construir un mecanismo de raspado inteligente con la ayuda de un servicio de raspado web como PromptCloud, que podría detectar la cantidad de pulgares arriba y comentarios positivos en un artículo y solo entregar los que tienen las mejores estadísticas.
5. Captura las tendencias entre las personas que leen noticias en línea
Ciertos sitios de noticias en línea son más populares que otros, aunque en teoría todos los sitios web cubren las mismas noticias. Puede rastrear los principales sitios web de noticias/agregadores de noticias para ver qué hace que sus sitios hagan clic. También puede capturar el comportamiento del cliente en su sitio web revisando los comentarios, los artículos más vistos y más. Los controles sistemáticos de sus competidores pueden ayudarlo a permanecer en el negocio por mucho tiempo.
News and Media es un gran negocio y, como cualquier otro negocio, necesita tecnología para reducir los costos operativos y seguir siendo viable. El web scraping y los sistemas inteligentes pueden proporcionar esta ventaja a los agregadores de noticias.
