不同业务应用程序的数据收集来源 – PromptCloud

已发表: 2017-10-24

目录显示

选择来源时要记住的事项

按应用程序收集的数据来源

结论

尽管可以免费抓取和提取 Web 数据的金矿，但企业需要指出正确的方向，同时为其特定用例确定正确的数据收集来源。识别网络资源时的不确定性是很自然的，因为网络上可用的数据主要是针对人类访问者而不是机器人。在使用网络爬虫设置访问网站上的数据时，您必须考虑提取的法律方面以及技术可访问性。除了这些之外，并非所有网站都是理想的数据收集来源。我们将解释原因并为各种业务应用程序推荐一些最佳 Web 数据源。

数据收集来源

选择来源时要记住的事项

远离阻止机器人的网站

尽管法律允许通过 robots.txt 规则进行网络抓取，但某些网站仍使用激进的机器人拦截技术。此类站点不是很好的数据源，因为它们的阻止活动可能会为您提供不完整、有偏差或根本没有数据。这种缺乏稳定性使它们成为数据收集的不良来源。

注意断开的链接

损坏的链接是网站维护不善的明显标志。当网络爬虫尝试导航站点以访问不同的页面以获取数据时，断开的链接可能会导致问题。最好避开有太多断开链接的网站。

用户体验和网站设计

具有杂乱和复杂用户界面的网站通常提供低质量、不可靠的信息。如果您必须使用用户体验较差的网站作为数据来源，最好在继续之前手动确保信息的可靠性。

经常更新的网站

新鲜数据对于时间敏感的网络数据应用至关重要，例如定价智能、品牌监控和新闻源聚合。在大多数情况下，理想情况下，您应该寻找经常更新的网站。

按应用程序收集的数据来源

品牌监控

鉴于互联网对品牌的成败，品牌监控对所有公司都至关重要。对话现在在网络上实时进行，发布的意见和评论可能会对您的业务产生重大影响。使用网络爬虫进行品牌监控可帮助您发现消费者提出的负面意见，从而解决您的产品中被忽视的问题。用于品牌监控的理想数据收集来源是：

公共论坛
利基博客
电子商务/旅游网站的评论部分
社交媒体平台

情绪分析

情绪分析本质上是从一系列单词中识别情绪基调的过程，用于了解通过在线提及表达的观点、情绪和态度。通过抓取您的目标受众可能表达他们对您的品牌、产品或某个世界事件的看法的某些网站，您可以收集执行情绪分析所需的数据。以下是公司用于情绪分析的流行来源。

Twitter、Reddit、YouTube 和 Instagram 等社交网站
发表评论的网站
新闻网站
其他利基社交媒体网站

市场调查

市场研究对于衡量市场规模、需求和市场其他重要方面的竞争至关重要。公司应以预先定义的频率进行彻底的市场调查，以获取与行业保持相关性所需的信息。通过网络抓取，市场研究过程可以轻松自动化和加速。

政府网站
统计网站
竞争对手的网站

新闻提要聚合

新闻和媒体网站需要随时访问来自网络的突发新闻和趋势信息。这只能通过使用专门的网络爬虫设置从频繁更新的源中提取数据来解决。对于新闻源聚合，最佳来源是：

新闻网站
饲料聚合网站
社交媒体网站
博客

作业提要聚合

招聘委员会、人力资源咨询公司和招聘分析公司可以充分利用招聘信息。由于职位列表反映了劳动力市场的当前趋势，例如需求技能、趋势职位和正在招聘的行业，因此该行业的公司可以从这些数据中获得重要的见解。作业数据聚合的最佳来源是：

工作委员会
公司网站的职业页面
分类网站

定价智能

具有竞争力的定价是当今电子商务、酒店和航班预订业务的决定性特征之一。当今客户对价格的敏感度也导致了比价网站如雨后春笋般涌现。希望收集定价数据的公司可以通过网络抓取从以下来源提取它：

电子商务门户
旅游门户
价格比较网站

目录建设

拥有大量库存的旅游门户网站发现很难管理其目录。使产品页面保持最新需要从存在酒店房间数据的来源中提取相关数据。目录构建的理想来源是：

其他旅游门户
酒店网站

金融市场应用

与金融行业密切相关的公司或个人需要来自托管金融数据的站点的近实时数据。在这种情况下，数据是时间敏感的，需要实时网络爬虫解决方案才能以超低延迟获取数据。数据来源包括：

股市网站
主要金融机构网站
新闻和媒体网站

结论

使用网络抓取等自动化技术收集数据的应用正在兴起。但是，选择正确类型的源网站是确保数据聚合项目获得正确结果的关键步骤。由于不同网站上数据的质量和相关性差异很大，因此在将网站添加到源列表时必须非常有选择性。可靠且相关的数据收集来源可以大大提高网络抓取的投资回报率。