未收获的数据:您在 2018 年留在桌面上的数据 – PromptCloud
已发表: 2019-03-25Web Scraping 一直是科技界的话题。 越来越多的公司正在尝试使用智能机器人从网络上抓取数据以加快这一过程。 像PromptCloud这样的 DaaS (数据即服务)提供商也有所增长,他们根据规范向需要以即插即用格式自定义 Web 抓取数据的企业提供服务。 然而,我们知道公司(尤其是大公司)抵制变革,并继续遵循他们一直遵循的相同做法。 但我们已经看到,那些未能随着时间而改变的公司最终会倒下,而这种说法在今天最为明显,必须采用技术变革才能不落伍。
无论是优步减少出租车公司的利润,还是亚马逊导致实体店业务流失; 我们已经看到,不适应变化或不采用最新做法的技术甚至非技术公司/企业最终会被淘汰。 所以说到这一点,由于担心设置网络抓取引擎以及吸收结果,许多公司也没有采用网络抓取。 但是,所有在前一年没有使用过它的公司最终都没有使用大量在网络上公开可用的数据,这些数据本可以用来发展他们的业务。 这是我们将要讨论的数据——你在 2018 年留在桌面上的数据。
我们决定按部门、数据类型和可以使用这些数据实施的技术来分离留在桌面上的数据。
您错过的行业:
如今,几乎所有技术和非技术企业都使用网络抓取的数据,因此我们决定重点介绍使用它们的主要行业。
电子商务
电子商务是网络抓取技术的主要用户之一,因为需要保持与竞争对手相当的价格,而且由于大多数大型网站的价格每小时都在变化,因此需要实时网络在这个领域拼搏以保持活力。 除了价格抓取,评论、产品详细信息和产品图片也从电子商务网站上抓取。 较新的电子商务网站使用产品详细信息和图像来构建其产品列表,而评论则用于各种目的,例如情绪分析,以确定哪些产品更适合在网站上列出。
工作列表网站
将求职者与有空缺的公司联系起来是一项挑战,而使用技术则更容易解决。 大多数大公司(大多数财富 500 强)都在其职业页面上宣传他们的职位空缺,而其他公司则在全球数百个招聘网站上发布广告。 如果您正在搜索职位数据, JobsPikr可以根据许多因素获取您的职位列表,例如位置、职位名称、描述、职位类型以及职位描述中出现的关键字。

酒店/旅游预订
随着旅游业的发展,越来越多的人想去人迹罕至的目的地,公司需要能够分享这些地点的完整住宿清单,包括寄宿家庭、酒店、旅馆等. 为了准备和与客户分享这样的列表,公司必须利用网络抓取,不仅要从酒店和旅馆列表网站上抓取有关商业机构的数据,还要抓取有关寄宿家庭或出租房间的机构的数据或两个给背包客。
航班预订/价格估算器
航班价格每天都在波动,航空公司和航线的数量也在不断变化。 在这种情况下,抓取这些数据并使用历史数据构建估算器以帮助您的客户可以将您推向航班预订服务的最前沿。 价格预测是一项需要大量数据的服务,可以通过网络抓取轻松获得。
致力于机器学习模型的研究型公司
沉迷于制造自动驾驶汽车或无人机等技术的公司,或者致力于构建强大的 ML/DL 模型的公司,需要大量数据。 由于网络是最大且不断扩展的数据源,因此大部分数据通常是通过网络抓取收集的。
监控消费者情绪
对于 21 世纪来说,打造一个好的产品或提供一个好的服务是不够的。 维护公司声誉和品牌名称同样重要,甚至更重要。 为了确保丑闻或孤立问题不会对公司产生不利或打击股价。
新闻聚合
当一个人在网上阅读一篇新闻文章时,他可能想了解其他媒体对这个问题的看法、之前发生的事情、导致问题的原因,或者稍后跟进。 所有这些都需要新闻聚合,以便用户可以一次性找到与主题相关的所有内容。 新闻聚合是另一个严重依赖网络抓取的领域。
市场数据聚合
预感是好的,但在快节奏的竞争世界中,没有人愿意根据预感做出决定,尤其是在一个错误可能导致公司倒闭的情况下。 这就是为什么许多公司正在抓取网络数据以寻找模式并创建预测以支持他们的决策,无论是在营销、销售领域,甚至是关于他们的竞争的研究领域。
遗漏的数据类型
想到网络数据,我们首先想到的是数以百万计的文章,但是公司一直在使用不同类型的网络数据,从编写更好的 SEO 优化文章到教机器区分猫的图片和那些的狗。 Web 抓取的数据由结构化和非结构化格式的各种类型的数据组成。 以下是公司每天以 PB 为单位消耗的主要数据类型:
图片
图像构成了从网络上抓取的数据的主要部分。 无论公司是需要构建图像识别算法还是从在线购物网站抓取产品图像,每天都会抓取数百万张图像。
视频
视频占抓取数据的一小部分。 但是,它们确实占了很大比例,因为几乎所有视频范围都以 Mbs 或 Gbs 为单位。 视频数据主要用于对象/运动识别或其他基于研究的目的。
文本数据
构成从网络上抓取的绝大多数数据,文本数据,如产品描述、价格,甚至与关键字相关的内容,被试图以几乎任何方式利用网络抓取的公司抓取。
您错过的由 Web Scraping 推动的技术类型:
推荐系统:
推荐系统,例如Netflix使用的推荐系统,是市场上最热门的技术。 每个人都在用它来推荐产品,酒店,蛋糕,一切! 然而,要构建一个推荐系统,需要大量数据——这些数据通常来自网络抓取。
图像匹配
图像匹配、图像识别、自动驾驶汽车,都使用图像(或视频中的单帧)来构建决策引擎。 很多这些图像都是从网络上抓取的,因为你找不到更大的公开可用的图像存储库。
实时分析
价格监控或品牌监控等实时分析密切依赖于公开网络的最新发展。
自然语言处理
在这项技术中,自然人类语言由机器处理。 万维网帮助人们找到数百种语言的演讲和文本,可用于训练 NLP 模型。
风险管理
管理和减轻风险也容易受到股票市场的最新发展或最新消息的影响。 这是一项几乎完全依赖于网络数据的技术。
数据是新的石油——使用它!
石油正迅速被风车和太阳能电池板等可再生资源所取代。 它已经失去了光彩。 数据是新的石油,任何不使用数据的人都在浪费大量时间。 如果您在 2018 年没有使用来自网络的数据来提升您的业务,那么 2019 年可能是您设置工作流程以在不同流程中使用从网络上抓取的数据来提高生产力和销售的最后机会。
