网络爬虫机器人的诞生 – PromptCloud

已发表: 2019-02-27

目录显示

阶段 1. 了解网站对人类用户的反应

第 2 阶段。掌握网站与机器人的行为方式

第 3 阶段。构建机器人

阶段 4. 对机器人进行测试

阶段 5. 提取数据点和数据处理

很长一段时间以来，网络爬虫程序一直是企业成功的必要组成部分。电子商务、旅游、工作和分类广告是使用爬虫机器人作为其竞争战略核心的一些主要领域。

那么网络爬虫机器人实际上是做什么的呢？在大多数情况下，它们会遍历网站上的数十万个页面，根据其在网络上的确切用途获取重要信息。一些机器人旨在从电子商务门户获取价格数据，而另一些机器人则从在线旅行社提取客户评论。还有一些机器人旨在收集用户生成的内容，以帮助 AI 工程师为自然语言处理构建文本语料库。

在所有这些用例中，必须根据从该网站提取的数据点，从头开始为目标网站创建一个网络爬虫机器人。在 PromptCloud，我们一直在为一系列行业和用例构建复杂程度不同的机器人。凭借我们在网络爬虫方面多年的专业知识，我们制定了一个分步流程，使机器人创建更容易和更精简。让我们快速回顾一下创建网络爬虫机器人所涉及的步骤。

阶段 1. 了解网站对人类用户的反应

在我们构建一个爬取新网站的机器人之前，我们应该知道该网站如何与真人交互。在这个阶段，我们的工程师使用 Google Chrome 或 Mozilla Firefox 等常规浏览器对新的目标网站进行旋转以了解网站导航。这为浏览器-服务器交互提供了一些启示，它揭示了服务器如何查看和处理传入请求。通常，它涉及通过http 处理请求标头和请求类型。 这为构建机器人奠定了基础，因为机器人会在某种程度上模仿目标网站上的真实用户。

第 2 阶段。掌握网站与机器人的行为方式

作为第二步的一部分，我们的工程师将以自动方式发送一些测试流量，以了解网站与机器人交互与人类用户的交互方式有何不同。这是必要的，因为大多数现代网站都有某些内置机制来以不同的方式处理机器人。了解这些机制将帮助我们选择构建机器人的最佳行动路径。一些常见的例子是：

该网站限制了正常导航，例如 20 页
请求返回 301 状态码
网站抛出一个验证码作为回应
服务器返回 403 状态码——这意味着该站点尽管理解了我们的请求，但仍拒绝满足我们的请求
来自特定地理位置的受限访问（这是代理出现的地方）

大多数网站都是双面的，他们以不同的方式对待人类用户和机器人——在他们的防御中，它保护他们免受恶意机器人和各种形式的网络攻击。您可能会在某个时候遇到一个网站，要求您证明自己的人性才能访问某个页面或功能。机器人经常面对这个问题。这就是为什么我们执行此测试以从机器人的角度完全了解该站点的原因。

我们还有一个自动化层，然后用于确定构建机器人以抓取特定网站的最佳方法。它在网站上进行温和的压力测试以检测其临界点，然后返回一些关键信息，这些信息会用于制作爬虫机器人，例如睡眠、代理/无代理、验证码、可能的并行请求数等等。

第 3 阶段。构建机器人

一旦我们的工程师获得了目标站点的清晰蓝图，就该开始构建爬虫机器人了。构建的复杂性将取决于我们之前测试的结果。例如，如果目标站点只能从德国访问，我们将必须包含一个德国代理来获取该站点。同样，根据站点的具体需求，一个机器人中最多可以有 10 个模块一起工作。

阶段 4. 对机器人进行测试

作为企业级网页抓取服务提供商，我们将可靠性和数据质量放在首位。为了确保这些，重要的是要在不同条件下测试爬虫机器人，在实际爬网开始之前目标站点的高峰时间和非高峰时间。对于此测试，我们尝试从实时站点中获取随机数量的页面。在评估结果后，将对爬虫进行进一步的修改，以提高其稳定性和运行规模。如果一切正常，机器人就可以投入生产。

阶段 5. 提取数据点和数据处理

我们的爬虫机器人的工作方式与大多数人熟悉的搜索引擎爬虫不同。虽然像 Google 机器人这样的搜索引擎机器人只会简单地抓取网页并将它们与一些元数据一起添加到索引中，但我们的机器人会将页面的完整 html 内容提取到临时存储空间，在那里它们会进行提取和各种其他过程，具体取决于客户要求。

我们将此阶段称为提取，这是从预下载的网页中提取所需数据点的地方。提取它们后，将自动扫描数据以查找重复条目并进行重复数据删除。下一个流程是规范化，其中对数据进行某些更改以方便使用。例如，如果提取的价格数据以美元为单位，则可以在交付给客户之前将其转换为不同的货币。

这是我们的工程师如何处理新的网络爬虫构建的快速演练。请注意，机器人的高效率还取决于服务器环境和我们多年来实现的优化水平。稳定的技术堆栈和基础设施对于每天提取数百万条数据记录至关重要，没有两个机器人是相似的。