如何对抗网站内容抓取工具
已发表: 2022-02-21任何花时间确保内容独特、写得好且有用的网站管理员在发现他们的内容被抓取并显示在另一个网站上时都会感到痛苦。 抓取工具只是在网络上开展业务的一部分,网站管理员无法阻止它。 但是,您可以采取一些巧妙的措施来对抗它并保持您的网站在搜索引擎中的独特价值。
挑战
有几种方法可以阻止爬虫,但其中一些也可以阻止合法的搜索引擎爬虫。 网站管理员面临的挑战是让网站对爬虫不友好,但仍然对搜索引擎友好。 这不是一件容易的事,因为阻止爬虫的东西通常也会阻止搜索引擎。
例如,完全阻止爬虫的一种方法是将您的内容转换为图像。 虽然这非常适合对抗爬虫,但它会使您的网站完全不适合 SEO。 搜索引擎将无法解析和阅读您的内容,因此您的排名可能会下降。 搜索引擎仍然是基于文本的,因此它们无法正确理解和阅读图像。
由于刮板和机器人的工作方式相似,因此很难创建一种方法来阻止刮板而不损害您的 SEO 和排名。 选择方法时,请明智地选择。 如果它影响搜索引擎机器人,即使测试一种方法也会产生负面影响。 除非您知道它们不会阻止合法机器人,否则不要执行任何大规模的结构更改。
您可以通过以下三种方式来对抗内容抓取工具,同时保持您的网站搜索引擎爬虫友好。
在您的页面中设置规范
在索引重复内容时,规范为 Google 算法提供了强有力的建议。 规范基本上是说“这是重复的内容。 而是将此 URL 编入索引。” “此 URL”是您网站上的一个页面。
当抓取工具窃取您的内容时,它会获取 HTML 标记中的所有内容,包括链接标记。 结果是您的规范设置在刮板的页面上。 当 Google 抓取爬虫网站时,它会读取规范并取消索引爬虫的页面并保留您自己的页面。 拥有指向当前页面的规范链接不会影响您的 Google 索引状态,因此您无需担心它会导致本地页面出现问题。
这种技术通常效果很好,但也有一些问题。 首先,当刮板的所有者发现包含规范时,他可以删除规范。 其次,规范是对谷歌的建议。 虽然搜索引擎算法通常接受规范并将其用于索引,但这并不是保证。 如果 Google 看到指向刮板页面的强烈信号,它可能会将它们编入索引。 然而,这种情况很少见。 强信号包括链接、高流量和页面的受欢迎程度。
以下是规范的链接代码。
<link rel="canonical" "https://yoursite.com/yourpage.html" />
请注意,您需要绝对 URL,这意味着您包括协议 (HTTP)、域名 (yoursite.com) 和页面名称。 在您的每个内容页面上都包含此代码。
在链接中使用绝对 URL
有两种类型的链接 URL:绝对和相对。 绝对值看起来像上一节中的链接。 它包括协议、域和页面名称。
相对链接仅使用目录和页面名称。 这是一个例子:
- 绝对网址
<link rel="canonical" "https://yoursite.com/yourpage.html" />

- 相对网址
<link rel="canonical" "/yourpage.html" />
当刮板窃取您的内容时,它会刮掉所有内容和网站结构。 当您使用相对 URL 时,爬虫站点的链接将起作用。 当您使用绝对 URL 时,这些链接指向您自己的域。 刮板必须从所有链接中删除您的域,否则它们都指向您的站点,这实际上对您的链接图有益。 除非爬虫所有者可以编写代码,否则除非他编辑脚本,否则他将无法使用您的内容。
创建蜜罐
蜜罐是公司用来吸引黑客的诱饵。 它们模仿真实的服务器或系统,并允许黑客发现漏洞。 蜜罐的优势是在黑客侵入系统时记录事件。 他们还引诱黑客远离关键系统。
您可以在您的 Web 服务器上创建一个类似的系统。 只需创建一个文件。 创建一个空白 HTML 文件并将其上传到您的 Web 服务器。 例如,将文件命名为“honey.html”并将其放在您的 Web 服务器上。 将该文件添加到您的 robots.txt 以阻止机器人抓取它。 抓取工具尊重 robots.txt 指令,因此如果您在 robots.txt 文件中阻止了该页面,它们将不会抓取该页面。
接下来,在您网站的一个活动页面上放置一个指向 honey.html 页面的隐藏链接。 您可以使用“display: none” CSS div 隐藏链接。 以下代码是一个示例:
<div style=”display: none;”><a href=”honey.html”>链接名称</a></div>
以上代码对爬虫和爬虫可见,但对普通访问者不可见。
这个技巧的作用是将流量指向一个文件。 由于合法块尊重 robots.txt 但抓取不会,因此您可以看到 IP 正在抓取该页面。 您应该在您的网站上记录流量,因此请手动查看抓取 honey.html 的 IP 地址。 Google 和 Bing 等合法的机器人不会抓取页面,但抓取工具会。 查找爬虫 IP 并在您的 Web 服务器或防火墙上阻止它们。 您仍然应该在阻止它之前验证 IP,以防万一发生任何问题并且合法流量找到该页面。
刮板永远不应该超过您的网站
您不能完全阻止网站获取您的内容。 毕竟,不道德的网站所有者可以手动复制您的网站内容。 但是,刮板网站的排名永远不应该超过您的网站。 爬虫排名超过您自己网站的最可能原因是您自己的搜索引擎优化问题。
谷歌有数百个对网站进行排名的因素,因此很难知道哪个因素会影响您的网站。 以下是您可以查看的内容的细分。
- 您的内容是独特的、有用的并且是为用户编写的吗?
- 您或顾问是否执行过任何链接构建?
- 你的内容权威吗?
- 低质量页面是否设置为 noindex?
- 您的导航是否便于用户查找内容和产品?
这些是您可以查看的一些问题,但您可能需要专业人员来更彻底地审核该站点。
好消息是,由于 Google 的处罚和对爬虫网站主机的投诉,爬虫通常会很快消失。 如果您看到前面的爬虫排名,请采取这些步骤来阻止它们,并花时间检查您的网站的质量。
