Yandex 源代码泄漏揭示了有关搜索引擎的内容
已发表: 2023-02-17有没有想过 Google、Bing 和 Yahoo 等搜索引擎巨头的内部情况?
2023 年 1 月 27 日,全球第四大搜索引擎 Yandex 在发生大规模(准确地说是 44GB)数据泄露后登上了头条新闻。
“因此,俄罗斯最受欢迎的搜索引擎遭到入侵。 它与我有什么关系?” 你可能会问。
许多新闻频道将其视为针对公司和客户数据安全的恶意行为,但数字专家将其评估为对搜索引擎运作方式的罕见洞察。
更重要的是,他们优先考虑哪些内容以及原因。
数据泄露公开了我们最初认为的 1,922 个排名因素,但多亏了 Ben Wills,该数字被更正为 17,853。 很大,对吧?

我们遍历了所有 1,992 个。
继续阅读以了解我们发现最有趣的内容。
我可以利用从 Yandex 泄漏中学到的知识来提高在 Google 上的排名吗?
不用说,Yandex 不是谷歌。
但是有几个值得注意的因素使这次泄密在俄罗斯境外和您的搜索排名实验中具有相关性(和教育意义):
- Yandex 和 Google 搜索结果之间的匹配度约为 70%
- Yandex 使用 PageRank(与 Google 中的几乎相同)
- Yandex 雇佣了很多前谷歌员工,许多人推测它是以类似的方式设计的
- Yandex 遵循与 Google 类似的信息检索最佳实践,例如反向索引或嵌入
- 就像 Google 和 Bing 搜索引擎一样,Yandex 使用 Okapi BM25 排名函数来估计文档与给定搜索查询的相关性

话虽这么说,Yandex 源代码泄漏所揭示的内容首次帮助我们更好地区分假设和知道搜索排名是如何工作的。
Yandex 代码泄漏内部:关于搜索引擎如何运作的 11 项调查结果
通常,Yandex 排名因素可以分为三类:
- 静态因素,如入站反向链接、入站内部链接、标题、广告比例等。这些与您的网站有关。
- 文本相关性、关键字包含等动态因素。这些都与您的网站和搜索查询有关。
- 用户搜索相关因素,如用户位置、查询语言、意图修饰符等。这些与用户查询直接相关。
统计模型中使用的最大权重因素是:

1.页面广告
页面上的广告被视为负面因素。 事实上,它是负排名权重最高的因素:

多个与广告相关的因素,如页面上的广告展示位置数量以及背景是否可点击,表明 Yandex 不喜欢广告与可见屏幕比例高的页面。
2. URL 级因素
URL 的构造是 Yandex 考虑的另一个因素。 更具体地说:
- URL 中存在数字。
- URL 中尾部斜杠(“/”)的数量
- URL中大写字母的数量
回到 Yandex 不是 Google 的论点,这种泄漏不会有价值,好吧,这些 URL 因素与 Google 的 URL 结构指南中的因素非常相似。
3.页面级因素
这里有很多东西要展开。 事实证明,Yandex 有许多页面级因素在构建 SERP 中发挥作用。 一些最著名的包括:
- 页面新鲜度——尤其是博客内容和新闻网站。 如果内容页面超过 10 年,这是一个负面的排名因素。 所以经常更新你的内容。
- 最后目的地- Yandex 奖励结束用户搜索旅程的页面,这意味着他们已经找到了他们正在寻找的东西。
- 健康的流量来源比例——Yandex 不喜欢从单一来源(例如自然搜索)获取流量的页面。 为了让页面排名靠前,它需要从各种来源获得流量——自然流量、付费流量、直接流量等。
- 内容质量- 您的文本必须是原创的,而不是塞满关键字,这一点至关重要。 如果您的文本已在外部域中被引用/链接,这将提升排名。 此外,质量差的内容会降低优质内容的排名。
4. 网站层面的因素
基于页面新鲜度因素,最终的组合将是拥有一个长期活跃并经常更新其内容的完善网站。
此外,Yandex 从可点击性的角度来判断网站的整体质量。 换句话说,用户点击 URL 进行搜索的频率如何?
另一个积极的排名因素是域名。 Yandex 提高了 .COM 域的排名。

5.页面质量
我们已经讨论了内容质量,但是整体页面质量呢? 那么,Yandex 会根据以下几个因素评估页面质量:
- 访问次数
- 独立访客数量
- 在页面上花费的时间
- 在页面上执行的操作数
6. 用户行为和参与
我们需要讨论从泄漏中得出的几个有趣的用户行为要点。
一个关键因素是主机收到的总体点击次数和印象数。 Yandex 还会考虑页面是否适合移动设备并分析用户在移动设备上的行为,包括会话持续时间和在页面上花费的时间。 此外,当访问者在同一个月内返回网站时,这是一个积极的排名因素。
但可能最吸引人的是:
以用户评论为特色的页面在搜索结果中具有优先权。
7.主机排名和位置
Yandex 非常重视优先考虑地理位置靠近用户的内容。 因此,当两个域名争夺同一个搜索查询时,离用户较近的域名将获得排名提升。
在技术排名因素方面,减少 400 个客户端错误和 500 个服务器错误的数量将使您在 SERP 中领先。 最重要的是,Yandex 非常注重抓取深度。 这就是为什么要确保任何重要页面与您的主页之间的距离都不应超过两次点击。
8.反向链接质量
Yandex 采用各种措施来惩罚推荐链的创建,这会人为地提高网站的知名度。
其中一项措施是分析超链接文本的百分比,因为过多的链接可能表明存在操纵行为。 它还会考虑指向站点的链接的质量,并对具有大量付费或低质量链接的站点进行惩罚。
说到链接质量,直接影响链接质量的因素是重定向的数量和链接的构建方式。
9. 对搜索流量的影响
与谷歌类似,采用良好 SEO 做法的网站比不采用的网站表现更好。 容易被发现是在 Yandex 上获得更高排名的必经之路。
毫不奇怪,可以服务于搜索意图的页面是相应搜索查询的领导者。 标题标签和正文中包含精确搜索查询的页面具有优势。 此外,同义词的使用是另一个可以提高排名的积极信号。
10.维基百科提升
高质量页面的另一个重要信号是它是否链接自维基百科。 Yandex 偏爱从维基百科链接的页面并将它们排名更高。
11.视频内容
包含视频内容的网站优先。 但有一个问题,Yandex 对 Yandex 托管的视频的页面排名更高(duh)。
在评估页面的视频内容方面,适用标准衡量标准 - 平均观看时间与视频总长度的比值。
虽然所有这 11 项调查结果都提供了一些很好的见解,但在 SEO 世界中存在一些关于泄露数据是否有价值的争论。
对 SEO 世界中泄露的排名因素的反应
从彻底驳回到深入分析,SEO 对 Yandex 泄密事件表达了不同的看法。
Kevin Indig 总结了最常见的反对意见,并就排名因素的重要性提供了重要意见。

摘自 Kevin Indig 的文章“SEO 低估了 Yandex 泄密事件”
SEO 领域的知名人士,如 Ben Wills、Alex Buraks 和 Mic King,卷起袖子深入研究泄露的数据。
Ben Wills 是第一批理解源代码并帮助我们掌握事件意义的专家之一(尽管他稍后才打开 Twitter 线程)。

大约在同一时间,Rob Ousbey 分享了一个用于 Yandex 代码的探索器工具的 alpha 版本:

Mic King 在查看源代码时现场分享了他的第一印象,告诉我们,“不要在这段代码上睡大觉。”

俄罗斯的 SEO 论坛同样拥挤,网站管理员与西方 SEO 世界有着相似的见解。 然而,也有很多关于 Yandex 偏爱其产品和服务的讨论,正如俄罗斯 SEO 专家 Dan Taylor 所报道的那样。
结论
Yandex 源代码泄漏会改变您进行 SEO 的方式吗?
可能不会。
但是将它标记为不重要并滚动过去将是一个巨大的错误。
显然,Yandex 和 Google 之间有很多相似之处。 因此,这次泄漏可以作为进行更多实验的一个很好的起点,并促使您更加关注用户体验和优质内容。
所以屈服并开始测试。
