YouTube 算法解释
已发表: 2021-10-05如何通过使用而不是反对 YouTube 算法来快速发展您的 YouTube 频道
许多小型 YouTube 用户都在努力发展他们的频道。
尽管您的 YouTube 频道没有增长的原因有很多,但最常见的原因之一是不了解 YouTube 算法的工作原理。
在本文中,我将向您展示 YouTube 算法是如何在幕后工作的。
您将了解机器学习算法如何确定每个视频的主题、如何将相似的 YouTube 频道组合在一起、如何了解每个观众感兴趣的内容以及如何推荐观众未订阅的新视频和频道。
如果您对 YouTube 算法的细节不太感兴趣,您还可以阅读我关于如何破解 YouTube 算法的更多战术指南。

YouTube 算法如何理解 YouTube 视频的主题
YouTube 的首要任务之一是能够理解每个视频的内容,这样它就可以将合适的视频推荐给合适的人。
YouTube 使用多种技术来分析每个视频。
它使用直接和间接元数据通过复杂的机器学习算法从视频以及视频和音频分析中提取关键字数据。
基于文本的分析
最直接的分析是基于基于文本的关键字提取。
为此,YouTube 会查看一系列直接和间接的基于文本的属性,以推断准确反映其视频内容的描述性关键字。
标题、描述和视频标签的关键字分析
用户可以为他们的视频添加视频标题、视频描述、视频标签和视频类别。
与所有用户生成的元数据一样,问题在于它通常容易出现错误、歧义和不完整。
因此,YouTube 必须首先清理和增强所有书面元数据,以使其在推荐算法中可用。
例子:
有人可以写 Instagram、Insta、gram 或 IG,都指同一个社交媒体应用程序。 YouTube 通过在内部将具有相同名称的同义词组合在一起来解决这种歧义。
然后它使用上下文数据来理解“Instagram”关键字的上下文。 有人在谈论 Instagram 公司、Instagram 的文化影响、作为用户如何使用 Instagram 应用程序,还是在谈论作为内容创作者在 Instagram 上增加受众?
然后为每个视频保存统一和增强的元数据以供进一步分析。
我建议查看我的文章,了解如何为 YouTube 视频命名以及如何优化视频标题以获取更多详细信息。

字幕分析
字幕形式的视频转录是迄今为止用于内容分析的视频元数据的最佳来源。
如果转录准确,它们代表了从口语到书面语的一对一转换,因此 YouTube 的机器学习分析工具可以访问它。
从本质上讲,YouTube 可以使用其母公司 Google 用于分析数十亿个网站、页面和博客文章以进行 SEO 的相同先进技术。
最初,YouTube 依靠用户上传或转录他们自己的字幕。
由于这是一项乏味的工作,因此只有少数非常忠诚的 YouTube 用户会真正为他们的视频添加字幕。
尽管字幕对于文本分析来说要好得多,但如果只有十分之一的人有字幕,它们就毫无用处了。
YouTube 通过大量投资自己的语音识别软件来解决这个问题,该软件会自动转录每个上传的视频并将其转换为字幕。
YouTube 转录的问题在于它有时不是 100% 准确的。
它经常误解人们在视频中所说的话,然后在其字幕中使用错误的词,尤其是在音频设备质量较低、背景噪音非常高或某人有口音的情况下。
这对任何 YouTube 内容创建者都有一些潜在的非常危险的后果。
在最好的情况下,YouTube 不会将您想要排名的重要关键字与您的视频相关联。
在最坏的情况下,一个无害的词可能会被解释为一个糟糕的诽谤,导致废除货币或自动的社区罢工。
如果您想为您的成绩单和字幕获得最佳结果,包括正确的大小写和标点符号,我建议您查看 Descript 和 Otter 以获得最佳结果。

播放列表分析
YouTube 还将使用间接的上下文元数据来了解任何给定的 YouTube 是关于什么的。
您的频道或其他人创建的一个或多个视频播放列表中是否包含特定视频? 如果是,播放列表的标题和描述中包含哪些关键字?
然后,YouTube 可能会通过合并每个播放列表中的所有视频标题来分析每个播放列表,然后使用模式识别算法来识别准确描述所有视频之间共性的共同关键字。
播放列表中的这些共性可以作为每个嵌入视频的附加上下文信息。
例如,如果特定播放列表包含不连贯的数据和噪音,YouTube 将忽略这些数据,因为有人将不相关的视频放在一起。
您可以使用 TubeBuddy 的播放列表操作工具快速整理现有播放列表。
评论分析
视频元数据的另一个来源是 YouTube 评论。 这对于持续为每个视频获得大量评论的大型频道更为相关。
YouTube 可以搜索表示描述性陈述的特定关键字和模式。
例子:
“非常感谢。您的视频确实帮助我了解了如何让更多人订阅我的 YouTube 频道”。
在这种情况下,其中一种搜索模式可能具有“如何……”
同样,重要的是要提到 YouTube 不接受表面上的评论。 否则,流氓行为者很容易通过游戏系统获得不公平的优势。
相反,YouTube 通过确认所有数据点的一致性来使用所有数据来提高其置信度。
如果您想了解 YouTube 所看到的内容,请查看 TubeBuddy 评论词云。
信息卡和片尾画面分析
最后一个视频元数据源是信息卡和结束屏幕。
是否有任何嵌入式卡片链接到特定视频、播放列表或外部网站?
如果是这样,每张卡片的标题和描述中包含什么文字?
对于 YouTube 视频,哪些元数据和内容集群与每个视频相关联? 源视频和目标视频或播放列表之间是否存在相似之处和重叠?
对于网站,每个页面的 URL、页面标题和 HTML 内容是什么?
用于信息卡和结束屏幕的 TubeBuddy 批量处理工具将为您节省大量时间。

视觉分析
YouTube 使用基于 AI 的照片分析工具,基于 Google 的 Cloud Vision AI 分析视频缩略图和单个视频帧。
Google Cloud Vision AI 的非凡之处在于,您可以公开访问它来评估您自己的视频缩略图。
您可以查看我的文章,了解如何设计完美的 YouTube 缩略图以获取分步教程。
以下是 YouTube 和 Cloud Vision 可以识别的一些对象:
- 人们
- 面孔
- 情绪
- 手势
- 服装
- 对象和属性
- 主色
- 风格
- 标志
- 文字识别
- 安全搜索评级
- 成人
- 欺骗
- 医疗的
- 暴力
- 活泼的
老实说,这些年来人工智能变得多么准确几乎有点可怕。
YouTube 使用相同的技术逐帧分析每个视频。
主要用于识别受版权保护的内容和任何可能导致违反社区准则的内容。
作为次要优势,YouTube 可以识别您的每个视频中的人物和对象。
如果您的视频标题是“如何制作完美的西红柿沙拉”,那么在您的视频中“看到”一些实际的西红柿会很有意义。
这不仅有助于 YouTube 打击虚假的点击诱饵标题,而且还是难以用文本表达的额外元数据的重要来源。
假设您有一个标题为“伦敦被低估的 3 个地点”的视频,而您在视频中展示的三个地点是“自治市镇市场”、“泰晤士河堤公园”和“里士满公园”。
如果 YouTube 的 AI 可以纯粹基于视觉识别来识别特定位置,例如,通过 OCR 技术将标志转换为文本。
然后,YouTube 会将您的视频推荐给正在搜索“伦敦最佳食品市场”的人。
这在很多情况下都有效,即使您没有将它们包含在您的标题、描述、标签或字幕中。

音频分析
YouTube 还在分析所有视频的音乐、声音和口语的每一刻。
同样,最明显的原因是为 YouTube 的 Content ID 系统识别受版权保护的音乐。
额外的音频数据还为每个视频中发生的事情提供了有价值的见解。
特定歌曲与特定艺术家、音乐流派和其他可能一起播放的歌曲相关联。
声音和音效经常传达特定的事件。 例如,“喵”声表示猫的存在。
口语可以表明您的视频中存在特定的人。
上下文分析
YouTube 还使用更广泛的上下文数据来更好地理解每个视频的主题。
渠道
- 我们对上传视频的 YouTube 频道了解多少?
- YouTube 频道与哪些内容集群相关联?
- 我们对观看此频道视频的用户了解多少?
- 哪些较大的受众群体正在观看此频道的视频?
- 哪些人群正在观看此频道的视频?
外部网站
- 此视频是否已嵌入外部网站?
- 如果是,我们可以从嵌入特定视频的网页内容中推断出哪些额外信息?
- 这个网站还发布什么?
- 具体文章的作者是谁?
- 这位作者因哪些主题而闻名?
- 什么是网站权威分数?
观众分析
- 观众是如何与这个视频互动的?
- 观看了哪些时间范围,观看频率如何?
- 跳过了哪些时间范围,以及跳过的频率如何?
- 每个观看者对视频展示的点击率是多少?
- 观众的观看时间是多少分钟/百分比?
- 我们对观看时间百分比较低的观众群体了解多少?
- 我们对观看时间百分比较高的观众群体了解多少?

YouTube 算法如何找到相似的 YouTube 频道进行推荐
YouTube 算法如何将 YouTube 频道链接到各个主题、类别和内容集群?
当您查看 CNN YouTube 频道上发布的视频时,您可能会了解它们主要专注于制作新闻内容。
但是,YouTube 如何确定其数百万个 YouTube 频道的规模呢?
最直接的方法是要求每个 YouTube 频道进行自我分类。
只需从长长的频道类别列表中选择正确的类别,一切都会好起来的?
嗯,没那么快……
自分类的问题在于它容易出错。
YouTube 内容创建者可能没有明确的频道方向或内容策略。 因此他们可能不知道选择哪个类别。
如果创作者不了解每个类别的定义或含义,他们也可能会对选择哪个类别感到困惑。
有时他们也可能会不知所措,尤其是在类别列表很长的情况下。
解决方案?
他们正在通过算法确定 YouTube 频道类别!
以下是 YouTube 如何了解 YouTube 频道的内容。
他们着眼于三个不同的因素。
- 他们每个视频的内容是什么?
- 他们所有视频中最受欢迎的话题和主题是什么?
- 他们的视频的观看者分享了哪些特征、特征和兴趣?
这三条信息相互补充。
数据越和谐,YouTube 对特定频道属于某个类别和利基的置信度得分就越高。 YouTube 更有可能在同一细分市场的 YouTube 频道的“推荐视频”部分推荐您的视频。
这就是为所有视频制定清晰的 YouTube 内容策略如此重要的原因。 您可以在我的 YouTube 内容集群策略文章中了解有关从头开始创建内容策略的更多信息。

YouTube 的算法如何确定每个用户感兴趣的内容
YouTube 正在跟踪用户在其网站上所做的一切。
每一次鼠标移动。 每次点击 YouTube 缩略图。
在每页上可以看到多少百分比的缩略图。
如果视频正在前台或后台播放。
向每位用户推广了哪些视频缩略图和标题,推广了多少次?
每个视频展示的点击率是多少?
每个 YouTube 视频有多少观看次数?
点击视频后的视频观看时间(分钟和百分比)是多少? 该用户的视频观看时间的典型百分比是多少? 该视频的观看时长是高于还是低于平均水平?
有人在第一次观看特定视频后做了什么?
他们订婚了吗? 他们是否按下了“喜欢不喜欢”按钮? 他们写评论了吗? 它是基于情绪分析的正面评论声明还是负面评论声明?
用户是否扩展了视频描述?
观看者是否分享了视频? 如果是,在哪个平台上? 分享的最可能原因是什么?
他们订阅了 YouTube 频道吗? 如果有,在哪一页? 如果在视频页面上,他们观看了百分之几的视频?
他们是否探索了特定的 YouTube 频道? 他们可以看到哪些视频标题? 他们点击了哪个?
他们是否将视频添加到特定的播放列表? 这个播放列表的标题是什么? 同一播放列表中其他视频的主题和主题是什么?
他们是否按下了稍后观看按钮?
该视频的相关内容集群、主题和主题是什么? 根据过去的行为和观看历史,该用户是否对这些内容集群中的任何一个感兴趣? 两个内容集群(例如 Linux 和开发软件)之间通常是否存在重叠的兴趣?
然后,YouTube 使用所有这些数据点为其机器学习算法提供数据,以找到多个用户的模式。
总结一下。
YouTube 首先对视频进行分类,以了解每个视频的内容。

然后,它将主题分组为更广泛的内容组和利基。
如果有人观看特定视频,则其相关内容集群将作为兴趣链接到用户个人资料。
某人从同一内容集群观看的视频越多,它就越有可能向该用户推荐同一类别的视频。
这种分析使 YouTube 能够了解每个用户感兴趣的内容,但它并不仅限于视频分析。
YouTube 还使用共同观看数据来进一步细化个人用户的兴趣。
有关如何实施这些课程的战术指南,请查看我关于如何破解 YouTube 算法的文章。

YouTube 算法根据人们观看的内容创建不同的人口统计和兴趣组
YouTube 算法如何将个人观众链接到更广泛的内容集群?
YouTube 根据共同兴趣和相关内容集群对用户进行分组,因此它可以根据其他用户的历史记录和已添加到特定内容集群的新视频进行推荐。
此功能非常类似于针对经常一起购买的建议和 Facebook 相似受众的亚马逊推荐算法。
YouTube 正在记录其平台上每个登录用户的观看历史。
然后,它会同时查看所有人的观看历史记录,并计算同一会话中任意两个视频之间的平均距离。 如果有人背靠背观看两个视频,则距离越短,如果他们观看两个视频之间的距离越长。
YouTube 计算出两个视频之间的平均距离后,它可以将具有相似观看历史的用户链接在一起,并根据具有共同兴趣的用户推荐新视频。
更先进的系统可以组合更多的数据源。
YouTube 算法识别新主题和内容集群的过程是什么
YouTube 视频类别
早期,YouTube 尝试手动定义可能的视频类别列表,并要求用户为每个视频选择以下主题之一:
- 电影与动画
- 汽车和交通工具
- 音乐
- 宠物和动物
- 运动的
- 旅游与活动
- 赌博
- 人与博客
- 喜剧
- 娱乐
- 新闻与政治
- 操作方法和风格
- 教育
- 科学技术
- 非营利组织与激进主义
您仍然可以在视频设置页面上找到视频类别设置,尽管它在今天已无关紧要且被忽略。
自我分类引起了许多问题,因为视频创作者不了解每个类别应该如何工作以及类别应该如何彼此不同。
结果是标签不一致。

Freebase 知识图谱
YouTube 很快意识到这 15 个类别的局限性,并开始研究基于 Freebase 知识图谱数据库的更全面的方法。
Freebase 是一个大型协作知识库,拥有超过 3900 万个结构化数据实体。
它是围绕“实体”组织的,也称为主题。 每个实体都与一个或多个“类型”相关联。 每种类型都有一组独特的“属性”。
例如,除其他外,“汽车”实体与具有“马力”属性的“引擎”类型相关联。
与 Wikipedia 类似,实体、类型和属性的 Freebase 名称被翻译成不同的语言,这对于 YouTube 的国际扩张来说是个好消息。
YouTube 使用 Freebase 数据库作为开发其专有类别系统的基础。
谷歌已经开发了几个分类系统来对网页内容进行分类,以用于其搜索引擎和广告目的。
YouTube 使用 Google 的分类算法来处理 Freebase 数据库的每个实体、类型和属性,以将其与 Google 的分类系统联系起来。
通过将特定主题链接到专门的维基百科门户页面,进一步丰富了生成的模型。
从 15 个主题类别增加到超过 3900 万个主题类别对 YouTube 来说是一个巨大的进步,但它仍然有无数的限制。
最大的问题是它依赖于人类分类和组织主题的分层自上而下的方法。
随着新技术和新思想的爆炸性兴起,这一点变得更加明显。
手动类别太不灵活且太慢,无法适应变化。
今天,大多数想法和概念没有黑白的定义,通常在含义上是模棱两可和流动的,并且随着时间的推移不断发展。
iPhone 是电信设备、移动计算机、电话、摄像机还是智能手机? 如果我们考虑应用程序呢? 它是计算器、文本处理器还是游戏机?
如果我们有 20 个层次结构的更复杂的概念和想法怎么办? 我们如何组织这些?
YouTube 决定在 2015 年停用 Freebase,转而采用一种不需要任何形式的人工分类和管理的新算法分类器算法。

算法内容集群生成
计算机如何生成世界上每个可以想象的主题的超精确地图,然后将这张地图构造成明确定义的内容集群?
这可以通过查看数十亿视频元数据和用户观看历史数据点的高级机器学习算法来实现。
首先,通过提取视频标题、描述、标签和评论,并通过文本识别算法将音轨转换为字幕,将每个视频转换为文本元数据。
不相关的信息被丢弃。
每个视频的组合文本数据根据关键字和短语进行分析和分组。
然后根据相关性和频率对识别的关键字和短语进行排序和加权。
然后根据视频观看数据将关键字链接在一起。
YouTube 一次查看每个关键字或词组
然后它会编译一个包含特定关键字或短语的所有视频的列表。
然后识别在同一会话中观看了至少两个具有相同关键字或短语的不同视频的所有用户。
YouTube 然后分析所有会话的观看历史记录,并计算包含目标关键字或短语的所有视频之间的平均观看距离。
假设我们有三个具有相同关键字 A、B 和 C 的视频。
如果 Jane 从 A 开始,然后是 f,然后是 B,最后是 C。
A 和 B 之间的距离为 2,而 A 到 C 的距离为 3,依此类推。
两个视频之间的距离越短,视频越相关,并且通过代理,链接的关键字。
结合数以百万计的视频和用户观看数据,您可以很好地表示关键字相关性。
现在,让我们做一些疯狂的事情。

让我们创建一个巨大的多维思维导图,并将所有关键字与平均观看距离结合起来。
您最终会得到一个包含数百万个相互关联的数据点的巨大图表。
YouTube 首先使用由外而内的算法对图表进行预处理,以找到种子视频和关键字,从而将图表分割成内容集群。
YouTube 正在寻找具有最小重叠和更大平均观看距离的自然边界。
YouTube 识别出潜在的内容集群后,它会从每个集群中选择两个随机种子视频,以开始本地、深入的内容集群分析。
该算法由内而外地工作,并通过识别两个种子视频之间的最短路径,然后将具有相似关键字的相关相邻视频链接在一起,尝试生成具有明确定义边缘的本地内容集群图。
在最后的过程中,YouTube 会移除相似度得分最低的视频,通常是从集群的边缘移除,以提高清晰度。
有时,YouTube 可能会意识到已识别的内容集群可以进一步划分为额外的子集群。
这种算法内容集群生成方法的好处是它不需要或只需要非常少的人工干预。
该算法不断识别通常只与少数用户相关的新内容组和主题。
所需要的只是一些制作有关新关键字的视频的 YouTube 主播和一群观看他们视频的人。
瞧,一个新的内容集群已经创建。
阅读这篇文章,了解如何将您的 YouTube 内容策略与 YouTube 的内容集群相关联。
而且由于 YouTube 知道每个人的观看历史,它现在可以将这个新的内容集群推荐给与最先观看这些视频的人相似的观众。

YouTube 发现功能
YouTube 主页提要算法
YouTube 的主页多年来发生了很大变化。
YouTube 主页仅显示用户订阅的频道的视频推荐。
主页提要现在 100% 个性化,并根据每个用户的观看历史提供视频推荐。
YouTube 使用基于用户最近观看的熟悉主题的视频和基于相似用户的完全不同类别的新视频的混合,以保持建议的新鲜和令人兴奋。
为什么主页提要不专门关注熟悉的主题? 为什么要冒险“冒犯”我以前从未看过的人的好品味?
这似乎违反直觉,但事实证明,新鲜度是让人们在 YouTube 平台上停留更长时间的关键因素。
人们只能观看这么多关于一个主题的视频,然后才会感到精神疲惫。 新鲜的视频主题给了一条出路,防止无聊的发生。
要在主页提要中出现,您需要提高点击率和观众保留率,因为这将帮助您吸引更多的观众。
YouTube 订阅供稿算法
订阅源非常不言自明。 它专门关注用户已经订阅的频道中的视频。
尽管此提要侧重于您的订阅,但它不是按时间顺序排列的提要。
YouTube 仍在努力向您展示它认为可以让您在平台上停留更长时间的最佳内容。
这是您将在订阅源上看到的内容。
最近从您订阅的频道上传的视频,重点关注与您已经观看过的内容相似的主题,以及在高点击率和高观看时长方面已经有良好记录的视频。

YouTube 推荐视频算法
YouTube 的“建议”供稿算法(还包括“Up Next”视频)是创作者需要考虑的重要因素。
此功能为移动设备上当前视频下方或台式计算机右侧边栏中的建议区域选择视频。
YouTube 正在考虑是否推荐您的某个视频?
第一步是确保您的视频的元数据与您希望被推荐的视频的元数据相匹配。
这包括类似的标题、关键字、描述以及由其字幕表达的视频本身。
如果您的内容能让观众观看而不是离开 YouTube,则更有可能在此处推荐您的内容。
AI 还寻找互补的深度视频和频道,以及观看其他内容的品味破坏者,因此他们永远不会因观看太多关于任何特定主题的视频而不知所措。
味道破坏者不是随机的。 它们仍然基于基于每个用户的观看历史和相似用户的共同观看数据的个人推荐。
YouTube 趋势提要算法
大多数人认为 YouTube 的“趋势”部分只包含当前流行的视频。
这个假设是错误的。
热门话题是人们目前在新闻和社交媒体中谈论的话题。
这完全是关于新闻、社交媒体、网站、博客和其他地方报道的内容。
趋势功能是“特定于地理位置的”,这意味着 YouTube 会根据观看者的位置显示不同的视频。

YouTube 通知提要算法
用户还可以通过 YouTube 通知收到量身定制的视频推荐。
要在通知提要中获取您的视频,用户首先必须订阅您的 YouTube 频道,然后单击铃铛图标。
之后,YouTube 会实时通知订阅者您在频道上上传的任何新视频。
订阅者通过他们的 YouTube 应用或桌面通知接收通知。
通常,视频通知按顺序显示,没有区别,这意味着 YouTube 将显示来自所有频道的所有通知,与订阅者数量无关。
唯一的例外是当用户为太多频道打开太多通知时。 在这种情况下,YouTube 会根据用户接下来最有可能观看的内容来使用其相关性算法。
YouTube 搜索结果算法
YouTube搜索非常重视YouTube SEO,包括标题、描述、视频标签的关键词优化,以及在每个视频的字幕中找到的关键词。
此外,在决定哪个频道将出现在搜索中以及哪些视频将被推送到顶部时,它会考虑频道订阅者数量和视频观看时间。
新鲜度是另一个重要的排名因素,它允许推荐新的和更新的内容,给较小的频道一个机会。
为了利用这一点,新视频必须优化其视频标题和缩略图以获得高点击率; 否则,如果没有人点击,新视频的排名会随着时间的推移而下降。
YouTube 还推出了视频章节,可以将视频“分割成多个部分”,以便观众可以轻松识别特定问题的特定答案。 您可以选择在视频中启用此选项,也可以使用与视频主题一致的关键字创建自己的视频章节。 这有助于帮助 YouTube 在搜索结果中显示您的视频。

下一步
哇,YouTube 算法是一项了不起的技术。
既然您了解了 YouTube 算法如何在幕后工作的各个方面,那么您还能做些什么来快速发展您的(成功的)YouTube 频道?
我建议阅读我的 YouTube 增长战术指南,以帮助您破解 YouTube 算法。
它省略了我们在本文中介绍的 YouTube 算法的许多技术细节,以提供有关如何实施有关 YouTube 算法的关键课程的实用建议和建议。
之后,您可以在下面查看我的一些 YouTube 成长文章。
- 如何通过为您的频道选择正确的内容集群来为您的 YouTube 频道找到完美的利基市场。
- 如何优化您的视频标题,也在这里。
- 如何为获得点击的视频设计令人惊叹的缩略图。
- 如何提高您在 YouTube 上的展示点击率。
- 如何吸引您的前 1000 个 YouTube 订阅者。
- 如何快速建立 4000 小时的观看时间以通过您的 YouTube 频道获利。
- 您如何通过您的 YouTube 频道赚钱,也在这里、这里和这里。
- 最后但并非最不重要的一点是,我对最佳 YouTube 增长工具 TubeBuddy 的全面回顾。
