内容发现平台如何通过网络抓取和人工智能打击假新闻

已发表: 2017-06-20

目录显示

问题有多大？

人工智能可以提供帮助吗？

网页抓取的作用

添加手动图层

人们不得不依靠传统媒体获取新闻的日子已经一去不复返了；现在，互联网上的大量在线媒体对他们进行了新闻轰炸。如此之多，以至于对于时间有限的普通人来说，这是一种信息过载，无法赶上新闻和故事。社交媒体现在充当新闻的媒介，它甚至可以通过自定义提要来适应用户的阅读习惯，从而为用户带来更好的体验。然而，社交媒体和网络出版的这种大规模扩散也有其自身的缺点。

假新闻数据网页抓取

易于使用的内容管理系统（如 WordPress）的广泛使用使任何人都更容易成为网络发布者。这意味着，从字面上看，任何人都可以编写和发布任何内容——无需提出任何问题。确实，这为内容发布网络和博主开辟了广泛的可能性。然而，与所有强大的事物一样，出版技术的现成可用性正被一大群人滥用以传播具有可怕动机的假新闻。假新闻比表面上看起来的问题更大。它有可能对社会造成严重破坏，甚至对企业和其他机构产生负面影响。

问题有多大？

据说，在最近的美国总统大选中，假新闻的泛滥使天平有利于唐纳德·特朗普。不管这些指控的真相如何，假新闻无疑会以一种不健康的方式影响大众舆论。假新闻的传播会造成社会不信任，这是一种缓慢的毒药，可以成为许多其他社会弊端的根源。例如，假新闻可能会助长社区暴力，并在人们的生活中营造令人不安的氛围。

某些主题很容易被物化为假新闻；滥用权力、害怕疏远、战争与和平问题等很容易像野火一样蔓延开来，造成无法弥补的损失。

有一些企业通过散布有关该公司的虚假谣言以确保受影响的公司会失去客户来进行诽谤活动以使竞争对手失望。

就在最近，一名叙利亚难民在社交网络上传播将他与恐怖主义联系起来的虚假新闻报道后起诉 Facebook 。 Facebook后来撤下了这些帖子，但损害已经造成。

如果此类问题不断发生，内容发现平台和社交媒体网站本身可能会面临诉讼的危险。这也会影响此类新闻传播的内容发现平台的声誉，从而导致用户参与度下降。鉴于所有这些影响，假新闻是一个需要被扼杀在萌芽状态的巨大问题。

人工智能可以提供帮助吗？

毫无疑问，检测和打击假新闻是一项具有挑战性的工作。雇用人类检查在内容发现平台上共享的每个帖子以评估其真实性肯定不是一个可行的解决方案。令人高兴的是，我们不再生活在一个人类需要努力工作的时代。

与曾经的科幻概念相比，人工智能已经有了很长的路要走。我们现在拥有强大的语音、图像和模式识别算法以及运行它们的计算能力。

考虑到这个问题的深度，使用人工智能和机器学习来打击假新闻将是一种方法。为了使机器能够检测假新闻，我们首先必须识别假新闻帖子的共同特征。让我们看看如何实现这一点。

网站声誉

网站的声誉是可用于评估在其上发表的文章的真实性的关键指标之一。搜索引擎巨头谷歌在其 SERP 上的网页排名方面做得很好。虽然我们无法使用 Google 的专有算法来检测假新闻，但我们可以使用许多其他网站的排名信号，例如 DA、Alexa 排名和域年龄，在我们自己的假新闻检测系统中对网页进行排名。具有较高 Alexa 排名的旧网站更有可能是受信任的来源，而反之则可能表明网站较浅。

自然语言处理

自然语言处理，最简单的定义是机器真正理解人类语言并以与人类相同的方式处理它的能力。 NLP 引擎是通过向机器学习算法提供文本语料库来构建的。要真正检测假新闻，机器必须能够像我们一样解释人类语言。当涉及到假新闻检测时， NLP引擎必须输入大量的文本数据，这些文本数据既属于真文章，也属于假文章。从那里，假新闻代码可以被破解，这将使机器能够以相当的准确度检测假新闻。以下是算法可以用来发现假新闻帖子的两件事。

a)内部一致性

虚假或误导性文章通常在帖子本身的不同部分之间存在很大的不一致；比如标题、正文、片段等。NLP 系统可用于扫描和评估文章中表示的事实是否贯穿始终或相互冲突。

b)寻找耸人听闻的词语

过于耸人听闻的文章往往是假的。自然语言处理系统可用于根据新闻文章中耸人听闻的词的使用来定义文章的耸人听闻的方面。

网页抓取的作用

可以检测假新闻的人工智能引擎显然需要大量数据，这些数据将用于机器学习算法的训练。考虑到有先进的技术可用于高效的网络抓取，从网络中提取数据应该不是问题。但是，由于检测假新闻本身就是一项挑战，因此建议使用像PromptCloud这样的数据即服务 (DaaS) 解决方案从媒体渠道（真假）获取数据。由于我们对数据提取过程负有端到端的责任，因此您可以跳过与网络抓取相关的复杂性，并以比内部抓取低得多的成本获得现成的数据。

添加手动图层

当机器识别线索并标记它认为是假的帖子时，可以使用一个小的人工层来验证发现。既然人工智能系统已经完成了所有繁重的工作，这将很容易。有了手动层，系统将足够强大，可以非常准确地检测假新闻。对于内容发现平台和社交媒体网站，随着时间的推移，能够清除假新闻对于保持用户的参与度以及用户对在此类平台上传播的新闻失去信任至关重要。人工智能和网络数据提取在这方面的潜力是巨大的，应该尽早用来对抗这种邪恶。