您的网络爬虫指南 Quora Q&As

已发表: 2022-02-17
目录显示
Quora 抓取的用例
如何抓取 Quora 问答
了解输出
从 Quora 中抓取内容的限制
总之

Quora 等问答网站是全球数字公民的在线社交中心,用于提问、回答和讨论最突出的问题、疑问和话题。 从这些在线问答平台中提取大规模数据对营销人员和数据科学家都很有用,因为它不仅是一个多语言问答网站,而且本身也是一个拥有许多利基影响者的社交网络。 让我们详细了解如何抓取 Quora。

Quora 抓取的用例

为了强调为什么抓取 Quora 对营销人员和企业感兴趣,让我们快速浏览一下Quora 的 4 个重要统计数据

  • Quora 拥有 3 亿月活跃用户。
  • 用户平均每天在 Quora 上花费 4 分钟以上。
  • 从流量来看,它是全球第 80 位最受欢迎的网站。
  • Google 搜索显示 Quora[dot]com 的搜索结果多达 6500 万条。

#1:情绪分析

您可以抓取与政治、品牌、股市等相关的问题来进行情绪分析。

#2:自然语言处理和机器学习

Quora 上的大多数用户都是真实用户,他们在平台上用日常用语提问和回答。 这对于训练 ML 模型和自然语言处理 (NLP) 可能非常有用。

#3:智能网红营销

Quora 允许您投放广告,但您也可以针对特定利基市场的影响者来推广您的品牌。 从特定的利基市场收集问题、用户资料等将使您能够与有权推广您的品牌的合适的影响者合作。

#4:潜在客户生成和内容营销

用户提出的问题可以帮助您确定他们是否是您的目标线索。 例如,如果您是一家 IT 服务公司,那么人们会提出诸如“开发电子商务网站需要多少成本?”之类的问题。 是你的潜在线索。 从 Quora 问答中获得的见解也可以成为您实现出色内容营销策略的门户。

如何抓取 Quora 问答

我们将使用 Python3.7 和 BeautifulSoup 库来抓取 Quora 数据并将其保存在 JSON 文件中。 使用此代码,您将能够轻松地抓取和提取 Quora 答案和问题。 您唯一需要的另一件事是一个体面的文本编辑器。 我们使用了 PyCharm,它是一个成熟的 IDE,但您也可以使用 Atom,因为它带有多个插件并且更轻量级。 希望这可以帮助您详细了解如何抓取 Quora。

因此,从代码开始,我们首先导入我们需要的库,包括内部和外部。 完成后,我们需要确保将 SSL 证书的验证模式设置为“CERT_NONE”,并将主机名检查为 False,以避免在开始抓取数据时出现 SSL 证书错误。 一旦完成,我们的设置就完成了,我们可以接受用户的问题。 对于此演示,我们在询问此问题时提供了以下值。

知乎

我们使用这个问题创建 Quora URL。 这种字符串操作是必需的,因为 Quora 以这种方式格式化它的 URL。

一旦我们创建了 URL,我们使用 urllib 的内置请求函数来访问网页,并确保我们在标题中添加了 Firefox,这样网站就无法跟踪我们正在从一段代码访问它。 这部分很重要,因为大多数网站都会阻止爬虫,并且如果您错过了标题。 您的 IP 可能会被阻止,并且可能会针对您发起进一步的行动。

抓取内容

刮Quora

在我们获得 HTML 格式的网页并将其存储在一个变量中之后。 我们需要将其转换为 BeautifulSoup 对象,以便更容易解析和提取数据。 然后从页面上的第一个“title”标签中提取网页上的问题。 我们需要从中删除“- Quora”,因为所有标题都带有以下字符串。 抓取答案稍微复杂一些。 您需要提取存储在类型为“script”的元素中的 JSON,其中“type”的值为“application/ld+json”。 获得此 JSON 后,您将找到一个包含多个字段的答案列表。 虽然每个答案都没有给出几个字段。 我们提取了最重要的:

  • 写下答案的日期
  • 答案本身
  • 它收到的赞成票数

数据提取完成后,我们可以将其附加到答案列表中,并将最终列表保存在 JSON 文件中。

了解输出

下面给出的 JSON 文件包含一些答案,这些答案是我们在运行带有上一节中提到的问题的代码时从 HTML 页面中抓取的。 如您所见,JSON 有两个字段,问题和答案。 每个答案都包含我们前面提到的三个参数。 虽然针对这个特定问题的答案数量很多。 我们在下面只展示了其中的几个。 随意运行代码并检查此问题或任何其他问题的所有答案。

内容

从 Quora 中抓取内容的限制

虽然这看起来像是在 Quora 上找到任何问题的答案的完美解决方案。 与其他所有 DIY 代码一样,它也有多重限制。 一个重要的方面是,并非您输入的每个问题都会出现在 Quora 中。 每次键入不存在的问题时,您的代码都会中断。 同时,您可能需要多次键入您的问题以查找存在的版本。 更好的实现是找到与您输入的最接近的问题相匹配的问题。

要考虑的另一个方面与抓取 Quora 数据的疑虑以及您选择使用它的方式有关。 您需要确保通过 robots.txt 文件并抓取数据,并相应地使用它。 此代码的任何商业用途都可能导致您遇到法律问题。 并且将收集的数据用于研究目的以外的任何其他目的也可能会导致问题。

总之

社交媒体是用户生成数据的金矿。 抓取 Quora 问答就像获取客户的痛点、受众的喜欢/不喜欢/兴趣。 使用智能抓取工具可以消除与抓取 Quora 数据相关的所有痛苦。 提取数据后,您可以运行神经网络驱动的 ML 算法并获得关键业务洞察力。