世界杯决赛推特数据分析 – PromptCloud

已发表: 2018-07-27
目录显示
热门标签
热门语言
顶级 Twitter 句柄
字符长度分布
热门推文
交给你

最近,世界开始从以法国成为赢家而告终的国际足联世界杯足球热中恢复过来。 在进一步讨论之前,让我们先了解一下背景——最后一场比赛由法国和克罗地亚争夺,于 2018 年 7 月 15 日下午 3 点(格林威治标准时间)在俄罗斯莫斯科的卢日尼基体育场举行。 法国以4-2获胜,其中包括克罗地亚的一个点球和乌龙球。

就像任何其他社交媒体一样,推特也充斥着球迷和观众,随着比赛的进行,他们不断地在推特上发布有关比赛的信息。 该活动的热门话题标签是#WordCupFinal 。 本研究将重点关注在格林威治标准时间下午 3 点至格林威治标准时间晚上 7.30 多点之间针对上述主题标签提取的推文。 最终数据集包含超过 200,000 条原始推文(不包括转发)。 我们的推特数据分析将回答以下问题:

1. 比赛期间使用的热门话题标签是什么?
2. 就推文数量而言,哪些是顶级语言?
3. 哪些推特手柄被提及最​​多?
4. 大多数推文的字符长度是多少?
5. 在转发和点赞方面,有哪些热门推文?

请注意,本研究不包括文本挖掘技术; 但是,可以使用 Taylor Swift 的歌词数据可视化帖子中已经描述的方法来应用它们。

 [call_to_action title="免费下载数据集" icon="icon-download" link="https://app.promptcloud.com/users/sign_up?target=data_stocks&itm_source=website&itm_medium=blog&itm_campaign=dataviz&itm_term=fifa-tweets&itm_content= data-mining" button_title="" class="" target="_blank" animate=""]通过 CrawlBoard 注册 DataStock 并点击“免费”类别下载数据集![/call_to_action]

如果您想复制本文中给出的代码或对数据进行试验,请随意下载 Twitter 数据集。

热门标签

让我们首先加载所需的包并移动到“hashtags”列进行分析。

[代码语言=“r”]

#标签的频率
库(“dplyr”)
库(“ggplot2”)
图书馆(“magrittr”)
图书馆(“规模”)
库(“ggrepel”)

fifa_tweets <- read.csv(file.choose())

# 可选配置以显示更大的数字而无需科学计数法
选项(数字=22)

# 从列表格式中获取主题标签
fifa_hashtags <- unlist(strsplit(as.character
(unlist(fifa_tweets$hashtags)),
'^c\(|,|"|\)'))

# 通过删除空格进行格式化
主题标签 <- sapply(fifa_hashtags, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# 转换为数据框
hashtag_df <- as_data_frame(table(tolower(fifa_hashtags[hashtags])))
hashtag_df <- hashtag_df[with(hashtag_df,order(-n)),]
hashtag_df <- hashtag_df[2:11,]

ggplot(hashtag_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat=“身份”,填充=“#00D4C9”)+
坐标翻转() +
主题最小()+
xlab(“#Hashtags”) + ylab(“计数”) +
ggtitle("FIFA 世界杯决赛期间使用的热门话题标签,不包括#WorldCupFinal") +
主题最小()

[/代码]

下图显示除了#WordCupFinal 之外的其他流行主题标签是#fracro、#fra、#worldcup 和#cro。 可以肯定的是,法国的嗡嗡声不仅仅是克罗地亚,特别是因为他们赢得了比赛。

国际足联世界杯主题标签

热门语言

现在让我们看看发布推文的语言。

[代码语言=“r”]

lang_df &lt;- count(fifa_tweets,lang) %&gt;%
排列(desc(n)) %&gt;%
切片(1:15)

ggplot(data=lang_df, aes(x = reorder(lang, n), y=n)) +
geom_bar(stat = 'identity', fill="#00D4C9") +
坐标翻转() +
xlab(“语言”) + ylab(“计数”) +
ggtitle(“FIFA世界杯决赛推文中使用的顶级语言”) +
主题最小()

[/代码]

除英语外,其他流行语言还有葡萄牙语、西班牙语、法语和土耳其语。 请注意,“und”代表未定义。

推特语言-FIFA-世界杯

顶级 Twitter 句柄

现在,让我们找出在各种推文中提到的流行推特用户。

[代码语言=“r”]
# 从列表格式中获取提及
提及_split &lt;- unlist(strsplit(as.character
(unlist(fifa_tweets$mentions_screen_name)),
'^c\(|,|"|\)'))

# 通过删除空格进行格式化
提到 &lt;- sapply(mentions_split, function(y) nchar(trimws(y)) &gt; 0 &amp; !is.na(y))

# 转换为数据框
提及_df &lt;- as_data_frame(table(tolower(mentions_split[mentions])))
提及_df &lt;-提及_df[with(mentions_df,order(-n)),]
提及_df &lt;-提及_df[1:10,]

ggplot(mentions_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat=“身份”,填充=“#00D4C9”)+
主题最小()+
坐标翻转() +
xlab(“推特句柄”) + ylab(“计数”) +
ggtitle(“在 FIFA 世界杯决赛中提到的顶级 Twitter 句柄”) +
主题最小()
[/代码]

这表明韩国乐队 BTS 由于他们在决赛中的歌曲而获得了超过 2500 次提及。 保罗·博格巴(法国)、基利安·姆巴佩(法国)、卢卡·莫德里奇(克罗地亚)、安托万·格里兹曼(Antoine Griezmann)等球员位列前十名。 请注意,Kylian Mbappe 成为自贝利以来最年轻的世界杯决赛进球者。

最受关注的推特处理国际足联

字符长度分布

推文中最常见的字符长度范围是多少? 让我们来了解一下!

[代码语言=“r”]
ggplot(fifa_tweets) + aes(x=display_text_width,y = ..count../sum(..count..)) +
geom_density(stat='bin', binwidth=15, alpha = .4, fill = "#1ed7d1") +
scale_y_continuous(labels = percent,name = "Percentage") +
scale_x_continuous(breaks = scales::pretty_breaks(n = 20),name = "字符长度") +
ggtitle("世界杯决赛期间推文字符长度分布") +
主题最小()
[/代码]

该图表显示,大多数推文的长度为 45-60 个字符。 请注意,平均长度为 99。

推文长度分布

热门推文

现在我们将找出用户发布的一些最受欢迎的推文。

[代码语言=“r”]
ggplot(fifa_tweets, aes(x=favorite_count, y=retweet_count)) +
geom_text_repel(数据 = fifa_tweets[fifa_tweets$favorite_count > 5000 | fifa_tweets$retweet_count > 2000,],
aes(标签=名称),
box.padding = unit(0.45, "lines")) +
geom_point(color = "#00D4C9") +
xlab(“收藏次数”) + ylab(“转推次数”) +
ggtitle(“FIFA 世界杯决赛期间发布的热门推文”) +
主题最小()+
主题(plot.margin=unit(c(.2,.5,.2,.2),“cm”))
[/代码]

这表明,在收藏和转发方面,欧洲冠军联赛、张艺谋、FIFA世界杯和被认为是有史以来最伟大的足球运动员贝利发布的推文排名靠前。

最受欢迎的推文

让我们看看贝利发布的推文:

交给你

我们对 Twitter 数据集进行了探索性数据分析,以找出最常用的主题标签、流行的推文、推文的字符长度以及语言和最常被提及的 Twitter 帐户。现在,您可以下载数据集并执行您的分析——文本挖掘技术可以应用于 n-gram、词云、情感分析等的推文文本。


下载数据集