世界杯決賽推特數據分析 – PromptCloud
已發表: 2018-07-27最近,世界開始從以法國成為贏家而告終的國際足聯世界杯足球熱中恢復過來。 在進一步討論之前,讓我們先了解一下背景——最後一場比賽由法國和克羅地亞爭奪,於 2018 年 7 月 15 日下午 3 點(格林威治標準時間)在俄羅斯莫斯科的盧日尼基體育場舉行。 法國以4-2獲勝,其中包括克羅地亞的一個點球和烏龍球。
就像任何其他社交媒體一樣,推特也充斥著球迷和觀眾,隨著比賽的進行,他們不斷地在推特上發布有關比賽的信息。 該活動的熱門話題標籤是#WordCupFinal 。 本研究將重點關注在格林威治標準時間下午 3 點至格林威治標準時間晚上 7.30 多點之間針對上述主題標籤提取的推文。 最終數據集包含超過 200,000 條原始推文(不包括轉發)。 我們的推特數據分析將回答以下問題:
1. 比賽期間使用的熱門話題標籤是什麼?
2. 就推文數量而言,哪些是頂級語言?
3. 哪些推特手柄被提及最多?
4. 大多數推文的字符長度是多少?
5. 在轉發和點贊方面,有哪些熱門推文?
請注意,本研究不包括文本挖掘技術; 但是,可以使用 Taylor Swift 的歌詞數據可視化帖子中已經描述的方法來應用它們。
[call_to_action title="免費下載數據集" icon="icon-download" link="https://app.promptcloud.com/users/sign_up?target=data_stocks&itm_source=website&itm_medium=blog&itm_campaign=dataviz&itm_term=fifa-tweets&itm_content= data-mining" button_title="" class="" target="_blank" animate=""]通過 CrawlBoard 註冊 DataStock 並點擊“免費”類別下載數據集![/call_to_action]
如果您想複製本文中給出的代碼或對數據進行試驗,請隨意下載 Twitter 數據集。
熱門標籤
讓我們首先加載所需的包並移動到“hashtags”列進行分析。
[代碼語言=“r”]
#標籤的頻率
庫(“dplyr”)
庫(“ggplot2”)
圖書館(“magrittr”)
圖書館(“規模”)
庫(“ggrepel”)
fifa_tweets <- read.csv(file.choose())
# 可選配置以顯示更大的數字而無需科學計數法
選項(數字=22)
# 從列表格式中獲取主題標籤
fifa_hashtags <- unlist(strsplit(as.character
(unlist(fifa_tweets$hashtags)),
'^c\(|,|"|\)'))
# 通過刪除空格進行格式化
主題標籤 <- sapply(fifa_hashtags, function(y) nchar(trimws(y)) > 0 & !is.na(y))
# 轉換為數據框
hashtag_df <- as_data_frame(table(tolower(fifa_hashtags[hashtags])))
hashtag_df <- hashtag_df[with(hashtag_df,order(-n)),]
hashtag_df <- hashtag_df[2:11,]
ggplot(hashtag_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat=“身份”,填充=“#00D4C9”)+
坐標翻轉() +
主題最小()+
xlab(“#Hashtags”) + ylab(“計數”) +
ggtitle("FIFA 世界杯決賽期間使用的熱門話題標籤,不包括#WorldCupFinal") +
主題最小()
[/代碼]
下圖顯示除了#WordCupFinal 之外的其他流行主題標籤是#fracro、#fra、#worldcup 和#cro。 可以肯定的是,法國的嗡嗡聲不僅僅是克羅地亞,特別是因為他們贏得了比賽。

熱門語言
現在讓我們看看發布推文的語言。
[代碼語言=“r”]
lang_df <- count(fifa_tweets,lang) %>%
排列(desc(n)) %>%
切片(1:15)
ggplot(data=lang_df, aes(x = reorder(lang, n), y=n)) +
geom_bar(stat = 'identity', fill="#00D4C9") +
坐標翻轉() +
xlab(“語言”) + ylab(“計數”) +
ggtitle(“FIFA世界杯決賽推文中使用的頂級語言”) +
主題最小()

[/代碼]
除英語外,其他流行語言還有葡萄牙語、西班牙語、法語和土耳其語。 請注意,“und”代表未定義。

頂級 Twitter 句柄
現在,讓我們找出在各種推文中提到的流行推特用戶。
[代碼語言=“r”]
# 從列表格式中獲取提及
提及_split <- unlist(strsplit(as.character
(unlist(fifa_tweets$mentions_screen_name)),
'^c\(|,|"|\)'))
# 通過刪除空格進行格式化
提到 <- sapply(mentions_split, function(y) nchar(trimws(y)) > 0 & !is.na(y))
# 轉換為數據框
提及_df <- as_data_frame(table(tolower(mentions_split[mentions])))
提及_df <-提及_df[with(mentions_df,order(-n)),]
提及_df <-提及_df[1:10,]
ggplot(mentions_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat=“身份”,填充=“#00D4C9”)+
主題最小()+
坐標翻轉() +
xlab(“推特句柄”) + ylab(“計數”) +
ggtitle(“在 FIFA 世界杯決賽中提到的頂級 Twitter 句柄”) +
主題最小()
[/代碼]
這表明韓國樂隊 BTS 由於他們在決賽中的歌曲而獲得了超過 2500 次提及。 保羅·博格巴(法國)、基利安·姆巴佩(法國)、盧卡·莫德里奇(克羅地亞)、安托萬·格里茲曼(Antoine Griezmann)等球員位列前十名。 請注意,Kylian Mbappe 成為自貝利以來最年輕的世界杯決賽進球者。

字符長度分佈
推文中最常見的字符長度範圍是多少? 讓我們來了解一下!
[代碼語言=“r”]
ggplot(fifa_tweets) + aes(x=display_text_width,y = ..count../sum(..count..)) +
geom_density(stat='bin', binwidth=15, alpha = .4, fill = "#1ed7d1") +
scale_y_continuous(labels = percent,name = "Percentage") +
scale_x_continuous(breaks = scales::pretty_breaks(n = 20),name = "字符長度") +
ggtitle("世界杯決賽期間推文字符長度分佈") +
主題最小()
[/代碼]
該圖表顯示,大多數推文的長度為 45-60 個字符。 請注意,平均長度為 99。

熱門推文
現在我們將找出用戶發布的一些最受歡迎的推文。
[代碼語言=“r”]
ggplot(fifa_tweets, aes(x=favorite_count, y=retweet_count)) +
geom_text_repel(數據 = fifa_tweets[fifa_tweets$favorite_count > 5000 | fifa_tweets$retweet_count > 2000,],
aes(標籤=名稱),
box.padding = unit(0.45, "lines")) +
geom_point(color = "#00D4C9") +
xlab(“收藏次數”) + ylab(“轉推次數”) +
ggtitle(“FIFA 世界杯決賽期間發布的熱門推文”) +
主題最小()+
主題(plot.margin=unit(c(.2,.5,.2,.2),“cm”))
[/代碼]
這表明,在收藏和轉發方面,歐洲冠軍聯賽、張藝謀、FIFA世界杯和被認為是有史以來最偉大的足球運動員貝利發布的推文排名靠前。

讓我們看看貝利發布的推文:
如果 Kylian 繼續像這樣追平我的記錄,我可能不得不再次擦掉我的靴子…… // Se o @KMbappe continuar a igualar os meus records assim, eu vou ter que tirar a poeira das minhas chuteiras novamente ...#WorldCupFinal https:// t.co/GYWfMxPn7p
- 貝利 (@Pele) 2018 年 7 月 15 日
交給你
我們對 Twitter 數據集進行了探索性數據分析,以找出最常用的主題標籤、流行的推文、推文的字符長度以及語言和最常被提及的 Twitter 帳戶。現在,您可以下載數據集並執行您的分析——文本挖掘技術可以應用於 n-gram、詞云、情感分析等的推文文本。

