Analiza datelor Twitter pentru finala Cupei Mondiale FIFA – PromptCloud

Publicat: 2018-07-27
Cuprins arată
Top hashtag-uri
Limbi de top
Top mânere Twitter
Distribuția lungimii caracterelor
Tweeturi populare
Este randul tau

Recent, lumea a început să se recupereze din febra fotbalului din Cupa Mondială FIFA, care s-a încheiat cu Franța ieșind drept câștigătoare. Înainte de a trece mai departe, să verificăm contextul — meciul final a fost disputat de Franța și Croația și s-a jucat pe Stadionul Luzhniki din Moscova, Rusia, pe 15 iulie 2018, la 15:00 (fus orar GMT). Franța a câștigat meciul cu 4-2, care a inclus un penalty și autogol de la Croația.

La fel ca orice altă rețea de socializare, Twitter a fost, de asemenea, agitat, cu fani și spectatori care au scris în mod constant pe Twitter despre meci pe măsură ce a progresat. Hashtag-ul în tendințe pentru eveniment a fost #WordCupFinal . Acest studiu se va concentra pe tweet-urile extrase între 15:00 GMT și puțin peste 7:30 pm GMT pentru hashtag-ul menționat mai sus. Setul de date final cuprinde peste 200.000 de tweet-uri originale (nu include retweeturile). Analiza noastră de date pe Twitter va răspunde la următoarele întrebări:

1. Care au fost hashtag-urile de top folosite în timpul meciului?
2. Care au fost limbile de top în ceea ce privește numărul de tweet-uri?
3. Care mânere de Twitter au fost menționate cel mai mult?
4. Care a fost lungimea caracterelor pentru majoritatea tweet-urilor?
5. Care au fost câteva tweet-uri populare în ceea ce privește retweet-urile și aprecierile?

Rețineți că acest studiu nu acoperă tehnicile de extragere a textului; cu toate acestea, ele pot fi aplicate folosind metodele deja descrise în postarea de vizualizare a datelor din versurile cântecelor lui Taylor Swift.

 [call_to_action title="Descărcați setul de date gratuit" icon="icon-download" link="https://app.promptcloud.com/users/sign_up?target=data_stocks&itm_source=website&itm_medium=blog&itm_campaign=dataviz&itm_term=fifa-tweets=&itm_content data-mining" button_title="" class="" target="_blank" animate=""]Înscrieți-vă la DataStock prin CrawlBoard și faceți clic pe categoria „gratuit” pentru a descărca setul de date![/call_to_action]

Simțiți-vă liber să descărcați setul de date Twitter, dacă doriți să reproduceți codul dat în această postare sau să experimentați cu datele.

Top hashtag-uri

Să încărcăm mai întâi pachetele necesare și să trecem la coloana `hashtags` pentru analiză.

[limba codului=”r”]

# Frecvența hashtag-urilor
bibliotecă("dplyr")
bibliotecă("ggplot2")
bibliotecă("magrittr")
bibliotecă("scale")
bibliotecă("ggrepel")

fifa_tweets <- read.csv(file.choose())

# Configurație opțională pentru a afișa numere mai mari fără notație științifică
opțiuni (cifre=22)

# Obținerea hashtag-urilor din formatul listei
fifa_hashtags <- unlist(strsplit(as.character
(unlist(fifa_tweets$hashtags)),
„^c\(|,|"|\)'))

# Formatarea prin eliminarea spațiilor albe
hashtag-uri <- sapply(fifa_hashtags, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Convertirea în cadru de date
hashtag_df <- as_data_frame(table(tolower(fifa_hashtags[hashtags])))
hashtag_df <- hashtag_df[cu(hashtag_df,ordine(-n)),]
hashtag_df <- hashtag_df[2:11,]

ggplot(hashtag_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat="identitate", umplere="#00D4C9")+
coord_flip() +
theme_minimal() +
xlab("#Hashtags") + ylab("Număr") +
ggtitle("Cele mai bune hashtag-uri folosite în finala Cupei Mondiale FIFA, excluzând #WorldCupFinal") +
theme_minimal()

[/cod]

Următorul grafic arată că alte hashtag-uri populare în afară de #WordCupFinal sunt #fracro, #fra, #worldcup și #cro. Cert este că zumzetul pentru Franța a fost mai mult decât Croația, mai ales că au câștigat meciul.

Hashtag-uri pentru Cupa Mondială FIFA

Limbi de top

Să verificăm acum limbile în care au fost postate tweet-urile.

[limba codului=”r”]

lang_df <- count(fifa_tweets,lang) %>%
aranja (desc(n)) %>%
felie (1:15)

ggplot(data=lang_df, aes(x = reorder(lang, n), y=n)) +
geom_bar(stat = 'identitate', fill="#00D4C9") +
coord_flip() +
xlab("Limbi") + ylab("Număr") +
ggtitle("Limbi de top folosite în tweet-uri pentru finala Cupei Mondiale FIFA") +
theme_minimal()

[/cod]

În afară de engleză, alte limbi populare au fost portugheza, spaniola, franceza și turca. Rețineți că „und” înseamnă nedefinit.

Tweet-limba-FIFA-world-cup

Top mânere Twitter

Acum, să aflăm utilizatorii populari de Twitter care au fost menționați în diferite tweet-uri.

[limba codului=”r”]
# Obținerea mențiunilor din formatul listei
mentions_split <- unlist(strsplit(as.character
(unlist(fifa_tweets$mentions_screen_name)),
„^c\(|,|"|\)'))

# Formatarea prin eliminarea spațiilor albe
menționează <- sapply(mentions_split, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Convertirea în cadru de date
mentions_df <- as_data_frame(tabel(în jos(mentions_split[mentions])))
mențiuni_df <- mentions_df[cu(mentiuni_df,ordine(-n)),]
mentions_df <- mentions_df[1:10,]

ggplot(mentions_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat="identitate", umplere="#00D4C9")+
theme_minimal() +
coord_flip() +
xlab("Manere Twitter") + ylab("Număr") +
ggtitle("Top mânere Twitter menționate în timpul finalei Cupei Mondiale FIFA") +
theme_minimal()
[/cod]

Acest lucru arată că trupa coreeană BTS a obținut peste 2500 de mențiuni datorită cântecului lor pentru meciul final. Iar jucători precum Paul Pogba (francez), Kylian Mbappe (francez), Luka Modric (croat), Antoine Griezmann (Antoine Griezmann) s-au numărat printre primii 10 utilizatori menționați. Rețineți că Kylian Mbappe a devenit cel mai tânăr de la Pele care a marcat în finala Cupei Mondiale.

Cel mai menționat Twitter se ocupă de FIFA

Distribuția lungimii caracterelor

Care a fost intervalul cel mai comun pentru lungimea caracterelor din tweet-uri? Să aflăm!

[limba codului=”r”]
ggplot(fifa_tweets) + aes(x=display_text_width,y = ..count../sum(..count..)) +
geom_density(stat='bin', binwidth=15, alpha = .4, fill = "#1ed7d1") +
scale_y_continuous(etichete = procent, nume = „Procent”) +
scale_x_continuous(breaks = scales::pretty_breaks(n = 20),name = "Lungimea caracterului") +
ggtitle("Distribuirea lungimii caracterelor tweet-urilor în timpul finalei Cupei Mondiale FIFA") +
theme_minimal()
[/cod]

Graficul arată că majoritatea tweet-urilor au o lungime de 45-60 de caractere. Rețineți că lungimea medie este de 99.

distribuția lungimii tweetului

Tweeturi populare

Acum am afla câteva dintre cele mai populare tweet-uri postate de utilizatori.

[limba codului=”r”]
ggplot(fifa_tweets, aes(x=favorite_count, y=retweet_count)) +
geom_text_repel(data = fifa_tweets[fifa_tweets$favorite_count > 5000 | fifa_tweets$retweet_count > 2000,],
aes(etichetă = nume),
box.padding = unit(0,45, "linii")) +
geom_point(culoare = "#00D4C9") +
xlab ("Numărul de favorite") + ylab("Numărul de retweet") +
ggtitle("Tweet-uri de top postate în timpul finalei Cupei Mondiale FIFA") +
theme_minimal() +
theme(plot.margin=unit(c(.2,.5,.2,.2),"cm"))
[/cod]

Acest lucru arată că cele mai bune tweet-uri în ceea ce privește favoritele și retweeturile au fost postate de UEFA Champions League, Lay Zhang, FIFA World Cup și Pele, care este considerat cel mai mare fotbalist al tuturor timpurilor.

Cele mai populare tweet-uri

Să vedem tweet-ul postat de Pele:

Este randul tau

Am efectuat o analiză exploratorie a datelor pe setul de date Twitter pentru a afla cele mai utilizate hashtag-uri, tweet-uri populare, lungimea caracterelor tweet-urilor împreună cu limba și cel mai menționat cont de Twitter. Acum, este timpul să descărcați setul de date și să efectuați analiză — tehnicile de extragere a textului pot fi aplicate pe textul tweet pentru n-grame, nor de cuvinte, analiză de sentiment și multe altele.


descărcați setul de date