Analisi dei dati di Twitter per la finale della Coppa del Mondo FIFA - PromptCloud

Pubblicato: 2018-07-27
Mostra il sommario
I migliori hashtag
Le migliori lingue
Le migliori maniglie di Twitter
Distribuzione della lunghezza dei caratteri
Tweet popolari
A voi

Di recente il mondo ha iniziato a riprendersi dalla febbre calcistica della Coppa del Mondo FIFA che si è conclusa con la Francia che è risultata vincitrice. Prima di andare oltre, diamo un'occhiata al contesto: la partita finale è stata disputata da Francia e Croazia e si è giocata allo stadio Luzhniki di Mosca, in Russia, il 15 luglio 2018 alle 15:00 (fuso orario GMT). La Francia ha vinto la partita 4-2, che includeva un rigore e un autogol della Croazia.

Proprio come qualsiasi altro social media, anche Twitter era in fermento con fan e spettatori che twittavano costantemente sulla partita mentre procedeva. L'hashtag di tendenza per l'evento è stato #WordCupFinal . Questo studio si concentrerà sui tweet estratti tra le 15:00 GMT e poco più delle 19:30 GMT per l'hashtag sopra menzionato. Il set di dati finale comprende più di 200.000 tweet originali (non include i retweet). La nostra analisi dei dati su Twitter risponderà alle seguenti domande:

1. Quali sono stati i principali hashtag utilizzati durante la partita?
2. Quali erano le lingue migliori in termini di conteggio dei tweet?
3. Quali handle di Twitter sono stati citati di più?
4. Qual era la lunghezza del carattere per la maggior parte dei tweet?
5. Quali sono stati alcuni tweet popolari in termini di retweet e Mi piace?

Si noti che questo studio non copre le tecniche di text mining; tuttavia, possono essere applicati utilizzando i metodi già descritti nel post sulla visualizzazione dei dati dei testi delle canzoni di Taylor Swift.

 [call_to_action title="Scarica il set di dati gratuitamente" icon="icon-download" link="https://app.promptcloud.com/users/sign_up?target=data_stocks&itm_source=website&itm_medium=blog&itm_campaign=dataviz&itm_term=fifa-tweets&itm_content= data-mining" button_title="" class="" target="_blank" animate=""]Iscriviti a DataStock tramite CrawlBoard e clicca sulla categoria 'gratuito' per scaricare il set di dati![/call_to_action]

Sentiti libero di scaricare il set di dati di Twitter, se desideri replicare il codice fornito in questo post o sperimentare con i dati.

I migliori hashtag

Per prima cosa carichiamo i pacchetti richiesti e ci spostiamo nella colonna `hashtag` per l'analisi.

[lingua del codice =”r”]

# Frequenza degli hashtag
libreria("dplyr")
libreria("ggplot2")
libreria("magrittr")
libreria("bilance")
libreria("ggrepel")

fifa_tweets <- read.csv(file.choose())

# Configurazione opzionale per mostrare numeri più grandi senza notazione scientifica
opzioni(cifre=22)

# Ottenere gli hashtag dal formato elenco
fifa_hashtags <- unlist(strsplit(as.character
(unlist(fifa_tweets$hashtags)),
'^c\(|,|"|\)'))

# Formattazione rimuovendo gli spazi bianchi
hashtag <- sapply(fifa_hashtags, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Conversione in frame di dati
hashtag_df <- as_data_frame(table(tolower(fifa_hashtags[hashtags]))))
hashtag_df <- hashtag_df[con(hashtag_df,ordine(-n)),]
hashtag_df <- hashtag_df[2:11,]

ggplot(hashtag_df, aes(x = riordina(Var1, n), y=n)) +
geom_bar(stat="identità", riempimento="#00D4C9")+
coord_flip() +
tema_minimo() +
xlab("#Hashtag") + ylab("Conteggio") +
ggtitle("I principali hashtag utilizzati durante la finale della Coppa del Mondo FIFA esclusa #WorldCupFinal") +
tema_minimo()

[/codice]

Il grafico seguente mostra che altri hashtag popolari oltre a #WordCupFinal sono #fracro, #fra, #worldcup e #cro. È certo che il brusio per la Francia è stato più che per la Croazia, soprattutto da quando ha vinto la partita.

Hashtag della Coppa del Mondo FIFA

Le migliori lingue

Diamo ora un'occhiata alle lingue in cui sono stati pubblicati i tweet.

[lingua del codice =”r”]

lang_df <- count(fifa_tweets,lang) %>%
organizzare(desc(n)) %>%
fetta(1:15)

ggplot(data=lang_df, aes(x = riordina(lingua, n), y=n)) +
geom_bar(stat = 'identità', fill="#00D4C9") +
coord_flip() +
xlab("Lingue") + ylab("Conteggio") +
ggtitle("Le migliori lingue utilizzate nei tweet per la finale della Coppa del Mondo FIFA") +
tema_minimo()

[/codice]

Oltre all'inglese, altre lingue popolari erano il portoghese, lo spagnolo, il francese e il turco. Nota che `und` sta per undefined.

tweet-lingua-coppa-del-mondo-FIFA

Le migliori maniglie di Twitter

Ora, scopriamo i popolari utenti di Twitter che sono stati menzionati in vari tweet.

[lingua del codice =”r”]
# Ottenere le menzioni dal formato elenco
menzioni_split <- unlist(strsplit(as.character
(unlist(fifa_tweets$mentions_screen_name)),
'^c\(|,|"|\)'))

# Formattazione rimuovendo gli spazi bianchi
menziona <- sapply(mentions_split, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Conversione in frame di dati
menzioni_df <- as_data_frame(table(tolower(menzioni_split[menzioni])))
menzioni_df <- menzioni_df[con(menzioni_df,ordine(-n)),]
menzioni_df <- menzioni_df[1:10,]

ggplot(menzioni_df, aes(x = riordina(Var1, n), y=n)) +
geom_bar(stat="identità", riempimento="#00D4C9")+
tema_minimo() +
coord_flip() +
xlab("Maniglie Twitter") + ylab("Conteggio") +
ggtitle("I migliori handle di Twitter menzionati durante la finale della Coppa del Mondo FIFA") +
tema_minimo()
[/codice]

Ciò dimostra che la band coreana BTS ha ottenuto più di 2500 menzioni grazie alla loro canzone per la partita finale. E giocatori come Paul Pogba (francese), Kylian Mbappe (francese), Luka Modric (croato), Antoine Griezmann (Antoine Griezmann) sono stati tra i primi 10 utenti citati. Si noti che Kylian Mbappe è diventato il più giovane dai tempi di Pelé a segnare nella finale della Coppa del Mondo.

Twitter più citato gestisce FIFA

Distribuzione della lunghezza dei caratteri

Qual era l'intervallo più comune per la lunghezza dei caratteri nei tweet? Scopriamolo!

[lingua del codice =”r”]
ggplot(fifa_tweets) + aes(x=display_text_width,y = ..count../sum(..count..)) +
geom_density(stat='bin', binwidth=15, alpha = .4, fill = "#1ed7d1") +
scale_y_continuous(etichette = percentuale, nome = "Percentuale") +
scale_x_continuous(breaks = scales::pretty_breaks(n = 20),name = "Lunghezza del carattere") +
ggtitle("Distribuzione della lunghezza dei caratteri dei tweet durante la finale della Coppa del Mondo FIFA") +
tema_minimo()
[/codice]

Il grafico mostra che la maggior parte dei tweet ha una lunghezza di 45-60 caratteri. Si noti che la lunghezza media è di 99.

distribuzione della lunghezza del tweet

Tweet popolari

Ora vorremmo scoprire alcuni dei tweet più popolari pubblicati dagli utenti.

[lingua del codice =”r”]
ggplot(fifa_tweets, aes(x=favorite_count, y=retweet_count)) +
geom_text_repel(data = fifa_tweets[fifa_tweets$favorite_count > 5000 | fifa_tweets$retweet_count > 2000,],
aes(etichetta = nome),
box.padding = unità(0,45, "linee")) +
geom_point(color = "#00D4C9") +
xlab("Conteggio preferiti") + ylab("Conteggio retweet") +
ggtitle("I migliori tweet pubblicati durante la finale della Coppa del mondo FIFA") +
tema_minimo() +
tema(plot.margin=unità(c(.2,.5,.2,.2),"cm"))
[/codice]

Ciò dimostra che i migliori tweet in termini di preferiti e retweet sono stati pubblicati da UEFA Champions League, Lay Zhang, Coppa del Mondo FIFA e Pelé, considerato il più grande calciatore di tutti i tempi.

Tweet più popolari

Diamo un'occhiata al tweet pubblicato da Pelé:

A voi

Abbiamo eseguito un'analisi esplorativa dei dati sul set di dati di Twitter per scoprire gli hashtag più utilizzati, i tweet popolari, la lunghezza dei caratteri dei tweet insieme alla lingua e all'account Twitter più menzionato. Ora è il momento di scaricare il set di dati ed eseguire il tuo analisi: le tecniche di estrazione di testo possono essere applicate al testo del tweet per n-grammi, nuvola di parole, analisi del sentimento e altro ancora.


scarica il set di dati