Analyse des données Twitter pour la finale de la Coupe du Monde de la FIFA - PromptCloud

Publié: 2018-07-27
Table des matières afficher
Meilleurs hashtags
Principales langues
Principales poignées Twitter
Répartition de la longueur des caractères
Tweets populaires
À vous

Récemment, le monde a commencé à se remettre de la fièvre du football de la Coupe du Monde de la FIFA qui s'est terminée par la victoire de la France. Avant d'aller plus loin, regardons le contexte - le match final a été disputé par la France et la Croatie et s'est joué au stade Luzhniki de Moscou, en Russie, le 15 juillet 2018 à 15 heures (fuseau horaire GMT). La France a remporté le match 4-2, qui comprenait un penalty et un but contre son camp de la Croatie.

Comme tout autre média social, Twitter était également en effervescence avec les fans et les téléspectateurs qui tweetaient constamment sur le match au fur et à mesure de sa progression. Le hashtag tendance de l'événement était #WordCupFinal . Cette étude portera sur les tweets extraits entre 15h00 GMT et un peu plus de 19h30 GMT pour le hashtag susmentionné. L'ensemble de données final comprend plus de 200 000 tweets originaux (n'inclut pas les retweets). Notre analyse des données Twitter répondra aux questions suivantes :

1. Quels ont été les hashtags les plus utilisés pendant le match ?
2. Quelles étaient les principales langues en termes de nombre de tweets ?
3. Quels identifiants Twitter ont été les plus mentionnés ?
4. Quelle était la longueur des caractères pour la majorité des tweets ?
5. Quels sont les tweets les plus populaires en termes de retweets et de likes ?

Notez que cette étude ne couvre pas les techniques de text mining ; cependant, ils peuvent être appliqués en utilisant les méthodes déjà décrites dans le post de visualisation des données des paroles de chansons de Taylor Swift.

 [call_to_action title="Télécharger l'ensemble de données gratuitement" icon="icon-download" link="https://app.promptcloud.com/users/sign_up?target=data_stocks&itm_source=website&itm_medium=blog&itm_campaign=dataviz&itm_term=fifa-tweets&itm_content= data-mining" button_title="" class="" target="_blank" animate=""]Inscrivez-vous à DataStock via CrawlBoard et cliquez sur la catégorie "gratuit" pour télécharger l'ensemble de données ![/call_to_action]

N'hésitez pas à télécharger l'ensemble de données Twitter, si vous souhaitez reproduire le code donné dans cet article ou expérimenter avec les données.

Meilleurs hashtags

Commençons par charger les packages requis et passons à la colonne "hashtags" pour l'analyse.

[code language="r"]

# Fréquence des hashtags
bibliothèque("dplyr")
bibliothèque("ggplot2")
bibliothèque("magrittr")
bibliothèque ("échelles")
bibliothèque("ggrepel")

fifa_tweets <- read.csv(file.choose())

# Configuration facultative pour afficher des nombres plus grands sans notation scientifique
options(chiffres=22)

# Obtenir les hashtags du format de liste
fifa_hashtags <- unlist(strsplit(as.character
(unlist(fifa_tweets$hashtags)),
'^c\(|,|"|\)'))

# Formatage en supprimant les espaces blancs
hashtags <- sapply(fifa_hashtags, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Conversion en bloc de données
hashtag_df <- as_data_frame(table(tolower(fifa_hashtags[hashtags])))
hashtag_df <- hashtag_df[with(hashtag_df,order(-n)),]
hashtag_df <- hashtag_df[2:11,]

ggplot(hashtag_df, aes(x = réorganiser(Var1, n), y=n)) +
geom_bar(stat="identité", fill="#00D4C9")+
coord_flip() +
thème_minimal() +
xlab("#Hashtags") + ylab("Compter") +
ggtitle("Top hashtags utilisés lors de la finale de la Coupe du Monde de la FIFA, à l'exception de #WorldCupFinal") +
theme_minimal()

[/code]

Le tableau suivant montre que les autres hashtags populaires en dehors de #WordCupFinal sont #fracro, #fra, #worldcup et #cro. Il est certain que le buzz pour la France a été plus que pour la Croatie, d'autant plus qu'ils ont remporté le match.

Hashtags de la coupe du monde de la FIFA

Principales langues

Voyons maintenant les langues dans lesquelles les tweets ont été publiés.

[code language="r"]

lang_df <- count(fifa_tweets,lang) %>%
organiser(desc(n)) %>%
tranche (1:15)

ggplot(data=lang_df, aes(x = reorder(lang, n), y=n)) +
geom_bar(stat = 'identité', fill="#00D4C9") +
coord_flip() +
xlab("Langues") + ylab("Compte") +
ggtitle("Principales langues utilisées dans les tweets pour la finale de la Coupe du Monde de la FIFA") +
theme_minimal()

[/code]

Outre l'anglais, les autres langues populaires étaient le portugais, l'espagnol, le français et le turc. Notez que `und` signifie indéfini.

tweet-langue-coupe-du-monde-FIFA

Principales poignées Twitter

Découvrons maintenant les utilisateurs populaires de Twitter qui ont été mentionnés dans divers tweets.

[code language="r"]
# Obtenir les mentions du format de liste
mentionne_split <- unlist(strsplit(as.character
(unlist(fifa_tweets$mentions_screen_name)),
'^c\(|,|"|\)'))

# Formatage en supprimant les espaces blancs
mentionne <- sapply(mentions_split, function(y) nchar(trimws(y)) > 0 & !is.na(y))

# Conversion en bloc de données
mentions_df <- as_data_frame(table(tolower(mentions_split[mentions])))
mentions_df <- mentions_df[with(mentions_df,order(-n)),]
mentions_df <- mentions_df[1:10,]

ggplot(mentions_df, aes(x = reorder(Var1, n), y=n)) +
geom_bar(stat="identité", fill="#00D4C9")+
thème_minimal() +
coord_flip() +
xlab("Identifiants Twitter") + ylab("Compte") +
ggtitle("Les meilleurs identifiants Twitter mentionnés lors de la finale de la Coupe du Monde de la FIFA") +
theme_minimal()
[/code]

Cela montre que le groupe coréen BTS a recueilli plus de 2500 mentions grâce à sa chanson pour le match final. Et des joueurs comme Paul Pogba (Français), Kylian Mbappe (Français), Luka Modric (Croate), Antoine Griezmann (Antoine Griezmann) figuraient parmi les 10 premiers utilisateurs mentionnés. A noter que Kylian Mbappé est devenu le plus jeune depuis Pelé à marquer en finale de Coupe du monde.

Twitter le plus mentionné gère la FIFA

Répartition de la longueur des caractères

Quelle était la plage la plus courante pour la longueur des caractères dans les tweets ? Découvrons-le!

[code language="r"]
ggplot(fifa_tweets) + aes(x=display_text_width,y = ..count../sum(..count..)) +
geom_density(stat='bin', binwidth=15, alpha = .4, fill = "#1ed7d1") +
scale_y_continuous(labels = percent,name = "Pourcentage") +
scale_x_continuous(breaks = scales::pretty_breaks(n = 20),name = "Longueur des caractères") +
ggtitle("Répartition de la longueur en caractères des tweets lors de la finale de la Coupe du Monde de la FIFA") +
theme_minimal()
[/code]

Le graphique montre que la majorité des tweets ont une longueur de 45 à 60 caractères. Notez que la longueur moyenne est de 99.

distribution de la longueur des tweets

Tweets populaires

Nous allons maintenant découvrir certains des tweets les plus populaires publiés par les utilisateurs.

[code language="r"]
ggplot(fifa_tweets, aes(x=favorite_count, y=retweet_count)) +
geom_text_repel(data = fifa_tweets[fifa_tweets$favorite_count > 5000 | fifa_tweets$retweet_count > 2000,],
aes(étiquette = nom),
box.padding = unit(0.45, "lignes")) +
geom_point(couleur = "#00D4C9") +
xlab ("Nombre de favoris") + ylab("Nombre de retweets") +
ggtitle("Meilleurs tweets postés lors de la finale de la Coupe du monde de la FIFA") +
thème_minimal() +
theme(plot.margin=unit(c(.2,.5,.2,.2),"cm"))
[/code]

Cela montre que les meilleurs tweets en termes de favoris et de retweets ont été publiés par l'UEFA Champions League, Lay Zhang, la Coupe du Monde de la FIFA et Pelé qui est considéré comme le plus grand footballeur de tous les temps.

Tweets les plus populaires

Regardons le tweet posté par Pelé :

À vous

Nous avons effectué une analyse exploratoire des données sur l'ensemble de données Twitter pour découvrir les hashtags les plus utilisés, les tweets populaires, la longueur en caractères des tweets ainsi que la langue et le compte Twitter le plus mentionné. Il est maintenant temps pour vous de télécharger l'ensemble de données et d'effectuer votre analyse - des techniques d'exploration de texte peuvent être appliquées sur le texte du tweet pour les n-grammes, le nuage de mots, l'analyse des sentiments et plus encore.


télécharger l'ensemble de données