Visualizzazione dei dati in R: che cos'è + esempi
Pubblicato: 2021-06-21I dati sono ovunque intorno a noi e diventa fondamentale capirli. La visualizzazione dei dati è un potente strumento che ci consente di trasformare i dati grezzi in una rappresentazione visiva in modo che i dati siano più facili e veloci da comprendere da parte del cervello umano.
Oggi ci sono molti programmi, applicazioni e software online che ci consentono di creare facilmente bellissime visualizzazioni di dati con pochi clic. Sono tutti dotati di capacità e funzionalità diverse e richiedono un set di abilità diverso per usarli. In questo articolo, ci concentreremo sulla visualizzazione dei dati R. R è un linguaggio di programmazione e un ambiente per il calcolo statistico, l'analisi grafica dei dati e la ricerca scientifica.
L'utilizzo di R come piattaforma di analisi dei dati consente a sviluppatori e data scientist di creare vari tipi di visualizzazioni per rappresentare dati complessi e grezzi con una codifica minima.
In questo articolo, ti illustreremo le nozioni di base sull'utilizzo di R per la visualizzazione dei dati, elencheremo le differenze tra la visualizzazione dei dati in R e Python e mostreremo degli esempi, in modo da poter capire meglio cos'è la visualizzazione dei dati in R e come funziona.
Che cos'è la visualizzazione dei dati in R?
La creazione di visualizzazioni di dati in R è una tecnica per ottenere informazioni dettagliate sui dati con l'aiuto di un mezzo visivo. Utilizzando le diverse funzionalità di R, puoi creare visualizzazioni di dati accattivanti scrivendo solo poche righe di codice. Per creare visualizzazioni di dati, R fornisce diverse librerie di visualizzazione tra cui ggplot2 che è uno dei pacchetti più utilizzati. Ggplot2 ti consente di creare quasi tutti i tipi di grafici e migliora la qualità e l'estetica della tua grafica.
Prova la fionda
Come creare la visualizzazione dei dati in R?
La cosa migliore nel processo di creazione di visualizzazioni di dati con R è che non è necessario essere un programmatore R o un esperto di analisi dei dati. Ci sono molti set di dati disponibili in R su cui puoi lavorare, quindi non è nemmeno necessario preparare il tuo set di dati.
Questo esempio di visualizzazione R utilizza il set di dati Orange integrato per tracciare l'età e la circonferenza dell'albero.
ggplot(Orange) + geom_line(aes(x = age, y = circumference, color = Tree))Risultato in questa visualizzazione:

Le librerie di visualizzazione fornite e i set di dati integrati sono completi e presentano tutto ciò di cui hai bisogno per sperimentare con R per creare visualizzazioni di dati e vedere risultati immediati.
R Visualizzazione della sequenza temporale
Le visualizzazioni della sequenza temporale R sono strumenti visivi che mostrano una successione di eventi in ordine cronologico. Le visualizzazioni della sequenza temporale sono ottime per case report e presentazioni e possono anche essere molto utili nel settore sanitario per mostrare il decorso clinico di un paziente e nella gestione dei progetti in cui è possibile creare una sequenza temporale del progetto con tappe fondamentali.
Questo esempio in R mostra come creare un frame di dati con Projects and Tasks e tracciare gli oggetti Task in una visualizzazione della sequenza temporale R.
df <- structure(list(Project = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Project 1", "Project 2"), class = "factor"), + Task = structure(c(1L, 2L, 1L, 2L, 1L, 2L), .Label = c("Task 1", + "Task 2"), class = "factor"), StartDay = c(1L, 2L, 2L, 2L, 3L, 5L), StopDay = c(3L, 5L, 8L, 4L, + 5L, 6L)), .Names = c("Project", "Task", "StartDay", + "StopDay"), class = "data.frame", row.names = c(NA, -6L)) df$Task <- factor(df$Task, levels(df$Task)[c(2,1)]) ggplot(data=df, aes(color=Task))+ geom_segment(aes(x=StartDay, xend=StopDay, y=Task, yend=Task),lwd=12)+ facet_grid(Project~.)+xlab("Days Allocated")+ylab("Tasks Lists")Risultato in questa visualizzazione Timeline:

Le visualizzazioni della sequenza temporale R vengono spesso create con la libreria ggplot2 in R Studio, in cui è possibile aggiungere livelli di dettaglio a queste visualizzazioni utilizzando colori, forme e altri elementi visivi per renderle più accattivanti e facilmente comprensibili.

Visualizzazione dell'albero R
Il pacchetto R ggtree fornisce una visualizzazione programmabile di strutture ad albero e dati associati. ggtree è stato originariamente progettato per funzionare con alberi filogenetici, ma in seguito è stato ampliato per supportare altre strutture simili ad alberi, estendendo l'applicazione di ggtree alla presentazione dei dati degli alberi anche in altre discipline. Il party della libreria R è un'altra libreria popolare che include la funzione ctree() per il rendering delle visualizzazioni dell'albero decisionale. In questo esempio, viene eseguito il rendering di un albero decisionale utilizzando il set di dati readingSkills integrato.
library(party) input.dat <- readingSkills[c(1:105),] png(file = "decision_tree.png") output.tree <- ctree(nativeSpeaker ~ age + shoeSize + score, data = input.dat) plot(output.tree)Questo codice di esempio renderà questa visualizzazione R dell'albero decisionale:

Gli alberi decisionali, ad esempio, sono ampiamente utilizzati per prevedere un risultato da un insieme di caratteristiche e possono fornire previsioni con un'accuratezza desiderabile pur essendo facili da capire e interpretare.
I modelli di albero decisionale comprendono una serie di algoritmi di apprendimento automatico, abituarsi alla semplicità di questi modelli è un elemento fondamentale nella creazione di strutture ad albero più complesse come gli alberi con gradiente.
Visualizzazione dei dati in R vs Python
Gli strumenti per le visualizzazioni sono disponibili sia in R che in Python. Entrambi ci forniscono la possibilità di creare grafici statistici complessi e accattivanti in modo da poter ottenere approfondimenti e saperne di più sui dati che possediamo. Tuttavia, ci sono alcune differenze chiave tra i due, quindi se ti stai chiedendo quale lingua sia la scelta migliore per le visualizzazioni dei tuoi dati, controlla i pro e i contro che abbiamo raccolto per aiutarti a prendere la decisione migliore per i tuoi dati.
Come R, Python offre anche più librerie di visualizzazione che vengono fornite con molte funzionalità diverse. I più popolari includono Matplotlib, Seaborn e ggplot basato su ggplot2 di R.
Le differenze:
R è un linguaggio utilizzato principalmente per l'analisi dei dati, mentre Python è un linguaggio di programmazione generico che può essere utilizzato anche per l'analisi dei dati, ma questo non è il suo scopo principale. Entrambi sono ben attrezzati per la visualizzazione dei dati, ma la personalizzazione della grafica in R è generalmente più semplice e intuitiva. R è stato creato per dimostrare i risultati dell'analisi statistica con il modulo grafico di base che consente di creare facilmente grafici e grafici e puoi anche utilizzare ggplot2 per grafici più avanzati.
Pensieri finali
Poiché le aziende continuano a fare affidamento sui dati per prendere decisioni migliori e basate sui fatti, l'importanza della visualizzazione dei dati aumenterà ancora di più. E poiché le tecniche di visualizzazione come grafici e grafici sono più efficienti in termini di comprensione dei dati rispetto ai tradizionali fogli di calcolo e ai report di dati obsoleti, strumenti come la visualizzazione dei dati R sono una necessità per ogni team interfunzionale.
Tuttavia, anche con l'importanza di dati e approfondimenti, il solo fatto di averli non è più sufficiente. Per sbloccare il pieno potenziale dei dati, è necessario trasformarli in azioni che si adattino al flusso di lavoro delle operazioni quotidiane. Puoi passare senza problemi dalle informazioni dettagliate all'azione con Slingshot.
Con Slingshot puoi analizzare i dati, creare splendide visualizzazioni dei dati, collaborare con tutti all'interno della tua organizzazione e gestire facilmente tutti i tuoi progetti, il tutto dalla stessa piattaforma.
Interessato a saperne di più? Prova Slingshot gratuitamente e scopri come può aiutarti a sfruttare le informazioni utili, il tutto rendendo più facile per il tuo team l'utilizzo dei dati, coltivare una cultura basata sui dati e migliorare la produttività.
