Visualizzazione dati Python per principianti

Pubblicato: 2021-06-07

La visualizzazione dei dati svolge un ruolo significativo nell'analisi dei dati e nel rendere i dati più chiari e comprensibili da parte di tutti. La rappresentazione visiva delle informazioni con strumenti di visualizzazione dei dati come Python aiuta a identificare tendenze, modelli e correlazioni che altrimenti non avresti mai scoperto, o come afferma l'informatico americano Ben Schneiderman, "Le visualizzazioni ti danno risposte a domande che non conoscevi avevo''.

In questo blog, discuteremo cos'è la visualizzazione dei dati in Python, come visualizzare i dati in Python utilizzando le librerie di visualizzazione di Python e ti presenteremo alcuni esempi di visualizzazione Python per aiutarti a comprendere meglio la potenza della visualizzazione dei dati e come Python può aiutarti in utilizzandolo.

Che cos'è la visualizzazione in Python?

Python è un linguaggio di programmazione generico che include strutture di dati di alto livello, tipi dinamici e binding dinamico e una varietà di altre funzionalità che lo rendono prezioso e vantaggioso per lo sviluppo di applicazioni complesse.

Con la crescente importanza della visualizzazione dei dati negli ultimi due decenni, Python è diventato più di un semplice linguaggio di programmazione. È diventato il linguaggio di programmazione più utilizzato per la scienza dei dati, offrendo agli sviluppatori una miriade di opzioni per visualizzare i dati e ottenere informazioni che i dati grezzi da soli non possono fornire loro.

Semplicemente, l'utilizzo di Python per creare le visualizzazioni dei dati aiuterà i tuoi utenti a ottenere informazioni dettagliate sui dati in millisecondi rispetto a secondi o addirittura minuti che cercano di analizzare e comprendere grandi set di dati di dati non formattati rappresentati in formati tabulari. Ancora meglio, l'utilizzo degli strumenti di visualizzazione dei dati in Python ti consente di aggiungere colore, linee di tendenza, marcatori, annotazioni e molti altri segnali visivi che aiutano lo spettatore della tua visualizzazione a comprendere istantaneamente la storia dei propri dati.

Prova la fionda

Librerie di visualizzazione Python

Esistono numerose librerie di visualizzazione open source e commerciali per Python che offrono grafici aziendali, grafici scientifici, grafici finanziari, mappatura geospaziale e molti altri. Come sviluppatore, puoi facilmente importare queste librerie nei tuoi progetti Python e, in base al tipo di dati che hai, in poche righe di codice puoi eseguire il rendering di una visualizzazione.

Queste sono le 5 librerie di visualizzazione dati Python più popolari:

  • Matplotlib – Matplotlib è la prima libreria di visualizzazione dei dati di Python ed è la libreria di base su cui è stata costruita ogni altra libreria di visualizzazione dei dati Python. È la più utilizzata ed è una libreria di plottaggio 2D. Matplotlib può generare grafici, grafici a barre, grafici a torta, istogrammi, spettri di potenza, grafici a dispersione, grafici di errore e altri tipi di visualizzazioni di dati. La libreria consente il controllo assoluto della visualizzazione. È molto potente, ma anche molto complesso: puoi creare qualsiasi cosa, ma ci vuole molto lavoro e sforzi per ottenere grafici dall'aspetto ragionevole.
  • Seaborn - Basato su Matplotlib, Seaborn è noto per creare le visualizzazioni di dati Python più visivamente accattivanti. La libreria fornisce un'interfaccia di alto livello per disegnare grafici statistici attraenti e informativi con meno codice richiesto rispetto a Matplotlib.
  • ggplot – Questa libreria è l'implementazione di Python della visualizzazione dei dati ggplot2 nel linguaggio di programmazione R. ggplot è strettamente integrato con la libreria Pandas e mostra una delle migliori forme di apprendimento automatico dopo che gli è stato detto come mappare le variabili sull'estetica e quali primitive usare. Può essere utilizzato per generare semplici rappresentazioni grafiche e non può essere utilizzato per creare grafiche altamente personalizzate.
  • Plotly – Plotly consente la creazione sia di visualizzazioni di dati che di analisi con pochissime righe di codice richieste e dispone di curve di livello che sono molto rare per tutte le altre librerie. Può generare molte visualizzazioni come grafici a dispersione, grafici a linee, grafici a barre, barre di errore, sottotrame, istogrammi, box plot, ecc. Inoltre, Plotly ha funzionalità dello strumento hover che consentono il rilevamento di valori anomali o anomalie in un gran numero di punti dati.
  • Pandas : sebbene non sia una libreria di visualizzazione, Pandas è una libreria open source ad alte prestazioni che fornisce funzioni di manipolazione e trasformazione dei dati rapide e flessibili da utilizzare nelle librerie di visualizzazione Python. L'utilizzo dell'API di alto livello di Pandas per l'elaborazione dei dati significa scrivere meno codice Python per manipolare i dati per ottenere gli stessi risultati che si otterrebbero con un codice Python lungo e complesso.

Visualizzazione interattiva Python

Se stai cercando uno strumento di visualizzazione interattiva Python, dovresti considerare Bokeh.

Bokeh è una libreria di visualizzazione interattiva che esegue il rendering della sua grafica utilizzando HTML e JavaScript. Tuttavia, Bokeh fornisce un'API Python per creare visualizzazioni interattive in D3.js con o senza la necessità di scrivere codice JavaScript. È adatto per risorse di dati di grandi dimensioni o in streaming e può essere utilizzato per sviluppare grafici, applicazioni e dashboard interattivi basati sul Web. Bokeh è uno strumento molto potente per esplorare e comprendere i tuoi dati e creare grafici personalizzati accattivanti per un progetto o un rapporto. Nello spazio di visualizzazione dei dati Python, Bokeh è il candidato n. 1 per la creazione di visualizzazioni interattive.

La libreria funziona anche a stretto contatto con gli strumenti PyData e consente l'uso di oggetti Panda e NumPy standard per la stampa.

Visualizzazione di serie temporali Python

I dati delle serie temporali sono le serie di punti dati elencati in ordine temporale. È una sequenza di punti di intervallo di tempo successivi uguali e consiste in metodi di analisi al fine di estrarre intuizioni significative e altre caratteristiche utili dei dati. Il tipo di dati delle serie temporali è importante in molti settori come quello farmaceutico, della vendita al dettaglio, dei trasporti, delle finanze e persino delle società di social media e di email marketing, così come in molti altri.

Di seguito sono riportati tutti esempi di dati di serie temporali:

  • Medicina: monitoraggio della frequenza cardiaca, monitoraggio del peso, monitoraggio della pressione sanguigna, ecc.
  • Vendita al dettaglio: il numero di articoli venduti all'ora durante un periodo di 24 o 48 ore
  • Trasporti: il numero di viaggiatori che viaggiano in un periodo di una settimana o di un mese
  • Economia: prodotto interno lordo, indice dei prezzi al consumo, ecc.

Un grafico a linee è il modo più comunemente utilizzato per visualizzare i dati delle serie temporali, in genere la visualizzazione del grafico consente interazioni, come lo zoom avanti per dati basati sul tempo più dettagliati o lo zoom indietro per visualizzazioni di dati di più alto livello.

Un esempio di visualizzazione Python

Gli strumenti di visualizzazione dei dati e dashboard includono un'ampia varietà di tipi di grafici. Strumenti come Python e le suddette librerie grafiche Python possono aiutare a creare visualizzazioni utili e informative quando è necessario andare oltre i tipi di grafici forniti. Ad esempio, la maggior parte dei prodotti non include visualizzazioni avanzate come Sankey Diagrams, Heatmap o Steamgraph. Slingshot semplifica l'aggiunta di queste visualizzazioni avanzate in Python.

Per impostazione predefinita, una visualizzazione Python in Slingshot include queste librerie nell'editor di script:

 #import matplotlib #import matplotlib.pyplot as plt #import numpy as np #import pandas as pd

E per impostazione predefinita, i campi disponibili per impostazione predefinita nell'editor di script sono quelli selezionati dal selettore di campi nell'editor di visualizzazione:

 #data['Territory'] #data['CampaignID'] #data['Sum of Spend']

Stai creando la tua visualizzazione, proprio come qualsiasi altro grafico integrato. L'unica differenza è che questo è stato creato con del codice Python:

 campaignid = np.unique(np.array(data['CampaignID'])) territory = np.unique(np.array(data['Territory'])) spend = np.array(data['Sum of Spend']).reshape((7, 5)) fig, ax = plt.subplots(figsize=(5.5, 6.5)) im = ax.imshow(spend) # Show all ticks... ax.set_xticks(np.arange(len(territory))) ax.set_yticks(np.arange(len(campaignid))) # ... and label them with the respective list entries ax.set_xticklabels(territory) ax.set_yticklabels(campaignid) # Loop over data dimensions and create text annotations. for i in range(len(campaignid)): for j in range(len(territory)): text = ax.text(j, i, spend[i, j], ha="center", va="center", color="w") ax.set_title("Campaign Spend (dollars)") fig.tight_layout()

Risultato in una bella visualizzazione Heatmap che puoi facilmente condividere con il resto del tuo team!

Python Data Visualization for Beginners

Pensieri finali

Poiché le aziende continuano a fare affidamento sui dati per prendere decisioni migliori e basate sui fatti, l'importanza della visualizzazione dei dati aumenterà ancora di più. E poiché le tecniche di visualizzazione come grafici e grafici sono più efficienti in termini di comprensione dei dati rispetto ai tradizionali fogli di calcolo e ai report di dati obsoleti, l'utilizzo di strumenti come Python per creare visualizzazioni di dati è una necessità per ogni team interfunzionale.

Tuttavia, anche con l'importanza di dati e approfondimenti, il solo fatto di averli non è più sufficiente. Per sbloccare il potenziale di attrazione dei dati, è necessario trasformare tali dati in azioni che si adattino al flusso di lavoro delle operazioni quotidiane. Puoi passare senza problemi dalle informazioni dettagliate all'azione con Slingshot.

Con Slingshot puoi analizzare i dati, creare splendide visualizzazioni dei dati, collaborare con tutti all'interno della tua organizzazione e gestire facilmente tutti i tuoi progetti, il tutto dalla stessa piattaforma.

Interessato a saperne di più? Prova Slingshot gratuitamente e scopri come può aiutarti a sfruttare le informazioni utili, il tutto rendendo più facile per il tuo team l'utilizzo dei dati, coltivare una cultura basata sui dati e migliorare la produttività.