Vizualizarea datelor Python pentru începători

Publicat: 2021-06-07

Vizualizarea datelor joacă un rol important în analizarea datelor și pentru a le face mai clare și mai ușor de înțeles de către toată lumea. Reprezentarea vizuală a informațiilor cu instrumente de vizualizare a datelor precum Python ajută la identificarea tendințelor, tiparelor și corelațiilor pe care altfel nu le-ați fi descoperit niciodată sau, așa cum spune informaticianul american Ben Schneiderman, „Vizualizările vă oferă răspunsuri la întrebări pe care nu le cunoșteați. a avut''.

În acest blog, vom discuta despre ce este vizualizarea datelor în Python, cum să vizualizați datele în Python folosind bibliotecile de vizualizare Python și vă vom prezenta câteva exemple de vizualizare Python pentru a vă ajuta să înțelegeți mai bine puterea vizualizării datelor și modul în care Python vă poate ajuta în utilizând-o.

Ce este vizualizarea în Python?

Python este un limbaj de programare de uz general, care include structuri de date de nivel înalt, legare dinamică tipică și dinamică și o varietate de alte caracteristici care îl fac valoros și benefic pentru dezvoltarea de aplicații complexe.

Odată cu importanța tot mai mare a vizualizării datelor în ultimele două decenii, Python a devenit mai mult decât un simplu limbaj de programare. A devenit cel mai folosit limbaj de programare pentru știința datelor, oferind dezvoltatorilor o mulțime de opțiuni pentru a vizualiza datele și a obține perspective pe care datele brute nu le pot oferi.

Pur și simplu, utilizarea Python pentru a vă crea vizualizările de date va ajuta utilizatorii să obțină informații despre date în milisecunde, comparativ cu secunde sau chiar minute, încercând să analizeze și să înțeleagă seturi mari de date neformatate reprezentate în formate tabelare. Și mai bine, utilizarea instrumentelor de vizualizare a datelor în Python vă permite să adăugați culoare, linii de tendință, marcatori, adnotări și multe alte indicii vizuale care ajută vizualizatorul vizualizării dvs. să înțeleagă instantaneu povestea datelor lor.

Încearcă Slingshot

Biblioteci de vizualizare Python

Există numeroase biblioteci open source și de vizualizare comercială pentru Python care oferă diagrame de afaceri, diagrame științifice, diagrame financiare, cartografiere geospațială și multe altele. În calitate de dezvoltator, puteți importa cu ușurință aceste biblioteci în proiectele dvs. Python și, pe baza tipului de date pe care le aveți, în câteva rânduri de cod puteți reda o vizualizare.

Acestea sunt cele mai populare 5 biblioteci de vizualizare a datelor Python:

  • Matplotlib – Matplotlib este prima bibliotecă de vizualizare a datelor Python și este biblioteca de bază pe care a fost construită orice altă bibliotecă de vizualizare a datelor Python. Este cel mai folosit și este o bibliotecă de plotare 2D. Matplotlib poate genera diagrame, diagrame cu bare, diagrame circulare, histograme, spectre de putere, diagrame de dispersie, diagrame de eroare și alte tipuri de vizualizări de date. Biblioteca permite controlul absolut al vizualizării. Este foarte puternic, dar și foarte complex – puteți crea orice, dar este nevoie de multă muncă și efort pentru a obține grafice cu aspect rezonabil.
  • Seaborn – Bazat pe Matplotlib, Seaborn este cunoscut pentru a crea cele mai atractive vizualizări de date Python. Biblioteca oferă o interfață de nivel înalt pentru desenarea graficelor statistice atractive și informative, cu un cod mai mic necesar în comparație cu Matplotlib.
  • ggplot – Această bibliotecă este implementarea de către Python a vizualizării datelor ggplot2 în limbajul de programare R. ggplot este strâns integrat cu biblioteca Pandas și demonstrează una dintre cele mai bune forme de învățare automată după ce i se spune cum să mapați variabilele la estetică și ce primitive să folosească. Poate fi folosit pentru a genera reprezentări grafice simple și nu poate fi folosit pentru a crea grafice foarte personalizate.
  • Plotly – Plotly permite crearea atât a vizualizărilor de date, cât și a analizelor cu foarte puține linii de cod necesare și are diagrame de contur, care este foarte neobișnuită pentru toate celelalte biblioteci. Poate genera multe vizualizări, cum ar fi diagrame de împrăștiere, diagrame cu linii, diagrame cu bare, bare de eroare, subploturi, histograme, diagrame cu case etc. În plus, Plotly are capabilități de instrumente hover care permit detectarea anomaliilor sau a anomaliilor într-un număr mare de puncte de date.
  • Pandas – Deși nu este o bibliotecă de vizualizare, Pandas este o bibliotecă open-source de înaltă performanță care oferă funcții rapide și flexibile de manipulare și transformare a datelor pentru utilizare în bibliotecile de vizualizare Python. Utilizarea API-ului Pandas de nivel înalt pentru procesarea datelor înseamnă că scrieți mai puțin cod Python pentru manipularea datelor pentru a obține aceleași rezultate pe care le-ați obține cu codul Python lung și complex.

Vizualizare interactivă Python

Dacă sunteți în căutarea unui instrument de vizualizare interactiv Python, atunci ar trebui să luați în considerare Bokeh.

Bokeh este o bibliotecă de vizualizare interactivă care redă grafica folosind HTML și JavaScript. Cu toate acestea, Bokeh oferă un API Python pentru a crea vizualizări interactive în D3.js cu sau fără necesitatea scrierii oricărui cod JavaScript. Este potrivit pentru active de date mari sau în flux și poate fi folosit pentru a dezvolta grafice, aplicații și tablouri de bord interactive bazate pe web. Bokeh este un instrument foarte puternic pentru explorarea și înțelegerea datelor dvs. și pentru crearea de diagrame personalizate atrăgătoare pentru un proiect sau raport. În spațiul de vizualizare a datelor Python, Bokeh este candidatul #1 pentru construirea de vizualizări interactive.

De asemenea, biblioteca lucrează îndeaproape cu instrumentele PyData și permite utilizarea obiectelor standard Pandas și NumPy pentru trasare.

Vizualizarea seriilor temporale Python

Datele din seria temporală sunt seria de puncte de date enumerate în ordinea temporală. Este o secvență de intervale egale succesive în timp și constă în metode de analiză pentru a extrage perspective semnificative și alte caracteristici utile ale datelor. Tipul de date în serie cronologică este important în multe industrii, cum ar fi industria farmaceutică, comerțul cu amănuntul, transportul, finanțele și chiar companiile de social media și marketing prin e-mail, precum și multe altele.

Următoarele sunt toate exemple de date de serie cronologică:

  • Medicină: monitorizarea ritmului cardiac, urmărirea greutății, urmărirea tensiunii arteriale etc.
  • Comerț cu amănuntul: numărul de articole vândute pe oră pe o perioadă de 24 de ore sau 48 de ore
  • Transport: numărul de călători care călătoresc pe o perioadă de o săptămână sau o lună
  • Economie: produsul intern brut, indicele prețurilor de consum etc.

O diagramă cu linii este cea mai utilizată modalitate de vizualizare a datelor din seria temporală, de obicei, afișarea diagramei permite interacțiuni, cum ar fi mărirea pentru date mai detaliate bazate pe timp sau micșorarea pentru vizualizări mai la nivel înalt ale datelor.

Un exemplu de vizualizare Python

Instrumentele de vizualizare a datelor și tabloul de bord includ o mare varietate de tipuri de diagrame. Instrumente precum Python și bibliotecile grafice Python menționate mai sus pot ajuta la construirea de vizualizări utile și informative atunci când trebuie să depășiți tipurile de diagrame furnizate. De exemplu, majoritatea produselor nu includ vizualizări avansate, cum ar fi Sankey Diagrams, Heatmaps sau Steamgraphs. Slingshot facilitează adăugarea acestor vizualizări avansate în Python.

În mod implicit, o vizualizare Python în Slingshot include aceste biblioteci în editorul dvs. de script:

 #import matplotlib #import matplotlib.pyplot as plt #import numpy as np #import pandas as pd

Și în mod implicit, câmpurile disponibile implicit în Editorul de scripturi sunt cele selectate din selectorul de câmpuri din editorul de vizualizare:

 #data['Territory'] #data['CampaignID'] #data['Sum of Spend']

Vă creați vizualizarea, la fel ca orice altă diagramă încorporată. Singura diferență este că acesta este creat cu un cod Python:

 campaignid = np.unique(np.array(data['CampaignID'])) territory = np.unique(np.array(data['Territory'])) spend = np.array(data['Sum of Spend']).reshape((7, 5)) fig, ax = plt.subplots(figsize=(5.5, 6.5)) im = ax.imshow(spend) # Show all ticks... ax.set_xticks(np.arange(len(territory))) ax.set_yticks(np.arange(len(campaignid))) # ... and label them with the respective list entries ax.set_xticklabels(territory) ax.set_yticklabels(campaignid) # Loop over data dimensions and create text annotations. for i in range(len(campaignid)): for j in range(len(territory)): text = ax.text(j, i, spend[i, j], ha="center", va="center", color="w") ax.set_title("Campaign Spend (dollars)") fig.tight_layout()

Rezultă o vizualizare frumoasă Heatmap pe care o puteți partaja cu ușurință cu restul echipei dvs.!

Python Data Visualization for Beginners

Gânduri finale

Pe măsură ce companiile continuă să se bazeze pe date pentru a lua decizii mai bune și bazate pe fapte, importanța vizualizării datelor va crește și mai mult. Și deoarece tehnicile de vizualizare precum diagramele și graficele sunt mai eficiente în ceea ce privește înțelegerea datelor în comparație cu foile de calcul tradiționale și rapoartele de date învechite, utilizarea instrumentelor precum Python pentru a crea vizualizări de date este o necesitate pentru fiecare echipă interfuncțională.

Cu toate acestea, chiar și cu importanța datelor și a informațiilor, a le avea nu mai este suficient. Pentru a debloca potențialul de atragere al datelor, trebuie să transformați acele date în acțiuni care se potrivesc fluxului de lucru zilnic al operațiunilor. Puteți trece fără probleme de la informații la acțiune cu Slingshot.

Cu Slingshot, puteți să analizați datele, să creați vizualizări frumoase de date, să colaborați cu toată lumea din organizația dvs. și să vă gestionați toate proiectele cu ușurință, toate de pe aceeași platformă.

Ești interesat să afli mai multe? Încercați Slingshot gratuit și vedeți cum vă poate ajuta să utilizați informații utile, facilitând, în același timp, echipei dvs. utilizarea datelor, cultivarea unei culturi bazate pe date și îmbunătățirea productivității.