Python-Datenvisualisierung für Anfänger

Veröffentlicht: 2021-06-07

Die Datenvisualisierung spielt eine wichtige Rolle bei der Analyse von Daten und macht Daten klarer und für alle leichter verständlich. Die visuelle Darstellung von Informationen mit Datenvisualisierungstools wie Python hilft dabei, Trends, Muster und Korrelationen zu erkennen, die Sie sonst vielleicht nie entdeckt hätten, oder wie der amerikanische Informatiker Ben Schneiderman sagt: „Visualisierungen geben Ihnen Antworten auf Fragen, von denen Sie nicht wussten, dass Sie sie kennen hatte''.

In diesem Blog werden wir erörtern, was Datenvisualisierung in Python ist, wie Daten in Python mithilfe der Python-Visualisierungsbibliotheken visualisiert werden, und Ihnen einige Python-Visualisierungsbeispiele vorstellen, damit Sie die Leistungsfähigkeit der Datenvisualisierung besser verstehen und wie Python Sie dabei unterstützen kann es nutzen.

Was ist Visualisierung in Python?

Python ist eine Allzweck-Programmiersprache, die Datenstrukturen auf hoher Ebene, dynamische typische und dynamische Bindungen und eine Vielzahl anderer Funktionen umfasst, die sie für die Entwicklung komplexer Anwendungen wertvoll und vorteilhaft machen.

Mit der wachsenden Bedeutung der Datenvisualisierung in den letzten zwei Jahrzehnten ist Python mehr als nur eine Programmiersprache geworden. Es hat sich zur meistgenutzten Programmiersprache für Data Science entwickelt und bietet Entwicklern unzählige Möglichkeiten, Daten zu visualisieren und Erkenntnisse zu gewinnen, die ihnen Rohdaten allein nicht liefern können.

Die Verwendung von Python zur Erstellung Ihrer Datenvisualisierungen hilft Ihren Benutzern, Dateneinblicke in Millisekunden zu gewinnen, im Vergleich zu Sekunden oder sogar Minuten, die versuchen, große Datensätze unformatierter Daten, die in Tabellenformaten dargestellt werden, zu analysieren und zu verstehen. Noch besser: Mit Datenvisualisierungstools in Python können Sie Farben, Trendlinien, Markierungen, Anmerkungen und viele weitere visuelle Hinweise hinzufügen, die dem Betrachter Ihrer Visualisierung helfen, die Geschichte seiner Daten sofort zu verstehen.

Probieren Sie Slingshot aus

Python-Visualisierungsbibliotheken

Es gibt zahlreiche Open-Source- und kommerzielle Visualisierungsbibliotheken für Python, die Geschäftsdiagramme, wissenschaftliche Diagramme, Finanzdiagramme, Geokarten und vieles mehr bieten. Als Entwickler können Sie diese Bibliotheken problemlos in Ihre Python-Projekte importieren und je nach Datentyp in wenigen Codezeilen eine Visualisierung rendern.

Dies sind die 5 beliebtesten Python-Datenvisualisierungsbibliotheken:

  • Matplotlib – Matplotlib ist die erste Datenvisualisierungsbibliothek von Python und die Basisbibliothek, auf der alle anderen Python-Datenvisualisierungsbibliotheken aufgebaut wurden. Es wird am häufigsten verwendet und ist eine 2D-Plotbibliothek. Matplotlib kann Diagramme, Balkendiagramme, Tortendiagramme, Histogramme, Leistungsspektren, Streudiagramme, Fehlerdiagramme und andere Arten von Datenvisualisierungen generieren. Die Bibliothek ermöglicht die absolute Kontrolle über die Visualisierung. Es ist sehr leistungsfähig, aber auch sehr komplex – Sie können alles erstellen, aber es erfordert viel Arbeit und Mühe, vernünftig aussehende Diagramme zu erhalten.
  • Seaborn – Basierend auf Matplotlib ist Seaborn dafür bekannt, die optisch ansprechendsten Python-Datenvisualisierungen zu erstellen. Die Bibliothek bietet eine High-Level-Schnittstelle zum Zeichnen attraktiver und informativer statistischer Grafiken mit weniger Code, der im Vergleich zu Matplotlib erforderlich ist.
  • ggplot – Diese Bibliothek ist Pythons Implementierung der ggplot2-Datenvisualisierung in der Programmiersprache R. ggplot ist eng in die Pandas-Bibliothek integriert und demonstriert eine der besten Formen des maschinellen Lernens, nachdem erklärt wurde, wie die Variablen der Ästhetik zugeordnet werden und welche Grundelemente verwendet werden sollen. Es kann verwendet werden, um einfache grafische Darstellungen zu erzeugen, und es kann nicht zum Erstellen stark angepasster Grafiken verwendet werden.
  • Plotly – Plotly ermöglicht die Erstellung von Datenvisualisierungen und Analysen mit sehr wenigen erforderlichen Codezeilen und verfügt über Konturdiagramme, was für alle anderen Bibliotheken sehr ungewöhnlich ist. Es kann viele Visualisierungen wie Streudiagramme, Liniendiagramme, Balkendiagramme, Fehlerbalken, Subplots, Histogramme, Boxplots usw. generieren. Darüber hinaus verfügt Plotly über Hover-Tool-Funktionen, die die Erkennung von Ausreißern oder Anomalien in einer großen Anzahl von Datenpunkten ermöglichen.
  • Pandas – Pandas ist zwar keine Visualisierungsbibliothek, aber eine Open-Source-Hochleistungsbibliothek, die schnelle und flexible Datenbearbeitungs- und Datentransformationsfunktionen zur Verwendung in Python-Visualisierungsbibliotheken bietet. Die Verwendung der High-Level-API von Pandas für die Datenverarbeitung bedeutet, dass Sie weniger Python-Code zum Bearbeiten von Daten schreiben, um die gleichen Ergebnisse zu erzielen wie mit langem und komplexem Python-Code.

Interaktive Python-Visualisierung

Wenn Sie nach einem interaktiven Python-Visualisierungstool suchen, sollten Sie Bokeh in Betracht ziehen.

Bokeh ist eine interaktive Visualisierungsbibliothek, die ihre Grafiken mit HTML und JavaScript rendert. Bokeh bietet jedoch eine Python-API zum Erstellen interaktiver Visualisierungen in D3.js mit oder ohne die Notwendigkeit, JavaScript-Code zu schreiben. Es eignet sich für große oder Streaming-Datenbestände und kann zur Entwicklung interaktiver webbasierter Diagramme, Anwendungen und Dashboards verwendet werden. Bokeh ist ein sehr leistungsfähiges Werkzeug zum Erkunden und Verstehen Ihrer Daten und zum Erstellen ansprechender benutzerdefinierter Diagramme für ein Projekt oder einen Bericht. Im Bereich der Python-Datenvisualisierung ist Bokeh der Kandidat Nr. 1 für die Erstellung interaktiver Visualisierungen.

Die Bibliothek arbeitet auch eng mit PyData-Tools zusammen und ermöglicht die Verwendung von Standard-Pandas- und NumPy-Objekten zum Plotten.

Visualisierung von Python-Zeitreihen

Zeitreihendaten sind die Reihe von Datenpunkten, die in zeitlicher Reihenfolge aufgelistet sind. Es ist eine Abfolge aufeinanderfolgender Zeitpunkte mit gleichen Intervallen und besteht aus Analysemethoden, um aussagekräftige Erkenntnisse und andere nützliche Eigenschaften von Daten zu extrahieren. Der Zeitreihentyp von Daten ist in vielen Branchen wie Pharmazie, Einzelhandel, Transportwesen, Finanzen und sogar Social-Media- und E-Mail-Marketing-Unternehmen sowie vielen anderen wichtig.

Im Folgenden finden Sie alle Beispiele für Zeitreihendaten:

  • Medizin: Herzfrequenzüberwachung, Gewichtsverfolgung, Blutdruckverfolgung usw.
  • Einzelhandel: Die Anzahl der verkauften Artikel pro Stunde während eines Zeitraums von 24 oder 48 Stunden
  • Transport: die Anzahl der Reisenden, die während eines Zeitraums von einer Woche oder einem Monat reisen
  • Volkswirtschaft: Bruttoinlandsprodukt, Verbraucherpreisindex etc.

Ein Liniendiagramm ist die am häufigsten verwendete Methode zur Visualisierung der Zeitreihendaten. Normalerweise ermöglicht die Diagrammanzeige Interaktionen, wie z. B. das Vergrößern für detailliertere zeitbasierte Daten oder das Verkleinern für mehr übergeordnete Datenansichten.

Ein Python-Visualisierungsbeispiel

Datenvisualisierungs- und Dashboard-Tools umfassen eine Vielzahl von Diagrammtypen. Tools wie Python und die oben erwähnten Python-Grafikbibliotheken können dabei helfen, nützliche und informative Visualisierungen zu erstellen, wenn Sie über die bereitgestellten Diagrammtypen hinausgehen müssen. Beispielsweise enthalten die meisten Produkte keine erweiterten Visualisierungen wie Sankey-Diagramme, Heatmaps oder Steamgraphs. Slingshot macht es einfach, diese erweiterten Visualisierungen in Python hinzuzufügen.

Standardmäßig enthält eine Python-Visualisierung in Slingshot diese Bibliotheken in Ihrem Skript-Editor:

 #import matplotlib #import matplotlib.pyplot as plt #import numpy as np #import pandas as pd

Und standardmäßig sind die standardmäßig im Skripteditor verfügbaren Felder die, die Sie in der Feldauswahl im Visualisierungseditor ausgewählt haben:

 #data['Territory'] #data['CampaignID'] #data['Sum of Spend']

Sie erstellen Ihre Visualisierung wie jedes andere integrierte Diagramm. Der einzige Unterschied besteht darin, dass dieser mit etwas Python-Code erstellt wird:

 campaignid = np.unique(np.array(data['CampaignID'])) territory = np.unique(np.array(data['Territory'])) spend = np.array(data['Sum of Spend']).reshape((7, 5)) fig, ax = plt.subplots(figsize=(5.5, 6.5)) im = ax.imshow(spend) # Show all ticks... ax.set_xticks(np.arange(len(territory))) ax.set_yticks(np.arange(len(campaignid))) # ... and label them with the respective list entries ax.set_xticklabels(territory) ax.set_yticklabels(campaignid) # Loop over data dimensions and create text annotations. for i in range(len(campaignid)): for j in range(len(territory)): text = ax.text(j, i, spend[i, j], ha="center", va="center", color="w") ax.set_title("Campaign Spend (dollars)") fig.tight_layout()

Das Ergebnis ist eine schöne Heatmap-Visualisierung, die Sie ganz einfach mit dem Rest Ihres Teams teilen können!

Python Data Visualization for Beginners

Abschließende Gedanken

Da sich Unternehmen weiterhin auf Daten verlassen, um bessere und faktenbasierte Entscheidungen zu treffen, wird die Bedeutung der Datenvisualisierung noch weiter zunehmen. Und da Visualisierungstechniken wie Diagramme und Grafiken im Vergleich zu herkömmlichen Tabellenkalkulationen und veralteten Datenberichten effizienter in Bezug auf das Verständnis von Daten sind, ist die Verwendung von Tools wie Python zur Erstellung von Datenvisualisierungen eine Notwendigkeit für jedes funktionsübergreifende Team.

Doch trotz der Bedeutung von Daten und Erkenntnissen reicht es nicht mehr aus, sie nur zu haben. Um das Pull-Potenzial der Daten auszuschöpfen, müssen Sie diese Daten in Aktionen umwandeln, die in Ihren täglichen Betriebsablauf passen. Mit Slingshot können Sie nahtlos von Erkenntnissen zu Aktionen übergehen.

Mit Slingshot können Sie Daten analysieren, ansprechende Datenvisualisierungen erstellen, mit allen Personen in Ihrem Unternehmen zusammenarbeiten und all Ihre Projekte mühelos verwalten – alles von derselben Plattform aus.

Möchten Sie mehr erfahren? Testen Sie Slingshot kostenlos und sehen Sie, wie es Ihnen dabei helfen kann, umsetzbare Erkenntnisse zu nutzen und gleichzeitig Ihrem Team die Nutzung von Daten zu erleichtern, eine datengesteuerte Kultur zu pflegen und die Produktivität zu steigern.