Visualisasi Data Python untuk Pemula

Diterbitkan: 2021-06-07

Visualisasi data memainkan peran penting dalam menganalisis data dan membuat data lebih jelas dan lebih mudah dipahami oleh semua orang. Representasi visual informasi dengan alat visualisasi data seperti Python membantu mengidentifikasi tren, pola, dan korelasi yang mungkin tidak pernah Anda temukan, atau seperti yang dikatakan ilmuwan komputer Amerika Ben Schneiderman ''Visualisasi memberi Anda jawaban atas pertanyaan yang tidak Anda ketahui telah''.

Di blog ini, kita akan membahas apa itu visualisasi data dengan Python, cara memvisualisasikan data dengan Python menggunakan pustaka visualisasi Python, dan memberi Anda beberapa contoh visualisasi Python untuk membantu Anda lebih memahami kekuatan visualisasi data dan bagaimana Python dapat membantu Anda dalam memanfaatkannya.

Apa itu Visualisasi dengan Python?

Python adalah bahasa pemrograman tujuan umum yang mencakup struktur data tingkat tinggi, tipikal dinamis dan pengikatan dinamis, dan berbagai fitur lain yang membuatnya berharga dan bermanfaat untuk pengembangan aplikasi yang kompleks.

Dengan semakin pentingnya visualisasi data dalam dua dekade terakhir, Python menjadi lebih dari sekedar bahasa pemrograman. Ini telah berkembang menjadi bahasa pemrograman yang paling banyak digunakan untuk ilmu data, menghadirkan pengembang dengan segudang opsi untuk memvisualisasikan data dan mendapatkan wawasan yang tidak dapat diberikan oleh data mentah saja.

Sederhananya, menggunakan Python untuk membuat visualisasi data Anda akan membantu pengguna Anda mendapatkan wawasan data dalam milidetik dibandingkan dengan detik atau bahkan menit mencoba menganalisis dan memahami kumpulan data besar dari data yang tidak diformat yang direpresentasikan dalam format tabel. Lebih baik lagi, menggunakan alat visualisasi data di Python memungkinkan Anda menambahkan warna, garis tren, penanda, anotasi, dan banyak lagi isyarat visual yang membantu pemirsa visualisasi Anda langsung memahami kisah data mereka.

Coba Ketapel

Pustaka Visualisasi Python

Ada banyak perpustakaan visualisasi sumber terbuka dan komersial untuk Python yang menawarkan bagan bisnis, bagan ilmiah, bagan keuangan, pemetaan geospasial, dan banyak lagi. Sebagai pengembang, Anda dapat dengan mudah mengimpor pustaka ini ke dalam proyek Python Anda, dan berdasarkan tipe data yang Anda miliki, dalam beberapa baris kode Anda dapat membuat visualisasi.

Ini adalah 5 pustaka visualisasi data Python paling populer:

  • Matplotlib – Matplotlib adalah perpustakaan visualisasi data pertama Python dan merupakan perpustakaan dasar di mana setiap perpustakaan visualisasi data Python lainnya dibangun. Ini adalah yang paling banyak digunakan dan merupakan perpustakaan plot 2D. Matplotlib dapat menghasilkan plot, diagram batang, diagram lingkaran, histogram, spektrum daya, diagram sebar, diagram kesalahan, dan jenis visualisasi data lainnya. Perpustakaan memungkinkan kontrol visualisasi mutlak. Ini sangat kuat, tetapi juga sangat kompleks – Anda dapat membuat apa saja, tetapi dibutuhkan banyak usaha dan usaha untuk mendapatkan grafik yang terlihat masuk akal.
  • Seaborn – Berdasarkan Matplotlib, Seaborn dikenal untuk membuat visualisasi data Python yang paling menarik secara visual. Pustaka menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang menarik dan informatif dengan kode yang lebih sedikit diperlukan dibandingkan dengan Matplotlib.
  • ggplot – Pustaka ini adalah implementasi Python dari visualisasi data ggplot2 dalam bahasa pemrograman R. ggplot terintegrasi erat dengan perpustakaan Pandas dan menunjukkan salah satu bentuk pembelajaran mesin terbaik setelah diberi tahu cara memetakan variabel ke estetika dan primitif apa yang digunakan. Ini dapat digunakan untuk menghasilkan representasi grafis sederhana dan tidak dapat digunakan untuk membuat grafik yang sangat disesuaikan.
  • Plotly – Plotly memungkinkan pembuatan visualisasi data dan analitik dengan sangat sedikit baris kode yang diperlukan dan memiliki plot kontur yang sangat tidak umum untuk semua perpustakaan lain. Ini dapat menghasilkan banyak visualisasi seperti plot sebar, diagram garis, diagram batang, bilah kesalahan, subplot, histogram, plot kotak, dll. Selain itu, Plotly memiliki kemampuan alat hover yang memungkinkan deteksi outlier atau anomali dalam sejumlah besar titik data.
  • Pandas – Meskipun bukan pustaka visualisasi, Pandas adalah pustaka berperforma tinggi sumber terbuka yang menyediakan fungsi manipulasi data dan transformasi data yang cepat dan fleksibel untuk digunakan dalam pustaka visualisasi Python. Menggunakan API tingkat tinggi Panda untuk pemrosesan data berarti Anda menulis lebih sedikit kode Python untuk memanipulasi data guna mencapai hasil yang sama seperti yang Anda lakukan dengan kode Python yang panjang dan kompleks.

Visualisasi Interaktif Python

Jika Anda mencari alat visualisasi interaktif Python, maka Anda harus mempertimbangkan Bokeh.

Bokeh adalah perpustakaan visualisasi interaktif yang membuat grafiknya menggunakan HTML dan JavaScript. Namun, Bokeh menyediakan API Python untuk membuat visualisasi interaktif di D3.js dengan atau tanpa keharusan menulis kode JavaScript apa pun. Sangat cocok untuk aset data besar atau streaming dan dapat digunakan untuk mengembangkan plot, aplikasi, dan dasbor berbasis web interaktif. Bokeh adalah alat yang sangat kuat untuk menjelajahi dan memahami data Anda dan membuat bagan khusus yang menarik untuk proyek atau laporan. Di ruang visualisasi data Python, Bokeh adalah kandidat #1 untuk membangun visualisasi interaktif.

Pustaka juga bekerja sama dengan alat PyData, dan memungkinkan penggunaan objek Pandas dan NumPy standar untuk merencanakan.

Visualisasi Deret Waktu Python

Data deret waktu adalah deret titik data yang tercantum dalam urutan waktu. Ini adalah urutan titik interval yang sama berturut-turut dalam waktu dan terdiri dari metode untuk menganalisis untuk mengekstrak wawasan yang berarti dan karakteristik data yang berguna lainnya. Jenis data deret waktu penting di banyak industri seperti farmasi, ritel, transportasi, keuangan, dan bahkan media sosial dan perusahaan pemasaran email, serta banyak lainnya.

Berikut ini adalah semua contoh data deret waktu:

  • Obat-obatan: pemantauan detak jantung, pelacakan berat badan, pelacakan tekanan darah, dll.
  • Ritel: jumlah barang yang terjual per jam selama periode 24 jam atau 48 jam
  • Transportasi: jumlah pelancong yang melakukan perjalanan selama periode satu minggu atau satu bulan
  • Ekonomi: produk domestik bruto, indeks harga konsumen, dll.

Bagan garis adalah cara yang paling umum digunakan untuk memvisualisasikan data deret waktu, biasanya tampilan bagan memungkinkan interaksi, seperti memperbesar untuk data berbasis waktu yang lebih detail, atau memperkecil untuk tampilan data tingkat tinggi.

Contoh Visualisasi Python

Visualisasi data dan alat dasbor mencakup berbagai jenis bagan. Alat seperti Python dan pustaka grafis Python yang disebutkan di atas dapat membantu membangun visualisasi yang berguna dan informatif saat Anda perlu melampaui jenis bagan yang disediakan. Misalnya, sebagian besar produk tidak menyertakan visualisasi lanjutan seperti Diagram Sankey, Heatmaps, atau Steamgraphs. Slingshot memudahkan untuk menambahkan visualisasi lanjutan ini dengan Python.

Secara default, visualisasi Python di Slingshot menyertakan pustaka ini di editor skrip Anda:

 #import matplotlib #import matplotlib.pyplot as plt #import numpy as np #import pandas as pd

Dan secara default, bidang yang tersedia secara default di Editor Skrip adalah apa yang Anda pilih dari pemilih bidang di editor visualisasi:

 #data['Territory'] #data['CampaignID'] #data['Sum of Spend']

Anda membuat visualisasi Anda, sama seperti bagan bawaan lainnya. Satu-satunya perbedaan, apakah yang ini dibuat dengan beberapa kode Python:

 campaignid = np.unique(np.array(data['CampaignID'])) territory = np.unique(np.array(data['Territory'])) spend = np.array(data['Sum of Spend']).reshape((7, 5)) fig, ax = plt.subplots(figsize=(5.5, 6.5)) im = ax.imshow(spend) # Show all ticks... ax.set_xticks(np.arange(len(territory))) ax.set_yticks(np.arange(len(campaignid))) # ... and label them with the respective list entries ax.set_xticklabels(territory) ax.set_yticklabels(campaignid) # Loop over data dimensions and create text annotations. for i in range(len(campaignid)): for j in range(len(territory)): text = ax.text(j, i, spend[i, j], ha="center", va="center", color="w") ax.set_title("Campaign Spend (dollars)") fig.tight_layout()

Menghasilkan visualisasi Heatmap yang indah yang dapat Anda bagikan dengan mudah ke seluruh tim Anda!

Python Data Visualization for Beginners

Pikiran Akhir

Karena bisnis terus mengandalkan data untuk membuat keputusan yang lebih baik dan berdasarkan fakta, pentingnya visualisasi data akan semakin berkembang. Dan karena teknik visualisasi seperti bagan dan grafik lebih efisien dalam hal memahami data dibandingkan dengan spreadsheet tradisional dan laporan data usang, menggunakan alat seperti Python untuk membuat visualisasi data merupakan kebutuhan bagi setiap tim lintas fungsi.

Namun, bahkan dengan pentingnya data dan wawasan, memilikinya saja tidak cukup lagi. Untuk membuka potensi tarikan data, Anda perlu mengubah data tersebut menjadi tindakan yang sesuai dengan alur kerja operasi harian Anda. Anda dapat dengan mulus bertransisi dari wawasan ke tindakan dengan Slingshot.

Dengan Slingshot, Anda dapat menganalisis data, membuat visualisasi data yang indah, berkolaborasi dengan semua orang dalam organisasi Anda, dan mengelola semua proyek Anda dengan mudah, semuanya dari platform yang sama.

Tertarik untuk mempelajari lebih lanjut? Coba Slingshot secara gratis dan lihat bagaimana ini dapat membantu Anda memanfaatkan wawasan yang dapat ditindaklanjuti sekaligus mempermudah tim Anda untuk memanfaatkan data, mengembangkan budaya berbasis data, dan meningkatkan produktivitas.