探索探索性數據分析過程!

已發表: 2022-06-03
目錄顯示
探索性圖在數據分析中的作用是什麼?
進行探索性數據分析

可以通過多種方式分析數據集。 探索性數據分析過程是可用解決方案中使用最廣泛的方法之一。 簡單來說,該過程涉及從數據集中提取某些數據點並生成圖形。 然後對這些圖表進行可視化分析,以找到趨勢或模式。 可視化還有助於支持聲明或推論,以實現快速決策。 這些決定的結果如下——

  • 數據支持的業務決策
  • 關於數據處理和消費的決定。

探索性圖在數據分析中的作用是什麼?

探索性圖表或可視化有助於清晰地顯示數據。 個人能夠通過單個快照了解部分數據,而無需手動查看數據 - 否則可能需要數小時的練習! 該步驟還可以作為決策的先導,例如可以構建什麼類型的模型或如何處理現有數據,甚至可以通過理解數據來回答什麼類型的業務問題。

進行探索性數據分析

Python 和 R 是最常用的數據分析語言。 Python 在開發人員中最受歡迎,這要歸功於易於使用的第三方庫,如 pandas、seaborn 和 matplotlib。

我們將使用上面提到的庫來探索數據集中提供的數據——泰坦尼克號——Kaggle 的災難機器學習。 在第一步中,我們打印數據集的前幾行以了解數據的外觀。

乘客信息數據集

下一步涉及打印每列的數據類型。 對象列是字符串,浮點列包含十進制值,而 int 列包含數字。

乘客信息數據集

如果你對一些可能無法自我解釋的列感到困惑,這裡有一張我們從 Kaggle 網站獲得的表格,它更好地解釋了這些列——

客戶信息表

為了進一步深入研究數據,我們檢查數據的形狀——行數和列數。 我們還打印與每個數值列相關的主要統計數據點。

乘客信息數據集

這些數據集的一個重要方面是有多少百分比的數據是空的。 在這裡,我們打印每一列的空條目數——

乘客信息數據集

如果您想刪除特定列具有空值的所有行,您可以使用類似下面的代碼。 在這裡,我們只需刪除“年齡”為空的所有行。

編碼信息

下一步涉及從手頭數據集中的不同列組合創建可視化。 我們將做——

單變量分析——單列分析。
雙變量分析——分析兩列(通常是一列對比另一列)。
多變量分析——分析三列或更多列。

那麼探索性圖在數據分析中的作用是什麼? 在第一個示例中,我們可以根據我們的數據集注意到每個年齡段有多少人登上了泰坦尼克號。

乘客信息數據集
年齡與人數的圖表

接下來,我們繪製年齡與倖存者的關係圖,並意識到一個人的年齡並不能決定他或她是否在沉船中倖存下來。

乘客信息數據集
年齡與倖存者的散點圖

我們將票價與票價等級進行對比,發現雖然在某些情況下一等艙票價更高,但所有票價都可以買到便宜的(可能是提前購買)。 但是,三等艙和二等艙的票價幾乎相似。

乘客信息數據集
fair 與 Pclass 的散點圖

這種探索的唯一多變量圖是繪製年齡與同胞兄弟姐妹的關係圖,並得出結論,年輕人有更多兄弟姐妹的機會更高,這可能導致更高的兄弟姐妹兄弟姐妹。 Parch 主要在後期較高,可能是由於個人有孩子。 大多數人的 Parch 只有 1 或 2,表明父母一方或雙方都存在。

乘客信息數據集
年齡散點圖 vs Sibsp vs Parch

將倖存者與班級進行比較,倖存者的人數在班級之間幾乎相同,而第三班級的死亡人數最高。 這可能是由於第三類的數量最多。

乘客信息數據集
倖存者與 Pclass 的圖表

在最後一張圖中,我們將性別與倖存者進行對比,並意識到與男性相比,更大比例的女性倖存下來。 這可能是因為女性被要求首先登上救生艇。

乘客信息數據集
性與倖存者的圖表

探索性數據分析過程可能看起來像頁面上的許多黑色標記,但可視化有助於展現隱藏在數據中的美麗和神秘。 這就是為什麼數據科學家和數據分析師使用探索性分析作為評估數據的主要手段。 這是在設計數據管道或 ETL 系統之前完成的。 可視化有助於更輕鬆地使用數據,無論源和手頭的問題陳述如何。