愛好者的基本數據科學技能

已發表: 2018-06-26
目錄顯示
大數據的五個 V
1. 數據營
2. 課程
3. 資料庫
4. 卡格爾
5. 數據查詢

數據實際上以指數速度增長,已經達到 PB! 你能相信世界上 90% 的數據都是在過去兩年中創建的嗎? 有了這個數量,數據管理就成了一件棘手的事情。 難怪基本的數據科學技能佔據了首位。

大數據的五個 V

大數據通常使用五個 V 來描述。 即——數量、速度、多樣性、真實性和價值。

  • 1. 數據量是指目前使用的數百萬移動設備每秒產生的海量數據。 我們生成的所有這些電子郵件、推特消息、照片、視頻剪輯、傳感器數據等都是對許多公司最有價值的數據。
  • 2. 數據速度是指新數據產生的速度,以及它可以從一個地方轉移到另一個地方以提高盈利能力的速度。
  • 3. 數據多樣性是我們所有人都可以聯繫到的。 過去,對於大多數組織而言,數據意味著數據庫和 Excel 表格。 然而,今天的數據意味著更多。 世界上 80% 的數據是非結構化的,想想你所做的照片、視頻和 Twitter 更新。
  • 4. 數據真實性是指數據的可信程度。 隨著數據的規模越來越大,我們盡量保持數據的干淨是很重要的,因為臟數據是一種病毒,它會給您帶來前所未有的痛苦。
  • 5. 數據價值是您數據的真正價值。 您收集了大量數據並決定對其進行處理。 一切都很好。 但是這些數據能為您的公司增加什麼價值? 您從投資數據中獲得什麼好處才是最重要的?

所以,如果你被大數據和數據科學的熱潮所吸引,我建議你看看下面列出的五種資源。

1.數據營

Datacamp 最適合在 Python 和 R 方面幾乎沒有經驗的人。它從最基本的開始,採用循序漸進的方法,您會遇到一個接一個的問題。 這是初學者的天賜之物,價格在預算範圍內。

如果您想訂閱一年並訪問高級項目和功能,請留意 Datacamp 提供的大量折扣。 它有幾個你可以掌握的曲目,每個曲目包括大約 20-30 門課程。 熱門曲目包括:

  • 一個。 使用 Python 的數據科學家
  • 灣。 使用 R 進行定量分析
  • C。 使用 Python 處理數據
  • d。 使用 R 導入和清理數據
  • e. 使用 R 進行數據可視化

如果您的時間較少,您還可以參加較小的課程,例如:

  • 一個。 用於數據科學的 Python 簡介
  • 灣。 簡介
  • C。 在 PostgreSQL 中加入數據
  • d。 中級

2.課程

Coursera 是學習從數據科學到軍事歷史的最佳平台之一,我親身體驗過。 您可以選擇審核課程並免費訪問課程資料。 Coursera 上一些最好的數據科學課程是:

一個。 數據分析和演示技巧:普華永道方法 - 該專業將幫助您獲得數據分析的實踐經驗以及將商業智能轉化為現實世界成果的專業知識。 它將讓您更好地理解、過濾和應用數據,進而幫助您更快地解決問題。 您將熟練使用 Microsoft Excel、PowerPoint 和其他常見的數據分析和交流工具。 最重要的是,您將學會閱讀數據並呈現它。

灣。 大數據,加州大學聖地亞哥分校——如果您需要了解大數據以及大數據將如何影響您的業務,這個專業適合您。 您將能夠獲得大數據科學家和工程師使用的工具和系統的實踐經驗,例如 Hadoop 與 MapReduce、Spark、Pig 和 Hive。 您將學習執行預測建模並利用圖形分析對問題進行建模。 如果您辛勤工作到最後,您將能夠完成與數據軟件公司 Splunk 合作開發的 Capstone 項目,您將可以在其中應用您學到的基本概念。

C。 約翰霍普金斯大學的數據科學專業——該專業涵蓋了您在整個數據路徑中所需的概念和工具,從提出正確的問題到進行推理以及以簡單而強大的格式發布結果.

d。 SQL for data science, UC Davis - 本課程旨在為您提供 SQL 基礎知識的入門知識,以及使用數據來幫助您遷移到數據科學世界的數據庫需求。 本課程從最基本的開始,並假設 SQL 知識為零。 複雜性穩步增長,逐漸讓您編寫簡單和復雜的查詢來幫助您從表中選擇數據。

3. 資料庫

如果您需要來自全球不同行業的全面、乾淨且隨時可用的 Web 數據集,請查看 Datastock。 該解決方案非常適合那些正在尋找即用型數據集以執行分析和獲得洞察力並獲得數據科學技能的人。

很棒的是,您在購買之前會獲得一個免費的樣本數據集。 您可以自己測試數據質量,然後再決定。

4. 卡格爾

Kaggle 是進行數據科學項目的地方,也是新興數據科學家中最受歡迎的網站之一。 它提供了各種選項,例如:

  • 一個。 開始你自己的新項目
  • 灣。 探索他人創建的項目
  • C。 參加他們贊助的比賽之一

5. 數據查詢

他們的實踐方法教您成為數據科學家、數據分析師或數據工程師所需的所有技能。 您可以通過多種方式學習:

  • 一個。 編寫代碼
  • 灣。 處理數據
  • C。 建築項目