提升大數據生態系統中數據科學家的價值

已發表: 2016-10-15
目錄顯示
手動的
自動化
如何增加數據科學家提供的價值

大數據在幾乎所有垂直行業中的巨大影響力和影響力並不為人所知。 借助大數據,可以對看似龐大而復雜的溝通、評論和品牌提及鏈進行細粒度分析。 本練習的目的是揭示迄今為止可能一直隱藏在公司決策者觀點之外的見解。 以美國運通為例。 這家信用卡公司巨頭希望帶來的不僅僅是跟踪指標,以推進其積極的增長計劃。 這促使美國運通投資建立一個複雜而強大的預測模型,該模型包含多達 115 個變量 練習的目的? 研究如何在大數據的幫助下提高客戶的品牌忠誠度並減少客戶流失。

數據科學

這種預測分析是數據科學的一種形式——該領域有助於從大數據(結構化和非結構化)中提取知識或見解。 數據科學的其他一些實現包括統計分析、數據挖掘、數據工程、概率模型、可視化和機器學習。 數據科學是更大的競爭情報領域的一部分,其中還包括數據分析和數據挖掘。

提高下一代數據科學家的生產力

IBM 的大數據傳播者 James Kobielus 撰寫了一篇有趣的文章,強調了可以提高下一代數據科學家生產力的不同方式。 這反過來又會影響全球經濟、金融和社會的命運。

他承認數據科學家在為始終在線的業務環境提供價值方面所發揮的關鍵任務作用。 它們的價值跨越不同的可重複解決方案集成,以幫助分析數據並產生有意義的見解,以幫助利益相關者進行決策過程。

大數據

為什麼提高數據科學家的生產力至關重要

數據科學家在整個大數據生態系統中扮演著許多不同的角色和職責。 其中包括以下任務——

  1. 手動的

  • 設計和開發統計模型
  • 分析這些模型的性能
  • 使用真實數據驗證模型
  • 以非數據專家(利益相關者和決策者)可以理解的方式執行傳達見解的艱鉅任務
  1. 自動化

  • 發起、頭腦風暴和研究客戶業務和情報收集
  • 數據發現
  • 數據分析
  • 數據的抽樣和組織

很明顯,這些任務需要一套人力資本專業知識,而這些專業知識無法在一個人身上找到。 必須建立一個由不同領域專家組成的團隊。 更重要的是,它們必須保持一致,以便在沒有任何政治的情況下友好地實現擁有數據科學家團隊的業務目標。 這可以通過擁有一組強大的流程和協議來實現,團隊中的每個人都需要遵循這些流程和協議。

然而,建立和執行這些協議並不一定意味著數據科學家的生產力下降。 James 查看了現實生活中的示例,其中設置了不同的流程以確保數據科學家在復雜的團隊環境中獲得最佳生產力。 他在這方面特別提到的一個例子是來自 O'Reilly 的 Ben Lorica。 本文旨在為數據科學家提供以下生產力優勢:

  • 提供現成的 API,可用於處理數據分析和可視化領域的各種主要和子步驟。 簡化機器學習處理的端到端流程有助於項目的每一個里程碑,可以成倍地減少時間和成本。 而且這種降低遠遠超過將軟件加入組織現有系統所涉及的成本。
  • 多媒體(音頻、視頻、內容)等數據類型在流媒體和認知計算中發揮著舉足輕重的作用。 通過自動化機器學習,可以輕鬆完成對這些類型數據的吸收和分析。 Ben 建議使用用於語音和計算機視覺的示例管道以及用於其他類型數據的數據加載器。
  • 應用程序可以幫助快速跟踪統計和預測模型的訓練、使用和完善。 此類可擴展機器學習算法的示例包括基於 Spark 的運行時
  • 數據科學家的生產力也可以通過智能擴展多功能機器學習項目的處理管道來提高。 此類組件的示例包括合併和加載庫和優化器。 這些組件的其他實例包括各種數據加載器、特徵化器和內存分配器。

它還討論了設計、明確定義和設置錯誤界限,以幫助檢查機器學習項目的有效性。 在這項工作的幫助下,可以根據預定義的基準來衡量實際性能。 此外,如果模型的實際性能與預期結果有很大偏差,它可以幫助微調模型。

這是世界範圍內不同組織為提高數據科學家的生產力所做的努力的一個例子。 通過這些努力,他們在涉及多個人員、流程、協議和期望的極其複雜的環境中發揮作用。

如何增加數據科學家提供的價值

然後,詹姆斯繼續強調數據科學家如何在工作中表現出色,並在數據分析和可視化領域做得非常好。 有兩個方面——一個是技術本身(以 Hadoop、R、Python 和 Spark 等解決方案的形式),另一個是形成數據科學家接觸點的專家團隊(數據應用程序開發人員、建模人員、數據工程師、高級管理和 ETL 專家)。 他們兩者應該協同工作,為數據科學家提供一個提高生產力的環境。 詹姆斯列出了很多實現這一目標的方法。

  1. 易於處理多個數據集——以醫療中心為例。 它可以為數千名患者維護和存儲數百萬條記錄。 這些可能包括結構化和非結構化數據(病理圖像、醫生筆記等)。 一個典型的大數據實施將是創建一個 Hadoop 數據湖並利用數據以供進一步使用。 另一個示例可以是社交媒體帖子和評論,這些帖子和評論被獲取並存儲在數據集群中。 數據科學家必須能夠輕鬆地從如此多樣化的數據集中獲取數據。 一些例子包括——數據湖、數據集群、雲服務。
  2. Excel 工作職責——數據分析、預測建模、機器學習、數據挖掘和可視化。 這些只是數據科學家參與的眾多職能中的一部分。很自然,他/她將不得不做大量的活動來完成這項工作。 這可能包括數據發現、相似數據聚合、數據加權以匹配宇宙、準備和管理模型以產生更深入的洞察力以及製定、測試和驗證假設中的一項或多項。 無論是簡單的結構化數據還是更複雜的多結構化數據,生產力環境都需要數據科學家在不同的工作職責中表現出色。
  3. 實踐經驗——為數據科學家提供各種範圍,以實施他們對大數據分析應用程序的工作知識。 這些可能包括 R、Python、Spark 和 Hadoop。
  4. 擴展他們的多功能性——如前所述,數據科學家必須在他/她的日常角色和職責中與許多專家互動。 其中包括數據應用程序開發人員、建模人員、數據工程師、高級管理人員和 ETL 專家。 接觸點需要共享有關庫和模板的知識,以幫助簡化機器學習、統計探索、神經網絡、數據倉庫、數據轉換和數據採集等主題的工作和理解。
  5. 監控進度——數據科學家在設計、設計和實施處理用於建模、統計研究和數據挖掘的大規模數據集的過程方面提供了很大的權重。 他/她還執行許多輔助功能,例如業務案例開發、與第三方供應商的互動、管理整個數據分析項目的生命週期,使團隊保持良好的一致性直到最後,並與利益相關者互動並定期更新進度的項目。 在有利的環境下,數據科學家必須能夠跟踪、執行和驗證使他/她能夠正確完成工作的各種組件的正確功能。 這些組件包括庫、建模、技術集成、數據、算法和元數據。

借助這些有用的建議,James 提出了提高大數據生態系統中數據科學家價值的方法。

計劃從網絡獲取數據? 我們是來幫忙的。 讓我們知道您的要求。