如何打造完美的數據科學團隊 – PromptCloud

已發表: 2018-07-10
目錄顯示
數據科學團隊中需要的人
人們如何作為一個團隊工作?
尋找什麼 -
數據工程師:
數據科學家:
數據管理員:

如果您決定在數據的支持下發展業務,並決定組建一支由經驗豐富的人員組成的數據科學團隊,請務必記住,數據科學是一項團隊運動,您需要聘請在團隊環境中工作得更好的人,無論他們的個人能力如何。 需要一大群人,他們都在不同的環境下工作,一起來解決實際的數據科學項目。 那麼你理想的數據科學團隊會包括誰呢?

數據科學家,他們將成為項目創新的驅動引擎。

項目經理,以確保每個人都遵守時間表,並將項目發展成盒裝的科學實驗。

執行和開發基礎設施的數據工程師。

與外部有聯繫的人,以幫助獲取數據和反饋,是參與管理職位的主要人員。

數據科學團隊中需要的人

數據工程師是一個必須處理設置所需基礎設施、環境,並將理論算法和想法轉換為運行代碼和應用程序的人。 他可能會構建一個數據庫,或者從該數據庫中提取數據供人們分析。 他可能還需要將想法轉化為生產級別的機器學習產品,並將其轉化為客戶端-服務器模型,以便將它們應用於龐大的觀察數據庫,甚至實時運行,從而使產品使用數據,隨著時間的推移變得更聰明。

因此,數據科學家可能會從數據庫中提取數據,對其進行分析,對其進行實驗,將其可視化並將這些結果傳達給數據科學經理,以及組織中的其他人,然後他們將轉移數據向前。 通常,數據科學家會將他們開發的任何機器學習算法或預測算法的實現傳遞給數據工程師,然後由數據工程師確保程序可以大規模運行。

第三個關鍵人物是數據科學經理——負責保持團隊就位和高效運行的人。 在理想的世界中,您甚至可能不需要數據科學經理,但是,數據科學經理確保每個人都相互交互並且事情不斷發展。 他們還招募和建立數據科學團隊,與組織中的高層管理人員和整個組織中處於同一級別的合作者進行互動,以確保他們獲得所有信息。

他們向其他人宣傳數據科學團隊的發現以及他們的能力,並鼓勵人們將他們的問題帶給團隊。

人們如何作為一個團隊工作?

他們作為一個整體一起工作,通常每個人都在處理單獨的項目或數據科學問題的單獨子問題,然後他們聚在一起,舉行聯合小組會議和聯合演講,討論他們的想法和他們面臨的挑戰。 他們還與外部人員互動以獲取意見以及他們認為對客戶有吸引力的內容。 他們還必須讓每個人都了解常規基礎設施成本以及 AWS 等月度成本。

尋找什麼 -

數據工程師:

因此,您開始尋找適合您團隊的完美數據工程師。 但是那個完美的人應該是誰?

他們需要具備豐富的硬件知識,包括存儲和計算方面的知識,以及數據庫軟件知識。 您將處理大量數據。 因此,這些品質非常重要,以便大規模運行您開發的那些數據過程和那些數據預測算法,而不會受到任何干擾。 他們還需要對數據科學和算法有足夠的了解,以便與數據科學團隊的其他成員進行互動。 雖然數據工程師的背景通常是計算機科學和計算機工程,但沒有這樣的硬性規定,他們也可能來自其他地方。 他們可能來自定量背景,並且可能通過 Coursera 的在線課程在旅途中學習了一些計算機科學知識,或者他們可能親自參加了一些課程。 他們可能還需要知道如何使用像 Hadoop 這樣的軟件來執行和運行複雜的算法,這是一種並行處理基礎設施。 現在,他們不一定需要知道這些最新流行語中的任何一個。 但確實,他們需要具備多種技能,才能構建可維護且可擴展的數據基礎架構。

同樣,他們需要能夠自己解決瑣碎的問題。 這又是一個人,他通常是為數不多的單獨負責數據基礎設施的人之一。 因此,他們通常需要能夠自己回答一些問題。 他們需要能夠走出去並從互聯網上收集各種信息。 他們需要能夠提出問題並找出合適的硬件,無論是在線還是通過論壇。 他們需要了解安全措施和協議。 從每隔一天就會出現新功能和平台的意義上說,這個角色沒有得到很好的定義。 所以數據工程師必須知道選擇哪種工具,集成哪種技術等等。

數據科學家:

你不能建立一個沒有一名或多名數據科學家的數據科學團隊,因為他們充當汽車的引擎。 數據科學家必須具備一套技能,使他們能夠執行他每天可能需要完成的所有研究、分析和發現相關任務。 如果您處於非常早期的階段,並且您正在招聘您的第一個數據科學團隊,那麼他們可能必須更加多面手。 他們可能需要能夠完成部分數據工程以及數據科學。 一般來說,他們需要能夠進行統計和編碼。 他們需要對預測和機器學習有相當多的了解。 這是兩個不同的任務,推理和預測。 重要的是要知道有些人會在一個方面做得更好,而有些人會在另一個方面做得更好。 它歸結為您的組織正在做什麼。 如果您正在做更多的事情,構建預測工具,它們可能需要在機器學習方面更強大一些。

但是如果你更喜歡實驗並且需要提出新的假設,他們可能需要在統計和推理方面做得更好一些。 在最終遊戲中,他們需要執行統計推斷或預測來處理數據,然後傳達這些結果。 因此,數據溝通技能既包括分析數據的能力,也包括創建智能可視化的能力,以便以不了解數據科學的人理解數據如何與現實生活中的業務問題相關聯的方式傳達這些發現和預測。 R 和 Python 是最受科學家歡迎的,即使他們不知道兩者,也可以輕鬆掌握。 了解諸如 angular.js 之類的可視化將是一個加分項。 他們至少有使用過一種數據庫的經驗——MongoDB、SQL、Cassandra 或 PostgreSQL,在這些數據庫中,他們實際上已經與從數據庫中提取數據進行了交互。

數據管理員:

數據科學團隊的最後一個,可能也是最重要的成員是數據科學經理。 雖然看起來沒有必要管理一個成熟的、經驗豐富的數據分析師、科學家和工程師團隊,但如果沒有數據經理,團隊甚至可能因自我衝突、意見分歧而分崩離析等。他們充當數據科學團隊成員之間的溝通橋樑,還負責識別和招募新人。 它們幫助每個人確定他們的個人目標和優先事項,確定組織內需要通過數據科學解決的問題,並將正確的人放在正確的問題上。

那麼是時候係好安全帶,建立合適的團隊並在數據探索中擊敗世界了嗎?