數據科學家的基本素質
已發表: 2017-01-12自信息技術出現以來,大數據一直在增長。 現在,我們每隔一天創建的數據相當於我們在 2003 年之前積累的所有數據。如此龐大的數據量不僅對企業,而且對整個人類本身都具有寶貴的洞察力。 一段時間以來,大數據分析一直在幫助醫療保健行業進行研究。 更重要的是,大數據甚至可能很快解決癌症之謎。
如果我告訴您,大數據實際上只是一堆如果您不知道如何使用就沒有意義的數據怎麼辦? 這就是數據科學家發揮作用的地方。 為了理解大數據,我們需要數據科學家,而且需要準確的數據科學家。 並且不要讓“數據科學家”這個頭銜欺騙了你,數據科學家應該具備很多品質才能被稱為“數據科學家”。 如果您正在尋找聘請數據科學家或計劃自己成為一名數據科學家,以下是您應該尋找或擁有的品質。
統計思維
將數據轉化為信息是數據科學家的首要工作。 因此,統計學的專業知識是不言而喻的品質。 以定量的心態看待事物對於在處理數據時保持中立並避免偏見很重要。 一個好的數據科學家明白洞察的深度和可靠性會隨著數據量的增加而增加,並且會克制自己不要在數據不足的情況下得出結論。 隨著大量數據的出現,趨勢和見解會以數字的形式出現。 因此,對數字的熱愛對於成為一名真正的數據科學家來說是必要的。 數據科學家應該能夠查詢大量數據以得出可行的見解,然後應用預測建模技術來預測未來趨勢。 掌握統計數據對於準備報告和根據洞察力繪製推薦的行動方案是必要的。
編程技巧
數據科學家將與不同的團隊合作構建管道、工具、模塊、包、網站、儀表板等等。 這並不意味著數據科學家應該是專業的編碼員,但對算法和代碼如何工作的理解可以在數據科學家的工作中大有幫助。 當系統無法為您提供正確的趨勢或見解時,是時候捲起袖子編寫一些代碼了。 如果沒有一些編程技能和技術靈活性,這將是不可能的。
Python 被公認為最通用和兼容的編程語言,是處理數據庫和 MapReduce 類型查詢的理想選擇。 由於易於學習語言和開源,學習 python 不應該成為你和你的數據科學夢想之間的障礙。

許多組織在僱用數據科學家時也考慮擁有出色的“偽代碼技能”。 “偽代碼技能”是用簡單的英語編寫查詢或算法應該如何工作的能力。 這種解決問題的能力對於成為一名數據科學家至關重要。 數據科學是一個黃金標準以驚人的速度變化的行業,它強調了擁有比當前情景要求的更多技能的重要性。
好奇的頭腦
儘管數據科學是一個相當古老的領域,但時不時地會有發現。 尋找新方法來解決老問題的動力是這背後的原因。 數據科學家應該始終保持好奇心,以尋找一種新的、更好的方式來獲取、合併和處理數據,並找到獲得更好洞察力的工具。 一個理想的數據科學家永遠不應該停止好奇,因為數據包含的秘密只會向好奇的人坦白。 一個真正的數據科學家不是試圖看看數據如何證明他的偏見是正確的,而是尋找隱藏在其中的真相。
有了數據,事情有時會變得相當困難,只有好奇心才能驅使你走向結果。 這就是為什麼好奇心是數據科學家最基本的素質之一。
結果導向的性質
數據分析更多的是關於結果而不是過程本身。 只要有預期的結果,您如何將結果與數據一起帶來並不重要。 數據科學家有時可能不得不採取不止一種方法來解決某些問題。 對於數據科學家來說,被小障礙拖住並不是一個好的品質。 在這種情況下,以結果為導向會有所幫助,因為將數據轉換為結果的堅定決心成為了自己的驅動力。 一般來說,數據科學家是在處理不同任務的同時從一個問題轉移到另一個問題的人。 只有結果才能阻止他們的努力。
創造力
創意在這個列表中可能看起來很奇怪。 事實是,它是數據科學家最重要的品質之一。 有創造力的人不怕犯錯,他們嘗試新事物,敢於探索新領域。 他們在失敗中尋找機會,可以輕鬆改變方向。 所有這些對於數據科學來說都是必不可少的。
我們經常將人分為左腦型和右腦型。 像大數據這樣的硬科學很少與創造力聯繫在一起,這是一個很大的錯誤。 數據科學家介於這兩個類別之間,需要一系列創造力來尋找更新的方法和方法來處理數據。 統計數據和數據庫並不是數據科學的全部內容,而是講故事使分析的最終輸出對決策者有用。
當然,僅憑創造力無法成為一名數據科學家。 能夠準備易於使用、有吸引力且引人注目的報告的人可能並不總是最適合數據科學家的角色。 數據科學家可以被稱為創造性的問題解決者。
對數據庫的理解
無論您是使用結構化數據、非結構化數據還是同時使用兩者,優秀的數據科學家都必須對數據庫的工作有基本的了解。 此外,對列式數據庫和關係數據庫的基本了解可以大大簡化數據科學家的工作。 許多企業倉庫仍然使用傳統的關係數據庫。 數據科學家也必須參與這些數據庫的設置,儘管會有技術人員來執行這項任務。 開發可以處理非結構化數據的數據庫基礎設施的訣竅就像一顆櫻桃。
出色的溝通技巧
數據科學家將主要同時與技術、分析和業務人員一起工作。 S(he) 經常充當所有相關方的翻譯。 同時處理技術和商業術語,並知道與需要強大溝通技巧的人一起使用什麼。 分析的輸出通常並不漂亮,至少對於不是數據科學家的人來說是這樣。 洞察力和趨勢被困在數字中,應該以他們理解的方式解釋和傳達給業務團隊和利益相關者。 一個偉大的數據科學家應該能夠使用講故事、隱喻和視覺交流手段將分析中的複雜輸出轉化為來自不同背景的人們能夠理解的更簡單的形式。
對數據的渴望
偉大的數據科學家總是渴望更多的數據。 對數據的追求是沒有任何既定目標的,因為更多的數據總是更好的數據。 數據科學家應該繼續尋找更多的數據來源、更好的獲取數據的方法以及處理數據的創新方法。 獲取更多數據的動力是數據科學家必須具備的,因為數據是分析的燃料。