當今世界的數據科學家及其數據科學方法

已發表: 2022-05-19

目錄顯示

在地球上行走的最著名的數據科學家

艾倫·圖靈

亞歷克斯·克里熱夫斯基

伊恩·古德費羅

塞巴斯蒂安·特倫

吳恩達

以及前進的道路……

使用雲基礎設施處理數據

物聯網

更強大的自然語言處理

衛生保健

數據科學是一個跨越式發展的領域，就像人造和機器創建的數據本身一樣。它導致來自數學和生物科學等不同領域的人數增加，將數據作為解決問題的工具。算法已經遠遠超出了處理數字和文本的範圍。今天，它們處理幾乎任何數據格式，例如圖像、視頻和音頻。這使公司能夠訪問更廣泛的非結構化數據。數據源也在增長，如今社交媒體數據是許多試圖對個人進行描述的公司的關鍵來源之一。所有這些都建立在已經呈指數增長的結構化數據之上。

在地球上行走的最著名的數據科學家

數據科學已經有了巨大的發現，我們可以期待在未來的日子裡有更多的發現。我們正處於數據科學革命性發現正在發生並被用於解決現實生活問題的關鍵時刻。從一開始就值得看看一些最大的發現和發現。

艾倫·圖靈

艾倫·圖靈可能是現存最著名的數據科學家之一。他被認為是人工智能和理論計算機科學之父。

他通過電影《模仿遊戲》成為了一個家喻戶曉的名字。然而，他發明的 Bombe（用於破解 Enigma（二戰時期的德國密碼裝置）的機電設備）並不是他唯一的發現。他的研究工作促成了第一台可以計算整個數學場景的機器的誕生。該機器的試驗模型具有 1MHz 的時鐘速度——當時最快的計算機。在冷戰期間，他的研究甚至被用來計算飛機的運動量。

他還創建了圖靈測試——一組規則來確定計算機是否可以像人類一樣思考和行動。根據機器模仿人類的程度，計算通過率。我們今天使用許多測試變體，最常見的一種是驗證碼。 Captcha 是一種反向圖靈測試，人類需要證明他們不是機器。

亞歷克斯·克里熱夫斯基

2012 年被證明對深度學習（機器學習的一個分支，其中使用人工神經網絡從大數據中提取特徵）至關重要。 Krizhevsky 使神經網絡達到了前所未有的水平。他創立了“Alexnet”，一種將 Imagenet 比賽的錯誤率降低到一半（近 15%）的算法。 ImageNet Challenge 是個人需要在數百個類別中對數百萬個對象進行分類的地方。

他的算法可以以近 75% 的準確率檢測貓，並以超過 80% 的準確率從 YouTube 視頻中檢測出人臉。在安全系統上運行的面部識別軟件，或者你今天用來解鎖手機的那些軟件，都可以歸因於這個人。由於使用神經網絡檢測圖像，醫學成像是另一個得到巨大推動的領域。

伊恩·古德費羅

Ian Goodfellow 向世界介紹了生成對抗網絡（GAN），它可以有兩種類型的模型——

生成器模型經過數據訓練後，會嘗試創建相同類型的新示例。
鑑別器模型試圖對真實和虛假（生成）的內容進行分類。

不幸的是，生成器模型今天在最知名的 DeepFakes 中被廣氾濫用。許多人在互聯網上發布了受歡迎的人的令人難以置信的演講——這些演講後來都被發現是 DeepFakes。它已經打開了一罐蠕蟲病毒，幾乎任何擁有筆記本電腦和互聯網連接的人都可以從現有視頻創建一個全新的視頻，並讓演講者說任何話。發揮作用的人工智能從現有視頻中學習，然後能夠自動模仿面部表情、聲音和說話風格。

該算法已經侵入了其他機器代碼以前沒有的地方——人類的創造力。它可以創建繪畫並生成面孔（不存在）。 GAN 製作的畫作在拍賣會上的售價甚至高達 40 萬美元。由於現在情況已經失控，像 Adobe 這樣的公司已經提出了發現虛假內容的新技術。 GAN 不僅影響了當前的 AI 場景，而且可能在未來幾年引發更激進的發現。

塞巴斯蒂安·特倫

雖然你們中的大多數人一定聽說過特斯拉，這是第一家讓大眾真正可以使用自動駕駛汽車的公司，但很少有人聽說過塞巴斯蒂安·特倫的名字。眾所周知，自動駕駛汽車之父，Thrun 在 2005 年五角大樓舉辦的自動駕駛汽車競賽中獲勝。他還在離開之前建立並運營了谷歌無人駕駛汽車項目，創辦了 Udacity，讓大眾更容易接受教育。然而，他在機器人技術方面的工作早在 1997 年就開始了，當時他為波恩德意志博物館創建了第一個機器人導遊。他還與多個領先的 AI 實驗室有聯繫，例如 CMU 和斯坦福大學的實驗室。

吳恩達

開源社區以及像 Andrew Ng（Coursera 的聯合創始人）這樣的數據科學家都做出了巨大的貢獻，以使大眾可以訪問數據科學。谷歌在 2015 年免費使用 TensorFlow，Facebook 在 2016 年緊隨其後推出了 PyTorch。Python 等語言（如 Scikit Learn 和 Pandas）的自定義庫讓任何人都可以在幾個小時內輕鬆上手）。

像 Andrew 的課程幫助沒有數學背景的人深入了解 AI 算法的工作原理。還有一些網站，如 Kaggle 和 GitHub，讓互聯網上的任何人都可以輕鬆訪問 AI 問題、數據集和解決方案。

以及前進的道路……

我們剛剛討論了一些為數據科學領域做出貢獻的最大的研究項目、科學家和教育工作者，但接下來會發生什麼？哪些工具將發揮更大的作用？數據科學社區接下來關注哪些問題？公司如何嘗試利用所有這些研究和發現來推動數據驅動的決策制定？要知道這些問題的答案，必須看看該領域的最新趨勢——

使用雲基礎設施處理數據

數據收集每年都在增長。公司增加了新的來源，例如第三方來源或社交媒體數據。然而，挑戰在於對如此龐大的數據集進行清理、規範化、處理和格式化。由於其中許多來源產生半結構化或非結構化數據，因此處理這些數據需要更多資源。在測試數據上運行算法可能被證明是本地機器（筆記本電腦）上的一項重大挑戰。

這就是像 AWS 這樣的雲服務提供商看到他們的業務增長到數十億美元的原因。像 AWS S3 這樣的雲服務提供了非常便宜的數據保存服務。這些也是最早出現的一些雲服務。數據存儲只是一個開始，處理和格式化的新服務也得到了更大的應用。如今，與數據科學家相比，能夠為數據驅動系統計算和創建高效基礎架構的數據工程師的需求量更大。

所有這一切都改變了公司使用大數據和雲服務的方式。數據本身由 DaaS（數據即服務）提供商（如 PromptCloud）作為服務提供。這些服務允許公司通過指定他們需要從哪些網站抓取數據以及所需的數據點來訪問第三方數據或競爭對手數據。

物聯網

雖然物聯網並不新鮮，但只是現在越來越多的物理設備開始相互通信。連接到雲的設備比以往任何時候都多，它們正在收集和共享通過傳感器收集的所有數據。

這使新時代的解決方案成為可能，例如機器的遠程診斷。軟件解決方案可以使用傳感器數據為您提供不同零件和配件的大致壽命。當系統可能停止工作時，數據有助於通知個人。隨著越來越多的數據被收集，深度學習發揮了它的魔力，我們將使用更多的數據來對連接到物聯網的機器做出更好的預測。除了過去幾年蓬勃發展的倉庫機器人之外，我們還可能會看到物聯網在工業層面的更高使用率。

更強大的自然語言處理

作為人工智能的一個子集，NLP 處理人類語言。這就是 Siri 或 Alexa 的動力。它涉及如何實時使用語言，而不是只關注語法構成。預計公司將在新產品中使用 NLP 的最新發現，以便個人可以更輕鬆地與機器和軟件交互。我們離你對著你的電腦說話並且它會為你執行任務的日子已經不遠了。

衛生保健

機器學習和數據科學極大地影響了醫學科學。我們已將其應用於解決糖尿病檢測、癌細胞識別、放射學和病理學等問題。斯坦福大學進行的一項研究表明，人工智能可以像醫生一樣識別皮膚癌。

未來十年將看到大量研究工作和論文投入實際應用。我們可以期待多項突破——

甚至在疾病發生之前就對其進行識別和預測。
機器可以比人類更有效地處理醫學圖像。
預測爆發，例如 COVID-19。
通過智能手錶等多種方式進行更智能的健康記錄和跟踪。

我們走過的距離是巨大的！我們可以在今天腳趾甲大小的芯片上執行需要填滿整個房間的機器的計算。芯片製造的進步，以及更快的互聯網和數據傳輸速度，直接促進了數據科學及其實際應用的發展。數據科學的未來將取決於多個部門和組織，民主數據科學將為所有人創造一個公平的領域。