当今世界的数据科学家及其数据科学方法

已发表: 2022-05-19

目录显示

在地球上行走的最著名的数据科学家

艾伦·图灵

亚历克斯·克里热夫斯基

伊恩·古德费罗

塞巴斯蒂安·特伦

吴恩达

以及前进的道路……

使用云基础设施处理数据

物联网

更强大的自然语言处理

卫生保健

数据科学是一个跨越式发展的领域，就像人造和机器创建的数据本身一样。它导致来自数学和生物科学等不同领域的人数增加，将数据作为解决问题的工具。算法已经远远超出了处理数字和文本的范围。今天，它们处理几乎任何数据格式，例如图像、视频和音频。这使公司能够访问更广泛的非结构化数据。数据源也在增长，如今社交媒体数据是许多试图对个人进行描述的公司的关键来源之一。所有这些都建立在已经呈指数增长的结构化数据之上。

在地球上行走的最著名的数据科学家

数据科学已经有了巨大的发现，我们可以期待在未来的日子里有更多的发现。我们正处于数据科学革命性发现正在发生并被用于解决现实生活问题的关键时刻。从一开始就值得看看一些最大的发现和发现。

艾伦·图灵

艾伦·图灵可能是现存最著名的数据科学家之一。他被认为是人工智能和理论计算机科学之父。

他通过电影《模仿游戏》成为了一个家喻户晓的名字。然而，他发明的 Bombe（用于破解 Enigma（二战时期的德国密码装置）的机电设备）并不是他唯一的发现。他的研究工作促成了第一台可以计算整个数学场景的机器的诞生。该机器的试验模型具有 1MHz 的时钟速度——当时最快的计算机。在冷战期间，他的研究甚至被用来计算飞机的运动量。

他还创建了图灵测试——一组规则来确定计算机是否可以像人类一样思考和行动。根据机器模仿人类的程度，计算通过率。我们今天使用许多测试变体，最常见的一种是验证码。 Captcha 是一种反向图灵测试，人类需要证明他们不是机器。

亚历克斯·克里热夫斯基

2012 年被证明对深度学习（机器学习的一个分支，其中使用人工神经网络从大数据中提取特征）至关重要。 Krizhevsky 使神经网络达到了前所未有的水平。他创立了“Alexnet”，一种将 Imagenet 比赛的错误率降低到一半（近 15%）的算法。 ImageNet Challenge 是个人需要在数百个类别中对数百万个对象进行分类的地方。

他的算法可以以近 75% 的准确率检测猫，并以超过 80% 的准确率从 YouTube 视频中检测出人脸。在安全系统上运行的面部识别软件，或者你今天用来解锁手机的那些软件，都可以归因于这个人。由于使用神经网络检测图像，医学成像是另一个得到巨大推动的领域。

伊恩·古德费罗

Ian Goodfellow 向世界介绍了生成对抗网络（GAN），它可以有两种类型的模型——

生成器模型经过数据训练后，会尝试创建相同类型的新示例。
鉴别器模型试图对真实和虚假（生成）的内容进行分类。

不幸的是，生成器模型今天在最知名的 DeepFakes 中被广泛滥用。许多人在互联网上发布了受欢迎的人的令人难以置信的演讲——这些演讲后来都被发现是 DeepFakes。它已经打开了一罐蠕虫病毒，几乎任何拥有笔记本电脑和互联网连接的人都可以从现有视频创建一个全新的视频，并让演讲者说任何话。发挥作用的人工智能从现有视频中学习，然后能够自动模仿面部表情、声音和说话风格。

该算法已经侵入了其他机器代码以前没有的地方——人类的创造力。它可以创建绘画并生成面孔（不存在）。 GAN 制作的画作在拍卖会上的售价甚至高达 40 万美元。由于现在情况已经失控，像 Adobe 这样的公司已经提出了发现虚假内容的新技术。 GAN 不仅影响了当前的 AI 场景，而且可能在未来几年引发更激进的发现。

塞巴斯蒂安·特伦

虽然你们中的大多数人一定听说过特斯拉，这是第一家让大众真正可以使用自动驾驶汽车的公司，但很少有人听说过塞巴斯蒂安·特伦的名字。众所周知，自动驾驶汽车之父，Thrun 在 2005 年五角大楼举办的自动驾驶汽车竞赛中获胜。他还在离开之前建立并运营了谷歌无人驾驶汽车项目，创办了 Udacity，让大众更容易接受教育。然而，他在机器人技术方面的工作早在 1997 年就开始了，当时他为波恩德意志博物馆创建了第一个机器人导游。他还与多个领先的 AI 实验室有联系，例如 CMU 和斯坦福大学的实验室。

吴恩达

开源社区以及像 Andrew Ng（Coursera 的联合创始人）这样的数据科学家都做出了巨大的贡献，以使大众可以访问数据科学。谷歌在 2015 年免费使用 TensorFlow，Facebook 在 2016 年紧随其后推出了 PyTorch。Python 等语言（如 Scikit Learn 和 Pandas）的自定义库让任何人都可以在几个小时内轻松上手）。

像 Andrew 的课程帮助没有数学背景的人深入了解 AI 算法的工作原理。还有一些网站，如 Kaggle 和 GitHub，让互联网上的任何人都可以轻松访问 AI 问题、数据集和解决方案。

以及前进的道路……

我们刚刚讨论了一些为数据科学领域做出贡献的最大的研究项目、科学家和教育工作者，但接下来会发生什么？哪些工具将发挥更大的作用？数据科学社区接下来关注哪些问题？公司如何尝试利用所有这些研究和发现来推动数据驱动的决策制定？要知道这些问题的答案，必须看看该领域的最新趋势——

使用云基础设施处理数据

数据收集每年都在增长。公司增加了新的来源，例如第三方来源或社交媒体数据。然而，挑战在于对如此庞大的数据集进行清理、规范化、处理和格式化。由于其中许多来源产生半结构化或非结构化数据，因此处理这些数据需要更多资源。在测试数据上运行算法可能被证明是本地机器（笔记本电脑）上的一项重大挑战。

这就是像 AWS 这样的云服务提供商看到他们的业务增长到数十亿美元的原因。像 AWS S3 这样的云服务提供了非常便宜的数据保存服务。这些也是最早出现的一些云服务。数据存储只是一个开始，处理和格式化的新服务也得到了更大的应用。如今，与数据科学家相比，能够为数据驱动系统计算和创建高效基础架构的数据工程师的需求量更大。

所有这一切都改变了公司使用大数据和云服务的方式。数据本身由 DaaS（数据即服务）提供商（如 PromptCloud）作为服务提供。这些服务允许公司通过指定他们需要从哪些网站抓取数据以及所需的数据点来访问第三方数据或竞争对手数据。

物联网

虽然物联网并不新鲜，但只是现在越来越多的物理设备开始相互通信。连接到云的设备比以往任何时候都多，它们正在收集和共享通过传感器收集的所有数据。

这使新时代的解决方案成为可能，例如机器的远程诊断。软件解决方案可以使用传感器数据为您提供不同零件和配件的大致寿命。当系统可能停止工作时，数据有助于通知个人。随着越来越多的数据被收集，深度学习发挥了它的魔力，我们将使用更多的数据来对连接到物联网的机器做出更好的预测。除了过去几年蓬勃发展的仓库机器人之外，我们还可能会看到物联网在工业层面的更高使用率。

更强大的自然语言处理

作为人工智能的一个子集，NLP 处理人类语言。这就是 Siri 或 Alexa 的动力。它涉及如何实时使用语言，而不是只关注语法构成。预计公司将在新产品中使用 NLP 的最新发现，以便个人可以更轻松地与机器和软件交互。我们离你对着你的电脑说话并且它会为你执行任务的日子已经不远了。

卫生保健

机器学习和数据科学极大地影响了医学科学。我们已将其应用于解决糖尿病检测、癌细胞识别、放射学和病理学等问题。斯坦福大学进行的一项研究表明，人工智能可以像医生一样识别皮肤癌。

未来十年将看到大量研究工作和论文投入实际应用。我们可以期待多项突破——

甚至在疾病发生之前就对其进行识别和预测。
机器可以比人类更有效地处理医学图像。
预测爆发，例如 COVID-19。
通过智能手表等多种方式进行更智能的健康记录和跟踪。

我们走过的距离是巨大的！我们可以在今天脚趾甲大小的芯片上执行需要填满整个房间的机器的计算。芯片制造的进步，以及更快的互联网和数据传输速度，直接促进了数据科学及其实际应用的发展。数据科学的未来将取决于多个部门和组织，民主数据科学将为所有人创造一个公平的领域。