如何打造完美的数据科学团队 – PromptCloud

已发表: 2018-07-10
目录显示
数据科学团队中需要的人员
人们如何作为一个团队工作?
寻找什么 -
数据工程师:
数据科学家:
数据管理员:

如果您决定在数据的支持下发展业务,并决定组建一支由经验丰富的人员组成的数据科学团队,请务必记住,数据科学是一项团队运动,您需要聘请在团队环境中工作得更好的人,无论他们的个人能力如何。 需要一大群人,他们都在不同的环境下工作,一起来解决实际的数据科学项目。 那么你理想的数据科学团队会包括谁呢?

数据科学家,他们将成为项目创新的驱动引擎。

项目经理,以确保每个人都遵守时间表,并将项目发展成盒装的科学实验。

执行和开发基础设施的数据工程师。

与外部有联系的人,以帮助获取数据和反馈,是参与管理职位的主要人员。

数据科学团队中需要的人员

数据工程师是一个必须处理设置所需基础设施、环境,并将理论算法和想法转换为运行代码和应用程​​序的人。 他可能会构建一个数据库,或者从该数据库中提取数据供人们分析。 他可能还需要将想法转化为生产级别的机器学习产品,并将其转化为客户端-服务器模型,以便将它们应用于庞大的观察数据库,甚至实时运行,从而使产品使用数据,随着时间的推移变得更聪明。

因此,数据科学家可能会从数据库中提取数据,对其进行分析,对其进行实验,将其可视化并将这些结果传达给数据科学经理,以及组织中的其他人,然后他们将转移数据向前。 通常,数据科学家会将他们开发的任何机器学习算法或预测算法的实现传递给数据工程师,然后由数据工程师确保程序可以大规模运行。

第三个关键人物是数据科学经理——负责保持团队就位和高效运行的人。 在理想的世界中,您甚至可能不需要数据科学经理,但是,数据科学经理确保每个人都相互交互并且事情不断发展。 他们还招募和建立数据科学团队,与组织中的高层管理人员和整个组织中处于同一级别的合作者进行互动,以确保他们获得所有信息。

他们向其他人宣传数据科学团队的发现以及他们的能力,并鼓励人们将他们的问题带给团队。

人们如何作为一个团队工作?

他们作为一个整体一起工作,通常每个人都在处理单独的项目或数据科学问题的单独子问题,然后他们聚在一起,举行联合小组会议和联合演讲,讨论他们的想法和他们面临的挑战。 他们还与外部人员互动以获取意见以及他们认为对客户有吸引力的内容。 他们还必须让每个人都了解常规基础设施成本以及 AWS 等月度成本。

寻找什么 -

数据工程师:

因此,您开始寻找适合您团队的完美数据工程师。 但是那个完美的人应该是谁?

他们需要具备丰富的硬件知识,包括存储和计算方面的知识,以及数据库软件知识。 您将处理大量数据。 因此,这些品质非常重要,以便大规模运行您开发的那些数据过程和那些数据预测算法,而不会受到任何干扰。 他们还需要对数据科学和算法有足够的了解,以便与数据科学团队的其他成员进行互动。 虽然数据工程师的背景通常是计算机科学和计算机工程,但没有这样的硬性规定,他们也可能来自其他地方。 他们可能来自定量背景,并且可能通过 Coursera 的在线课程在旅途中学习了一些计算机科学知识,或者他们可能亲自参加了一些课程。 他们可能还需要知道如何使用像 Hadoop 这样的软件来执行和运行复杂的算法,这是一种并行处理基础设施。 现在,他们不一定需要知道这些最新流行语中的任何一个。 但确实,他们需要具备多种技能,才能构建可维护且可扩展的数据基础架构。

同样,他们需要能够自己解决琐碎的问题。 这又是一个人,他通常是为数不多的单独负责数据基础设施的人之一。 因此,他们通常需要能够自己回答一些问题。 他们需要能够走出去并从互联网上收集各种信息。 他们需要能够提出问题并找出合适的硬件,无论是在线还是通过论坛。 他们需要了解安全措施和协议。 从每隔一天就会出现新功能和平台的意义上说,这个角色没有得到很好的定义。 所以数据工程师必须知道选择哪种工具,集成哪种技术等等。

数据科学家:

你不能建立一个没有一名或多名数据科学家的数据科学团队,因为他们充当汽车的引擎。 数据科学家必须具备一套技能,使他们能够执行他每天可能需要完成的所有研究、分析和发现相关任务。 如果您处于非常早期的阶段,并且您正在招聘您的第一个数据科学团队,那么他们可能必须更加多面手。 他们可能需要能够完成部分数据工程以及数据科学。 一般来说,他们需要能够进行统计和编码。 他们需要对预测和机器学习有相当多的了解。 这是两个不同的任务,推理和预测。 重要的是要知道有些人会在一个方面做得更好,而有些人会在另一个方面做得更好。 它归结为您的组织正在做什么。 如果您正在做更多的事情,构建预测工具,它们可能需要在机器学习方面更强大一些。

但是如果你更喜欢实验并且需要提出新的假设,他们可能需要在统计和推理方面做得更好一些。 在最终游戏中,他们需要执行统计推断或预测来处理数据,然后传达这些结果。 因此,数据沟通技能既包括分析数据的能力,也包括创建智能可视化的能力,以便以不了解数据科学的人理解数据如何与现实生活中的业务问题相关联的方式传达这些发现和预测。 R 和 Python 是最受科学家欢迎的,即使他们不知道两者,也可以轻松掌握。 了解诸如 angular.js 之类的可视化将是一个加分项。 他们至少有使用过一种数据库的经验——MongoDB、SQL、Cassandra 或 PostgreSQL,在这些数据库中,他们实际上已经与从数据库中提取数据进行了交互。

数据管理员:

数据科学团队的最后一个,可能也是最重要的成员是数据科学经理。 虽然看起来没有必要管理一个成熟的、经验丰富的数据分析师、科学家和工程师团队,但如果没有数据经理,团队甚至可能因自我冲突、意见分歧而分崩离析等。他们充当数据科学团队成员之间的沟通桥梁,还负责识别和招募新人。 它们帮助每个人确定他们的个人目标和优先事项,确定组织内需要通过数据科学解决的问题,并将正确的人放在正确的问题上。

那么是时候系好安全带,建立合适的团队并在数据探索中击败世界了吗?