提升大数据生态系统中数据科学家的价值

已发表: 2016-10-15
目录显示
手动的
自动化
如何增加数据科学家提供的价值

大数据在几乎所有垂直行业中的巨大影响力和影响力并不为人所知。 借助大数据,可以对看似庞大而复杂的沟通、评论和品牌提及链进行细粒度分析。 本练习的目的是揭示迄今为止可能一直隐藏在公司决策者观点之外的见解。 以美国运通为例。 这家信用卡公司巨头希望带来的不仅仅是跟踪指标,以推进其积极的增长计划。 这促使美国运通投资建立一个复杂而强大的预测模型,该模型包含多达 115 个变量 练习的目的? 研究如何在大数据的帮助下提高客户的品牌忠诚度并减少客户流失。

数据科学

这种预测分析是数据科学的一种形式——该领域有助于从大数据(结构化和非结构化)中提取知识或见解。 数据科学的其他一些实现包括统计分析、数据挖掘、数据工程、概率模型、可视化和机器学习。 数据科学是更大的竞争情报领域的一部分,其中还包括数据分析和数据挖掘。

提高下一代数据科学家的生产力

IBM 的大数据传播者 James Kobielus 撰写了一篇有趣的文章,强调了可以提高下一代数据科学家生产力的不同方式。 这反过来又会影响全球经济、金融和社会的命运。

他承认数据科学家在为始终在线的业务环境提供价值方面所发挥的关键任务作用。 它们的价值跨越不同的可重复解决方案集成,以帮助分析数据并产生有意义的见解,以帮助利益相关者进行决策过程。

大数据

为什么提高数据科学家的生产力至关重要

数据科学家在整个大数据生态系统中扮演着许多不同的角色和职责。 其中包括以下任务——

  1. 手动的

  • 设计和开发统计模型
  • 分析这些模型的性能
  • 使用真实数据验证模型
  • 以非数据专家(利益相关者和决策者)可以理解的方式执行传达见解的艰巨任务
  1. 自动化

  • 发起、头脑风暴和研究客户业务和情报收集
  • 数据发现
  • 数据分析
  • 数据的抽样和组织

很明显,这些任务需要一套人力资本专业知识,而这些专业知识无法在一个人身上找到。 必须建立一个由不同领域专家组成的团队。 更重要的是,它们必须保持一致,以便在没有任何政治的情况下友好地实现拥有数据科学家团队的业务目标。 这可以通过拥有一组强大的流程和协议来实现,团队中的每个人都需要遵循这些流程和协议。

然而,建立和执行这些协议并不一定意味着数据科学家的生产力下降。 James 查看了现实生活中的示例,其中设置了不同的流程以确保数据科学家在复杂的团队环境中获得最佳生产力。 他在这方面特别提到的一个例子是来自 O'Reilly 的 Ben Lorica。 本文旨在为数据科学家提供以下生产力优势:

  • 提供现成的 API,可用于处理数据分析和可视化领域的各种主要和子步骤。 简化机器学习处理的端到端流程有助于项目的每一个里程碑,可以成倍地减少时间和成本。 而且这种降低远远超过将软件加入组织现有系统所涉及的成本。
  • 多媒体(音频、视频、内容)等数据类型在流媒体和认知计算中发挥着举足轻重的作用。 通过自动化机器学习,可以轻松完成对这些类型数据的吸收和分析。 Ben 建议使用用于语音和计算机视觉的示例管道以及用于其他类型数据的数据加载器。
  • 应用程序可以帮助快速跟踪统计和预测模型的训练、使用和完善。 此类可扩展机器学习算法的示例包括基于 Spark 的运行时
  • 数据科学家的生产力也可以通过智能扩展多功能机器学习项目的处理管道来提高。 此类组件的示例包括合并和加载库和优化器。 这些组件的其他实例包括各种数据加载器、特征化器和内存分配器。

它还讨论了设计、明确定义和设置错误界限,以帮助检查机器学习项目的有效性。 在这项工作的帮助下,可以根据预定义的基准来衡量实际性能。 此外,如果模型的实际性能与预期结果有很大偏差,它可以帮助微调模型。

这是世界范围内不同组织为提高数据科学家的生产力所做的努力的一个例子。 通过这些努力,他们在涉及多个人员、流程、协议和期望的极其复杂的环境中发挥作用。

如何增加数据科学家提供的价值

然后,詹姆斯继续强调数据科学家如何在工作中表现出色,并在数据分析和可视化领域做得非常好。 有两个方面——一个是技术本身(以 Hadoop、R、Python 和 Spark 等解决方案的形式),另一个是形成数据科学家接触点的专家团队(数据应用程序开发人员、建模人员、数据工程师、高级管理和 ETL 专家)。 他们两者应该协同工作,为数据科学家提供一个提高生产力的环境。 詹姆斯列出了很多实现这一目标的方法。

  1. 易于处理多个数据集——以医疗中心为例。 它可以为数千名患者维护和存储数百万条记录。 这些可能包括结构化和非结构化数据(病理图像、医生笔记等)。 一个典型的大数据实施将是创建一个 Hadoop 数据湖并利用数据以供进一步使用。 另一个示例可以是社交媒体帖子和评论,这些帖子和评论被获取并存储在数据集群中。 数据科学家必须能够轻松地从如此多样化的数据集中获取数据。 一些例子包括——数据湖、数据集群、云服务。
  2. Excel 工作职责——数据分析、预测建模、机器学习、数据挖掘和可视化。 这些只是数据科学家参与的众多职能中的一部分。很自然,他/她将不得不做大量的活动来完成这项工作。 这可能包括数据发现、相似数据聚合、数据加权以匹配宇宙、准备和管理模型以产生更深入的洞察力以及制定、测试和验证假设中的一项或多项。 无论是简单的结构化数据还是更复杂的多结构化数据,生产力环境都需要数据科学家在不同的工作职责中表现出色。
  3. 实践经验——为数据科学家提供各种范围,以实施他们对大数据分析应用程序的工作知识。 这些可能包括 R、Python、Spark 和 Hadoop。
  4. 扩展他们的多功能性——如前所述,数据科学家必须在他/她的日常角色和职责中与许多专家互动。 其中包括数据应用程序开发人员、建模人员、数据工程师、高级管理人员和 ETL 专家。 接触点需要共享有关库和模板的知识,以帮助简化机器学习、统计探索、神经网络、数据仓库、数据转换和数据采集等主题的工作和理解。
  5. 监控进度——数据科学家在设计、设计和实施处理用于建模、统计研究和数据挖掘的大规模数据集的过程方面提供了很大的权重。 他/她还执行许多辅助功能,例如业务案例开发、与第三方供应商的互动、管理整个数据分析项目的生命周期,使团队保持良好的一致性直到最后,并与利益相关者互动并定期更新进度的项目。 在有利的环境下,数据科学家必须能够跟踪、执行和验证使他/她能够正确完成工作的各种组件的正确功能。 这些组件包括库、建模、技术集成、数据、算法和元数据。

借助这些有用的建议,James 提出了提高大数据生态系统中数据科学家价值的方法。

计划从网络获取数据? 我们是来帮忙的。 让我们知道您的要求。