爱好者的基本数据科学技能

已发表: 2018-06-26
目录显示
大数据的五个 V
1. 数据营
2. 课程
3. 资料库
4. 卡格尔
5. 数据查询

数据实际上以指数速度增长,已经达到 PB! 你能相信世界上 90% 的数据都是在过去两年中创建的吗? 有了这个数量,数据管理就成了一件棘手的事情。 难怪基本的数据科学技能占据了首位。

大数据的五个 V

大数据通常使用五个 V 来描述。 即——数量、速度、多样性、真实性和价值。

  • 1. 数据量是指目前使用的数百万移动设备每秒产生的海量数据。 我们生成的所有这些电子邮件、推特消息、照片、视频剪辑、传感器数据等都是对许多公司最有价值的数据。
  • 2. 数据速度是指新数据产生的速度,以及它可以从一个地方转移到另一个地方以提高盈利能力的速度。
  • 3. 数据多样性是我们所有人都可以联系到的。 过去,对于大多数组织而言,数据意味着数据库和 Excel 表格。 然而,今天的数据意味着更多。 世界上 80% 的数据是非结构化的,想想你所做的照片、视频和 Twitter 更新。
  • 4. 数据真实性是指数据的可信程度。 随着数据的规模越来越大,我们尽量保持数据的干净是很重要的,因为脏数据是一种病毒,它会给您带来前所未有的痛苦。
  • 5. 数据价值是您数据的真正价值。 您收集了大量数据并决定对其进行处理。 一切都很好。 但是这些数据能为您的公司增加什么价值? 您从投资数据中获得什么好处才是最重要的?

所以,如果你被大数据和数据科学的热潮所吸引,我建议你看看下面列出的五种资源。

1.数据营

Datacamp 最适合在 Python 和 R 方面几乎没有经验的人。它从最基本的开始,采用循序渐进的方法,您会遇到一个接一个的问题。 这是初学者的天赐之物,价格在预算范围内。

如果您想订阅一年并访问高级项目和功能,请留意 Datacamp 提供的大量折扣。 它有几个你可以掌握的曲目,每个曲目包括大约 20-30 门课程。 热门曲目包括:

  • 一个。 使用 Python 的数据科学家
  • 湾。 使用 R 进行定量分析
  • C。 使用 Python 处理数据
  • d。 使用 R 导入和清理数据
  • e. 使用 R 进行数据可视化

如果您的时间较少,您还可以参加较小的课程,例如:

  • 一个。 用于数据科学的 Python 简介
  • 湾。 简介
  • C。 在 PostgreSQL 中加入数据
  • d。 中级

2.课程

Coursera 是学习从数据科学到军事历史的最佳平台之一,我亲身体验过。 您可以选择审核课程并免费访问课程资料。 Coursera 上一些最好的数据科学课程是:

一个。 数据分析和演示技巧:普华永道方法 - 该专业将帮助您获得数据分析的实践经验以及将商业智能转化为现实世界成果的专业知识。 它将让您更好地理解、过滤和应用数据,进而帮助您更快地解决问题。 您将熟练使用 Microsoft Excel、PowerPoint 和其他常见的数据分析和通信工具。 最重要的是,您将学会阅读数据并呈现它。

湾。 大数据,加州大学圣地亚哥分校——如果您需要了解大数据以及大数据将如何影响您的业务,这个专业适合您。 您将能够获得大数据科学家和工程师使用的工具和系统的实践经验,例如 Hadoop 与 MapReduce、Spark、Pig 和 Hive。 您将学习执行预测建模并利用图形分析对问题进行建模。 如果您辛勤工作到最后,您将能够完成与数据软件公司 Splunk 合作开发的 Capstone 项目,您将可以在其中应用您学到的基本概念。

C。 约翰霍普金斯大学的数据科学专业——该专业涵盖了您在整个数据路径中所需的概念和工具,从提出正确的问题到进行推理以及以简单而强大的格式发布结果.

d。 SQL for data science, UC Davis - 本课程旨在为您提供 SQL 基础知识的入门知识,以及使用数据来帮助您迁移到数据科学世界的数据库需求。 本课程从最基本的开始,并假设 SQL 知识为零。 复杂性稳步增长,逐渐让您编写简单和复杂的查询来帮助您从表中选择数据。

3. 资料库

如果您需要来自全球不同行业的全面、干净且随时可用的 Web 数据集,请查看 Datastock。 该解决方案非常适合那些正在寻找即用型数据集以执行分析和获得洞察力并获得数据科学技能的人。

很棒的是,您在购买之前会获得一个免费的样本数据集。 您可以自己测试数据质量,然后再决定。

4. 卡格尔

Kaggle 是进行数据科学项目的地方,也是新兴数据科学家中最受欢迎的网站之一。 它提供了各种选项,例如:

  • 一个。 开始你自己的新项目
  • 湾。 探索他人创建的项目
  • C。 参加他们赞助的比赛之一

5. 数据查询

他们的实践方法教您成为数据科学家、数据分析师或数据工程师所需的所有技能。 您可以通过多种方式学习:

  • 一个。 编写代码
  • 湾。 处理数据
  • C。 建筑项目