愛好家に不可欠なデータ サイエンス スキル
公開: 2018-06-26データは文字通り指数関数的に増加しており、ペタバイトに達しています。 過去 2 年間だけで、世界のデータの 90% が作成されたと信じられますか。 このボリュームでは、データ管理は厄介な問題でした。 不可欠なデータ サイエンス スキルが前面に出ているのも不思議ではありません。
ビッグデータの 5 つの対
ビッグデータは、多くの場合、5 つの V を使用して記述されます。 つまり、量、速度、多様性、真実性、価値です。
- 1. データ量とは、最近使用されている数百万台のモバイル デバイスから毎秒生成される膨大な量のデータを指します。 私たちが生成する電子メール、Twitter メッセージ、写真、ビデオ クリップ、センサー データなどはすべて、多くの企業にとって最も価値のあるデータです。
- 2. データ速度とは、新しいデータが生成される速度、および収益性を高めるためにデータをある場所から別の場所に移動できる速度を指します。
- 3. データの多様性は、私たち全員が関係できるものです。 ほとんどの組織にとって、データとは、過去にはデータベースと Excel シートを意味していました。 しかし、今日のデータはそれ以上の意味を持っています。 世界のデータの 80% は構造化されていません。写真、ビデオ、Twitter の更新を考えてみてください。
- 4. データの正確性とは、データの信頼性のレベルを指します。 データが巨大なサイズに成長するにつれて、データをできるだけきれいに保つことが重要です。汚れたデータは他に類を見ないほどあなたに苦痛を与える可能性のあるウイルスだからです。
- 5. データの価値は、データの真の価値です。 多くのデータを収集し、それに取り組むことにしました。 すべて順調です。 しかし、データはあなたの会社にどのような価値をもたらしますか? データへの投資から得られるメリットは何ですか?
ですから、ビッグデータとデータ サイエンスの話題に夢中になっている場合は、以下に挙げる 5 つのリソースをご覧になることをお勧めします。
1.データキャンプ
Datacamp は、Python と R の経験がほとんどまたはまったくない人に最適です。非常に基本的なことから始めて、次々と問題が発生する段階的なアプローチを採用しています。 初心者向けの天の恵みであり、予算の範囲内で価格設定されています.
1 年間購読してプレミアム プロジェクトと機能にアクセスしたい場合は、Datacamp が提供する大幅な割引に注意してください。 マスターできるいくつかのトラックがあり、それぞれ約 20 ~ 30 のコースで構成されています。 人気のあるトラックは次のとおりです。
- を。 Python を使用するデータ サイエンティスト
- b. Rによる定量分析
- c. Python によるデータ操作
- d. R を使用したデータのインポートとクリーニング
- e. R によるデータの視覚化
時間がない場合は、次のような小規模なコースを行うこともできます。

- を。 データ サイエンスのための Python の概要
- b. Rの紹介
- c. PostgreSQL でのデータの結合
- d. 中級R
2.コーセラ
Coursera は、データ サイエンスから軍事史まで、あらゆることを学ぶのに最適なプラットフォームの 1 つであり、私はそれを直接体験しました。 コースを監査して、無料でコース資料にアクセスすることを選択できます。 Coursera で最高のデータ サイエンス コースは次のとおりです。
を。 Data Analysis and Presentation Skills: the PwC Approach – このスペシャライゼーションは、データ分析の実践的な経験と、ビジネス インテリジェンスを現実世界の結果に変えるノウハウを習得するのに役立ちます。 これにより、データの理解、フィルタリング、および適用が向上し、問題をより迅速に解決するのに役立ちます。 Microsoft Excel、PowerPoint、およびその他の一般的なデータ分析およびコミュニケーション ツールに習熟します。 最も重要なことは、データを読み、それを提示することを学ぶことです。
b. ビッグデータ、UCSD – ビッグデータとそれがビジネスに与える影響を理解する必要がある場合は、この専門分野が最適です。 MapReduce、Spark、Pig、Hive を使用した Hadoop などのビッグ データ サイエンティストやエンジニアが使用するツールやシステムを実際に体験できます。 予測モデリングを実行し、グラフ分析を活用して問題をモデル化する方法を学びます。 最後まで苦労した場合は、データ ソフトウェア会社 Splunk と提携して開発された Capstone Project を完了することができ、学んだ基本的な概念を適用することができます。
c. ジョンズ・ホプキンス大学によるデータ サイエンス スペシャライゼーション – このスペシャライゼーションでは、適切な質問をすることから推論を行うこと、シンプルでありながら強力な形式で結果を公開することまで、データ パス全体で必要となる概念とツールをカバーしています。 .
d. データ サイエンスのための SQL、カリフォルニア大学デービス校 - このコースは、データ サイエンスの世界のデータベース ニーズに移行するのに役立つデータの操作に加えて、SQL の基礎の入門書を提供するように設計されています。 このコースは非常に基本的なことから始まり、SQL の知識がないことを前提としています。 複雑さは着実に増し、テーブルからデータを選択するのに役立つ単純なクエリと複雑なクエリの両方を作成する必要が徐々に生じます。
3. データストック
世界中のさまざまな業界の包括的でクリーンですぐに使用できる Web データセットが必要な場合は、Datastock をチェックしてください。 このソリューションは、分析を実行し、洞察を得て、データ サイエンスのスキルを習得するために、すぐに使用できるデータセットを探している人にとって理想的です。
すばらしいのは、購入する前に無料のサンプル データセットを入手できることです。 データ品質を自分でテストしてから決定できます。
4.カグル
Kaggle はデータ サイエンス プロジェクトを行う場所であり、新進のデータ サイエンティストの間で最も人気のある Web サイトの 1 つです。 次のようなさまざまなオプションを提供します。
- を。 独自の新しいプロジェクトを開始する
- b. 他の人が作成したプロジェクトの探索
- c. 主催の大会に参加する
5.データクエスト
彼らの実践的な方法は、データ サイエンティスト、データ アナリスト、またはデータ エンジニアになるために必要なすべてのスキルを教えてくれます。 さまざまな方法で学習できます。
- を。 コードを書く
- b. データの操作
- c. プロジェクトの構築
