データサイエンティストの本質的な資質

公開: 2017-01-12
目次を見る
統計的思考
プログラミングスキル
探究心
結果志向の性質
創造性
データベースの理解
優れたコミュニケーション能力
データへの渇望

ビッグデータは、情報技術の黎明期から増加してきました。 現在、私たちが 1 日おきに作成しているデータは、2003 年までに蓄積したすべてのデータに相当します。この膨大な量のデータには、ビジネスだけでなく、人類全体にとって非常に貴重な洞察が含まれています。 ビッグデータ分析は、かなり前からヘルスケア業界の研究を支援してきました。 さらに、ビッグデータはがんのパズルをすぐに解決するかもしれません。

ビッグデータは、使い方を知らなければ意味をなさない単なるデータの山であると言ったらどうでしょうか? ここでデータ サイエンティストの出番です。 ビッグデータを理解するには、データ サイエンティスト、正確には優れたデータ サイエンティストが必要です。 「データ サイエンティスト」という肩書きに惑わされないでください。データ サイエンティストが 1 つと呼ばれるには、いくつかの資質を備えている必要があります。 データ サイエンティストを雇うことを検討している場合、またはデータ サイエンティストになることを計画している場合は、次のような資質を探す必要があります。

データサイエンティスト

統計的思考

データを情報に変えることは、データ サイエンティストの主な仕事です。 そのため、統計のノウハウは言うまでもありません。 定量的な考え方で物事を見ることは、データを扱う際に中立を保ち、偏見をなくすために重要です。 優れたデータサイエンティストは、洞察の深さと信頼性がデータの量に比例して増加することを理解し、不十分なデータで結論に達することを控えます。 膨大な量のデータから、トレンドやインサイトが数字として浮かび上がります。 したがって、真のデータサイエンティストになるには、数字への愛情が必要です。 データ サイエンティストは、大量のデータを調査して実用的な洞察を導き出し、予測モデリング手法を適用して将来の傾向を予測できる必要があります。 レポートを作成し、洞察に基づいて推奨される行動方針を計画するには、統計を十分に把握する必要があります。

プログラミングスキル

データ サイエンティストは、さまざまなチームと協力して、パイプライン、ツール、モジュール、パッケージ、Web サイト、ダッシュボードなどを構築します。 これは、データ サイエンティストがエキスパート コーダーであるべきだという意味ではありませんが、アルゴリズムとコードの仕組みを理解することは、データ サイエンティストの仕事に大いに役立ちます。 システムが適切な傾向や洞察を提供できない場合は、袖をまくり上げてコードを書くときです。 これは、ある程度のプログラミング スキルと技術的な柔軟性がなければ不可能です。

Python は、最も用途が広く互換性のあるプログラミング言語として認められており、データベースや MapReduce タイプのクエリの処理に最適です。 言語とオープンソースを学ぶのは簡単なので、Python を学ぶことは、あなたのデータ サイエンスの夢を阻む大きな障害にはなりません。

データサイエンティストを採用する際に、優れた「疑似コードスキル」を持つことも多くの組織で考慮されています。 「疑似コードスキル」とは、クエリまたはアルゴリズムがどのように機能するかを平易な英語で書く能力です。 この問題解決スキルは、データ サイエンティストとして成長するために不可欠です。 データ サイエンスは、ゴールド スタンダードが驚くべき速さで変化する業界であり、現在のシナリオで求められる以上のスキルを持つことの重要性が強調されています。

探究心

データ サイエンスはかなり古い分野ですが、発見は時々行われます。 古い問題を解決する新しい方法を見つけたいという衝動が、この背後にある理由です。 データ サイエンティストは常に好奇心を持ち、データを取得、マージ、処理するための新しいより良い方法を探し、より良い洞察を引き出すためのツールを見つける必要があります。 理想的なデータ サイエンティストは、データには好奇心旺盛な人にしか明かせない秘密が隠されているため、好奇心旺盛であることをやめるべきではありません。 真のデータ サイエンティストは、データが自分の偏見が正しいことをどのように証明するかを見ようとするのではなく、データの奥深くに隠されている真実を探しています。

データを使用すると、物事が非常に困難になる場合があり、好奇心だけが結果につながる可能性があります。 これが、好奇心がデータ サイエンティストの最も重要な資質の 1 つである理由です。

結果志向の性質

データ分析は、プロセス自体よりも結果に関するものです。 期待どおりの結果が得られる限り、どのように結果をデータにもたらすかは問題ではありません。 データ サイエンティストは、特定の問題を解決するために複数のルートをたどらなければならない場合があります。 小さなハードルに立ち往生することは、データ サイエンティストにとって良い資質ではありません。 結果主義は、データを結果に変えたいという強い意志が自分自身の原動力になるような場合に役立ちます。 一般に、データ サイエンティストは、さまざまなタスクを同時に処理しながら、ある問題から別の問題に移行する人々です。 彼らの努力を止めることができるのは結果だけです。

創造性

創造性は、このリストの中で奇妙なものに見えるかもしれません。 真実は、データ サイエンティストにとって最も重要な資質の 1 つです。 クリエイティブな人々は間違いを恐れず、新しいことを試し、新しい領域を開拓しようとします。 彼らは失敗の中に機会を見出し、簡単に方向を変えることができます。 これらはすべて、データ サイエンスに不可欠です。

私たちはよく、人を左脳派と右脳派に分類します。 ビッグデータのようなハード サイエンスが創造性と関連付けられることはめったになく、それは大きな間違いです。 データ サイエンティストは 2 つのカテゴリの中間に位置し、データを処理するための新しいアプローチと方法を見つけるために、創造性を発揮する必要があります。 統計とデータベースはデータ サイエンスのすべてではありません。意思決定者にとって有用な分析の最終出力を作成するのはストーリーテリングです。

もちろん、創造性だけではデータ サイエンティストにはなれません。 使いやすく魅力的で人目を引くレポートを作成できる人が、必ずしもデータ サイエンティストの役割に最適であるとは限りません。 データ サイエンティストは、創造的な問題解決者と呼ぶことができます。

データベースの理解

構造化データ、非構造化データ、またはその両方を扱うかどうかに関係なく、優れたデータ サイエンティストは、データベースの動作に関する基本的な考え方を持っている必要があります。 さらに、列型データベースとリレーショナル データベースの基本的な理解は、データ サイエンティストの仕事を容易にするのに大いに役立ちます。 企業の倉庫の多くは、依然として従来のリレーショナル データベースを使用しています。 これらのデータベースのセットアップにはデータ サイエンティストも関与する必要がありますが、タスクを実行する技術者が必要です。 非構造化データを扱えるデータベース基盤を開発するノウハウは、頂点にあるサクランボのようなものです。

優れたコミュニケーション能力

データサイエンティストは、ほとんどの場合、技術、分析、およびビジネスの人々と同時に作業します。 S(彼) は、多くの場合、関係者全員の通訳を務めます。 テクノロジーとビジネスの専門用語を同時に扱い、強力なコミュニケーション スキルを必要とする相手と何を使用すればよいかを理解する。 分析の出力は通常、少なくともデータ サイエンティストではない人にとっては、きれいなものではありません。 洞察と傾向は数字の中に閉じ込められており、ビジネス チームと利害関係者が理解できる方法で解釈し、伝達する必要があります。 優れたデータ サイエンティストは、分析からの複雑な出力を、ストーリーテリング、比喩、およびコミュニケーションの視覚的手段を使用して、さまざまな背景を持つ人々が理解できるより単純な形式に変換できる必要があります。

データへの渇望

優れたデータ サイエンティストは、常により多くのデータに飢えています。 より多くのデータは常により良いデータであるため、データの探求には目標が設定されていません。 データ サイエンティストは、より多くのデータ ソース、データを取得するためのより良い方法、データを処理するための革新的な方法を探し続ける必要があります。 データは分析の燃料であるため、より多くのデータを取得する意欲は、データ サイエンティストが持つ必要があるものです。