ビッグデータ エコシステムにおけるデータ サイエンティストの価値の向上
公開: 2016-10-15ほぼすべての業界におけるビッグデータの膨大な範囲と影響力は未知ではありません。 ビッグデータを使用すると、一見大規模で複雑に見えるコミュニケーション、コメント、ブランドへの言及の連鎖が詳細なレベルで分析されます。 この演習の目的は、企業の意思決定者の視点からこれまで隠されていた可能性のある洞察を解き放つことです。 アメリカン・エキスプレスの場合を考えてみましょう。 カード会社の巨人は、積極的な成長計画を先取りするために、単なる追跡指標以上のものをもたらしたいと考えていました。 これにより、AmEx は115 もの変数を取り込む複雑で強力な予測モデルの構築に投資することになりました。 練習の目的は? ビッグデータを活用して、顧客のブランド ロイヤリティを高め、顧客離れを減らす方法を検討する。

この予測分析は、ビッグ データ (構造化および非構造化の両方) から知識や洞察を抽出するのに役立つ分野であるデータ サイエンスの形式の 1 つです。 データ サイエンスのその他の実装には、統計分析、データ マイニング、データ エンジニアリング、確率モデル、視覚化、機械学習などがあります。 データ サイエンスは、データ分析とデータ マイニングを含む、より大きな競争力のあるインテリジェンスの一部です。
次世代データ サイエンティストの生産性向上の考察
IBM のビッグ データ エバンジェリストである James Kobielus は、次世代のデータ サイエンティストの生産性を向上させるさまざまな方法を強調する興味深い記事を作成しました。 これは、世界経済、金融、社会の運命に影響を与える可能性があります。
彼は、常時稼働のビジネス環境に価値を提供する上で、データ サイエンティストが果たすミッション クリティカルな役割を認めています。 それらの価値は、さまざまな反復可能なソリューション統合にまたがり、データを分析し、利害関係者の意思決定プロセスを支援する意味のある洞察を生成するのに役立ちます。

データ サイエンティストの生産性向上が不可欠な理由
データ サイエンティストは、ビッグ データ エコシステム全体でさまざまな役割と責任を果たします。 これらには、次のようなタスクが含まれます。
マニュアル
- 統計モデルの設計と開発
- これらのモデルのパフォーマンスを分析する
- モデルを実世界のデータで検証する
- データの専門家以外 (利害関係者や意思決定者) が理解できる方法で洞察を伝えるという難しいタスクを実行する
自動化
- クライアントのビジネスと情報収集に関するイニシエーション、ブレインストーミング、調査
- データの発見
- データプロファイリング
- データのサンプリングと整理
明らかなように、これらのタスクには、1 人の個人では見つけられない一連の人的資本の専門知識が必要です。 さまざまなニッチの専門家である人々のチームを構築する必要があります。 さらに重要なことは、データ サイエンティストのチームを持つというビジネス目標が友好的に、政治的なことなしに達成されるように、それらを調整する必要があることです。 そして、これは、チーム内のすべての人が従う必要がある一連の堅牢なプロセスとプロトコルを持つことによって達成できます。
ただし、これらのプロトコルを設定して実施しても、必ずしもデータ サイエンティストの生産性が低下するわけではありません。 James は、複雑なチーム環境内でデータ サイエンティストの最適な生産性を確保するためにさまざまなプロセスが設定された実際の例を見ていきます。 この文脈で彼が具体的に言及した 1 つの例は、O'Reilly の Ben Lorica です。 この記事は、データ サイエンティストの生産性において以下の利点を提供することを目的としています。
- データ分析および視覚化ドメインのさまざまなメインおよびサブステップに取り組むために利用できる既成の API の規定。 機械学習処理のエンド ツー エンド プロセスを合理化することで、プロジェクトのすべてのマイルストーンで時間とコストの削減を飛躍的に向上させることができます。 そして、この削減は、組織の既存のシステムにソフトウェアをオンボーディングするために必要なコストをはるかに上回ります。
- マルチメディア (オーディオ、ビデオ、コンテンツ) などのデータ タイプは、ストリーミング メディアとコグニティブ コンピューティングにおいて極めて重要な役割を果たします。 自動化された機械学習を使用すると、これらのタイプのデータの吸収と分析を簡単に行うことができます。 Ben は、音声とコンピューター ビジョン用のサンプル パイプラインと、他の種類のデータ用のデータ ローダーを使用することを提案しています。
- アプリケーションは、統計モデルと予測モデルのトレーニング、使用、完成を迅速に追跡するのに役立ちます。 このようなスケーラブルな機械学習アルゴリズムの例には、 Spark ベースのランタイムが含まれます。
- 多機能機械学習プロジェクトの処理パイプラインをスマートに拡張することで、データ サイエンティストの生産性を向上させることもできます。 このようなコンポーネントの例には、ライブラリとオプティマイザの組み込みとロードが含まれます。 これらのコンポーネントの他のインスタンスには、データ ローダー、フィーチャライザー、およびメモリ アロケーターのさまざまな配列が含まれます。
また、機械学習プロジェクトの有効性をチェックするのに役立つエラー境界の設計、明確な定義、および設定についても説明します。 この取り組みの助けを借りて、実際のパフォーマンスを事前定義されたベンチマークに対して測定できます。 さらに、モデルの実際のパフォーマンスが期待される結果から大幅に逸脱している場合は、モデルの微調整に役立ちます。

これは、データ サイエンティストの生産性を飛躍的に向上させるために世界中のさまざまな組織で行われている取り組みの一例です。 これらの努力により、彼らは複数の人員、プロセス、プロトコル、および期待に関係する非常に複雑な環境内で役割を果たします。
データサイエンティストが提供する価値をさらに高める方法
次に、James は、データ サイエンティストが自分の仕事で卓越し、データ分析と視覚化のニッチで驚くほどうまくやっていく方法を強調します。 2 つの側面があります。1 つはテクノロジ自体 (Hadoop、R、Python、Spark などのソリューションの形) であり、もう 1 つはデータ サイエンティスト (データ アプリケーション開発者、モデラー、データ エンジニア、シニア エンジニア) のタッチポイントを形成する専門家チームです。管理者、および ETL 専門家)。 データ サイエンティストの生産性を高める環境を提供するには、両者が連携して機能する必要があります。 James は、これを達成するための方法をいくつか挙げています。
- 複数のデータセットの扱いやすさ - 医療センターの場合を考えてみましょう。 何千人もの患者の何百万もの記録を維持および保存できます。 これらには、構造化データと非構造化データ (病理画像、医師のメモなど) が含まれる場合があります。 典型的なビッグ データの実装は、Hadoop データ レイクを作成し、データをさらに活用することです。 もう 1 つの例は、取得されてデータ クラスターに保存されるソーシャル メディアの投稿やコメントです。 データサイエンティストは、このような多様なデータセットから簡単にデータを取得できなければなりません。 例には、データ レイク、データ クラスター、クラウド サービスなどがあります。
- 優れた仕事の責任 – データ分析、予測モデリング、機械学習、データ マイニング、視覚化。 これらは、データ サイエンティストが関与する多くの機能の一部にすぎません。当然のことながら、データ サイエンティストは、その仕事を遂行するために多くの活動を行う必要があります。 これには、データの発見、類似データの集計、ユニバースに一致するデータの重み付け、より深い洞察を生成するためのモデルの準備とキュレーション、および仮説の策定、テスト、および検証の 1 つ以上が含まれる場合があります。 単純な構造化データであろうと、より複雑な複数構造化データであろうと、生産性環境では、データ サイエンティストがさまざまな職務で優れた能力を発揮する必要があります。
- 実践的な経験 – データ サイエンティストに、ビッグ データ分析アプリケーションに関する実用的な知識を実装するためのあらゆる範囲を提供します。 これらには、R、Python、Spark、および Hadoop が含まれる場合があります。
- 多様性を拡張する – 前述のように、データ サイエンティストは、日々の役割と責任において多くの専門家とやり取りする必要があります。 これらには、データ アプリケーション開発者、モデラー、データ エンジニア、上級管理職、および ETL 専門家が含まれます。 タッチポイントは、機械学習、統計的調査、ニューラル ネットワーク、データ ウェアハウジング、データ変換、データ取得などのトピックの作業と理解を容易にするのに役立つライブラリとテンプレートに関する知識を共有する必要があります。
- 進捗状況の監視 – データ サイエンティストは、モデリング、統計調査、およびデータ マイニングに使用される大規模なデータ セットを処理するためのプロセスを考案、設計、実行することに多くの重点を置いています。 彼/彼女はまた、ビジネスケースの開発、サードパーティベンダーとのやり取り、データ分析プロジェクト全体のライフサイクルの管理など、多くの補助的な機能を実行し、チームを最後までうまく連携させ、利害関係者とやり取りして進行状況を定期的に更新しますプロジェクトの。 助長的な環境下では、データサイエンティストは、仕事を正しく行うために、さまざまなコンポーネントの正しい機能を追跡、適用、および検証できなければなりません。 これらのコンポーネントには、ライブラリ、モデリング、技術統合、データ、アルゴリズム、およびメタデータが含まれます。
James は、これらの役立つ指針を使用して、ビッグ データ エコシステムにおけるデータ サイエンティストの価値を高める方法を示しています。
Web からデータを取得する予定はありますか? 私たちは助けるためにここにいます。 お客様の要件をお知らせください。
