データ ガバナンスと組織がそれを必要とする理由
公開: 2021-01-27データ ガバナンスには、企業がデータ管理の目標を達成するために必要な人、プロセス、規則、規制、ポリシー、および標準が含まれます。 通常、ビジネス チームが担当し、必要なプロセスの作成を支援しますが、テクノロジー チームは、これらのプロセスを自動化し、それらに命を吹き込むのを支援します。 マクロレベルでは、それは政治的言説と国際関係の一部ですが、ミクロレベルでは、企業がデータ戦略を計画する方法の一部です.
データガバナンスの原則
通常、データ ガバナンスでは、次のような複数の要因が考慮されます。
a)。 さまざまな利害関係者がデータにアクセスできるようにする
b)。 データの所有権
c)。 データ ソースを追加するための新しいアイデア
d)。 データのセキュリティを確保し、アクセス制御を維持する
e)。 データのクリーニングとデータ処理のパイプラインを整備する
f)。 データ アクセスとストレージに関連する規則とコンプライアンス要件に準拠する
効果的なデータ ガバナンスにより、企業が扱うデータのあらゆる側面が、一連のプロセス、メーカーとチェッカー、データ所有者、および制御メカニズムを通じて確実に管理されます。 また、データが複数のチームによってアクセスおよび更新されるときに、データのプライバシー、整合性、可用性、およびクリーン度が維持されることも保証します。

今日の企業には、多数のソースから大量のデータを収集する機会があります。 IOT テクノロジーを使用してマシンからデータを取得したり、内部データ (顧客、クライアント、プロセスによって生成されたデータ) を使用したりできます。 データ サイエンス チームは、外部データ ソースを利用して、Web スクレイピング ソリューションを利用することもできます。

複数のソースからのデータを処理する際には、データを集約する前に注意を払う必要があり、企業はリスクを最小限に抑えるためにすべてのレベルでデータの検証を確認する必要があります。 大量のデータが自動的に企業の成功を保証するわけではないため、企業はデータ ガバナンスによるデータ規律を必要としています。
どの企業のデータ ガバナンス チームにも、通常、テクノロジー、ビジネス、品質保証、コンプライアンスなどの主要な分野のメンバーが含まれています。 チーム r は、以下を含むがこれらに限定されない重要な要件に取り組んでいます。
a)。 ポリシーの承認
b)。 データ諮問パネルの作成
c)。 必要なデータ プロダクトの所有者の割り当て
d)。 データの修正とデータの正規化
e)。 ルール エンジンまたはフレームワーク
f)。 データ インフラストラクチャ
データガバナンスチームはどのように機能しますか?

通常、データ ガバナンスの要件はビジネス チームから始まります。 たとえば、大学生にマイクロローンを提供する企業のユースケースを考えてみましょう。 このようなビジネスの場合、ローンを申し込む人の特定の財務データを保存する必要がある場合があります。 さまざまなチームやメンバーが、作業する必要があるデータポイントへのアクセスを制限できるように、情報をマスクする必要があります。
ビジネス チームが要件を思いついたら、コンプライアンス チームが検証する必要があります。 この変更は、会社が監査中に法定要件を満たすのに役立つはずです。 要件と検証、および追加情報が追加されると、通常、テクノロジー チームはソリューションを構築します。

ソリューションは、a) データをマスクするために記述する必要がある実際のコード、b) AWS のようなクラウド プラットフォームで必要となるインフラストラクチャのセットアップの 2 つの部分に分かれます。 変更が構築されたら、それらを公開する前に、品質および保証チームによってテストされ、コンプライアンス チームによって再検証される必要があります。
複数のチームが 1 つのソリューションの一部である場合、主要な障害の 1 つは用語です。 eコマース企業の場合、倉庫チームは、製品が「出荷された」場合、それが倉庫に到着したことを意味すると信じているかもしれませんが、配送チームは、この用語が「配達中」を表していると信じているかもしれません. 共通の用語を定義して、データ ガバナンスの問題に取り組みながら全員が同じページに留まることができるようにする必要があります。
データガバナンスとデータ管理
データ ガバナンスとデータ管理は同義語のように思えるかもしれませんが、そうではありません。 ただし、ほとんどの場合、データ管理はデータ ガバナンスの一部の結果です。 データ管理では、データの処理と保存に関連するさまざまな側面を扱います。 これには、コストを抑えながらクラウド インフラストラクチャをセットアップして維持することが含まれる場合があります。 また、データにアクセスする人がプラグ アンド プレイ形式でデータを使用できるように、複数のソースからのデータをクリーニングおよび処理する必要があります。 データ管理チームは、次のような特定の要件に日々取り組んでいます。
a)。 データの正規化とフォーマット
b)。 ステップ関数などのサービスを使用したデータ パイプラインと ETL ワークフロー
c)。 AWS Glue などのサービスを使用したデータのカタログ化
d)。 ワンストップ データ レイクの作成と更新
一方、データ ガバナンス チームは、データ管理チームがプロジェクトに取り組むときに満たす必要があるポリシーとコンプライアンス要件を定義します。 最初に設計する必要があるデータ ストリームの基本アーキテクチャも、データ ガバナンス チームによって設定された標準に準拠する必要があります。
つまり、データ ガバナンス チームは、企業内のデータに関連するすべてのプロセスとルールを設定しますが、データ管理チームは通常、それらのルールとプロセスを適用し、インフラ要件を設定します。
データ ガバナンスの利点
データ ガバナンスは、短期的に実装するのは難しいかもしれませんが、確立されると結果を出し続ける実を結ぶ木のようなものです。 これは、データ サイエンスおよび分析チームの取り組みを後押しするのに役立ち、リスクの管理とコンプライアンスの維持にも役立ちます。
a)。 データ ガバナンスが整っていれば、データ サイエンス プロジェクトに取り組んでいて、会社のデータ ストリームへのアクセスを必要とするすべての人が従うことができる標準的なルール セットができます。 これにより、複数レベルのコミュニケーションと意思決定の必要性が減少します。
b)。 設定された目標と要件があれば、データ管理に関連するコストは下がり、コスト削減はより高くなります。 これは、企業が大量のデータを手元に置いているが、適切なストレージ、アーカイブ、およびアクセス方法を備えている場合に特に当てはまります。
c)。 データ駆動型の活動はより透明性が高くなり、これにより企業は利害関係者や監査人に回答をより迅速に提供できるようになります。
d)。 適切なガイドラインを整備することで、企業は現在のデータ ソースを充実させ、より広範な市場調査を作成するために、より多くの外部データ ソースを目指すことができます。
e)。 データ ガバナンス チームは、製品や技術が直面する可能性がある、またはコンプライアンス チームが遭遇する可能性があるすべてのデータ関連の問題を迅速に解決できます。
f)。 改善された監視およびロギング メカニズムにより、データ セキュリティが確保され、企業は顧客の信頼を得ることができます。 近年、世界中で複数のデータハッキングが発生しているため、製品が大金に見合ったものであっても、データの安全性がすべての顧客を失う理由になる可能性があります
闘争
データ ガバナンスの台頭は、複数のサイバー攻撃と社会的信頼の喪失の余波で企業が直面した闘争によるものです。 今日、このような外部侵害、規制の強化、およびコスト削減により、データに手を出す大小の企業にとって、データ ガバナンスは必須となっています。 カリフォルニア州消費者プライバシー法 (CCPA) や一般データ保護規則 (GDPR) などの最近の規制は、事前に定義された基準に基づいてデータ インフラストラクチャを構築する企業のインセンティブを高めています。
ローマが一日にして成らずのように、データ ガバナンス チームを作成し、会社全体が従うためのフレームワークを構築することは、短期間では実行できない場合があります。 この背後にある理由は、さまざまなチームの参加者が集まって、会社が使用するデータ、データ ストリームのソース、使用される目的、およびデータにアクセスするユーザーを分析する必要があるためです。データ。
Web スクレイピングとガバナンス
Web スクレイピングは、Web 上で利用できるほぼ無限の量の情報とリアルタイムのデータ更新により、業界を問わず外部データの最大のソースです。 ただし、訴訟やコンプライアンス要件への懸念が、 Web スクレイピングをデータ ソースとして使用する道に障害をもたらします。 標準化されたデータ ガバナンス ルールブックと、新しいソースが追加されるたびに「やることリスト」を作成できるチームを持つことで、データの法則の正しい側に留まることができます。
このブログを気に入っていただけた場合は、「データの正規化とデータの構造化の違い」もぜひお読みください。 以下のコメントセクションに貴重なフィードバックを残してください。
