ビッグデータ時代のデータ品質
公開: 2020-12-23データ品質という言葉を聞いて、最初に頭に浮かぶ言葉は何ですか? 本当の客観的な言葉でそれを本当に定義するのは難しい. なぜそれが必要なのですか? 利用可能なデータの量が膨大なためです。
データの「サイズ」はもはやスズ TB ではなく、PB (1PB = 210TB)、EB (1EB = 210PB)、および ZB (1ZB = 210EB) です。 IDC の「デジタル ユニバース」予測によると、2020 年までに 40 ZB のデータがすでに生成されています。
これは、データ品質に関しては非常によく理解できます。 前述したように、優れたデータを説明するのはそれほど単純ではありません。 データ品質とは、いくつかの特性によって定義される意図された目的を果たすためのデータの能力です。
オンラインですばやく検索すると、複数の定義が表示されます。 そのデータを使用してビジネス上の意思決定を支援できる限り、そのデータは高品質です。 質の悪いデータは、ワークロードを支援するどころか、ワークロードに追加されます。 2 年前に実施された二次調査に基づいて特定のマーケティング決定を下したと想像してみてください。
データ品質の側面
直感的に、リアルタイム データが最良のデータであると言うかもしれません。 完全に真実ではありません。 データは「新鮮な」ほど良いものではありませんが (ワープ速度などで動いているため)、データ品質にアクセスするための他の決定要因があり、無視することはできません。
データ品質ディメンションはサイロでは機能しないため、データ品質ディメンションの点在する特性は、データ品質をよりよく理解するために重要です。 正確性、信頼性、適時性、完全性、一貫性などのディメンションは、内部ビューと外部ビューに分類できます。 これらの分類はそれぞれ、データ関連の次元とシステム関連の次元にさらに分けることができます。 または、データ品質の次元は 4 つのカテゴリに分類できます。 本質的、文脈的、表現的、およびアクセシビリティ。

A)。 データの正確性
この次元は、セマンティクスの正確性と構文の正確性に組み込まれています。 後者は、関連する定義ドメインの要素に対する値の近接性を指しますが、セマンティック精度は、実際の世界値に対する値の近接性を指します。
B)。 データの可用性
データの民主化は両刃の剣です。 しかし、データを処理する必要があるすべての人がデータにアクセスできなければ、データに何の価値があるでしょうか。
C)。 完全
データ クレンジング ツールは、各フィールドで欠損値を検索し、欠損値を埋めて包括的なデータ フィードを提供します。 ただし、データは null 値も表す必要があります。 データ セット内の null 値の原因を特定できる限り、null 値にも同じ重みを割り当てる必要があります。
D)。 データの一貫性
一貫したデータは、システム全体で同じデータが同じ値を表す状態を反映しています。 すべての分母は、同じ値を示す限り、対等である必要があります。 通常、データはさまざまなソースから統合され、情報を収集して洞察を明らかにします。 ただし、ソースごとにスキーマと命名規則が異なるため、統合後に矛盾が生じることが予想されます。 統合されるデータの膨大な量と種類を念頭に置いて、一貫性の問題は、企業内でデータ標準とデータ ポリシーを定義することにより、統合の初期段階で管理する必要があります。
E)。 適時性
データの適時性は、日付の変数として定義されます。 日付の属性には、基準として年齢とボラティリティが含まれます。 ただし、これはアプリケーションのコンテキストなしで考慮されるべきではありません。 当然のことながら、最新のデータはデータ品質が高いと見なされる可能性が高くなりますが、関連性よりも優先されません。
正確性、完全性、一貫性、存在などのデータ品質の次元は、完全性属性の分類に関連しています。 これは、データ ユーザーの関心にマッピングするデータの生来の能力として説明できます。 表現の一貫性と比較して、整合性属性の不一致の欠如は、データ自体の形式や表現だけでなく、データ値の観点から定義されています。
データ品質を監視するための最も実行可能なソリューションとしての Web スクレイピング
Web スクレイピングでは、クローリング ツールを使用して、Web から必要な情報を探し出します。 自動化された品質保証システムと統合して、すべてのディメンションのデータ品質を確保できます。
そのようなシステムをどのように構築しますか?
より広いレベルでは、システムは、クロールしたデータの傘とともに、データの整合性を評価しようとしています。
A)。 信頼性
a)。 クロールされたデータ フィールドが正しいページ要素から取得されていることを確認してください。
b)。 収集するだけでは十分ではありません。 フォーマットも同様に重要です。 スクレイピングされたデータが収集後に処理され、収集段階で要求された形式で提示されていることを確認してください。
B)。 対象エリア
a)。 利用可能なすべてのアイテムをスクレイピングする必要があります。これが Web スクレイピングの本質です。
b)。 すべてのアイテムに対するすべてのデータ フィールドもカバーする必要があります。
C)。 システムを構築するためのさまざまなアプローチ
プロジェクト固有のテスト フレームワーク
名前が示すように、あなたが取り組んでいるすべての Web スクレイピング プロジェクトのすべての自動テスト フレームワークは完全にカスタマイズされます。 このようなアプローチは、要件が階層化されており、スパイダーの機能が高度にルールベースで、フィールドの相互依存性がある場合に適しています。
一般的なテスト フレームワーク
もう 1 つのオプションは、すべての要件に適合する汎用フレームワークを作成することです。 これは、Web スクレイピングがすべてのビジネス上の意思決定の中心であり、カスタマイズされた部分が実現できない場合に機能します。 このフレームワークにより、品質保証レイヤーを任意のプロジェクトにすばやく追加することもできます。
解決
データの整合性を管理するには、 Web スクレイピング サービスが最適です。 手動レイヤーと自動レイヤーの両方が付属しています。 また、すべての HTML タグを取り除き、「クリーンな」データを取得します。 PromptCloud のようなエンタープライズ Web スクレイピング サービスは、世界中の何百ものクライアントのデータのデータ品質と、彼らが調達するゼタバイトのデータを維持します。 また、プロセスを通じてお客様をサポートし、カスタマー サポート チームは常に 1 回の電話で対応します。
データ品質が不可欠であることにまだ確信が持てませんか? これがあなたにとって3.1兆ドルの理由です。 品質の低いデータの年間コストは、米国の A だけで、2016 年にはなんと 3.1 兆ドルにもなりました。
私たちがこれを書くのを楽しんだのと同じくらいこれを読むのが好きなら、愛を共有してください. これを読んで楽しんでいただけると思います。
