sql >> データベース >  >> RDS >> Database

データプロファイリング:データ詳細の検出

    データプロファイリングまたはデータ検出とは、さまざまなデータソースから情報を取得し、それに関する記述統計を取得するプロセスを指します。データプロファイリングの目的は、データの内容、データの構造、関係、現在の精度と整合性のレベルをよりよく理解することです。

    データプロファイリングにより、メタデータ(データに関するデータ)のエラーや誤った結論が明らかになる場合があります。これらの問題を早期に発見することは、データウェアハウスに統合または保存する前にソースデータの品質を向上させるのに役立ちます。データベーステーブルまたは抽出されたファイル内のデータの属性を理解し、データ値を調べることは、データコンテンツが実際にそのメタデータ定義と一致することを検証するのに役立ちます。データとメタデータを確認することで、機密性の高いアイテムや個人を特定できる情報(PII)が含まれているアイテムを特定できるため、特定の列に保護対策のフラグを立てることができます。したがって、データプロファイリングは、統合、セキュリティ、レポート、およびそれに続くその他のプロセスにおけるデータの識別、使用、および系統に必要なソースデータの特性を発見します。

    収集されたデータは、特に複数のソースから収集された場合、良性または役に立たないように見えることがよくありますが、適切なアプリケーションまたはアルゴリズムを使用すると、すべてのデータが役立つ場合があることに注意してください。したがって、データプロファイリングは、その有用性を判断するための最初のステップでもあります(データ自体の理解を深めることによって)。

    多くの企業は、製品の在庫、顧客の人口統計、購買習慣、売上予測などの洞察を最終的に生データソースに依存しているため、増え続けるデータ量から競争力のある利益を得る企業の能力は、それらのデータを活用する能力に正比例する可能性があります。資産。顧客の勝ち/負け、およびビジネスとしての成功/失敗は、組織の収集されたデータが提供する特定の知識によって非常によく判断できます。したがって、適切なデータを特定し、その有用性を適切なレベルで確立し、異常を管理する方法を決定することは、データウェアハウジング操作とビジネスインテリジェンスアプリケーションの設計に不可欠です。

    Testing the Data WarehousePracticumの著者であるDougVucevicとWayneYaddowによると、「…データプロファイリングの目的は、メタデータが利用可能な場合は検証し、利用できない場合はメタデータを検出することです。分析の結果は、戦略的に使用されます。候補となるソースシステムの適合性を判断し、早期の合否決定の基礎を提供しますが、戦術的には、後のソリューション設計の問題を特定し、スポンサーの期待を平準化します。

    データ当局は、大規模で複雑なボリュームに一度に取り組むのではなく、限られた量のデータに対してランダムに繰り返しデータプロファイリングを実行することを推奨しています。そうすれば、発見は次にプロファイルされるべきものの要因を決定することができます。データのルール、制限、および前提条件を特定し、将来のプロファイリングが実行されるメタデータの整合性を確保します。 想定されるを知る 特定のデータファイルに含まれ、実際に 同じことはないかもしれません。したがって、新しいソースの品質や特性が不明な場合は、既存のシステムに統合する前に、専門家が最初にデータプロファイリングを提案します。

    データプロファイリングプロセスの手順には、すべてのオブジェクトのインポート、構成パラメータの作成、実際のプロファイリングの実行、結果の分析が含まれます。どれも彼らが聞こえるほど簡単ではありません!次に、調査結果に基づいて、スキーマとデータの修正を実装し、その後のデータプロファイリングのパフォーマンスを向上させるために他の微調整を行うことができます。

    IRIプロファイリングツール

    2015年半ば、IRIは、EclipseGUIであるIRIWorkbenchで、一連の無料のデータベース、構造化、および非構造化(ダーク)データ検出ツールをリリースしました。それらはhttp://www.iri.com/products/workbench/discover-dataに要約されており、このブログの他の記事へのリンクがあり、詳細が説明されています。


    1. UncaughtTypeErrorはundefinedのメソッド'opendatabase'を呼び出すことができません-cordova3.5のSQLiteプラグイン

    2. OracleのCURRENT_TIMESTAMP()関数

    3. SQLのピアソン相関係数式

    4. WindowsからAmazonEC2でMySQLに接続するにはどうすればよいですか?