データプロファイリングの概要
データプロファイリング は、ファイル、テーブル、またはスキーマ内のデータの設計と内容を体系的に文書化するプロセスです。 データプロファイリング これは、データウェアハウスが計画段階にあるときに実行される重要な最初のステップです。データウェアハウスのアーキテクトと設計者は、主要なデータウェアハウジングプロジェクトに着手する前に、基盤となる運用システムデータの品質と全体的な性質を理解することが重要です。プロファイリングで明らかになる可能性のあるソースデータの特定の側面には、次のものがあります。
- 各フィールド/列のデータ型の詳細を含む、各ソーステーブルまたはファイルの全体的なサイズ(バイト単位)。
- 各列のカウント、平均、範囲、およびnullの存在。
- テーブル内のデータ列間の関係(関数従属性など)。
- テーブル間の関係(外部キー関係など)。
さらに、データプロファイリング段階の結果を使用して、データ品質をチェックするルールと、ETLパイプラインの最初の段階でデータの問題を修正するルールを開発できます。
Oracle Warehouse Builderは、スキーマ内のデータの範囲と特性を詳細に学習するために使用できる強力なデータ・プロファイリング機能を提供します。データプロファイリングに関する公式のOWBドキュメントは、このリンクにあります。 Oracle Warehouse Builderは、Oracle11gデータベースの標準バージョンおよびエンタープライズバージョンとともにインストールされます。 Oracle11gリリース2をWindowsにインストールする手順は次のとおりです。
中央のOracle11gサーバーがある場合は、Oracle WarehouseBuilderClientを使用してその中央リポジトリにアクセスできます。
このデモンストレーションでは、OLTPシステムスキーマのプロファイルを作成するために必要な主な手順を示します。ターゲットスキーマは、Oracle 11gデータベースにインストールして有効にできるOracleの「OrderEntry」スキーマ(OE)になります。 Oracle Warehouseユーザーは、OWBで適切なモジュールを設定するために、OEスキーマへのアクセス(クレデンシャル)を持っている必要があることに注意してください。
プロファイリングの最初の主要なステップは、ソースデータベーススキーマを指すモジュールを作成することです。 OWBは、多数のデータベースソースとフラット(テキスト)ファイルをサポートしています。
注文入力スキーマ用の新しいモジュールのセットアップ
この一連の手順では、注文入力(OE)スキーマがOracleWarehouseBuilderの新しいモジュールとして作成されます。
- OracleWarehouseBuilderにログインすることから始めます。プロジェクトナビゲータウィンドウを開き、 MY_PROJECTを開きます。
データベースを開きます フォルダ、次に Oracle フォルダ。
Oracleを右クリックします。 フォルダを選択し、新しいOracleモジュールを選択します 以下に示すように:
- ようこそ画面が表示されたら、次へ>をクリックします ボタン
- データベースの新しい名前と説明を入力します。データベースの名前にスペースを使用することはできないことに注意してください。
次へ>をクリックします。 ボタンをクリックして続行します。
- 次の主な手順は、データベースの場所を指定することです。これらの手順を実行するのはこれが初めてである可能性が高いため、OracleOEスキーマの場所は設定されていません。この場合、編集...をクリックします 場所の横に表示されるボタン プロンプト
- 名前、説明、および接続情報(ホスト名、ユーザー名、パスワード、ポート番号、Oracleサービス名など)を入力します。 OKをクリックします。 終了したらボタン。
- 接続情報を確認し、終了後にインポートするオプションをクリックします 。
次に、次へ>をクリックします 続行するボタン:
- モジュールの作成が成功したことを示す最終的な概要画面が表示されます。
完了をクリックします。 この画面を閉じるためのボタン。
注文入力スキーマのメタデータのインポート
- 終了後にインポートを確認する 手順6のオプションメタデータのインポートウィザード データベースモジュールが作成されると、自動的に起動します。このオプションをスキップした場合は、新しいOrder_Entryモジュールを右クリックして、メタデータのインポートを選択します。 メニューから。
メタデータのインポートウィザードが起動したら、次へ>をクリックします。 ボタンをクリックして続行します。
- フィルター情報 次に画面が表示されます。この場合、すべてのスキーマコンテンツのメタデータをインポートするため、すべてをクリックします。 オプションをクリックし、次へ>をクリックします ボタンをクリックして続行します。
- 次に表示される画面では、スキーマで検出されたオブジェクトの一部またはすべてを選択できます。最初はオブジェクトの選択 画面は次のように表示されます。
- 右二重矢印アイコンをクリックして、すべてのオブジェクトを利用可能から移動します。 選択済みの側 下図のように側面。次に、次へ>をクリックします ボタンをクリックして続行します。
- 概要とインポート 次に画面が表示されます。画面を見直して、すべてのオブジェクトが選択されていることを確認し、完了をクリックします。 ボタンをクリックしてインポートを完了します。
- 結果のインポート 概要画面が表示されます。 OKをクリックします ボタンを押して閉じます。
- Oracle Warehouse Builder Projects Navigatorでは、以下に示すように、ORDER_ENTRYデータベースにテーブルを含むすべてのオブジェクトが入力されます。
この時点で、Oracle Order Entryデータベース・スキーマの新しいデータベース・モジュールが作成され、スキーマのすべてのメタデータがOracleWarehouseBuilderにインポートされました。次の一連の手順では、新しいデータプロファイル 作成されます。
OracleWarehouseBuilderでのデータプロファイルの作成
次の主要なステップは、データプロファイルを作成することです。 。
- Oracle Warehouse Builder Projects Navigatorで、データ・プロファイルを右クリックします。 グループ化して、新しいデータプロファイルを選択します
- ようこそ画面が表示されたら、次へ>をクリックします ボタン
- 新しいデータプロファイルの名前と説明を入力します。この例では、新しいプロファイルに Order_Entry_Schema_Profileという名前を付けました。 (プロファイル名にスペースは使用できないことに注意してください)。 次へ>をクリックします ボタンをクリックして続行します。
- 次の画面に、スキーマオブジェクトのリストが表示されます。 テーブルを開きます フォルダを作成し、すべてのテーブルを追加します( PURCHASEORDER を除く) 表)注文入力データベースの下にリストされています 選択済みに 画面の横。
ビューを追加しないでください。
次へ>をクリックします。 ボタンをクリックして続行します。
- この時点で概要 画面が表示され、データプロファイルが設定されます。 完了をクリックします ボタン。
- 新しいプロファイルが設定されたら、データプロファイルエディタ 画面が表示されます。
次のステップは、スキーマでプロファイラーを実行することです。
OracleWarehouseBuilderでのプロファイルエディタの操作
最後の主なステップは、プロファイルエディターで作業してデータプロファイリングジョブを開始し、結果を表示することです。前の手順に従って新しいデータプロファイルを作成した場合、OWBはデータプロファイルエディタを起動しているはずです。 。これ以降のすべての手順は、データプロファイルエディタで作業していることを前提としています。
- 以下は、データプロファイルエディタのビューです。 ORDER_ENTRYデータベースモジュールはプロファイルオブジェクトで開かれていることに注意してください。 ウィンドウとすべてのテーブルをここにリストする必要があります。
- Load Configuration などのPropertyInspectorのセクションで、プロファイリング手順を変更できます。 および集約構成 。これらの設定の説明は、このリンクにあります。
この例では、次のプロファイリングのデフォルトが選択されていることを確認してください。- 共通フォーマット検出を有効にする
- タイプ検出を有効にする
- パターン検出を有効にする
- ドメイン検出を有効にする
- 一意キー検出を有効にする
- 機能従属性の検出を有効にする
- 冗長列の検出を有効にする
- データルールプロファイリングを有効にする
- データプロファイリングジョブを開始するには、プロファイルをプルダウンします メニューを選択し、プロファイルを選択します
- プロファイルジョブが開始されると、プロファイルの検証の進行状況を示すダイアログボックスが表示されます。サーバーの速度とプロファイル内のデータベースオブジェクトの数によっては、これに数分かかる場合があります。
- 検証ステップが完了すると、実際のプロファイルジョブが実行されます。このジョブはバックグラウンドで非同期に実行されることに注意してください。 OKをクリックします ボタンをクリックしてプロファイル開始を閉じます ダイアログボックス。
- プロファイルジョブが完了したら、プロファイル結果の取得 画面が表示されます。 はいをクリックします プロファイルの結果をプロファイルエディタに取得します。
- プロファイルの結果がプロファイルエディタに表示されます。テーブル名をクリックすると、プロファイル結果キャンバスにメタデータが表示されます。 。列名をクリックすると、データドリルパネルで列の詳細が表示されます。
下の図(クリックすると拡大画像が表示されます)では、顧客 プロファイル結果キャンバスで表示するテーブルが選択されており、 NLS_TERRITORY データドリルパネルに表示する列が選択されています。
OracleOWBデータプロファイリングの詳細
ドキュメントに加えて、オラクルは、OWB向けのOracle By Example(OBE)シリーズのチュートリアルも提供しています。これには、Oracle Warehouse Builder:データプロファイリングを使用したソースデータの調査が含まれます。