IRIWorkbenchでのデータ分類

IRI Data Protector SuiteまたはVoracityプラットフォームのFieldShield、DarkShield、CellShield EEなどのPIIマスキングツールのユーザーは、組み込みのデータを使用して、データをカタログ化して検索し、データ変換および保護機能をルールとして適用できます。 > 分類 Eclipse™上に構築された共通のフロントエンドIDEであるIRIWorkbenchのインフラストラクチャ。

IRI Workbenchのマルチソースデータ検出（検索）機能は、定義したデータクラスを利用できます。または、検索結果、ビジネスルール、および/またはに基づいてデータクラスまたはデータクラスグループをデータに割り当てるのに役立ちます。ドメインオントロジー。

データクラスライブラリは、再利用可能なフィールド（データマスキングなど）のルールで使用できます。また、データを自動分類するときにこれらのルールを割り当てることもできます。

これらの機能は、データアーキテクトとガバナンスチームに利便性、一貫性、およびコンプライアンス機能を提供します。 エンドツーエンドの例については、この記事を参照してくださいデータクラスを使用して、RDBスキーマ内の複数のテーブル間で一貫してデータを検索およびマスクする方法。

この記事では、これらのクラスを定義する方法について説明します。パターン検索に基づいてデータを区別および検証するために使用できるデータクラスバリデーターに関する関連記事があります。

IRIブログの他のいくつかの記事では、さまざまな（主にデータマスキング）コンテキストでのデータクラスの適用について説明しています。これらの記事の完全な索引については、IRIソフトウェアの自己学習ページのこのセクションを参照してください。

データクラスの作成

分類は、Workbenchの環境設定でデータクラスを設定することから始まります。画面。ワークスペース内の複数のプロジェクト間でクラスをグローバルに使用できます。 Workbenchには、この例で使用されているFIRST_NAME、LAST_NAME、PIN_USクラスなど、いくつかのクラスがプリロードされています。

データクラスは、（1）クラスの名前をフィールドの名前に一致させる、（2）パターンをフィールドのデータに一致させる、または（3）ファイルの内容をフィールドのデータと照合することによって機能します。そのオプションが選択されている場合、最初の項目は分類プロセスで自動的に行われます。各クラスが意図した結果を返すために必要な数のパターンを追加し、ファイルマッチャーを設定できます。

データクラス名として正規表現を入力することは、列名を照合するための追加の方法です。たとえば、LNAMEまたはLASTNAMEという名前の列がある場合があります。したがって、 L（AST）？[_-]？NAMEを使用できます（下線と括弧内のダッシュ）姓のいくつかのバリエーションをキャプチャします。

データクラスとグループを非アクティブにすることもできます。クラスがたくさんあるが、特定のプロジェクトで使用されていないアイテムを除外したい場合は、それらを非アクティブにすることができます。これにより、それらのコピーを保持できますが、これらのクラスを使用するドロップダウンリストが乱雑になることはありません。

データクラスグループ

データクラスグループを持つこともできます。たとえば、含まれているグループ「NAMES」には、データクラスFIRST_NAME、LAST_NAME、およびFULL_NAMEが含まれています。ルールを複数のクラスに適用する場合は、データクラスを個別に選択する代わりに、グループを使用できます。

この例では、FIRST_NAMEデータクラスからアンダースコアを削除して、分類の名前一致オプションを示しています。

データ分類ソースウィザード

マッチャーが必要なクラスに追加されたら、データ分類ソースウィザードを実行できます。ウィザードは、CSV、区切り文字、LDIF、ODBC、またはXMLのデータ形式を受け入れます。このウィザードは、後で分類するためにデータクラスライブラリのソースを選択する手段を提供します。

セットアップページで、新しい「 iriLibrary.dataclass」の場所を選択することから始めます」ファイル。これは、このウィザードの出力です。各プロジェクトにはこれらのファイルタイプが1つしか存在できないため、ファイル名は読み取り専用です。すべてのソースが接続プロファイルのテーブルである場合は、チェックボックスを選択することもできます。

このボックスを選択すると、以下のような入力ページが開き、含めるテーブルを選択できます。

チェックボックスが選択されていない場合は、同じ入力画面でファイルまたはODBCソースを追加できます。このタイプの入力ページでは、各ソースのメタデータも追加する必要があります。この例では、CSVファイルと2つのOracleテーブルを含めました。

1つ以上の完全なデータベーススキーマ全体でデータを一度に検索および分類する必要がある場合は、スキーマパターン検索およびスキーマパターン検索からデータクラスへの関連付けウィザードを使用します。

[完了]をクリックすると、選択したソースが含まれたデータクラスライブラリが作成されます。開いたデータクラスフォームエディタを使用すると、これらのソースのデータを分類できます。

選択したソースのデータの分類

データソースの1つをクリックして分類プロセスを開始し、そのソースに関する詳細を表示します。画面の上部には、ファイルまたはテーブルの詳細を表示する展開可能なセクションがあります。

分類セクションは、フィールド名からデータクラス名への照合を含むチェックボックスで始まります。たとえば、FIRSTNAMEというデータクラスとFIRSTNAMEというフィールドがあります（大文字と小文字は区別されません）。

この場合、分類プロセスでは、データコンテンツを読み取らずに、そのフィールドのデータクラスが選択されます。

次のセクションには、チェックボックス付きのフィールド名、データクラスの列、および一致する結果の列を含むテーブルが表示されます。下の表は、ソース内のデータのプレビューです。このフォームエディタを使用する前に、必要なデータクラスを作成しておく必要がありますが、ここで追加または編集できます。

分類するフィールドのデータクラス列にあるドロップダウンボックスをクリックして、データクラスを手動で選択できます。 [自動分類]をクリックして、分類するフィールドを選択することもできます。 [OK]をクリックすると、自動分類プロセスが開始されます。これは、ソースにあるデータの量によっては時間がかかる場合があります。

表示される標準のEclipseダイアログでそのオプションを選択すると、プロセスをバックグラウンドで実行できます。さらに、進行状況ビューでプロセスステータスを表示できます。

終了すると、選択したフィールドのデータクラスとデータクラスマップがライブラリに作成されます。この例では、分類プロセスにより、SSNフィールドで87％の一致、LASTNAMEで11％の一致、およびFIRSTNAMEでの名前の一致が見つかりました。パーセンテージは、そのデータクラスのマッチャーを介してソース内で一致したデータの量を示します。

一致する列に「name」が表示されている場合は、名前に基づいてデータクラスが一致しています。データクラスを手動で選択した場合は、一致する列に「ユーザー」が表示されます。

最終的なライブラリの内容を以下に示します。ソースの詳細を確認できるのと同じように、データクラスとマップをクリックして詳細を表示することもできます。

データクラスマップは、データクラスとフィールドへの参照を使用します。これが、マップ自体に加えて、ライブラリがソースとデータクラスを格納する理由です。ソースまたはデータクラスを削除すると、その削除されたアイテムを参照する関連するデータクラスマップも削除されます。

[削除]をクリックすると、これを通知する警告が表示されます。このプロセスは、含まれている他のソースで繰り返すことができ、いつでも追加のソースを追加できます。

このライブラリの分類結果を使用して、これらのデータソースにフィールドルールを適用できるようになりました。このプロセスについては、分類を使用したフィールドルールの適用に関する次の記事で説明します。