Re-IDリスクを下げるための間接識別子の匿名化

準識別子、または間接識別子は、個人について真実であるが、必ずしも一意ではない個人属性です。例としては、年齢や生年月日、人種、給与、学歴、職業、結婚歴、郵便番号などがあります。これらを、個人の氏名、電子メールアドレス、電話番号、国民ID、パスポート、クレジットカード番号などの直接的な一意の識別子と比較してください。

ほとんどの消費者は、独自の個人情報（PII）を共有することのリスクをすでに認識しています。データセキュリティ業界は通常、これらの直接識別子にも焦点を当てています。しかし、性別、生年月日、郵便番号だけで、米国の人口の80〜90％を特定できます。

十分な間接識別子が残っていて、同様の値を持つスーパーセットの母集団に結合できる場合は、マスクされたデータセットからほとんどの人を再識別できます。

学生データのプライバシーに関する保護された健康情報（PHI）およびFERPA法に関連するHIPAA専門家決定方法規則は、これらの懸念を考慮しており、データセットの再識別可能性が統計的に低いことを要求しています（現在の標準は20％未満です）。研究やマーケティングの目的でヘルスケアおよび教育データを使用することを希望する場合は、これらの法律を遵守する必要がありますが、データの価値を高めるために準識別子の人口統計学的精度にも依存する必要があります。

このため、IRIFieldShield製品またはIRIVoracity（データ管理プラットフォーム）のデータマスキングジョブは、調査やマーケティングの目的で十分な精度を維持しながら、1つ以上の追加の手法を適用してデータを難読化できます。たとえば、数値ブラー関数は、この記事で説明されているように、指定された年齢と日付の範囲でランダムノイズを生成します。

この記事に基づいて、この例では、IRIWorkbenchがセットファイルを作成および使用して準識別子を匿名化する方法を示します。

バケット化による一般化から始めますウィザード、データ保護ルールのリストから利用可能：

ウィザードが開いたら、ソース形式や一般化された置換値を必要とするフィールドなど、セットファイルの値のソースの定義を開始します。

次のページでは、2種類のセットファイルの置換があります。セットファイルをグループとして使用する および範囲として設定ファイルを使用 オプション。この例では、セットファイルをグループとして使用します。オプション。データのぼかしに関する記事では、セットファイルを範囲として使用するについて説明しています。オプション。ここで作成されたルックアップセットは、元の準識別子を新しい一般化値で仮名化するために使用されます。

このページでは、元の準識別フィールド値のそれぞれの間のグループ化が作成されます。左側は、前に選択したフィールドの一意の値です。グループは、左側のグループ値にドラッグアンドドロップするか、手動で値を入力することで作成できます。各グループには、固有の置換値も必要です。これは、グループ内の元の値を置き換える値です。この例では、「9th」の値は「HighSchool」に置き換えられます。

すべてのソース値がカバーされるまでグループを追加すると、教育ステータスの準識別子を匿名化するための次のルックアップセットファイルが生成されます。

追加のレベルのバケット化が必要な場合は、この設定ファイルをソースとして使用して、バケット化ウィザードを再度実行できます。

セットファイルがデータ匿名化ジョブで使用される場合、ソースデータはセットファイルの最初の列の値と比較されます。一致するものが見つかった場合、データは2番目の列の値に置き換えられます。上記の設定ファイルは、38行目の以下のスクリプトで使用されています。

Workbenchを使用して5つの異なる匿名化手法を適用すると、次のスクリプトが作成されます。

元のデータの最初の10行がここに表示されます：

ジョブの実行後の匿名化された結果は次のとおりです：

これらの一般化の前は、元の間接的に識別された値に基づく再識別のリスクが高すぎました。しかし、より一般化された結果セットがリスクスコアリングウィザードを介して再実行され、再識別リスクの別の決定が生成される場合、リスクは許容可能であり、データは研究またはマーケティングの目的に引き続き役立ちます。

これらの機能または再IDリスクスコアリングについて質問がある場合は、お問い合わせください。