データの重複排除時に避けるべき5つのよくある間違い

データは力であり、その力には大きな責任が伴います。データの最大の障害の1つは、重複の特定と重複排除です。

データ重複排除の目的は、ビジネス内の冗長データを排除することです。重複は、営業担当者が最初にデータベースをチェックせずに新しいレコードを入力する、マーケティング担当者がレコードが存在するかどうかをチェックせずに潜在的な購入者のリストをアップロードする、顧客が情報を忘れたために再度入力するなど、ビジネスのすべての領域で作成されます。すでにアカウントを持っています。

データ重複排除により、このようなレコードの適切なデータ管理、データストレージの削減、より効果的なマーケティングコミュニケーション、およびより優れた予測分析が保証されます。重複したレコードは、理論的には顧客に2倍の予測力を与えることで、機械学習とデータサイエンスのレコードに大きな影響を与える可能性があり、その結果、出力にバイアスが生じます。

ただし、優れたアイデアにはリスクが伴い、ほとんどの場合データが削除される重複排除戦略の範囲内で、固有の間違いが発生する可能性があります。

インラインまたは後処理

インライン重複排除プロセスは、データが処理されるときにデータの重複排除を解除します。これは、データの量をすぐに減らすことを意味します。これは素晴らしいことですが、戦略などの実行に必要なリソースの量にパフォーマンスの問題があることがよくあります。ただし、重複排除はフロントエンドで実行されるため、最初からデータが実際に送信されることはないため、必要なrawディスクスペースがはるかに少なくて済みます。

インライン重複排除の処理能力があり、パフォーマンスに影響を与えないことを確認することが重要です。もう1つの間違いは、重複するケースがゼロであると想定することです。システムに重複があることには正当なニーズがあります。理由は、請求、カスタマーサービス、販売、およびマーケティングの理由である可能性があるため、インライン処理を実装する前に、データに触れるすべての部門に相談することをお勧めします。

アルゴリズム

重複排除は、それが供給されるアルゴリズムと同じくらい良いだけです。つまり、最初に重複レコードはどのように発見されますか？各従業員が独自のバージョンを持っていたため、システムにファイルのコピーが100個あると仮定します。複数のコピーを保存する代わりに、1つだけを保存し、すべての従業員にそれを指示させることをお勧めします。従業員の1人が自分のファイルに変更を加えた場合、つまり他のファイルとは少し異なる場合はどうなりますか？データを失うリスクがあります。設定したルールに意味があり、誤って一意のデータセットを削除し始めないようにすることが重要です。

SHA-1やMD5、バイナリ検索ツリー構造など、データ重複排除に使用される一般的なアルゴリズムがいくつかあります。これらは、最適なものを見つけるために確認する価値があります。

上記の例のデータセットの重複排除は、データサイエンティストが簡単に対処できます。販売とマーケティングの記録については、もう少し難しいです。事業ごとに重複の定義が異なることを考慮してください。これは、データサイエンティストの仕事ではなく、さまざまな部門の責任者の仕事です。したがって、最初のステップは、何が重複するのかを特定することです。たとえば、ウォルマートのような小売大手を考えてみましょう。流通会社の場合、ウォルマートの各場所は一意のレコードと見なされますが、ウォルマートに販売するソフトウェア会社の場合、本社に販売するだけなので、すべての場所が重複していると見なされます。一部の企業が各ブランドに個別に販売するP＆Gへの販売についても同じことが言えます。したがって、彼らはそれらをすべて別々に保ち、異なるブランドを識別するために重複排除するのではなく、親/子のリンクを適用したいと考えています。したがって、重複排除を行う前に、データの重複排除に使用するアルゴリズムを理解する前に、すべてのルールが定義されていることを確認してください。

暗号化

データ保護を使用すると、セキュリティチームがビジネスに参入するときにデータを暗号化することがよくあります。つまり、このコンテキストではすべてが一意であるため、重複排除は不可能です。重複排除ソフトウェアに沿って複製および暗号化製品を使用している場合、ファイルを一意のストレージブロックとして選択できないため、ファイルが複製される可能性が非常に高くなります。

データ保護製品は重複排除に対応している場合がありますが、すべてがどのように統合されるかを検討することが重要です。

手動重複排除

ほとんどの企業は、データベースを手動で重複排除しようとし、人的エラーの大きなリスクを伴う膨大な量のリソースと時間を消費します。それを超えて、膨大なデータセットがあるため、手動プロセスですべてを取得することは事実上不可能です。

たとえば、ジョン・スミスが今日あなたのウェブサイトで靴を購入した場合はどうでしょうか。彼は明日戻ってきますが、ログインの詳細を忘れたため、JSmithとして登録します。来週、彼は再びサインアップしますが、別のメールアドレスを使用します。ここでは3つのデータフィールドについてのみ説明しましたが、すでに複雑になり始めています。200の顧客データフィールドがある場合、それを一意に保つにはどうすればよいでしょうか。

手動プロセスを実行する場合は、完全なアルゴリズムを自分で構築するか、データクレンジングツールを取得してそれを実行し、時間と労力を節約することが重要です。

バックアップ

重複排除はうまくいかない可能性があります！重複を削除する前に、すべてをバックアップし、問題をすばやく解決できることが重要です。前の例に戻ると、JohnSmithとJSmithが実際には異なる人物であり、アカウントを取り戻す必要があることがわかった場合はどうなりますか？それを実行できるプロセスが必要です。これは現在EU（GDPR）の法的要件です。

企業がデジタルフットプリントを拡大するにつれ、データ重複排除戦略は重要です。非常に多くの通信チャネルがあるため、1つの重複レコードだけがバイアスを生み出し、誤った決定につながる可能性があります。とはいえ、間違ったレコードを削除したり、アルゴリズムを誤ってフィードしたりしてビジネスの速度を低下させたりすることによる結果を回避するために、適切に実行する必要があります。データの重複排除がデータガバナンス戦略内で完全に形成されていることを確認してください。