sql >> データベース >  >> RDS >> Database

データマイニングの概要

    注:この記事は元々2015年に作成されましたが、現在利用可能な最も強力なオープンソースデータマイニングプラットフォームであるIRI VoracityとKnime(Konstanz Information Minerの場合)の新しい統合を反映して2019年に更新されました。

    データマイニングは、データ、通常は意味のある情報、傾向、その他の有用な洞察を発見する必要がある大規模なデータセットから知識を引き出す科学です。データマイニングは、機械学習と統計的手法を使用して、他の方法では非常に威圧的なデータセットから情報の有用な「ナゲット」を抽出します。

    データマイニングは、複数のコンピューターと数学の分野にまたがっています。これは、一連のアクションの総称であるため、単一のプロセスではありません。マイニング中に実行される4つの広範なタスクには、探索的データ分析(EDA)、記述的モデリング、予測モデリング、パターン検出が含まれます。

    EDAは、従来の統計的視覚化手法または従来とは異なるグラフィカル手法を使用して、データに興味深いものが見つかるかどうかを確認します。

    記述的モデリングでは、データはルーチンに渡され、データの形成の背後にある動詞(データジェネレーター)または形容詞(データ記述)を生成します。これには、データを確率分布、クラスタリング、および依存関係モデリングに関連付ける方法が含まれます。

    予測モデリングでは、回帰法と分類法を使用して、将来の未知のデータポイントを予測するための標準を設定します。回帰は、次の値を予測するために方程式をデータセットに適合させる純粋な数学的分析です。予測モデリングは、データの論理分析(LAD)メソッドを使用して発見されたパターンルールと関係(または具体的に特定された原因と結果)の傾向にも依存できます。

    LADを介したパターン検出は、観測の過去の分類に従って新しい観測を分類し、最適化、組み合わせ関数、およびブール関数を使用して分析の精度を向上させます。

    ほとんどの場合、これらのメソッドは、どのデータエントリが関連しているかを示すだけであり、それらが関連している理由や方法は示していません。これらのルールやパターンを見つけることで、あるクラス/クラスターの特徴を説明することができます。トピックは、データ自体に応じてさまざまな方法で一覧表示されます。

    データマイニングのアプリケーションは、ビジネスマーケティングから医学、銀行や保険での不正検出から天文学、人的資源管理からカタログマーケティング業界などにまで及びます。医療専門家は、病気の進行率が異なる人々の属性を区別するのに役立つことを発見しました。小売店は現在、データマイニングを使用して、消費者の消費習慣をよりよく理解し、一緒に購入するアイテムとその関係、および顧客に宣伝するための最良の方法に注目しています。そして現在、企業の世界の多くは、主要なビジネス上の意思決定を計算、実行、正当化するためにデータマイニングに依存しています。

    しかし、NSA-Verizonの電話記録スキャンダルに関する最近の激しいメディア報道から誰もが知っているように、データマイニングも非常に物議を醸す可能性があります。岩の下に住んでいた場合に備えて、簡単な概要を次に示します。

    2013年6月5日、The Guardianと呼ばれる英国の日刊紙は、米国最大の通信プロバイダーの1つであるVerizonからの何百万もの顧客レコードが、機密扱いの注文に応じて米国国家安全保障局によって収集されたという独占レポートを発表しました。米国外国諜報監視裁判所から。 Verizonのビジネスネットワークサービスは、米国内および海外のモバイルサービスプロバイダーによって作成されたすべてのテレフォニーメタデータを引き渡すことを余儀なくされました。その結果、オバマ政権に対する超党派的かつ普遍的な批判が公民権擁護団体や報道機関から噴出し、大統領による行政権の乱用を主張した。この記事の執筆時点では、この事件の解決策は見えていません。しかし、それは間違いなく、特にプライバシーの懸念や一般の人々に関して、データマイニングが否定的な見方をすることがある方法の代表的な例として残るでしょう。

    大量の静的データまたは動的データを処理する場合、計算およびI/O関連のパフォーマンスの問題が確実に発生します。テラバイトおよびエクサバイトのデータを含むデータベースでは、データのコーミングに多くの時間がかかる可能性があり、マイニングアルゴリズムを非常に効率的に実行する必要があります。その他の問題には、過剰適合やノイズの多いデータが含まれます。

    過剰適合は通常、利用可能な十分なデータがないことを意味します。データモデル(この場合、データのグローバル記述)は、観測数に比べてパラメーターが多すぎるため、複雑になりすぎます。これにより、データのわずかな変動が誇張され、予測を行うための基礎としてのモデルの信頼性が損なわれます。

    一方、ノイズの多いデータとは、間違った種類のデータが多すぎることを意味します。意味のない、誤った、構造化されていない(読み取り不能)、またはその他の破損したデータは、ストレージ要件を増加させたり、データマイニングの精度を妨げる前に統計分析を排除する必要があります。優れたデータマイニングアルゴリズムは、ノイズの多いデータを考慮に入れています。

    データマイニングは、データベースでの知識発見(KDD)と呼ばれるより大きなプロセスの1つのステップです。 KDDは、最初にデータの準備から始まります。データの選択、前処理、変換です。ここで、調査する内容を決定し、マイニング可能な方法で設定します。これは、データをm-n行列として表し、各データベクトルの要素を数値で表したものです。次に、あなたは私のものです。そして最後に、古いnogginを使用して、その情報を解釈および分析することができます。次に、隠されたパターンと傾向がまだ十分に明確でない場合は、もう少し深く掘り下げる必要があります。

    データマイニングとKDDプロセスにおけるIRIの役割は、複数の高性能データ変換機能を介して分析するためにビッグデータを準備して再構築することです。具体的には、IRI CoSortデータ操作パッケージは、データを迅速にフィルタリング、操作、再フォーマットできるため、これらのデータマイニングソフトウェアスイートなどのデータマイニングアルゴリズムで処理できます。 CoSortは、IRI Voracityデータ管理プラットフォームのデフォルトのデータ処理エンジンでもあり、幅広いデータプロファイリング、準備、ラングリング作業用に設計されています。

    IRI Workbench GUIでCoSortを使用している場合、BIRTは、いくつかの分析およびマイニング機能を含むグラフィカルレポートおよびビジネスインテリジェンス機能を備えた無料のEclipseプラグインです。 CoSortとBIRTAnalyticsはどちらもEclipseIDEを使用します。 CoSortに組み込まれたOpenDataAccess(ODA)データドライバーのサポートにより、2つのプラグイン間のデータフロー統合もシームレスになり、より迅速なwhat-if分析が可能になります。

    2019年以降にVoracityを使用する場合は、無料のKnimeAnalyticsPlatformのコアプロバイダーをIRIWorkbenchにインストールすることをお勧めします。同じEclipseペインで、KnimeのVoracityソース(プロバイダー)ノードは、統計および予測分析、データマイニング、マシン/ディープラーニング、ニューラルネットワークを必要とするアプリケーションのために、メモリ内のVoracityで準備された生データをKnimeノードに渡すことができますと人工知能。

    この記事の寄稿者には、RobyPoteauとDavidFriedlandが含まれます


    1. mysql:「文字列」を0と比較するとtrueになるのはなぜですか?

    2. SQLiteの日付から日、月、年を抽出する方法

    3. Oracle SQL、複数の列を連結してテキストを追加

    4. SQL*PlusでOraclecreatetableステートメントを取得する方法