MySQLデータベースで最も繰り返される類似フィールドを取得する

あなたが話しているのは、テキストクラスタリングプロセスです。あなたは似たようなテキストを見つけようとしていて、それらの1つを任意に選択しています。この形式のテキストマイニングを実行するデータベースについてはよく知りません。

あなたが説明することについては、かなり基本的なテキストマイニング技術がおそらくうまくいくでしょう。ユーザー名を除くすべての単語を含む用語ドキュメントマトリックスを作成します。次に、特異値分解を使用して、最大の特異値とベクトルを取得します（これは相関行列の最初の主成分です）。同様の活動は、この線に沿ってクラスター化する必要があります。

語彙が限られていて、用語が表にある場合は、重複する単語の割合によって2つのアクション間の距離を測定できます。アクション内のすべての単語のリストはありますか？