sql >> データベース >  >> RDS >> Mysql

全文検索の関連性は?で測定されます

    テキスト検索システムの基本的なデータ構造は、転置インデックス です。 。これは基本的に、ドキュメントコレクションで見つかった単語のリストと、それらが出現するドキュメントのリストです。また、単語が出現する回数など、各ドキュメントの出現に関するメタデータを含めることもできます。

    単語を含むドキュメントは、検索語を照合することでクエリできます。関連性を判断するために、コサインランキング として知られるヒューリスティック ヒット数に基づいて計算されます。これは、n個の検索語ごとに1つのコンポーネントを使用してn次元ベクトルを構築することで機能します。必要に応じて、検索語に重みを付けることもできます。このベクトルは、検索語に対応するn次元空間内の点を示します。

    各ドキュメントの加重オカレンスに基づく同様のベクトルは、各検索語の軸に対応するベクトルの各軸を持つ転置インデックスから構築できます。これらのベクトルの内積を計算すると、それらの間の角度の正弦が得られます。 1.0はcos(0)と同等であり、ベクトルが原点から共通の線を占めると想定します。ベクトルが近ければ近いほど、角度は小さくなり、正弦は1.0に近づきます。

    検索結果をコサインで並べ替える場合(または、検索結果を mg します)あなたは最も関連性があります。賢い関連性アルゴリズムは、検索用語の重みをいじる傾向があり、関連性の高い用語を優先して内積を歪めます。

    少し掘り下げたい場合は、ギガバイトの管理 ベル および Moffet テキスト検索システムの内部アーキテクチャについて説明します。



    1. PHP配列の値をMySQLテーブルに挿入するにはどうすればよいですか?

    2. SQL Serverの最新バージョン、エディション、およびSQLServerの履歴

    3. OracleRMANの概要

    4. MySQLでのユーザーログインに応じて接続タイムアウトを設定する方法