sql >> データベース >  >> RDS >> PostgreSQL

PostgreSQLはtf-idfを使用しますか?

    いいえ。ts_rank関数内には、グローバル(コーパス)頻度を使用して結果をランク付けするネイティブメソッドはありません。ただし、ランク付けアルゴリズムは、ドキュメント内の頻度に基づいてランク付けします。

    http://www.postgresql.org/docs/9.3/static /textsearch-controls.html

    したがって、「dog | chihuahua」を検索すると、「chihuahua」という単語の頻度が比較的低いにもかかわらず、次の2つのドキュメントのランクは同じになります。

    "I want a dog"
    "I want a chihuahua"
    

    ただし、次の行は、ドキュメント内にステム化されたトークン「dog」が2回含まれているため、上記の前の2行よりも上位にランク付けされます。

    "dog lovers have an average of 1.5 dogs"
    

    つまり、ドキュメント内の期間頻度が高いほどランクは高くなりますが、コーパス内の期間頻度が低いほど影響はありません。

    注意点:テキスト検索ではストップワードが無視されるため、「the」、「a」、「of」、「for」などの超高頻度の単語には一致しません(言語が正しく設定されていると仮定)



    1. JIRAデータベースからスプリントの開始日と終了日を抽出する最も簡単な方法は何ですか?

    2. データベースメールアカウント(SSMS)を削除する

    3. ソース管理のストアドプロシージャ/DBスキーマ

    4. SQLServerのバージョン管理に最適なツールは何ですか