sql >> データベース >  >> RDS >> Mysql

ジャロウィンクラー関数:同じスコアが非常に類似した非常に異なる単語に一致するのはなぜですか?

    ジャロ・ウィンクラー距離の公式は、共通の始まりを持つ弦に偏っています。たとえば、Valenti na およびValentiria

    また、それほど直感的ではない「ルール」もいくつかあります(ウィキペディア を参照)。 。

    おそらく、最初にどのような非類似性を期待しているかを判断してから、適切な距離の式を探す必要があります。たとえば、書面では、「angleworm」と「angelworm」はエラーである可能性が非常に高いため、2つのストリング間の距離は短くする必要があります。 「そこ」と「3」が一致しない可能性は低く、「エーテル」はさらにそうです。アナグラムが長いと、ジャロ距離はまったく同じになる可能性があり、ウィンクラー補正でさえも機能しない可能性があります。

    このページ で読むことができます (強調鉱山)



    1. MySQLデータベースへの特殊文字の保存

    2. チェックボックスを使用してデータベースエントリを削除する

    3. Unicodeエンコードエラー'latin-1'コーデックは文字'\u2019'をエンコードできません

    4. サブ選択を使用してテーブルを変更する