sql >> データベース >  >> RDS >> Mysql

MySQLの2つの異なるテーブルで類似の行を選択するにはどうすればよいですか(可能ですか?)

    LevenshteinDistance のUDF実装の場合 「 codejanitor.com:MySQLストアド関数としてのレーベンシュタイン距離 ":

    CREATE FUNCTION LEVENSHTEIN (s1 VARCHAR(255), s2 VARCHAR(255))
    RETURNS INT
    DETERMINISTIC
    BEGIN
      DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
      DECLARE s1_char CHAR;
      DECLARE cv0, cv1 VARBINARY(256);
      SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
      IF s1 = s2 THEN
        RETURN 0;
      ELSEIF s1_len = 0 THEN
        RETURN s2_len;
      ELSEIF s2_len = 0 THEN
        RETURN s1_len;
      ELSE
        WHILE j <= s2_len DO
          SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
        END WHILE;
        WHILE i <= s1_len DO
          SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
          WHILE j <= s2_len DO
            SET c = c + 1;
            IF s1_char = SUBSTRING(s2, j, 1) THEN SET cost = 0; ELSE SET cost = 1; END IF;
            SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
            IF c > c_temp THEN SET c = c_temp; END IF;
            SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
            IF c > c_temp THEN SET c = c_temp; END IF;
            SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
          END WHILE;
          SET cv1 = cv0, i = i + 1;
        END WHILE;
      END IF;
      RETURN c;
    END
    

    次に、質問で提供したデータを使用して、テストケースを作成しましょう。

    CREATE TABLE table_a (name varchar(20));
    CREATE TABLE table_b (name varchar(20));
    
    INSERT INTO table_a VALUES('Olde School');      
    INSERT INTO table_a VALUES('New School');
    INSERT INTO table_a VALUES('Other, C.S. School');
    INSERT INTO table_a VALUES('Main School');
    INSERT INTO table_a VALUES('Too Cool for School');
    
    INSERT INTO table_b VALUES('Old School');
    INSERT INTO table_b VALUES('New ES');
    INSERT INTO table_b VALUES('Other School');
    INSERT INTO table_b VALUES('Main School');
    INSERT INTO table_b VALUES('Hardknocks School');
    

    次に:

    SELECT     *
    FROM       table_a a
    LEFT JOIN  table_b b ON (a.name = b.name);
    

    明らかに、学校名が完全に一致する一致を返します:

    +---------------------+-------------+
    | name                | name        |
    +---------------------+-------------+
    | Olde School         | NULL        |
    | New School          | NULL        |
    | Other, C.S. School  | NULL        |
    | Main School         | Main School |
    | Too Cool for School | NULL        |
    +---------------------+-------------+
    5 rows in set (0.00 sec)
    

    これで、LEVENSHTEINの使用を試すことができます 距離の編集 を持つ学校名を返す関数 2文字以下:

    SELECT     *
    FROM       table_a a
    LEFT JOIN  table_b b ON (LEVENSHTEIN(a.name, b.name) <= 2);
    
    +---------------------+-------------+
    | name                | name        |
    +---------------------+-------------+
    | Olde School         | Old School  |
    | New School          | NULL        |
    | Other, C.S. School  | NULL        |
    | Main School         | Main School |
    | Too Cool for School | NULL        |
    +---------------------+-------------+
    5 rows in set (0.08 sec)
    

    現在、<= 3を使用しています 編集距離のしきい値として:

    SELECT     *
    FROM       table_a a
    LEFT JOIN  table_b b ON (LEVENSHTEIN(a.name, b.name) <= 3);
    

    次の結果が得られます:

    +---------------------+--------------+
    | name                | name         |
    +---------------------+--------------+
    | Olde School         | Old School   |
    | Olde School         | Other School |
    | New School          | Old School   |
    | Other, C.S. School  | NULL         |
    | Main School         | Main School  |
    | Too Cool for School | NULL         |
    +---------------------+--------------+
    6 rows in set (0.06 sec)
    

    今回はOlde School Other Schoolとも一致 、およびNew School 一致したOld School 同じように。これらはおそらく誤検知であり、誤った一致を回避するためにしきい値を定義することが非常に重要であることを示しています。

    この問題に取り組むための一般的な手法の1つは、しきい値を適用するときに文字列の長さを考慮することです。実際、この実装について引用しました LEVENSHTEIN_RATIOも提供します 文字列の長さに基づいた編集差の比率(パーセンテージ)を返す関数。



    1. SQLintersectionのためにラスベガスに参加して$100を節約

    2. データベースをPostgreSQLバージョン10にアップグレードする-知っておくべきこと

    3. PHPテーブル作成エラー1064

    4. データの重複排除時に避けるべき5つのよくある間違い