Java模糊字符串與名稱匹配

更新時間：2022-12-15 11:48:10 來源：動力節點瀏覽2382次

用 Java 編寫的獨立 CSV 數據加載過程，它必須使用一些模糊字符串匹配。使用名字和姓氏進行匹配，并在運行開始時緩存所有可能性。找到匹配項后，需要那個人在運行期間在多個地方對象。使用番石榴Objects.hashCode()從名字和姓氏中創建了一個散列。

緩存機制如下所示：

Map<Integer,PersonDO> personCache = Maps.newHashMap();
for(PersonDO p: dao.getPeople()) {
    personCache.put(Objects.hashCode(p.getFirstName(),p.getLastName()), p);
}

大多數時候，在 firstname+lastname 上都能找到匹配項，但當它沒有匹配到時，就回過頭來使用 ApacheStringUtils.getLevenshteinDistance()來嘗試匹配它。匹配邏輯流程是這樣的：

    person = personCache.get(Objects.hashCode(firstNameFromCSV,lastNameFromCSV));
    if(person == null) {//fallback to fuzzy matching
        person = findClosetMatch(firstNameFromCSV+lastNameFromCSV);
    }

這是findClosetMatch()方法：

private PersonDO findClosetMatch(String name) {
    int min = 15;//initial value
    int testVal=0;
    PersonDO matchedPerson = null;
    for(PersonDO person: personCache.values()) {
        testVal = StringUtils.getLevenshteinDistance(name,person.getFirstName()+person.getLastName());
        if( testVal < min ) {
            min = testVal;
            matchedPerson = person;
        }
    }
    if(matchedPerson == null) {
        throw new Exception("Unable to find person: " + name) 
    }
    return matchedPerson;
}

這適用于簡單的拼寫錯誤、錯別字和縮短的名稱(即 Mike->Michael)，但是當完全丟失緩存中的一個傳入名稱時，最終會返回誤報匹配。為了防止這種情況發生，將最小值設置findClosetMatch()為 15(即不超過 15 個字符);它大部分時間都有效。

Java字符串