更新時間:2022-12-15 11:48:10 來源:動力節點 瀏覽2382次
用 Java 編寫的獨立 CSV 數據加載過程,它必須使用一些模糊字符串匹配。使用名字和姓氏進行匹配,并在運行開始時緩存所有可能性。找到匹配項后,需要那個人在運行期間在多個地方對象。使用番石榴Objects.hashCode()從名字和姓氏中創建了一個散列。
緩存機制如下所示:
Map<Integer,PersonDO> personCache = Maps.newHashMap();
for(PersonDO p: dao.getPeople()) {
personCache.put(Objects.hashCode(p.getFirstName(),p.getLastName()), p);
}
大多數時候,在 firstname+lastname 上都能找到匹配項,但當它沒有匹配到時,就回過頭來使用 ApacheStringUtils.getLevenshteinDistance()來嘗試匹配它。匹配邏輯流程是這樣的:
person = personCache.get(Objects.hashCode(firstNameFromCSV,lastNameFromCSV));
if(person == null) {//fallback to fuzzy matching
person = findClosetMatch(firstNameFromCSV+lastNameFromCSV);
}
這是findClosetMatch()方法:
private PersonDO findClosetMatch(String name) {
int min = 15;//initial value
int testVal=0;
PersonDO matchedPerson = null;
for(PersonDO person: personCache.values()) {
testVal = StringUtils.getLevenshteinDistance(name,person.getFirstName()+person.getLastName());
if( testVal < min ) {
min = testVal;
matchedPerson = person;
}
}
if(matchedPerson == null) {
throw new Exception("Unable to find person: " + name)
}
return matchedPerson;
}
這適用于簡單的拼寫錯誤、錯別字和縮短的名稱(即 Mike->Michael),但是當完全丟失緩存中的一個傳入名稱時,最終會返回誤報匹配。為了防止這種情況發生,將最小值設置findClosetMatch()為 15(即不超過 15 個字符);它大部分時間都有效。
0基礎 0學費 15天面授
有基礎 直達就業
業余時間 高薪轉行
工作1~3年,加薪神器
工作3~5年,晉升架構
提交申請后,顧問老師會電話與您溝通安排學習