基于規(guī)則的地址信息匹配方法

文檔序號(hào)：6370566閱讀：498來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于規(guī)則的地址信息匹配方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)的信息匹配和檢索技術(shù)，具體涉及用于地址檢索、地址標(biāo)準(zhǔn)化、地址匹配和地址清洗等的基于規(guī)則的地址信息匹配方法。
背景技術(shù)：
在計(jì)算機(jī)的數(shù)據(jù)處理中，有很對(duì)針對(duì)地址的分析和應(yīng)用，因?yàn)閿?shù)據(jù)來(lái)源的不同，針對(duì)同一地址的描述往往很難一致。這就給地址的分析和處理產(chǎn)生了很大的麻煩。這就需要有一個(gè)工具把錄入的地址轉(zhuǎn)換成標(biāo)準(zhǔn)的地址。在進(jìn)行地址轉(zhuǎn)換匹配中需要解決諸多問(wèn)題，因?yàn)槲覈?guó)地域廣闊而地址名稱(chēng)也是多種多樣，造成了匹配精度較低的現(xiàn)狀。其主要原因包括地址數(shù)量大而地址的精確性低，以及地址重名較多。例如張自忠路，北京、上海、天津等中國(guó)很多城市都有該地址名稱(chēng)。省略和別名也較多，例如北京市，地址描述時(shí)候常常把市給省略掉。另外地址信息中還通常包含其它信息，例如寫(xiě)地址的時(shí)候經(jīng)常攙雜一些其它的信息，包括公司的名字，有時(shí)候還有姓名和電話(huà)號(hào)碼。另外，地址的異化問(wèn)題包括習(xí)慣稱(chēng)呼、名稱(chēng)改變、名稱(chēng)重疊和同音字錯(cuò)誤、簡(jiǎn)繁字體差異等也會(huì)帶來(lái)地址匹配的錯(cuò)誤。為解決上述問(wèn)題，需要建立龐大的地址庫(kù)以減小地址匹配差異，目前針對(duì)地址庫(kù)過(guò)大的問(wèn)題通常都是從硬件上去解決。例如使用性能更好的計(jì)算機(jī)，或者使用性能更好的數(shù)據(jù)庫(kù)。但帶來(lái)的后果首先是成本的問(wèn)題，另外硬件的改善對(duì)于地址匹配缺陷的改變還是非常有限。

發(fā)明內(nèi)容
本發(fā)明提供了一種匹配精度高、速度快的基于規(guī)則的地址信息匹配方法，其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題，避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題，實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。本發(fā)明所采用的技術(shù)方案如下一種基于規(guī)則的地址信息匹配方法，其特征在于所述地址信息匹配方法包括根據(jù)錄入的地址信息進(jìn)行切詞，將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配，并將匹配的地址詞條添加到地址鏈路中，并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。
具體實(shí)施方式
中，所述匹配方法進(jìn)一步包括所述地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù)，該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立，所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引，所述地址庫(kù)中的中文和數(shù)字采用相匹配的壓縮形式。一實(shí)施方式中，所述地址庫(kù)還包括一別名地址庫(kù)，別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。一實(shí)施方式中，所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條先在所述標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配，然后再于別名地址庫(kù)中進(jìn)行詞條匹配，然后選擇一匹配的地址詞條添加到地址鏈路中。一實(shí)施方式中，所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條進(jìn)行錯(cuò)別字糾正，然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。另一實(shí)施方式中，所述錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò)；所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系，在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中，用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配；所述形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù)，在形近字字庫(kù)中將漢字按字形分組，在進(jìn)行詞條匹配時(shí)，漢字在其字形分組內(nèi)替代匹配。一實(shí)施方式中，所述匹配方法進(jìn)一步包括在地址庫(kù)中建立郵編與地址的關(guān)聯(lián)，進(jìn)行詞條匹配前，根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編；如果輸入地址包含郵編信息，則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍，縮小地址查找區(qū)域。一實(shí)施方式中，所述地址庫(kù)還包括一組織機(jī)構(gòu)數(shù)據(jù)庫(kù)，該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞；所述匹配方法包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配，首先與所述關(guān)鍵字進(jìn)行詞條匹配，再與修飾詞進(jìn)行詞條匹配，然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果，再進(jìn)行全地址的詞條匹配，最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果，并選擇一結(jié)果輸出。再一實(shí)施方式中，所述匹配方法進(jìn)一步包括創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表，在進(jìn)行詞條匹配前，先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。該基于規(guī)則的地址信息匹配方法通過(guò)將切詞后的地址詞條進(jìn)行地址庫(kù)匹配，并根據(jù)匹配信息進(jìn)行匹配后的地址詞條的地址鏈路添加。地址庫(kù)包括采用樹(shù)狀結(jié)構(gòu)建立的標(biāo)準(zhǔn)地址庫(kù)，每樹(shù)狀結(jié)構(gòu)的標(biāo)準(zhǔn)地址庫(kù)能夠有效地減少地址數(shù)據(jù)的重復(fù)描述情況，通過(guò)對(duì)樹(shù)狀結(jié)構(gòu)的每一個(gè)節(jié)點(diǎn)建立索引，能夠加快地址檢索和匹配的速度；而根據(jù)中文文字和數(shù)字的差異選擇壓縮技術(shù)，能夠減小數(shù)據(jù)庫(kù)的大小。針對(duì)同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)等地址別名，本發(fā)明允許給出一個(gè)地址別名并根據(jù)該別名的輸入得到相應(yīng)的匹配地址詞條。對(duì)于組織機(jī)構(gòu)的匹配，本發(fā)明收集和建立了組織機(jī)構(gòu)數(shù)據(jù)庫(kù)，每一組織機(jī)構(gòu)的地址詞條都拆分為關(guān)鍵字和修飾詞部分，關(guān)鍵詞為組織機(jī)構(gòu)匹配的核心。關(guān)鍵字若無(wú)法匹配則不再進(jìn)行組織機(jī)構(gòu)的詞條匹配。如果關(guān)鍵字完全匹配的話(huà)，則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。本發(fā)明的有益效果在于，該地址信息匹配方法匹配精度高、速度快的基于規(guī)則，其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題，避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題，實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。下面結(jié)合具體實(shí)施方式
對(duì)本發(fā)明做進(jìn)一步的闡述。
具體實(shí)施例方式該基于規(guī)則的地址信息匹配方法可用于基于計(jì)算機(jī)的地址檢索、地址標(biāo)準(zhǔn)化、地址匹配和地址清洗等技術(shù)。其根據(jù)錄入的地址信息進(jìn)行切詞，將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配，并將匹配的地址詞條添加到地址鏈路中，并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。該地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù)，該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立，所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引，所述地址庫(kù)中的中文和數(shù)字采用相匹配的壓縮形式。該地址庫(kù)還包括一別名地址庫(kù),別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。例如“北京市海淀區(qū)西直門(mén)外大街”別名為“西外大街”，在系統(tǒng)匹配過(guò)程中用戶(hù)輸入“北京西外大街”就可以得到“北京市海淀區(qū)西直門(mén)外大街”;一個(gè)地址可以存在多個(gè)別名。例如“江蘇省蘇州市相城區(qū)陽(yáng)澄湖鎮(zhèn)湘太路98號(hào)愛(ài)汀花園”的允許給兩個(gè)別名，分別是“愛(ài)汀堡”和“愛(ài)丁堡”。所述切詞后得到的地址詞條先在標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配，然后再于別名地址庫(kù)中進(jìn)行詞條匹配，然后選擇一匹配的地址詞條添加到地址鏈路中。地址庫(kù)還包括一組織機(jī)構(gòu)數(shù)據(jù)庫(kù)，該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞；所述匹配方法還包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配，首先與所述關(guān)鍵字進(jìn)行詞條匹配，再與修飾詞進(jìn)行詞條匹配，然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果，再進(jìn)行全地址的詞條匹配，最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果，并選擇一結(jié)果輸出。該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)集合了大量的公司、機(jī)關(guān)、單位、組織和學(xué)校的名字信息。組織機(jī)構(gòu)的名字信息可拆分為關(guān)鍵字和修飾詞兩部分，例如“北京鋒尚鑫隆電子技術(shù)中心”?！颁h尚鑫隆”為關(guān)鍵字，可以大概確定公司的字符串。其它如“北京”“電子”“技術(shù)” “中心”為修飾詞。修辭詞為事先定義好的詞庫(kù)。該詞庫(kù)為采集的組織機(jī)構(gòu)中的常見(jiàn)的字詞。比如上例中的“北京”、“電子”“技術(shù)” “中心”等。拆分組織機(jī)構(gòu)的時(shí)候，先拆修飾詞。等修飾詞拆分完，剩下的就是關(guān)鍵詞。一個(gè)組織機(jī)構(gòu)允許有多個(gè)關(guān)鍵字。關(guān)鍵字為組織機(jī)構(gòu)匹配的核心。關(guān)鍵字若匹配不上則停止組織機(jī)構(gòu)的匹配。關(guān)鍵字完全匹配上的話(huà)，則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。在匹配過(guò)程中，切詞后得到的地址詞條還進(jìn)行錯(cuò)別字糾正，然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò)，這兩種錯(cuò)別字所占的比例非常高，其原因是當(dāng)前的輸入法往往用的是字音或字形兩鐘輸入方式。所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系，在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中，用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配。例如用戶(hù)會(huì)把“北京市海淀區(qū)“錯(cuò)誤的輸成“北京還店區(qū)”。本專(zhuān)利用拼音建立漢字之間的關(guān)系。在匹配時(shí)，就可以用音近字代替當(dāng)前漢字去匹配。最終得到預(yù)期的匹配結(jié)果。例如上面的字符串，“還”和“?！弊忠粝胪?，所以是有關(guān)系的。匹配時(shí)，發(fā)現(xiàn)“還”和“?！庇嘘P(guān)系，“店”和“淀”有關(guān)系，北京還店區(qū)”就匹配到了 “北京市海淀區(qū)”。形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù)，在形近字字庫(kù)中將漢字按字形分組，在進(jìn)行詞條匹配時(shí)，漢字在其字形分組內(nèi)替代匹配。例如用戶(hù)把“北京市海淀區(qū)”輸入成“北京每定區(qū)”，經(jīng)過(guò)漢字字形分組匹配，可得到“北京市海淀區(qū)”的詞條匹配。地址庫(kù)中建立有郵編與地址的關(guān)聯(lián)，在地址庫(kù)中建立郵編與地址的關(guān)聯(lián)，進(jìn)行詞條匹配前，根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編；如果輸入地址包含郵編信息，則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍，縮小地址查找區(qū)域，以提高地址的匹配精度。郵編的關(guān)聯(lián)精確度可分三級(jí)。前兩位郵編號(hào)精確，前四位郵編更精確，六位全精確。三個(gè)精確級(jí)別所對(duì)應(yīng)的地址范圍也不同。
同時(shí)，本發(fā)明還創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表，在進(jìn)行詞條匹配前，先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。
權(quán)利要求
1.一種基于規(guī)則的地址信息匹配方法，其特征在于所述地址信息匹配方法包括根據(jù)錄入的地址信息進(jìn)行切詞，將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配，并將匹配的地址詞條添加到地址鏈路中，并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。
2.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法，其特征在于所述匹配方法進(jìn)一步包括所述地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù)，該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立，所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引，所述地址庫(kù)中的中文信息和數(shù)字信息采用相匹配的壓縮形式。
3.根據(jù)權(quán)利要求2所述的基于規(guī)則的地址信息匹配方法，其特征在于所述地址庫(kù)還包括一別名地址庫(kù)，別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。
4.根據(jù)權(quán)利要求3所述的基于規(guī)則的地址信息匹配方法，其特征在于所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條先在所述標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配，然后再于別名地址庫(kù)中進(jìn)行詞條匹配，然后選擇一匹配的地址詞條添加到地址鏈路中。
5.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法，其特征在于所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條進(jìn)行錯(cuò)別字糾正，然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。
6.根據(jù)權(quán)利要求5所述的基于規(guī)則的地址信息匹配方法，其特征在于所述錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò)；所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系，在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中，用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配；所述形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù)，在形近字字庫(kù)中將漢字按字形分組，在進(jìn)行詞條匹配時(shí)，漢字在其字形分組內(nèi)替代匹配。
7.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法，其特征在于所述匹配方法進(jìn)一步包括在地址庫(kù)中建立郵編與地址的關(guān)聯(lián)，進(jìn)行詞條匹配前，根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編；如果輸入地址包含郵編信息，則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍，縮小地址查找區(qū)域。
8.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法，其特征在于所述地址庫(kù)還包括一組織機(jī)構(gòu)數(shù)據(jù)庫(kù)，該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞；所述匹配方法包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配，首先與所述關(guān)鍵字進(jìn)行詞條匹配，再與修飾詞進(jìn)行詞條匹配，然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果，再進(jìn)行全地址的詞條匹配，最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果，并選擇一結(jié)果輸出。
9.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法，其特征在于所述匹配方法進(jìn)一步包括創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表，在進(jìn)行詞條匹配前，先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。
全文摘要
一種基于規(guī)則的地址信息匹配方法，包括根據(jù)錄入的地址信息進(jìn)行切詞，將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配，并將匹配的地址詞條添加到地址鏈路中，并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。該基于規(guī)則的地址信息匹配方法匹配精度高、速度快，其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題，避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題，實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。
文檔編號(hào)G06F17/30GK102750351SQ201210189409
公開(kāi)日2012年10月24日申請(qǐng)日期2012年6月11日優(yōu)先權(quán)日2012年6月11日
發(fā)明者于志華, 崔傳德申請(qǐng)人:迪爾碼國(guó)際營(yíng)銷(xiāo)服務(wù)(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：崔傳德;于志華
技術(shù)所有人：迪爾碼國(guó)際營(yíng)銷(xiāo)服務(wù)(北京)有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

王者榮耀匹配規(guī)則相關(guān)技術(shù)

vlookup模糊匹配規(guī)則相關(guān)技術(shù)

王者榮耀排位匹配規(guī)則相關(guān)技術(shù)

vlookup近似匹配規(guī)則相關(guān)技術(shù)

路由匹配規(guī)則相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于規(guī)則的地址信息匹配方法