專(zhuān)利名稱(chēng):基于規(guī)則的地址信息匹配方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)的信息匹配和檢索技術(shù),具體涉及用于地址檢索、地址標(biāo)準(zhǔn)化、地址匹配和地址清洗等的基于規(guī)則的地址信息匹配方法。
背景技術(shù):
在計(jì)算機(jī)的數(shù)據(jù)處理中,有很對(duì)針對(duì)地址的分析和應(yīng)用,因?yàn)閿?shù)據(jù)來(lái)源的不同,針對(duì)同一地址的描述往往很難一致。這就給地址的分析和處理產(chǎn)生了很大的麻煩。這就需要有一個(gè)工具把錄入的地址轉(zhuǎn)換成標(biāo)準(zhǔn)的地址。在進(jìn)行地址轉(zhuǎn)換匹配中需要解決諸多問(wèn)題,因?yàn)槲覈?guó)地域廣闊而地址名稱(chēng)也是多種多樣,造成了匹配精度較低的現(xiàn)狀。其主要原因包括地址數(shù)量大而地址的精確性低,以及地址重名較多。例如張自忠路,北京、上海、天津等中國(guó)很多城市都有該地址名稱(chēng)。省略和別名也較多,例如北京市,地址描述時(shí)候常常把市給省略掉。另外地址信息中還通常包含其它信息,例如寫(xiě)地址的時(shí)候經(jīng)常攙雜一些其它的信息, 包括公司的名字,有時(shí)候還有姓名和電話(huà)號(hào)碼。另外,地址的異化問(wèn)題包括習(xí)慣稱(chēng)呼、名稱(chēng)改變、名稱(chēng)重疊和同音字錯(cuò)誤、簡(jiǎn)繁字體差異等也會(huì)帶來(lái)地址匹配的錯(cuò)誤。為解決上述問(wèn)題,需要建立龐大的地址庫(kù)以減小地址匹配差異,目前針對(duì)地址庫(kù)過(guò)大的問(wèn)題通常都是從硬件上去解決。例如使用性能更好的計(jì)算機(jī),或者使用性能更好的數(shù)據(jù)庫(kù)。但帶來(lái)的后果首先是成本的問(wèn)題,另外硬件的改善對(duì)于地址匹配缺陷的改變還是非常有限。
發(fā)明內(nèi)容
本發(fā)明提供了一種匹配精度高、速度快的基于規(guī)則的地址信息匹配方法,其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題,避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題,實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。本發(fā)明所采用的技術(shù)方案如下一種基于規(guī)則的地址信息匹配方法,其特征在于所述地址信息匹配方法包括根據(jù)錄入的地址信息進(jìn)行切詞,將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。
具體實(shí)施方式
中,所述匹配方法進(jìn)一步包括所述地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù),該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立,所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引,所述地址庫(kù)中的中文和數(shù)字采用相匹配的壓縮形式。一實(shí)施方式中,所述地址庫(kù)還包括一別名地址庫(kù),別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。一實(shí)施方式中,所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條先在所述標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配,然后再于別名地址庫(kù)中進(jìn)行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。一實(shí)施方式中,所述匹配方法進(jìn)一步包括所述切詞后得到的地址詞條進(jìn)行錯(cuò)別字糾正,然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。另一實(shí)施方式中,所述錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò);所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系,在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中,用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配;所述形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù),在形近字字庫(kù)中將漢字按字形分組,在進(jìn)行詞條匹配時(shí),漢字在其字形分組內(nèi)替代匹配。一實(shí)施方式中,所述匹配方法進(jìn)一步包括 在地址庫(kù)中建立郵編與地址的關(guān)聯(lián),進(jìn)行詞條匹配前,根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍,縮小地址查找區(qū)域。一實(shí)施方式中,所述地址庫(kù)還包括一組織機(jī)構(gòu)數(shù)據(jù)庫(kù),該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞;所述匹配方法包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配,首先與所述關(guān)鍵字進(jìn)行詞條匹配,再與修飾詞進(jìn)行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果,再進(jìn)行全地址的詞條匹配,最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。再一實(shí)施方式中,所述匹配方法進(jìn)一步包括創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表,在進(jìn)行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。該基于規(guī)則的地址信息匹配方法通過(guò)將切詞后的地址詞條進(jìn)行地址庫(kù)匹配,并根據(jù)匹配信息進(jìn)行匹配后的地址詞條的地址鏈路添加。地址庫(kù)包括采用樹(shù)狀結(jié)構(gòu)建立的標(biāo)準(zhǔn)地址庫(kù),每樹(shù)狀結(jié)構(gòu)的標(biāo)準(zhǔn)地址庫(kù)能夠有效地減少地址數(shù)據(jù)的重復(fù)描述情況,通過(guò)對(duì)樹(shù)狀結(jié)構(gòu)的每一個(gè)節(jié)點(diǎn)建立索引,能夠加快地址檢索和匹配的速度;而根據(jù)中文文字和數(shù)字的差異選擇壓縮技術(shù),能夠減小數(shù)據(jù)庫(kù)的大小。針對(duì)同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)等地址別名,本發(fā)明允許給出一個(gè)地址別名并根據(jù)該別名的輸入得到相應(yīng)的匹配地址詞條。對(duì)于組織機(jī)構(gòu)的匹配,本發(fā)明收集和建立了組織機(jī)構(gòu)數(shù)據(jù)庫(kù),每一組織機(jī)構(gòu)的地址詞條都拆分為關(guān)鍵字和修飾詞部分,關(guān)鍵詞為組織機(jī)構(gòu)匹配的核心。關(guān)鍵字若無(wú)法匹配則不再進(jìn)行組織機(jī)構(gòu)的詞條匹配。如果關(guān)鍵字完全匹配的話(huà),則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。本發(fā)明的有益效果在于,該地址信息匹配方法匹配精度高、速度快的基于規(guī)則,其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題,避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題,實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。下面結(jié)合具體實(shí)施方式
對(duì)本發(fā)明做進(jìn)一步的闡述。
具體實(shí)施例方式該基于規(guī)則的地址信息匹配方法可用于基于計(jì)算機(jī)的地址檢索、地址標(biāo)準(zhǔn)化、地址匹配和地址清洗等技術(shù)。其根據(jù)錄入的地址信息進(jìn)行切詞,將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。該地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù),該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立,所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引,所述地址庫(kù)中的中文和數(shù)字采用相匹配的壓縮形式。該地址庫(kù)還包括一別名地址庫(kù),別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。例如“北京市海淀區(qū)西直門(mén)外大街”別名為“西外大街”,在系統(tǒng)匹配過(guò)程中用戶(hù)輸入“北京西外大街”就可以得到“北京市海淀區(qū)西直門(mén)外大街”;一個(gè)地址可以存在多個(gè)別名。例如“江蘇省蘇州市相城區(qū)陽(yáng)澄湖鎮(zhèn)湘太路98號(hào)愛(ài)汀花園”的允許給兩個(gè)別名,分別是“愛(ài)汀堡”和“愛(ài)丁堡”。所述切詞后得到的地址詞條先在標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配,然后再于別名地址庫(kù)中進(jìn)行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。地址庫(kù)還包括一組織 機(jī)構(gòu)數(shù)據(jù)庫(kù),該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞;所述匹配方法還包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配,首先與所述關(guān)鍵字進(jìn)行詞條匹配,再與修飾詞進(jìn)行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果,再進(jìn)行全地址的詞條匹配,最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)集合了大量的公司、機(jī)關(guān)、單位、組織和學(xué)校的名字信息。組織機(jī)構(gòu)的名字信息可拆分為關(guān)鍵字和修飾詞兩部分,例如“北京鋒尚鑫隆電子技術(shù)中心”?!颁h尚鑫隆”為關(guān)鍵字,可以大概確定公司的字符串。其它如“北京”“電子”“技術(shù)” “中心”為修飾詞。修辭詞為事先定義好的詞庫(kù)。該詞庫(kù)為采集的組織機(jī)構(gòu)中的常見(jiàn)的字詞。比如上例中的“北京”、“電子”“技術(shù)” “中心”等。拆分組織機(jī)構(gòu)的時(shí)候,先拆修飾詞。等修飾詞拆分完,剩下的就是關(guān)鍵詞。一個(gè)組織機(jī)構(gòu)允許有多個(gè)關(guān)鍵字。關(guān)鍵字為組織機(jī)構(gòu)匹配的核心。關(guān)鍵字若匹配不上則停止組織機(jī)構(gòu)的匹配。關(guān)鍵字完全匹配上的話(huà),則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。在匹配過(guò)程中,切詞后得到的地址詞條還進(jìn)行錯(cuò)別字糾正,然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò),這兩種錯(cuò)別字所占的比例非常高,其原因是當(dāng)前的輸入法往往用的是字音或字形兩鐘輸入方式。所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系,在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中,用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配。例如用戶(hù)會(huì)把“北京市海淀區(qū)“錯(cuò)誤的輸成“北京還店區(qū)”。本專(zhuān)利用拼音建立漢字之間的關(guān)系。在匹配時(shí),就可以用音近字代替當(dāng)前漢字去匹配。最終得到預(yù)期的匹配結(jié)果。例如上面的字符串,“還”和“?!弊忠粝胪?,所以是有關(guān)系的。匹配時(shí),發(fā)現(xiàn)“還”和“?!庇嘘P(guān)系,“店”和“淀”有關(guān)系,北京還店區(qū)”就匹配到了 “北京市海淀區(qū)”。形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù),在形近字字庫(kù)中將漢字按字形分組,在進(jìn)行詞條匹配時(shí),漢字在其字形分組內(nèi)替代匹配。例如用戶(hù)把“北京市海淀區(qū)”輸入成“北京每定區(qū)”,經(jīng)過(guò)漢字字形分組匹配,可得到“北京市海淀區(qū)”的詞條匹配。 地址庫(kù)中建立有郵編與地址的關(guān)聯(lián),在地址庫(kù)中建立郵編與地址的關(guān)聯(lián),進(jìn)行詞條匹配前,根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍,縮小地址查找區(qū)域,以提高地址的匹配精度。郵編的關(guān)聯(lián)精確度可分三級(jí)。前兩位郵編號(hào)精確,前四位郵編更精確,六位全精確。三個(gè)精確級(jí)別所對(duì)應(yīng)的地址范圍也不同。
同時(shí),本發(fā)明還創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表,在進(jìn)行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。
權(quán)利要求
1.一種基于規(guī)則的地址信息匹配方法,其特征在于所述地址信息匹配方法包括 根據(jù)錄入的地址信息進(jìn)行切詞,將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。
2.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進(jìn)一步包括 所述地址庫(kù)包括一標(biāo)準(zhǔn)地址庫(kù),該標(biāo)準(zhǔn)地址庫(kù)以樹(shù)狀結(jié)構(gòu)建立,所述每一樹(shù)狀結(jié)構(gòu)的節(jié)點(diǎn)建立索引,所述地址庫(kù)中的中文信息和數(shù)字信息采用相匹配的壓縮形式。
3.根據(jù)權(quán)利要求2所述的基于規(guī)則的地址信息匹配方法,其特征在于所述地址庫(kù)還包括一別名地址庫(kù),別名地址庫(kù)包括同一地址的習(xí)慣稱(chēng)呼、歷史名稱(chēng)、簡(jiǎn)稱(chēng)和特稱(chēng)信息。
4.根據(jù)權(quán)利要求3所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進(jìn)一步包括 所述切詞后得到的地址詞條先在所述標(biāo)準(zhǔn)地址庫(kù)中進(jìn)行詞條匹配,然后再于別名地址庫(kù)中進(jìn)行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。
5.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進(jìn)一步包括 所述切詞后得到的地址詞條進(jìn)行錯(cuò)別字糾正,然后用糾正后的地址詞條在地址庫(kù)中進(jìn)行詞條匹配。
6.根據(jù)權(quán)利要求5所述的基于規(guī)則的地址信息匹配方法,其特征在于所述錯(cuò)別字糾錯(cuò)包括音近字錯(cuò)別字糾錯(cuò)和形近字錯(cuò)別字糾錯(cuò);所述音近字錯(cuò)別字糾錯(cuò)包括利用拼音建立漢字之間的關(guān)系,在進(jìn)行詞條匹配時(shí)如無(wú)法在地址庫(kù)中,用音近字代替當(dāng)前漢字在地址庫(kù)中重新進(jìn)行詞條匹配;所述形近字錯(cuò)別字糾錯(cuò)包括建立形近字字庫(kù),在形近字字庫(kù)中將漢字按字形分組,在進(jìn)行詞條匹配時(shí),漢字在其字形分組內(nèi)替代匹配。
7.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進(jìn)一步包括 在地址庫(kù)中建立郵編與地址的關(guān)聯(lián),進(jìn)行詞條匹配前,根據(jù)地址詞條找出匹配對(duì)應(yīng)的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對(duì)應(yīng)的區(qū)域范圍,縮小地址查找區(qū)域。
8.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述地址庫(kù)還包括一組織機(jī)構(gòu)數(shù)據(jù)庫(kù),該組織機(jī)構(gòu)數(shù)據(jù)庫(kù)將組織機(jī)構(gòu)名稱(chēng)拆分為關(guān)鍵字和修飾詞; 所述匹配方法包括對(duì)錄入的地址信息與組織機(jī)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行詞條匹配,首先與所述關(guān)鍵字進(jìn)行詞條匹配,再與修飾詞進(jìn)行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時(shí)結(jié)果,再進(jìn)行全地址的詞條匹配,最后擬合地址與組織機(jī)構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。
9.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進(jìn)一步包括 創(chuàng)立一繁體和簡(jiǎn)體文字轉(zhuǎn)換表,在進(jìn)行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡(jiǎn)體文字轉(zhuǎn)換表轉(zhuǎn)換為簡(jiǎn)體字。
全文摘要
一種基于規(guī)則的地址信息匹配方法,包括根據(jù)錄入的地址信息進(jìn)行切詞,將切詞后得到的地址詞條在地址庫(kù)中進(jìn)行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個(gè)最佳匹配的結(jié)果輸出。該基于規(guī)則的地址信息匹配方法匹配精度高、速度快,其采用較為小型的地址庫(kù)和配置的多類(lèi)型數(shù)據(jù)庫(kù)有效地解決了地址異化問(wèn)題,避免了地址名稱(chēng)變更、習(xí)慣稱(chēng)呼、地址名重疊、錯(cuò)別字等各種影響地址詞條匹配問(wèn)題,實(shí)現(xiàn)了精確和快捷的正確地址信息匹配。
文檔編號(hào)G06F17/30GK102750351SQ201210189409
公開(kāi)日2012年10月24日 申請(qǐng)日期2012年6月11日 優(yōu)先權(quán)日2012年6月11日
發(fā)明者于志華, 崔傳德 申請(qǐng)人:迪爾碼國(guó)際營(yíng)銷(xiāo)服務(wù)(北京)有限公司