基于關(guān)鍵詞的地址查詢方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種地址查詢方法,尤其涉及一種基于關(guān)鍵詞的地址查詢方法。
【背景技術(shù)】
[0002]現(xiàn)有的地址坐標(biāo)匹配技術(shù)大部分采用的是利用詞典,詞表,后綴關(guān)鍵詞列表對(duì)地址進(jìn)行按等級(jí)分詞,模糊匹配,或者插值匹配的的技術(shù)進(jìn)行的。例如:北京靈圖軟件技術(shù)有限公司論文:《基于分詞的地址匹配技術(shù)》采用利用詞典后綴表,反向查找父節(jié)點(diǎn)的地址分詞技術(shù)。百度專利:百度地址數(shù)據(jù)庫(kù)的構(gòu)建方法及裝置發(fā)明專利(申請(qǐng)?zhí)?201010540090.5)采用補(bǔ)充范式地址的分詞方法進(jìn)行。百度專利:百度地址查詢方法及系統(tǒng)(申請(qǐng)?zhí)?201010540118.5),采用的方法為先對(duì)地址進(jìn)行模糊查詢,然后對(duì)得到的近似地址進(jìn)行線插值得到坐標(biāo)。浙江工業(yè)大學(xué)專利:一種基于模糊匹配的中文地理編碼確定方法(專利申請(qǐng)?zhí)?00910156650.4),采用的是對(duì)地址分詞后數(shù)組進(jìn)行模糊匹配的方式進(jìn)行。以上地址匹配技術(shù),缺點(diǎn)在于對(duì)分詞算法精度要求高,模糊匹配過(guò)程準(zhǔn)確度差,且對(duì)于地址解析提前預(yù)處理的能力差。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提供一種提高預(yù)處理對(duì)地址解析的幫助、提高地址解析精度、避免地址解析對(duì)分詞算法依賴的基于關(guān)鍵詞的地址查詢方法。
[0004]本發(fā)明基于關(guān)鍵詞的地址查詢方法,包括以下步驟:
a)獲取原始地址數(shù)據(jù);
b)通過(guò)關(guān)鍵詞提取算法提取所述原始地址數(shù)據(jù)中的關(guān)鍵詞和行政區(qū)域;
c)用步驟b)中提取的關(guān)鍵詞和行政區(qū)域,與所述原始地址數(shù)據(jù)對(duì)應(yīng)的坐標(biāo)構(gòu)建關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù),并為所述關(guān)鍵詞建立索引;
d)利用關(guān)鍵詞提取算法對(duì)待查詢地址提取關(guān)鍵詞和行政區(qū)域,將提取的關(guān)鍵詞和行政區(qū)域在步驟c)構(gòu)建的關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù)中進(jìn)行匹配,若匹配成功,則得到匹配的坐標(biāo);若匹配失敗,則把待查詢地址輸入到傳統(tǒng)地址匹配數(shù)據(jù)庫(kù)中繼續(xù)查詢,若查詢到匹配的坐標(biāo),將該坐標(biāo)與對(duì)所述查詢地址提取的關(guān)鍵詞和行政區(qū)域添加到所述關(guān)鍵詞語(yǔ)坐標(biāo)匹配數(shù)據(jù)庫(kù)中。
[0005]本發(fā)明基于關(guān)鍵詞的地址查詢方法,所述關(guān)鍵詞提取算法為條件隨機(jī)場(chǎng)抽取關(guān)鍵字模型、或互信息和最大熵模型、或隱馬爾科夫模型。
[0006]本發(fā)明基于關(guān)鍵詞的地址查詢方法,通過(guò)構(gòu)建關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù)完成的地址解析預(yù)處理,當(dāng)待查詢地址到來(lái)時(shí),使用關(guān)鍵詞提取算法提取待查詢地址中的關(guān)鍵詞,并使用該關(guān)鍵詞在數(shù)據(jù)庫(kù)中查詢,如果匹配到一致的則直接得到該地址對(duì)應(yīng)的坐標(biāo),完成地址解析。傳統(tǒng)的地址由于寫法多樣,比如數(shù)據(jù)庫(kù)中存儲(chǔ)了“北京市農(nóng)大南路I號(hào)院硅谷亮城2A605”,但是待查詢地址是“北京市上地硅谷亮城匯通天下”,它們實(shí)質(zhì)上是同一地址,但是匹配不上,本發(fā)明在地址解析預(yù)處理時(shí),通過(guò)關(guān)鍵詞提取算法提取“硅谷亮城”作為關(guān)鍵詞、“北京市”作為行政區(qū)域,數(shù)據(jù)庫(kù)中只存儲(chǔ)關(guān)鍵詞“硅谷亮城”、行政區(qū)域“北京市”及其匹配的坐標(biāo)就可以解決這個(gè)問(wèn)題,所以提高了預(yù)處理對(duì)地址解析的幫助、同時(shí)提高了地址解析精度,也避免了了傳統(tǒng)地址解析對(duì)分詞算法的依賴。
[0007]下面結(jié)合附圖對(duì)本發(fā)明的基于關(guān)鍵詞的地址查詢方法作進(jìn)一步詳細(xì)說(shuō)明。
【附圖說(shuō)明】
[0008]圖1為本發(fā)明的基于關(guān)鍵詞的地址查詢方法的示意圖。
【具體實(shí)施方式】
[0009]本發(fā)明基于關(guān)鍵詞的地址查詢方法,包括以下步驟:
a)獲取原始地址數(shù)據(jù),其中,該原始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信息,獲取的途徑有多種,例如通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)收集途徑;
b)通過(guò)關(guān)鍵詞提取算法提取原始地址數(shù)據(jù)中的關(guān)鍵詞和行政區(qū)域;
c)用步驟b)中提取的關(guān)鍵詞和行政區(qū)域,與原始地址數(shù)據(jù)對(duì)應(yīng)的坐標(biāo)構(gòu)建關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù),并為關(guān)鍵詞建立索引;
d)利用關(guān)鍵詞提取算法對(duì)待查詢地址“北京市海淀區(qū)上地農(nóng)大南路I號(hào)院硅谷亮城2A605”提取關(guān)鍵詞和行政區(qū)域,提取的關(guān)鍵詞為“硅谷亮城”,提取的行政區(qū)域?yàn)椤氨本┦泻5韰^(qū)”,將提取的關(guān)鍵詞和行政區(qū)域在步驟c)構(gòu)建的關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù)中進(jìn)行匹配,若匹配成功,則得到匹配的坐標(biāo);若匹配失敗,則把待查詢地址輸入到傳統(tǒng)地址匹配數(shù)據(jù)庫(kù)中繼續(xù)查詢,若查詢到匹配的坐標(biāo),將該坐標(biāo)與對(duì)查詢地址提取的關(guān)鍵詞和行政區(qū)域添加到關(guān)鍵詞語(yǔ)坐標(biāo)匹配數(shù)據(jù)庫(kù)中。
[0010]關(guān)鍵詞提取算法使用條件隨機(jī)場(chǎng)抽取關(guān)鍵字模型、或互信息和最大熵模型、或隱馬爾科夫模型。
【主權(quán)項(xiàng)】
1.基于關(guān)鍵詞的地址查詢方法,其特征在于該方法包括以下步驟: a)獲取原始地址數(shù)據(jù); b)通過(guò)關(guān)鍵詞提取算法提取所述原始地址數(shù)據(jù)中的關(guān)鍵詞和行政區(qū)域; c)用步驟b)中提取的關(guān)鍵詞和行政區(qū)域,與所述原始地址數(shù)據(jù)對(duì)應(yīng)的坐標(biāo)構(gòu)建關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù),并為所述關(guān)鍵詞建立索引; d)利用關(guān)鍵詞提取算法對(duì)待查詢地址提取關(guān)鍵詞和行政區(qū)域,將提取的關(guān)鍵詞和行政區(qū)域在步驟c)構(gòu)建的關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù)中進(jìn)行匹配,若匹配成功,則得到匹配的坐標(biāo);若匹配失敗,則把待查詢地址輸入到傳統(tǒng)地址匹配數(shù)據(jù)庫(kù)中繼續(xù)查詢,若查詢到匹配的坐標(biāo),將該坐標(biāo)與對(duì)所述查詢地址提取的關(guān)鍵詞和行政區(qū)域添加到所述關(guān)鍵詞語(yǔ)坐標(biāo)匹配數(shù)據(jù)庫(kù)中。2.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞的地址查詢方法,其特征在于:所述關(guān)鍵詞提取算法為條件隨機(jī)場(chǎng)抽取關(guān)鍵字模型、或互信息和最大熵模型、或隱馬爾科夫模型。
【專利摘要】一種基于關(guān)鍵詞的地址查詢方法,該方法包括以下步驟:a)獲取原始地址數(shù)據(jù);b)通過(guò)關(guān)鍵詞提取算法提取所述原始地址數(shù)據(jù)中的關(guān)鍵詞和行政區(qū)域;c)用步驟b)中提取的關(guān)鍵詞和行政區(qū)域,與所述原始地址數(shù)據(jù)對(duì)應(yīng)的坐標(biāo)構(gòu)建關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù),并為所述關(guān)鍵詞建立索引;d)利用關(guān)鍵詞提取算法對(duì)待查詢地址提取關(guān)鍵詞和行政區(qū)域,將提取的關(guān)鍵詞和行政區(qū)域在步驟c)構(gòu)建的關(guān)鍵詞與坐標(biāo)匹配數(shù)據(jù)庫(kù)中進(jìn)行匹配,若匹配成功,則得到匹配的坐標(biāo);若匹配失敗,則把待查詢地址輸入到傳統(tǒng)地址匹配數(shù)據(jù)庫(kù)中繼續(xù)查詢。其目的在于提供一種提高預(yù)處理對(duì)地址解析的幫助、提高地址解析精度、避免地址解析對(duì)分詞算法依賴的基于關(guān)鍵詞的地址查詢方法。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105512121
【申請(qǐng)?zhí)枴緾N201410489016
【發(fā)明人】張伸正, 關(guān)贏, 唐乾斌, 韓建成, 閔早華
【申請(qǐng)人】北京匯通天下物聯(lián)科技有限公司
【公開(kāi)日】2016年4月20日
【申請(qǐng)日】2014年9月23日