面向搜索引擎的數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種面向搜索引擎的數(shù)據(jù)處理方法及裝置。所述方法包括:對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合;為所述地址查詢串添加地理詞詞性標(biāo)注;判斷所述地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分詞,如果是,則根據(jù)分詞集合中的分詞,獲取未登陸詞。相應(yīng)的,本發(fā)明實(shí)施例還提供了一種實(shí)現(xiàn)所述面向搜索引擎的數(shù)據(jù)處理方法的裝置。本發(fā)明提高未登錄詞識(shí)別的效率和準(zhǔn)確性。
【專利說明】面向搜索引擎的數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及搜索引擎數(shù)據(jù)處理【技術(shù)領(lǐng)域】,更具體地說,涉及一種面向搜索引擎的 數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】 [0002] 中
[0003] 地址搜索引擎是一種垂直搜索引擎,通過搜集、組織和處理地址信息形成的地址 分詞詞庫為用戶提供地址搜索服務(wù)。為提供準(zhǔn)確的搜索結(jié)果,現(xiàn)有技術(shù)需要不斷對(duì)地址分 詞詞庫進(jìn)行完善,完善地址分詞詞庫的一種方式是識(shí)別出未收錄到地址分詞詞庫中的地址 并將該地址的相關(guān)信息增加至地址分詞庫,所述未收錄到地址分詞詞庫中的地址可稱為未 登錄詞。
[0004] 現(xiàn)有的地址未登陸詞的識(shí)別,是基于詞法規(guī)則或統(tǒng)計(jì)的方法,其中基于詞法規(guī)則 的方法是利用人為及固化的詞法所進(jìn)行的識(shí)別,但是對(duì)于地址類的查詢串中的新詞,尤其 是店名或品牌名沒有固定的形式而容易出現(xiàn)遺漏和識(shí)別不準(zhǔn)確的情況;統(tǒng)計(jì)的方法,通過 單字之間的頻率研究成詞的可能性,由于大部分地址類的新詞出現(xiàn)的頻率較低,因而,該種 未登錄詞識(shí)別方法同樣存在統(tǒng)計(jì)結(jié)果不準(zhǔn)確的技術(shù)缺陷。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種面向搜索引擎的數(shù)據(jù)處理方法及裝置,以實(shí)現(xiàn)提高未 登錄詞識(shí)別效率和準(zhǔn)確性的技術(shù)目的。
[0006] 本發(fā)明實(shí)施例提供了一種面向搜索引擎的數(shù)據(jù)處理方法,所述方法包括:
[0007] 對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合;
[0008] 在所述地址查詢串中,添加地理詞詞性標(biāo)注;
[0009] 判斷所述地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分詞,如果是,則根據(jù) 分詞集合中的分詞,獲取未登陸詞。
[0010] 進(jìn)一步,本發(fā)明實(shí)施例還提供了一種面向搜索引擎的數(shù)據(jù)處理裝置,所述裝置包 括:
[0011] 分詞單元,用于對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合;
[0012] 標(biāo)注單元,用于在所述地址查詢串中,添加地理詞詞性標(biāo)注;
[0013] 分詞位置判斷單元,用于判斷所述地址查詢串是否在添加地理詞詞性標(biāo)注的位置 被分詞單元切分,如果是,則觸發(fā)未登錄詞獲取單元;
[0014] 未登錄詞獲取單元,用于根據(jù)分詞集合中的分詞,獲取未登陸詞。
[0015] 本發(fā)明實(shí)施例提供了一種面向搜索引擎的數(shù)據(jù)處理的技術(shù)方案,該方案通過對(duì)地 址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合;為所述地址查詢串添加地理詞詞性 標(biāo)注;再通過判斷地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分詞,判斷出地址查詢 串的分詞結(jié)果與地理詞詞性標(biāo)注結(jié)果是否存在歧義,如果地址查詢串在添加地理詞詞性標(biāo) 注的位置被分詞,則說明分詞結(jié)果與地理詞詞性標(biāo)注結(jié)果不存在歧義,說明地址查詢串中 存在未登陸詞,再根據(jù)分詞集合中的分詞,獲取未登陸詞。本發(fā)明實(shí)施例提供技術(shù)方案極大 的改善了現(xiàn)有的識(shí)別和統(tǒng)計(jì)法發(fā)現(xiàn)未登錄詞準(zhǔn)確性較低的技術(shù)缺陷,達(dá)到了提高未登錄詞 識(shí)別準(zhǔn)確性的技術(shù)目的;同時(shí),上述實(shí)施例無需進(jìn)行大規(guī)模的語料分析與統(tǒng)計(jì)處理,具備較 快的未登錄詞發(fā)現(xiàn)速度。
【專利附圖】
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0017] 圖1為本發(fā)明實(shí)施例公開的一種面向搜索引擎的數(shù)據(jù)處理方法流程圖;
[0018] 圖2為本發(fā)明實(shí)施例公開的一種判斷地址查詢串是否在添加地理詞詞性標(biāo)注的 位置被分詞的方法流程圖;
[0019] 圖3為本發(fā)明實(shí)施例公開的一種判斷是單字的分詞能否與其之前一個(gè)或之后的 分詞結(jié)合的方法流程圖;
[0020] 圖4為本發(fā)明實(shí)施例公開的一種面向搜索引擎的數(shù)據(jù)處理裝置組成示意圖。
【具體實(shí)施方式】
[0021] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0022] 請(qǐng)參見圖1,是本發(fā)明實(shí)施例公開的一種面向搜索引擎的數(shù)據(jù)處理方法,該方法包 括如下步驟:
[0023] 步驟10 :對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合;
[0024] 在實(shí)際應(yīng)用中,所述地址查詢串可以從用戶地址查詢?nèi)罩局蝎@取,也可以從其他 記錄地址查詢串的文件中獲取,并不影響本發(fā)明實(shí)施例的實(shí)現(xiàn)。
[0025] 步驟20 :在所述地址查詢串中,添加地理詞詞性標(biāo)注;
[0026] 其中,在所述地址查詢串中,添加地理詞詞性標(biāo)注的實(shí)現(xiàn)過程具體為:
[0027] 對(duì)地址查詢串進(jìn)行以地理詞為單位的分詞,并在切分得到的分詞之后添加地理詞 詞性標(biāo)注。
[0028] 在實(shí)際應(yīng)用中,步驟10和步驟20可以同時(shí)執(zhí)行,也可以先執(zhí)行步驟10再執(zhí)行步 驟20,或者先執(zhí)行步驟20再執(zhí)行步驟10,并不影響本發(fā)明實(shí)施例的實(shí)現(xiàn)。
[0029] 步驟30 :判斷地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分詞,如果是,則 進(jìn)入步驟40,如果否,則結(jié)束本流程;
[0030] 步驟40 :根據(jù)分詞集合中的分詞,獲取未登陸詞。
[0031] 其中,通過步驟30可以判斷出地址查詢串的分詞結(jié)果和地理詞詞性標(biāo)注結(jié)果是 否存在歧義,如果不存在歧義,說明地址查詢串中有未登錄詞。
[0032] 以上是本發(fā)明實(shí)施例提供的一種面向搜索引擎的數(shù)據(jù)處理方法,該方法通過判斷 分詞結(jié)果和地理詞詞性標(biāo)注結(jié)果是否存在歧義,以確定地址查詢串中是否存在未登陸詞, 并在分詞結(jié)果和地理詞詞性標(biāo)注結(jié)果無歧義的情況下,根據(jù)分詞集合中的分詞及其詞性標(biāo) 注,獲取未登陸詞,該方法極大的改善了現(xiàn)有的識(shí)別和統(tǒng)計(jì)法發(fā)現(xiàn)未登錄詞準(zhǔn)確性較低的 技術(shù)缺陷,達(dá)到了提高未登錄詞識(shí)別準(zhǔn)確性的技術(shù)目的;同時(shí),上述實(shí)施例無需進(jìn)行大規(guī)模 的語料分析與統(tǒng)計(jì)處理,具備較快的未登錄詞發(fā)現(xiàn)速度。
[0033] 在實(shí)際應(yīng)用中,可以采用預(yù)置的分詞詞庫對(duì)地址查詢串進(jìn)行機(jī)械分詞并通過隱馬 克爾夫算法消除分詞歧義,由于預(yù)置的分詞詞庫中的分詞已帶有詞性標(biāo)注(表1所示),因 此,通過分詞處理即可完成對(duì)地址查詢串的分詞還可以得到分詞的詞性。比如,地址查詢串 為"天津奧藍(lán)際德酒店",按照本發(fā)明實(shí)施例提供的分詞方式,得到的該地址查詢串的分詞 集合為"天津/S奧藍(lán)際/H德/H酒店/U",其中,S、H、U為分詞的詞性,其含義請(qǐng)參見表1, S表示天津的詞性是省級(jí)地理詞,H表示奧藍(lán)際、德的詞性是核心詞,U表示酒店的詞性是后 綴類別詞。
[0034] 在實(shí)際應(yīng)用中,可以按照表2所示詞性標(biāo)注規(guī)則,為所述地址查詢串添加地理詞 詞性標(biāo)注,即只在地址查詢串中是地理詞的詞后面添加詞性標(biāo)注。比如,"天津奧藍(lán)際德酒 店"按照表2所示詞性標(biāo)注規(guī)則,得到的標(biāo)注結(jié)果為"天津/CS奧藍(lán)際德酒店/0P"。
[0035] 表1分詞的詞性標(biāo)注
[0036]
【權(quán)利要求】
1. 一種面向搜索引擎的數(shù)據(jù)處理方法,其特征在于,所述方法包括: 對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合; 在所述地址查詢串中,添加地理詞詞性標(biāo)注; 判斷所述地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分詞,如果是,則根據(jù)分詞 集合中的分詞,獲取未登陸詞。
2. 如權(quán)利要求1所述的方法,其特征在于,所述判斷所述地址查詢串是否在添加地理 詞詞性標(biāo)注的位置被分詞具體包括: 判斷所述地址查詢串的分詞集合中的分詞是否滿足下述規(guī)則,若滿足,則所述地址查 詢串在添加地理詞詞性標(biāo)注的位置被分詞: 規(guī)則1 :分詞集合中分詞的長(zhǎng)度等于地址查詢串中從該分詞的首字到所述首字后第一 個(gè)地理詞詞性標(biāo)注之間的部分地址查詢串的長(zhǎng)度; 或者, 規(guī)則2 :分詞集合中分詞的長(zhǎng)度小于地址查詢串中從該分詞的首字到所述首字后第一 個(gè)地理詞詞性標(biāo)注之間的部分地址查詢串的長(zhǎng)度但該分詞與其他分詞組合后得到的組合 分詞的長(zhǎng)度等于從該分詞的首字到所述首字后第一個(gè)地理詞詞性標(biāo)注之間的部分地址查 詢串的長(zhǎng)度。
3. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)分詞集合中的分詞,獲取未登陸詞 具體包括: 根據(jù)分詞集合中連續(xù)的滿足所述規(guī)則2的分詞及其詞性標(biāo)注,獲取未登陸詞。
4. 如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)分詞集合中連續(xù)的滿足所述規(guī)則2 的分詞及其詞性標(biāo)注,獲取未登陸詞具體包括: 遍歷分詞集合中連續(xù)的滿足所述規(guī)則2的分詞,如果發(fā)現(xiàn)是單字的分詞,則根據(jù)分詞 的詞性標(biāo)注,判斷所述是單字的分詞能否與其之前一個(gè)或之后的分詞結(jié)合,并將能夠結(jié)合 的分詞按照分詞在地址查詢串中的順序進(jìn)行組合后作為未登陸詞輸出。
5. 如權(quán)利要求4所述的方法,其特征在于,所述單字的分詞之前一個(gè)或之后的分詞稱 為待考察分詞,則所述根據(jù)分詞的詞性標(biāo)注,判斷所述是單字的分詞能否與其之前一個(gè)或 之后的分詞結(jié)合具體包括: 判斷所述待考察分詞是否為單字,如果是,則能夠結(jié)合,如果否,則判斷所述待考察分 詞是否由三個(gè)以上單字構(gòu)成,如果是,則不能結(jié)合,如果否,則判斷所述待考察分詞的詞性 是否為村莊以及判斷所述待考察分詞的詞性是否為道路; 如果所述待考察分詞的詞性是村莊且所述待考察分詞的尾字是表示村莊的字,則不能 結(jié)合; 如果所述待考察分詞的詞性是村莊但所述待考察分詞的尾字不是表示村莊的字,則能 夠結(jié)合; 如所述待考察分詞的詞性是道路且所述待考察分詞的尾字是表示街道的字,則不能結(jié) 合; 如果所述待考察分詞的詞性是道路但所述待考察分詞的尾字不是表示街道的字,則能 夠結(jié)合; 如果所述待考察分詞的詞性不是村莊和道路,則判斷所述判斷待考察分詞的詞性標(biāo)注 是否為核心詞、限定詞、興趣點(diǎn)詞或者類別詞,如果不是,則不能結(jié)合,如果是且所述待考察 分詞不是高頻詞,則能夠結(jié)合。
6. -種面向搜索引擎的數(shù)據(jù)處理裝置,其特征在于,所述裝置包括: 分詞單元,用于對(duì)地址查詢串進(jìn)行分詞,得到所述地址查詢串的分詞集合; 標(biāo)注單元,用于在所述地址查詢串中,添加地理詞詞性標(biāo)注; 分詞位置判斷單元,用于判斷所述地址查詢串是否在添加地理詞詞性標(biāo)注的位置被分 詞單元切分,如果是,則觸發(fā)未登錄詞獲取單元; 未登錄詞獲取單元,用于根據(jù)分詞集合中的分詞,獲取未登陸詞。
7. 如權(quán)利要求6所述的裝置,其特征在于,所述分詞位置判斷單元具體用于: 判斷所述地址查詢串的分詞集合中的分詞是否滿足下述規(guī)則,若滿足,則所述地址查 詢串在添加地理詞詞性標(biāo)注的位置被分詞單元切分: 規(guī)則1 :分詞集合中分詞的長(zhǎng)度等于地址查詢串中從該分詞的首字到所述首字后第一 個(gè)地理詞詞性標(biāo)注之間的部分地址查詢串的長(zhǎng)度; 或者, 規(guī)則2 :分詞集合中分詞的長(zhǎng)度小于地址查詢串中從該分詞的首字到所述首字后第一 個(gè)地理詞詞性標(biāo)注之間的部分地址查詢串的長(zhǎng)度但該分詞與其他分詞組合后得到的組合 分詞的長(zhǎng)度等于從該分詞的首字到所述首字后第一個(gè)地理詞詞性標(biāo)注之間的部分地址查 詢串的長(zhǎng)度。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述未登錄詞獲取單元具體用于: 根據(jù)分詞集合中連續(xù)的滿足所述規(guī)則2的分詞及其詞性標(biāo)注,獲取未登陸詞。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述未登錄詞獲取單元具體包括: 單字發(fā)現(xiàn)子單元,用于遍歷分詞集合中連續(xù)的滿足所述規(guī)則2的分詞,如果發(fā)現(xiàn)是單 字的分詞,則觸發(fā)未登錄詞獲取子單元; 分詞結(jié)合判斷子單元,用于根據(jù)分詞的詞性標(biāo)注,判斷所述是單字的分詞能否與其之 前一個(gè)或之后的分詞結(jié)合; 未登陸詞獲取子單元,用于將所述分詞結(jié)合判斷子單元判斷得到的能夠結(jié)合的分詞按 照分詞在地址查詢串中的順序進(jìn)行組合后作為未登陸詞輸出。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述單字的分詞之前一個(gè)或之后的分詞稱 為待考察分詞,則分詞結(jié)合判斷子單元具體包括 : 單字判斷子單元,用于判斷所述待考察分詞是否為單字,如果是,則能夠結(jié)合,如果否, 則觸發(fā)字長(zhǎng)判斷單元; 所述字長(zhǎng)判斷子單元,用于判斷所述待考察分詞是否由三個(gè)以上單字構(gòu)成,如果是,則 不能結(jié)合,如果否,則觸發(fā)第一詞性判斷子單元,用于判斷所述待考察分詞的詞性是否為村 莊以及觸發(fā)第二詞性判斷子單元,用于判斷所述待考察分詞的詞性是否為道路; 如果所述待考察分詞的詞性是村莊且所述待考察分詞的尾字是表示村莊的字,則不能 結(jié)合; 如果所述待考察分詞的詞性是村莊但所述待考察分詞的尾字不是表示村莊的字,則能 夠結(jié)合; 如所述待考察分詞的詞性是道路且所述待考察分詞的尾字是表示街道的字,則不能結(jié) 合; 如果所述待考察分詞的詞性是道路但所述待考察分詞的尾字不是表示街道的字,則能 夠結(jié)合; 如果所述待考察分詞的詞性不是村莊和道路,則觸發(fā)第三詞性判斷子單元,用于判斷 所述判斷待考察分詞的詞性標(biāo)注是否為核心詞、限定詞、興趣點(diǎn)詞或者類別詞,如果不是, 則不能結(jié)合,如果是且所述待考察分詞不是高頻詞,則能夠結(jié)合。
【文檔編號(hào)】G06F17/30GK104239355SQ201310250057
【公開日】2014年12月24日 申請(qǐng)日期:2013年6月21日 優(yōu)先權(quán)日:2013年6月21日
【發(fā)明者】郭濤 申請(qǐng)人:高德軟件有限公司