字符串自動(dòng)修正方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種字符串自動(dòng)修正方法及系統(tǒng)。該字符串自動(dòng)修正方法,包括以下步驟:生成記錄有第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序的關(guān)鍵詞數(shù)據(jù)庫;根據(jù)關(guān)鍵詞數(shù)據(jù)庫生成詞組排列統(tǒng)計(jì)表;讀取輸入字符串;從該輸入字符串中選取第一類詞,并將字符串劃分為關(guān)鍵詞組;從各個(gè)關(guān)鍵詞組中選取有效詞組、待組合詞、無效詞部分;基于待組合詞根據(jù)詞組排列統(tǒng)計(jì)表組成有效詞組;生成輸出字符串;根據(jù)詞組排列統(tǒng)計(jì)表計(jì)算準(zhǔn)確度并輸出。本發(fā)明的字符串自動(dòng)修正方法及系統(tǒng),部分基于詞庫匹配、部分基于統(tǒng)計(jì)概率的構(gòu)思,能夠?qū)斎氲淖址畔⑦M(jìn)行準(zhǔn)確性判斷,還能夠較好地識(shí)別用戶輸入時(shí)的筆誤并進(jìn)行自動(dòng)矯正,提高了電子商務(wù)運(yùn)轉(zhuǎn)的效率。
【專利說明】字符串自動(dòng)修正方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種字符串自動(dòng)修正方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子商務(wù)在人們?nèi)粘I钪兴鹱饔迷絹碓酱?,電子商?wù)中對(duì)于用戶輸入信息的真實(shí)性、準(zhǔn)確性問題也成為了眾多電子商務(wù)公司關(guān)注的重點(diǎn)。在電子商務(wù)中,經(jīng)常會(huì)涉及一些具有常規(guī)格式的信息的填寫,比如收貨地址等信息,這些信息通常都會(huì)在商家和用戶的交互和溝通中起到重要的作用。然而,在海量的用戶輸入的信息中,難免會(huì)出現(xiàn)一些騷擾性的信息、即虛假信息,另一方面也難免出現(xiàn)一些用戶由于輸入信息時(shí)不夠仔細(xì)而導(dǎo)致的一些筆誤。這兩方面的原因,就使得部分輸入信息的真實(shí)性、準(zhǔn)確性存在疑問,而妨礙了商家和用戶的進(jìn)一步溝通或者交易的進(jìn)行等。
[0003]實(shí)際上,對(duì)于由用戶輸入信息的筆誤等引起的小錯(cuò)誤,由于無法進(jìn)行自動(dòng)的矯正,大大影響了這種情況下電子商務(wù)的運(yùn)轉(zhuǎn)效率,對(duì)于用戶使用而言也需要其重新輸入信息而不夠邊界。而對(duì)于騷擾性的虛假信息,由于難以自動(dòng)高效地根據(jù)輸入信息提供較為準(zhǔn)確的判斷或識(shí)別的依據(jù),不僅會(huì)被這些虛假信息拖低電子商務(wù)的運(yùn)轉(zhuǎn)效率,還會(huì)提高反欺詐風(fēng)險(xiǎn)控制的成本。上述問題,長期困擾著廣大的電子商務(wù)的服務(wù)商、商家和消費(fèi)者。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中對(duì)于用戶輸入的字符串信息,無法自動(dòng)、高效地對(duì)其真實(shí)性或準(zhǔn)確性做出較為準(zhǔn)確的判斷,也難以較好地識(shí)別用戶輸入時(shí)的筆誤并進(jìn)而對(duì)字符串中的小錯(cuò)誤進(jìn)行自動(dòng)矯正,從而會(huì)降低這種情況下電子商務(wù)運(yùn)轉(zhuǎn)的效率且反欺詐風(fēng)控成本較高的缺陷,提出一種字符串自動(dòng)修正方法及系統(tǒng)。
[0005]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
[0006]本發(fā)明提供了一種字符串自動(dòng)修正方法,其特點(diǎn)在于,在一字符串?dāng)?shù)據(jù)庫中存儲(chǔ)有已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞,該字符串自動(dòng)修正方法包括以下步驟:
[0007]S1、從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序;
[0008]S2、生成一詞組排列統(tǒng)計(jì)表,該詞組排列統(tǒng)計(jì)表中記錄有各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率;
[0009]S3、讀取一輸入字符串;
[0010]S4、從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處;
[0011]S5、從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分;
[0012]S6、從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分;
[0013]S7、以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組;
[0014]S8、生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定;
[0015]S9、查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度;
[0016]Sltl、輸出該準(zhǔn)確度。
[0017]其中,已核實(shí)的多個(gè)字符串應(yīng)當(dāng)理解為,符合某一種特定的格式要求的字符串,這一特定的格式要求要求字符串中必須包含若干第一類詞。以用于表示地址的字符串為例,其必然包含有用于表示地址層級(jí)的詞比如“路”、“區(qū)”等等。在電子商務(wù)中,本領(lǐng)域技術(shù)人員容易理解,該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù),通常來說可以是來源于和步驟S3中讀取輸入字符串的相同來源,只是該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)均是已經(jīng)核實(shí)的,因而其是真實(shí)且準(zhǔn)確的。
[0018]該排詞順序針對(duì)的是各個(gè)第一類詞,而第二類詞實(shí)質(zhì)上可以理解為是利用預(yù)設(shè)的第一類詞對(duì)于字符串進(jìn)行拆分得到的,預(yù)設(shè)詞組與第二類詞也是類似的,可以認(rèn)為是拆分后得到的字符串的部分。在步驟S1的這一過程中,可以認(rèn)為原始數(shù)據(jù)僅僅是字符串以及第一類詞。步驟S2實(shí)質(zhì)上即利用該多個(gè)字符串進(jìn)行統(tǒng)計(jì)得出的統(tǒng)計(jì)結(jié)果。其中,排列概率意為預(yù)設(shè)詞組的排列的概率,且本發(fā)明中僅僅指兩個(gè)預(yù)設(shè)詞組以前后緊鄰的方式排列的概率。因而,排列概率就是指在某一個(gè)預(yù)設(shè)詞組后緊接著出現(xiàn)另一個(gè)預(yù)設(shè)詞組的概率,唯一的特例是針對(duì)位于字符串開頭的預(yù)設(shè)詞組的排列概率,在這一特例中排列概率就是指某一預(yù)設(shè)詞組出現(xiàn)在字符串開頭的概率。這里所有的排列概率都是基于該多個(gè)字符串(即基于真實(shí)且準(zhǔn)確的已核實(shí)數(shù)據(jù))統(tǒng)計(jì)并計(jì)算得到的。
[0019]步驟S3?S6實(shí)質(zhì)上是獲取輸入字符串,然后基于該關(guān)鍵詞數(shù)據(jù)庫對(duì)該輸入字符串進(jìn)行劃分,根據(jù)輸入字符串中的第一類詞和第二類詞來得到有效詞組、待組合詞、無效部分、無效詞部分等,以便于進(jìn)行后續(xù)的處理。其中的有效詞組是可以直接作為最終生成的該輸出字符串的組成部分進(jìn)行輸出的。而待組合詞實(shí)際上就是僅符合該關(guān)鍵詞數(shù)據(jù)庫中的第二類詞,而其后缺失了第一類詞的詞。
[0020]對(duì)于待組合詞,其后缺失的可能是第一類詞,步驟S7就是根據(jù)該詞組排列統(tǒng)計(jì)表中的排列概率結(jié)合該輸入字符串中詞的前后排列,選取對(duì)應(yīng)于待組合詞的、排列概率最大的有效詞組。然后,生成該輸出字符串,該輸出字符串僅包括有效詞組,因而該輸出字符串應(yīng)當(dāng)會(huì)是根據(jù)該輸入字符串由字符串?dāng)?shù)據(jù)庫所確定的包含有準(zhǔn)確信息的字符串。
[0021]上述步驟可以看做是該輸出字符串的生成過程,而這一生成過程部分基于詞庫匹配的構(gòu)思,部分是基于統(tǒng)計(jì)方法的詞匯匹配的構(gòu)思。在步驟S9中還基于該詞組排列統(tǒng)計(jì)表得到該輸出字符串的準(zhǔn)確度。應(yīng)當(dāng)理解的是,本發(fā)明中的準(zhǔn)確度雖然無法直接確定該輸出字符串是否準(zhǔn)確,但這一準(zhǔn)確度近似于對(duì)該輸出字符串和已核實(shí)的字符串整體上所具有的的特征的相似性的度量,若已核實(shí)的字符串具有較高的代表性,則該準(zhǔn)確度也相應(yīng)的是較為準(zhǔn)確的。通過上述步驟,既能夠較為高效準(zhǔn)確的對(duì)輸入字符串進(jìn)行一定的識(shí)別矯正,還能夠自動(dòng)高效地計(jì)算出準(zhǔn)確度以作為該輸出字符串的準(zhǔn)確性的判斷依據(jù),這樣就能夠降低在線反欺詐風(fēng)控成本。
[0022]較佳地,在該字符串?dāng)?shù)據(jù)庫還存儲(chǔ)各個(gè)第一類詞的權(quán)重值,S9由S9a替代,S9a為:
[0023]查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
[0024]本發(fā)明中對(duì)于字符串的劃分實(shí)際上是基于預(yù)設(shè)的第一類詞進(jìn)行劃分,各個(gè)第一類詞在字符串中的地位可能有所不同。舉例來說,若各個(gè)第一類詞表示的是逐級(jí)下降的層級(jí)關(guān)系,那么處于上級(jí)的第一類詞相應(yīng)的第二類詞總數(shù)可能較少,從而使得涉及這些第一類詞的有效詞組相關(guān)的排列概率會(huì)顯著的更大。因此,可以根據(jù)不同的第一類詞進(jìn)行加權(quán),從而避免字符串中某一項(xiàng)排列概率過大而對(duì)準(zhǔn)確度結(jié)果起支配性作用,而消除其他項(xiàng)排列概率的影響。
[0025]較佳地,S2還包括:將該詞組排列統(tǒng)計(jì)表中所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。這樣就避免了由于該多個(gè)字符串中某個(gè)預(yù)設(shè)詞組數(shù)量過少導(dǎo)致某個(gè)排列概率過大,從而使得準(zhǔn)確度結(jié)果完全無法反映出該多個(gè)字符串中各個(gè)有效詞組整體反應(yīng)的和已核實(shí)的字符串的相似程度。
[0026]較佳地,S10后還包括以下步驟:
[0027]Slla、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
[0028]較佳地,在S6之后執(zhí)行S61,S61為:從無效詞部分中選取包括第一類詞的詞組作為未知詞組,并執(zhí)行S7 ;
[0029]Sltl后還包括以下步驟:
[0030]Sn、判斷該準(zhǔn)確度是否大于預(yù)設(shè)的一準(zhǔn)確度閾值,在判斷結(jié)果為否的情況下執(zhí)行S12,在判斷結(jié)果為是的情況下執(zhí)行S13 ;
[0031]S12、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ),并結(jié)束流程;
[0032]S13、根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串,該返回字符串中第一類詞的順序符合該排詞順序,并執(zhí)行S14 ;
[0033]S14、將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
[0034]其中,未知詞組包括了第一類詞,因此有一定的可能未知詞組只是由于已核實(shí)的字符串?dāng)?shù)量足夠?qū)е挛茨茏R(shí)別出。在此情況下,若根據(jù)準(zhǔn)確度判斷后認(rèn)定該輸出字符串準(zhǔn)確度較高,則認(rèn)為未知詞組的出現(xiàn)可能并不是由于用戶輸入時(shí)的錯(cuò)誤而產(chǎn)生的,因而將其包括在該返回字符串中加入至該字符串?dāng)?shù)據(jù)庫中。
[0035]較佳地,S10還包括:輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù);
[0036]S11由Sllb替代,Sllb為:判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,在判斷結(jié)果為否的情況下執(zhí)行S12,在判斷結(jié)果為是的情況下執(zhí)行s13。
[0037]較佳地,第一類詞包括市、區(qū)、新村、路。
[0038]本發(fā)明還提供了一種字符串自動(dòng)修正系統(tǒng),其特點(diǎn)在于,包括:
[0039]字符串?dāng)?shù)據(jù)庫模塊,用于存儲(chǔ)已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞;
[0040]關(guān)鍵詞數(shù)據(jù)庫模塊,用于從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序;
[0041]詞組排列統(tǒng)計(jì)模塊,用于根據(jù)該字符串?dāng)?shù)據(jù)庫模塊以及該關(guān)鍵詞數(shù)據(jù)庫的記錄計(jì)算并記錄各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率;
[0042]字符串讀取模塊,用于讀取輸入字符串;
[0043]字符串劃分模塊,用于從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處;
[0044]有效詞組選取模塊,用于從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分;
[0045]待組合詞選取模塊,用于從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分;
[0046]詞組構(gòu)建模塊,用于以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組;
[0047]輸出模塊,用于生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定;
[0048]第一計(jì)算模塊,用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度;
[0049]準(zhǔn)確度模塊,用于輸出該準(zhǔn)確度。
[0050]較佳地,該字符串?dāng)?shù)據(jù)庫模塊還存儲(chǔ)有各個(gè)第一類詞的權(quán)重值,第一計(jì)算模塊由第二計(jì)算模塊替代;
[0051]第二計(jì)算模塊,用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
[0052]較佳地,該詞組排列統(tǒng)計(jì)模塊還用于將所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。
[0053]較佳地,該字符串自動(dòng)修正系統(tǒng)還包括一輸出字符串返回模塊,該輸出字符串返回模塊用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
[0054]較佳地,該待組合詞選取模塊還用于從無效詞部分中選取包括第一類詞的詞組作為未知詞組,該字符串自動(dòng)修正系統(tǒng)還包括:
[0055]第一判斷模塊,用于判斷該準(zhǔn)確度是否大于預(yù)設(shè)的一準(zhǔn)確度閾值,并在判斷結(jié)果為否的情況下啟用第一返回模塊,在判斷結(jié)果為是的情況下啟用第二返回模塊;
[0056]第一返回模塊,用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ);
[0057]第二返回模塊,用于根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串、該返回字符串中第一類詞的順序符合該排詞順序,然后將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
[0058]較佳地,準(zhǔn)確度模塊還用于輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù);
[0059]第一判斷模塊由第二判斷模塊替代,第二判斷模塊用于判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,并在判斷結(jié)果為否的情況下啟用第一返回模塊、在判斷結(jié)果為是的情況下啟用第二返回模塊。
[0060]較佳地,第一類詞包括市、區(qū)、新村、路。
[0061]在符合本領(lǐng)域常識(shí)的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本發(fā)明各較佳實(shí)例。
[0062]本發(fā)明的積極進(jìn)步效果在于:
[0063]本發(fā)明的字符串自動(dòng)修正方法及系統(tǒng),部分基于詞庫匹配的構(gòu)思、部分基于統(tǒng)計(jì)概率以推斷字符串正確性的構(gòu)思,能夠?qū)τ脩糨斎氲淖址畔⑦M(jìn)行自動(dòng)、高效的真實(shí)性或準(zhǔn)確性的判斷,同時(shí)還能夠較好地識(shí)別用戶輸入時(shí)的筆誤并進(jìn)而對(duì)字符串中的小錯(cuò)誤進(jìn)行自動(dòng)矯正,從而提高了這種情況下電子商務(wù)運(yùn)轉(zhuǎn)的效率。
【專利附圖】
【附圖說明】
[0064]圖1為本發(fā)明實(shí)施例1的字符串自動(dòng)修正方法的流程圖。
[0065]圖2為本發(fā)明實(shí)施例2的字符串自動(dòng)修正系統(tǒng)的示意圖。
【具體實(shí)施方式】
[0066]下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說明本發(fā)明的技術(shù)方案,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
[0067]實(shí)施例1
[0068]本實(shí)施例的字符串自動(dòng)修正方法中,在一字符串?dāng)?shù)據(jù)庫中存儲(chǔ)有已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞。參考圖1所示,該字符串自動(dòng)修正方法包括以下步驟:
[0069]S1、從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序;[0070]S2、生成一詞組排列統(tǒng)計(jì)表,該詞組排列統(tǒng)計(jì)表中記錄有各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率;
[0071]S3、讀取一輸入字符串;
[0072]S4、從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處;
[0073]S5、從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分;
[0074]S6、從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分;
[0075]S7、以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組;
[0076]S8、生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定;
[0077]S9、查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度;
[0078]Sltl、輸出該準(zhǔn)確度;
[0079]Slla、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
[0080]其中,S2還包括:將該詞組排列統(tǒng)計(jì)表中所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。這樣就避免了由于該多個(gè)字符串中某個(gè)預(yù)設(shè)詞組數(shù)量過少導(dǎo)致某個(gè)排列概率過大,從而使得準(zhǔn)確度結(jié)果完全無法反映出該多個(gè)字符串中各個(gè)有效詞組整體反應(yīng)的和已核實(shí)的字符串的相似程度。
[0081]并且,已核實(shí)的多個(gè)字符串應(yīng)當(dāng)理解為,符合某一種特定的格式要求的字符串,這一特定的格式要求要求字符串中必須包含若干第一類詞。該排詞順序針對(duì)的是各個(gè)第一類詞,而第二類詞實(shí)質(zhì)上可以理解為是利用預(yù)設(shè)的第一類詞對(duì)于字符串進(jìn)行拆分得到的,預(yù)設(shè)詞組與第二類詞也是類似的,可以認(rèn)為是拆分后得到的字符串的部分。
[0082]步驟S2實(shí)質(zhì)上即利用S1的該多個(gè)字符串進(jìn)行統(tǒng)計(jì)得出的統(tǒng)計(jì)結(jié)果。其中,排列概率指的是預(yù)設(shè)詞組以前后緊鄰的方式排列的概率。對(duì)于待組合詞,其后缺失的可能是第一類詞,步驟S7就是根據(jù)該詞組排列統(tǒng)計(jì)表中的排列概率結(jié)合該輸入字符串中詞的前后排列,選取對(duì)應(yīng)于待組合詞的、排列概率最大的有效詞組。然后,生成該輸出字符串,該輸出字符串僅包括有效詞組,因而該輸出字符串應(yīng)當(dāng)會(huì)是根據(jù)該輸入字符串由字符串?dāng)?shù)據(jù)庫所確定的包含有準(zhǔn)確信息的字符串。
[0083]上述步驟可以看做是該輸出字符串的生成過程,而這一生成過程部分基于詞庫匹配的構(gòu)思,部分是基于統(tǒng)計(jì)方法的詞匯匹配的構(gòu)思。下面對(duì)本實(shí)施例的這一方法在地址字符串的自動(dòng)修正中的應(yīng)用進(jìn)行舉例說明。
[0084]在這一應(yīng)用實(shí)例中,第一類詞包括了市、區(qū)、新村、路,而該排詞順序?yàn)槭?、區(qū)、新村、路。該多個(gè)字符串中包括有類似“上海市南京路”、“上海市黃浦區(qū)XX路”、“黃浦區(qū)東方新村”之類的已核實(shí)字符串。由這些字符串,可以統(tǒng)計(jì)得出“上海市”、“上海新村”、“上海路”、“南京路”、“南京市”等等預(yù)設(shè)詞組的排列概率。
[0085]在此情況下,舉例來說,讀取的輸入字符串為“南京黃浦區(qū)上海東方”,盡管由這一輸入字符串難以直接識(shí)別出合法的地址,但根據(jù)詞組排列統(tǒng)計(jì)表中的已核實(shí)字符串可以確定,輸入字符串中缺少第一類詞的詞組“南京”、“上?!焙汀皷|方”可能和第一類詞中的某一個(gè)或多個(gè)組成預(yù)設(shè)詞組。此時(shí),先執(zhí)行步驟S4以首先劃分出一個(gè)關(guān)鍵詞組“黃浦區(qū)”。
[0086]接著,對(duì)于輸入字符串“南京黃浦區(qū)上海東方”來說,其余部分均被記為無效部分,由已核實(shí)的字符串確定,其中的“南京”、“上?!?、“東方”均屬于第二類詞,因此選作待組合詞。然后,考慮這幾個(gè)第二類詞和第一類詞所有可能的組合,并根據(jù)詞組排列統(tǒng)計(jì)表中的排列概率來找出加入潛在的第一類詞后形成的字符串中排列概率最大的方式。例如,“南京路”、“上海市”和“南京市”、“上海路”這兩種情況均是可能的,但在結(jié)合關(guān)鍵詞組“黃浦區(qū)”并根據(jù)第一類詞排序后,“上海市黃浦區(qū)”的排列概率較“南京市黃浦區(qū)”的排列概率更大,因此采納前一種。
[0087]由此,最終生成的輸出字符串為“上海市黃浦區(qū)南京路東方小區(qū)”。應(yīng)當(dāng)理解的是,盡管上述方法并未確保最終生成的輸出字符串必然是正確的或者含義明確可識(shí)別的,但從統(tǒng)計(jì)概率的角度來說,已經(jīng)大大提高了輸出字符串的正確性。這一點(diǎn)在字符串較長,即包含的第一類詞(可理解為層級(jí)關(guān)鍵詞)的數(shù)量較多時(shí)尤為明顯,這是由于本方法能夠利用第一類詞進(jìn)行排序從而更有效地利用已核實(shí)的字符串對(duì)待核實(shí)的字符串進(jìn)行修正,在涉及的排列概率較多時(shí)能夠起到相互印證的作用。
[0088]在步驟S9中還基于該詞組排列統(tǒng)計(jì)表得到該輸出字符串的準(zhǔn)確度。應(yīng)當(dāng)理解的是,本發(fā)明中的準(zhǔn)確度雖然無法直接確定該輸出字符串是否準(zhǔn)確,但這一準(zhǔn)確度近似于對(duì)該輸出字符串和已核實(shí)的字符串整體上所具有的的特征的相似性的度量,若已核實(shí)的字符串具有較高的代表性,則該準(zhǔn)確度也相應(yīng)的是較為準(zhǔn)確的。
[0089]本實(shí)施例的方法,不僅能夠較為高效準(zhǔn)確的對(duì)輸入字符串進(jìn)行一定的識(shí)別矯正,還能夠自動(dòng)高效地計(jì)算出準(zhǔn)確度以作為該輸出字符串的準(zhǔn)確性的判斷依據(jù),這樣就能夠降低在線反欺詐風(fēng)控成本。
[0090]實(shí)施例2
[0091]本實(shí)施例的字符串自動(dòng)修正方法和實(shí)施例1相比,差別僅在于:
[0092]在該字符串?dāng)?shù)據(jù)庫還存儲(chǔ)各個(gè)第一類詞的權(quán)重值,S9由S9a替代,S9a為:
[0093]查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
[0094]并且,在S6之后執(zhí)行S61,S61為:從無效詞部分中選取包括第一類詞的詞組作為未知詞組,并執(zhí)行S7 ;
[0095]S10還包括:輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù);
[0096]Sltl后還包括以下步驟:
[0097]Sllb、判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,在判斷結(jié)果為否的情況下執(zhí)行S12,在判斷結(jié)果為是的情況下執(zhí)行S13 ;
[0098]S12、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ),并結(jié)束流程;
[0099]S13、根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串,該返回字符串中第一類詞的順序符合該排詞順序,并執(zhí)行S14 ;
[0100]S14、將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
[0101]本實(shí)施例的方法在實(shí)施例1的基礎(chǔ)上,充分考慮了各個(gè)第一類詞在字符串中的地位可能有所不同,進(jìn)而根據(jù)不同的第一類詞進(jìn)行加權(quán),避免了字符串中某一項(xiàng)排列概率過大而對(duì)準(zhǔn)確度結(jié)果起支配性作用,而消除其他項(xiàng)排列概率的影響。
[0102]實(shí)施例3
[0103]參考圖2所示,本實(shí)施例的字符串自動(dòng)修正系統(tǒng)包括:
[0104]字符串?dāng)?shù)據(jù)庫模塊1,用于存儲(chǔ)已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞;
[0105]關(guān)鍵詞數(shù)據(jù)庫模塊2,用于從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序;
[0106]詞組排列統(tǒng)計(jì)模塊3,用于根據(jù)該字符串?dāng)?shù)據(jù)庫模塊以及該關(guān)鍵詞數(shù)據(jù)庫的記錄計(jì)算并記錄各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率;
[0107]字符串讀取模塊4,用于讀取輸入字符串;
[0108]字符串劃分模塊5,用于從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處;
[0109]有效詞組選取模塊6,用于從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分;
[0110]待組合詞選取模塊7,用于從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分;
[0111]詞組構(gòu)建模塊8,用于以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組;
[0112]輸出模塊9,用于生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定;
[0113]第一計(jì)算模塊10,用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度;
[0114]準(zhǔn)確度模塊11,用于輸出該準(zhǔn)確度。
[0115]其中,該詞組排列統(tǒng)計(jì)模塊還用于將所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。該字符串自動(dòng)修正系統(tǒng)還包括一輸出字符串返回模塊12,該輸出字符串返回模塊用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
[0116]實(shí)施例4
[0117]本實(shí)施例的字符串自動(dòng)修正系統(tǒng)和實(shí)施例3相比,差別僅在于:
[0118]該字符串?dāng)?shù)據(jù)庫模塊還存儲(chǔ)有各個(gè)第一類詞的權(quán)重值,第一計(jì)算模塊由第二計(jì)算模塊替代,其中第二計(jì)算模塊用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
[0119]并且該待組合詞選取模塊還用于從無效詞部分中選取包括第一類詞的詞組作為未知詞組,該字符串自動(dòng)修正系統(tǒng)還包括:
[0120]第一判斷模塊,用于判斷該準(zhǔn)確度是否大于預(yù)設(shè)的一準(zhǔn)確度閾值,并在判斷結(jié)果為否的情況下啟用第一返回模塊,在判斷結(jié)果為是的情況下啟用第二返回模塊;
[0121]第一返回模塊,用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ);
[0122]第二返回模塊,用于根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串、該返回字符串中第一類詞的順序符合該排詞順序,然后將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
[0123]同時(shí),準(zhǔn)確度模塊還用于輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù);
[0124]第一判斷模塊由第二判斷模塊替代,第二判斷模塊用于判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,并在判斷結(jié)果為否的情況下啟用第一返回模塊、在判斷結(jié)果為是的情況下啟用第二返回模塊。
[0125]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種字符串自動(dòng)修正方法,其特征在于,在一字符串?dāng)?shù)據(jù)庫中存儲(chǔ)有已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞,該字符串自動(dòng)修正方法包括以下步驟: S1、從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序; S2、生成一詞組排列統(tǒng)計(jì)表,該詞組排列統(tǒng)計(jì)表中記錄有各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率; S3、讀取一輸入字符串; S4、從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處; S5、從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分; S6、從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分; S7、以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組; S8、生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定; S9、查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度; S10、輸出該準(zhǔn)確度。
2.如權(quán)利要求1所述的字符串自動(dòng)修正方法,其特征在于,在該字符串?dāng)?shù)據(jù)庫還存儲(chǔ)各個(gè)第一類詞的權(quán)重值,Sg由S9a替代,S9a為: 查詢該詞組排列統(tǒng)計(jì)表獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
3.如權(quán)利要求1所述的字符串自動(dòng)修正方法,其特征在于,S2還包括:將該詞組排列統(tǒng)計(jì)表中所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的字符串自動(dòng)修正方法,其特征在于,Sltl后還包括以下步驟: Slla、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
5.如權(quán)利要求1-3中任意一項(xiàng)所述的字符串自動(dòng)修正方法,其特征在于,在S6之后執(zhí)行s61,S61為:從無效詞部分中選取包括第一類詞的詞組作為未知詞組,并執(zhí)行S7 ;Sl0后還包括以下步驟: s11、判斷該準(zhǔn)確度是否大于預(yù)設(shè)的一準(zhǔn)確度閾值,在判斷結(jié)果為否的情況下執(zhí)行s12,在判斷結(jié)果為是的情況下執(zhí)行S13 ; S12、將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ),并結(jié)束流程; S13、根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串,該返回字符串中第一類詞的順序符合該排詞順序,并執(zhí)行S14 ; S14、將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫中存儲(chǔ)。
6.如權(quán)利要求5所述的字符串自動(dòng)修正方法,其特征在于,Sltl還包括:輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù); S11由Sllb替代,Sllb為:判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,在判斷結(jié)果為否的情況下執(zhí)行S12,在判斷結(jié)果為是的情況下執(zhí)行s13。
7.如權(quán)利要求6所述的字符串自動(dòng)修正方法,其特征在于,第一類詞包括市、區(qū)、新村、路。
8.一種字符串自動(dòng)修正系統(tǒng),其特征在于,包括: 字符串?dāng)?shù)據(jù)庫模塊,用于存儲(chǔ)已核實(shí)的多個(gè)字符串和多個(gè)預(yù)設(shè)的第一類詞,每個(gè)已核實(shí)的字符串均包括若干第一類詞; 關(guān)鍵詞數(shù)據(jù)庫模塊,用于從該多個(gè)字符串中,提取被第一類詞分隔的其他詞作為第二類詞,并將各個(gè)第二類詞和之后緊鄰的第一類詞共同構(gòu)成的詞組作為預(yù)設(shè)詞組,然后生成一關(guān)鍵詞數(shù)據(jù)庫,該關(guān)鍵詞數(shù)據(jù)庫中記錄有數(shù)量均為多個(gè)的第一類詞、第二類詞、預(yù)設(shè)詞組以及一排詞順序,該排詞順序?yàn)楦鱾€(gè)第一類詞的預(yù)設(shè)的排列順序; 詞組排列統(tǒng)計(jì)模塊,用于根據(jù)該字符串?dāng)?shù)據(jù)庫模塊以及該關(guān)鍵詞數(shù)據(jù)庫的記錄計(jì)算并記錄各個(gè)預(yù)設(shè)詞組出現(xiàn)在該多個(gè)字符串開頭的排列概率以及在該多個(gè)字符串中在各個(gè)預(yù)設(shè)詞組之后緊鄰地出現(xiàn)各個(gè)預(yù)設(shè)詞組的排列概率; 字符串讀取模塊,用于讀取輸入字符串; 字符串劃分模塊,用于從該輸入字符串中選取第一類詞作為層級(jí)關(guān)鍵詞,并根據(jù)層級(jí)關(guān)鍵詞在該輸入字符串中所處位置將該輸入字符串劃分為關(guān)鍵詞組,層級(jí)關(guān)鍵詞位于關(guān)鍵詞組的結(jié)尾處; 有效詞組選取模塊,用于從各個(gè)關(guān)鍵詞組中選取預(yù)設(shè)詞組作為有效詞組,并將各個(gè)關(guān)鍵詞組中除有效詞組外的部分記為無效部分; 待組合詞選取模塊,用于從無效部分中選取第二類詞作為待組合詞,并將無效部分中除待組合詞外的所有詞記為無效詞部分; 詞組構(gòu)建模塊,用于以該輸入字符串中由前至后的順序,依次根據(jù)各個(gè)待組合詞之前緊鄰的有效詞組以及該詞組排列統(tǒng)計(jì)表依次生成各個(gè)待組合詞對(duì)應(yīng)的有效詞組,生成的有效詞組分別為對(duì)應(yīng)的各個(gè)待組合詞和各個(gè)第一類詞組合后得到的詞組中、在該詞組排列統(tǒng)計(jì)表中的排列概率最大的詞組; 輸出模塊,用于生成一輸出字符串,該輸出字符串中排列有各個(gè)有效詞組,排列的順序根據(jù)該排詞順序確定; 第一計(jì)算模塊,用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的總和作為準(zhǔn)確度; 準(zhǔn)確度模塊,用于輸出該準(zhǔn)確度。
9.如權(quán)利要求8所述的字符串自動(dòng)修正系統(tǒng),其特征在于,該字符串?dāng)?shù)據(jù)庫模塊還存儲(chǔ)有各個(gè)第一類詞的權(quán)重值,第一計(jì)算模塊由第二計(jì)算模塊替代; 第二計(jì)算模塊,用于查詢該詞組排列統(tǒng)計(jì)表模塊獲取該輸出字符串中開頭的有效詞組以及相鄰的有效詞組的排列概率,并計(jì)算獲取的排列概率的加權(quán)平均值作為準(zhǔn)確度,其中各個(gè)排列概率的權(quán)重等于該輸出字符串中開頭的有效詞組中的第一類詞的權(quán)重值、或者相鄰的有效詞組中在后的有效詞組中的第一類詞的權(quán)重值。
10.如權(quán)利要求8所述的 字符串自動(dòng)修正系統(tǒng),其特征在于,該詞組排列統(tǒng)計(jì)模塊還用于將所有大于預(yù)設(shè)的一概率閾值的排列概率改寫為等于該概率閾值。
11.如權(quán)利要求8-10中任意一項(xiàng)所述的字符串自動(dòng)修正系統(tǒng),其特征在于,該字符串自動(dòng)修正系統(tǒng)還包括一輸出字符串返回模塊,該輸出字符串返回模塊用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
12.如權(quán)利要求8-10中任意一項(xiàng)所述的字符串自動(dòng)修正系統(tǒng),其特征在于,該待組合詞選取模塊還用于從無效詞部分中選取包括第一類詞的詞組作為未知詞組,該字符串自動(dòng)修正系統(tǒng)還包括: 第一判斷模塊,用于判斷該準(zhǔn)確度是否大于預(yù)設(shè)的一準(zhǔn)確度閾值,并在判斷結(jié)果為否的情況下啟用第一返回模塊,在判斷結(jié)果為是的情況下啟用第二返回模塊; 第一返回模塊,用于將該輸出字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ); 第二返回模塊,用于根據(jù)未知詞組中的第一類詞將未知詞組加入該輸出字符串以生成一返回字符串、該返回字符串中第一類詞的順序符合該排詞順序,然后將該返回字符串加入至該字符串?dāng)?shù)據(jù)庫模塊中存儲(chǔ)。
13.如權(quán)利要求12所述的字符串自動(dòng)修正系統(tǒng),其特征在于,準(zhǔn)確度模塊還用于輸出待組合詞的數(shù)量和/或無效詞部分所包含的字符數(shù); 第一判斷模塊由第二判斷模塊替代,第二判斷模塊用于判斷該準(zhǔn)確度大于該準(zhǔn)確度閾值、待組合詞的數(shù)量小于預(yù)設(shè)的一待組合詞數(shù)量閾值和/或無效詞部分所包含的字符數(shù)小于預(yù)設(shè)的一無效字符數(shù)閾值是否同時(shí)成立,并在判斷結(jié)果為否的情況下啟用第一返回模塊、在判斷結(jié)果為是的情況下啟用第二返回模塊。
14.如權(quán)利要求13所述的字符串自動(dòng)修正系統(tǒng),其特征在于,第一類詞包括市、區(qū)、新村、路。
【文檔編號(hào)】G06Q30/00GK104036047SQ201410312846
【公開日】2014年9月10日 申請(qǐng)日期:2014年7月2日 優(yōu)先權(quán)日:2014年7月2日
【發(fā)明者】劉利, 黃曉君 申請(qǐng)人:攜程計(jì)算機(jī)技術(shù)(上海)有限公司