一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法,該方法包括以下步驟:記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為;基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表;利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。相應(yīng)地,本發(fā)明還提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng)。本發(fā)明利用線上用戶的檢索行為對(duì)語言模型的語料進(jìn)行糾錯(cuò),有效地提高了糾錯(cuò)的準(zhǔn)確率和糾錯(cuò)的速度。
【專利說明】一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言模型建模技術(shù),尤其涉及一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)日益成為人類獲取信息的主要途徑之一,特別是語音搜索技術(shù)的不斷發(fā)展,使用戶搜集信息更加便捷。相應(yīng)地,作為語音識(shí)別系統(tǒng)中的重要組成部分一語言模型,其也在不斷更新。一般地,語言模型的建模主要是通過統(tǒng)計(jì)文本語料中的文法分布,獲得對(duì)于語言的統(tǒng)計(jì)模型,用于描述一個(gè)文本串成為自然語言的概率?,F(xiàn)實(shí)中,語言模型的語料通常存在較多錯(cuò)誤,由此會(huì)導(dǎo)致語音識(shí)別系統(tǒng)錯(cuò)誤的識(shí)別結(jié)果。例如,用戶語音輸入“l(fā)iu de hua”(查找目標(biāo)為“劉德華”),但是由于語言模型中語料的錯(cuò)誤,語音識(shí)別系統(tǒng)可能給出“劉得華”作為識(shí)別結(jié)果。如此一來,導(dǎo)致用戶無法通過語音搜索輸入正確的檢索詞,進(jìn)而降低了用戶的使用體驗(yàn)。因此,需要對(duì)語言模型的語料進(jìn)行糾錯(cuò)。
[0003]但是,面對(duì)海量的語料,現(xiàn)有方法(例如基于統(tǒng)計(jì)模型的糾錯(cuò)方法)幾乎不可能實(shí)時(shí)且有效地對(duì)語言模型的語料進(jìn)行糾錯(cuò)。因此,亟需提出一種糾錯(cuò)速度快、糾錯(cuò)準(zhǔn)確率高的糾錯(cuò)方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法和系統(tǒng),利用線上用戶的檢索行為對(duì)語言模型的語料進(jìn)行糾錯(cuò),有效地提高了糾錯(cuò)的準(zhǔn)確率和糾錯(cuò)的速度。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法,該方法包括以下步驟:
[0006]記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為;
[0007]基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表;
[0008]利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
[0009]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng),包括:
[0010]記錄模塊,用于記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為;
[0011]映射表形成模塊,用于基于所述用戶的檢索行為形成糾錯(cuò)映射表;
[0012]糾錯(cuò)模塊,用于利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
[0013]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):通過線上用戶的檢索行為對(duì)語言模型的語料進(jìn)行糾錯(cuò),有效地提高了糾錯(cuò)的速度和糾錯(cuò)的準(zhǔn)確性,實(shí)現(xiàn)了利用較低的代價(jià)解決語言模型中語料存在錯(cuò)誤的問題,從而能夠有效地提高語言模型建模的正確性,進(jìn)而提升了使用該語言模型的語音識(shí)別系統(tǒng)的準(zhǔn)確率。
【專利附圖】
【附圖說明】[0014]通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0015]圖1為根據(jù)本發(fā)明一個(gè)方面的對(duì)線語言模型進(jìn)行在線糾錯(cuò)的方法流程圖;
[0016]圖2為搜索引擎為用戶推薦檢索詞的示意圖;以及
[0017]圖3為根據(jù)本發(fā)明另一個(gè)方面的對(duì)線語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng)示意圖?!揪唧w實(shí)施方式】
[0018]現(xiàn)實(shí)中,語言模型的語料通常存在較多錯(cuò)誤,由此會(huì)導(dǎo)致語音識(shí)別系統(tǒng)錯(cuò)誤的識(shí)別結(jié)果。例如,用戶語音輸入“l(fā)iu de hua”(查找目標(biāo)為“劉德華”),但是由于語言模型中語料的錯(cuò)誤,語音識(shí)別系統(tǒng)可能給出“劉得華”作為識(shí)別結(jié)果。如此一來,導(dǎo)致用戶無法通過語音搜索輸入正確的檢索詞。因此,需要對(duì)語言模型的語料進(jìn)行糾錯(cuò)。但是,面對(duì)海量的語料,現(xiàn)有方法不能快速且有效地對(duì)其進(jìn)行糾錯(cuò)。所以希望提出一種快速且有效的糾錯(cuò)方法。在對(duì)線上用戶的檢索行為進(jìn)行分析研究的過程中,發(fā)現(xiàn)線上用戶輸入初始檢索詞后,往往需要對(duì)初始檢索詞進(jìn)行一次或者多次的糾錯(cuò),才會(huì)最終獲得滿足其搜索需求的檢索詞。而且,線上用戶最終得到的檢索詞往往是具有一定含義的詞匯,而不是毫無意義的文本串。因此,線上用戶的檢索行為可以看作是對(duì)檢索詞的糾錯(cuò)行為,且該糾錯(cuò)行為具有可信度高的特點(diǎn)?;谏鲜鎏攸c(diǎn),可以從大量線上用戶對(duì)檢索詞的糾錯(cuò)行為中提取相應(yīng)的糾錯(cuò)規(guī)則,并將該糾錯(cuò)規(guī)則用于語言模型中,從而實(shí)現(xiàn)對(duì)語料進(jìn)行快速且有效的糾錯(cuò)。
[0019]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0020]根據(jù)本發(fā)明的一個(gè)方面,提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法。請(qǐng)參考圖1,圖1為根據(jù)本發(fā)明一個(gè)方面的對(duì)線語言模型進(jìn)行在線糾錯(cuò)的方法流程圖。如圖所示,該方法包括以下步驟:
[0021]在步驟SlOl中,記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為。
[0022]具體地,在線上用戶利用搜索引擎進(jìn)行檢索的過程中,經(jīng)常會(huì)出現(xiàn)檢索詞輸入不準(zhǔn)確的情況。因此,用戶往往需要對(duì)檢索詞進(jìn)行一次或者多次糾錯(cuò),才會(huì)最終獲得符合其搜索需求的檢索詞。對(duì)上述用戶的糾錯(cuò)行為進(jìn)行記錄,即,將用戶初始輸入的檢索詞(下文以“初始檢索詞”表示)、調(diào)整過程中使用的檢索詞(下文以“過程檢索詞”表示)以及最終符合用戶搜索需求的檢索詞(下文以“目標(biāo)檢索詞”表示)記錄下來,并將這些檢索詞進(jìn)行關(guān)聯(lián)。
[0023]下面,以一個(gè)優(yōu)選實(shí)施例進(jìn)行說明。
[0024]用戶輸入初始檢索詞進(jìn)行搜索,搜索引擎會(huì)對(duì)該初始檢索詞進(jìn)行判斷。如果搜索引擎判斷該初始檢索詞可能存在錯(cuò)誤(如初始檢索詞中出現(xiàn)明顯錯(cuò)別字、或者初始檢索詞不屬于常見詞匯),則會(huì)為用戶推薦目標(biāo)檢索詞,供用戶選擇。例如,如圖2所示,用戶輸入的檢索詞為“劉德化”,搜索引擎給出基于“劉德化”的搜索結(jié)果,并在搜索結(jié)果頁(yè)中給出“您要找的是不是:劉德華”的提示,即,推薦目標(biāo)檢索詞“劉德華”。當(dāng)用戶選擇“劉德華”作為目標(biāo)檢索詞進(jìn)行搜索后,則對(duì)用戶輸入的初始檢索詞“劉德化”和搜索引擎推薦的目標(biāo)檢索詞“劉德華”進(jìn)行關(guān)聯(lián)(劉德化_>劉德華),并對(duì)其進(jìn)行記錄。需要說明的是,搜索引擎對(duì)初始檢索詞進(jìn)行判斷并推薦目標(biāo)檢索詞的方法為現(xiàn)有技術(shù),為了簡(jiǎn)明起見,對(duì)此不再進(jìn)行贅述。
[0025]上述實(shí)施例僅為一個(gè)優(yōu)選實(shí)施例。在其他實(shí)施例中,也可以是用戶自己對(duì)初始檢索詞進(jìn)行一次或者多次的修改。例如,用戶初始輸入“劉得化”,接著修改為“劉德化”,最后修改為“劉德華”并將其作為最終的目標(biāo)檢索詞。在這種情況下,將初始檢索詞“劉得化”、過程檢索詞“劉德化”以及目標(biāo)檢索詞“劉德華”三者進(jìn)行關(guān)聯(lián)并記錄下來。在其他實(shí)施例中,也可以將初始檢索詞、過程檢索詞分別和目標(biāo)檢索詞進(jìn)行關(guān)聯(lián)。仍以上述初始檢索詞“劉得化”、過程檢索詞“劉德化”以及目標(biāo)檢索詞“劉德華”為例說明,分別將“劉得化”與“劉德華”(劉得化-> 劉德華)、“劉德化”與“劉德華”進(jìn)行關(guān)聯(lián)(劉德化-> 劉德華),并對(duì)其分別進(jìn)行記錄。
[0026]在步驟S102中,基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表。
[0027]具體地,通常情況下,線上用戶在檢索過程中最終采用的目標(biāo)檢索詞是具有一定含義的詞匯,而不是毫無意義的文本串。因此,可以認(rèn)為用戶最終采用的目標(biāo)檢索詞是準(zhǔn)確度較高的語料,用戶對(duì)初始檢索詞的糾錯(cuò)過程是可信較高的糾錯(cuò)行為。而對(duì)于語言模型來說,對(duì)其中的語料進(jìn)行糾錯(cuò)的過程,其本質(zhì)也是將錯(cuò)誤的語料糾正為具有一定含義的正確語料,與線上用戶對(duì)初始檢索詞進(jìn)行糾錯(cuò)的過程在一定程度上有相似的地方。因此,可以將線上用戶在糾錯(cuò)行為中所使用的糾錯(cuò)準(zhǔn)則用于對(duì)語言模型的語料的糾錯(cuò)中。即,對(duì)大量線上用戶的糾錯(cuò)行為進(jìn)行統(tǒng)計(jì)分析,從中提取出相應(yīng)的糾錯(cuò)規(guī)則建立糾錯(cuò)映射表,然后將該糾錯(cuò)映射表用于語言模型,即可實(shí)現(xiàn)對(duì)語言模型中語料的糾錯(cuò)。
[0028]優(yōu)選地,為了獲取準(zhǔn)確的糾錯(cuò)規(guī)則,在記錄用戶糾錯(cuò)行為的過程中,對(duì)于相同的糾錯(cuò)行為的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù)。當(dāng)相同的糾錯(cuò)行為的出現(xiàn)次數(shù)多于預(yù)定閾值時(shí),則認(rèn)為該糾錯(cuò)行為可信度高,可以從中提出去相應(yīng)的糾錯(cuò)規(guī)則添加至糾錯(cuò)映射表內(nèi);反之,則認(rèn)為糾錯(cuò)行為可信度低,該糾錯(cuò)行為將不會(huì)被用于糾錯(cuò)規(guī)則的提取。假設(shè)預(yù)定閾值為10000,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)“劉得化-> 劉德華”的糾錯(cuò)行為出現(xiàn)的次數(shù)超過10000次,而“劉德華-> 劉得化”的糾錯(cuò)行為僅出現(xiàn)了不到500次,在這種情況下,“劉得化_>劉德華”作為可信的糾錯(cuò)規(guī)則被記錄至糾錯(cuò)映射表中,而“劉德華-> 劉得化”的糾錯(cuò)行為則被認(rèn)為不可信,不被用于糾錯(cuò)規(guī)則的提取。當(dāng)然,本領(lǐng)域的技術(shù)人員應(yīng)該可以理解,在其他實(shí)施例中,也可以從線上用戶的糾錯(cuò)行為中將糾錯(cuò)準(zhǔn)則提取出來后直接記錄至糾錯(cuò)映射表內(nèi),然后在糾錯(cuò)映射表內(nèi)對(duì)該糾錯(cuò)準(zhǔn)則出現(xiàn)的次數(shù)進(jìn)行記錄,當(dāng)該糾錯(cuò)準(zhǔn)則出現(xiàn)的次數(shù)高于一定閾值時(shí),才會(huì)用于對(duì)語言模型的語料的糾錯(cuò)中。
[0029]但是,需要說明的是,并不是所有用戶在線上的對(duì)檢索詞的糾錯(cuò)行為都能用于形成糾錯(cuò)規(guī)則,為了實(shí)現(xiàn)對(duì)用于語音識(shí)別的語言模型進(jìn)行糾錯(cuò),主要是選擇類型為同音糾錯(cuò)、非補(bǔ)全性糾錯(cuò)以及字符集內(nèi)糾錯(cuò)的行為進(jìn)行糾錯(cuò)規(guī)則的提取。
[0030]其中,同音糾錯(cuò)是指通過將初始檢索詞中的一個(gè)或者多個(gè)字修改為同音字來對(duì)其進(jìn)行糾錯(cuò)。在本實(shí)施例中,同音字指在現(xiàn)代漢語中語音相同但字形、意義不同的字,其中,語音相同是廣義地指聲母和韻母相同。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,其中“德”與“得”為同音字,在這種情況下,將提取“劉得華_>劉德華,,作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“太平洋戰(zhàn)爭(zhēng)”,糾錯(cuò)后的目標(biāo)檢索詞為“太平洋戰(zhàn)役”,即,將“爭(zhēng)”糾正為“役”,而“役”與“爭(zhēng)”并非是同音字,在這種情況下,則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0031]非補(bǔ)全性糾錯(cuò)是指不通過增加或減少內(nèi)容的方式來對(duì)初始檢索詞進(jìn)行糾錯(cuò)。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,而并沒有在初始檢索詞中添加其他內(nèi)容,在這種情況下,將提取“劉得華-> 劉德華,,作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“斗破”,糾錯(cuò)后的目標(biāo)檢索詞為“斗破蒼穹”,即,在“斗破”的后面添加了“蒼穹”,在這種情況下,則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0032]字符集內(nèi)糾錯(cuò)是指利用字符集中存在的字對(duì)目標(biāo)檢索詞進(jìn)行糾錯(cuò)。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,其中“德”存在于語言模型的字符集中,在這種情況下,將提取“劉得華_>劉德華,,作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“小島陽(yáng)菜”,糾錯(cuò)后的目標(biāo)檢索詞為“小嶋陽(yáng)菜”,即,將“島”糾正為“嶋”,而“嶋”不存在于語言模型的字符集中,在這種情況下,則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0033]優(yōu)選地需要判斷所述糾錯(cuò)行為是否同時(shí)屬于上述同音糾錯(cuò)、非補(bǔ)全糾錯(cuò)以及字符集內(nèi)糾錯(cuò),如果判斷屬于上述三種糾錯(cuò)行為,則基于該糾錯(cuò)行為形成糾錯(cuò)映射表。
[0034]在步驟S103中,利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
[0035]具體地,形成糾錯(cuò)映射表之后,即可將糾錯(cuò)映射表中的糾錯(cuò)規(guī)則應(yīng)用至語言模型中,對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。即,將語言模型中的語料與糾錯(cuò)映射表中的初始檢索詞以及過程檢索詞進(jìn)行匹配,如果匹配成功,則用與該初始檢索詞或過程檢索詞相對(duì)應(yīng)的目標(biāo)檢索詞對(duì)該語料進(jìn)行替換,否則認(rèn)為該語料為正確的語料,不對(duì)其進(jìn)行糾錯(cuò)。例如,語言模型中存在語料“劉得華”,而在糾錯(cuò)映射表中存在“劉得華_>劉德華”的糾錯(cuò)準(zhǔn)則,那么將該語料“劉得華”糾正為“劉德華”。其中,語言模型可以用于電腦、手機(jī)等各種通信終端的語音搜索。在本實(shí)施例中,語言模型優(yōu)選采用N-Gram模型。
[0036]但是,在一些實(shí)施例中,可能存在有些語料是錯(cuò)誤的,但是在糾錯(cuò)映射表中不存在相應(yīng)糾錯(cuò)規(guī)則的情況。因此,可以在語料與糾錯(cuò)映射表匹配失敗、且該語料又是由多個(gè)詞語構(gòu)成的情況下,對(duì)該語料進(jìn)行分詞,然后利用糾錯(cuò)映射表對(duì)分詞后的詞語分別進(jìn)行糾錯(cuò),以此盡可能避免上述情況的出現(xiàn),從而保證更加全面的糾錯(cuò)。例如,對(duì)于語料“劉德化演唱匯”,在糾錯(cuò)映射表中不存在相應(yīng)糾錯(cuò)規(guī)則的情況下,可以將其進(jìn)行分詞為“劉德化”和“演唱匯”兩個(gè)詞,然后利用糾錯(cuò)映射表中的“劉德化_>劉德華”以及“演唱匯_>演唱會(huì)”兩個(gè)糾錯(cuò)規(guī)則分別進(jìn)行糾錯(cuò),將“劉德化”糾正為“劉德華”,將“演唱匯”糾正為“演唱會(huì)”,從而完成了對(duì)語料“劉德化演唱匯”的糾錯(cuò)。
[0037]此外,由于線上用戶每天的檢索行為非常多,而且語言模型中的語料數(shù)量又非常巨大,因此,為了提高糾錯(cuò)效率,優(yōu)選地通過部署大量的線上服務(wù)器來實(shí)現(xiàn)本發(fā)明所提供的對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法。
[0038]與現(xiàn)有技術(shù)相比,本發(fā)明所提供的對(duì)語言模型進(jìn)行在線糾錯(cuò)方法具有以下優(yōu)點(diǎn):通過線上用戶的檢索行為對(duì)語言模型的語料進(jìn)行糾錯(cuò),有效地提高了糾錯(cuò)的速度和糾錯(cuò)的準(zhǔn)確性,實(shí)現(xiàn)了利用較低的代價(jià)解決語言模型中語料存在錯(cuò)誤的問題,從而能夠有效地提高語言模型建模的正確性,進(jìn)而提升了使用該語言模型的語音識(shí)別系統(tǒng)的準(zhǔn)確率。
[0039]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng)。請(qǐng)參考圖3,圖3為根據(jù)本發(fā)明另一個(gè)方面的對(duì)線語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng)示意圖。如圖所示,該糾錯(cuò)系統(tǒng)300包括記錄模塊301、映射表形成模塊302以及糾錯(cuò)模塊303,其中:
[0040]所述記錄模塊301,用于記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為;[0041]所述映射表形成模塊302,用于基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表;
[0042]所述糾錯(cuò)模塊303,用于利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
[0043]下面,對(duì)上述模塊的具體工作過程進(jìn)行描述。
[0044]在線上用戶利用搜索引擎進(jìn)行檢索的過程中,經(jīng)常會(huì)出現(xiàn)檢索詞輸入不準(zhǔn)確的情況。因此,用戶往往需要對(duì)檢索詞進(jìn)行一次或者多次糾錯(cuò),才會(huì)最終獲得符合其搜索需求的檢索詞。記錄模塊301對(duì)上述用戶的糾錯(cuò)行為進(jìn)行記錄,即,將用戶初始輸入的檢索詞(下文以“初始檢索詞”表示)、調(diào)整過程中使用的檢索詞(下文以“過程檢索詞”表示)以及最終符合用戶搜索需求的檢索詞(下文以“目標(biāo)檢索詞”表示)記錄下來,并將這些檢索詞進(jìn)行關(guān)聯(lián)。
[0045]以一個(gè)優(yōu)選實(shí)施例進(jìn)行說明。用戶輸入初始檢索詞進(jìn)行搜索,搜索引擎會(huì)對(duì)該初始檢索詞進(jìn)行判斷。如果搜索引擎判斷該初始檢索詞可能存在錯(cuò)誤(如初始檢索詞中出現(xiàn)明顯錯(cuò)別字、或者初始檢索詞不屬于常見詞匯),則會(huì)為用戶推薦目標(biāo)檢索詞,供用戶選擇。例如,如圖2所示,用戶輸入的檢索詞為“劉德化”,搜索引擎給出基于“劉德化”的搜索結(jié)果,并在搜索結(jié)果頁(yè)中給出“您要找的是不是:劉德華”的提示,即,推薦目標(biāo)檢索詞“劉德華”。當(dāng)用戶選擇“劉德華”作為目標(biāo)檢索詞進(jìn)行搜索后,記錄模塊301對(duì)用戶輸入的初始檢索詞“劉德化”和搜索引擎推薦的目標(biāo)檢索詞“劉德華”進(jìn)行關(guān)聯(lián)(劉德化_>劉德華),并對(duì)其進(jìn)行記錄。
[0046]上述實(shí)施例僅為一個(gè)優(yōu)選實(shí)施例。在其他實(shí)施例中,也可以是用戶自己對(duì)初始檢索詞進(jìn)行一次或者多次的修改。例如,用戶初始輸入“劉得化”,接著修改為“劉德化”,最后修改為“劉德華”并將其作為最終的目標(biāo)檢索詞。在這種情況下,記錄模塊301將初始檢索詞“劉得化”、過程檢索詞“劉德化”以及目標(biāo)檢索詞“劉德華”三者進(jìn)行關(guān)聯(lián)并記錄下來。在其他實(shí)施例中,記錄模塊301也可以將初始檢索詞、過程檢索詞分別和目標(biāo)檢索詞進(jìn)行關(guān)聯(lián)。仍以上述初始檢索詞“劉得化”、過程檢索詞“劉德化”以及目標(biāo)檢索詞“劉德華”為例說明,記錄模塊301分別將“劉得化”與“劉德華”(劉得化_>劉德華)、“劉德化”與“劉德華,,進(jìn)行關(guān)聯(lián)(劉德化_>劉德華),并對(duì)其分別進(jìn)行記錄。
[0047]記錄模塊301對(duì)線上用戶對(duì)檢索詞的糾錯(cuò)行為進(jìn)行記錄后,映射表形成模塊302將對(duì)記錄的糾錯(cuò)行為進(jìn)行統(tǒng)計(jì)分析,從中提取出相應(yīng)的糾錯(cuò)規(guī)則建立糾錯(cuò)映射表,該糾錯(cuò)映射表將用于對(duì)語言模型的語料的糾錯(cuò)。
[0048]優(yōu)選地,為了獲取準(zhǔn)確的糾錯(cuò)規(guī)則,記錄模塊301在記錄用戶糾錯(cuò)行為的過程中,對(duì)于相同的糾錯(cuò)行為的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù)。進(jìn)一步地,糾錯(cuò)系統(tǒng)300還包括閾值比較模塊(未示出),當(dāng)該閾值比較模塊檢測(cè)到相同的糾錯(cuò)行為的出現(xiàn)次數(shù)多于預(yù)定閾值時(shí),會(huì)通知映射表形成模塊302該糾錯(cuò)行為可信度高,于是映射表形成模塊302將從中該糾錯(cuò)行為中提出去相應(yīng)的糾錯(cuò)規(guī)則添加至糾錯(cuò)映射表內(nèi);反之,映射表形成模塊302將不會(huì)從該糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。假設(shè)預(yù)定閾值為10000,經(jīng)統(tǒng)計(jì)記錄模塊301發(fā)現(xiàn)“劉得化_>劉德華”的糾錯(cuò)行為出現(xiàn)的次數(shù)超過10000次,而“劉德華_>劉得化”的糾錯(cuò)行為僅出現(xiàn)了不到500次,在這種情況下,“劉得化_>劉德華”作為可信的糾錯(cuò)規(guī)則被映射表形成模塊302記錄至糾錯(cuò)映射表中,而“劉德華_>劉得化”的糾錯(cuò)行為則被認(rèn)為不可信,不被用于糾錯(cuò)規(guī)則的提取。當(dāng)然,本領(lǐng)域的技術(shù)人員應(yīng)該可以理解,在其他實(shí)施例中,也可以是映射表形成模塊302從線上用戶的糾錯(cuò)行為中將糾錯(cuò)準(zhǔn)則提取出來后直接記錄至糾錯(cuò)映射表內(nèi),然后映射表形成模塊302對(duì)該糾錯(cuò)準(zhǔn)則出現(xiàn)的次數(shù)進(jìn)行記錄,當(dāng)閾值比較模塊檢測(cè)到該糾錯(cuò)準(zhǔn)則出現(xiàn)的次數(shù)高于一定閾值時(shí),該糾錯(cuò)準(zhǔn)則才會(huì)被用于對(duì)語言模型的語料的糾錯(cuò)中。
[0049]但是,需要說明的是,并不是所有用戶在線上的對(duì)檢索詞的糾錯(cuò)行為都能用于形成糾錯(cuò)規(guī)則,為了實(shí)現(xiàn)對(duì)用于語音識(shí)別的語言模型進(jìn)行糾錯(cuò)的目的,映射表形成模塊302主要是選擇類型為同音糾錯(cuò)、非補(bǔ)全性糾錯(cuò)以及字符集內(nèi)糾錯(cuò)的行為進(jìn)行糾錯(cuò)規(guī)則的提取。
[0050]其中,同音糾錯(cuò)是指通過將初始檢索詞中的一個(gè)或者多個(gè)字修改為同音字來對(duì)其進(jìn)行糾錯(cuò)。在本實(shí)施例中,同音字指在現(xiàn)代漢語中語音相同但字形、意義不同的字,其中,語音相同是廣義地指聲母和韻母相同。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,其中“德”與“得”為同音字,在這種情況下,映射表形成模塊302將提取“劉得華_>劉德華”作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“太平洋戰(zhàn)爭(zhēng)”,糾錯(cuò)后的目標(biāo)檢索詞為“太平洋戰(zhàn)役”,即,將“爭(zhēng)”糾正為“役”,而“役”與“爭(zhēng)”并非是同音字,在這種情況下,映射表形成模塊302則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0051]非補(bǔ)全性糾錯(cuò)是指不通過增加或減少內(nèi)容的方式來對(duì)初始檢索詞進(jìn)行糾錯(cuò)。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,而并沒有在初始檢索詞中添加其他內(nèi)容,在這種情況下,映射表形成模塊302將提取“劉得華_>劉德華”作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“斗破”,糾錯(cuò)后的目標(biāo)檢索詞為“斗破蒼穹”,即,在“斗破”的后面添加了 “蒼穹”,在這種情況下,映射表形成模塊302則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0052]字符集內(nèi)糾錯(cuò)是指利用字符集中存在的字對(duì)目標(biāo)檢索詞進(jìn)行糾錯(cuò)。舉例說明,如果用戶的初始檢索詞為“劉得華”,糾錯(cuò)后的目標(biāo)檢索詞為“劉德華”,即,將“得”糾正為“德”,其中“德”存在于語言模型的字符集中,在這種情況下,映射表形成模塊302將提取“劉得華_>劉德華”作為糾錯(cuò)規(guī)則;如果用戶的初始檢索詞為“小島陽(yáng)菜”,糾錯(cuò)后的目標(biāo)檢索詞為“小嶋陽(yáng)菜”,即,將“島”糾正為“嶋”,而“嶋”不存在于語言模型的字符集中,在這種情況下,映射表形成模塊302則不會(huì)從用戶的糾錯(cuò)行為中提取糾錯(cuò)規(guī)則。
[0053]優(yōu)選地,映射表形成模塊302需要判斷所述糾錯(cuò)行為是否同時(shí)屬于上述同音糾錯(cuò)、非補(bǔ)全糾錯(cuò)以及字符集內(nèi)糾錯(cuò),如果判斷屬于上述三種糾錯(cuò)行為,則基于該糾錯(cuò)行為形成糾錯(cuò)映射表。
[0054]形成糾錯(cuò)映射表之后,糾錯(cuò)模塊303即可將糾錯(cuò)映射表中的糾錯(cuò)規(guī)則應(yīng)用至語言模型中,對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。即,糾錯(cuò)模塊303將語言模型中的語料與糾錯(cuò)映射表中的初始檢索詞以及過程檢索詞進(jìn)行匹配,如果匹配成功,則用與該初始檢索詞或過程檢索詞相對(duì)應(yīng)的目標(biāo)檢索詞對(duì)該語料進(jìn)行替換,否則認(rèn)為該語料為正確的語料,不對(duì)其進(jìn)行糾錯(cuò)。例如,語言模型中存在語料“劉得華”,而在糾錯(cuò)映射表中存在“劉得華_>劉德華”的糾錯(cuò)準(zhǔn)則,那么糾錯(cuò)模塊303將該語料“劉得華”糾正為“劉德華”。其中,語言模型可以用于電腦、手機(jī)等各種通信終端的語音搜索。在本實(shí)施例中,語言模型優(yōu)選采用N-Gram模型。
[0055]進(jìn)一步地,糾錯(cuò)系統(tǒng)300還可以包括分詞模塊(未示出),用于在語料與糾錯(cuò)映射表匹配失敗、且該語料又是由多個(gè)詞語構(gòu)成的情況下,對(duì)該語料進(jìn)行分詞。然后,糾錯(cuò)模塊303利用糾錯(cuò)映射表對(duì)分詞后的詞語分別進(jìn)行糾錯(cuò),以此盡可能保證更加全面的糾錯(cuò)。例如,對(duì)于語料“劉德化演唱匯”,在糾錯(cuò)映射表中不存在相應(yīng)糾錯(cuò)規(guī)則的情況下,分詞模塊可以將其進(jìn)行分詞為“劉德化”和“演唱匯”兩個(gè)詞,然后糾錯(cuò)模塊303利用糾錯(cuò)映射表中的“劉德化_>劉德華”以及“演唱匯_>演唱會(huì)”兩個(gè)糾錯(cuò)規(guī)則分別進(jìn)行糾錯(cuò),將“劉德化”糾正為“劉德華”,將“演唱匯”糾正為“演唱會(huì)”,從而完成了對(duì)語料“劉德化演唱匯”的糾錯(cuò)。
[0056]此外,由于線上用戶每天的檢索行為非常多,而且語言模型中的語料數(shù)量又非常巨大,因此,糾錯(cuò)系統(tǒng)300優(yōu)選地由大量的服務(wù)器所構(gòu)成,以此來加快糾錯(cuò)的速度和提高糾錯(cuò)的效率。
[0057]與現(xiàn)有糾錯(cuò)系統(tǒng)相比,本發(fā)明所提供的對(duì)語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng)具有以下優(yōu)點(diǎn):通過線上用戶的檢索行為對(duì)語言模型的語料進(jìn)行糾錯(cuò),有效地提高了糾錯(cuò)的速度和糾錯(cuò)的準(zhǔn)確性,實(shí)現(xiàn)了利用較低的代價(jià)解決語言模型中語料存在錯(cuò)誤的問題,從而能夠有效地提高語言模型建模的正確性,進(jìn)而提升了使用該語言模型的語音識(shí)別系統(tǒng)的準(zhǔn)確率。
[0058]本發(fā)明提供的對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法可以使用可編程邏輯器件結(jié)合來實(shí)現(xiàn),也可以實(shí)施為計(jì)算機(jī)程序軟件,例如根據(jù)本發(fā)明的實(shí)施例可以是一種計(jì)算機(jī)程序產(chǎn)品,運(yùn)行該程序產(chǎn)品使計(jì)算機(jī)執(zhí)行用于所示范的方法。所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該介質(zhì)上包含計(jì)算機(jī)程序邏輯或代碼部分,用于實(shí)現(xiàn)所述對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是被安裝在計(jì)算機(jī)中的內(nèi)置介質(zhì)或者可從計(jì)算機(jī)主體拆卸的可移動(dòng)介質(zhì)(例如熱拔插技術(shù)存儲(chǔ)設(shè))。所述內(nèi)置介質(zhì)包括但不限于可重寫的非易失性存儲(chǔ)器,例如RAM、ROM、快閃存儲(chǔ)器和硬盤。所述可移動(dòng)介質(zhì)包括但不限于:光存儲(chǔ)媒體(例如CD-ROM和DVD)、磁光存儲(chǔ)媒體(例如MO)、磁存儲(chǔ)媒體(例如盒帶或移動(dòng)硬盤)、具有內(nèi)置的可重寫的非易失性存儲(chǔ)器的媒體(例如存儲(chǔ)卡)和具有內(nèi)置ROM的媒體(例如ROM盒)。
[0059]以上所揭露的僅為本發(fā)明的一種較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的方法,該方法包括以下步驟: 記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為; 基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表; 利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
2.根據(jù)權(quán)利要求1所述的方法,其中,記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為的步驟包括: 當(dāng)線上用戶對(duì)初始檢索詞進(jìn)行糾錯(cuò)時(shí),記錄糾錯(cuò)過程中所述線上用戶使用的初始檢索詞、過程檢索詞以及目標(biāo)檢索詞。
3.根據(jù)權(quán)利要求2所述 的方法,其中: 在記錄用戶糾錯(cuò)行為的過程中,計(jì)算相同的糾錯(cuò)行為的出現(xiàn)的次數(shù); 當(dāng)所述相同的糾錯(cuò)行為的出現(xiàn)的次數(shù)大于預(yù)定閾值時(shí),該糾錯(cuò)行為用于糾錯(cuò)映射表的形成。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表的步驟包括: 從線上用戶特定的糾錯(cuò)行為中,提取該糾錯(cuò)行為中的初始檢索詞、過程檢索詞以及目標(biāo)檢索詞,并將其進(jìn)行關(guān)聯(lián),記錄至糾錯(cuò)映射表中。
5.根據(jù)權(quán)利要求4所述的方法,其中: 判斷所述特定糾錯(cuò)行為的類型是否屬于同音糾錯(cuò)、非補(bǔ)全糾錯(cuò)以及字符集內(nèi)糾錯(cuò),如果屬于上述類型的糾錯(cuò)行為則基于該糾錯(cuò)行為形成糾錯(cuò)映射表。
6.根據(jù)權(quán)利要求4所述的方法,其中,利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)的步驟包括: 將語言模型中的語料與所述糾錯(cuò)映射表中的初始檢索詞和過程檢索詞進(jìn)行匹配,在匹配成功的情況下,使用與所述初始檢索詞或過程檢索詞相關(guān)聯(lián)的目標(biāo)檢索詞替代所述語料。
7.根據(jù)權(quán)利要求4所述的方法,其中,利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)的步驟包括: 將語言模型中的語料進(jìn)行分詞,形成多個(gè)詞語; 將該多個(gè)詞語分別與所述糾錯(cuò)映射表中的初始檢索詞和過程檢索詞進(jìn)行匹配,在匹配成功的情況下,使用與所述初始檢索詞或過程檢索詞相關(guān)聯(lián)的目標(biāo)檢索詞替代所述詞語。
8.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,所述語言模型為N-Gram模型。
9.一種對(duì)語言模型進(jìn)行在線糾錯(cuò)的系統(tǒng),包括: 記錄模塊,用于記錄線上用戶在檢索過程中對(duì)檢索詞的糾錯(cuò)行為; 映射表形成模塊,用于基于所述線上用戶的糾錯(cuò)行為形成糾錯(cuò)映射表; 糾錯(cuò)模塊,用于利用所述糾錯(cuò)映射表對(duì)語言模型中的語料進(jìn)行糾錯(cuò)。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中: 當(dāng)線上用戶對(duì)初始檢索詞進(jìn)行糾錯(cuò)時(shí),所述記錄模塊記錄糾錯(cuò)過程中所述線上用戶使用的初始檢索詞、過程檢索詞以及目標(biāo)檢索詞。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中: 在記錄用戶糾錯(cuò)行為的過程中,所述記錄模塊計(jì)算相同的糾錯(cuò)行為的出現(xiàn)的次數(shù)。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),還包括: 閾值比較模塊,用于將所述相同的糾錯(cuò)行為的出現(xiàn)的次數(shù)與預(yù)定閾值進(jìn)行比較。
13.根據(jù)權(quán)利要求9至12中任一項(xiàng)所述的系統(tǒng),其中: 從線上用戶特定的糾錯(cuò)行為中,所述映射表形成模塊提取該糾錯(cuò)行為中的初始檢索詞、過程檢索詞以及目標(biāo)檢索詞,并將其進(jìn)行關(guān)聯(lián),記錄至糾錯(cuò)映射表中。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中: 判斷所述特定糾錯(cuò)行為的類型是否屬于同音糾錯(cuò)、非補(bǔ)全糾錯(cuò)以及字符集內(nèi)糾錯(cuò),如果屬于上述類型的糾錯(cuò)行為則基于該糾錯(cuò)行為形成糾錯(cuò)映射表。
15.根據(jù)權(quán)利要求9至12中任一項(xiàng)所述的系統(tǒng),其中: 所述糾錯(cuò)模塊將語言模型中的語料與所述糾錯(cuò)映射表中的初始檢索詞和過程檢索詞進(jìn)行匹配,在匹配成功的情況下,使用與所述初始檢索詞或過程檢索詞相關(guān)聯(lián)的目標(biāo)檢索詞替代所述語料。
16.根據(jù)權(quán)利要求9至12中任一項(xiàng)所述的系統(tǒng),還包括: 分詞模塊,用于將語言模型中的語料進(jìn)行分詞,形成多個(gè)詞語。
17.根據(jù)權(quán)利要求9至12中任一項(xiàng)所述的系統(tǒng),其中,所述語言模型為N-Gram模型。
【文檔編號(hào)】G06F11/00GK103942223SQ201310024375
【公開日】2014年7月23日 申請(qǐng)日期:2013年1月23日 優(yōu)先權(quán)日:2013年1月23日
【發(fā)明者】曹立新, 萬廣魯 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司