專利名稱:獲得語言模型概率及構(gòu)建語言模型的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地,涉及為句子獲得語言模型概率的方法和裝 置、構(gòu)建語言模型的方法和裝置以及應(yīng)用了這些方法和裝置的基于語料庫的機(jī)器翻譯方 法和系統(tǒng)。
背景技術(shù):
統(tǒng)計機(jī)器翻譯是主要的基于語料庫的機(jī)器自動翻譯技術(shù)之一。在該技術(shù)中,通 常會用到多種概率模型。語言模型是統(tǒng)計機(jī)器翻譯技術(shù)中最主要的概率模型之一。所謂 語言模型,是用于為一個句子(或詞序列)計算出一個概率值,以表明該句子(或詞序 列)的流利度的模型。也就是說,語言模型用于為一個句子(或詞序列)計算出能夠表 示該句子(或詞序列)在所屬語言中的出現(xiàn)概率、即是否常用的概率值。在統(tǒng)計機(jī)器翻譯技術(shù)中,通過利用語言模型來計算候選譯文的出現(xiàn)概率(以下 稱為“語言模型概率”),可以幫助譯文選擇。因為語言模型概率越高,表明該譯文越 常用,越符合所屬語言的習(xí)慣,這樣,通過使用語言模型概率評價候選譯文的流利度, 能夠確保譯文生成質(zhì)量。在現(xiàn)有的統(tǒng)計機(jī)器翻譯技術(shù)中,語言模型通常利用馬爾科夫模型從單語文本語 料中訓(xùn)練得到。根據(jù)馬爾可夫模型,對于一個包含N個詞的句子E=丨e2,…,eN}, 按照下式(1)來獲得其語言模型概率ρ (E)
NP(E) = Piei ,e2,…’ ,e,^ ) (1)
(=1其中,p(ei|ei,e2,…,ei_2,ei_i)是單詞ei的概率,該概率表示單詞4出現(xiàn)在前 面的i-Ι個單詞e1; e2,…,e,_2,之后的概率。但是,由于在根據(jù)上式(1)計算句子的語言模型概率時的訓(xùn)練數(shù)據(jù)稀疏的原 因,在實際的計算過程中,通常以馬爾科夫模型為理論基礎(chǔ),使用平滑的ngram模型來 近似地得到語言模型概率。根據(jù)平滑的ngram模型,對于上述包含N個詞的句子E = {e1 e2,…,eN},按照下式(2)來近似地獲得其語言模型概率ρ (E):
Np(E) Y[ p{et , ’…’ ,^1) (2)
/=1其中,每個單詞&的概率p(ei|ei_n+1,ei_n+2,…,ei_2,不再依賴于出現(xiàn)在ei 前面的所有i-1個單詞,而僅是依賴于出現(xiàn)在其前面的n-1個單詞。一般地,η取2 5。通常,單詞組“ei_n+1,ei_n+2,…,,eM, e,”稱為一個ngram。在此情況下,概 率 Pte1Ie1 -n+1, ei-n+2 ‘ ···' ei-2' )也稱為是 ngram n+1,n+2,...,q{-2,C^1,Qi 白勺 概率。下面以具體例子來詳細(xì)描述根據(jù)平滑的ngram模型計算語言模型概率的過程。例如,假定待計算的句子是"this is your seat.",并且設(shè)定η = 3,則根據(jù)上 式(2),該句子的語言模型概率由組成該句子的5個單詞“this”、“is”、"your"、“seat” 禾口 “.” 的各自的概率 ρ (this)、p(is|this)、ρ (your|this, is)、p(seat|is, your)和 p(.|your, seat)的乘積得到,即ρ (this is your seat.) = ρ (this) Xp(is|this) Xρ (your|this, is) Xp (seat|is, your) Xp (.Iyour, seat)其中,概率p(is|this)表示“is”出現(xiàn)在“this”之后的概率 ,該概率可以預(yù)先 通過從單語文本語料中統(tǒng)計“is”和“this is”的出現(xiàn)頻率而計算得到。在此,單詞組
"this, is” 稱為一個 2-gram(或 bigram)。此外,概率 ρ (your|this,is)表示 “your” 出 現(xiàn)在“this is”之后的概率,同樣,該概率也可以預(yù)先通過從單語文本語料中統(tǒng)計“this is your”和“this is”的出現(xiàn)頻率而計算得到。在此,單詞組"this, is, your”稱為一 個 3-gram (或 trigram)。對于才既率 ρ (this)、p(seat|is, your)禾口 ρ (.|your, seat)而言,也 是同樣的。從以上可以看出,在基于平滑的ngnim模型構(gòu)建用于為句子獲得語言模型概率 的語言模型(后面稱為“標(biāo)準(zhǔn)語言模型”)時,由于訓(xùn)練語料中的詞匯已經(jīng)是確定的了, 所以,語言模型中所訓(xùn)練出的ngram的詞匯也是確定的。從而在利用所構(gòu)建的語言模型 為句子獲得語言模型概率時,只能從語言模型中確定的ngram中查找相應(yīng)的ngram及其概 率,來直接用于計算。這樣,就會存在句子中的詞序列有可能與語言模型中使用的詞匯表不一致的問 題。例如,復(fù)合詞通常被看作一個詞,但是統(tǒng)計機(jī)器翻譯系統(tǒng)在根據(jù)翻譯模型為句子生 成候選譯文時,有可能會將一個復(fù)合詞分離地翻譯為幾個單獨的詞。另一方面,由于語 言模型的詞匯表并不會將一個復(fù)合詞看作是由幾個單獨的詞組成的,所以語言模型中并 不會包含這幾個單獨的詞的ngram的概率。這樣,統(tǒng)計機(jī)器翻譯系統(tǒng)可能會轉(zhuǎn)而為該復(fù) 合詞生成一個不準(zhǔn)確、但出現(xiàn)概率較高的對應(yīng)譯文。從而,導(dǎo)致所生成的譯文的流利度 和忠實度下降。這種復(fù)合詞不一致的問題,對于漢語、日語等需要劃分單詞的語言來說,是一 種常見的問題。這種問題,主要是因為機(jī)器翻譯系統(tǒng)在翻譯過程中的分詞結(jié)果的不一致 而造成的。下面用具體的例子來進(jìn)行說明。假設(shè)待翻譯的句子是“This is my airplane ticket.”。采用基于短語的統(tǒng)計機(jī)器翻
譯系統(tǒng)。假設(shè)在該統(tǒng)計機(jī)器翻譯系統(tǒng)的雙語短語表中,與上面的待翻譯句子匹配的雙語 短語如表1所示。表 1
This is my airplane ticket .這是我的 飛機(jī)
___ 的票也就是說,對于上面的待翻譯句子“This is my airplane ticket.”,統(tǒng)計機(jī)器翻譯 系統(tǒng)只能夠從表1所列出的短語中組合得到其譯文。但是,由于在上述雙語短語表中, 對于復(fù)合詞“飛機(jī)票”,不包含雙語短語“airplane ticket|飛機(jī)票”,而僅包含“airplanej 飛機(jī)”和“ticket|票,的票”,因此,基于該短語表,統(tǒng)計機(jī)器翻譯系統(tǒng)只能夠?qū)?br>
“airplane ticket”拆開,通過合并兩個短語“airplane|飛機(jī)”和“ticket|票,的票”來得至Ij “airplane ticket” 的對應(yīng)譯文。這樣,根 據(jù)表1,統(tǒng)計機(jī)器翻譯系統(tǒng)可能得到的譯文包括Tl 這是我的飛機(jī)票。T2 這是我的飛機(jī)的票?;谏鲜舰?,譯文Tl的語言模型概率的計算可以表示為ρ (這是我的飛機(jī)票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機(jī)I我,的)Xp(票 I的,飛機(jī))Xp(。I飛機(jī),票)譯文T2的語言模型概率的計算可以表示為ρ (這是我的飛機(jī)的票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機(jī)I我,的)Xp(的 I的,飛機(jī))Xp(票ι飛機(jī),的)Χρ(。ι的,票)雖然譯文Tl的質(zhì)量優(yōu)于T2,但是對于譯文Tl而言,復(fù)合詞“飛機(jī)票”是由 “飛機(jī)”和“票”組合而成的詞序列(表示為“(飛機(jī))(票)”),而“飛機(jī)票”在標(biāo)
準(zhǔn)語言模型的詞匯表中是一個詞,而并不會看作是由“飛機(jī)”和“票”組合而成的詞序 列,所以在標(biāo)準(zhǔn)語言模型的詞匯表中,并不會統(tǒng)計出包含了該詞序列“(飛機(jī))(票)”的 ngnim的出現(xiàn)概率。從而,在計算譯文Tl的語言模型概率時,包含了詞序列“(飛機(jī)) (票)”的ngnim的概率(例如ρ (票|的,飛機(jī)))將是一個非常低的值。相對于此,對于譯文Τ2而言,由于“飛機(jī)的票”本身就不是一個詞,而可以看 作是由“飛機(jī)”、“的”和“票”組合而成的詞序列“(飛機(jī))(的)(票)”,所以語 言模型的詞匯表中包含該詞序列的ngram的概率不會很低,而高于譯文Tl中“(飛機(jī)) (票)”的情況。這樣,所計算出的譯文T2的語言模型概率將高于譯文Tl。從而,統(tǒng)計機(jī)器翻譯系統(tǒng)最終將選擇譯文T2作為上述待翻譯句子的最終譯文??梢钥闯?,在現(xiàn)有的標(biāo)準(zhǔn)語言模型中,由于并不考慮候選譯文中的復(fù)合詞與語 言模型的詞匯表不一致的情況,所以存在著由于候選譯文中的復(fù)合詞被拆分而導(dǎo)致語言 模型概率的計算不準(zhǔn)確的問題,進(jìn)而存在著使統(tǒng)計機(jī)器翻譯系統(tǒng)也不能夠有效地根據(jù)語 言模型概率生成高質(zhì)量的譯文的問題。
發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問題而提出的,其目的在于提供一種為句子 獲得語言模型概率的方法和裝置、構(gòu)建語言模型的方法和裝置以及應(yīng)用了這些方法和裝 置的基于語料庫的機(jī)器翻譯方法和系統(tǒng),以便通過改變標(biāo)準(zhǔn)語言模型中對句子中與語言 模型概率的計算有關(guān)的各個詞及其概率的確定方式,來確保在語言模型概率的計算中復(fù) 合詞不被拆分,從而準(zhǔn)確地體現(xiàn)句子的流利度。根據(jù)本發(fā)明的一個方面,提供一種為句子獲得語言模型概率的方法,包括通 過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的組合 詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率;以及基于所確定的 與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子的語言模型概率。根據(jù)本發(fā)明的另一個方面,提供一種構(gòu)建語言模型的方法,包括構(gòu)建語言模型,該語言模型通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為 一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率, 進(jìn)而基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子 的語言模型概率。優(yōu)選地,上述句子的語言模型概率通過求取所確定的與該句子的語言模型概率 的計算有關(guān)的各個詞的概率的乘積而獲得。
優(yōu)選地,確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率的步驟根 據(jù)下式實現(xiàn)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 ‘ ..., ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, Qi-n+2 ‘…,‘ ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其后面的j個單詞所組成 的組合詞e,+...+ 的概率。優(yōu)選地,基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概 率,獲得該句子的語言模型概率根據(jù)下式實現(xiàn)Ps^) = JlPAeiKe2,...^)
/=/'+J其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子E的語言模型概率。根據(jù)本發(fā)明的又一個方面,提供一種基于語料庫的機(jī)器翻譯方法,包括利用 上述的為句子獲得語言模型概率的方法,為針對待翻譯的句子生成的多個候選譯文,分 別獲得語言模型概率;以及參考上述多個候選譯文的語言模型概率,從該多個候選譯文 中選擇出上述待翻譯的句子的最終譯文。根據(jù)本發(fā)明的再一個方面,提供一種為句子獲得語言模型概率的裝置,包括 詞及其概率確定單元,其通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常 被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其 概率;以及語言模型概率計算單元,其基于所確定的與該句子的語言模型概率的計算有 關(guān)的各個詞及其概率,獲得該句子的語言模型概率。優(yōu)選地,上述詞及其概率確定單元基于預(yù)先從單語文本語料中統(tǒng)計出的多個單 詞組及其概率,對于上述句子中的各個單詞,確定該單詞以及該單詞與其后面的單詞所 組成的所有可能的組合詞中概率最高的那一個詞,以將該詞及其概率作為與該句子的語 言模型概率的計算有關(guān)的詞及其概率,并且將該所確定的詞后面的單詞作為下一個要進(jìn) 行與該句子的語言模型概率的計算有關(guān)的詞及其概率的確定的當(dāng)前單詞。優(yōu)選地,上述詞及其概率確定單元對于上述句子中的各個單詞,通過在該單詞 的基礎(chǔ)上逐個單詞地向后擴(kuò)充來嘗試將該單詞與后面的單詞構(gòu)成組合詞,并且在確定這 樣構(gòu)成的組合詞的概率不再增高時停止,來確定該單詞及其所有可能的組合詞中概率最 高的那一個詞。優(yōu)選地,上述詞及其概率確定單元根據(jù)下式,確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率 ps (e' , Ie1, e2, e^) = Max(p(e1|e1_n+1, e^, e^, eM), ρ (ε,+e^Ie1-^1,
ei-n+2 ‘…,ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, Qi-n+2 ‘…,‘ ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其后面的j個單詞所組成 的組合詞e,+...+ 的概率;并且上述語言模型概率計算單元根據(jù)下式,獲得句子的語言模型概率Ps(E) = JjMeiKe2,...^)
i=i+j其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子的語言模型概率。根據(jù)本發(fā)明的再一個方面,提供一種構(gòu)建語言模型的裝置,包括模型構(gòu)建單 元,其構(gòu)建語言模型,該語言模型通過對于句子中的各個單詞,嘗試將其與后面的單 詞組成通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關(guān)的 各個詞及其概率,進(jìn)而基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其 概率,獲得該句子的語言模型概率。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語言模型基于預(yù)先從單語文本語料中統(tǒng)計 出的多個單詞組及其概率,對于上述句子中的各個單詞,確定在該單詞以及該單詞與其 后面的單詞所組成的所有可能的組合詞中概率最高的那一個詞,以將該詞及其概率作為 與該句子的語言模型概率的計算有關(guān)的詞及其概率,并且將該所確定的詞后面的單詞作 為下一個要進(jìn)行與該句子的語言模型概率的計算有關(guān)的詞及其概率的確定的當(dāng)前單詞。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語言模型對于上述句子中的各個單詞,通 過在該單詞的基礎(chǔ)上逐個單詞地向后擴(kuò)充來嘗試將該單詞與后面的單詞構(gòu)成組合詞,并 且在確定這樣構(gòu)成的組合詞的概率不再增高時停止,來確定該單詞及其所有可能的組合 詞中概率最高的那一個詞。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語言模型根據(jù)下式,確定與該句子的語言 模型概率的計算有關(guān)的各個詞及其概率ps (e' Je1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 ‘ ..., ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, ei-n+2, ..., ei-2, ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,...ei_2,是單詞e,與其后面的j個單詞所組成的 組合詞e,+...+ 的概率,并且根據(jù)下式,獲得該句子的語言模型概率P.XE)=
i=i+J其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子的語言模型概率。
優(yōu)選地,單詞的概率是該單詞與句子中該單詞前面的單詞所組成的單詞組的概 率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成的單詞組的概率。根據(jù)本發(fā)明的再一個方面,提供一種基于語料庫的機(jī)器翻譯系統(tǒng),包括上述 的為句子獲得語言模型概率的裝置或利用上述的構(gòu)建語言模型的裝置構(gòu)建的語言模型; 以及譯文生成單元,其為待翻譯的句子生成多個候選譯文,并且利用上述為句子獲得語 言模型概率的裝置或語言模型,分別為該多個候選譯文獲得語言模型概率,并且參考該 多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻 譯的句子的最終譯 文。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解 本發(fā)明上述的特點、優(yōu)點和目的。圖1是根據(jù)本發(fā)明實施例的為句子獲得語言模型概率的方法的流程圖;圖2是圖1的步驟105中確定與句子的語言模型概率的計算有關(guān)的各個詞及其概 率的過程的流程圖;圖3是根據(jù)本發(fā)明實施例的構(gòu)建語言模型的方法的流程圖;圖4是根據(jù)本發(fā)明實施例的基于語料庫的機(jī)器翻譯方法的流程圖;圖5是根據(jù)本發(fā)明實施例的為句子獲得語言模型概率的裝置的方框圖;圖6是根據(jù)本發(fā)明實施例的構(gòu)建語言模型的裝置的方框圖;以及圖7是根據(jù)本發(fā)明實施例的基于語料庫的機(jī)器翻譯系統(tǒng)的方框圖。
具體實施例方式本發(fā)明提出一種新的語言模型的概念,該語言模型在現(xiàn)有的標(biāo)準(zhǔn)語言模型的基 礎(chǔ)上,考慮了通常被作為一個詞來使用的復(fù)合詞在候選譯文與語言模型中不一致的問 題,改變了句子中與語言模型概率的計算有關(guān)的各個詞及其概率的確定方式。具體地, 該語言模型,對于句子中的各個單詞,嘗試是否能夠?qū)⑵渑c后面的單詞組成通常被作為 一個詞使用的組合詞,并且在能夠組合的情況下基于這樣的組合詞的概率、而不是上述 單詞的概率來計算句子的語言模型概率,以便確保在語言模型概率的計算中復(fù)合詞不被 拆分。在此,所謂復(fù)合詞,是一個寬泛的概念,指所有由多個詞組合而成、在所屬語 言中通常被作為一個詞來使用的詞。在本發(fā)明所提出的該新的語言模型的概念的基礎(chǔ)上,下面結(jié)合附圖對本發(fā)明的 各個優(yōu)選實施例進(jìn)行詳細(xì)說明。圖1是根據(jù)本發(fā)明實施例的為句子獲得語言模型概率的方法的流程圖。如圖1所示,該方法首先在步驟105,為要進(jìn)行語言模型概率的計算的句子,對 于其中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的組合詞,而確 定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率。該步驟基于預(yù)先從單語文本語料中統(tǒng)計出的多個單詞組及其概率來實現(xiàn)。在 此,所謂單詞組,是由多個單詞組成、代表該多個單詞有可能在句子中按順序出現(xiàn)的組。在一個實施例中,與平滑的ngram模型對應(yīng)地,這里所述的單詞組指ngram。此外,單詞組的概率表示該單詞組中的最后一個單詞出現(xiàn)在該單詞組中其前面 的所有單詞之后的概率。單詞組的概率也可以稱為是該單詞組中的最后一個單詞的、與 該單詞組中其前面的單詞有關(guān)的概率。也就是說,在本步驟中,對于句子中的各個單詞,不僅要像標(biāo)準(zhǔn)語言模型那樣 考慮該單詞與其前面的單詞的組合,而且還要考慮其與后面的單詞的組合。具體地,在本步驟中,對于句子中的各個單詞,根據(jù)預(yù)先從單語文本語料中統(tǒng) 計出的多個單詞組及其概率,確定該單詞和該單詞與其后面的單詞所組成的所有可能的 組合詞中概率最高的那 一個詞,作為與該句子的語言模型概率的計算有關(guān)的詞,使其概 率用于該句子的語言模型概率的計算。在一個實施例中,在本步驟中,在平滑的ngram模型的基礎(chǔ)上,對于包含N個 詞丨ei,e2,…,eN}的句子E,針對其中的各個當(dāng)前單詞基于下式(3)嘗試將其與后 面的單詞組成組合詞,來確定與該當(dāng)前單詞e,有關(guān)、進(jìn)而與該句子的語言模型概率的計 算有關(guān)的詞e',及其概率仇…'Je1, e2,…,eM)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1, 6i-n+2' ..., ^i-l)‘…,P +ei+jl^-n+i, Ci-^2, ..., Qh2, Chi) (3)其中,p(ei|ei_n+1,ei_n+2,...,ei_2,h)是當(dāng)前單詞ei的概率,也即該單詞&與 其前面的n-1個單詞所組成的單詞組(ei_n+1,ei_n+2,…,ei_2,eM, e)(后面稱為原始單 詞組,相當(dāng)于平滑的ngram模型中的ngram)的概率,類似地,ρ(ei+e1+1|ei_n+1,e^,…, ei_2,eM)是當(dāng)前單詞ei與其后面的單詞e1+1所組成的組合詞ei+e1+1的概率,也即該組合詞 與其前面的n-1個單詞所組成的單詞組(ei_n,ei_n+1,…,ei_2,eM, ei; e1+1)(后面稱為組 合單詞組)的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是當(dāng)前單詞e,與其后面的j個單 詞所組成的組合詞e,+...+ 的概率,也即該組合詞與其前面的n-1個單詞所組成的組合單 詞組(‘, ei-n+l ‘…,ei-2,ei-1,ei,…,ei+j/ 的概率。可以看出,與當(dāng)前單詞ei有關(guān)、進(jìn)而與該句子的語言模型概率的計算有關(guān)的詞 e',是當(dāng)前單詞ei及其所有可能的組合詞壚…+ 中概率最高的那一個詞。也就是說,在本實施例中,在確定與句子的語言模型概率的計算有關(guān)的各個詞 及其概率時,對于句子中的各個單詞,除了要考慮在標(biāo)準(zhǔn)語言模型中直接應(yīng)用的該單詞 的概率之外,還嘗試在該當(dāng)前單詞的基礎(chǔ)上組合其后面的單詞,即構(gòu)成組合詞,并且確 定該當(dāng)前單詞和所有可能的組合詞中概率最高的那一個詞,使該詞及其概率作為與該句 子的語言模型概率的計算有關(guān)的詞及其概率。并且,可以理解,在針對當(dāng)前單詞確定了該單詞和其所有可能的組合詞中概率 最高的那一個詞之后,該所確定的詞后面的單詞將成為下一個要進(jìn)行與該句子的語言模 型概率的計算有關(guān)的詞的確定的當(dāng)前單詞。關(guān)于該步驟,將在后面結(jié)合圖2進(jìn)行詳細(xì)描述。在步驟110,對于上述句子,基于所確定的與該句子的語言模型概率的計算有關(guān) 的各個詞及其概率,獲得該句子的語言模型概率。在一個實施例中,在本步驟中,求取所確定的與該句子的語言模型概率的計算 有關(guān)的各個詞的概率的乘積,來獲得該句子的語言模型概率。
具體地,在上述平滑的ngram模型的情況下,在上式(3)的基礎(chǔ)上,按照下式 (4)來求取所確定的與該句子的語言模型概率的計算有關(guān)的各個詞的概率的乘積,來獲得 該句子的語言模型概率。
權(quán)利要求
1.一種為句子獲得語言模型概率的方法,包括通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率;以及基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子 的語言模型概率。
2.—種構(gòu)建語言模型的方法,包括構(gòu)建語言模型,該語言模型通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,進(jìn)而基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子 的語言模型概率。
3.根據(jù)權(quán)利要求1或2所述的方法,其中上述確定與該句子的語言模型概率的計算有 關(guān)的各個詞及其概率的步驟進(jìn)一步包括基于預(yù)先從單語文本語料中統(tǒng)計出的多個單詞組及其概率,對于上述句子中的各個 單詞,確定該單詞以及該單詞與其后面的單詞所組成的所有可能的組合詞中概率最高的 那一個詞,以將該詞及其概率作為與該句子的語言模型概率的計算有關(guān)的詞及其概率。
4.根據(jù)權(quán)利要求3所述的方法,其中在對于上述句子中的各個單詞確定了該單詞及其 所有可能的組合詞中概率最高的那一個詞之后,該所確定的詞后面的單詞將成為下一個 要進(jìn)行與該句子的語言模型概率的計算有關(guān)的詞及其概率的確定的當(dāng)前單詞。
5.根據(jù)權(quán)利要求3所述的方法,其中單詞的概率是該單詞與句子中該單詞前面的單詞 所組成的單詞組的概率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成 的單詞組的概率。
6.根據(jù)權(quán)利要求3所述的方法,其中對于上述句子中的各個單詞,確定該單詞以及該 單詞與其后面的單詞所組成的所有可能的組合詞中概率最高的那一個詞進(jìn)一步包括通過在該單詞的基礎(chǔ)上逐個單詞地向后擴(kuò)充來嘗試將該單詞與其后面的單詞構(gòu)成組 合詞,并且在確定這樣構(gòu)成的組合詞的概率不再增高時停止,來確定該單詞及其所有可 能的組合詞中概率最高的那一個詞。
7.一種基于語料庫的機(jī)器翻譯方法,包括利用權(quán)利要求1所述的為句子獲得語言模型概率的方法,為針對待翻譯的句子生成 的多個候選譯文,分別獲得語言模型概率;以及參考上述多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻譯的 句子的最終譯文。
8.—種為句子獲得語言模型概率的裝置,包括詞及其概率確定單元,其通過對于句子中的各個單詞,嘗試將其與后面的單詞組成 通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞 及其概率;以及語言模型概率計算單元,其基于所確定的與該句子的語言模型概率的計算有關(guān)的各 個詞及其概率,獲得該句子的語言模型概率。
9.一種構(gòu)建語言模型的裝置,包括模型構(gòu)建單元,其構(gòu)建語言模型,該語言模型通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,進(jìn)而基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子 的語言模型概率。
10. 一種基于語料庫的機(jī)器翻譯系統(tǒng),包括權(quán)利要求8所述的為句子獲得語言模型概率的裝置或利用權(quán)利要求9所述的構(gòu)建語言 模型的裝置構(gòu)建的語言模型;以及譯文生成單元,其為待翻譯的句子生成多個候選譯文,并且利用上述為句子獲得語 言模型概率的裝置或語言模型,分別為該多個候選譯文獲得語言模型概率,并且參考該 多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻譯的句子的最終譯 文。
全文摘要
本發(fā)明提供一種為句子獲得語言模型概率的方法和裝置、構(gòu)建語言模型的方法和裝置以及基于語料庫的機(jī)器翻譯方法和系統(tǒng)。該為句子獲得語言模型概率的方法,包括通過對于句子中的各個單詞,嘗試將其與后面的單詞組成通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關(guān)的各個詞及其概率;以及基于所確定的與該句子的語言模型概率的計算有關(guān)的各個詞及其概率,獲得該句子的語言模型概率。在本發(fā)明中,通過嘗試將句子中的各個單詞與其后面的單詞組合,能夠確保在語言模型概率的計算中復(fù)合詞不被拆分,從而為句子獲得準(zhǔn)確的語言模型概率,準(zhǔn)確地體現(xiàn)句子的質(zhì)量。
文檔編號G06F17/28GK102023970SQ20091017751
公開日2011年4月20日 申請日期2009年9月14日 優(yōu)先權(quán)日2009年9月14日
發(fā)明者劉占一, 王海峰 申請人:株式會社東芝