一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,特別是一種用戶向系 統(tǒng)提供源語言正確切分信息,系統(tǒng)接收信息并進(jìn)行重新解碼的翻譯方法。
【背景技術(shù)】
[0002] 統(tǒng)計(jì)機(jī)器翻譯,自上世紀(jì)90年代以來發(fā)展十分迅速,取得了很大的進(jìn)步,已成為 機(jī)器翻譯領(lǐng)域中的研宄熱點(diǎn)。
[0003] 雖然統(tǒng)計(jì)機(jī)器翻譯已經(jīng)有了長足的進(jìn)步,但目前的機(jī)器翻譯的實(shí)用性和可用性還 并不非常高,對于復(fù)雜的源語言句子的翻譯結(jié)果不理想,尤其是不同語系之間的機(jī)器翻譯 的質(zhì)量更是急需提高,在提升機(jī)器翻譯模型的翻譯能力的難度越來越大、機(jī)器翻譯系統(tǒng)的 翻譯結(jié)果的直接可用性不夠強(qiáng)的條件下,如何通過更好的人機(jī)交互來輔助用戶進(jìn)行翻譯, 提高用戶的翻譯效率成為了一個(gè)重要問題。
[0004] 統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,一種非常高效的方法是基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其 工作過程如下:輸入待翻譯的句子S,系統(tǒng)隨之將其切分為n個(gè)短語,即S=Sl,s2,……sn, 進(jìn)一步地,接著將每個(gè)源短語Si翻譯成目標(biāo)語言短語tp并利用已訓(xùn)練完畢的調(diào)序模型描 述每個(gè)短語h的調(diào)序信息,對所有短語進(jìn)行組合,生成目標(biāo)語言句子T=ti,t2,……tn。最 后在所有可能的候選翻譯中搜索出概率最高的句子。由上可知,短語的翻譯準(zhǔn)確程度、翻譯 的調(diào)序準(zhǔn)確程度都是影響機(jī)器翻譯的翻譯能力的重要因素,用戶參與系統(tǒng)的翻譯,幫助系 統(tǒng)對上述兩個(gè)因素進(jìn)行正確的判斷,對于整個(gè)基于短語的機(jī)器翻譯系統(tǒng)的翻譯能力有很大 的提升作用,本發(fā)明著重于對翻譯的調(diào)序準(zhǔn)確程度的研宄,在實(shí)際使用中,可以提高翻譯質(zhì) 量。
[0005] 在現(xiàn)有的發(fā)明技術(shù)中,如中國科學(xué)計(jì)算技術(shù)研宄所2011年申請的《計(jì)算機(jī)輔助翻 譯的方法及系統(tǒng)》專利中,著重于在機(jī)器翻譯的基礎(chǔ)上,對機(jī)器翻譯的結(jié)果利用一些交互方 式,提供記憶庫、詞典等方式進(jìn)行翻譯的后編輯,并沒有提供系統(tǒng)對翻譯結(jié)果進(jìn)行重新解碼 的功能,僅僅是對翻譯結(jié)果的修改,需要用戶提供詞或短語或句子的正確翻譯結(jié)果,且對用 戶提供的信息利用不夠充分,對機(jī)器翻譯系統(tǒng)本身的解碼過程沒有起到調(diào)整優(yōu)化作用,因 此需要尋求可支持用戶提供更簡單的信息,對用戶提供的信息利用更充分的交互方法。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對目前的機(jī)器輔助翻譯系統(tǒng)中,只提 供了簡單的后編輯和記憶庫等交互信息,并沒有充分利用用戶提供的信息進(jìn)行重新解碼, 對機(jī)器翻譯系統(tǒng)的解碼輸出沒有起到調(diào)整優(yōu)化作用的弱點(diǎn),提出一種限定翻譯片段的交互 式翻譯方法。
[0007] 為了解決上述技術(shù)問題,本發(fā)明公開了一種交互式機(jī)器翻譯中用戶向系統(tǒng)提供源 語言翻譯片段正確切分信息,系統(tǒng)接收信息并進(jìn)行重新解碼的新型交互方法。
[0008] 本發(fā)明所述用戶向系統(tǒng)提供源語言翻譯片段正確切分信息包括如下步驟:
[0009] 步驟1,用戶通過系統(tǒng)提供的Web平臺開始翻譯,并向系統(tǒng)提供源語言翻譯片段正 確切分信息;
[0010] 步驟2,系統(tǒng)接收用戶提供的正確切分信息后進(jìn)行重新翻譯。
[0011] 其中,步驟1包括如下步驟:
[0012] 步驟1-1,用戶在輸入框中輸入需要翻譯的內(nèi)容作為源語言,系統(tǒng)開始翻譯,翻譯 結(jié)束后得到格式化的初始翻譯結(jié)果;
[0013] 步驟1-2,用戶觀察步驟1-1中生成的初始翻譯結(jié)果,在源語言上選擇片段的起始 詞和結(jié)束詞,從而將源語言中翻譯片段正確切分信息提供給系統(tǒng)。
[0014] 步驟2包括如下步驟:
[0015] 步驟2-1,系統(tǒng)接收用戶選擇片段的起始詞和結(jié)束詞,根據(jù)源語言的詞結(jié)構(gòu),從起 始詞開始至結(jié)束詞,確定用戶所要求限定的翻譯片段;
[0016] 步驟2-2,系統(tǒng)對源語言進(jìn)行重新翻譯,用戶限定的翻譯片段的內(nèi)部不與片段外的 短語進(jìn)行調(diào)序,即將用戶限定的翻譯片段作為整體進(jìn)行翻譯,用戶限定的翻譯片段的內(nèi)部 翻譯若要進(jìn)行調(diào)序,必須生成連續(xù)的整體翻譯結(jié)果,在系統(tǒng)得到新的翻譯結(jié)果后,結(jié)構(gòu)化輸 出該翻譯結(jié)果,若用戶接收翻譯結(jié)果,則結(jié)束本步驟,否則返回步驟2-1。
[0017] 步驟2-2包括:
[0018] 系統(tǒng)在機(jī)器翻譯過程中,進(jìn)行如下的限制:
[0019] 如果正在翻譯的片段與限定的翻譯片段無重疊,即還未進(jìn)入用戶限定的翻譯片段 則繼續(xù)標(biāo)準(zhǔn)的機(jī)器翻譯流程,不做任何另外處理工作,即:
[0020] p(t|s,cst,cflag) =p(t|s)ifcflag=false,
[0021] 如果正在翻譯的片段與限定的翻譯片段有重疊,即正在翻譯的片段進(jìn)入了限定 的翻譯片段,則系統(tǒng)必須將限定的翻譯片段翻譯完畢后再進(jìn)行其他部分的翻譯,從而達(dá)到 限定的翻譯片段內(nèi)部不與其他部分進(jìn)行調(diào)序,保證限定的翻譯片段是一個(gè)完整的整體的目 標(biāo),即:
[0023] 其中s為源語言短語;t為短語s的翻譯結(jié)果;cst為用戶限定的翻譯片段;cflag 為正在翻譯的片段是否進(jìn)入限定的翻譯片段的標(biāo)記,初始值為false,一旦正在翻譯的片 段進(jìn)入了限定的翻譯片段,cflag的值則重置為true,當(dāng)限定的翻譯片段被完全翻譯后, cflag的值重置為false;cover(a,b)表示a,b是否重疊;p(t|s,cst,cflag)表示正在翻 譯的短語進(jìn)入了用戶限定的翻譯片段cst時(shí)(此時(shí)cflag為true),源語言短語s翻譯為t 的概率;p(t|s)表示源語言短語s翻譯成t在機(jī)器翻譯系統(tǒng)中的概率。
[0024] 有益效果:本發(fā)明從整體上達(dá)到避免翻譯中出現(xiàn)的某些整體被作為多個(gè)子部分而 分別翻譯時(shí),與其他部分發(fā)生的調(diào)序錯(cuò)誤,以此提高翻譯質(zhì)量的目標(biāo)。
【附圖說明】
[0025] 下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述和 /或其他方面的優(yōu)點(diǎn)將會變得更加清楚。
[0026]圖1是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0027] 本發(fā)明提出了一種交互式機(jī)器翻譯中的新型交互方式。用戶向系統(tǒng)提供源語言正 確翻譯片段切分信息;系統(tǒng)在此基礎(chǔ)上進(jìn)行重新解碼獲得新的翻譯結(jié)果?,F(xiàn)有技術(shù)中一方 面提供的交互信息較弱,另一方面系統(tǒng)并沒有利用本發(fā)明中用戶可提供的信息進(jìn)行重新解 碼,或者解碼方式不同。
[0028] 如圖1所示,本發(fā)明公開了一種交互式機(jī)器翻譯中的新型交互方式,基于本發(fā)明 開發(fā)的Web的短語統(tǒng)計(jì)翻譯系統(tǒng)上開發(fā)了若干新型交互方式,即系統(tǒng)提供源語言正確切分 信息;系統(tǒng)在此基礎(chǔ)上進(jìn)行重新解碼獲得新的翻譯結(jié)果。
[0029] 本發(fā)明所述用戶向系統(tǒng)提供源語言正確切分信息包括如下步驟:
[0030] 步驟11,用戶通過基于本發(fā)明開發(fā)的系統(tǒng)提供的Web平臺開始翻譯工作:用戶在 輸入框中輸入需要翻譯的內(nèi)容,系統(tǒng)開始翻譯,翻譯結(jié)束后提供格式化的初始翻譯結(jié)果。
[0031] 步驟12,用戶觀察步驟11中生成的初始翻譯,尋找在翻譯過程中短語調(diào)序問題嚴(yán) 重、與標(biāo)準(zhǔn)翻譯的順序差別較大、應(yīng)該作為整體翻譯而非分開翻譯的片段,利用簡單的交互 方式,比如鼠標(biāo)點(diǎn)擊,用戶選擇片段的起始詞和結(jié)束詞,提供給系統(tǒng)源語言正確切分信息。
[0032] 本發(fā)明所述系統(tǒng)接收用戶提供的正確翻譯片段切分信息后進(jìn)行重新解碼包括以 下步驟:
[0033]步驟21,系統(tǒng)接收用戶提供的信息,即源語言的起始、結(jié)束詞,根據(jù)該信息及源端 句子的詞結(jié)構(gòu),從起始詞開始至結(jié)束詞,確定用戶所要求限制的片段,轉(zhuǎn)入一下步驟。
[0034] 步驟22,系統(tǒng)利用該信息對源語言進(jìn)行重新解碼(翻譯),限定該切分片段內(nèi)部不 與片段外的短語進(jìn)行調(diào)序,即用戶限定的片段作為整體進(jìn)行翻譯,整體內(nèi)部可以調(diào)序,但必 須生成連續(xù)的整體翻譯結(jié)果。由此可以解決翻譯過程中某些嚴(yán)重的短語調(diào)序問題,在系統(tǒng) 得到新的翻譯結(jié)果后,結(jié)構(gòu)化輸出。若用戶接收翻譯結(jié)果,則結(jié)束,否則返回21。
[0035] 本發(fā)明所述系統(tǒng)接收用戶提供的正確切分信息后進(jìn)行重新解碼中步驟22包括:
[0036] 系統(tǒng)在機(jī)器翻譯的解碼(翻譯)過程中,進(jìn)行如下的限制:
[0037] 如果正在翻譯翻譯的片段與限制的切分片段無重疊,即還未進(jìn)入用戶限制的翻譯 片段,則繼續(xù)標(biāo)準(zhǔn)的機(jī)器翻譯流程,不做任何另外處理工作。即
[0038] p (t | s, cst, cf lag) =p(t|s)if cf lag=false
[0039] 如果正在翻譯的片段與限制的切分片段有重疊,即正在翻譯的片段進(jìn)入了限制的 切分片段,則限制機(jī)器翻譯的過程必須將限制的切分片段完全翻譯完畢后再進(jìn)行其他部分 的翻譯,從而達(dá)到限制該切分片段內(nèi)部不與其他部分進(jìn)行調(diào)序,保證該切分片段是一個(gè)完 整的整體的目標(biāo)。
[0040]即
[0042]其中s為源語言短語;t為短語s的翻譯結(jié)果;cst為用戶給定的翻譯片段;cflag為正在翻譯的片段是否進(jìn)入限制片段的標(biāo)記,初始為false,一旦正在翻譯的片段中某個(gè)翻 譯短語進(jìn)入了限制片段,cflag為true,當(dāng)限制片段被完全翻譯后,cflag重置為fa