lse; cover(a,b)表示a,b是否重疊;p(t|s,cst,cflag)表示正在翻譯的短語(yǔ)進(jìn)入了用戶限定的 翻譯片段cst時(shí)(此時(shí)cflag為true),源語(yǔ)言短語(yǔ)s翻譯為t的概率;p(tIs)表示給定源 語(yǔ)言短語(yǔ)s翻譯成目標(biāo)端短語(yǔ)t在機(jī)器翻譯系統(tǒng)中的概率。
[0043] 實(shí)施例1
[0044] 本實(shí)施例用戶向系統(tǒng)提供翻譯切分片段信息,系統(tǒng)接收用戶提供的正確翻譯片段 切分信息后進(jìn)行重新解碼運(yùn)行如下:
[0045] 1.通過(guò)基于本發(fā)明開(kāi)發(fā)的系統(tǒng)提供的Web平臺(tái)開(kāi)始翻譯工作:用戶在輸入框中輸 入需要翻譯的內(nèi)容:"在美國(guó)九一一恐怖攻擊周年左右,東南亞各地的西方外交使節(jié)團(tuán)紛 紛關(guān)閉。"
[0046] 2.系統(tǒng)開(kāi)始翻譯,翻譯結(jié)束后提供格式化的初始翻譯結(jié)果:"thellseptember terroristattacksintheunitedstates,southeastasiaaroundtheanniversaryof thewesterndiplomaticmissionshavebeenclosed. "〇
[0047] 3.觀察步驟11中生成的初始翻譯,尋找在翻譯過(guò)程中短語(yǔ)調(diào)序問(wèn)題嚴(yán)重、與標(biāo) 準(zhǔn)翻譯的順序差別較大、應(yīng)該作為整體翻譯而非分開(kāi)翻譯的片段:"恐怖攻擊周年"應(yīng)作為 整體被翻譯,而系統(tǒng)將"周年"的翻譯調(diào)序到第二個(gè)子句,此時(shí)用戶鼠標(biāo)點(diǎn)擊片段的起始詞 (恐怖)和結(jié)束詞(周年),提供給系統(tǒng)源語(yǔ)言正確切分信息。
[0048] 4.系統(tǒng)接收到用戶提供的限制片段起始詞和結(jié)束詞信息,分析源端句子的詞結(jié) 構(gòu),確定用戶所限制的具體片段信息,源端句子的第一個(gè)子句的詞結(jié)構(gòu)應(yīng)分詞為"在美國(guó) 九一一恐怖攻擊周年左右",根據(jù)起始詞和結(jié)束詞,確定用戶限制的片段為"恐怖攻擊周 年
[0049] 5.在機(jī)器翻譯中,句子的解碼(翻譯)過(guò)程是短語(yǔ)翻譯假設(shè)擴(kuò)展的過(guò)程,當(dāng)解碼過(guò) 程第一次進(jìn)用戶入限制的片段中時(shí),cflag置為true,表示此時(shí)需要進(jìn)行限制。由于在機(jī) 器翻譯的解碼過(guò)程中可以選擇不同短語(yǔ)進(jìn)行假設(shè)擴(kuò)展,在本例中,如果選擇的短語(yǔ)與限制 的片段("恐怖攻擊周年")有重疊,如選擇了"攻擊",則可以進(jìn)行翻譯假設(shè)擴(kuò)展,得到下一 個(gè)翻譯假設(shè);如果選擇的短語(yǔ)是"東南亞",則與限制的片段無(wú)重疊,則不用該短語(yǔ)進(jìn)行翻譯 假設(shè)擴(kuò)展,保證用戶限制的片段在翻譯過(guò)程中被翻譯為一個(gè)整體。當(dāng)用戶限制的片段被完 全翻譯(擴(kuò)展)后,cflag置為false,此時(shí)限制解除,剩余的翻譯假設(shè)仍然按照機(jī)器翻譯的 傳統(tǒng)流程進(jìn)行擴(kuò)展。
[0050] 6.利用上述的切分片段信息對(duì)源語(yǔ)言進(jìn)行重新翻譯,得到新的翻譯結(jié)果:"the llseptemberterroristattacksanniversaryintheunitedstates,southeastasia acrosswesterndiplomaticmissionshavebeenclosed. "。達(dá)到番面譯要求,結(jié)束。
[0051] 本發(fā)明的目標(biāo)是為了在同樣的環(huán)境下,提供更利于用戶使用的交互方式,讓用戶 提供更簡(jiǎn)單的信息,同時(shí)更高效地利用用戶提供的信息,更大程度地提高系統(tǒng)的翻譯能力。
[0052] 表1所示為進(jìn)行實(shí)驗(yàn)的配置。表2為標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)與本系統(tǒng)中的交互方 式:用戶提供源語(yǔ)言的一個(gè)正確翻譯切分信息,系統(tǒng)接收到該信息之后重新解碼,得到的翻 譯結(jié)果的質(zhì)量的對(duì)比。我們使用的基線系統(tǒng)是標(biāo)準(zhǔn)的基于短語(yǔ)的機(jī)器翻譯系統(tǒng)。實(shí)驗(yàn)數(shù)據(jù) 是從MT03.ce.dev中隨機(jī)抽取的120句中文句子。首先,我們用基線系統(tǒng)對(duì)這120句進(jìn)行 翻譯,利用我們的評(píng)價(jià)指標(biāo)BLEU進(jìn)行打分;其次,對(duì)這120句中文句子,人工利用本專利要 求的交互方式限制翻譯片段,并重新解碼,得到新的翻譯結(jié)果。表3所示為利用人工提供正 確翻譯結(jié)果與利用人工提供片段切分信息,在該120句上所需要的時(shí)間對(duì)比。
[0059]表 3
[0060] 由表1可以看出,大部分句子(71/120)存在調(diào)序問(wèn)題,本發(fā)明的方法可以針對(duì)此 種問(wèn)題進(jìn)行限制,從而調(diào)整翻譯結(jié)構(gòu)。
[0061] 從表2可以看出,本發(fā)明的方法對(duì)比基線系統(tǒng)的技術(shù)支持用戶簡(jiǎn)單的片段切分信 息輸入,可以起到幫助機(jī)器提高翻譯水平的效果,更大程度上地利用了用戶提供的信息,提 高了翻譯修正的效率和質(zhì)量,其提高程度也是統(tǒng)計(jì)上顯著的。
[0062] 從表3可以看出,對(duì)比已有的輔助翻譯技術(shù)直接更改、輸入短語(yǔ)或句子的翻譯的 方法,在不人為直接提供新的翻譯的前提下,通過(guò)提供簡(jiǎn)單的片段信息,能在一定程度上節(jié) 省用戶交互的時(shí)間。
[0063]本發(fā)明提供了一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,具體實(shí)現(xiàn)該技術(shù)方 案的方法和途徑很多,以上所述是本發(fā)明的優(yōu)選實(shí)施方式。本發(fā)明基于短語(yǔ)機(jī)器翻譯系統(tǒng), 在基于短語(yǔ)的機(jī)器翻譯系統(tǒng)中,加入限定短語(yǔ)邊界并重新解碼的交互式翻譯方法,使得用 戶對(duì)翻譯錯(cuò)誤的修正效率提高。在具體實(shí)驗(yàn)中,本發(fā)明提出的方法與簡(jiǎn)單的后編輯等簡(jiǎn)單 的交互方法相比,需要用戶提供的信息更少,對(duì)用戶提供的信息的利用效率更高,減少了用 戶的工作量。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提 下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中 未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
【主權(quán)項(xiàng)】
1. 一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,其特征在于,包括如下步驟: 步驟1,用戶通過(guò)系統(tǒng)提供的Web平臺(tái)開(kāi)始翻譯,并向系統(tǒng)提供源語(yǔ)言翻譯片段正確切 分信息; 步驟2,系統(tǒng)接收用戶提供的正確切分信息后進(jìn)行重新翻譯。2. 根據(jù)權(quán)利要求1所述的一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,其特征在 于,步驟1包括如下步驟: 步驟1-1,用戶在輸入框中輸入需要翻譯的內(nèi)容作為源語(yǔ)言,系統(tǒng)開(kāi)始翻譯,翻譯結(jié)束 后得到格式化的初始翻譯結(jié)果; 步驟1-2,用戶觀察步驟1-1中生成的初始翻譯結(jié)果,在源語(yǔ)言中選擇片段的起始詞和 結(jié)束詞,從而將源語(yǔ)言中片段正確切分信息提供給系統(tǒng)。3. 根據(jù)權(quán)利要求2所述的一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,其特征在 于,步驟2包括如下步驟: 步驟2-1,系統(tǒng)接收用戶選擇的源語(yǔ)言中片段的起始詞和結(jié)束詞,根據(jù)源語(yǔ)言的詞結(jié) 構(gòu),從起始詞開(kāi)始至結(jié)束詞,確定用戶所要求限定的翻譯片段; 步驟2-2,系統(tǒng)對(duì)源語(yǔ)言進(jìn)行重新翻譯,用戶限定的翻譯片段的內(nèi)部不與片段外的短語(yǔ) 進(jìn)行調(diào)序,即將用戶限定的翻譯片段作為整體進(jìn)行翻譯,用戶限定的翻譯片段的內(nèi)部翻譯 若要進(jìn)行調(diào)序,必須生成連續(xù)的整體翻譯結(jié)果,在系統(tǒng)得到新的翻譯結(jié)果后,結(jié)構(gòu)化輸出該 翻譯結(jié)果,若用戶接收翻譯結(jié)果,則結(jié)束本步驟,否則返回步驟2-1。4. 根據(jù)權(quán)利要求3所述的一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,其特征在 于,步驟2-2包括: 系統(tǒng)在機(jī)器翻譯過(guò)程中,進(jìn)行如下的限制: 如果正在翻譯的片段與限定的翻譯片段無(wú)重疊,即還未進(jìn)入用戶限定的翻譯片段,則 繼續(xù)標(biāo)準(zhǔn)的機(jī)器翻譯流程,不做任何另外處理工作,即: p (t I s, cst, cf lag) = p (t I s) if (cf lag = false), 如果正在翻譯的片段與限定的翻譯片段有重疊,即正在翻譯的片段進(jìn)入了限定的翻 譯片段,則系統(tǒng)必須將限定的翻譯片段翻譯完畢后再進(jìn)行其他部分的翻譯,從而達(dá)到限定 的翻譯片段內(nèi)部不與其他部分進(jìn)行調(diào)序,保證限定的翻譯片段是一個(gè)完整的整體的目標(biāo), 即:其中S為源語(yǔ)言短語(yǔ);t為短語(yǔ)s的翻譯結(jié)果;CSt為用戶限定的翻譯片段;cf lag為正 在翻譯的片段是否進(jìn)入限定的翻譯片段的標(biāo)記,初始值為false,一旦正在翻譯的片段進(jìn)入 了限定的翻譯片段,cflag的值則重置為true,當(dāng)限定的翻譯片段被完全翻譯后,cflag的 值重置為false ;cover (a, b)表示a, b是否重疊 ;p (t I s, cst, cf lag)表示正在翻譯的短語(yǔ) 進(jìn)入了用戶限定的翻譯片段cst時(shí)(此時(shí)Cflag為true),源語(yǔ)言短語(yǔ)s翻譯為t的概率; P (t I s)表示源語(yǔ)言短語(yǔ)s翻譯成t在機(jī)器翻譯系統(tǒng)中的概率。
【專利摘要】本發(fā)明提出了一種計(jì)算機(jī)中限定翻譯片段的交互式翻譯方法,包括:用戶輸入需要翻譯的句子,由系統(tǒng)給出原始翻譯結(jié)果,當(dāng)用戶對(duì)系統(tǒng)給出的翻譯結(jié)果的順序有不同意見(jiàn),通過(guò)點(diǎn)擊操作對(duì)源語(yǔ)言片段進(jìn)行限制,使得其作為一個(gè)完整的整體,系統(tǒng)根據(jù)重新翻譯,避免系統(tǒng)翻譯中存在的某些整體被作為多個(gè)子部分而分別翻譯時(shí),與其他部分發(fā)生的調(diào)序錯(cuò)誤。對(duì)比現(xiàn)有的簡(jiǎn)單的網(wǎng)頁(yè)翻譯系統(tǒng),本方法突出在不需要用戶提供正確翻譯結(jié)果的情況下,僅提供翻譯片段切分信息,即可以讓系統(tǒng)利用用戶提供的信息進(jìn)行重新解碼,針對(duì)調(diào)序問(wèn)題進(jìn)行限制;對(duì)比已有的交互式翻譯系統(tǒng),本方法提供了更有效的交互信息及交互方式,在實(shí)際實(shí)驗(yàn)情況下可提高翻譯質(zhì)量。
【IPC分類(lèi)】G06F17/28
【公開(kāi)號(hào)】CN104899193
【申請(qǐng)?zhí)枴緾N201510330285
【發(fā)明人】黃書(shū)劍, 程善伯, 戴新宇, 陳家駿, 張建兵
【申請(qǐng)人】南京大學(xué)
【公開(kāi)日】2015年9月9日
【申請(qǐng)日】2015年6月15日