專利名稱:一種基于現(xiàn)有譯文的儲存庫的翻譯方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于將第一格式的數(shù)據(jù)項輸入序列翻譯為第二格式的數(shù)據(jù)項輸出序列的方法和設(shè)備。特別是但不唯一地,本發(fā)明涉及到將一個源語言中的句子翻譯為目標(biāo)語言中的句子。
背景技術(shù):
在機(jī)器翻譯或者機(jī)器輔助翻譯領(lǐng)域內(nèi)有多種技術(shù)為人所知,它們使用現(xiàn)有的翻譯材料存儲庫來完成輔助翻譯或自動翻譯。一個翻譯存儲器(TM)系統(tǒng)具有一個源語言句子儲存庫,該儲存庫中的每個源語言句子都和與其相關(guān)的目標(biāo)語言句子相配對,并通過在儲存庫中查找在結(jié)構(gòu)和內(nèi)容上與輸入句相近的句子來操作被呈現(xiàn)給翻譯者的與其相關(guān)的目標(biāo)語言句子,以進(jìn)行人工的事后編輯(post-editing)。一個基于實例的機(jī)器翻譯(EBMT)系統(tǒng)試圖完全自動翻譯,并通過以下步驟來操作將輸入的句子分解為片段,并在儲存庫中為每個片段查找一個譯文,而后將這些斷續(xù)的譯文合并為目標(biāo)句。
翻譯存儲器系統(tǒng)非常準(zhǔn)確,但是往往覆蓋范圍有限。在輸入句子和檢索得到的句子之間的區(qū)別通常局限于在詞序、詞法形式和拼寫上的的微小變化。實例經(jīng)常對實例配對的目標(biāo)句不做任何改變;僅僅將其作為最佳匹配句子而呈現(xiàn)給翻譯者。
在更多改進(jìn)的TM系統(tǒng)中,目標(biāo)實例中的某些成分可以由它們的“譯文”所替換。然而,這樣的成分被限定在“可確定成分”,如在WO99/57651中討論的那樣。在本文中,可確定成分是諸如名字或者數(shù)字之類不需要翻譯但能夠復(fù)制,或者其格式能夠簡單地被對準(zhǔn)(align)以符合目標(biāo)語言或局部標(biāo)準(zhǔn)的成分。
EBMT系統(tǒng)具有較寬的覆蓋范圍,但是準(zhǔn)確度較低。這是因為,象其它的全自動翻譯技術(shù)一樣,這些系統(tǒng)依賴于合并在該系統(tǒng)中的大量的語言學(xué)或統(tǒng)計學(xué)的知識,并且難于以窮舉的方式采集和編碼。在EBMT系統(tǒng)中這樣的知識是必要的,使得能夠?qū)⑤斎刖渥臃纸鉃橄嚓P(guān)的片段并隨后將翻譯過的片段結(jié)合為句子,該句子是根據(jù)目標(biāo)語言的語法而被適當(dāng)?shù)男纬伞?br>
上面提到的機(jī)器輔助翻譯系統(tǒng)利用公知的技術(shù)來檢索并將源語言輸入與儲存庫中源語言方的實例相匹配,并將實例的源語言和目標(biāo)語言方實例之間的單詞進(jìn)行對準(zhǔn)(align)。
匹配技術(shù)公開在GR1002453中描述了編輯距離的使用的“Intelligent device for retrieving multilingual texts”(用于檢索多語文本的智能裝置),以及US6161083“Example-basedtranslation method and system which calculates wordsimilarity degrees,a priori probability,and transformationprobability to determine the best example for translation”(基于實例的翻譯方法和系統(tǒng),該系統(tǒng)計算詞的相似度、先驗概率和轉(zhuǎn)換概率以確定翻譯的最佳實例)中。參考文獻(xiàn)“Example-basedMachineTranslation in the Pangloss System”(在Pangloss系統(tǒng)中基于實例的機(jī)器翻譯),Brown,R.D.,學(xué)報第16期coling,Copenhagen,1996;US 2003/0125928“Method for retrievingsimilar sentence in translation aid system”(在翻譯輔助系統(tǒng)中用于檢索相似句子的方法);以及US 2004/0002849“System andmethod for automatic retrieval of example senstences basedupon weighted editing distance”(基于權(quán)重的編輯距離用于自動檢索實例句子的系統(tǒng)和方法),其描述了二個階段方案的使用,其中在基于標(biāo)準(zhǔn)信息檢索技術(shù)的第一階段確定一個小的實例集合,在第二階段,使該集合進(jìn)行基于編輯距離等的更高代價的相似度計算。其他的索引技術(shù)公開在US5724593“Machine assisted translationtools”(機(jī)器輔助翻譯工具)中,其中描述了用于索引的字符n-grams的使用,以及US6473729“word phrase translation usinga prase index”(使用短語檢索的單詞短語翻譯)。
當(dāng)找到一個或者更多的匹配實例時,然后確定它們可能的譯文是必要的。如果與一個完整的實例相匹配,那么其譯文恰好是與其配對的目標(biāo)語言字符串。但是,如果僅僅是部分匹配,就需要通過把一種語言中每一匹配部分完全匹配于另一語言中相應(yīng)的匹配部分,以及不把一種語言中不匹配的部分與另一語言中的任何部分不相比配,來確定源語言字符串的哪一部分與目標(biāo)語言字符串的哪一部分相對準(zhǔn)(align)。
將在兩種語言的配對句子中的單詞和/或短語進(jìn)行對準(zhǔn)的技術(shù)在文獻(xiàn)中得到廣泛描述。US5659765“Machine TranslationSystem”(機(jī)器翻譯系統(tǒng))描述了一個接口以允許用戶指定這樣的對準(zhǔn)。US5907821“Method of computer-based automaticextraction of trahslation pairs of words from a bilingualtext”(從兩種語言文本中基于計算機(jī)自動提取譯文詞對的方法)描述了一個基于相互出現(xiàn)頻率的統(tǒng)計方法。US6345244“System,method,and product for dynamically aligningtranslation in a translation-memory system”(用于在翻譯存儲器系統(tǒng)中動態(tài)地匹配譯文的系統(tǒng)、方法和產(chǎn)品)描述了一個基于譯文中單詞之間的共享特征的方法。US6598015“Context basedcomputer-assisted language translation”(基于計算機(jī)輔助語言翻譯的語境(context))描述了在配對之間的普通格式信息的使用。US6535842“Automatic bilingual translation memorysystem”(自動的兩種語言翻譯存儲器系統(tǒng))描述了一個分級對準(zhǔn)的結(jié)合以產(chǎn)生所有大小的短語的對準(zhǔn)。對準(zhǔn)可以發(fā)生在對給定的輸入句子進(jìn)行處理的期間,或者通常的情況是在處理之前的離線期間。如在US2004/0002848“Example based machine translationsystem”(基于實例的機(jī)器翻譯系統(tǒng))中描述的那樣,對準(zhǔn)也可以是兩個階段的處理過程,包括離線的單詞對準(zhǔn)和在線的較大短語的對準(zhǔn)。
EBMT系統(tǒng)公開在Sato和Nagao的,“Towards Memory-BasedTranslation”(面向基于存儲器的翻譯),學(xué)報第13期coling,Helsinki(1990);Maruyama和Watanabe,“Tree Cover SearchAlgorithm for EBMT”(用于EBMT的樹形覆蓋搜索算法)學(xué)報第四期《技術(shù)會議索引》,蒙特利爾(1992);US6161083“Example-basedtranslation method and system which calculates wordsimilarity degrees,a priori probability,and transformationprobality to determine the best example for translation”(基于實例的翻譯方法和系統(tǒng),該系統(tǒng)計算詞的相似度、先驗概率和轉(zhuǎn)換概率以確定翻譯的最佳實例);Brown,R.D.,“Example-basedMachineTranslation in the Pangloss System”(在Pangloss系統(tǒng)中基于實例的機(jī)器翻譯),學(xué)報第16期,哥本哈根(1996);以及在其他文獻(xiàn)中的US2004/0002848。這些系統(tǒng)都使用一個匹配短語以及一個對準(zhǔn)短語,區(qū)別于TM系統(tǒng)可以確定幾個實例并且每個實例僅匹配輸入的一個片段。他們公開了將句子劃分成片段,選擇每個片段的最佳譯文,以及將譯文片段合并成為相關(guān)的目標(biāo)語言文本的各種解決方法。
這里有兩個主要方法以確定并且合并片段。通常來說,在與結(jié)構(gòu)不同的語言(就是說,詞序很不相同)之間的EBMT有關(guān)的現(xiàn)有技術(shù)中,所述語言例如英語和日語(參見上面參考的Sato和Nagao,Maruyama和Watanabe,以及US6161083的文獻(xiàn)),分段和合并是基于實例的源語言和目標(biāo)語言雙方之間的完全語法分析和樹形結(jié)構(gòu)對準(zhǔn)。在具有相似詞序的語言間的EBMT中,所述語言例如英語和法語(參見上面參照的R.D.Brown的文獻(xiàn))或者英語和漢語(參見US2004/0002848),譯文片段可以根據(jù)在源語言中的次序而被結(jié)合。
關(guān)于選擇每個片段的最佳譯文,通常假定是在實例中的最佳配對于片段的對準(zhǔn)。在Sato和Nagao(上面所參照的)以及US2004/0002848中,根據(jù)在輸入以及整個的包含片段的實例間的相似性來確定最佳實例。R.D.Brown的論文(參照上面)公開了一種方法,其中“翻譯概率僅僅是對于特定的源語言短語,使用對準(zhǔn)每個特定的可替換的譯文相對所有成功對準(zhǔn)的次數(shù)比例”。
通過擴(kuò)展在輸入句子和存儲的實例之間元素的類型的范圍,改進(jìn)翻譯存儲器系統(tǒng)的覆蓋范圍是所希望的。允許輸入句子和存儲句子通過任何元素而有所區(qū)別是所希望的,所述元素可以被用來將一個替換為其他的而不改變涉及到的句子的良好結(jié)構(gòu)。如果翻譯可替換的部分是必要的話,那么提供一種在可選擇的譯文間進(jìn)行選擇的方法是所希望的,其中在不同的語境中所述元素具有上述可選擇的譯文。也希望提供一種方法,在其中可以確定語境任意的可替換元素的正確譯文,而不需要大量的語言學(xué)知識或者深奧的語言分析。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種方法,使用一個存儲器,其包括大量的第一格式的實例序列每個實例序列與第二格式的譯文相配對,將第一格式的數(shù)據(jù)項輸入序列翻譯為第二格式的數(shù)據(jù)項輸出序列,該方法包括(a)根據(jù)輸入序列和存儲器中大量實例序列中的每一個的比較,從存儲器中選擇基礎(chǔ)實例序列,并使用相配對的譯文作為譯文基礎(chǔ);(b)識別輸入句子的不同于基礎(chǔ)實例序列的相應(yīng)部分的那一部分,這些部分分別被指定為輸入以及基礎(chǔ)實例不匹配的部分;(c)查找相應(yīng)于基礎(chǔ)實例不匹配的部分的譯文基礎(chǔ)的那一部分;(d)使用輸入的不匹配的部分來從存儲器中選擇一組輔助實例序列;(e)從該組輔助實例序列中確定相應(yīng)于輸入的不匹配部分的可能譯文備選項;(f)基于預(yù)先確定的選擇算法從備選項中選擇譯文,并使用所選擇的譯文來替換在步驟(c)中查找的那一部分;以及(g)使用步驟(f)的結(jié)果作為數(shù)據(jù)項輸出序列的基礎(chǔ)。
對于在輸入序列中識別的多個輸入的不匹配部分,可以重復(fù)步驟(b)到步驟(f)。對于在輸入序列中識別的每個不匹配部分,可以重復(fù)步驟(b)到步驟(f)。在步驟(a)中選擇的基礎(chǔ)實例序列可以是來自存儲器的實例序列,根據(jù)預(yù)先確定的緊密方法該實例序列最緊密地匹配輸入序列。
在步驟(b)中識別的基礎(chǔ)實例不配對部分,以及在步驟(c)中查找的其相應(yīng)的翻譯基礎(chǔ)部分,可以是位于兩個相鄰的數(shù)據(jù)項之間的一個空序列,以使在步驟(f)中的替換是一個在該位置上的有效的插入。
在步驟(f),根據(jù)語境,所選擇的譯文的詞法變化可以被用于替換在步驟(c)中查找的那一部分。
在用做數(shù)據(jù)項輸出序列之前,可以對從步驟(f)中得到的序列執(zhí)行進(jìn)一步的處理。
數(shù)據(jù)項可以是單詞。第一和第二格式可以分別是第一種和第二種語言。數(shù)據(jù)項的輸入序列可以形成一個語法上完整的短語。數(shù)據(jù)項的輸入序列可以形成一個句子。
在步驟(c)中,可以在基礎(chǔ)實例序列的部分和與其配對的譯文的各個部分之間使用對準(zhǔn)來查找該部分。對準(zhǔn)可以被預(yù)先確定。
如果在實例序列中至少一個數(shù)據(jù)項匹配或者相應(yīng)于在輸入的不匹配部分中的至少一個數(shù)據(jù)項,那么步驟(d)可以包括選擇包括在該組中的該實例序列。
步驟(e)可以包括對于在該組中的輔助實例,識別輔助實例的相應(yīng)于輸入不匹配部分的那一部分,以及使用與輔助實例配對的相應(yīng)的譯文部分,以在備選項中形成可能的譯文之一。
預(yù)先確定的選擇算法可以包括為備選項中至少一個譯文中的每一個都分配給譯文一個優(yōu)選值,該優(yōu)選值依賴于至少一個從中導(dǎo)出譯文的輔助實例而確定。
可以依賴于在輸入序列和至少一個輔助實例中的每一個之間的比較來確定優(yōu)選值。
可以通過向這樣的比較或每一個這樣的比較分配一個權(quán)重,以及以預(yù)先確定的方式合并一個(或多個)所分配的權(quán)重來確定優(yōu)先值。
可以依賴于數(shù)據(jù)項或者在比較中的輸入序列和輔助實例所共有的變化的數(shù)目來分配權(quán)重。
可以依賴于一個或者多個下面的輸入序列和輔助實例所共有的數(shù)據(jù)項屬性來分配權(quán)重共同的數(shù)據(jù)項在序列中的位置;在預(yù)先確定的語言資料庫中共同數(shù)據(jù)項的頻率;共同數(shù)據(jù)項和輸入的不匹配的部分的共同出現(xiàn)頻率;共同出現(xiàn)頻率與由共同數(shù)據(jù)項的頻率預(yù)測的頻率之間的偏差。
可以依賴于相對于不匹配的部分的共同數(shù)據(jù)項在序列中的位置來分配權(quán)重。
一個(或多個)分配的權(quán)重可以通過求和而進(jìn)行合并。
在一個實例中,在輸入的不匹配部分中的一個(或多個)數(shù)據(jù)項不包括在比較中。
可以依賴于翻譯基礎(chǔ)和與至少一個輔助實例中的每一個配對的譯文之間的比較來確定優(yōu)選值。
預(yù)先確定的選擇算法還可以包括根據(jù)一個(或多個)分配的優(yōu)選值,從備選項中選擇譯文。
優(yōu)選值可以被分配給備選項中的譯文或每一個譯文。
可以依賴于從中導(dǎo)出譯文的輔助實例或每一個輔助實例來確定優(yōu)選值。
預(yù)先確定的選擇算法可以允許人工干預(yù)以影響所選擇的譯文。
該方法可以包括,其中在步驟(f)不能選擇合適的譯文,將輸入的不匹配的部分細(xì)分為大量的輸入不匹配部分,以及識別相應(yīng)的各個基礎(chǔ)實例不匹配部分,并對每個不匹配部分執(zhí)行步驟(c)到(f)。
該方法可以包括,其中在步驟(a)不能查找到合適的基礎(chǔ)實例,將輸入序列細(xì)分為大量的輸入子序列,對于每個這樣的子序列執(zhí)行步驟(a)到(f),并且合并從步驟(f)中得到的結(jié)果以在步驟(g)中產(chǎn)生輸出序列。
該存儲器可以包括分別應(yīng)用在步驟(a)和步驟(d)中的分離存儲器。在根據(jù)下面所描述的本發(fā)明的第二方面的裝置中,這些存儲器的第一個可以形成或者不形成該裝置的一部分。
根據(jù)本發(fā)明的第二方面,提供了一種設(shè)備,通過使用一個存儲器,其包括大量第一格式的實例序列每一個實例序列與第二格式的譯文相配對,將第一格式的數(shù)據(jù)項輸入序列翻譯為第二格式的數(shù)據(jù)項輸出序列,該設(shè)備包括用于根據(jù)輸入序列和存儲器中大量實例序列中的每一個的比較,從存儲器中選擇基礎(chǔ)實例序列,并使用相配對的譯文作為譯文基礎(chǔ)的裝置;用于識別輸入序列的不同于基礎(chǔ)實例序列的相應(yīng)部分的那一部分的裝置,這些部分分別被指定為輸入以及基礎(chǔ)實例不匹配的部分的裝置;用于查找相應(yīng)于基礎(chǔ)實例不匹配的部分的譯文基礎(chǔ)的那一部分的裝置;用于使用輸入的不匹配的部分來從存儲器中選擇一組輔助實例序列的裝置;用于從該組輔助實例序列中確定相應(yīng)于輸入的不匹配部分的可能譯文備選項的裝置;用于基于預(yù)先確定的選擇算法從備選項中選擇譯文,并使用所選擇的譯文來替換由查找裝置查找的那一部分的裝置;用于使用選擇裝置的結(jié)果作為數(shù)據(jù)項輸出序列的基礎(chǔ)的裝置。
根據(jù)本發(fā)明的第三方面,提供了一種翻譯存儲器系統(tǒng),其包括根據(jù)本發(fā)明第二方面的設(shè)備。
根據(jù)本發(fā)明的第四方面,提供了一種計算機(jī)程序,當(dāng)在計算機(jī)上運行該程序時,使得計算機(jī)執(zhí)行根據(jù)本發(fā)明第一方面的方法。
根據(jù)本發(fā)明的第五方面,提供了一種計算機(jī)程序,當(dāng)將其裝載到計算機(jī)上時,使得計算機(jī)分別成為根據(jù)本發(fā)明第二方面或第三方面的設(shè)備或系統(tǒng)。
計算機(jī)程序可以被裝載在一個載體介質(zhì)上。載體介質(zhì)可以是一個傳送介質(zhì)。載體介質(zhì)可以是存儲介質(zhì)。
附圖描述將通過實施例,給出附圖的參考,其中
圖1是一個說明具體實施本發(fā)明的翻譯設(shè)備的示意圖;圖2是一個示出由圖1中的翻譯設(shè)備執(zhí)行的步驟的流程圖;圖3是一個說明用在本發(fā)明實施例中冪集數(shù)據(jù)結(jié)構(gòu)的示意圖;圖4說明在本發(fā)明實施例中,在輸入和基礎(chǔ)例句之間進(jìn)行相應(yīng)的確定的實例;圖5說明在圖4中所示的實例的翻譯計劃;圖6是一個詳細(xì)說明在本發(fā)明實施例中執(zhí)行的步驟的流程圖,以確定輸入的不匹配的語段的合適的譯文;以及圖7說明本發(fā)明實施例的操作的另一個例子。
具體實施例詳細(xì)描述這里將描述具體實施本發(fā)明的一種方法和設(shè)備,用于將源語言的輸入句子翻譯為目標(biāo)語言的輸出句子。圖1是一個示意圖,用于說明具體實施本發(fā)明的翻譯設(shè)備1的模塊結(jié)構(gòu),以及圖2是一個顯示在該實施例中由翻譯設(shè)備1執(zhí)行的步驟的流程圖。
翻譯設(shè)備1包括用于接收源語言中的輸入句子的輸入部分3,以及用于輸出翻譯后的目標(biāo)語言中的輸出句子的輸出部分15。如下面將要解釋的,執(zhí)行翻譯所用到的存儲器17包括大量的與其目標(biāo)語言譯文配對的源語言例句。翻譯設(shè)備1也包括一個歸類器(lemmatiser)/標(biāo)記器(tagger)部分5,一個檢索部分7,一個對應(yīng)器部分9,一個翻譯計劃器部分11以及一個按順次安置在輸入部分3和輸出部分15之間的翻譯器部分13。如下面進(jìn)一步所解釋的那樣,翻譯設(shè)備1也包括一個索引器部分19,其中含有一組索引21,以及一個含有一組對準(zhǔn)25的單詞對準(zhǔn)器部分24。
在步驟S1,一個源語言句子被引入到輸入部分3,繼而被傳送到歸類器/標(biāo)記器部分5,該歸類器/標(biāo)記器部分5分析該句子以及基于上述分析執(zhí)行各種預(yù)處理。如果源語言不是通過空格來分隔單詞,那么對輸入句子進(jìn)行分段。在這個階段也對輸入句子進(jìn)行詞法分析。詞法分析包括設(shè)置標(biāo)記,其中每一個片段被分配一個或者多個與片段相關(guān)的詞性(例如名詞、過去分詞、從屬連詞)的可能部分,以及確定每個單詞的引用或詞典形式。在這個階段的末尾,輸入句子已經(jīng)被變換為一個查詢項的列表,它包括單詞、引用形式或者詞條(后者是詞典形式和詞類的結(jié)合)、或者它們的一些結(jié)合。
在步驟S2,根據(jù)輸入句子和來自存儲器17的大量例句的每一個的比較,從存儲器17中選擇基礎(chǔ)實例,并且與其相配對的譯文被用作在下面將要描述的處理過程中的后續(xù)步驟的譯文基礎(chǔ)。該確定基礎(chǔ)實例的方法對于本發(fā)明實施例的整個操作來說不是重要的,但是,在本實施例中采用了一個兩個階段的方案,由查找部分7和對應(yīng)器部分9分別來執(zhí)行步驟S2的兩個階段。
不同于上面所描述的現(xiàn)有技術(shù)中的兩個階段方案,本實施例中第一階段借助于布爾檢索方案實現(xiàn)。不同于在US2004/0002848中公開的內(nèi)容,沒有使用以下的概念,諸如單詞頻率(TF),它是一個單詞在給定文檔中出現(xiàn)的頻率,以及逆文檔頻率(IDF),它是一個單詞出現(xiàn)在多個文檔的倒數(shù)的度量。由于檢索單位通常很小以致于除了停頓詞之外TF很少和整數(shù)(unity)不同,因此TF通常是不必要的。即使當(dāng)在特定的實例中,給定的輸入單詞的TF超過整數(shù),那么這也是一個典型的不希望的復(fù)雜的源,而不是一個更好的相似性指示。由于共享高頻項的句子(在同樣的配置中)和由IDF強調(diào)的共享低頻項的句子都有可能是一個好的譯文基礎(chǔ),因此IDF在確定基礎(chǔ)實例中通常也是不重要的。
在步驟S2選擇基礎(chǔ)實例的第一階段,檢索部分7查閱索引21,所述索引21為輸入句子中的每一個查詢項目指定一個存儲器17中的包含該查詢項目的實例列表。這個列表被稱作記錄列表。索引21由索引器部分19創(chuàng)建并保持。一些稱作停頓詞的術(shù)語,在許多實例中出現(xiàn),被用作索引項,但在這個階段可以忽略。出現(xiàn)在任何記錄列表中的所有實例的聯(lián)合被確定,并且對于這些示例的每個實例確定其出現(xiàn)在哪一個記錄列表,也就是說其包含哪一個查詢項。從輸入查詢項的子集映射到包含該子集的實例的數(shù)據(jù)結(jié)構(gòu)被構(gòu)建。該數(shù)據(jù)結(jié)構(gòu)被稱作“冪集”數(shù)據(jù)結(jié)構(gòu)。
圖3說明了為輸入短語“electronics engineering degree”而構(gòu)建的冪集數(shù)據(jù)結(jié)構(gòu)。冪集數(shù)據(jù)結(jié)構(gòu)包括鏈接到各個記錄列表25-1到25-7的大量的冪集元素23-1到23-7。一個冪集元素指定出現(xiàn)在輸入短語中的一個或多個單詞的子集,并且該冪集元素相關(guān)的記錄列表包含存儲器17中的所有實例的一個列表,其包含在冪集元素中指定的以任意詞序并且不必要相鄰的所有單詞。
例如,在圖3中冪集元素23-1包括單個單詞“electronics”,與其相關(guān)的記錄列表25-1包括存儲器17中包含單詞“electronics”的所有實例的列表。冪集元素23-5包含單詞“electronics”和“engineering”,與其相關(guān)的記錄列表25-5包括存儲器17中包含單詞“electronics”和單詞“engineering”的所有實例的列表(不論這兩個單詞在該詞序上是否相鄰)。冪集元素23-7包含單詞“electronics”、“engineering”以及“degree”,與其相關(guān)的記錄列表25-7包括存儲器17中包含每個單詞“electronics”、“engineering”以及“degree”的所有實例的列表(不論這三個單詞在該詞序上是否相鄰)。
在圖3中也說明了包括了單詞“electronics”的冪集元素的子集27。如同下面較詳細(xì)解釋的,當(dāng)試圖確定該單詞“electronics”的譯文時,檢查該子集。通常,在冪集元素中其他的單詞(如果有的話)作為語境術(shù)語,并且冪集元素越大,對最終譯文的影響程度就越大。
最后,在步驟S2的第一階段,通過使用輸入句子的冪集數(shù)據(jù)結(jié)構(gòu),為了更加詳細(xì)的計算輸入句子的相似性而選擇大量的實例。以查詢項的最大集合開始(即,最大的冪集元素),選擇在相關(guān)的記錄列表中的實例以進(jìn)行更詳細(xì)的分析??紤]查詢項的日益較小的子集(即日益較小的冪集元素),直到為了更詳細(xì)分析而選擇的實例的數(shù)量超過某閾值,或者子集的基數(shù)(cardinality)低到某閾值以下。在這個階段,子集僅通過其基數(shù)而不是例如IDF之類的其他值進(jìn)行排序。
而后,每一個所選擇的實例被傳送到步驟S2的第二階段,該階段是由對應(yīng)器部分9執(zhí)行。對于每一個接收到的實例,對應(yīng)器部分9計算輸入句子和實例之間的最長共同子序列(LCS)。兩個符號串的LCS(這里“術(shù)語”包括停頓詞)是在兩個字符串中以同樣的順序出現(xiàn)的最長的符號序列,盡管不是必須相鄰(參見例如,Gusfeld的“Algorithms on Strings,Trees and Sequences”(在字符串、樹形和序列上的算法),CUP1997)。通過使用在其它句子中與匹配的語段相配對的在一個句子中的每一個匹配的語段,或者使用在其它句子中與不匹配的語段相配對的在一個句子中的每一個不匹配的語段,LCS定義在輸入和例句中的可替換的“匹配”和“不匹配”語段的一個序列。
因此,與現(xiàn)有技術(shù)相對比,確定相似性的第二階段是基于LCS的計算而不是編輯距離。LCS相對于編輯距離以及其他字符串相似性的度量的一個優(yōu)點是LCS定義一個在輸入字符串和實例字符串之間的對應(yīng),對應(yīng)是在兩個字符串中的一對語段從而使得兩個字符串沿它們的長度劃分為可替換的匹配/不匹配語段。在文獻(xiàn)中對應(yīng)(correspondence)經(jīng)常被稱作對準(zhǔn)(alighment),但是在這里不同的術(shù)語被用來在不同語言的句子間將它和對準(zhǔn)進(jìn)行區(qū)別??兆址辉试S出現(xiàn)在任何一方。
在圖4中示出了實例的對應(yīng),其中輸入句子是“Mr.Sharp wasawarded a degree from Oxford University”,而所選擇的例句是“he was awarded a doctorate from Cambridge University in1972”。匹配的語段是“was awarded a”、“from”和“University”,其他的部分是不匹配的語段(在圖4中標(biāo)記為29-1到29-4)。不匹配語段間的對應(yīng)顯示在圖4中。
可替換的匹配和不匹配語段的序列而后被輸入到一個計分函數(shù),該函數(shù)量化兩個句子的相似度。一個可能的計分函數(shù),其優(yōu)選長的匹配語段以及短的不匹配語段,如下所示similarity(Q,X)=Σi=1m(length(qi))2-Σj=1u(length(qi)+length(xi)2)2length(Q)]]>其中Q是輸入句子;X是例句;m是對應(yīng)中匹配語段的數(shù)量;qi是第i個匹配語段;u是對應(yīng)中不匹配語段的數(shù)量;qj是第j個輸入的不匹配語段;以及xj是第j個不匹配語段的實例;
這樣的度量也可以被改變以利于各種對應(yīng)的特征。例如,一項也可以被包括在上面的等式中,該項提供了一個較高相似性的分?jǐn)?shù),這里兩方面的不配對語段具有相似長度。也存在幾種途徑,其中能夠使得相似性計算對于輸入句子和例句的語言學(xué)內(nèi)容更加敏感。利于在句法結(jié)構(gòu)上相似的不匹配語段的一個項能夠被包括。如果查詢項是詞條,那么能夠在一個詞類序列中進(jìn)行不匹配的語段相似性比較。如果可以獲得詞典,那么也可以包括語義的相似性或者近似性的度量。
如果沒有能夠查找到十分相近的實例,例如,相似性分?jǐn)?shù)沒有超過任何例句的確定閾值,那么系統(tǒng)可以不返回應(yīng)答。在一個交互性環(huán)境中(典型的用于翻譯存儲系統(tǒng)),或者另一個翻譯模塊可以在多引擎環(huán)境中提供譯文,這是一個可以接受的響應(yīng)??梢赃x擇的是,系統(tǒng)可以應(yīng)用各種操作以將輸入句子劃分為能夠被獨立翻譯的部分。例如,在上面的相似性表達(dá)式的一個微小的變化中,第一個和最后的不匹配語段排除在外(“末端自由”(ends-free)變化),允許局部相似的實例的檢測,這些局部相似的實例能夠被獨立地被翻譯并利用EMBT技術(shù)合并。
如上面所提到的,選擇最高分?jǐn)?shù)的例句,并且如同參照圖2中步驟S3到S9將描述的那樣,與其配對的目標(biāo)語言譯文被用做由翻譯計劃器部分11和翻譯器部分13分別執(zhí)行的翻譯計劃以及譯文的譯文基礎(chǔ)。
在步驟S3,譯文計劃器部分11識別輸入句子的不同于基礎(chǔ)例句的相應(yīng)部分的那一部分,這些部分分別被稱作輸入以及基礎(chǔ)實例的不匹配語段。在這個實施例中,為輸入句子和基礎(chǔ)實例進(jìn)行識別不匹配語段的任務(wù)將由如上面所述的對應(yīng)器部分9來執(zhí)行,并且由此這個任務(wù)不需要由翻譯計劃器部分11重復(fù)。因此,在步驟S3中,基于對應(yīng)器部分9的先前分析,翻譯計劃器部分11識別一個輸入不匹配語段以及相應(yīng)的基礎(chǔ)實例不匹配語段。如果對應(yīng)器部分9已經(jīng)先前識別了多于一個的不匹配語段,那么一個單個的這樣的不匹配語段被選擇以進(jìn)行當(dāng)前的迭代,在后續(xù)的迭代該語段移到另外的不配對語段。
在步驟S4,翻譯計劃器部分11查找在步驟S2中選擇的目標(biāo)語言翻譯基礎(chǔ)的部分,該部分對準(zhǔn)于基礎(chǔ)實例不匹配語段。翻譯計劃器部分11把該部分由輸入不匹配語段的譯文來替換記錄在譯文計劃中。使用單詞對準(zhǔn)器24將源語言句子中的單詞或短語與目標(biāo)語言句子中的單詞或短語進(jìn)行對準(zhǔn)的方法是不重要的,并且完成該方法的技術(shù)易于在上面參照的現(xiàn)有技術(shù)中查找到。實例在比單詞更高的單元上被對準(zhǔn)的程度越大,準(zhǔn)確性和覆蓋范圍將被高的越多。
在這個階段,不匹配的語段被擴(kuò)展以包括發(fā)生在同一個對準(zhǔn)中的任意相鄰的匹配片段。例如,如果輸入是“railway strike”并且基礎(chǔ)實例包括“general strike”,那么在翻譯基礎(chǔ)中與單個的日文單詞“genesuto”對準(zhǔn),后者必定由不匹配的“railway”和匹配的“strike”的翻譯替換。因此,根據(jù)步驟S4的對準(zhǔn)分析,步驟S4和步驟S3一起有效地操作以修正在步驟S3中識別的輸入句和基礎(chǔ)實例的不匹配語段。
翻譯計劃器部分11也可以用于確定在更復(fù)雜或者特殊的情況下所采取的行為,并且能夠配置該行為作為可獲得的什么知識、在特定的用法中(例如交互性TM、多引擎等等)什么輸出是合適的以及其他的參數(shù)的基礎(chǔ)。
如下面參照步驟S8描述的那樣,對每一個不匹配語段重復(fù)步驟S3和步驟S4,并且這導(dǎo)致完全翻譯計劃產(chǎn)生最終譯文,所述完整翻譯計劃陳述如何處理在翻譯基礎(chǔ)中與輸入不匹配語段對準(zhǔn)的所有部分。在圖5中說明了這樣的一個完整翻譯計劃,其是基于上面參照圖4說明的實例。顯示在圖5中的是譯文基礎(chǔ)的四個部分31-1到31-4,其各自對應(yīng)于輸入句以及基礎(chǔ)例句的四個不匹配語段29-1到29-4。由翻譯計劃器部分13創(chuàng)建的翻譯計劃指示翻譯基礎(chǔ)的31-1部分(“彼”,其相應(yīng)于來自基礎(chǔ)實例不匹配語段29-1中的“he”)將要被來自相應(yīng)的輸入不匹配語段29-1中的“Mr Sharp”的譯文替換;翻譯基礎(chǔ)的31-2部分(“博士號”,其相應(yīng)于來自基礎(chǔ)實例不匹配語段29-2中的“doctorate”)將要被來自相應(yīng)的輸入不匹配語段29-2中的“degree”的譯文替換;翻譯基礎(chǔ)的31-3部分(“ケンブリツシ”,其相應(yīng)于來自基礎(chǔ)實例不匹配語段29-3中的“Cambridge”)將要被來自相應(yīng)的輸入不匹配語段29-3中的“Oxford”的譯文替換;由于相應(yīng)的輸入不匹配語段29-4為空,因而翻譯基礎(chǔ)的31-4部分(“1972年”,其相應(yīng)于來自基礎(chǔ)實例不匹配語段29-3中的“in 1972”)將要被刪除。
盡管步驟S3和S4進(jìn)行到由翻譯器部分13翻譯之前,對于每個不匹配語段,如圖中說明的那樣,重復(fù)步驟S3和S4以創(chuàng)建一個整體的翻譯計劃,然而在本實施例中,在步驟S3和步驟S4中為每個迭代設(shè)置一個涉及單個不匹配語段的“部分”翻譯計劃,而后立即使其傳送到翻譯器部分13以在步驟S5到S7中進(jìn)行處理(下面將要描述)。由此圖5示出了四個這樣的“部分”翻譯計劃。
對于傳送到翻譯器部分13的特定的部分翻譯計劃,首先尋求對于整個的輸入不匹配語段的譯文,并且如果有一個語段不能夠被查找到那么該語段被劃分為子集并按順序獨立地查找這些子集的譯文。為了方便,當(dāng)前被翻譯的輸入不匹配語段的子集在這里被稱作“焦點語段(focus stretch)”,其包括一個或者多個“焦點項”。“焦點語段”可以是整個輸入不匹配語段。
在步驟S5,翻譯器部分13使用輸入焦點語段以從存儲器17中選擇一組“輔助實例”的句子。一個輔助實例是一個在存儲器17中的包括一個或者多個焦點項的例句。存儲器17中包含焦點項的例句在上面描述的與步驟2相關(guān)的初始檢索階段期間已經(jīng)被確定,并且所述例句反映在如參考圖3所說明的冪集數(shù)據(jù)結(jié)構(gòu)中,這將在下面參考圖6的步驟T1得到解釋。
在步驟S6,根據(jù)輔助例句組來確定對應(yīng)于輸入焦點語段的可能的譯文T的備選項,例如根據(jù)焦點語段和輔助實例之間的對應(yīng)和輔助實例與其相關(guān)的目標(biāo)語言譯文之間的對準(zhǔn)。在步驟S7,根據(jù)預(yù)先確定的選擇算法(下面所描述的)來從譯文T的備選項中選擇譯文,并且所選擇的譯文被用在步驟S9以替換在步驟S4中查找的部分。
現(xiàn)在,將參照圖6中的流程圖提供步驟S5到S7進(jìn)一步的細(xì)節(jié)。
圖6的步驟T1相應(yīng)于步驟S5,并且包括檢索包含焦點語段中的焦點項FT在內(nèi)的冪集元素。例如,參考圖3中示出的實例,如果焦點語段包括單個的焦點項“electronics”,那么冪集元素23-1、23-5、23-6和23-7的子集27將被選擇,以使一組輔助例句被限定在相關(guān)的記錄列表25-1、25-5、25-6和25-7中。如上面參照步驟S6所提及的,這些輔助例句限定可能譯文T的備選項。
在備選項中的譯文T是一個在輸入句子中的焦點項的譯文,其是由焦點語段和輔助實例之間的對應(yīng)以及輔助實例和與其相關(guān)的目標(biāo)語言譯文之間的對準(zhǔn)來確定。例如,一個焦點項“atmosphere”可以導(dǎo)致一些在環(huán)繞地球的物質(zhì)的意義上包含單詞“atmosphere”的輔助實例,以及在語氣或者感情的意義上包含該單詞的一些其它的實例;這兩個意義有可能將與不同的譯文相關(guān),導(dǎo)致對于焦點項“atmosphere”的譯文T的備選項。在備選項中的譯文稱作“輔助譯文”。
現(xiàn)在將說明上面參照步驟S7提到的預(yù)先確定的選擇算法。首先將提出該算法的一個全面的解釋,接著將參照圖6中所示的步驟給出在該實施例中該算法如何被實現(xiàn)的一個更加詳細(xì)的解釋。
一些輔助例句可以包括來自查詢的其他項,所述項出現(xiàn)在最佳實例中并且在基礎(chǔ)中具有譯文。即使當(dāng)這些在輸入句子中的檢索項自身不被翻譯,通在輸入句子和輔助例句之間共有的檢索項的出現(xiàn)進(jìn)一步證明了與輔助例句相關(guān)的譯文是正確的。這樣的檢索項在輸入句子中甚至可以與被翻譯的焦點語段相去很遠(yuǎn)。
對于這樣的證據(jù)所給的權(quán)重依賴于檢索詞是如何共有以及在句子中以及在焦點語段中要被翻譯的原文是如何接近的結(jié)合。例如,在試圖翻譯單詞“speech”(具有可選擇的意義,如公開行為或者語言現(xiàn)象)時,通用單詞“make”僅在非常接近時是一個公開行為意義的好的指示器,而一個更少見的單詞例如“phonetic”是一個即使更遠(yuǎn)時其他意義的更好的指示。但是任何特定的一條證據(jù)都能夠被誤導(dǎo)(考慮‘his speech mentioned phonetics’)。為了最高的精度,多種來源的證據(jù)將被結(jié)合起來。
在本實施例中,對于具有焦點項FT的特定的焦點語段,通過為一個或者更多的的輔助實例的每一個分配權(quán)重來實現(xiàn)對于那些焦點項FT的特定的譯文T的證據(jù)的結(jié)合,該輔助實例其特征是在其目標(biāo)語言方的譯文T,將這些權(quán)重相加goodness(T,FT,si)=Σse∈S(T)weight(se,si,FT),]]>其中g(shù)ood(T,F(xiàn)T,si)是對于輸入字符串si中焦點項FT的譯文T的優(yōu)良的度量;S(T)是在其目標(biāo)語言方的具有譯文T的實例的子集;并且weight(se,si,F(xiàn)T)是給予關(guān)于焦點術(shù)語FT的實例se和輸入si的權(quán)重。
權(quán)重本身是關(guān)于在輸入句子和實例的源語言方中的焦點項的語境中項的分布函數(shù)weight(se,si,FT)=Πct∈C(se,si)term_weight(ct,FT,se)×term_weight(ct,FT,si),]]>其中,C(se,si)是由輸入句子和例句共享的語境項的集合;term_weight(ct,F(xiàn)T,s)是在關(guān)于FT的字符串s中由語境項‘ct’提供的權(quán)重,如下term_weight(ct,FT,s)=d(ct,FT,s)1/(k1*log(freq(ct)/N)+K2)]]>其中term_weight(ct,F(xiàn)T,s)是在字符串‘s’中在距最近的焦點項FT的距離為d(ct,F(xiàn)T,s)的單詞位置上的的語境項‘ct’的權(quán)重;freq(ct)是在N個文檔的集合中語境項‘ct’的頻率;并且k1和k2是用來精調(diào)項權(quán)重的權(quán)重因子。
任何頻率的語境項具有一個2個相鄰于焦點項的權(quán)重,但是所述權(quán)重對于高頻率項隨著距離迅速下降。一個組語境項的權(quán)重是在輸入句和實例中的權(quán)重的乘積。
返回圖6的流程圖,如上面解釋的那樣,已經(jīng)在步驟T1中選擇了一組冪集元素。在輸入的情況下,對于在冪集元素中的每個語境項‘ct’,term_weight(ct,F(xiàn)T,si)的值僅需要被計算一次。參考作為一個實例的在圖3中所示的冪集元素的子集27,對于每個冪集元素,焦點項FT是“electronics”,其中冪集元素中的任何其他單詞構(gòu)成語境項‘ct’。例如,對于冪集元素23-7,語境項‘ct’是“engineering”和“degree”。使用上面用于term_weight(ct,F(xiàn)T,si)的公式,在步驟T1中選擇的冪集元素在步驟T2通過給予它們的語境項的權(quán)重,按照權(quán)重遞減的順序被排序。
而后按照在步驟T2中分配的順序來選擇這些冪集元素,并且考慮所述冪集元素所映射到的記錄列表中個別實例的權(quán)重。在步驟T3,選擇下一個冪集元素以進(jìn)行分析(或者用于第一個迭代的第一個冪集元素),并且在步驟T4中,檢索在與其相關(guān)的記錄列表中的下一個輔助實例(或者用于第一個迭代的第一個輔助實例)。
在計算用于每個實例的表達(dá)式weight(se,si,F(xiàn)T)之前,首先確定實例是否被排除在考慮之外,或者至少是延遲考慮。這在步驟T5中通過計算在實例和輸入的焦點項的配置之間的相似度來確定。除非這兩者是接近相似的,否則其中一個的譯文不太可能是另一個的好的譯文。為了確定相似度,使用上面描述的“末端自由”公式來計算在實例和包括焦點項的最小語段之間的對應(yīng)。這能夠服從于一個相當(dāng)高的閾值,而放棄任何低于閾值的實例以使處理返回到步驟T4以檢索下一個實例。如果沒有實例通過閾值,那么焦點項將在子集中被翻譯,并且如每個這樣子集所考慮的一樣,將來自輸入未匹配語段的其它項當(dāng)作語境項。
如果一個實例超過閾值,那么處理繼續(xù)進(jìn)行到步驟T6,其中考慮語境項的作用。使用上面的公式獲得一個用于實例的整體權(quán)重,并且這個權(quán)重被添加到相應(yīng)于該實例的目標(biāo)語言方的對于焦點項的譯文T的權(quán)重。
確定不配對語段譯文的處理能夠停止在各個點。例如,在步驟T7,確定其權(quán)重已經(jīng)被增加的譯文是否已經(jīng)達(dá)到或者超過了某一閾值。如果是,那么在步驟T8中選擇該譯文并且處理轉(zhuǎn)到步驟T13。如果不是,處理繼續(xù)到步驟T9。
在T9中,確定所考慮的實例的數(shù)量是否到達(dá)了某一閾值。如果不是,那么處理返回到步驟T4以處理下一個實例。如果是,進(jìn)而確定在步驟T10中譯文是否已經(jīng)被查找到。如果是,那么在步驟T11中根據(jù)哪一個具有最高的權(quán)重來選擇最好的譯文并且處理轉(zhuǎn)到步驟T13;如果不是處理轉(zhuǎn)到步驟T12。
由于通常來說一起翻譯兩個或者更多項的事實是有利的,因而如果找到了對于給定的焦點組的任意譯文,那么在考慮這個而不處理焦點項的較小子集之后,處理通常停止。然而,如果沒有較大的焦點組的譯文,將考慮較小的子集,并且這里語境項的作用將變得更為重要。如上面提到的,如果在查詢和實例之間的相似度不足,那么在一個迭代中的焦點項可以成為后一個迭代中的語境項。
在步驟T12,確定是否存在任何進(jìn)一步的冪集元素需要處理。如果是,處理返回到步驟T3以選擇下一個冪集元素,并且如果不是,處理繼續(xù)到步驟T13。(如果在要被處理的不匹配語段內(nèi)存在進(jìn)一步的焦點語段,那么在步驟T13執(zhí)行之前對于這些進(jìn)一步的焦點語段重復(fù)步驟T1到T12。)步驟T13對應(yīng)于圖2中的步驟S8,其中確定是否已經(jīng)考慮了所有的不匹配語段。如果不是,則處理返回到圖2的步驟S3,為下一個不匹配語段做準(zhǔn)備。如果是,那么焦點語段的譯文完成。
對于每個不匹配語段,在步驟S7中為不匹配語段選擇的譯文被用來替換在步驟S4中查找的部分,導(dǎo)致在步驟S10一個完整的輸出目標(biāo)語言句子,其由輸出部分15提供。如果存在任何不能完整被翻譯或者完全不能被翻譯的不匹配語段,那么就需要人工介入以根據(jù)適當(dāng)?shù)目紤]編輯輸出句子。如果必要,在任何情況下句子都能夠被提出以檢查和編輯。在這樣的編輯之后,輸出目標(biāo)語言句子本身能夠和源語言輸入句子一起被添加到存儲器17中以便以后使用;這由圖1中的從輸入部分15到存儲器17的返回路徑16來表示。
圖7說明了一個實例,其中具體實施本發(fā)明的翻譯系統(tǒng)1已經(jīng)被用于查找輸入句子“That restaurrant offers a good atmosphere”的譯文。在步驟S2中選擇基礎(chǔ)例句“That restaurant offers a goodservice”,以及與其配對的被用作翻譯基礎(chǔ)的譯文“そのレストランはサ一ビスがいい”。在步驟S 3確定單個的輸入不匹配語段以及相應(yīng)的基礎(chǔ)實例不匹配語段分別是“atmosphere”和“service”。在步驟S4中,在相應(yīng)于基礎(chǔ)實例不匹配語段“service”的翻譯基礎(chǔ)中查找對準(zhǔn)部分“サ一ビス”,并且在翻譯計劃中對該對準(zhǔn)部分進(jìn)行標(biāo)記以作為輸入不匹配語段中的“atmosphere”的合適譯文的替換。在步驟S5和S6中,“atmosphere”的譯文的備選項(輔助譯文)被確定包括“霧阱氣”和“大氣”。在步驟S7,根據(jù)上面描述的算法給這些輔助譯文分配優(yōu)選值,并選擇具有最高優(yōu)選值的“霧阱氣”作為譯文。在步驟S9,所選擇譯文“霧阱氣”被用于替換在步驟S4中查找的譯文基礎(chǔ)的對準(zhǔn)部分“サ一ビス”,使得輸出目標(biāo)句子“そのレストランは霧阱氣がいい”。
可以對上面描述的實施例進(jìn)行各種修改。例如,用于term_weight的公式能夠通過參數(shù)k1和k2以及在訓(xùn)練組上的優(yōu)選而得到精調(diào)。翻譯系統(tǒng)也包括簡單的分析程序,其中通過將單詞位置的距離替換為相關(guān)圖中距離的度量來修改用于term_weight的公式。用于term_weight的公式也可以通過用語境項和一個或多個焦點項的共同出現(xiàn)的度量來替換語境項的原始的正常頻率而得到修改。輔助實例的權(quán)重也可能依賴于語境項是否以同樣的方式在基礎(chǔ)實例和輔助實例中被翻譯,其中在兩種情況下不同譯文的出現(xiàn)指示該輔助實例的權(quán)重應(yīng)當(dāng)降低。
盡管在上面描述了在步驟S2中,選擇單個的基礎(chǔ)實例,給予最高的相似性分?jǐn)?shù),但是選擇超過一個的基礎(chǔ)實例以進(jìn)行進(jìn)一步的分析當(dāng)然也是可能的,例如給予的最高的相似性分?jǐn)?shù)的這些實例。在這樣的情況下,每一個這樣選擇的基礎(chǔ)實例將經(jīng)歷參照步驟S3到S9描述的相同的翻譯處理,并且無論是給予最佳譯文的輸出句子將被選擇以用作步驟S10的輸出目標(biāo)語言句子,或者是能夠向翻譯系統(tǒng)1的用戶呈現(xiàn)譯文的備選項,這些備選項按順序排列以進(jìn)行選擇和/或者進(jìn)一步的編輯。
本發(fā)明的實施例通過允許檢索的例句在較多種方式上不同于輸入句子,對現(xiàn)有技術(shù)中的翻譯存儲器系統(tǒng)(例如WO99/57651)做了改進(jìn)。名稱和數(shù)量的種類被擴(kuò)展到任意成分,所述成分的譯文可以通過語境來確定,并且在整個譯文中所確定的譯文在恰當(dāng)?shù)狞c被取代。這增加了TM可應(yīng)用的輸入的范圍并且減少了將翻譯基礎(chǔ)轉(zhuǎn)化為正確的輸入譯文所需要的人工介入的總量。這些因素都改進(jìn)了TM對于翻譯器的實用性。
很明顯,在上面的實施例和現(xiàn)有技術(shù)的基于實例的MT系統(tǒng)中建立的翻譯過程是不同的。盡管如此,本發(fā)明的各個方面適用于一個具有有益效果的基于實例的MT系統(tǒng),這也是很明顯的。例如,用于結(jié)合輔助譯文的框架的不連續(xù)的對應(yīng)的使用將是一種用于避免依賴于對于輸入和實例的完全語法分析以及實例對的源語言和目標(biāo)語言方的基于語法的對準(zhǔn)的有益的方式。此外,用來確定最佳譯文的頻率和語境相似性的結(jié)合可以被應(yīng)用于在EBMT系統(tǒng)的操作內(nèi)的任何片段的翻譯并具有有益的效果。
在本發(fā)明實施例中,對應(yīng)的概念允許單個最佳實例作為語法模板。這限制了調(diào)用一些內(nèi)容但是保持高的精確度。該模板內(nèi)不匹配語段的譯文在適當(dāng)?shù)狞c被替換。即使當(dāng)在具有不同詞序的語言間翻譯時,例如,英語和日語,實例的完全的語法分析的提出是不必要的。然而,不匹配語段的語法分析在保持精確度的同時擴(kuò)展了該技術(shù)的應(yīng)用性。
本發(fā)明的一個實施例也提供了以下問題的解決辦法通過將關(guān)于特定譯文頻率的信息與確定每個譯文的語境適當(dāng)性的證據(jù)相結(jié)合,來選擇每個片段的最佳譯文?,F(xiàn)有技術(shù)沒有進(jìn)行這樣的結(jié)合即把關(guān)于用于給定的源語言短語的特定譯文頻率的信息與關(guān)于輸入和實例的相似性的信息進(jìn)行的結(jié)合,其中它按順序出現(xiàn)以獲得譯文的質(zhì)量因數(shù)的度量。
應(yīng)該理解的是,具體實施本發(fā)明的翻譯系統(tǒng)能夠以硬件或者軟件或其結(jié)合來實現(xiàn)。例如,本發(fā)明的實施例能夠在計算機(jī)程序的控制下執(zhí)行。這樣的程序能夠存儲在計算機(jī)可讀介質(zhì)中,或者能夠使用信號來具體實施,例如由因特網(wǎng)站點提供的可下載數(shù)據(jù)信號。所附的權(quán)利要求將解釋作為獨立地覆蓋計算機(jī)程序、或者作為在載波上的記錄、或者作為信號、或者以任何其他形式。
盡管上面描述的實施例涉及一種翻譯裝置,其中輸入是一個第一(源)語言的單詞序列(句子),輸出是一個第二(目標(biāo))語言的單詞序列(句子),但是應(yīng)該理解的是,該發(fā)明具有更寬闊的應(yīng)用,而不限于口語之間的翻譯。輸入可以是第一格式的數(shù)據(jù)項序列并且輸出可以是第二格式的數(shù)據(jù)項序列,其中數(shù)據(jù)項可以是任意類型的數(shù)據(jù)。
也應(yīng)該理解的是,用于確定基礎(chǔ)實例的實例存儲器可以不同于用于確定輔助實例的實例存儲器。例如,前者可能是一個獨立的、通用的TM系統(tǒng)的一部分,用來提供如上面描述的由翻譯計劃器部分11和翻譯器部分13使用的基礎(chǔ)實例。
權(quán)利要求
1.一種使用一個存儲器(17),其包括第一格式中的大量實例序列,每一個實例句子都與第二格式的其譯文相配對,把第一格式的數(shù)據(jù)項輸入序列(3)翻譯為第二格式的數(shù)據(jù)項輸出序列(15)的方法,該方法包括(a)根據(jù)輸入序列(15)和存儲器(17)中大量的實例序列中的每一個的比較,從存儲器(17)中選擇(S2)一個基礎(chǔ)實例序列,并使用與其配對的譯文作為翻譯基礎(chǔ);(b)識別(S3)輸入序列的不同于基礎(chǔ)實例序列的相應(yīng)部分(29-1到29-4)的那些部分(29-1到29-4),這些部分分別被指定為輸入和基礎(chǔ)實例不匹配部分;(c)查找(S4)相應(yīng)于基礎(chǔ)實例不匹配部分(29-1到29-4)的翻譯基礎(chǔ)的部分(31-1到31-4);(d)使用(S5)輸入不匹配部分來從存儲器(17)中選擇一組輔助實例序列;(e)從一組輔助實例序列確定(S6)相應(yīng)于輸入不匹配部分(29-1到29-4)的可能譯文的備選項;(f)根據(jù)預(yù)先確定的選擇算法從備選項中選擇(S7)一個譯文,并且使用(S9)所選擇的譯文來替換在步驟(c)中查找的部分;(g)使用(S10)步驟(f)的結(jié)果作為數(shù)據(jù)項輸出序列(15)的基礎(chǔ)。
2.如權(quán)利要求1所述的方法,其中對于在輸入序列中識別的大量的輸入不匹配部分,重復(fù)(S8)步驟(b)到(f)。
3.如權(quán)利要求2所述的方法,其中對于在輸入序列中識別的每個不匹配部分,重復(fù)(S8)步驟(b)到(f)。
4.如權(quán)利要求1、2或3所述的方法,其中在步驟(a)選擇的基礎(chǔ)實例序列是一個來自于存儲器(17)的、根據(jù)預(yù)先確定的緊密度量最緊密匹配于輸入序列(3)的實例序列。
5.如前述任意權(quán)利要求所述的方法,其中在步驟(b)中識別的基礎(chǔ)實例不匹配部分(29-1到29-4),以及在步驟(c)中查找的與其相應(yīng)的譯文基礎(chǔ)部分(31-1到31-4),可以是位于兩個相鄰的數(shù)據(jù)項之間的空序列,以便在步驟(f)中的替換是一個在該位置上的有效的插入。
6.如前述任意權(quán)利要求所述的方法,其中在步驟(f)中根據(jù)語境,所選擇譯文的詞法變體被用來替換在步驟(c)查找的部分。
7.如前述任意權(quán)利要求所述的方法,其中在用作數(shù)據(jù)項的輸出序列(15)之前,對從步驟(f)產(chǎn)生的序列執(zhí)行進(jìn)一步的處理。
8.如前述任意權(quán)利要求所述的方法,其中數(shù)據(jù)項是單詞。
9.如權(quán)利要求8所述的方法,其中第一和第二格式分別是第一和第二語言。
10.如權(quán)利要求9所述的方法,其中數(shù)據(jù)項的輸入序列形成一個語法上完整的短語。
11.如權(quán)利要求10所述的方法,其中數(shù)據(jù)項的輸入序列形成一個句子。
12.如前述任意權(quán)利要求所述的方法,其中在步驟(c)中使用在基礎(chǔ)實例序列的部分和與其配對的譯文的各個部分之間的對準(zhǔn)來查找部分(31-1到31-4)。
13.如權(quán)利要求12所述的方法,其中對準(zhǔn)是預(yù)先確定的。
14.如前述任意權(quán)利要求所述的方法,其中步驟(d)包括,如果在實例序列中至少一個數(shù)據(jù)項匹配或者對應(yīng)于輸入不配對部分(29-1到29-4)中至少一個數(shù)據(jù)項,那么選擇一個實例序列以包含在該組中。
15.如前述任意權(quán)利要求所述的方法,其中步驟(e)包括,為該中的輔助實例,識別該輔助實例的相應(yīng)于輸入不匹配部分(29-1到29-4)的部分,并且使用與輔助實例配對的譯文的相應(yīng)部分來形成備選項中的可能譯文之一。
16.如前述任意權(quán)利要求所述的方法,其中預(yù)先確定的選擇算法包括,為備選項中的至少一個譯文的每一個分配給譯文一個優(yōu)選值,該優(yōu)選值依賴于導(dǎo)出譯文的至少一個輔助實例而確定。
17.如權(quán)利要求16所述的方法,其中優(yōu)選值依賴于輸入序列和至少一個輔助實例中的每一個之間的比較而確定。
18.如權(quán)利要17求所述的方法,其中優(yōu)選值通過向這樣的比較或每一個這樣的比較分配權(quán)重并且將一個(或多個)所分配的權(quán)重以預(yù)先確定的方式合并而確定。
19.如權(quán)利要求18所述的方法,其中權(quán)重依賴于所比較的輸入序列和輔助實例之間共有的數(shù)據(jù)項或者變量的數(shù)量而分配。
20.如權(quán)利要求18或19所述的方法,其中權(quán)重依賴于輸入序列和輔助實例之間共有的數(shù)據(jù)項的下列屬性中的一個或多個而分配在共有數(shù)據(jù)項的序列中的位置;在預(yù)先確定的語言資料庫中共有數(shù)據(jù)項的頻率;共有數(shù)據(jù)項和輸入不匹配部分共同出現(xiàn)的頻率;以及共同出現(xiàn)的頻率和由共有數(shù)據(jù)項以及輸入不匹配部分(29-1到29-4)的頻率預(yù)測的頻率之間的偏差。
21.如權(quán)利要求20所述的方法,其中權(quán)重依賴于相對于不匹配部分(29-1到29-4)在共有數(shù)據(jù)項的序列中的位置而分配。
22.如權(quán)利要求18到21中任意一個所述的方法,其中一個(或多個)所分配的權(quán)重通過求和相合并。
23.如權(quán)利要求17到22中任意一個所述的方法,其中在輸入不匹配部分(29-1到29-4)中的一個(或多個)數(shù)據(jù)項沒有包括在比較中。
24.如權(quán)利要求16到23中任意一個所述的方法,其中優(yōu)選值依賴于在翻譯基礎(chǔ)和與至少一個的輔助實例的每一個配對的譯文之間的比較而確定。
25.如權(quán)利要求16到24中任意一個所述的方法,其中預(yù)先確定的選擇算法進(jìn)一步包括根據(jù)一個(或多個)分配的優(yōu)選值從備選項選擇譯文。
26.如權(quán)利要求16到25中任意一個所述的方法,其中優(yōu)選值被分配給配選項中的譯文或備選項中的每一個譯文。
27.如權(quán)利要求16到26中任意一個所述的方法,其中優(yōu)選值依賴于導(dǎo)出譯文的輔助實例或每一個輔助實例而確定。
28.如前述任意權(quán)利要求所述的方法,其中預(yù)先確定的選擇算法允許人工介入以影響所選擇的譯文。
29.如前述任意權(quán)利要求所述的方法,包括,其中在步驟(f)未能選擇合適的譯文,將輸入不匹配部分(29-1到29-4)細(xì)分為大量的輸入不匹配部分并識別相應(yīng)的各個基礎(chǔ)實例不匹配部分,并且對每個不匹配部分執(zhí)行步驟(c)到(f)。
30.如前述任意權(quán)利要求所述的方法,包括,其中在步驟(a)未能查找到合適的基礎(chǔ)實例,將輸入序列(3)細(xì)分為大量的輸入子序列,對每個這樣子序列執(zhí)行步驟(a)到(f),并將步驟(f)的結(jié)果相合并以在步驟(g)產(chǎn)生輸出序列。
31.如前述任意權(quán)利要求所述的方法,其中存儲器(17)包括分別用于步驟(a)和步驟(d)的分離存儲器。
32.一種使用一個存儲器,其包括第一格式中的大量實例序列,每個實例序列都與第二格式的其譯文相配對,把第一格式的數(shù)據(jù)項的輸入序列(3)翻譯為第二格式的數(shù)據(jù)項的輸出序列(15)的設(shè)備,包括裝置(7,9),用于根據(jù)輸入序列(15)和存儲器(17)中大量的實例序列中的每一個的比較,從存儲器(17)中選擇一個基礎(chǔ)實例序列,并使用與其配對的譯文作為翻譯基礎(chǔ);裝置(9,11),用于識別輸入序列(15)的不同于基礎(chǔ)實例序列的相應(yīng)部分(29-1到29-4)的那些部分(29-1到29-4),這些部分分別被指定為輸入和基礎(chǔ)實例不匹配部分;裝置(11),用于查找相應(yīng)于基礎(chǔ)實例不匹配部分(29-1到29-4)的翻譯基礎(chǔ)的部分(31-1到31-4);裝置(13),用于使用輸入不匹配部分(29-1到29-4)來從存儲器(17)中選擇一組輔助實例序列;裝置(13),用于從該組輔助實例序列中確定相應(yīng)于輸入不匹配部分(29-1到29-4)的可能譯文的備選項;裝置(13),用于根據(jù)預(yù)先確定的選擇算法從備選項中選擇一個譯文,并且使用所選擇的譯文來替換在查找裝置(13)中查找的部分;裝置(13),用于使用選擇裝置(13)的結(jié)果作為數(shù)據(jù)項的輸出序列(15)的基礎(chǔ)。
33.一種翻譯存儲器系統(tǒng)包括如權(quán)利要求32所述的設(shè)備。
34.一種計算機(jī)程序,當(dāng)在一個計算機(jī)上運行時,使得計算機(jī)執(zhí)行如權(quán)利要求1到31中任意一個所述的方法。
35.一種計算機(jī)程序,當(dāng)下載到計算機(jī)上時,使得計算機(jī)成為如權(quán)利要求32所述的設(shè)備或者如權(quán)利要求33所述的系統(tǒng)。
36.一種如權(quán)利要求34或35中所述的計算機(jī)程序,在一個載體介質(zhì)上執(zhí)行。
37.一種如權(quán)利要求36中所述的計算機(jī)程序,其中載體介質(zhì)是傳輸介質(zhì)。
38.一種如權(quán)利要求36中所述的計算機(jī)程序,其中裁體介質(zhì)是存儲介質(zhì)。
全文摘要
根據(jù)輸入句子和每例句的比較,選擇基礎(chǔ)例句,并且對應(yīng)譯文用作翻譯基礎(chǔ)。識別輸入句子的不同于基礎(chǔ)例句相應(yīng)部分的部分(S3),指定為輸入和基礎(chǔ)實例不匹配部分。查找與基礎(chǔ)實例不匹配部分對準(zhǔn)的譯文基礎(chǔ)部分(S4)。輸入的不匹配部分用于選擇輔助例句(S5)。相應(yīng)于輸入的不匹配部分的可能譯文的備選項從一組輔助例句中確定(S6)。基于預(yù)先確定的選擇算法從備選項中選擇譯文(S7),并且所選擇的譯文被用于替換(S9)先前查找的翻譯基礎(chǔ)部分。替換結(jié)果被用作輸出句子的基礎(chǔ)。該方法也可應(yīng)用于翻譯數(shù)據(jù)項序列。
文檔編號G06F17/30GK1801141SQ20051009227
公開日2006年7月12日 申請日期2005年6月24日 優(yōu)先權(quán)日2004年6月24日
發(fā)明者P·J·惠特洛克 申請人:夏普株式會社