專利名稱:命名實體翻譯的制作方法
相關(guān)申請的對照本申請要求2002年3月11日提交標(biāo)題為“命名實體翻譯(NAMED ENTITYTRANSLATION)”的美國臨時申請序號No.60/363443的優(yōu)先權(quán)。
關(guān)于聯(lián)邦資助研究的聲明這里描述的本發(fā)明是在國防高級研究計劃局(DARPA)準(zhǔn)許號no.N66001-00-1-8914下的工作執(zhí)行中進行的,由此政府對本發(fā)明具有一定權(quán)利,并服從公法96-517(35 U.S.C 202)的規(guī)定,其中訂約人選擇保留標(biāo)題。
背景本申請描述了涉及例如命名實體的翻譯的語言的機器翻譯的系統(tǒng)和技術(shù)。
命名實體短語以人名、組織、地點、時間短語和貨幣表達的形式按日地被引入新聞故事中。已可以獲得識別命名實體的各種技術(shù)。
發(fā)明內(nèi)容
本揭示內(nèi)容包括涉及將命名實體從源語言翻譯成目標(biāo)語言的系統(tǒng)和技術(shù)。根據(jù)一個方面,使用基于發(fā)音和基于拼寫的直譯模型生成從源語言到目標(biāo)語言的命名實體的可能的翻譯??梢栽谀繕?biāo)語言的單語資源中查找關(guān)于使用頻率的信息,且根據(jù)使用頻率信息可以提供包括至少一個可能的翻譯的輸出。
可以結(jié)合組合的基于發(fā)音和基于拼寫的直譯模型和新聞文集選擇性地使用雙語資源,允許用來自雙語資源的最小輸入執(zhí)行命名實體翻譯。使用上下文信息和/或被識別的可能的翻譯的子短語可用于擴展生成的翻譯候選對象列表。此外,一個或多個單語線索可用于幫助將生成的翻譯候選對象重新排名。所述的系統(tǒng)和技術(shù)可使得命名實體翻譯更有效,能處理全新的命名實體短語和范圍特定的命名實體,它們不能在雙語字典中被找到。
附圖概述
圖1示出使用命名實體翻譯的系統(tǒng)。
圖2示出實例性的命名實體翻譯系統(tǒng)。
圖3示出基于機器的命名實體的可能的翻譯的產(chǎn)生。
圖4示出基于機器的命名實體的可能的翻譯的產(chǎn)生,包括使用雙語資源。
圖5示出實例性的命名實體翻譯系統(tǒng)。
圖6示出基于機器的命名實體的可能的翻譯的產(chǎn)生,包括使用子短語識別擴展候選對象列表。
圖7示出基于機器的命名實體的可能的翻譯的產(chǎn)生,包括使用上下文信息擴展候選對象列表。
在附圖和以下的描述中闡述了一個或多個實例的細(xì)節(jié)。其它特點和優(yōu)點通過描述和附圖,并通過權(quán)利要求書變得顯而易見。
詳細(xì)描述在這里使用時,可互換地使用術(shù)語“命名實體”、“命名實體短語”和“短語”。命名實體是一個或多個單詞的組,它們通過名字識別實體。例如,命名實體可以包括人、組織、地點、日期和貨幣表達。此外,術(shù)語“電子文檔”和“文檔”表示一組電子數(shù)據(jù),包括存儲在文件中的電子數(shù)據(jù)和網(wǎng)絡(luò)上接收到的電子數(shù)據(jù)。電子文檔不必對應(yīng)于文件。文檔可存儲在保存其它文檔的文件的一部分中,在專用于討論中的文檔的單個文件中,或者在一組互相協(xié)調(diào)的文件中。術(shù)語“文本”表示字符數(shù)據(jù),它可以使用標(biāo)準(zhǔn)化的字符編碼方案進行編碼,諸如統(tǒng)一碼Unicode,ASCII,阿拉伯語(ISO),土耳其語(ISO),簡體中文(EUC),朝鮮語(ISO)等等。
圖1示出使用命名實體翻譯的系統(tǒng)100。系統(tǒng)100包括自然語言處理(NLP)系統(tǒng)120、諸如統(tǒng)計機器翻譯系統(tǒng)、交叉語言信息檢索(CLIR)系統(tǒng)或者問答(QA)系統(tǒng)。NLP系統(tǒng)120可以具有內(nèi)置命名實體翻譯系統(tǒng)110?;蛘撸琋LP系統(tǒng)120可以例如通過網(wǎng)絡(luò)130與命名實體翻譯系統(tǒng)110通信。
命名實體翻譯系統(tǒng)110可以是翻譯支持NLP系統(tǒng)120的命名實體的工具。機器翻譯系統(tǒng)可以將系統(tǒng)110用作部件來處理短語翻譯以便改善總的翻譯質(zhì)量。CLIR系統(tǒng)可以根據(jù)系統(tǒng)110提供的命名實體短語的翻譯識別有關(guān)文檔。QA系統(tǒng)可以受益于系統(tǒng)110,因為對許多仿真陳述(factoid)問題的回答包括命名實體(例如,對“誰”問題的回答通常包括人/組織,“哪里”問題包括地點,且“何時”問題包括時間表述)。
圖2示出實例性的命名實體翻譯系統(tǒng)150。源語言中的命名實體被提供給可能的翻譯發(fā)生器160。發(fā)生器160使用基于發(fā)音的直譯模型162和基于拼寫的直譯模型164以產(chǎn)生從源語言到目標(biāo)語言的可能的翻譯。這樣,單語源170(例如,通信網(wǎng)絡(luò)上可得的英語文檔)可用于幫助確定哪一個或哪些可能的翻譯被提供作為輸出。
此外,雙語源180也可以用于幫助確定將哪一個或哪些可能的翻譯提供作為輸出。雙語源180可以是雙語字典(例如,阿拉伯語-英語字典)。以下實例用于說明翻譯的一般方法,它產(chǎn)生這里描述的具體系統(tǒng)和技術(shù)。雖然本揭示內(nèi)容常常使用阿拉伯語和英語作為源語言和目標(biāo)語言,但所描述的系統(tǒng)和技術(shù)也可應(yīng)用于其它語言。
新聞文本中的命名實體短語的頻率反映與它們相關(guān)的事件的重要性。在翻譯國際上重要的新聞故事中的命名實體時,同一事件將頻繁地以包含目標(biāo)語言的許多語言進行報道。代替必須產(chǎn)生一個文檔中常具有許多不知道的單詞的命名實體的翻譯,有時找到類似于原始文檔但不必是原始文檔的翻譯的目標(biāo)語言文檔并隨后提取翻譯對于人來說是更容易的。
為了說明這種翻譯方法,考慮以下阿拉伯語摘錄中出現(xiàn)的命名實體 從中提取出該摘錄的阿拉伯語報紙文章是關(guān)于美國和北朝鮮當(dāng)局之間針對朝鮮戰(zhàn)爭期間陣亡美軍士兵的遺體搜索的協(xié)商。在由雙語發(fā)言人翻譯阿拉伯語文檔時, 和 被分別發(fā)聲以給出Chozin Reserve,Onsan和Kojanj。
在翻譯未知或不熟悉的名字時,可以查找討論相同主題的英語文檔并隨后提取翻譯。因此,為翻譯以上術(shù)語,可以用以下短語查找萬維網(wǎng)(WWW)“士兵遺體”,“搜索”,“北朝鮮”和“美國”。在使用搜索引擎(例如,http//www-google-com)執(zhí)行該查找時,排名最高的文檔包含以下段落
The targeted area is near Unsan,which saw severalbattles between the U.S.Army′s 8th Cavalry regimentand Chinese troops who launched a surprise offensivein late 1950.
這允許通過將“Unsan”添加到查找項上產(chǎn)生更精確的詢問。
在執(zhí)行該查找并在結(jié)果中排除原始找到的文檔時,排名最高的文檔包含以下摘錄Operations in 2001 will include areas ofinvestigation near Kaechon,approximately 18 milessouth of Unsan and Kujang.Kaechon includes an areanicknamed the″Gauntlet,″where the U.S.Army′s 2ndInfantry Division conducted its famous,fightingwithdrawal along a narrow road through six miles ofChinese ambush positions during November andDecember 1950.More than 950 missing in actionsoldiers are believed to be located in these threeareas.
The Chosin Reservoir campaign left approximately 750Marines and soldiers missing in action from both theeast and west sides of the reservoir in northeasternNorth Korea.
因此,該人工翻譯方法提供了對感興趣的名字的準(zhǔn)確翻譯。通過使用這種人工翻譯方法作為出發(fā)點,可以提供各種基于機器的命名實體翻譯技術(shù)。
圖3示出用于命名實體的可能的翻譯的基于機器的產(chǎn)生。在200,從源語言的文本輸入獲得命名實體。命名實體可以被識別或接收為輸入。可以使用傳統(tǒng)技術(shù)執(zhí)行命名實體的識別,諸如Machine Learning 34,211-231(1999)的Daniel M.Bikel,Richard Schwartz和Ralph M.Weischedel的“學(xué)習(xí)在名字中有什么的算法(Algorithm that learns What’s in a Name)”中描述的IdentiFinder命名實體識別器。此外,可以獲得用于命名實體的短語邊界和類別指定。
在210,使用基于發(fā)音的直譯模型和基于拼寫的直譯模型生成從源語言到目標(biāo)語言的命名實體的可能的翻譯??赡艿姆g的這種產(chǎn)生可以包括以下步驟(1)使用第一概率模型來產(chǎn)生目標(biāo)語言的單詞以及根據(jù)語言發(fā)音特性產(chǎn)生單詞的第一直譯分?jǐn)?shù),(2)使用第二概率模型根據(jù)從目標(biāo)語言到源語言的字母順序的映射產(chǎn)生單詞的第二直譯分?jǐn)?shù),以及(3)將第一直譯分?jǐn)?shù)和第二直譯分?jǐn)?shù)組合成單詞的第三直譯分?jǐn)?shù)。
直譯是用目標(biāo)語言的近似語音或拼寫等效物替換源語言單詞的過程。使用近似字母表和發(fā)聲系統(tǒng)的語言之間的直譯比發(fā)聲和書寫系統(tǒng)中具有顯著差異的語言之間的直譯更容易,后者諸如阿拉伯語到英語的情況。
阿拉伯語中的元音有兩種長元音和短元音。在報紙文本中較少以阿拉伯語書寫短元音,它會使得發(fā)音和意思非常含糊。同樣,阿拉伯語發(fā)音和英語發(fā)音之間沒有一對一的對應(yīng)。例如,英語“P”和“B”都映射到阿拉伯語的 阿拉伯語 和 映射到英語“H”;等等。
針對該問題的一個方法是在從阿拉伯語到英語的翻譯期間使用基于發(fā)音的模型。在Proceedings of the COLING/ACL Workshop on Computational Approachesto Semitic Languages(1998),Bonnie G.Stalls和Kevin Knight的“翻譯阿拉伯語文本中的名字和技術(shù)術(shù)語(Translating names and technical terms in Arabictext)”的文章中,提出了基于源-通道構(gòu)架的阿拉伯語到英語的向后直譯系統(tǒng)。該直譯過程基于如何將英語名字直譯成阿拉伯語的生成模型。該過程包括幾個階段,每一個都可以被定義成表示成有限狀態(tài)機的概率模型。
首先,根據(jù)其單字母(unigram)概率P(w)生成英語單詞。隨后,以概率P(e|w)將英語單詞發(fā)音,這可以從英語發(fā)音字典中直接采集。最后,英語語音順序以概率P(α|e)被轉(zhuǎn)換成阿拉伯語書寫。根據(jù)該模型,直譯概率可以由以下等式?jīng)Q定(1)---Pp(w|a)≅Σ∀ϵP(w)P(e|w)P(a|e)]]>該基于發(fā)音的模型還可以被稱作基于語音的模型。
由該模型建議的直譯一般是準(zhǔn)確的,但通常,可以產(chǎn)生的英語單詞是具有已知發(fā)音的那些英語單詞。此外,人工翻譯員常根據(jù)它們是如何拼寫的而不是根據(jù)它們是如何發(fā)音的來直譯單詞。例如,“Graham”被直譯成阿拉伯語為 而非 為了解決該問題,在基于發(fā)音的模型之外還可以使用基于拼寫的模型。
基于拼寫的概率模型的實例可以以概率P(α|w)直接將英語字母順序映射成阿拉伯語字母順序,這可以在較小的英語/阿拉伯語名字列表上練習(xí)而不需要英語發(fā)音。由于不需要發(fā)音,對于大量語言對,該列表可以方便地獲得。此外,除了單詞單字母模型,模型P(w)可以被擴展成包括字母三字母組模型。這就可能產(chǎn)生單詞單字母模型中未定義的單詞。因此,根據(jù)該模型的直譯分?jǐn)?shù)可以由以下等式?jīng)Q定(2)---Ps(w|a)=P(w)P(a|w)]]>上述基于語音和基于拼寫的模型可以組合成單個直譯模型。在該組合的模型中,給定阿拉伯語單詞α的英語單詞w的直譯分?jǐn)?shù)可以是基于語音和基于拼寫的直譯分?jǐn)?shù)的線性組合,如由以下等式?jīng)Q定的(3)P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)
除了上述第一和第二概率模型,在潛在直譯的生成期間可以使用其它技術(shù)。生成潛在直譯可以包括使用雙語資源。生成潛在直譯可以包括多個生成階段。例如,在第一階段中,可以生成初始的一組可能的翻譯(也稱作候選對象),隨后可以使用查找和直譯技術(shù)將該組擴展,其中包括上述直譯技術(shù)。
在220,查找目標(biāo)語言的單語資源以便找到關(guān)于使用頻率的信息。例如,單語資源可以是通信網(wǎng)絡(luò)上可得的多個文檔,諸如目標(biāo)語言的新聞故事。可以在這些文檔上查找可能的翻譯以識別哪個可能的翻譯更可能是準(zhǔn)確的翻譯。
在230,根據(jù)使用頻率信息提供包含至少一個可能的翻譯的輸出。例如,可能的翻譯可以具有有關(guān)的概率分?jǐn)?shù),且可以根據(jù)使用頻率信息調(diào)整這些概率分?jǐn)?shù)。隨后,調(diào)整后的概率分?jǐn)?shù)可以影響所提供的輸出。
圖4示出命名實體的可能的翻譯的基于機器的產(chǎn)生,包括雙語資源的使用。在250,獲得被識別的命名實體的種類。隨后,在260,根據(jù)該種類,可以通過選擇性地使用雙語資源生成命名實體的可能的翻譯。根據(jù)一個或多個所識別的種類,可以不同地翻譯不同類型的命名實體。
數(shù)字和時間表達通常使用有限的一組詞匯單詞(例如,月份的名字,星期的日子,等等),并可以使用各種翻譯技術(shù)進行翻譯。人物的名字可以是第一種類并與地點和組織分開處理,地點和組織可以作為第二種類進行處理。
當(dāng)命名實體落在第一種類中時,不需要使用雙語資源。人物名字幾乎總是由人工翻譯員直譯的。因此,可以使用組合上述基于發(fā)音和基于拼寫的模型生成典型人物名字的翻譯候選對象。有限狀態(tài)裝置可以產(chǎn)生格子,它包含給定名字的所有可能的直譯。隨后,可以通過提取給定名字的n個-最好(n-best)直譯創(chuàng)建候選對象列表。列表中每個候選對象的分?jǐn)?shù)可以是由以下等式給出的直譯概率P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)。例如,名字 被直譯成“BellClinton”,“Bill Clinton”,“Bill klington”等等。
當(dāng)命名實體落在第二種類中時,可以使用雙語資源。組織和地點名字中的單詞通常被直接翻譯(例如, 是“Reservoir”)或者由人工翻譯員直譯(例如, 是“Chosin”),且對于給定單詞,一種方法何時優(yōu)于另一種總不是很清楚。為了對給定短語f生成翻譯候選對象,可以使用雙語字典翻譯以及可以使用上述技術(shù)直譯該短語中的單詞。
候選對象的生成器可以將用于給定短語中每個單詞的字典條目(entries)和n個一最好直譯組合成接受單詞翻譯/直譯組合的所有可能排列的規(guī)則表達。除了單詞直譯和直接翻譯,還可以考慮英語零豐度單詞(即,在命名實體短語中不具有阿拉伯語等效對象的單詞,諸如“of”和“the”)。隨后,可以針對目標(biāo)語言的單語資源(諸如,較大的英語新聞文集)使該規(guī)則表達匹配。
可以根據(jù)其單個單詞的翻譯/直譯分?jǐn)?shù)將所有匹配評分。給定候選對象e的分?jǐn)?shù)可以由Model 1概率的修改版本給出,該版本由P.F.Brown,S.A.Della-Pietra,V.J.Della-Pietra和R.L.Mercer的“統(tǒng)計機器翻譯的數(shù)學(xué)參數(shù)估計(Themathematics of statistical machine translation)”,ComputationalLinguistics,19(2)(1993),如下(4)---P(e|f)=aΣ∀αP(e,a|f)]]>(5)---=αΣa1=0l...Σam=0lΠj=0mt(eaj|fj)]]>其中l(wèi)是e的長度,m是f的長度,α是基于找到的e的匹配數(shù)的比例因數(shù),且αj是根據(jù)對準(zhǔn)α與fj對準(zhǔn)的英語單詞的索引。概率t(eaj|fj)是直譯和翻譯分?jǐn)?shù)的線性組合,其中翻譯分?jǐn)?shù)是對fj的所有字典條目上的均勻概率。評分的匹配形成翻譯候選對象的列表。例如, 的候選對象列表包括“Bay of Pigs”和“Gulf of Pigs”。
在270,查找目標(biāo)語言的單語資源以找到關(guān)于使用頻率的信息。在280,可以根據(jù)使用頻率信息調(diào)整生成的可能的翻譯的概率分?jǐn)?shù)。該調(diào)整表示根據(jù)諸如網(wǎng)絡(luò)(Web)的單語資源中發(fā)現(xiàn)的使用頻率信息將翻譯候選對象重新評分。雖然網(wǎng)絡(luò)(Web)包括多種語言的文檔,但在270,為了查找的目的將其作為單語資源處理。因此,網(wǎng)絡(luò)(Web)是該上下文(context)中的單語資源。
可能的翻譯的重新評分可以基于不同類型的使用頻率信息。使用頻率信息可以是單語資源中用于可能的翻譯的標(biāo)準(zhǔn)化的全短語符合計數(shù)(full-phase hitcounts),且調(diào)整概率分?jǐn)?shù)的步驟可以包括將概率分?jǐn)?shù)乘以該可能的翻譯的標(biāo)準(zhǔn)化全短語符合計數(shù)。一種或多種附加類型的重新評分可以與一個或多個單語資源一起使用,如以下結(jié)合圖5進一步地描述的。
在重新評分后,在290,基于調(diào)整后的概率分?jǐn)?shù)選擇一個或多個翻譯候選對象。例如,可以基于調(diào)整后的概率分?jǐn)?shù)從可能的翻譯中選擇命名實體的最佳可得翻譯?;蛘撸梢曰谡{(diào)整后的概率分?jǐn)?shù)和閾值從可能的翻譯中選擇命名實體的可能翻譯的列表。這些一個或多個被選擇的翻譯可以被提供作為NLP系統(tǒng)的輸出。
圖5示出實例性的命名實體翻譯系統(tǒng)。如圖5所示,翻譯過程可以包括兩個階段。給定源語言的命名實體,使用雙語和單語資源生成翻譯候選對象的排名列表。隨后,可以使用不同的單語線索將候選對象的列表重新評分。
候選對象生成器300使用上述技術(shù)產(chǎn)生命名實體的翻譯候選對象。候選對象生成器300接收已在阿拉伯語文檔330中被識別的命名實體。該被識別為地點或組織的命名實體由第一模塊310處理,且被識別為人物名字的命名實體由第二模塊320處理。模塊310、320兩者都使用直譯器305,如上所述。
此外,第一模塊310還使用雙語字典340來產(chǎn)生接受單詞翻譯/直譯組合的所有可能排列的規(guī)則表達。第一模塊310可以將英語零豐度單詞添加到規(guī)則表達上。隨后,針對英語新聞文集350,通過重新匹配器315使該規(guī)則表達匹配。根據(jù)其單個單詞翻譯/直譯分?jǐn)?shù)將這些匹配評分。
對于給定的命名實體,候選對象發(fā)生器輸出翻譯候選對象的列表。在輸出最終的一組重新排名的翻譯候選對象之前,這些翻譯候選對象可以由候選對象重新排名器370進一步處理。重新排名器370查找網(wǎng)絡(luò)(Web)360或者某些其它信息源以便找到關(guān)于使用頻率的信息。隨后,重新排名器370根據(jù)所發(fā)現(xiàn)的使用頻率信息將翻譯候選對象重新評分。
可以使用多種類型的使用頻率信息和相應(yīng)的重新評分技術(shù)。通常,候選對象根據(jù)用于分?jǐn)?shù)S的以下等式重新排名(6)Snew(c)=Sold(c)×RF(c)其中RF(c)是使用的重新評分因數(shù)??梢栽黾拥亟M合和應(yīng)用多種重新評分技術(shù),其中一個模塊的重新排名列表是到下一個模塊的輸入,且可以限制候選對象列表的大小。例如,重新排名器370可以包括應(yīng)用不同重新評分因數(shù)的三個分開的重新評分模塊,且可以通過這三個模塊中的每一個依次將20個可能的翻譯的列表重新排名。
第一可能的重新評分因數(shù)是標(biāo)準(zhǔn)化的直接網(wǎng)絡(luò)(Web)計數(shù)。對于 的實例,最上面的兩個翻譯候選對象是具有1.1×10-9的直譯分?jǐn)?shù)的“Bell Clinton”和具有6.7×10-10的分?jǐn)?shù)的“Bill Clinton”。這兩個名字的網(wǎng)絡(luò)(Web)頻率計數(shù)分別是146和840844。使用等式6,這些網(wǎng)絡(luò)(Web)計數(shù)結(jié)果分別形成1.9×10-13和6.68×10-10的修整分?jǐn)?shù),這使得正確的翻譯排名最高。
考慮全部名字而非單個名字中單個單詞的計數(shù)通常產(chǎn)生更好的結(jié)果。為了說明這點,考慮人物名字 直譯模塊305建議“Jon”和“John”作為名的可能的直譯,以及其它中的“Keele”和“Kyl”作為姓。單個單詞的標(biāo)準(zhǔn)化計數(shù)是(“John”,0.9269),(“Jon”,0.0688),(“Keele”,0.0032)和(“Kyl”,0.0011)。以與單字母語言模塊類似的方式使用這些標(biāo)準(zhǔn)化計數(shù)來評分和排名姓名組合形成以下的名字/分?jǐn)?shù)對(“John Keele”,0.003),(“John Kyl”,0.001),(“Jon Keele”,0.0002),以及(“Jon Kyl”,7.5×10-5)。但是,可能的全名的標(biāo)準(zhǔn)化短語計數(shù)是(“JonKyl”,0.8976),(“John Kyl”,0.0936),(“John Keele”,0.0087)和(“Jon Keele”,0.0001),這使得“Jon Kyl”作為常提到的美國參議員是更合理的。
另一個可能的重新評分因數(shù)是基于源輸入中的共同參考(co-reference),其中調(diào)整概率分?jǐn)?shù)的步驟包括將命名實體與文本輸入中共同類型的其它命名實體進行比較,如果該命名實體是一個其它命名實體的子短語,則根據(jù)與一個其它命名實體相對應(yīng)的標(biāo)準(zhǔn)化全短語符合計數(shù)調(diào)整概率分?jǐn)?shù),當(dāng)命名實體在新聞文章中被第一次提到時,通常使用該短語的全部形式(例如,人的全名)。對名字的隨后的引用則常使用名字的縮短版本(例如,人的姓)。
命名實體短語的縮短版本在本質(zhì)上比端電源全部版本更加含糊,因此更難翻譯。而且,更長的短語趨于比更短的短語具有更準(zhǔn)確的網(wǎng)絡(luò)(Web)計數(shù)。例如,短語 被翻譯成“the House of Representative”。單詞 可用于該短語的隨后的引用。應(yīng)注意, 與“ 下”相同的單詞,但其具有定冠詞 因此,翻譯機具有翻譯 的任務(wù),該單詞很含糊并可以涉及大量事物,包括在涉及 “the Security Council”)時的“the Council”;在涉及 (“the House of Representatives”)時的“the House”;以及在涉及 (“National Assembly”)時的“theAssembly”。
如果翻譯機可以確定該命名實體涉及“the House of Representatives”,則機器可以準(zhǔn)確地將命名實體翻譯成“the House”。這可以通過將縮短的短語與其余的同一類型的命名實體短語進行比較來進行。如果發(fā)現(xiàn)縮短的短語是僅僅一個其它短語的子短語,則可以假定該縮短的短語是對同一命名實體的另一種引用。在這種情況下,較長的短語的計數(shù)可用于將較短的短語的候選對象重新排名。
另一種可能的重新評分因數(shù)是基于與使用頻率信息結(jié)合的上下文(contextual)信息。上下文信息可以在文本輸入中被識別(例如,候選對象重新排名器370也可以將阿拉伯語文檔330用作輸入),且查找單語資源的步驟可以包括結(jié)合上下文信息查找用于可能的翻譯的多個文檔,以獲得使用頻率信息。
對于某些命名實體,當(dāng)短語只有出現(xiàn)在某些上下文中被計數(shù)時,網(wǎng)絡(luò)(Web)計數(shù)可以造成候選對象的更精確的重新排名。例如, 的最高的兩個翻譯候選對象是“Donald Martin”和“Donald Marron”。直接網(wǎng)絡(luò)(Web)計數(shù)分別是2992和2509,它不改變候選對象列表的排名。在根據(jù)上下文信息查找網(wǎng)絡(luò)以產(chǎn)生網(wǎng)絡(luò)計數(shù)時,可以用布爾算子“與(AND)”使用網(wǎng)絡(luò)搜索引擎。對于之前的實例,所引用的人物是“Paine Webber”的“CEO”的事實可以在查找中使用。這使得對“Donald Martin”和“Donald Marron”的計數(shù)分別是0和357。這足夠使得正確的翻譯作為最高的候選對象。
各種技術(shù)都可以用于自動地找到提供最準(zhǔn)確計數(shù)的上下文信息。這些技術(shù)中的某些使用文本范圍的上下文信息,諸如源文檔的標(biāo)題,或者選擇源文檔中提到的關(guān)鍵項。識別這些關(guān)鍵項的一個方法是使用TF/IDF(項頻率/倒(inverse)文檔頻率)測量。其它技術(shù)使用局限于考慮中的命名實體的上下文信息,這些考慮中的命名實體諸如命名實體之前和/或之后的n個單詞或者考慮中的命名實體附近提到的其它命名實體。
除了上述技術(shù)之外,命名實體翻譯系統(tǒng)還可以使用各種技術(shù)來擴展諸如候選對象生成器300的可能的翻譯生成器生成的候選對象列表。擴展候選對象列表的步驟可以使得系統(tǒng)更穩(wěn)固和有效。一旦已產(chǎn)生了可能的翻譯的初始列表,就可以通過查找正確的翻譯而非生成它來擴展該列表。通過從初始候選對象列表外推,可以發(fā)現(xiàn)附加的以及有時更好的翻譯。
圖6示出命名實體的基于機器的可能的翻譯產(chǎn)生,包括使用子短語識別的候選對象列表擴展。在400,從源語言的文本輸入獲得命名實體。在410,用概率模型生成命名實體的可能的翻譯,該概率模型使用語言發(fā)音特性以及從目標(biāo)語言到源語言的字母順序的映射??赡艿姆g是具有相應(yīng)的直譯分?jǐn)?shù)的目標(biāo)語言的短語,如上所述。
在420,在生成的短語中識別子短語。在430,使用子短語發(fā)現(xiàn)目標(biāo)語言的文檔。這可以包括使用網(wǎng)絡(luò)(Web)搜索引擎。在440,在被發(fā)現(xiàn)的文檔中識別包括一個或多個子短語的命名實體。例如,IdentiFinder命名實體識別器可用于在每個子短語的最高的n個被檢索文檔中找到所有命名實體。在450,使用概率模型生成被發(fā)現(xiàn)的文檔中被識別的命名實體的直譯分?jǐn)?shù)。
該評分可限于被檢索的目標(biāo)語言文檔中的被識別的命名實體,它們處于與源語言輸入中的原始命名實體相同的種類中(例如,人物(PERSON)種類)。上述的同樣模型能用于此評分中。隨后,在460,將這些被評分的命名實體添加到可能的翻譯中。因此,基于初始候選對象列表中找到的子短語擴展候選對象列表。隨后,該擴展后的候選對象列表進入與前面一樣的重新評分過程。在470,在目標(biāo)語言的單語資源中查找關(guān)于使用頻率的信息。隨后,在480,基于使用頻率信息,提供包括至少一個可能的翻譯的輸出。
對于人物名字,該技術(shù)對應(yīng)于在可能的翻譯生成期間分開查找名和姓,以便增加在最終重新評分過程期間執(zhí)行的對全名的查找。作為說明,考慮名字 翻譯模塊建議“Coffee Annan”,“Coffee Engen”,“CoffeeAnton”,“Coffee Anyone”和“Covey Annan”而非正確的翻譯“Kofi Annan”(當(dāng)前的聯(lián)合國秘書長)。可以通過找到具有“Coffee”或“Covey”作為名或者“Annan”、“Engen”、“Anton”或“Anyone”作為姓之一的最普通的人物名字來擴展可能的翻譯的列表。
如果要使用的單語資源支持使用通配符的查找,則可以使用通配符查找來進行發(fā)現(xiàn)目標(biāo)語言的文檔的步驟。例如,如果所使用的單語資源是較大的英語新聞文集,則這種查找能力是易于獲得的。如果要使用的單語資源不支持通配符查找,諸如常規(guī)的網(wǎng)絡(luò)搜索引擎中共同的,則可以為名字“Coffee”、“Covey”、“Annan”、“Engen”、“Anton”和“Anyone”中的每一個檢索最高的n個匹配文檔。隨后,可以將包含任何搜索中使用的名或姓的被檢索文檔中找到的所有人物名字添加到翻譯候選對象的列表中。正確翻譯可能存在于被檢索文檔中找到的名字之中,如果是這樣,在應(yīng)用于擴展后的候選對象列表的重新排名過程期間它將可能升到最高處。在該實例中,發(fā)現(xiàn)了“Kofi Annan”并將其添加到候選對象列表中,且隨后它被排名在最高處。
為了解決在翻譯候選對象的列表中不能找到正確翻譯以及其任何子短語的情況,可以通過使用上下文信息的查找生成附加可能的翻譯,諸如上述結(jié)合重新評分過程期間執(zhí)行的查找。這可以通過查找與從源語言翻譯過來的相類似的目標(biāo)語言的文檔加以執(zhí)行。在翻譯國際上重要的新聞故事中的命名實體,其中同一事件很可能以包含目標(biāo)語言的許多語言報道的情況,這是特別有用的。
可以重復(fù)上述外推過程,但這次使用上下文信息,諸如原始文檔的標(biāo)題,以找到目標(biāo)語言的相似文檔。此外,CLIR系統(tǒng)可用于更成功地找到有關(guān)文檔。
圖7示出命名實體的可能的翻譯的基于機器的產(chǎn)生,包括使用上下文信息擴展候選對象列表。在500,從源語言的文本輸入獲得命名實體。在510,在文本輸入中識別如上所述的上下文信息。在520,發(fā)現(xiàn)包含上下文信息的目標(biāo)語言的文檔。在530,在這些文檔中識別命名實體。在540,相對于文本輸入中的命名實體,使用概率模型生成文檔中命名實體的直譯分?jǐn)?shù),該概率模型使用語言發(fā)音特性和從目標(biāo)語言到源語言的字母順序映射。
在550,將被評分的命名實體添加到可能的翻譯中。在560,在目標(biāo)語言的單語資源中查找關(guān)于使用頻率的信息。隨后,在570,基于使用頻率信息,提供包含至少一個可能的翻譯的輸出。
圖3、4、6和7中描述的邏輯流程不需要按所示的特殊順序。步驟的順序中的許多變化都是可以的。此外,不需要按順次的順序執(zhí)行這些步驟,且在特定實施例中,多任務(wù)和并行處理是優(yōu)選的。其它的實施例也在以下權(quán)利要求書的范圍之內(nèi)。
權(quán)利要求
1.一種方法,其特征在于,包括從源語言的文本輸入獲取命名實體;使用基于發(fā)音和基于拼寫的直譯模型產(chǎn)生從源語言到目標(biāo)語言的命名實體的可能的翻譯;在目標(biāo)語言的單語資源中查找關(guān)于使用頻率的信息;以及基于使用頻率信息提供包含至少一個可能的翻譯的輸出。
2.如權(quán)利要求1所述的方法,其特征在于,產(chǎn)生命名實體的可能的翻譯的步驟包括使用第一概率模型以基于語言發(fā)音特性生成目標(biāo)語言的單詞和單詞的第一直譯分?jǐn)?shù);使用第二概率模型以基于從目標(biāo)語言到源語言的字母順序的映射生成單詞的第二直譯分?jǐn)?shù);以及將第一直譯分?jǐn)?shù)和第二直譯分?jǐn)?shù)組合成單詞的第三直譯分?jǐn)?shù)。
3.如權(quán)利要求2所述的方法,其特征在于使用第一概率模型的步驟包括根據(jù)單字母概率P(w)生成至少一部分的單詞,以發(fā)音概率P(e|w)生成與單詞相對應(yīng)的語音順序,以及以轉(zhuǎn)換概率P(α|e)將語音順序轉(zhuǎn)換成源語言,第一直譯分?jǐn)?shù)由Pp(w|a)≅Σ∀sP(w)P(e|w)P(a|e)]]>決定;以及使用第二概率模型的步驟包括以概率P(α|w)使用字母順序映射生成單詞的源語言字母,以及以擴展概率P(w)根據(jù)字母三字母組模型生成至少部分的單詞,第二直譯分?jǐn)?shù)由Ps(w|a)≅P(w)P(a|w)]]>決定。
4.如權(quán)利要求3所述的方法,其特征在于,將第一直譯分?jǐn)?shù)和第二直譯分?jǐn)?shù)組合的步驟包括計算線性組合,第三直譯分?jǐn)?shù)由P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)決定。
5.如權(quán)利要求1所述的方法,其特征在于,所述獲得命名實體的步驟包括獲得命名實體的短語邊界;以及獲得命名實體的種類。
6.如權(quán)利要求5所述的方法,其特征在于,生成命名實體的可能的翻譯的步驟包括基于命名實體的種類選擇性地使用雙語資源。
7.如權(quán)利要求6所述的方法,其特征在于選擇性地使用雙語資源的步驟包括如果該種類包括組織或地點名字,則使用雙語字典翻譯命名實體中的一個或多個單詞,使用基于發(fā)音和基于拼寫的直譯模型直譯命名實體中的一個或多個單詞,將翻譯的一個或多個單詞與直譯的一個或多個單詞組合成規(guī)則表達,定義翻譯的一個或多個單詞和直譯的一個或多個單詞的可用排列,以及針對目標(biāo)語言的單語資源使該規(guī)則表達匹配。
8.如權(quán)利要求7所述的方法,其特征在于,組合翻譯的一個或多個單詞和直譯的一個或多個單詞的步驟包括將翻譯的一個或多個單詞與直譯的一個或多個單詞的n個一最好直譯組合。
9.如權(quán)利要求7所述的方法,其特征在于,針對單語資源使規(guī)則表達匹配的步驟包括根據(jù)下式生成可能的翻譯的分?jǐn)?shù)P(e|f)=αΣ∀aP(e,a|f)]]>=αΣal=0l···Σam=0lΠj=0mt(eaj|fj)]]>其中f是來自可能的翻譯的短語,e是來自被翻譯和被直譯的單詞的給定單詞,l是e的長度,m是f的長度,α是基于找到的e的匹配數(shù)的比例因數(shù),αj是根據(jù)對準(zhǔn)α與fj對準(zhǔn)的目標(biāo)語言單詞的索引,且概率t(eaj|fj)是直譯分?jǐn)?shù)和翻譯分?jǐn)?shù)的線性組合,其中翻譯分?jǐn)?shù)是用于fj的所有字典條目上的均勻概率。
10.如權(quán)利要求1所述的方法,其特征在于,基于使用頻率信息提供輸出的步驟包括基于使用頻率信息調(diào)整可能的翻譯的概率分?jǐn)?shù)。
11.如權(quán)利要求10所述的方法,其特征在于,提供輸出的步驟進一步包括基于調(diào)整后的概率分?jǐn)?shù)從可能的翻譯中選擇命名實體的翻譯。
12.如權(quán)利要求10所述的方法,其特征在于,提供輸出的步驟進一步包括基于調(diào)整后的概率分?jǐn)?shù)和閾值從可能的翻譯中選擇命名實體的可能翻譯的列表。
13.如權(quán)利要求10所述的方法,其特征在于,使用頻率信息包括單語資源中可能的翻譯的標(biāo)準(zhǔn)化全短語符合計數(shù),且調(diào)整概率分?jǐn)?shù)的步驟包括將概率分?jǐn)?shù)乘以可能的翻譯的標(biāo)準(zhǔn)化全短語符合計數(shù)。
14.如權(quán)利要求10所述的方法,其特征在于,調(diào)整概率分?jǐn)?shù)的步驟包括將命名實體與文本輸入中共同類型的其它命名實體進行比較;以及如果命名實體是一個其它命名實體的子短語,基于與該一個其它命名實體相對應(yīng)的標(biāo)準(zhǔn)化全短語符合計數(shù)調(diào)整概率分?jǐn)?shù)。
15.如權(quán)利要求10所述的方法,其特征在于,進一步包括識別文本輸入中的上下文信息,且其中查找單語資源的步驟包括結(jié)合上下文信息在多個文檔中查找可能的翻譯以獲得使用頻率信息。
16.如權(quán)利要求10所述的方法,其特征在于,查找單語資源的步驟包括查找在通信網(wǎng)絡(luò)上可得的多個文檔。
17.如權(quán)利要求16所述的方法,其特征在于,多個文檔包括目標(biāo)語言的新聞故事。
18.如權(quán)利要求17所述的方法,其特征在于,目標(biāo)語言是英語。
19.如權(quán)利要求18所述的方法,其特征在于,源語言是阿拉伯語。
20.如權(quán)利要求1所述的方法,其特征在于,進一步包括識別文本輸入中的上下文信息,且其中生成命名實體的可能的翻譯的步驟包括發(fā)現(xiàn)包含上下文信息的目標(biāo)語言的文檔;識別這些文檔中的命名實體;相對于文本輸入中的命名實體,使用概率模型生成文檔中命名實體的直譯分?jǐn)?shù),該概率模型使用語言發(fā)音特性和從目標(biāo)語言到源語言的字母順序的映射;以及將被評分的命名實體添加到可能的翻譯中。
21.如權(quán)利要求1所述的方法,其特征在于,生成命名實體的可能的翻譯的步驟包括用使用語言發(fā)音特性和從目標(biāo)語言到源語言的字母順序映射的概率模型生成目標(biāo)語言的短語和相應(yīng)的直譯分?jǐn)?shù),可能的翻譯包括被評分的短語;識別所生成的短語中的子短語;使用子短語發(fā)現(xiàn)目標(biāo)語言的文檔;在所發(fā)現(xiàn)的文檔中識別包含一個或多個子短語的命名實體;使用概率模型生成被發(fā)現(xiàn)的文檔中被識別的命名實體的直譯分?jǐn)?shù);以及將被評分的命名實體添加到可能的翻譯中。
22.一種包括機器可讀的介質(zhì)的制品,其特征在于,該介質(zhì)包含表示指令的信息,在由一個或多個機器執(zhí)行這些指令時其引起的操作包括使用基于發(fā)音和基于拼寫的直譯模型生成從源語言到目標(biāo)語言的命名實體的可能的翻譯;在目標(biāo)語言的單語資源中查找關(guān)于使用頻率的信息;以及基于使用頻率信息提供包括至少一個可能的翻譯的輸出。
23.如權(quán)利要求22所述的制品,其特征在于,生成命名實體的可能的翻譯的步驟包括使用第一概率模型以基于語言發(fā)音特性生成目標(biāo)語言的單詞以及單詞的第一直譯分?jǐn)?shù);使用第二概率模型以基于從目標(biāo)語言到源語言的字母順序映射生成單詞的第二直譯分?jǐn)?shù);以及將第一直譯分?jǐn)?shù)和第二直譯分?jǐn)?shù)組合成單詞的第三直譯分?jǐn)?shù)。
24.如權(quán)利要求23所述的制品,其特征在于使用第一概率模型的步驟包括根據(jù)單字母概率P(w)生成至少一部分的單詞,以發(fā)音概率P(e|w)生成與單詞相對應(yīng)的語音順序,以及以轉(zhuǎn)換概率P(α|e)將語音順序轉(zhuǎn)換成源語言,第一直譯分?jǐn)?shù)由Pp(w|a)≅Σ∀sP(w)P(e|w)P(a|e)]]>決定;以及使用第二概率模型的步驟包括以概率P(α|w)使用字母順序映射生成單詞的源語言字母,以及以擴展概率P(w)根據(jù)字母三字母組模型生成至少部分的單詞,第二直譯分?jǐn)?shù)由Ps(w|a)≅P(w)P(a|w)]]>決定。
25.如權(quán)利要求24所述的制品,其特征在于,將第一直譯分?jǐn)?shù)和第二直譯分?jǐn)?shù)組合的步驟包括計算線性組合,第三直譯分?jǐn)?shù)由P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)決定。
26.如權(quán)利要求22所述的制品,其特征在于,生成命名實體的可能的翻譯的步驟包括基于命名實體的種類選擇性地使用雙語資源。
27.如權(quán)利要求26所述的制品,其特征在于,選擇性地使用雙語資源的步驟包括如果種類包括組織或地點名字,使用雙語字典翻譯命名實體中的一個或多個單詞,使用基于發(fā)音和基于拼寫的直譯模型直譯命名實體中的一個或多個單詞,將翻譯的一個或多個單詞與直譯的一個或多個單詞組合成規(guī)則表達,限定翻譯的一個或多個單詞和直譯的一個或多個單詞的可用排列,以及針對目標(biāo)語言的單語資源使規(guī)則表達匹配。
28.如權(quán)利要求27所述的制品,其特征在于,將翻譯的一個或多個單詞與直譯的一個或多個單詞組合的步驟包括將翻譯的一個或多個單詞與直譯的一個或多個單詞的n個一最好直譯組合。
29.如權(quán)利要求27所述的制品,其特征在于,針對單語資源使規(guī)則表達匹配的步驟包括根據(jù)下式生成可能的翻譯的分?jǐn)?shù)P(e|f)=αΣ∀aP(e,a|f)]]>=αΣal=0l···Σam=0lΠj=0mt(eaj|fj)]]>其中f是來自可能的翻譯的短語,e是來自被翻譯和被直譯的單詞的給定單詞,l是e的長度,m是f的長度,α是基于找到的e的匹配數(shù)的比例因數(shù),αj是根據(jù)對準(zhǔn)α與fj對準(zhǔn)的目標(biāo)語言單詞的索引,且概率t(eaj|fj)是直譯分?jǐn)?shù)和翻譯分?jǐn)?shù)的線性組合,其中翻譯分?jǐn)?shù)是用于fj的所有字典條目上的均勻概率。
30.如權(quán)利要求22所述的制品,其特征在于,基于使用頻率信息提供輸出的步驟包括基于使用頻率信息調(diào)整可能的翻譯的概率分?jǐn)?shù)。
31.如權(quán)利要求30所述的制品,其特征在于,提供輸出的步驟進一步包括基于調(diào)整后的概率分?jǐn)?shù)從可能的翻譯中選擇命名實體的翻譯。
32.如權(quán)利要求30所述的制品,其特征在于,提供輸出的步驟進一步包括基于調(diào)整后的概率分?jǐn)?shù)和閾值從可能的翻譯中選擇命名實體的可能翻譯的列表。
33.如權(quán)利要求30所述的制品,其特征在于,使用頻率信息包括單語資源中可能的翻譯的標(biāo)準(zhǔn)化全短語符合計數(shù),且調(diào)整概率分?jǐn)?shù)的步驟包括將概率分?jǐn)?shù)乘以可能的翻譯的標(biāo)準(zhǔn)化全短語符合計數(shù)。
34.如權(quán)利要求30所述的制品,其特征在于,調(diào)整概率分?jǐn)?shù)的步驟包括將命名實體與包含該命名實體的輸入中共同類型的其它命名實體進行比較;以及如果命名實體是一個其它命名實體的子短語,基于與該一個其它命名實體相對應(yīng)的標(biāo)準(zhǔn)化全短語符合計數(shù)調(diào)整概率分?jǐn)?shù)。
35.如權(quán)利要求22所述的制品,其特征在于,操作進一步包括識別包含命名實體的輸入中的上下文信息,且其中查找單語資源的步驟包括在多個文檔中結(jié)合上下文信息查找可能的翻譯以獲得使用頻率信息。
36.如權(quán)利要求22所述的制品,其特征在于,查找單語資源的步驟包括查找通信網(wǎng)絡(luò)上可得的多個文檔。
37.如權(quán)利要求36所述的制品,其特征在于,多個文檔包括目標(biāo)語言的新聞故事。
38.如權(quán)利要求37所述的制品,其特征在于,目標(biāo)語言是英語。
39.如權(quán)利要求38所述的制品,其特征在于,源語言是阿拉伯語。
40.如權(quán)利要求22所述的制品,其特征在于,操作進一步包括識別文本輸入中的上下文信息,且其中生成命名實體的可能的翻譯的步驟包括發(fā)現(xiàn)包含上下文信息的目標(biāo)語言的文檔;識別文檔中的命名實體;相對于命名實體,使用概率模型生成文檔中命名實體的直譯分?jǐn)?shù),其中該概率模型使用語言發(fā)音特性和從目標(biāo)語言到源語言的字母順序映射;以及將評分后的命名實體添加到可能的翻譯上。
41.如權(quán)利要求22所述的制品,其特征在于,生成命名實體的可能的翻譯的步驟包括用概率模型生成目標(biāo)語言的短語以及相應(yīng)的直譯分?jǐn)?shù),該概率模型使用語言發(fā)音特性和從目標(biāo)語言到源語言的字母順序的映射,可能的翻譯包括被評分的短語;識別生成的短語中的子短語;使用子短語發(fā)現(xiàn)目標(biāo)語言的文檔;在被發(fā)現(xiàn)的文檔中,識別包括一個或多個子短語的命名實體;使用概率模型生成被發(fā)現(xiàn)的文檔中被識別的命名實體的直譯分?jǐn)?shù);以及將被評分的命名實體添加到可能的翻譯中。
42.一種系統(tǒng),其特征在于,包括輸入/輸出(I/O)系統(tǒng);以及與該I/O系統(tǒng)耦合的可能的翻譯生成器,該可能的翻譯生成器結(jié)合了組合的基于發(fā)音和基于拼寫的直譯模型,被用于生成命名實體的翻譯候選對象。
43.如權(quán)利要求42所述的系統(tǒng),其特征在于,I/O系統(tǒng)包括提供對單語資源的訪問的網(wǎng)絡(luò)接口,該系統(tǒng)進一步包括重新排名器模塊,它基于使用網(wǎng)絡(luò)接口在單語資源中發(fā)現(xiàn)的使用頻率信息調(diào)整翻譯候選對象的分?jǐn)?shù)。
44.如權(quán)利要求43所述的系統(tǒng),其特征在于,進一步包括雙語資源,其中可能的翻譯生成器根據(jù)命名實體的種類選擇性地使用雙語資源。
45.如權(quán)利要求44所述的系統(tǒng),其特征在于,可能的翻譯生成器包括人物實體處理模塊;地點和組織實體處理模塊,它訪問雙語資源;以及重新匹配器模塊,它訪問新聞文集以生成由地點和組織實體處理模塊生成的翻譯候選對象的分?jǐn)?shù)。
46.如權(quán)利要求43所述的系統(tǒng),其特征在于,重新排名器模塊結(jié)合了多個分開的重新評分模塊,它們應(yīng)用不同的重新評分因數(shù)。
47.如權(quán)利要求43所述的系統(tǒng),其特征在于,重新排名器模塊至少部分根據(jù)與命名實體相對應(yīng)的上下文信息調(diào)整翻譯候選對象的分?jǐn)?shù)。
48.如權(quán)利要求42所述的系統(tǒng),其特征在于,可能的翻譯生成器至少部分根據(jù)與命名實體相對應(yīng)的上下文信息生成翻譯候選對象。
49.如權(quán)利要求42所述的系統(tǒng),其特征在于,可能的翻譯生成器至少部分根據(jù)在初始的一組翻譯候選對象中被識別的子短語生成翻譯候選對象。
50.一種系統(tǒng),其特征在于,包括用于使用基于拼寫的直譯生成從源語言到目標(biāo)語言的命名實體的可能的翻譯的裝置;以及用于根據(jù)單語資源中發(fā)現(xiàn)的使用頻率信息調(diào)整生成可能的翻譯的概率分?jǐn)?shù)的裝置。
51.如權(quán)利要求50所述的系統(tǒng),其特征在于,用于生成的裝置包括用于選擇性地使用雙語字典和新聞文集的裝置。
52.如權(quán)利要求51所述的系統(tǒng),其特征在于,用于調(diào)整的裝置包括用于根據(jù)上下文信息和可能的翻譯的被識別的子短語將可能的翻譯重新排名的裝置。
全文摘要
將命名實體(110)從源語言翻譯到目標(biāo)語言。通常,在一個實施中,技術(shù)包括使用基于發(fā)音和基于拼寫的直譯模型生成從源語言到目標(biāo)語言的命名實體的可能的翻譯(210),在目標(biāo)語言的單語資源中查找關(guān)于使用頻率的信息(220),以及根據(jù)使用頻率提供包括至少一個可能的翻譯的輸出(230)。
文檔編號G06F17/28GK1643511SQ03805749
公開日2005年7月20日 申請日期2003年3月11日 優(yōu)先權(quán)日2002年3月11日
發(fā)明者Y·埃爾-奧奈扎恩, K·克奈特 申請人:南加利福尼亞大學(xué)