專利名稱:用于翻譯的裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種翻譯的裝置、方法和程序產(chǎn)品以及一種用于提供翻譯支持服務(wù)的方法。尤其是,涉及一種提供翻譯支持服務(wù)的裝置、方法和程序產(chǎn)品,所述服務(wù)通過使用過去的翻譯結(jié)果來支持新的翻譯。
背景技術(shù):
包括存儲和管理不同語言的句子的實例數(shù)據(jù)庫以便一種語言的句子與另一種語言的句子相關(guān)聯(lián)的機器翻譯系統(tǒng)(專利文件1),包括成對存儲第一種語言的問題句子及其翻譯的第二種語言的問題句子的數(shù)據(jù)庫的解釋裝置(專利文件2),創(chuàng)建將第一種語言的詞與相互是翻譯關(guān)系的第二種語言的詞相關(guān)聯(lián)的數(shù)據(jù)庫的方法(專利文件3)都是公知的。這些技術(shù)可以減少用戶翻譯所需的時間和精力。
公開號為2004-220266的日本未審專利申請。
公開號為2000-090087的日本未審專利申請。
公開號為2004-535617的PCT日本翻譯專利申請。
發(fā)明內(nèi)容
對于檢索過去的目標語言文本并將其用于新的翻譯的翻譯裝置,如果數(shù)據(jù)庫中存儲的目標語言文本增加,搜索目標也會增加,因此,檢索最好的目標語言文本需要較長的時間。因此,要求翻譯裝置能夠在大量的目標語言文本中快速確定在新的翻譯中使用的合適的過去目標語言文本。
因此,本發(fā)明的一個目的是提供一種能解決上述問題、用于翻譯的裝置、方法和程序產(chǎn)品以及一種用于提供翻譯支持服務(wù)的方法。所述目的是通過權(quán)利要求書中指定的獨立權(quán)利要求的特征的任意組合來實現(xiàn)的。從屬權(quán)利要求定義了其他有用的例子。
為了解決上述問題,本發(fā)明提供一種用于從多個翻譯記錄中選擇翻譯記錄以用于翻譯新接收的文本,一種使用所述裝置提供翻譯支持服務(wù)的方法,一種讓計算機成為所述裝置的程序產(chǎn)品。所述多個翻譯記錄中的每一個相對于過去的翻譯結(jié)果存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言文本的至少一個對,其中所述源語言文本是與作為文本的翻譯單元的接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分(divided part)。所述裝置包括第一關(guān)鍵字生成單元,被配置成相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;獲取單元,被配置成與多個翻譯記錄的每一個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;關(guān)鍵字搜索單元,被配置成相對于多個翻譯記錄的每一個來搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)單元,被配置成相對于多個翻譯記錄的每一個來計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;以及確定單元,被配置成基于相對于多個翻譯記錄的每一個的計數(shù)結(jié)果來確定在接收文本的翻譯中使用的翻譯記錄。
本發(fā)明還提供一種用于從多個翻譯記錄中選擇翻譯記錄以用于翻譯新接收文本的方法,多個翻譯記錄中的每一個都相對于過去的翻譯結(jié)果存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言文本的至少一個對,其中所述源語言文本是與作為文本的翻譯單元的接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分。所述方法包括存儲步驟,相對于每個翻譯片斷,存儲源語言文本和通過翻譯所述源語言文本獲得的目標語言文本的一個對,作為多個翻譯記錄中的一個翻譯記錄;第一關(guān)鍵字生成步驟,相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;獲取步驟,與多個翻譯記錄的每一個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;關(guān)鍵字搜索步驟,相對于多個翻譯記錄的每一個來搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)步驟,相對于多個翻譯記錄的每一個來計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;以及確定步驟,基于相對于多個翻譯記錄的每一個的計數(shù)結(jié)果來確定在接收文本的翻譯中使用的翻譯記錄;以及翻譯步驟,通過使用確定的翻譯記錄來翻譯接收的文本。
在上述發(fā)明內(nèi)容中并沒有列出所有本發(fā)明所需的特征。所述特征的任意組合都是本發(fā)明。
優(yōu)點根據(jù)本發(fā)明,可以高速確定可在新翻譯中使用的適當(dāng)?shù)倪^去的翻譯記錄。
圖1圖示了根據(jù)本發(fā)明的一個實施例的翻譯支持裝置10的結(jié)構(gòu)。
圖2圖示了翻譯記錄文件11的結(jié)構(gòu)的例子。
圖3圖示了翻譯記錄關(guān)鍵字表12的例子。
圖4圖示了第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24中輸入關(guān)鍵字或翻譯記錄關(guān)鍵字的生成操作流程圖和類型分類操作流程圖的例子。
圖5圖示了根據(jù)實施例的翻譯支持裝置10中從源文本的輸入到翻譯片斷的計數(shù)值的輸出的操作流程圖,其中輸入關(guān)鍵字和翻譯記錄關(guān)鍵字互相相同。
圖6圖示了圖5中繼續(xù)的操作流程圖。
圖7不是了根據(jù)實施例的確定單元28的結(jié)構(gòu)。
圖8圖示了根據(jù)實施例的確定單元28的操作流程圖。
圖9圖示了圖8中繼續(xù)的操作流程圖。
圖10圖示了根據(jù)所述實施例的修改的確定單元28的結(jié)構(gòu)。
圖11圖示了根據(jù)所述修改的確定單元28的操作流程圖。
圖12是圖11中繼續(xù)的操作流程圖。
圖13圖示了根據(jù)本發(fā)明的一個實施例的計算機1900的硬件配置的例子。
附圖標記10翻譯支持裝置11翻譯記錄文件12翻譯記錄關(guān)鍵字表21存儲單元22輸入單元23第一關(guān)鍵字生成單元24第二關(guān)鍵字生成單元25獲取單元26關(guān)鍵字搜索單元27第一計數(shù)單元28確定單元29翻譯單元30輸出單元41第一選擇單元42第二計數(shù)單元43第二選擇單元51提取單元52第三選擇單元1900計算機2000CPU2010ROM
2020RAM2030通信接口2040硬盤驅(qū)動器2050軟盤驅(qū)動器2060CD-ROM驅(qū)動器2075圖形控制器2080顯示器2082主控制器2084輸入/輸出控制器2090軟盤2095CD-ROM具體實施方式
下面將利用實施例進一步解釋本發(fā)明。所述實施例并不限制與權(quán)利要求書相關(guān)的本發(fā)明。遂于解決上述問題的方式,并不需要實施例中描述的所有的特征組合。
圖1圖示了根據(jù)一個實施例的翻譯支持裝置10的結(jié)構(gòu)。翻譯支持裝置10包括存儲單元21、輸入單元22、第一關(guān)鍵字生成單元23、第二關(guān)鍵字生成單元24、獲取單元25、關(guān)鍵字搜索單元26、第一計數(shù)單元27、確定單元28、翻譯單元29和輸出單元30。翻譯支持裝置10從一個或多個翻譯記錄文件11中快速確定一個適合在最近接收的文本翻譯中使用的翻譯記錄文件11。
翻譯記錄文件11是根據(jù)本發(fā)明的翻譯記錄的一個例子,每個翻譯記錄文件11都與過去的翻譯結(jié)果相關(guān)地存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言的至少一個對,所述源語言文本是與作為文本翻譯單元的其中一個翻譯片斷相對應(yīng)的分割部分??梢杂么鎯εc翻譯記錄文件11中包含的信息相同的信息的數(shù)據(jù)庫、或者存儲與翻譯記錄文件11包含的信息相同的信息的存儲器來代替翻譯記錄文件11。
為每一個已經(jīng)完成翻譯的翻譯項目生成翻譯記錄文件11。所述翻譯項目是一個包括多個翻譯片段的單元。一個所述示意性的單元是作為翻譯目標的產(chǎn)品手冊。多個翻譯記錄文件11中的每一個還可以存儲指示翻譯目標等的元信息。
存儲單元21存儲多個翻譯記錄文件11和分別與翻譯記錄文件11相對應(yīng)的翻譯記錄關(guān)鍵字表12。
輸入單元22接收作為翻譯目標的源語言文本的文本數(shù)據(jù)的源文本。輸入單元22可接收用來選擇翻譯記錄文件11的條件信息。在接收到條件信息的情況下,輸入單元22接收指定了元信息中包含的屬性信息的條件信息,例如翻譯目標。輸入單元22將接收的源文本提供給第一關(guān)鍵字生成單元23、確定單元28以及翻譯單元29。輸入單元22還將接收的條件信息提供給獲取單元25。
第一關(guān)鍵字生成單元23生成輸入關(guān)鍵字,其中對于接收到的源文本中的每個翻譯片斷,基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼。
在該情況下,所述預(yù)定轉(zhuǎn)換規(guī)則的一個例子是這樣一個轉(zhuǎn)換規(guī)則,其中當(dāng)比較兩個從不同的翻譯片斷中生成的輸入關(guān)鍵字時,兩個輸入關(guān)鍵字一般是不同的值,并且當(dāng)兩個輸入關(guān)鍵字是從相同的翻譯片斷中生成的時,這兩個輸入關(guān)鍵字總是相同的值。根據(jù)這樣一種轉(zhuǎn)換規(guī)則,通過確定任意兩個輸入關(guān)鍵字是相同的還是不同的,可以估計對于作為各個輸入關(guān)鍵字的源的每個翻譯片斷,源語言文本互相是否相同。因此,翻譯支持裝置10能夠通過使用預(yù)定轉(zhuǎn)換規(guī)則生成具有簡單編碼結(jié)構(gòu)的輸入關(guān)鍵字來快速確定對于每個翻譯片斷,源語言文本互相是否相同。
第一關(guān)鍵字生成單元23還可以根據(jù)預(yù)定的分類規(guī)則對生成的輸入關(guān)鍵字分類,并生成指示所述分類的類型信息。第一關(guān)鍵字生成單元23將輸入關(guān)鍵字提供給關(guān)鍵字搜索單元26。在對輸入關(guān)鍵字分類的情況下,第一關(guān)鍵字生成單元23還給關(guān)鍵字搜索單元26提供與輸入關(guān)鍵字相關(guān)的類型信息項。
在新翻譯之前,第二關(guān)鍵字生成單元24讀取多個翻譯記錄文件11中的每一個并生成一個翻譯記錄關(guān)鍵字,其中對于各個翻譯記錄文件11的每個翻譯片斷,基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼。在完成翻譯并且第二關(guān)鍵字生成單元24在存儲單元21中存儲了翻譯記錄文件11時,第二關(guān)鍵字生成單元24可生成翻譯記錄關(guān)鍵字并將其和翻譯記錄文件11存儲在一起。
在該情況下,預(yù)定的轉(zhuǎn)換規(guī)則與輸入關(guān)鍵字生成的規(guī)則相同。因此,通過確定輸入關(guān)鍵字和翻譯記錄關(guān)鍵字是否相同,能夠估計出作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本是否與每個元翻譯片段的源文本相同。
第二關(guān)鍵字生成單元24與多個翻譯記錄文件11中的每一個相關(guān)地生成存儲元信息和與每個翻譯片斷相對應(yīng)的翻譯記錄關(guān)鍵字的翻譯記錄關(guān)鍵字表12。第二關(guān)鍵字生成單元24讓存儲單元21存儲生成的翻譯記錄關(guān)鍵字表12。
第二關(guān)鍵字生成單元24還可以根據(jù)與用于輸入關(guān)鍵字的相同的分類規(guī)則對生成的翻譯記錄關(guān)鍵字分類。例如在對翻譯記錄關(guān)鍵字分類的情況下,第二關(guān)鍵字生成單元24能夠按類型對翻譯記錄關(guān)鍵字分類并將分類的翻譯記錄關(guān)鍵字存儲在翻譯記錄關(guān)鍵字表12中。同時,例如第二關(guān)鍵字生成單元24可以針對每種類型在翻譯記錄關(guān)鍵字表12的報頭中添加指示前導(dǎo)(leading)位置的指針。
在新的翻譯中,獲取單元25獲取翻譯記錄關(guān)鍵字并將其提供給關(guān)鍵字搜索單元26,其中所述翻譯記錄關(guān)鍵字是與多個翻譯記錄文件11中的每一個相關(guān)地基于預(yù)定的轉(zhuǎn)換規(guī)則從作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中編碼的。在該實施例中,對于每個翻譯記錄文件11,獲取單元25從存儲單元21中存儲的相應(yīng)的翻譯記錄關(guān)鍵字表12讀取翻譯記錄關(guān)鍵字。獲取單元25可以根據(jù)條件信息選擇翻譯記錄關(guān)鍵字表12,并從所選的翻譯記錄關(guān)鍵字表12中獲取翻譯記錄關(guān)鍵字。例如,獲取單元25可參照每個翻譯記錄關(guān)鍵字表12的元信息,選擇具有與條件信息匹配的屬性的翻譯記錄關(guān)鍵字表12,從所選的翻譯記錄關(guān)鍵字表12讀取翻譯記錄關(guān)鍵字??蛇x地,獲取單元25可以選擇所有的翻譯記錄關(guān)鍵字表12并從所有選擇的翻譯記錄關(guān)鍵字表12中獲取翻譯記錄關(guān)鍵字。
關(guān)鍵字搜索單元26相對于多個翻譯記錄文件11中的每一個,搜索是否存在與每個輸入關(guān)鍵字相匹配的翻譯記錄關(guān)鍵字。在該實施例中,關(guān)鍵字搜索單元26為多個翻譯記錄文件11中的每一個搜索從翻譯記錄關(guān)鍵字表12中讀取的翻譯記錄關(guān)鍵字,以確定是否存在與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。因此,關(guān)鍵字搜索單元26能夠搜索出翻譯記錄文件11中是否包含與源文本中包含的翻譯片斷相同的翻譯片斷。
在已經(jīng)對輸入關(guān)鍵字和翻譯記錄關(guān)鍵字分類的情況下,關(guān)鍵字搜索單元26可在依據(jù)類型信息限制翻譯記錄關(guān)鍵字之后搜索出是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。這能夠方便關(guān)鍵字搜索單元26快速執(zhí)行搜索。
在已經(jīng)基于條件信息存儲了翻譯記錄關(guān)鍵字表12的情況下,關(guān)鍵字搜索單元26搜索在從翻譯記錄關(guān)鍵字表12中讀取的翻譯記錄關(guān)鍵字中是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字,所述翻譯記錄關(guān)鍵字表12具有與用戶指定的條件信息匹配的元信息。這能夠減少要搜索的翻譯記錄文件11的數(shù)量,因此允許在短時間內(nèi)獲得搜索結(jié)果。
第一計數(shù)單元27參照關(guān)鍵字搜索單元26的搜索結(jié)果,計數(shù)具有與每個翻譯記錄文件11相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量。換句話說,第一計數(shù)單元27與各個翻譯記錄文件11相關(guān)地輸出指示估計與源文本的翻譯片斷相同的翻譯片段的數(shù)量的計數(shù)值。
確定單元28基于第一計數(shù)單元27對每一個翻譯記錄文件11的計數(shù)結(jié)果確定要在接收的源文本翻譯中使用的翻譯記錄文件11。換句話說,確定單元28基于第一計數(shù)單元27生成的計數(shù)值從存儲單元21中存儲的多個翻譯記錄文件11中確定適合在源文本翻譯中使用的翻譯記錄文件11。因此,確定單元28輸出包含具有與源文本中的翻譯片斷相同或類似的翻譯片段的源語言文本的翻譯記錄文件11。確定單元28將確定的翻譯記錄文件11提供給翻譯單元29。
當(dāng)利用確定單元28確定的翻譯記錄文件11翻譯源文本時,翻譯單元29執(zhí)行支持處理。一個例子是翻譯單元29一起顯示確定的翻譯記錄文件11和源文本。然后響應(yīng)于用戶的指令,翻譯單元29通過利用與翻譯記錄文件11中存儲的源語言文本對應(yīng)的目標語言文本,翻譯源文本的翻譯片斷中、與存儲在由確定單元28確定的翻譯記錄文件11中的源語言文本相同或類似的源語言文本相關(guān)的翻譯片斷。
輸出單元30輸出基于翻譯單元29的支持翻譯的源文本的目標語言文本。輸出單元30基于源語言文本和源文本的目標語言文本生成新的翻譯記錄文件11并將新的翻譯記錄文件11存儲在存儲單元21中。在該情況下,第二關(guān)鍵字生成單元24可生成翻譯記錄關(guān)鍵字以及翻譯記錄文件11,并將翻譯記錄關(guān)鍵字存儲在存儲單元21中。
由于翻譯支持裝置10通過利用輸入關(guān)鍵字和作為從文本轉(zhuǎn)換的值的翻譯記錄關(guān)鍵字確定文本之間的等同來搜索類似的翻譯記錄文件11,可以快速確定適于在源文本的翻譯中使用的翻譯記錄文件11。
圖2圖示了其中一個翻譯記錄文件11的結(jié)構(gòu)例子。翻譯記錄文件11包括元信息20、作為與為文本翻譯單元的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本、以及目標語言文本。元信息是描述翻譯記錄文件11的屬性的信息。例如,屬性信息可包括翻譯目標、字段、翻譯者、翻譯日期以及翻譯記錄文件11中存儲的翻譯日期和時間中的至少一個。翻譯記錄文件11將源語言文本和目標語言文本作為一對存儲在翻譯片斷的單元中。例如,在單個源語言文本句子與單個目標語言文本句子相對應(yīng)的情況下,所述單個源語言文本句子和單個目標語言文本句子構(gòu)成一個單個翻譯片斷。在兩個源語言文本句子與單個目標語言文本句子相對應(yīng)的情況下,所述兩個源語言文本句子和相應(yīng)的單個目標語言文本句子構(gòu)成一個單個翻譯片斷,或者,形成兩個翻譯片斷,其中兩個源語言文本句子中的每一個對應(yīng)于相同的目標語言文本句子。
圖3圖示了翻譯記錄關(guān)鍵字表12的例子。第二關(guān)鍵字生成單元24為每個翻譯記錄文件11生成翻譯記錄關(guān)鍵字表12。每個翻譯記錄關(guān)鍵字表12包括元信息和多個翻譯記錄關(guān)鍵字。翻譯記錄關(guān)鍵字表12可存儲按類型分類的翻譯記錄關(guān)鍵字,并在例如報頭中存儲每種類型的前導(dǎo)翻譯記錄關(guān)鍵字的位置。這使得關(guān)鍵字搜索單元26能夠快速搜索翻譯記錄關(guān)鍵字。所述翻譯記錄關(guān)鍵字表12可與指示翻譯記錄關(guān)鍵字的類型的各類信息項相關(guān)地存儲翻譯記錄關(guān)鍵字。
圖4圖示了輸入關(guān)鍵字或翻譯記錄關(guān)鍵字的生成操作和在第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24中的類型分類操作的流程圖例子。首先,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24分別從源語言文本中包含的每個詞的前導(dǎo)端和翻譯記錄文件11中選擇預(yù)定數(shù)量的字符,所述源語言文本是與接收的源文本中的其中一個翻譯片斷相對應(yīng)的分割部分,并且基于通過連接所選的字符生成的字符串而分別產(chǎn)生輸入關(guān)鍵字和翻譯記錄關(guān)鍵字(S11)。例如,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可以在具有等于或大于源語言文本中包含的詞中的預(yù)定數(shù)量(例如大于兩個字符)的字符的詞的前導(dǎo)端提取一個字符,所述源語言文本是與其中一個翻譯片斷相對應(yīng)的分割部分,并連接所提取的字符,由此分別生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。
如果作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中包含的詞的數(shù)量等于或少于預(yù)定的數(shù)量,則第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可從每個詞的前導(dǎo)端選擇第一預(yù)定數(shù)量的字符,并且基于通過連接所選的字符而生成的字符串來分別產(chǎn)生輸入關(guān)鍵字和翻譯記錄關(guān)鍵字;如果作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中包含的詞的數(shù)量超過了預(yù)定的數(shù)量,則第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可從每個詞的前導(dǎo)端選擇第二預(yù)定數(shù)量的字符,所述第二預(yù)定數(shù)量小于第一預(yù)定數(shù)量,并且基于通過連接所選的字符而生成的字符串來分別產(chǎn)生輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。一個例子是,如果單個翻譯片斷的詞的數(shù)量等于或少于6個,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24就能夠通過連接從每個詞的前導(dǎo)端提取的兩個字符來分別生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字;如果單個翻譯片斷的詞的數(shù)量超過6個,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24就能夠通過連接每個詞的前導(dǎo)端的一個字符來分別生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。因此,即使作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中的詞的數(shù)量很少,也能夠加強對翻譯片斷和其它翻譯片斷之間的等同性的識別。
與此相反,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可以從每個詞的末尾端提取預(yù)定數(shù)量的字符并分別生成其中所提取的字符被連接的輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。或者,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可以從預(yù)定的字符位置(例如詞的中間位置)提取預(yù)定數(shù)量的字符并分別生成其中所提取的字符被連接的輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。
第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可在不從作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中包含的詞中提取具有比預(yù)定數(shù)量少的字符數(shù)量的詞的字符的情況下,以及在如果要提取的詞的字符是預(yù)定字符(數(shù)字字符或符號)則不提取詞該字符的情況下,分別生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字。如果由于以上的原因不能提取字符,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24就將作為與其中一個翻譯片斷相對應(yīng)的分割部分的所有源語言文本分別指定為輸入關(guān)鍵字和翻譯記錄關(guān)鍵字,因為包含字符的翻譯片斷不正常。
接著,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24分別對生成的輸入關(guān)鍵字和翻譯記錄關(guān)鍵字按類型分類(S12)。例如,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24可以通過字符的數(shù)量分別對輸入關(guān)鍵字和翻譯記錄關(guān)鍵字進行分類,并且依據(jù)它們是否包含特殊的字符來進行分類。當(dāng)完成分類時,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24就分別輸出輸入關(guān)鍵字和翻譯記錄關(guān)鍵字以及指示分類結(jié)果的類型信息。
通過步驟S11和S12,第一關(guān)鍵字生成單元23和第二關(guān)鍵字生成單元24能夠容易地生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字以允許易于確定翻譯片斷的等同性或相似性,并且能夠生成類型信息以允許快速執(zhí)行搜索。
圖5和圖6圖示了從輸入源文本到輸出翻譯片斷的計數(shù)值的操作流程圖,其中在根據(jù)該實施例的翻譯支持裝置10中,輸入關(guān)鍵字和翻譯記錄關(guān)鍵字是互相一樣的。
輸入單元22接收源文本(S21)。然后輸入單元22接收用戶指定的條件作為條件信息(S22)。輸入單元22能夠接收例如指定包含在元信息(例如翻譯目標,字段,翻譯者,翻譯日期,以及翻譯日期和時間)中的屬性信息的條件信息作為條件信息。獲取單元25參照存儲單元21中存儲的多個翻譯記錄文件11中的每一個并識別與用戶指定的條件相匹配的翻譯記錄文件11(S23)。與此相反,獲取單元25可以參照每個翻譯記錄關(guān)鍵字表12并識別出一個翻譯記錄關(guān)鍵字表12。獲取單元25從存儲單元21中獲取多個識別出的翻譯記錄文件11中的每一個的翻譯記錄關(guān)鍵字表12(例如N個文件,其中N是大于1的整數(shù))(S24)。
第一計數(shù)單元27將N個識別出的翻譯記錄文件11的計數(shù)值P[1]至P[N]清除成0。計數(shù)值P[1]至P[N]表示對于每個翻譯記錄文件11來說與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的各個數(shù)量。當(dāng)多個翻譯記錄關(guān)鍵字與單個翻譯記錄文件11中的單個輸入關(guān)鍵字相同時,計數(shù)值P[1]至P[N]例如可以增加1。然后第一關(guān)鍵字生成單元23將1代入變量X(S26)。然后第一關(guān)鍵字生成單元23將1代入變量W(S27)。然后第一關(guān)鍵字生成單元23為源文本中的第W個翻譯片斷生成輸入關(guān)鍵字(S31)。然后第一關(guān)鍵字生成單元23為生成的輸入關(guān)鍵字生成類型信息(S32)。
關(guān)鍵字搜索單元26參照N個翻譯記錄關(guān)鍵字表12中的第X個翻譯記錄關(guān)鍵字表12,并提取具有與每個輸入關(guān)鍵字的類型信息相匹配的類型信息的翻譯記錄關(guān)鍵字(S33)。關(guān)鍵字搜索單元26檢測在步驟S33中提取的翻譯記錄關(guān)鍵字中是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字(S34)。
關(guān)鍵字搜索單元26確定在步驟S34中是否檢測到與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字(S35)。當(dāng)檢測到相同的翻譯記錄關(guān)鍵字時(步驟S35中的是),第一計數(shù)單元27通過將(1+P[X])代入到P[X]中將第X個翻譯記錄文件11的計數(shù)值加1(S36)。當(dāng)未檢測到相同的翻譯記錄關(guān)鍵字時(步驟S35中的否)或當(dāng)完成步驟S36的處理過程時,關(guān)鍵字搜索單元26確定對于源文本的最后一個翻譯片斷的處理是否完成(S37)。當(dāng)未完成對源文本的最后一個翻譯片斷的處理時(步驟S37中的否),將(W+Q)1代入變量W(S38),并且處理過程返回到步驟S31。這樣能夠檢測到與源文本的下一個翻譯片斷中的輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。
在步驟S37中,當(dāng)完成對源文本的最后一個翻譯片斷的處理時(步驟S37中的是),翻譯支持裝置10從步驟S31到步驟S37的循環(huán)處理中退出。通過步驟S31到步驟S37的處理,翻譯支持裝置10能夠計算出第X個翻譯記錄文件11的計數(shù)值P[X]。
當(dāng)完成對源文本的最后一個翻譯片斷的處理時(步驟S37中的是),確定變量X是否等于或大于N(S41)。當(dāng)變量X小于N時(步驟S41中的否),將(X+1)代入變量X(S42),處理過程返回到步驟S27。翻譯支持裝置10能夠獲得計數(shù)值P[1]至P[N],所述值是通過重復(fù)步驟S27到S42的循環(huán)處理過程、累計源文本的翻譯片斷與每個翻譯記錄文件11的翻譯記錄文件11相匹配的命中次數(shù)而計算出來的值。
當(dāng)完成最后一個翻譯記錄文件11的處理時(步驟S41中的是),第一計數(shù)單元27向確定單元28輸出N個識別出的翻譯記錄文件11的計數(shù)值P[1]至P[N](S43)。通過步驟S21到S43的處理,第一計數(shù)單元27能夠向確定單元28與各個翻譯記錄文件11相關(guān)地輸出表示與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的各個數(shù)量的計數(shù)值P[1]至P[N]。
圖7圖示了根據(jù)該實施例的確定單元28的結(jié)構(gòu)。一個例子是所述確定單元28可包括第一選擇單元41、第二計數(shù)單元42和第二選擇單元43。第一選擇單元41按照輸入關(guān)鍵字的數(shù)量比例的降序選擇預(yù)定數(shù)量的翻譯記錄文件11,所述輸入關(guān)鍵字具有與其相同的翻譯記錄關(guān)鍵字。第一選擇單元41例如能夠計算命中率,所述命中率是計數(shù)值P與多個翻譯記錄文件11中的每一個的翻譯片斷數(shù)量的比例,并從所述命中率中選擇預(yù)定數(shù)量的最高命中率。第一選擇單元41例如可以將多個翻譯記錄文件11中的每一個的命中率分配為計數(shù)值P與源文本中包含的翻譯片斷的數(shù)量的比例。選擇單元41可選擇以預(yù)定數(shù)量的最高命中次數(shù)來代替所述命中率。第一選擇單元41從存儲單元21中讀取與所選的命中率相對應(yīng)的翻譯記錄文件11并將其輸出給第二計數(shù)單元42。
第二計數(shù)單元42為第一選擇單元41所選的每個翻譯記錄文件11計數(shù)存儲與接收的源文本中的翻譯片斷相同或類似的源語言文本的翻譯記錄文件11中的翻譯片斷的數(shù)量。一個例子是第二計數(shù)單元42計數(shù)最佳匹配的數(shù)量或者為翻譯片斷生成語法樹,并計數(shù)語法樹中彼此相同或類似的節(jié)點的數(shù)量。第二選擇單元43基于第二計數(shù)單元42的計數(shù)結(jié)果選擇要在接收的源文本的翻譯中使用的翻譯記錄文件11。第二選擇單元43將所選的翻譯記錄文件11輸出給翻譯單元29。
圖8和圖9圖示了根據(jù)該實施例的確定單元28的操作流程圖。第一選擇單元41接收計數(shù)值P[1]至P[N](S51)。第一選擇單元41基于計數(shù)值P[1]至P[N]計數(shù)相應(yīng)的N個翻譯記錄文件11中的每一個的命中率(S52)。第一選擇單元41從N個翻譯記錄文件11中選擇具有高命中率的M個翻譯記錄文件11(S53)。M是小于N并且等于或大于1的整數(shù)。在步驟S53中,第一選擇單元41可選擇具有等于或大于預(yù)定門限值的命中率的翻譯記錄文件11。或者,第一選擇單元41可以選擇具有等于或大于預(yù)定門限值的命中次數(shù)的翻譯記錄文件11以代替命中率。
第二計數(shù)單元42將M個選擇的翻譯記錄文件11的計數(shù)值Q[1]至Q[M]清除成0(S54)。計數(shù)值Q[1]至Q[M]表示與用于翻譯記錄文件11的源文本相同的翻譯片斷的各個數(shù)量。第二計數(shù)單元42將1代入變量Y(S55)。第二計數(shù)單元42獲取作為與源文本中的其中一個翻譯片斷相對應(yīng)的分割部分的第Y個源語言文本(S56)。
第二計數(shù)單元42將1代入變量Z(S61)。然后第二計數(shù)單元42從M個翻譯記錄文件11中搜索第Z個翻譯記錄文件11并檢測是否存在與源文本中第Y個翻譯片斷相同或類似的翻譯片斷(S62)。換句話說,在步驟S62中,第二計數(shù)單元42從第Z個翻譯記錄文件11中檢測與第Y個翻譯片斷相同的翻譯片斷或與具有允許在第Y個翻譯片斷的翻譯中使用的等同程度的翻譯片斷。
第二計數(shù)單元42確定在步驟S62中是否檢測到相同的或類似的翻譯片斷(S63)。當(dāng)檢測到相同的或類似的翻譯片斷時(步驟S63中的是),第二計數(shù)單元42通過將(1+Q[Z])代入Q[Z]而將第Z個翻譯記錄文件11的計數(shù)值加1(S64)。當(dāng)未檢測到相同的或類似的翻譯片段時(步驟S63中的否),或者當(dāng)完成步驟S64的處理過程時,第二計數(shù)單元42確定變量Z是否等于或大于M(S65)。當(dāng)變量Z小于M時(步驟S65中的否),將(Z+1)代入變量Z(S66),并且處理過程返回到步驟S62。
在步驟S65中,當(dāng)變量Z等于或大于M時(步驟S65中的是),確定單元28從步驟S62到S66的循環(huán)處理過程中退出。通過步驟S62到S66的處理,確定單元28能夠?qū)⒕哂信c源文本的第Y個翻譯片斷相同或類似的翻譯片斷的翻譯記錄文件11的計數(shù)值加1。
第二計數(shù)單元42確定對源文本的最后一個翻譯片斷的處理是否完成(S71)。當(dāng)未完成對最后一個翻譯片斷的處理時(步驟S71中的否),將(Y+1)代入變量Y(S72),處理過程返回到步驟S56。
當(dāng)完成對最后一個翻譯片斷的處理時(步驟S72中的是),第二計數(shù)單元42基于M個所選的翻譯記錄文件11的計數(shù)值Q[1]至Q[M]來選擇一個要在源文本的翻譯中使用的翻譯記錄文件11(S73)。例如,第二計數(shù)單元42可以選擇一個具有較大計數(shù)值的翻譯記錄文件11。第二選擇單元43向翻譯單元29輸出所選的翻譯記錄文件11。通過步驟S51到S73的處理,確定單元28能夠確定用于翻譯的翻譯記錄文件11并將其提供給翻譯單元29。
翻譯支持裝置10通過使用輸入關(guān)鍵字和翻譯記錄關(guān)鍵字從大量的翻譯記錄文件11中縮小出與源文本類似的多個翻譯記錄文件11,直接比較作為與翻譯片斷相對應(yīng)的分割部分的源語言文本,并提取可用于翻譯的翻譯記錄文件11。由于翻譯支持裝置10首先執(zhí)行寬范圍搜索,然后執(zhí)行詳細的搜索,因此可以快速確定合適的翻譯記錄文件11。
圖10圖示了根據(jù)該實施例的修改的確定單元28的結(jié)構(gòu)。所述修改基本上具有與所述實施例相同的結(jié)構(gòu)。因此,在圖10中,對于基本上與圖7中所示的元件具有相同功能的元件使用與圖7中相同的附圖標記,并且除了所述實施例與下述修改之間的差別外,省略對該元件的描述。
根據(jù)所述修改的確定單元28包括第一選擇單元41、提取單元51和第三選擇單元52。
提取單元51從選自第一選擇單元41的翻譯記錄文件11中提取存儲與接收的源文本的每個翻譯片斷相同或相似的源語言文本的翻譯片斷,并生成一個新的翻譯記錄文件11。第三選擇單元52選擇提取單元51生成的新翻譯記錄文件11作為要添加到多個翻譯記錄文件11中的翻譯記錄文件11以便在后續(xù)的翻譯中使用。
圖11和12圖示了根據(jù)所述修改的確定單元28的操作流程圖。根據(jù)所述修改的確定單元28的操作流程圖基本上與圖8和圖9所示的流程圖相同,除了下述的各點。因此,除了步驟S81和S82外,省略對根據(jù)所述修改的確定單元28的操作流程圖的描述。
在步驟S81中,當(dāng)檢測到相同或類似的翻譯片斷時(步驟S63中的是),第三選擇單元52例如為每個檢測的翻譯片斷在內(nèi)部存儲器中注冊源語言文本和目標語言文本。在步驟S82中,第三選擇單元52通過使用為每個翻譯片斷注冊的源語言文本和目標語言文本生成一個新的翻譯記錄文件11并將生成的翻譯記錄文件11輸出給翻譯單元29作為在翻譯中使用的翻譯記錄文件11。根據(jù)所述修改,即使當(dāng)與作為翻譯目標的源文本相同或類似的文本被分布在多個翻譯記錄文件11中時,也可以將所述文本收集到單個的翻譯記錄文件11中并使用。
圖13圖示了根據(jù)本發(fā)明的一個實施例的計算機1900的硬件配置的例子。計算機1900包括中央處理單元(CPU)外圍部分、輸入/輸出部分、和傳統(tǒng)輸入/輸出部分。所述CPU外圍部分包括CPU 2000、隨機存取存儲器(RAM)2020、圖形控制器2075、和顯示器2080,這些都通過主控制器2082相互連接。輸入/輸出部分包括通信接口2030、硬盤驅(qū)動器2040、和壓縮盤只讀存儲器(CD-ROM)驅(qū)動器2060,這些都通過輸入/輸出 控制器2084連接到主控制器2082。傳統(tǒng)輸入/輸出部分包括ROM 2010、軟盤驅(qū)動器2050、和輸入/輸出芯片2070,這些都連接到輸入/輸出控制器2084。
主控制器2082將RAM 2020連接到以高傳輸速率訪問RAM 2020的CPU 2000和圖形控制器2075。CPU 2000基于ROM 2010和RAM2020中存儲的程序進行操作并控制各個單元。圖形控制器2075通過CPU 2000等獲取在RAM 2020中的幀緩沖上創(chuàng)建的圖像數(shù)據(jù)并在顯示器2080上顯示所述圖像數(shù)據(jù)。代替這種操作,圖形控制器2075可包括存儲由CPU 2000等創(chuàng)建的圖像數(shù)據(jù)的幀緩沖。
輸入/輸出控制器2084將主控制器2082連接到通信接口2030、硬盤驅(qū)動器2040和CD-ROM驅(qū)動器2060,這些都是以相對高的速度進行操作的輸入/輸出設(shè)備。通信接口2030在網(wǎng)絡(luò)上與其它設(shè)備通信。硬盤驅(qū)動器2040存儲計算機1900的CPU 2000使用的程序和數(shù)據(jù)。CD-ROM驅(qū)動器2060從CD-ROM 2095中讀取程序或數(shù)據(jù)并通過RAM 2020將其提供給硬盤驅(qū)動器2040。
輸入/輸出控制器2084與ROM 2010、軟盤驅(qū)動器2050和輸入/輸出芯片2070相連,這些都是以相對高的速度進行操作的輸入/輸出設(shè)備。ROM 2010存儲計算機1900在啟動時運行的引導(dǎo)程序以及依附于計算器1900的硬件的程序。軟盤驅(qū)動器2050從軟盤2090中讀取程序或數(shù)據(jù)并通過RAM 2020將其提謳歌能夠給硬盤驅(qū)動器2040。輸入/輸出芯片2070通過軟盤驅(qū)動器2050和其它端口連接各種輸入/輸出設(shè)備,例如并行端口、串行端口、鍵盤端口和鼠標端口。
用戶經(jīng)由記錄介質(zhì)提供通過RAM 2020提供給硬盤驅(qū)動器2040的程序,所述介質(zhì)例如是存儲程序的軟盤2090、CD-ROM 2095或者IC卡。從所述記錄介質(zhì)中讀取程序并通過RAM 2020將其安裝在計算機1900的硬盤驅(qū)動器2040中,并由CPU 2000運行。
安裝在計算機1900中的、能讓計算機1900成為翻譯支持裝置10的程序包括用作存儲單元21的存儲模塊、用作輸入單元22的輸入模塊、用作第一關(guān)鍵字生成單元23的第一關(guān)鍵字生成模塊、用作第二關(guān)鍵字生成單元24的第二關(guān)鍵字生成模塊、用作獲取單元25的獲取模塊、用作關(guān)鍵字搜索單元26的關(guān)鍵字搜索模塊、用作第一計數(shù)單元27的第一計數(shù)模塊、用作確定單元28的確定模塊、用作翻譯單元29的翻譯模塊、以及用作輸出單元30的輸出模塊。所述程序和/或模塊促使CPU 2000讓計算機1900工作為存儲單元21、輸入單元22、第一關(guān)鍵字生成單元23、第二關(guān)鍵字生成單元24、獲取單元25、關(guān)鍵字搜索單元26、第一計數(shù)單元27、確定單元28、翻譯單元29和輸出單元30。
可以將上述程序和/或模塊存儲在外部存儲介質(zhì)中。除軟盤2090和CD-ROM 2095外,所述存儲介質(zhì)的例子包括光記錄介質(zhì),例如DVD和CD,磁-光盤,例如MO,磁帶介質(zhì),以及半導(dǎo)體存儲器,例如IC卡。通過使用諸如硬盤或RAM等在服務(wù)器系統(tǒng)中提供的連接到專用通信網(wǎng)絡(luò)或因特網(wǎng)的存儲設(shè)備作為記錄介質(zhì),可以通過網(wǎng)絡(luò)將程序提供給計算機1900。
盡管已經(jīng)參照實施例描述了本發(fā)明,但是要理解的是本發(fā)明的技術(shù)范圍并不限于公開的示意性實施例。對于本領(lǐng)域的普通技術(shù)人員來說,可將各種修改和改進應(yīng)用到所述實施例中,這是顯而易見的。從權(quán)利要求書中可以明顯看出,采用對所述修改或改進的設(shè)置也包含在本發(fā)明的技術(shù)范圍內(nèi)。
權(quán)利要求
1.一種用于從多個翻譯記錄中選擇翻譯記錄以用于翻譯新接收的文本的裝置,所述多個翻譯記錄中的每一個相對于過去的翻譯結(jié)果存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言文本的至少一個對,其中所述源語言文本是與作為文本的翻譯單元的接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分,所述裝置包括第一關(guān)鍵字生成單元,被配置成相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;獲取單元,被配置成與多個翻譯記錄的每一個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;關(guān)鍵字搜索單元,被配置成相對于多個翻譯記錄的每一個來搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)單元,被配置成相對于多個翻譯記錄的每一個來計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;以及確定單元,被配置成基于相對于多個翻譯記錄的每一個的計數(shù)結(jié)果來確定在接收文本的翻譯中使用的翻譯記錄。
2.如權(quán)利要求1所述的裝置,還包括第二關(guān)鍵字生成單元,被配置成讀取多個翻譯記錄中的每一個并相對于讀取的翻譯記錄生成翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與讀取的翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼。
3.如權(quán)利要求2所述的裝置,其中第二關(guān)鍵字生成單元被配置成與多個翻譯記錄的每一個相關(guān)聯(lián)地生成相對于每個翻譯片斷存儲翻譯記錄關(guān)鍵字的翻譯記錄關(guān)鍵字表,并且其中關(guān)鍵字搜索單元被配置成相對于多個翻譯記錄的每一個,在從翻譯記錄關(guān)鍵字表中讀取的翻譯記錄關(guān)鍵字中搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。
4.如權(quán)利要求3所述的裝置,其中第二關(guān)鍵字生成單元被配置成基于翻譯記錄關(guān)鍵字的值給每個翻譯記錄關(guān)鍵字分配類型信息,使所述類型信息與多個翻譯記錄的每一個相關(guān)聯(lián),并生成翻譯記錄關(guān)鍵字表,其中基于每個翻譯片斷的類型信息分類翻譯記錄關(guān)鍵字并進行存儲,其中第一關(guān)鍵字生成單元被配置成相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中根據(jù)預(yù)定的轉(zhuǎn)換規(guī)則和基于每個輸入關(guān)鍵字的值的類型信息對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼,以及其中關(guān)鍵字搜索單元被配置成相對于多個翻譯記錄的每一個,搜索在翻譯記錄關(guān)鍵字表中基于與輸入關(guān)鍵字的類型信息相同的類型信息分類的翻譯記錄關(guān)鍵字中是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。
5.如權(quán)利要求3所述的裝置,其中多個翻譯記錄中的每一個還存儲元信息,所述元信息包括翻譯目標、字段、翻譯者、翻譯日期和翻譯日期與時間中的至少一項,其中第二關(guān)鍵字生成單元被配置成生成與多個翻譯記錄中的每一個相關(guān)聯(lián)地存儲元信息和至少一個翻譯記錄關(guān)鍵字的翻譯記錄關(guān)鍵字表,以及其中關(guān)鍵字搜索單元被配置成搜索在從具有與用戶指定的條件相匹配的元信息的翻譯記錄關(guān)鍵字表中讀取的翻譯記錄關(guān)鍵字中是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字。
6.如權(quán)利要求2所述的裝置,其中第一關(guān)鍵字生成單元被配置成基于其中從源語言文本中包含的每個詞的前導(dǎo)端選擇預(yù)定數(shù)量的字符并連接所選字符的字符串生成輸入關(guān)鍵字,所述源語言文本是與接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分,以及其中第二關(guān)鍵字生成單元被配置成與多個翻譯記錄中的每一個相關(guān)地、基于其中從源語言文本中包含的每個詞的前導(dǎo)端選擇預(yù)定數(shù)量的字符并連接所選字符的字符串生成翻譯記錄關(guān)鍵字,所述源語言文本是與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分。
7.如權(quán)利要求6所述的裝置,其中第一關(guān)鍵字生成單元和第二關(guān)鍵字生成單元被配置成分別基于其中當(dāng)作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本中包含的詞的數(shù)量等于或少于預(yù)定數(shù)量時從每個詞的前導(dǎo)端選擇第一預(yù)定數(shù)量的字符并連接所選字符的字符串,以及基于其中當(dāng)源語言文本中包含的詞的數(shù)量超過預(yù)定數(shù)量時從每個詞的前導(dǎo)端選擇比第一預(yù)定數(shù)量字符少的第二預(yù)定數(shù)量的字符并連接所選字符的字符串,生成輸入關(guān)鍵字和翻譯記錄關(guān)鍵字
8.如權(quán)利要求1所述的裝置,其中所述確定單元包括第一選擇單元,被配置成按照具有與之相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量比例的降序選擇預(yù)定數(shù)量的翻譯記錄;第二計數(shù)單元,被配置成相對于第一選擇單元所選的每個翻譯記錄,對翻譯記錄中的翻譯片斷的數(shù)量計數(shù),所述翻譯片斷存儲與接收文本中的翻譯片斷相同或類似的源語言文本;以及第二選擇單元,被配置成基于第二計數(shù)單元的計數(shù)結(jié)果來選擇要用于翻譯接收文本的翻譯記錄。
9.如權(quán)利要求1所述的裝置,其中所述確定單元包括第一選擇單元,被配置成按照具有與之相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量比例的降序選擇預(yù)定數(shù)量的翻譯記錄;提取單元,被配置成從第一選擇單元所選的翻譯記錄中提取存儲與接收文本中的每個翻譯片斷相同或類似的源語言文本的翻譯片斷,并生成新的翻譯記錄;以及第三選擇單元,被配置成選擇新的翻譯記錄作為要添加到在后續(xù)翻譯中使用的多個翻譯記錄中的翻譯記錄。
10.如權(quán)利要求1所述的裝置,還包括翻譯單元,被配置成通過使用與翻譯記錄中存儲的源語言文本相對應(yīng)的目標語言文本,翻譯接收文本的翻譯片斷中、與存儲在由確定單元確定的翻譯記錄中的源語言文本相同或類似的源語言文本相關(guān)的翻譯片斷。
11.一種通過使用用于從多個翻譯記錄中選擇翻譯記錄以翻譯新接收的文本的裝置來提供翻譯支持服務(wù)的方法,多個翻譯記錄中的每一個都相對于過去的翻譯結(jié)果存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言文本的至少一個對,其中所述源語言文本是與作為文本的翻譯單元的接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分,所述方法包括第一關(guān)鍵字生成步驟,相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;獲取步驟,與多個翻譯記錄的每一個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;關(guān)鍵字搜索步驟,相對于多個翻譯記錄的每一個來搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)步驟,相對于多個翻譯記錄的每一個來計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;以及確定步驟,基于相對于多個翻譯記錄的每一個的計數(shù)結(jié)果來確定在接收文本的翻譯中使用的翻譯記錄。
12.一種用于從多個翻譯記錄中選擇翻譯記錄以用于翻譯新接收文本的方法,多個翻譯記錄中的每一個都相對于過去的翻譯結(jié)果存儲源語言文本和與所述源語言文本相對應(yīng)的目標語言文本的至少一個對,其中所述源語言文本是與作為文本的翻譯單元的接收文本中的其中一個翻譯片斷相對應(yīng)的分割部分,所述方法包括存儲步驟,相對于每個翻譯片斷,存儲源語言文本和通過翻譯所述源語言文本獲得的目標語言文本的一個對,作為多個翻譯記錄中的一個翻譯記錄;第一關(guān)鍵字生成步驟,相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;獲取步驟,與多個翻譯記錄的每一個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定的轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的其中一個翻譯片斷相對應(yīng)的分割部分的源語言文本進行編碼;關(guān)鍵字搜索步驟,相對于多個翻譯記錄的每一個來搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)步驟,相對于多個翻譯記錄的每一個來計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;以及確定步驟,基于相對于多個翻譯記錄的每一個的計數(shù)結(jié)果來確定在接收文本的翻譯中使用的翻譯記錄;以及翻譯步驟,通過使用確定的翻譯記錄來翻譯接收的文本。
全文摘要
從多個翻譯記錄中選擇翻譯記錄以翻譯新接收文本的裝置,包括第一關(guān)鍵字生成單元,相對于接收文本中的每個翻譯片斷生成輸入關(guān)鍵字,其中基于預(yù)定轉(zhuǎn)換規(guī)則對作為與一個翻譯片斷相對應(yīng)的分割部分的源語言文本編碼;獲取單元,與多個翻譯記錄的每個相關(guān)聯(lián)地獲取翻譯記錄關(guān)鍵字,其中基于預(yù)定轉(zhuǎn)換規(guī)則對作為與翻譯記錄中的一個翻譯片斷相對應(yīng)的分割部分的源語言文本編碼;關(guān)鍵字搜索單元,相對于每個翻譯記錄搜索是否存在與每個輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字;第一計數(shù)單元,相對于每個翻譯記錄計數(shù)具有與輸入關(guān)鍵字相同的翻譯記錄關(guān)鍵字的輸入關(guān)鍵字的數(shù)量;確定單元,基于相對于每個翻譯記錄的計數(shù)結(jié)果確定在翻譯接收文本時用的翻譯記錄。
文檔編號G06F17/30GK1979467SQ20061014840
公開日2007年6月13日 申請日期2006年11月14日 優(yōu)先權(quán)日2005年12月8日
發(fā)明者赤羽永壽, 池座祐美 申請人:國際商業(yè)機器公司