專利名稱:一種查找相似的匹配句的系統(tǒng)及其方法
技術(shù)領(lǐng)域:
一種查找相似的匹配句的系統(tǒng)及其方法,特別是指一種在查找匹配句的 同時(shí)過(guò)濾不符合期望匹配度的句子的系統(tǒng)及其方法。
背景技術(shù):
電腦輔助翻譯(Computer-assistedtranslation),又稱機(jī)器輔助翻譯,顧 名思義,是以電腦程序軟件輔助人工翻譯,電腦輔助翻譯中最常見(jiàn)的技術(shù), 便是翻譯記憶(Translation Memory; TM),這是以數(shù)據(jù)庫(kù)的方式存儲(chǔ)翻譯 前的匹配句與翻譯后的翻譯結(jié)果,所述數(shù)據(jù)庫(kù)稱之為翻譯記憶庫(kù)。翻譯者在 翻譯時(shí)利用電腦搜尋分析翻譯記憶庫(kù),找出相同或相似(相似度高于一定值) 的句子,以提供翻譯者使用或參考。使用翻譯記憶,對(duì)于維持翻譯結(jié)果中相 同詞匯以及句型的 一 致性有很大的幫助。
實(shí)際上,電腦輔助翻譯要達(dá)到令使用者滿意的翻譯效果,則所使用的數(shù) 據(jù)庫(kù)必需要達(dá)到一定的規(guī)模,也就是數(shù)據(jù)庫(kù)中要有大量的匹配句。所以,提 供電腦輔助翻譯功能的電腦的性能以及實(shí)現(xiàn)電腦輔助翻譯的演算法將決定 電腦輔助翻譯的執(zhí)行速度。
目前實(shí)現(xiàn)電腦輔助翻譯的演算法有很多,最精確的莫過(guò)于余弦定理匹配 法,但使用余弦定理匹配法會(huì)導(dǎo)致數(shù)字裝置產(chǎn)生非常高的負(fù)載(loading), 因此通常只有具有強(qiáng)大運(yùn)算能力的集群服務(wù)器才適宜使用余弦定理匹配法。
綜上所述,可知現(xiàn)有技術(shù)中長(zhǎng)期以來(lái)一直存在使用精確的電腦輔助翻譯 演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題,因此有必要提出改進(jìn)的技術(shù)手段,來(lái)解決此 一問(wèn)題
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)存在的使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較 高的問(wèn)題,本發(fā)明提供一種查找相似的匹配句的系統(tǒng)及其方法,其中
本發(fā)明所提供的查找相似的匹配句的系統(tǒng),包括接收模塊、參數(shù)讀取 模塊、存儲(chǔ)模塊、查找模塊、計(jì)算模塊、判斷模塊及顯示模塊,通過(guò)接收模 塊接收待翻譯句,查找模塊至存儲(chǔ)模塊中查找最大相似度不小于期望匹配度 的匹配句,并在計(jì)算模塊依據(jù)連續(xù)匹配單詞數(shù)、匹配單詞出現(xiàn)次數(shù)及最大相 似度計(jì)算出最終相似度后,再由判斷模塊判斷最終相似度是否不小于參數(shù)讀 取模塊所讀取的期望匹配度,若是,顯示模塊將會(huì)顯示出被查找出來(lái)的匹配 句,由此解決現(xiàn)有技術(shù)所存在的問(wèn)題。
本發(fā)明所提供的查找相似的匹配句的方法,其包括有下列步驟讀取期 望匹配度;接收待翻譯句;依據(jù)匹配單詞出現(xiàn)次數(shù)計(jì)算待翻譯句與匹配句間 的最大相似度,并比對(duì)最大相似度與期望匹配度以過(guò)濾匹配句,其中匹配單 詞出現(xiàn)次數(shù)是待翻譯句所有單詞在匹配句中出現(xiàn)的次數(shù);依據(jù)連續(xù)匹配單詞 數(shù)、匹配單詞出現(xiàn)次數(shù)及最大相似度計(jì)算最終相似度,其中連續(xù)匹配單詞數(shù) 是待翻譯句與匹配句間,連續(xù)最大數(shù)量的相同單詞;當(dāng)最終相似度不小于期 望匹配度時(shí),顯示匹配句,其通過(guò)在查找匹配句的同時(shí)排除肯定不符合期望 匹配度的句子的方式來(lái)解決現(xiàn)有技術(shù)所存在的問(wèn)題。
本發(fā)明所提供的系統(tǒng)與方法如上,其與現(xiàn)有技術(shù)之間的差異在于本發(fā)明 在查找匹配句的同時(shí)排除肯定不符合期望匹配度的句子,使得待翻譯句所需 比對(duì)的匹配句大幅減少。通過(guò)上述的技術(shù)手段,本發(fā)明可以達(dá)成降低負(fù)載的 技術(shù)功效。
附困說(shuō)明
圖1為本發(fā)明所述查找相似的匹配句的系統(tǒng)架構(gòu)圖; 圖2A為本發(fā)明實(shí)施例所提的主數(shù)據(jù)表; 圖2B為本發(fā)明實(shí)施例所提的索引數(shù)據(jù)表; 圖3A為本發(fā)明實(shí)施例所提的矩陣; 圖3B為本發(fā)明實(shí)施例所提的矩陣;圖4為本發(fā)明所提的查找相似的匹配句的方法流程圖; 圖5為本發(fā)明實(shí)施例所提的查詢語(yǔ)法。
具體實(shí)施例方式
以下將配合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的詳細(xì)特征與實(shí)施方式,內(nèi) 容足以使任何熟悉相關(guān)技藝者輕易地理解本發(fā)明解決技術(shù)問(wèn)題所應(yīng)用的技 術(shù)手4殳并據(jù)以實(shí)施,及理解實(shí)現(xiàn)本發(fā)明可達(dá)成的功效。
以下先以圖1本發(fā)明所^是的查找相似的匹配句的系統(tǒng)架構(gòu)圖來(lái)說(shuō)明本 發(fā)明的系統(tǒng)運(yùn)作。如圖l所示,本發(fā)明的系統(tǒng)包含有接收模塊110、參數(shù)讀 取模塊120、存儲(chǔ)模塊130、查找模塊150、計(jì)算模塊160、判斷模塊170及 顯示模塊180。
接收模塊110負(fù)責(zé)接收使用者所輸入的待翻譯句。
參數(shù)讀取模塊120負(fù)責(zé)讀取期望匹配度,其中,參數(shù)讀取模塊120所讀 取的期望匹配度可以為系統(tǒng)的預(yù)設(shè)值,也可以由使用者通過(guò)接收模塊110所 輸入。
上述被讀取的期望匹配度為使用者可以接受的相似度,也就是待翻譯句 與匹配句的相似度, 一般而言,期望匹配度為一個(gè)百分比值,因此范圍落在 0~100之間,而且通常不會(huì)為0。
存儲(chǔ)模塊130負(fù)責(zé)存儲(chǔ)至少一筆的匹配句。其中,存儲(chǔ)模塊130存儲(chǔ)匹 配句的方式可為數(shù)據(jù)庫(kù)存儲(chǔ),例如以圖2A以及圖2B所示的主數(shù)據(jù)表310 與索引數(shù)據(jù)表320存儲(chǔ)匹配句,但本發(fā)明并不以該存儲(chǔ)方式為限。
存儲(chǔ)模塊130在將匹配句存入數(shù)據(jù)庫(kù)時(shí),還可以先對(duì)匹配句的單詞進(jìn)行 一部分的處理,例如刪去單詞中的所有標(biāo)點(diǎn)符號(hào)、將大寫(xiě)字母轉(zhuǎn)換為小寫(xiě)等, 但本發(fā)明并不以此為限,所以在圖2B中,單詞'Tm"中的符號(hào)"'"沒(méi)有 被存儲(chǔ)于索引資料表320,且大寫(xiě)字母'T,也被轉(zhuǎn)換為小寫(xiě)的"i"之后以 "im"的字串存儲(chǔ)于索引資料表320中。
查找模塊150會(huì)依據(jù)待翻譯句的所有單詞在某一匹配句中出現(xiàn)的次數(shù) (即匹配單詞出現(xiàn)次數(shù)),計(jì)算出待翻譯句與匹配句的最大相似度,并比對(duì)出最大相似度不小于期望匹配度的匹配句,也就是說(shuō),查找模塊150會(huì)以上 述的方法至存儲(chǔ)模塊130中查找出至少一句的匹配句。查找模塊150可通過(guò) 比對(duì)最大相似度與期望匹配度的動(dòng)作,將最大相似度小于期望匹配度的匹配 句先行過(guò)濾,減低后續(xù)計(jì)算模塊160運(yùn)行時(shí)的負(fù)載。
值得一提的是,查找模塊150只會(huì)在存儲(chǔ)模塊130中進(jìn)行一次查找動(dòng)作, 例如,當(dāng)本發(fā)明以數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)匹配句時(shí),查找模塊150只會(huì)以一個(gè)查詢語(yǔ) 法查找出所有的匹配句,以此將查找的時(shí)間縮到最短,然匹配句存儲(chǔ)在數(shù)據(jù) 庫(kù)中的形式則非本發(fā)明的重點(diǎn),凡可以一個(gè)查詢語(yǔ)法完成所有匹配句的查找 的存儲(chǔ)形式均可為本發(fā)明所使用。
計(jì)算模塊160負(fù)責(zé)依據(jù)連續(xù)匹配單詞數(shù)、以及查找模塊150查找過(guò)程中 所計(jì)算產(chǎn)生的匹配單詞出現(xiàn)次數(shù)與最大相似度計(jì)算出最終相似度。
上述的連續(xù)匹配單詞數(shù)是待翻if句與匹配句間,連續(xù)最大數(shù)量的相同單 詞,其計(jì)算方式例如以矩陣匹配法的方式進(jìn)行計(jì)算,但本發(fā)明并不以此為限。
上述的矩陣匹配法,是先建立一個(gè)由待翻譯句與匹配句中的單詞所形成 的矩陣,若待翻譯句的單詞為列,匹配句的單詞為行,則可以如圖3A的矩 陣400所示,將行與列的數(shù)據(jù)為相同時(shí)的位置設(shè)為1,不同時(shí)則設(shè)為O,接 著分別計(jì)算矩陣中所有左上右下的斜線的總合,如圖3B的矩陣400所示, 粗黑框所形成的斜線為總合值最高的斜線,其值為2,因此得知此時(shí)的連續(xù) 匹配單詞數(shù)為2。
判斷模塊170負(fù)責(zé)判斷計(jì)算模塊160所計(jì)算產(chǎn)生的最終相似度是否不小 于參數(shù)讀取模塊120所讀取的期望匹配度。
顯示模塊180負(fù)責(zé)在判斷模塊170判斷計(jì)算模塊160所計(jì)算產(chǎn)生的最終 相似度不小于參數(shù)讀取模塊120所讀取的期望匹配度時(shí),顯示匹配句。
另外,本發(fā)明還可具有一排序模塊190,排序模塊l卯負(fù)責(zé)在最終相似 度不小于期望匹配度的匹配句有多句時(shí),依據(jù)最終相似度排序各匹配句,使 顯示模塊180可依最終相似度的排列順序顯示各匹配句。
接著以一個(gè)實(shí)施例來(lái)解說(shuō)本發(fā)明的運(yùn)作系統(tǒng)與方法,并請(qǐng)參照?qǐng)D4本發(fā) 明所才是的查找相似的匹配句的方法流程圖。當(dāng)使用者使用本發(fā)明進(jìn)行電腦輔助翻譯時(shí),參數(shù)讀取模塊120會(huì)先讀取 期望匹配度(步驟201),例如讀取系統(tǒng)預(yù)設(shè)值為"75%",或是讀取接收 模塊IIO所接收的使用者輸入的期望匹配度,在本實(shí)施例中,假設(shè)使用者輸 入期望匹配度為"60%",接收模塊IIO在接收到使用者所輸入的期望匹配 度后,參數(shù)讀取模塊120會(huì)讀取使用者輸入的"60%"做為期望匹配度。
在參數(shù)讀取模塊120讀取期望匹配度(步驟201 )之后,使用者輸入待 翻譯句'Tmaman",接收模塊110便接收到使用者所輸入的待翻譯句'Tm a man"(步驟210)。
接著,查找模塊150會(huì)至存儲(chǔ)模塊130中查找匹配句(步驟220),若 存儲(chǔ)模塊130是以如圖2A以及圖2B所示的主數(shù)據(jù)表310與索引數(shù)據(jù)表32 存儲(chǔ)匹配句,則查找模塊150將會(huì)以如圖5所示的查詢語(yǔ)法500對(duì)數(shù)據(jù)庫(kù)進(jìn) 行一次的查找動(dòng)作,以此查找出匹配句。
其中,上述的查找模塊150所進(jìn)行的查找動(dòng)作(步驟220),會(huì)先計(jì)算 出待翻譯句"I'm a man"的所有單詞("im,, 、 "a" 、 "man")在匹配 句'Tm a student, I study in school"的所有單詞("im,, 、 "a" 、 "student"、 "i" 、 "study" 、 "in" 、 "school" 、 "man")中出現(xiàn)的次數(shù)的總合(此 即匹配單詞出現(xiàn)次數(shù))為2,而后,將由待翻譯句與匹配句的兩個(gè)句子之間, 選出單詞較多者作為單詞數(shù)的來(lái)源,由于待翻譯句'Tmaman,,與匹配句'Tm a student, I study in school"間,單詞較多的句子為匹配句,因此單詞數(shù)的來(lái) 源將由匹配句所提供,而匹配句有七個(gè)單詞,所以單詞數(shù)即為7,因此待翻 譯句'Tm a man"對(duì)應(yīng)匹配句'Tm a student, I study in school"的最大相似 度為28.6% (匹配單詞出現(xiàn)次數(shù)2除以單詞數(shù)7),由于最大相似度僅有 28.6%,小于期望匹配度60%,因此匹配句'Tm a student, I study in school" 將不會(huì)被查找模塊150所查找出來(lái)。
若匹配句為'Tm a woman",則查找模塊150經(jīng)由上述相同的計(jì)算方 式,可以得到匹配單詞出現(xiàn)次數(shù)為2、最大相似度為66.7%,由于最大相似 度不小于期望匹配度60%,因此匹配句Tm a woman"會(huì)被查找;漢塊150 查找出來(lái)。
在最大相似度不小于期望匹配度的匹配句都被查找模塊150查找出來(lái)(步驟220)之后,計(jì)算模塊160會(huì)依據(jù)待翻譯句對(duì)應(yīng)匹配句的匹配單詞出 現(xiàn)次數(shù)、最大相似度以及連續(xù)匹配單詞數(shù)計(jì)算最終相似度(步驟230),其 中,計(jì)算模塊160會(huì)先以如上述所提的矩陣匹配法等方式計(jì)算出連續(xù)匹配單 詞數(shù)為2,并在計(jì)算出連續(xù)匹配單詞凄t后,以連續(xù)匹配單詞數(shù)除以匹配單詞 出現(xiàn)次數(shù)后,再乘上最大相似度的計(jì)算方式計(jì)算最終相似度,也就是說(shuō),匹 配句"I'm a woman"的最終相似度為2+2x66.7% = 66.7%。
在計(jì)算模塊160計(jì)算出最終相似度(步驟230)之后,判斷模塊170會(huì) 判斷出匹配句'Tma woman"的最終相似度66.7°/。不小于期望匹配度(步驟 250),因此顯示模塊180會(huì)顯示出匹配句Tm a woman"(步驟270 )以 及譯文"我是一個(gè)女人。",以此提供使用者作為翻譯的參考。
而若查找模塊150查找出多句匹配句(步驟230),且在經(jīng)過(guò)計(jì)算模塊 160計(jì)算最終相似度之后,不小于期望匹配度的匹配句不只一句(步驟250), 則本發(fā)明的排序^^莫塊190會(huì)將上述匹配句以最終匹配度的順序進(jìn)行排序(步 驟260),使顯示模塊180可顯示出排序后的匹配句(步驟270)。
綜上所述,可知本發(fā)明與現(xiàn)有技術(shù)之間的差異在于具有在查找匹配句的 同時(shí)排除肯定不符合期望匹配度的句子的技術(shù)手段,通過(guò)此一技術(shù)手段可以 使得待翻譯句所需比對(duì)的匹配句大幅減少,解決現(xiàn)有技術(shù)所存在的使用精確 的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題,進(jìn)而達(dá)成降低負(fù)載的技術(shù)功效。
再者,本發(fā)明的查找相似的匹配句的方法,可實(shí)現(xiàn)在硬件、軟件或硬件 與軟件的組合中,也可在電腦系統(tǒng)中以集中方式實(shí)現(xiàn)或以不同元件散布于若 干互連的電腦系統(tǒng)的分散方式實(shí)現(xiàn)。
雖然本發(fā)明所提供的實(shí)施方式如上,所述的內(nèi)容并非用以直接限定本發(fā) 明的專利保護(hù)范圍。任何本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識(shí)者,在不脫離 本發(fā)明所提供的精神和范圍之內(nèi),在實(shí)施的形式上及細(xì)節(jié)上所為的更動(dòng)或潤(rùn) 飾,均屬本發(fā)明的專利保護(hù)范圍。因此本發(fā)明的專利保護(hù)范圍仍須以本說(shuō)明 書(shū)所附的權(quán)利要求書(shū)所界定者為準(zhǔn)。
權(quán)利要求
1、一種查找相似的匹配句的方法,其特征在于,所述方法包含下列步驟讀取一期望匹配度;接收一待翻譯句;依據(jù)一匹配單詞出現(xiàn)次數(shù)計(jì)算所述待翻譯句與一匹配句間的一最大相似度,并比對(duì)所述最大相似度與所述期望匹配度以過(guò)濾所述匹配句,其中所述匹配單詞出現(xiàn)次數(shù)是所述待翻譯句的所有單詞在所述匹配句中出現(xiàn)的次數(shù);依據(jù)一連續(xù)匹配單詞數(shù)、所述匹配單詞出現(xiàn)次數(shù)及所述最大相似度計(jì)算一最終相似度,其中所述連續(xù)匹配單詞數(shù)是所述待翻譯句與所述匹配句間,連續(xù)最大數(shù)量的相同單詞;及當(dāng)所述最終相似度不小于所述期望匹配度時(shí),顯示所述匹配句。
2、 如權(quán)利要求l所述的方法,其特征在于其中所述最大相似度是依 據(jù)所述匹配單詞出現(xiàn)次數(shù)與一最多單詞數(shù)計(jì)算,所述最多單詞數(shù)是所述待翻 譯句與所述匹配句中的單詞數(shù)較多者。
3、 如權(quán)利要求l所述的方法,其特征在于其中所述方法更包含依據(jù) 最終相似度排序各所述匹配句的步驟。
4、 如權(quán)利要求l所述的方法,其特征在于其中所述讀取所述期望匹 配度的步驟是讀取接收被輸入的所述期望匹配度的步驟。
5、 一種查找相似的匹配句的系統(tǒng),其特征在于,所述系統(tǒng)包含 一接收才莫塊,用于接收一待翻譯句;一參數(shù)讀卑4莫塊,用于讀取一期望匹配度; 一存儲(chǔ)模塊,用于存儲(chǔ)至少一匹配句;一查找模塊,用于依據(jù)一 匹配單詞出現(xiàn)次數(shù)計(jì)算所述待翻譯句與一 匹配 句間的一最大相似度,并比對(duì)所述最大相似度與所述期望匹配度以過(guò)濾所述匹配句,其中所述匹配單詞出現(xiàn)次數(shù)是所述待翻譯句的所有單詞在所述匹配句中出現(xiàn)的次數(shù);一計(jì)算模塊,用于依據(jù)一連續(xù)匹配單詞數(shù)、所述匹配單詞出現(xiàn)次數(shù)及所 述最大相似度計(jì)算一最終相似度,其中所述連續(xù)匹配單詞數(shù)是所述待翻譯句與所述匹配句間,連續(xù)最大數(shù)量的相同單詞;一判斷模塊,用于判斷所述最終相似度是否不小于所述期望匹配度;及一顯示模塊,用于在所述判斷模塊判斷所述最終相似度不小于所述期望 匹配度時(shí),顯示所述匹配句。
6、 如權(quán)利要求5所述的方法,其特征在于其中所述最大相似度是依 據(jù)所述匹配單詞出現(xiàn)次數(shù)與 一最多單詞數(shù)計(jì)算,所述最多單詞數(shù)是所述待翻 譯句與所述匹配句中的單詞數(shù)較多者。
7、 如權(quán)利要求5所述的方法,其特征在于其中所述計(jì)算模塊是以矩 陣匹配法計(jì)算所述連續(xù)匹配單詞數(shù)。
8、 如權(quán)利要求5所述的方法,其特征在于其中所述系統(tǒng)更包含一排 序模塊,用于依據(jù)所述最終相似度排序各所述匹配句。
9、 如權(quán)利要求5所述的方法,其特征在于其中所述接收模塊更用于 接收被輸入的所述期望匹配度,并由所述參數(shù)讀取模塊讀取。
全文摘要
一種查找相似的匹配句的系統(tǒng)及其方法,其通過(guò)在查找匹配句的同時(shí)過(guò)濾肯定不符合期望匹配度的句子,使得與待翻譯句進(jìn)行相似度比對(duì)的匹配句大幅減少,如此可以解決現(xiàn)有技術(shù)中所存在的使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題,以此可以達(dá)成降低負(fù)載的技術(shù)功效。
文檔編號(hào)G06F17/30GK101533391SQ20081008475
公開(kāi)日2009年9月16日 申請(qǐng)日期2008年3月14日 優(yōu)先權(quán)日2008年3月14日
發(fā)明者輝 王, 邱全成 申請(qǐng)人:英業(yè)達(dá)股份有限公司