一種查找相似的匹配句的系統(tǒng)及其方法

文檔序號(hào)：6461522閱讀：287來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種查找相似的匹配句的系統(tǒng)及其方法
技術(shù)領(lǐng)域：
一種查找相似的匹配句的系統(tǒng)及其方法，特別是指一種在查找匹配句的同時(shí)過(guò)濾不符合期望匹配度的句子的系統(tǒng)及其方法。
背景技術(shù)：
電腦輔助翻譯(Computer-assistedtranslation)，又稱機(jī)器輔助翻譯，顧名思義，是以電腦程序軟件輔助人工翻譯，電腦輔助翻譯中最常見(jiàn)的技術(shù)，便是翻譯記憶(Translation Memory; TM),這是以數(shù)據(jù)庫(kù)的方式存儲(chǔ)翻譯前的匹配句與翻譯后的翻譯結(jié)果，所述數(shù)據(jù)庫(kù)稱之為翻譯記憶庫(kù)。翻譯者在翻譯時(shí)利用電腦搜尋分析翻譯記憶庫(kù)，找出相同或相似(相似度高于一定值) 的句子，以提供翻譯者使用或參考。使用翻譯記憶，對(duì)于維持翻譯結(jié)果中相同詞匯以及句型的一致性有很大的幫助。
實(shí)際上，電腦輔助翻譯要達(dá)到令使用者滿意的翻譯效果，則所使用的數(shù) 據(jù)庫(kù)必需要達(dá)到一定的規(guī)模，也就是數(shù)據(jù)庫(kù)中要有大量的匹配句。所以，提供電腦輔助翻譯功能的電腦的性能以及實(shí)現(xiàn)電腦輔助翻譯的演算法將決定電腦輔助翻譯的執(zhí)行速度。
目前實(shí)現(xiàn)電腦輔助翻譯的演算法有很多，最精確的莫過(guò)于余弦定理匹配法，但使用余弦定理匹配法會(huì)導(dǎo)致數(shù)字裝置產(chǎn)生非常高的負(fù)載(loading)，因此通常只有具有強(qiáng)大運(yùn)算能力的集群服務(wù)器才適宜使用余弦定理匹配法。
綜上所述，可知現(xiàn)有技術(shù)中長(zhǎng)期以來(lái)一直存在使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題，因此有必要提出改進(jìn)的技術(shù)手段，來(lái)解決此一問(wèn)題
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)存在的使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題，本發(fā)明提供一種查找相似的匹配句的系統(tǒng)及其方法，其中
本發(fā)明所提供的查找相似的匹配句的系統(tǒng)，包括接收模塊、參數(shù)讀取模塊、存儲(chǔ)模塊、查找模塊、計(jì)算模塊、判斷模塊及顯示模塊，通過(guò)接收模塊接收待翻譯句，查找模塊至存儲(chǔ)模塊中查找最大相似度不小于期望匹配度的匹配句，并在計(jì)算模塊依據(jù)連續(xù)匹配單詞數(shù)、匹配單詞出現(xiàn)次數(shù)及最大相似度計(jì)算出最終相似度后，再由判斷模塊判斷最終相似度是否不小于參數(shù)讀取模塊所讀取的期望匹配度，若是，顯示模塊將會(huì)顯示出被查找出來(lái)的匹配句，由此解決現(xiàn)有技術(shù)所存在的問(wèn)題。
本發(fā)明所提供的查找相似的匹配句的方法，其包括有下列步驟讀取期望匹配度；接收待翻譯句；依據(jù)匹配單詞出現(xiàn)次數(shù)計(jì)算待翻譯句與匹配句間的最大相似度，并比對(duì)最大相似度與期望匹配度以過(guò)濾匹配句，其中匹配單詞出現(xiàn)次數(shù)是待翻譯句所有單詞在匹配句中出現(xiàn)的次數(shù)；依據(jù)連續(xù)匹配單詞數(shù)、匹配單詞出現(xiàn)次數(shù)及最大相似度計(jì)算最終相似度，其中連續(xù)匹配單詞數(shù) 是待翻譯句與匹配句間，連續(xù)最大數(shù)量的相同單詞；當(dāng)最終相似度不小于期望匹配度時(shí)，顯示匹配句，其通過(guò)在查找匹配句的同時(shí)排除肯定不符合期望匹配度的句子的方式來(lái)解決現(xiàn)有技術(shù)所存在的問(wèn)題。
本發(fā)明所提供的系統(tǒng)與方法如上，其與現(xiàn)有技術(shù)之間的差異在于本發(fā)明在查找匹配句的同時(shí)排除肯定不符合期望匹配度的句子，使得待翻譯句所需比對(duì)的匹配句大幅減少。通過(guò)上述的技術(shù)手段，本發(fā)明可以達(dá)成降低負(fù)載的技術(shù)功效。
附困說(shuō)明

圖1為本發(fā)明所述查找相似的匹配句的系統(tǒng)架構(gòu)圖；圖2A為本發(fā)明實(shí)施例所提的主數(shù)據(jù)表；圖2B為本發(fā)明實(shí)施例所提的索引數(shù)據(jù)表；圖3A為本發(fā)明實(shí)施例所提的矩陣；圖3B為本發(fā)明實(shí)施例所提的矩陣；圖4為本發(fā)明所提的查找相似的匹配句的方法流程圖；圖5為本發(fā)明實(shí)施例所提的查詢語(yǔ)法。
具體實(shí)施例方式
以下將配合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的詳細(xì)特征與實(shí)施方式，內(nèi) 容足以使任何熟悉相關(guān)技藝者輕易地理解本發(fā)明解決技術(shù)問(wèn)題所應(yīng)用的技術(shù)手4殳并據(jù)以實(shí)施，及理解實(shí)現(xiàn)本發(fā)明可達(dá)成的功效。
以下先以圖1本發(fā)明所^是的查找相似的匹配句的系統(tǒng)架構(gòu)圖來(lái)說(shuō)明本發(fā)明的系統(tǒng)運(yùn)作。如圖l所示，本發(fā)明的系統(tǒng)包含有接收模塊110、參數(shù)讀取模塊120、存儲(chǔ)模塊130、查找模塊150、計(jì)算模塊160、判斷模塊170及顯示模塊180。
接收模塊110負(fù)責(zé)接收使用者所輸入的待翻譯句。
參數(shù)讀取模塊120負(fù)責(zé)讀取期望匹配度，其中，參數(shù)讀取模塊120所讀取的期望匹配度可以為系統(tǒng)的預(yù)設(shè)值，也可以由使用者通過(guò)接收模塊110所輸入。
上述被讀取的期望匹配度為使用者可以接受的相似度，也就是待翻譯句與匹配句的相似度，一般而言，期望匹配度為一個(gè)百分比值，因此范圍落在 0~100之間，而且通常不會(huì)為0。
存儲(chǔ)模塊130負(fù)責(zé)存儲(chǔ)至少一筆的匹配句。其中，存儲(chǔ)模塊130存儲(chǔ)匹配句的方式可為數(shù)據(jù)庫(kù)存儲(chǔ)，例如以圖2A以及圖2B所示的主數(shù)據(jù)表310 與索引數(shù)據(jù)表320存儲(chǔ)匹配句，但本發(fā)明并不以該存儲(chǔ)方式為限。
存儲(chǔ)模塊130在將匹配句存入數(shù)據(jù)庫(kù)時(shí)，還可以先對(duì)匹配句的單詞進(jìn)行一部分的處理，例如刪去單詞中的所有標(biāo)點(diǎn)符號(hào)、將大寫(xiě)字母轉(zhuǎn)換為小寫(xiě)等，但本發(fā)明并不以此為限，所以在圖2B中，單詞'Tm"中的符號(hào)"'"沒(méi)有被存儲(chǔ)于索引資料表320，且大寫(xiě)字母'T，也被轉(zhuǎn)換為小寫(xiě)的"i"之后以 "im"的字串存儲(chǔ)于索引資料表320中。
查找模塊150會(huì)依據(jù)待翻譯句的所有單詞在某一匹配句中出現(xiàn)的次數(shù) (即匹配單詞出現(xiàn)次數(shù))，計(jì)算出待翻譯句與匹配句的最大相似度，并比對(duì)出最大相似度不小于期望匹配度的匹配句，也就是說(shuō)，查找模塊150會(huì)以上述的方法至存儲(chǔ)模塊130中查找出至少一句的匹配句。查找模塊150可通過(guò) 比對(duì)最大相似度與期望匹配度的動(dòng)作，將最大相似度小于期望匹配度的匹配句先行過(guò)濾，減低后續(xù)計(jì)算模塊160運(yùn)行時(shí)的負(fù)載。
值得一提的是，查找模塊150只會(huì)在存儲(chǔ)模塊130中進(jìn)行一次查找動(dòng)作，例如，當(dāng)本發(fā)明以數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)匹配句時(shí)，查找模塊150只會(huì)以一個(gè)查詢語(yǔ) 法查找出所有的匹配句，以此將查找的時(shí)間縮到最短，然匹配句存儲(chǔ)在數(shù)據(jù) 庫(kù)中的形式則非本發(fā)明的重點(diǎn)，凡可以一個(gè)查詢語(yǔ)法完成所有匹配句的查找的存儲(chǔ)形式均可為本發(fā)明所使用。
計(jì)算模塊160負(fù)責(zé)依據(jù)連續(xù)匹配單詞數(shù)、以及查找模塊150查找過(guò)程中所計(jì)算產(chǎn)生的匹配單詞出現(xiàn)次數(shù)與最大相似度計(jì)算出最終相似度。
上述的連續(xù)匹配單詞數(shù)是待翻if句與匹配句間，連續(xù)最大數(shù)量的相同單詞，其計(jì)算方式例如以矩陣匹配法的方式進(jìn)行計(jì)算，但本發(fā)明并不以此為限。
上述的矩陣匹配法，是先建立一個(gè)由待翻譯句與匹配句中的單詞所形成的矩陣，若待翻譯句的單詞為列，匹配句的單詞為行，則可以如圖3A的矩陣400所示，將行與列的數(shù)據(jù)為相同時(shí)的位置設(shè)為1,不同時(shí)則設(shè)為O,接著分別計(jì)算矩陣中所有左上右下的斜線的總合，如圖3B的矩陣400所示，粗黑框所形成的斜線為總合值最高的斜線，其值為2，因此得知此時(shí)的連續(xù) 匹配單詞數(shù)為2。
判斷模塊170負(fù)責(zé)判斷計(jì)算模塊160所計(jì)算產(chǎn)生的最終相似度是否不小于參數(shù)讀取模塊120所讀取的期望匹配度。
顯示模塊180負(fù)責(zé)在判斷模塊170判斷計(jì)算模塊160所計(jì)算產(chǎn)生的最終相似度不小于參數(shù)讀取模塊120所讀取的期望匹配度時(shí)，顯示匹配句。
另外，本發(fā)明還可具有一排序模塊190，排序模塊l卯負(fù)責(zé)在最終相似度不小于期望匹配度的匹配句有多句時(shí)，依據(jù)最終相似度排序各匹配句，使顯示模塊180可依最終相似度的排列順序顯示各匹配句。
接著以一個(gè)實(shí)施例來(lái)解說(shuō)本發(fā)明的運(yùn)作系統(tǒng)與方法，并請(qǐng)參照?qǐng)D4本發(fā) 明所才是的查找相似的匹配句的方法流程圖。當(dāng)使用者使用本發(fā)明進(jìn)行電腦輔助翻譯時(shí)，參數(shù)讀取模塊120會(huì)先讀取期望匹配度(步驟201),例如讀取系統(tǒng)預(yù)設(shè)值為"75%"，或是讀取接收模塊IIO所接收的使用者輸入的期望匹配度，在本實(shí)施例中，假設(shè)使用者輸入期望匹配度為"60%",接收模塊IIO在接收到使用者所輸入的期望匹配度后，參數(shù)讀取模塊120會(huì)讀取使用者輸入的"60%"做為期望匹配度。
在參數(shù)讀取模塊120讀取期望匹配度(步驟201 )之后，使用者輸入待翻譯句'Tmaman"，接收模塊110便接收到使用者所輸入的待翻譯句'Tm a man"(步驟210)。
接著，查找模塊150會(huì)至存儲(chǔ)模塊130中查找匹配句(步驟220),若存儲(chǔ)模塊130是以如圖2A以及圖2B所示的主數(shù)據(jù)表310與索引數(shù)據(jù)表32 存儲(chǔ)匹配句，則查找模塊150將會(huì)以如圖5所示的查詢語(yǔ)法500對(duì)數(shù)據(jù)庫(kù)進(jìn) 行一次的查找動(dòng)作，以此查找出匹配句。
其中，上述的查找模塊150所進(jìn)行的查找動(dòng)作(步驟220),會(huì)先計(jì)算出待翻譯句"I'm a man"的所有單詞("im，，、 "a" 、 "man")在匹配句'Tm a student, I study in school"的所有單詞("im，，、 "a" 、 "student"、 "i" 、 "study" 、 "in" 、 "school" 、 "man")中出現(xiàn)的次數(shù)的總合(此即匹配單詞出現(xiàn)次數(shù))為2，而后，將由待翻譯句與匹配句的兩個(gè)句子之間，選出單詞較多者作為單詞數(shù)的來(lái)源，由于待翻譯句'Tmaman，，與匹配句'Tm a student, I study in school"間，單詞較多的句子為匹配句，因此單詞數(shù)的來(lái) 源將由匹配句所提供，而匹配句有七個(gè)單詞，所以單詞數(shù)即為7，因此待翻譯句'Tm a man"對(duì)應(yīng)匹配句'Tm a student, I study in school"的最大相似度為28.6% (匹配單詞出現(xiàn)次數(shù)2除以單詞數(shù)7)，由于最大相似度僅有 28.6%,小于期望匹配度60%,因此匹配句'Tm a student, I study in school" 將不會(huì)被查找模塊150所查找出來(lái)。
若匹配句為'Tm a woman"，則查找模塊150經(jīng)由上述相同的計(jì)算方式，可以得到匹配單詞出現(xiàn)次數(shù)為2、最大相似度為66.7%,由于最大相似度不小于期望匹配度60%，因此匹配句Tm a woman"會(huì)被查找;漢塊150 查找出來(lái)。
在最大相似度不小于期望匹配度的匹配句都被查找模塊150查找出來(lái)(步驟220)之后，計(jì)算模塊160會(huì)依據(jù)待翻譯句對(duì)應(yīng)匹配句的匹配單詞出現(xiàn)次數(shù)、最大相似度以及連續(xù)匹配單詞數(shù)計(jì)算最終相似度(步驟230),其中，計(jì)算模塊160會(huì)先以如上述所提的矩陣匹配法等方式計(jì)算出連續(xù)匹配單詞數(shù)為2,并在計(jì)算出連續(xù)匹配單詞凄t后，以連續(xù)匹配單詞數(shù)除以匹配單詞出現(xiàn)次數(shù)后，再乘上最大相似度的計(jì)算方式計(jì)算最終相似度，也就是說(shuō)，匹配句"I'm a woman"的最終相似度為2+2x66.7% = 66.7%。
在計(jì)算模塊160計(jì)算出最終相似度(步驟230)之后，判斷模塊170會(huì) 判斷出匹配句'Tma woman"的最終相似度66.7°/。不小于期望匹配度(步驟 250),因此顯示模塊180會(huì)顯示出匹配句Tm a woman"(步驟270 )以及譯文"我是一個(gè)女人。"，以此提供使用者作為翻譯的參考。
而若查找模塊150查找出多句匹配句(步驟230)，且在經(jīng)過(guò)計(jì)算模塊 160計(jì)算最終相似度之后，不小于期望匹配度的匹配句不只一句(步驟250), 則本發(fā)明的排序^^莫塊190會(huì)將上述匹配句以最終匹配度的順序進(jìn)行排序(步驟260)，使顯示模塊180可顯示出排序后的匹配句(步驟270)。
綜上所述，可知本發(fā)明與現(xiàn)有技術(shù)之間的差異在于具有在查找匹配句的同時(shí)排除肯定不符合期望匹配度的句子的技術(shù)手段，通過(guò)此一技術(shù)手段可以使得待翻譯句所需比對(duì)的匹配句大幅減少，解決現(xiàn)有技術(shù)所存在的使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題，進(jìn)而達(dá)成降低負(fù)載的技術(shù)功效。
再者，本發(fā)明的查找相似的匹配句的方法，可實(shí)現(xiàn)在硬件、軟件或硬件與軟件的組合中，也可在電腦系統(tǒng)中以集中方式實(shí)現(xiàn)或以不同元件散布于若干互連的電腦系統(tǒng)的分散方式實(shí)現(xiàn)。
雖然本發(fā)明所提供的實(shí)施方式如上，所述的內(nèi)容并非用以直接限定本發(fā) 明的專利保護(hù)范圍。任何本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識(shí)者，在不脫離本發(fā)明所提供的精神和范圍之內(nèi)，在實(shí)施的形式上及細(xì)節(jié)上所為的更動(dòng)或潤(rùn) 飾，均屬本發(fā)明的專利保護(hù)范圍。因此本發(fā)明的專利保護(hù)范圍仍須以本說(shuō)明書(shū)所附的權(quán)利要求書(shū)所界定者為準(zhǔn)。
權(quán)利要求
1、一種查找相似的匹配句的方法，其特征在于，所述方法包含下列步驟讀取一期望匹配度；接收一待翻譯句；依據(jù)一匹配單詞出現(xiàn)次數(shù)計(jì)算所述待翻譯句與一匹配句間的一最大相似度，并比對(duì)所述最大相似度與所述期望匹配度以過(guò)濾所述匹配句，其中所述匹配單詞出現(xiàn)次數(shù)是所述待翻譯句的所有單詞在所述匹配句中出現(xiàn)的次數(shù)；依據(jù)一連續(xù)匹配單詞數(shù)、所述匹配單詞出現(xiàn)次數(shù)及所述最大相似度計(jì)算一最終相似度，其中所述連續(xù)匹配單詞數(shù)是所述待翻譯句與所述匹配句間，連續(xù)最大數(shù)量的相同單詞；及當(dāng)所述最終相似度不小于所述期望匹配度時(shí)，顯示所述匹配句。
2、如權(quán)利要求l所述的方法，其特征在于其中所述最大相似度是依據(jù)所述匹配單詞出現(xiàn)次數(shù)與一最多單詞數(shù)計(jì)算，所述最多單詞數(shù)是所述待翻譯句與所述匹配句中的單詞數(shù)較多者。
3、如權(quán)利要求l所述的方法，其特征在于其中所述方法更包含依據(jù) 最終相似度排序各所述匹配句的步驟。
4、如權(quán)利要求l所述的方法，其特征在于其中所述讀取所述期望匹配度的步驟是讀取接收被輸入的所述期望匹配度的步驟。
5、一種查找相似的匹配句的系統(tǒng)，其特征在于，所述系統(tǒng)包含一接收才莫塊，用于接收一待翻譯句；一參數(shù)讀卑4莫塊，用于讀取一期望匹配度；一存儲(chǔ)模塊，用于存儲(chǔ)至少一匹配句；一查找模塊，用于依據(jù)一匹配單詞出現(xiàn)次數(shù)計(jì)算所述待翻譯句與一匹配句間的一最大相似度，并比對(duì)所述最大相似度與所述期望匹配度以過(guò)濾所述匹配句，其中所述匹配單詞出現(xiàn)次數(shù)是所述待翻譯句的所有單詞在所述匹配句中出現(xiàn)的次數(shù)；一計(jì)算模塊，用于依據(jù)一連續(xù)匹配單詞數(shù)、所述匹配單詞出現(xiàn)次數(shù)及所述最大相似度計(jì)算一最終相似度，其中所述連續(xù)匹配單詞數(shù)是所述待翻譯句與所述匹配句間，連續(xù)最大數(shù)量的相同單詞；一判斷模塊，用于判斷所述最終相似度是否不小于所述期望匹配度；及一顯示模塊，用于在所述判斷模塊判斷所述最終相似度不小于所述期望匹配度時(shí)，顯示所述匹配句。
6、如權(quán)利要求5所述的方法，其特征在于其中所述最大相似度是依據(jù)所述匹配單詞出現(xiàn)次數(shù)與一最多單詞數(shù)計(jì)算，所述最多單詞數(shù)是所述待翻譯句與所述匹配句中的單詞數(shù)較多者。
7、如權(quán)利要求5所述的方法，其特征在于其中所述計(jì)算模塊是以矩陣匹配法計(jì)算所述連續(xù)匹配單詞數(shù)。
8、如權(quán)利要求5所述的方法，其特征在于其中所述系統(tǒng)更包含一排序模塊，用于依據(jù)所述最終相似度排序各所述匹配句。
9、如權(quán)利要求5所述的方法，其特征在于其中所述接收模塊更用于接收被輸入的所述期望匹配度，并由所述參數(shù)讀取模塊讀取。
全文摘要
一種查找相似的匹配句的系統(tǒng)及其方法，其通過(guò)在查找匹配句的同時(shí)過(guò)濾肯定不符合期望匹配度的句子，使得與待翻譯句進(jìn)行相似度比對(duì)的匹配句大幅減少，如此可以解決現(xiàn)有技術(shù)中所存在的使用精確的電腦輔助翻譯演算法會(huì)導(dǎo)致負(fù)載較高的問(wèn)題，以此可以達(dá)成降低負(fù)載的技術(shù)功效。
文檔編號(hào)G06F17/30GK101533391SQ20081008475
公開(kāi)日2009年9月16日申請(qǐng)日期2008年3月14日優(yōu)先權(quán)日2008年3月14日
發(fā)明者輝王, 邱全成申請(qǐng)人:英業(yè)達(dá)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邱全成;王輝
技術(shù)所有人：英業(yè)達(dá)股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

字符串相似度匹配算法相關(guān)技術(shù)

excel相似度匹配相關(guān)技術(shù)

中文相似度匹配算法相關(guān)技術(shù)

java字符串相似度匹配相關(guān)技術(shù)

excel相似匹配相關(guān)技術(shù)

語(yǔ)音相似度匹配算法相關(guān)技術(shù)

相似度匹配相關(guān)技術(shù)

相似度匹配算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種查找相似的匹配句的系統(tǒng)及其方法