国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法

      文檔序號:6493214閱讀:586來源:國知局
      維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法
      【專利摘要】本發(fā)明公開了維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,包括①記憶庫結(jié)構(gòu)和管理、②維漢句子對齊存儲、③翻譯記憶檢索和④翻譯編輯環(huán)境。本發(fā)明提高翻譯效率和翻譯質(zhì)量。
      【專利說明】維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及機器翻譯系統(tǒng)中廣泛應用的翻譯記憶庫技術(shù),特別是維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法。
      【背景技術(shù)】
      [0002]隨著信息技術(shù)的不斷發(fā)展,不同語種的人們之間的語言交流障礙在不斷地突顯。雖然機器翻譯技術(shù)在這方面起到了很好的作用,但是機器翻譯仍面臨重重的困難?,F(xiàn)階段機器翻譯系統(tǒng)主要采取基于規(guī)則(主要是語言學知識方面)和基于語料庫(主要是實例方面)等兩種方法。
      [0003]因為維吾爾語和漢語是不屬于同種語系的語言,從語言學的角度來深層次的分析單詞切分,形態(tài),結(jié)構(gòu),歧義詞,句子語法結(jié)構(gòu)和語義結(jié)構(gòu)等方面是比較難實現(xiàn)。所以,現(xiàn)在漢維翻譯主要是基于語料庫的翻譯,雖然取得不錯的效果,但是建設(shè)維漢語料庫涉及到很多方面的因素,再說語料庫內(nèi)容覆蓋面很難包括全領(lǐng)域,所以翻譯質(zhì)量很難能夠保證。雖然機器翻譯性能目前不太理想,但是輔助翻譯記憶庫仍有望成為提高工作效率的有效手段。
      [0004]由于基于規(guī)則和語料庫的翻譯技術(shù)的不足之處,又考慮到專業(yè)領(lǐng)域(科技文獻,產(chǎn)品說明書,用戶手冊等)中詞匯或句子比較固定,遇到重復句子的比較多,因此提出了翻譯記憶技術(shù)。翻譯記憶也可看成已有資源的重新利用,翻譯新文本是重新利用譯者在以前翻譯過的譯文,再說還可以在翻譯過程中譯者自身也要參與進來,所以最后的譯文質(zhì)量在一定程度上得以保證 的。翻譯記憶技術(shù)的應用在國外比較普遍,并出現(xiàn)了大量的像Transit (STAR)、Trados等輔助翻譯軟件產(chǎn)品。在國內(nèi)輔助翻譯記憶技術(shù)也得到了一定的發(fā)展,出現(xiàn)了像雅信CAT —樣一些輔助翻譯軟件。因此,為了迎合維吾爾文信息處理的需要,方便維吾爾語作為母語的翻譯工作者,提高他們翻譯效率和質(zhì)量,開發(fā)一個翻譯記憶工具具有非常重要的意義。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明的目的在于提供一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,提高翻譯效率和翻譯質(zhì)量。
      [0006]本發(fā)明的目的是這樣實現(xiàn)的:一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,①記憶庫結(jié)構(gòu)和管理:各種信息的組織和存儲被看做是由很多翻譯記憶單元的組合而成,也可以看做是一個平行語料庫,記憶庫中存儲以往翻譯過的例句,采用句子句子級別對齊的維漢記憶庫;對記憶庫進行查找單詞,添加句子,刪除句子,記憶庫導入,導出;②維漢句子對齊存儲:維漢記憶庫中所收集的所有維漢句子均以XML語言作為編碼語言,翻譯記憶以“翻譯單元”的形式存儲,維語句子與漢語句子精確對應,維漢對應的句子通過句子標記對<tu>…<tu>下的id來描述翻譯記憶檢索:翻譯記憶系統(tǒng)中,檢索出來的實例越接近待翻譯句子,翻譯的質(zhì)量就越好;采用“最短編輯距離方法” (minimum edit distance)來計算待翻譯句子與已有句子之間的相似度,通過levenshtein distance (LD)算法獲得兩個句子之間有幾個單詞需要進行匹配之后,通過模糊匹配計算公式,得到原句和目標句之間的相似度翻譯編輯環(huán)境:翻譯之前通過內(nèi)部過濾器(filter)將相應格式(主要是.txt,.doc)的文檔中的原文導入,在系統(tǒng)內(nèi)部完成分句、分詞,通過模糊匹配計算句子相似度,通過二分查找方法在已有的詞匯表中進行相應的查找并在單詞列表中顯示單詞及相應的譯文,再通過翻譯后導出為原文檔格式的譯文。
      [0007]針對翻譯人員輸入的待譯句子,在翻譯記憶庫中查找并返回完全匹配或相似的句子供翻譯人員選擇、使用。如何在翻譯記憶庫中查找相似的句子是非常關(guān)鍵本文借用了常在自然語言處理領(lǐng)域中用到的編輯距離來計算輸入句子與記憶庫中句子的相似度問題。在翻譯過程中,翻譯記憶系統(tǒng)通過相似度計算來自動搜索記憶庫中完全相同或部分相似的句型,并給譯者推薦參考譯文,讓譯者自行決定是否接受、編輯或拒絕,同時翻譯記憶庫也在后臺不斷的學習和自動儲存新句子的原文和譯文。
      [0008]本發(fā)明設(shè)計并實現(xiàn)了翻譯記憶系統(tǒng)模型,并在記憶庫設(shè)計中采用維吾爾文和漢文句子以句子精確對齊的方式存儲方式,并同時對記憶庫進行查詢,刪除,插入操作。其中關(guān)鍵技術(shù)是記憶庫中語句相似度,該技術(shù)通過自然語言中常用的“編輯距離”(editdistance)來實現(xiàn),其中大于閾值的句子所對應的句子提供給用戶進行翻譯參考,結(jié)果證明,該雙向翻譯記憶庫系統(tǒng)在翻譯中起到了很好的效果。本發(fā)明提高翻譯效率和翻譯質(zhì)量。
      【專利附圖】

      【附圖說明】
      [0009]下面將結(jié)合附圖對本發(fā)明作進一步說明。
      [0010]圖1是維漢翻譯記憶系統(tǒng)模型示意圖。
      【具體實施方式】
      [0011]一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,①記憶庫結(jié)構(gòu)和管理。整個記憶庫中各種信息的組織和存儲可以看做是由很多翻譯記憶單元的組合而成,也可以看做是一個平行語料庫。記憶庫中存儲以往翻譯過的例句。本文在記憶庫設(shè)計中采用了句子句子級別對齊的維漢記憶庫。記憶庫設(shè)計好之后,還要對記憶庫進行很好的管理,包括對記憶庫進行查找單詞,添加句子,刪除句子,記憶庫導入,導出等;②維漢句子對齊存儲。維漢記憶庫中所收集的所有維漢句子均以XML語言作為編碼語言。翻譯記憶以“翻譯單元”的形式存儲,維語句子與漢語句子精確對應。維漢對應的句子通過句子標記對<tu>…<tu>下的id來描述;③翻譯記憶檢索。翻譯記憶系統(tǒng)中,檢索出來的實例越接近待翻譯句子,翻譯的質(zhì)量就越好。語句相似度的計算在翻譯記憶系統(tǒng)中是一個關(guān)鍵技術(shù)之一,所以相似度計算直接影響翻譯記憶系統(tǒng)的效率和質(zhì)量。目前翻譯記憶技術(shù)中常用到基于字符串和基于語言學知識方面的相似度計算方法???慮到維漢句子自身在結(jié)構(gòu),語義,形態(tài)等方面的不同和復雜性,文采用“最短編輯距離方法”(minimum edit distance)來計算待翻譯句子與已有句子之間的相似度。通過levenshtein distance (LD)算法獲得兩個句子之間有幾個單詞需要進行匹配之后,通過模糊匹配計算公式,得到原句和目標句之間的相似度;④翻譯編輯環(huán)境。翻譯編輯環(huán)境也可以看作是翻譯者進行翻譯工作的環(huán)境。本系統(tǒng)翻譯工作在系統(tǒng)內(nèi)進行。翻譯之前通過內(nèi)部過濾器(filter)將相應格式(主要是.txt,.doc)的文檔中的原文導入,在系統(tǒng)內(nèi)部完成分句,分詞,通過模糊匹配計算句子相似度,通過二分查找的方法在已有的詞匯表中進行相應的查找并在單詞列表中顯示單詞及相應的譯文,通過翻譯后導出為原文檔格式的譯文。
      [0012]如圖1所示,待翻譯的文本進行分句,然后逐步提取每一個句子根據(jù)記憶庫計算句子相似度。其中對相似度最高的句子進行人工編輯,然后輸出翻譯結(jié)果。
      [0013]如下述表1是記憶庫結(jié)構(gòu)表。記憶庫設(shè)計好之后,還要對記憶庫進行很好的管理,包括對記憶庫進行查找單詞,添加句子,刪除句子,記憶庫導入,導出等。
      表1
      【權(quán)利要求】
      1.一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,其方法為:①記憶庫結(jié)構(gòu)和管理:各種信息的組織和存儲被看做是由很多翻譯記憶單元的組合而成,也可以看做是一個平行語料庫,記憶庫中存儲以往翻譯過的例句,采用句子句子級別對齊的維漢記憶庫;對記憶庫進行查找單詞,添加句子,刪除句子,記憶庫導入,導出;②維漢句子對齊存儲:維漢記憶庫中所收集的所有維漢句子均以XML語言作為編碼語言,翻譯記憶以“翻譯單元”的形式存儲,維語句子與漢語句子精確對應,維漢對應的句子通過句子標記對<tu>…<tu>下的id來描述翻譯記憶檢索:翻譯記憶系統(tǒng)中,檢索出來的實例越接近待翻譯句子,翻譯的質(zhì)量就越好;采用最短編輯距離方法來計算待翻譯句子與已有句子之間的相似度,通過levenshtein distance算法獲得兩個句子之間有幾個單詞需要進行匹配之后,通過模糊匹配計算公式,得到原句和目標句之間的相似度翻譯編輯環(huán)境:翻譯之前通過內(nèi)部過濾器將相應格式的文檔中的原文導入,在系統(tǒng)內(nèi)部完成分句、分詞,通過模糊匹配計算句子相似度,通過二分查找方法在已有的詞匯表中進行相應的查找并在單詞列表中顯示單詞及相應的譯文,再通過翻譯后 導出為原文檔格式的譯文。
      【文檔編號】G06F17/28GK103885939SQ201210553917
      【公開日】2014年6月25日 申請日期:2012年12月19日 優(yōu)先權(quán)日:2012年12月19日
      【發(fā)明者】塔拉甫·加盤, 王天軍, 鄒帥 申請人:新疆信息產(chǎn)業(yè)有限責任公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1