基于實例的甲骨文釋文機(jī)器翻譯方法

文檔序號：6369455閱讀：721來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于實例的甲骨文釋文機(jī)器翻譯方法
技術(shù)領(lǐng)域：
本發(fā)明涉及ー種自然語言處理技術(shù)，特別涉及基于實例的甲骨文機(jī)器翻譯方法。
背景技術(shù)：
甲骨文研究面臨的首要問題是如何利用現(xiàn)代漢語理解和讀懂甲骨文語句，國內(nèi)外甲骨文專家紛紛指出將甲骨文用白話文釋讀很有意義。但是從事甲骨文研究的門檻很高，培養(yǎng)一名甲骨文專家需要一二十年甚至更長的時間，而且專家對甲骨文的辨識和翻譯依靠長期的學(xué)術(shù)鉆研和經(jīng)驗積累，這種經(jīng)驗知識僅存儲在專家的頭腦中，并不能實現(xiàn)知識的有效共享。如果能利用計算機(jī)技術(shù)和信息技術(shù)實現(xiàn)甲骨文白話釋讀，則可以有效共享和重用甲骨文專家的知識，減輕他們的負(fù)擔(dān)，降低甲骨文的研究門檻，為甲骨文的研究和推廣、提高甲骨文數(shù)字化展示等起到重要的推動作用。利用計算機(jī)實現(xiàn)甲骨文的白話釋讀屬于機(jī)器翻譯的范疇。機(jī)器翻譯研究主要有三種基于規(guī)則的機(jī)器翻譯(Rule-Based Machine Translation, RBMT)、基于實例的機(jī)器翻譯(Example-Based Machine Translation,EBMT)和統(tǒng)計機(jī)器翻譯(Statistical MachineTranslation, SMT)。RBMT是依賴規(guī)則的，其“瓶頸”在于通過人工編寫的方式獲得大規(guī)模的語言規(guī)則成本太高，在研究上難以取得更大突破，而且甲骨文是迄今為止最早的成系統(tǒng)語言，很多文法規(guī)律還處于不確定狀態(tài)，因此深層次的甲骨文規(guī)則的獲取和維護(hù)比較困難；SMT方法需要大規(guī)模的雙語平行語料庫作為訓(xùn)練各種概率參數(shù)的基礎(chǔ)，但目前收集的甲骨文資料的規(guī)模還遠(yuǎn)遠(yuǎn)不夠，而且，一片甲骨上的文字最多百余字，最少的只有ー個字，數(shù)據(jù)稀疏問題嚴(yán)重。而EBMT具有無需編寫規(guī)則、系統(tǒng)維護(hù)容易、產(chǎn)生的譯文質(zhì)量較高、需要的語言知識較少等優(yōu)點，是ー個很好的選擇。而且，甲骨文學(xué)習(xí)者都是通過已經(jīng)存在的翻譯實例作為知識源，來進(jìn)行類比翻譯和學(xué)習(xí)的，這與EBMT當(dāng)初的設(shè)計思想十分吻合。由于甲骨文原文是沒有句讀的，且甲骨字很多都是異體字，而甲骨文釋文是經(jīng)專家考釋過的與原文對應(yīng)的簡體或繁體中文(沒有考釋出來的甲骨字仍然以原始形態(tài)出現(xiàn))。釋文已經(jīng)添加了句讀符號，統(tǒng)ー了異體字的表示形式，并且對一些殘缺的或錯刻的甲骨文字進(jìn)行了補(bǔ)充，而且，在甲骨文信息處理過程中，主要研究對象為釋文，因此本發(fā)明選擇甲骨文釋文作為機(jī)器翻譯的源語言，現(xiàn)代漢語為目標(biāo)語言。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的不足，本發(fā)明的目的在于提供ー種利用計算機(jī)的存儲和查詢優(yōu)勢的基于實例的甲骨文釋文機(jī)器翻譯方法，減輕甲骨文專家的負(fù)擔(dān)，降低甲骨文的研究門檻。本發(fā)明的技術(shù)方案是這樣實現(xiàn)的基于實例的甲骨文釋文機(jī)器翻譯方法，包括如下步驟(a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫；(b)完成雙語語料的句對齊、短語對齊和詞對齊，建立翻譯實例庫；
(c)輸入待翻譯甲骨文釋文；(d)基于步驟(b)中建立的翻譯實例庫，對輸入的待翻譯甲骨文釋文進(jìn)行全實例匹配或部分實例匹配的檢索；若待翻譯甲骨文釋文存在于翻譯實例庫中，采用全實例匹配方式，直接輸出待翻譯甲骨文釋文的現(xiàn)代漢語翻譯句；若翻譯實例庫中沒有待翻譯甲骨文釋文，采用部分實例匹配方式，計算待翻譯甲骨文釋文句子和檢索到的實例句的相似度，并選擇相似度最大的實例句，對相似度最大的實例句對應(yīng)的現(xiàn)代漢語翻譯句進(jìn)行替換和調(diào)整； (e)將最終的翻譯結(jié)果通過顯示器顯示給用戶；(f)評價翻譯結(jié)果，將滿足釋譯要求的待翻譯甲骨文釋文句子和與之對應(yīng)的現(xiàn)代漢語組成的雙語句對添加至翻譯實例庫中。上述基于實例的甲骨文釋文機(jī)器翻譯方法，步驟(d)中相似度計算公式如式(I)所示
權(quán)利要求
1.基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在于，包括如下步驟 (a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫； (b)完成雙語語料的句對齊、短語對齊和詞對齊，建立翻譯實例庫； (C)輸入待翻譯甲骨文釋文； (d)基于步驟(b)中建立的翻譯實例庫，對輸入的待翻譯甲骨文釋文進(jìn) 行全實例匹配或部分實例匹配的檢索；若待翻譯甲骨文釋文存在于翻譯實例庫中，采用全實例匹配方式，直接輸出待翻譯甲骨文釋文的現(xiàn)代漢語翻譯句；若翻譯實例庫中沒有待翻譯甲骨文釋文，采用部分實例匹配方式，計算待翻譯甲骨文釋文句子和檢索到的實例句的相似度，并選擇相似度最大的實例句，對相似度最大的實例句對應(yīng)的現(xiàn)代漢語翻譯句進(jìn)行替換和調(diào)整； (e)將最終的翻譯結(jié)果通過顯示器顯示給用戶； (f)評價翻譯結(jié)果，將滿足釋譯要求的待翻譯甲骨文釋文句子和與之對應(yīng)的現(xiàn)代漢語組成的雙語句對添加至翻譯實例庫中。
2.如權(quán)利要求I所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在于步驟(d)中相似度計算公式如式(I)所示
3.如權(quán)利要求2所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在干步驟(d)中，對輸入的待翻譯甲骨文釋文進(jìn)行全實例匹配或部分實例匹配的檢索步驟如下第一歩將輸入的待翻譯甲骨文釋文句子S。進(jìn)行分詞，按照式(2)所示計算待翻譯甲骨文釋文中各詞的信息熵，高頻詞有著較低的信息熵，設(shè)定信息熵最小閾值為D，信息熵低于D的詞將不再參與檢索，剔除信息熵小于閾值D的詞，得到詞集合W ； H(ch) = Ig (M/m)式⑵； ch表示一個詞，M表示雙語語料庫中的甲骨文釋文句子總數(shù)，m表示甲骨文釋文中出現(xiàn)ch的句子數(shù)；第二步對每個詞& e W，通過詞的倒排索引檢索出所有包含Wi的實例句，得到句子集合Si ；第三步求Si的并集得到句子集合S ；第四部對每個句子Si e S，利用公式⑴求出Sim(S。，Si)并按降序排列；第五步取Sim(S。，Si)值最大的句子Si作為目標(biāo)句。
4.如權(quán)利要求1-3任一所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在于步驟(a)中的甲骨文釋文是經(jīng)考釋過的與甲骨文原文對應(yīng)的簡體中文或繁體中文，沒有考釋出來的甲骨文原文仍然以原始形態(tài)出現(xiàn)；甲骨文釋文已經(jīng)添加了句讀符號，統(tǒng)ー了異體字的表示形式，并且對一些殘缺的或錯刻的甲骨文原文文字進(jìn)行了補(bǔ)充；甲骨文釋文-現(xiàn)代漢語的雙語語料均收集來自甲骨文文獻(xiàn)的甲骨文釋文及其對應(yīng)的現(xiàn)代漢語翻譯句對；雙語語料均為考釋過的、不存在學(xué)術(shù)爭議的且能進(jìn)行通讀的甲骨文釋文及其對應(yīng)的現(xiàn)代漢語翻譯句；在雙語語料庫預(yù)處理階段，已經(jīng)篩除了殘缺較多、未考釋字較多或僅有ー兩字等影響通讀的句子。
5.如權(quán)利要求4所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在干步驟(b)中的雙語句對齊為人工實現(xiàn)，詞對齊和短語對齊以自動實現(xiàn)為主，輔以人工校對；翻譯實例庫包含了這三級對齊信息并建立了索引；詞對齊及短語對齊的自動實現(xiàn)基礎(chǔ)為甲骨文分詞技術(shù)。
6.如權(quán)利要求4所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在于翻譯實例庫最終存儲形式為關(guān)系數(shù)據(jù)庫，建立索引的目的是為實例捜索提供基礎(chǔ)，包括按句子排序的索引和按詞排序的索引；在生成的翻譯實例庫索引中，包含了實例句的源句子、目標(biāo)句子和對齊信息。
7.如權(quán)利要求5所述的甲骨文分詞技術(shù)，其特征在干甲骨文分詞采用基于詞典、句法規(guī)則和句法分析相結(jié)合的辦法，首先通過甲骨文詞典獲得初歩的分詞結(jié)果，然后根據(jù)甲骨文句法規(guī)則和句法分析對初步結(jié)果進(jìn)行再次劃分，劃分的結(jié)果通過句法分析排歧后再進(jìn)行分詞序列優(yōu)化，得到最終的分詞結(jié)果；通過未登錄詞識別規(guī)則進(jìn)行檢查，將滿足未登錄詞條件的新詞加入詞庫。
8.如權(quán)利要求4所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在干步驟(d)中的句子相似度計算，主要考慮匹配組塊和編輯距離兩個方面。
9.如權(quán)利要求4所述的基于實例的甲骨文釋文機(jī)器翻譯方法，其特征在于所述步驟(f)中的翻譯結(jié)果評價，主要采用人エ評價方法，可通過查閱甲骨文文獻(xiàn)資料和咨詢甲骨文專家兩種方式實現(xiàn)。
全文摘要
本發(fā)明基于實例的甲骨文釋文機(jī)器翻譯方法，包括如下步驟(a)構(gòu)建完成甲骨文釋文-現(xiàn)代漢語的雙語語料庫；(b)完成雙語語料的句對齊、短語對齊和詞對齊，建立翻譯實例庫；(c)輸入待翻譯甲骨文釋文；(d)基于步驟(b)中建立的翻譯實例庫，對輸入的待翻譯甲骨文釋文進(jìn)行全實例匹配或部分實例匹配的檢索；(e)將最終的翻譯結(jié)果通過顯示器顯示給用戶；(f)評價翻譯結(jié)果，將滿足釋譯要求的雙語句對添加至翻譯實例庫中。本發(fā)明利用計算機(jī)的存儲和查詢優(yōu)勢的基于實例的甲骨文釋文機(jī)器翻譯方法，減輕甲骨文專家的負(fù)擔(dān)，降低甲骨文的研究門檻。
文檔編號G06F17/28GK102693222SQ201210165360
公開日2012年9月26日申請日期2012年5月25日優(yōu)先權(quán)日2012年5月25日
發(fā)明者孫華, 熊晶, 王愛民, 王繼鵬, 葛彥強(qiáng), 郭濤, 馬輝申請人:孫華, 熊晶, 王愛民, 郭濤, 馬輝

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：熊晶;王愛民;郭濤;孫華;馬輝;葛彥強(qiáng);王繼鵬
技術(shù)所有人：熊晶;王愛民;郭濤;孫華;馬輝
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于實例的甲骨文釋文機(jī)器翻譯方法