漢越雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法

文檔序號(hào)：9217335閱讀：345來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

漢越雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域，尤其是涉及一種漢越雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]“平行語料” {Parallel Tferts)是指使用不同語言撰寫、相互間具有“翻譯關(guān)系”的文本。在計(jì)算語言學(xué)界，它有別于“對(duì)比語料” iComparable Tferts)，后者也使用不同的語言撰寫、并且針對(duì)同一主題，但相互之間卻不存在直接的“翻譯關(guān)系”。
[0003]人類歷史上曾有過各式各樣的平行語料。埃及出土的羅塞塔石碑，其碑文用兩種語言、三種文字刻成，是頗具盛名的古代的平行語料。通過比較石碑上的文字，法國古代語學(xué)者商博良解讀了古埃及的象形文字。此外，用不同語言對(duì)照書寫的契約協(xié)議、宗教經(jīng)典、文學(xué)作品也在不同的時(shí)期和不同的領(lǐng)域影響著人們的生活。20世紀(jì)50年代末，平行語料開始出現(xiàn)在機(jī)器翻譯研宄中。由于當(dāng)時(shí)計(jì)算機(jī)的存儲(chǔ)空間和計(jì)算能力有限，而大量文本數(shù)據(jù)的輸入又相當(dāng)困難，平行語料庫的作用并沒有得到太多的關(guān)注。70年代末期，翻譯資源的收集工作在Xerox PARC、Brigham Young等研宄中心廣泛地開展起來。1987年，MartinKay和Martin Roscheisen提出了最早的平行語料自動(dòng)對(duì)齊算法。之后各種對(duì)齊方法層出不窮，對(duì)齊后的平行語料也被系統(tǒng)地應(yīng)用到自然語言處理中，包括建立翻譯記憶、編纂詞典和雙語術(shù)語表、跨語言信息檢索、計(jì)算機(jī)輔助教學(xué)、語言對(duì)比研宄等。
[0004]語料庫的建設(shè)是統(tǒng)計(jì)學(xué)習(xí)方法的重要基礎(chǔ)，近年來，語料庫資源對(duì)于自然語言處理研宄的巨大價(jià)值已經(jīng)得到越來越多的認(rèn)可。特別是雙語語料庫(Bilingual Corpus)，已經(jīng)成為機(jī)器翻譯、機(jī)器輔助翻譯以及翻譯知識(shí)獲取研宄不可或缺的重要資源。一方面，雙語語料庫的出現(xiàn)直接推動(dòng)了機(jī)器翻譯新技術(shù)的發(fā)展，像平行語料庫為統(tǒng)計(jì)機(jī)器翻譯的模型構(gòu)建提供了必不可少的訓(xùn)練數(shù)據(jù)(e.g.，Brown et al.1990; Melamed 2000; Och and Ney2002)，基于統(tǒng)計(jì)(Statistic-Based)和基于實(shí)例(Example-Based)等基于語料庫的翻譯方法為機(jī)器翻譯研宄提供了新的思路，有效改善了翻譯質(zhì)量，在機(jī)器翻譯研宄領(lǐng)域掀起了新的高潮。另一方面，雙語語料庫又是獲取翻譯知識(shí)的重要來源，從中可以挖掘?qū)W習(xí)各種細(xì)粒度的翻譯知識(shí)，如翻譯詞典(e.g.，Gale and Church 1991; Melamed 1997)和翻譯模板，從而改進(jìn)傳統(tǒng)的機(jī)器翻譯技術(shù)。此外，雙語語料庫也是跨語言信息檢索(e.g.，Davis andDunning 1995; Jian-Yun Nie, TREC8;)，翻譯詞典編撰、雙語術(shù)語自動(dòng)提取以及多語言對(duì)比研宄等的重要基礎(chǔ)資源。雙語平行語料庫建設(shè)與獲取存在著很大的困難，各國都投入了大量的人力、物力和財(cái)力，但是雙語平行語料庫的來源主要集中在政府報(bào)告、新聞法律等特定領(lǐng)域，不適合真實(shí)文本應(yīng)用。同時(shí)，互聯(lián)網(wǎng)上的大規(guī)模雙語文本并且具有很好的時(shí)效性和覆蓋性，這為雙語平行語料庫的獲取提供了潛在的解決途徑。
加拿大蒙特利爾大學(xué)的研宄者聶建云開發(fā)的系統(tǒng)PT Miner (Parallel Text Miner，1999):通過搜索引擎查找含有特定錨文本的網(wǎng)站構(gòu)成雙語候選網(wǎng)站，再依賴預(yù)先定義的語言的前后綴表，抽取出具有URL命名相似性的候選網(wǎng)頁即如果某一 URL含有一種語言的前后綴，則將這些前后綴替換為另一種語言的，構(gòu)建出一個(gè)URL，如果這樣構(gòu)建出來的URL存在。則找到了一對(duì)候選網(wǎng)頁對(duì)，最后再根據(jù)文本長度，網(wǎng)頁的HTML標(biāo)記結(jié)構(gòu)，網(wǎng)頁的語言等特征過濾掉候選網(wǎng)頁中不平行的網(wǎng)頁對(duì)。PT Miner系統(tǒng)在中英平行網(wǎng)頁文本挑出幾百對(duì)的中英平行網(wǎng)頁對(duì)，經(jīng)過人工的評(píng)價(jià)，有將近90%的準(zhǔn)確率。獲取到的英文文本有137M，中文文本有117M。
美國馬里蘭大學(xué)的研宄者Resnik開發(fā)的系統(tǒng)STRAND (Structural Translat1nRecognit1n, Acquiring Natural Data，2003)也是利用搜索引擎和定義的挑選候選網(wǎng)站的規(guī)則來得到雙語候選網(wǎng)站。同PT Miner相比，STRAND再利用URL命名相似性來查找一個(gè)網(wǎng)站內(nèi)的候選網(wǎng)頁對(duì)時(shí)，采取在中、英URL中刪去預(yù)先定義與語言相關(guān)的字符串的方式，如果去除語言相關(guān)的字串后，中、英URL相等，則說明當(dāng)前的中英URL是一對(duì)候選雙語平行網(wǎng)頁。此外，STRAND更加細(xì)致深入的研宄了平行網(wǎng)頁在結(jié)構(gòu)上具有的相似性，采用了更多的基于網(wǎng)頁結(jié)構(gòu)的特征來過濾掉候選平行網(wǎng)頁中不是互為翻譯的網(wǎng)頁對(duì)。人工評(píng)估了大約400對(duì)的中英平行網(wǎng)頁對(duì)，取得了 98%的準(zhǔn)確率和61%的召回率。STRAND系統(tǒng)獲取到大約3，500 對(duì)中英平行網(wǎng)頁對(duì)。BITS (Bilingual Internet Text Search, Ma and Liberman1999)，下載指定域名下的所有網(wǎng)站作為候選網(wǎng)站，定義了一種計(jì)算中英網(wǎng)頁內(nèi)容之間相似度的計(jì)算方式即互翻譯詞占文本總詞數(shù)的比例，來進(jìn)行中英平行網(wǎng)頁對(duì)的確定。澳大利亞莫納什大學(xué)陳紀(jì)艙等人開發(fā)的 PTI (The Parallel Text Identificat1n System, 2004)通過網(wǎng)頁采集器下載了大量的雙語網(wǎng)頁之后，首先通過了文件名比較模型即根據(jù)URL命名的相似性來得到雙語平行網(wǎng)頁對(duì)，原理同PT Miner，在這一過程沒有相應(yīng)對(duì)齊鏈接的網(wǎng)頁再通過一個(gè)文件內(nèi)容分析模型，定義了計(jì)算網(wǎng)頁文本內(nèi)容之間的相似度計(jì)算方式，從而得到雙語平行的網(wǎng)頁對(duì)。PTI系統(tǒng)總共獲取到193對(duì)的中英平行文本，其中180對(duì)是正確的，正確率為93%，召回率為96%。
亞洲微軟研宄院的吳克等人開發(fā)的WPDE (Web Parallel Data Extract1n，2006)在利用搜索引擎獲取候選網(wǎng)站時(shí)，不僅利用了錨文本還采用了圖片的ALT信息。在根據(jù)URL命名相似性獲取候選雙語平行網(wǎng)頁對(duì)時(shí)，采用將URL分成pathname和basename，pathname的配對(duì)查找上也利用預(yù)先定義的啟發(fā)式字符串，在具體的查找時(shí)定義了一些匹配規(guī)則；basename的查找配對(duì)不用于前面系統(tǒng)采用的基于預(yù)先定義的字符串形式，而是基于改進(jìn)的最小編輯距離算法，這樣的方式經(jīng)過試驗(yàn)證明取得了更好的效果。候選雙語平行網(wǎng)頁對(duì)的過濾時(shí)除采用了文本長度，網(wǎng)頁html結(jié)構(gòu)等特征，還引入了一個(gè)基于網(wǎng)頁內(nèi)容的特征即候選雙語平行網(wǎng)頁文本句子對(duì)齊的好壞。在同PTI同樣的測試集合上，WPDE系統(tǒng)取得了 97%的正確率與94%的召回率。
[0005]隨著網(wǎng)絡(luò)信息時(shí)代的高速發(fā)展，網(wǎng)絡(luò)資源正以爆炸式的方式不斷增長?；ヂ?lián)網(wǎng)是現(xiàn)代信息的重要來源，人們可以通過互聯(lián)網(wǎng)得到大量的信息資源，但互聯(lián)網(wǎng)中混雜著大量各式各樣的數(shù)據(jù)，如何從互聯(lián)網(wǎng)中的海量信息中提取有價(jià)值的雙語數(shù)據(jù)，是目前數(shù)據(jù)采集人員和相關(guān)企業(yè)所面臨的重要問題。研宄基于Web的大規(guī)模雙語平行語料庫獲取技術(shù)對(duì)于解決雙語語料庫獲取難題，推動(dòng)相關(guān)技術(shù)發(fā)展和實(shí)用化具有重要的意義。目前，針對(duì)漢越雙語平行語料的語料采集工具和方法還非常欠缺，能進(jìn)行自動(dòng)采集的就更寥寥無幾。所以現(xiàn)急需一種能自動(dòng)采集漢越雙語平行語料的方法來解放語料采集人員繁瑣的采集工作和為企業(yè)提供有價(jià)值的語料資源。

【發(fā)明內(nèi)容】

[0006]針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供一種漢越雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法，建立了一個(gè)基于Web的雙語語料自動(dòng)獲取系統(tǒng)，從互聯(lián)網(wǎng)中自動(dòng)采集網(wǎng)絡(luò)漢越雙語平行語料，能夠自動(dòng)獲取文本級(jí)漢越雙語平行語料庫和句子級(jí)的漢越雙語平行語料庫，實(shí)現(xiàn)了漢越雙語平行信息自動(dòng)發(fā)現(xiàn)、自動(dòng)提取、自動(dòng)整理的雙語平行語料采集系統(tǒng)。
[0007]本發(fā)明是采用以下技術(shù)方案實(shí)現(xiàn)的:
一種漢越雙語平行語料自動(dòng)采集的系統(tǒng)，包括漢越雙語平行信息的自動(dòng)發(fā)現(xiàn)模塊、自動(dòng)提取模塊、自動(dòng)整理模塊，其中:
(O自動(dòng)發(fā)現(xiàn)模塊:實(shí)現(xiàn)漢越雙語平行語料自動(dòng)發(fā)現(xiàn)的功能，制定需要采集語料的關(guān)鍵詞組，通過搜索引擎搜索網(wǎng)站，采集網(wǎng)頁得到搜索結(jié)果，對(duì)搜索結(jié)果的信息進(jìn)行過濾和篩選后，將經(jīng)過濾得搜索結(jié)果存儲(chǔ)于搜索結(jié)果數(shù)據(jù)庫；
(2)自動(dòng)提取模塊:實(shí)現(xiàn)漢越雙語平行語料自動(dòng)提取的功能，通過訪問搜索結(jié)果數(shù)據(jù)庫里的網(wǎng)頁，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：溫家凱;農(nóng)強(qiáng);劉連芳;盧梁春;
技術(shù)所有人：廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司;南寧市平方軟件新技術(shù)有限責(zé)任公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

英漢雙語平行語料庫相關(guān)技術(shù)

雙語平行語料庫相關(guān)技術(shù)

英漢雙語語料庫相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

漢越雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法