国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法及系統(tǒng)的制作方法

      文檔序號:6379196閱讀:488來源:國知局
      專利名稱:一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種面向增量式翻譯模型的結(jié)構(gòu)化語言模型。
      背景技術(shù)
      統(tǒng)計語言模型作為一種計算自然語言生成概率的統(tǒng)計模型,在自然語言處理的很多問題中都起著至關(guān)重要的作用。在機器翻譯問題中,對于新生成的翻譯片段,我們使用語言模型計算其生成概率,并保留概率較高的翻譯,從而達到提高翻譯質(zhì)量的效果。n-gram語言模型,也稱η-I階馬爾科夫模型,是統(tǒng)計語言模型中應(yīng)用最廣泛的模型,它基于有限歷史假設(shè)第η個詞出現(xiàn)的概率僅與前面η-I個詞相關(guān)。這一假設(shè)大大降低了語言模型的復(fù) 雜度,并使各種統(tǒng)計方法能夠得到應(yīng)用。這種方法能夠良好地捕捉短距離語言特征,如常用搭配,詞組,但這種基于詞的模型缺乏捕捉句法信息和長距離語言信息的能力,因此導(dǎo)致生成不符合語法約束的翻譯?,F(xiàn)有的結(jié)構(gòu)化語言模型(Ciprian Chelba, Frederick JelinekStructured language modeling Computer Speech & Language, 2000)基于句法樹建立模型,將句法信息融入語言模型,從而能夠彌補傳統(tǒng)語言模型的不足,使結(jié)果更加符合句法性。但其采用較為復(fù)雜的概率模型,且需要在一棵完整的句法樹進行計算。無法滿足機器翻譯問題中增量式生成翻譯并同時進行語言模型計算的需求。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提出一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法及系統(tǒng),彌補了傳統(tǒng)語言模型在捕捉句法信息方面的不足,能在語言模型中融入句法信息和長距離依賴信息,在解碼過程中為動態(tài)計算結(jié)構(gòu)化語言模型提出有效的優(yōu)化算法,提高了翻譯質(zhì)量。為實現(xiàn)上述目的,本發(fā)明提出了一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法,包括步驟1,對增量式生成的翻譯片段進行依存句法分析,得到依存樹片段集合;步驟2,在所述依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。步驟3,根據(jù)所述特征分數(shù)對所述依存樹片段集合進行剪枝,將所述特征分數(shù)最大值作為結(jié)構(gòu)化語言模型的得分,保留結(jié)構(gòu)化語言模型分數(shù)最高的片段,獲得優(yōu)化的依存樹片段集合;步驟4,將下一個翻譯片段通過移進-規(guī)約操作拼接到所述優(yōu)化的依存樹片段集合上,重復(fù)步驟1,2,3直到翻譯結(jié)束,生成完整的依存樹。其中所述步驟I中所述翻譯片段是按從左到右的順序生成的,并通過移進-規(guī)約依存句法分析器進行依存句法分析,該分析器按照增量式進行解碼。所述步驟I中依存樹片段是指未完成的依存樹子結(jié)構(gòu),是依存樹中的任意聯(lián)通子圖。
      進一步的,所述步驟2中是按照判別式依存特征抽取方法,參照基于動態(tài)規(guī)劃算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programmingfor Linear-Time Incremental Parsing, Proceedings of the 48st Meeting of theAssociation for Computational Linguistics)的方法,獲得判別式特征實例。進一步的,所述步驟3中的構(gòu)建剪枝過程如下a)對所述依存樹片段集合中當前特征窗口相同的結(jié)構(gòu)進行合并,保留其中所述特征分數(shù)較高的依存樹片段;將所述依存樹片段集合按照規(guī)約操作的次數(shù)進行分組,每組分別以其判別式特征分數(shù)為標準進行排序并使用堆棧剪枝策略,即保留分數(shù)最高的N個依存樹片段,N為堆棧大小;b)將保留的依存樹片段集合中最高的判別式特征分數(shù)作為當前翻譯片段的結(jié)構(gòu)化語言模型得分。
      本發(fā)明還提供了一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),包括依存句法分析模塊,用于對增量式生成的翻譯片段依次進行依存句法分析,得到依存樹片段集合;特征分數(shù)計算模塊,用于在所述依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。依存樹片段優(yōu)化模塊,根據(jù)所述特征分數(shù)對所述依存樹片段集合進行剪枝,將所述特征分數(shù)最大值作為結(jié)構(gòu)化語言模型的得分,保留結(jié)構(gòu)化語言模型分數(shù)最高的片段,獲得優(yōu)化的依存樹片段集合;依存樹構(gòu)建模塊,用于將下一個翻譯片段通過移進-規(guī)約操作拼接到所述優(yōu)化的依存樹片段集合上,重復(fù)執(zhí)行依存句法分析模塊、特征分數(shù)計算模塊、依存樹片段優(yōu)化模塊,直到翻譯結(jié)束生成完整的依存樹。其中,所述依存句法分析模塊中的所述翻譯片段是按從左到右的順序生成的,并通過移進-規(guī)約依存句法分析器進行依存句法分析,該分析器按照增量式進行解碼。而所述依存句法分析模塊中的所述依存樹片段是指未完成的依存樹子結(jié)構(gòu),是依存樹中的任意聯(lián)通子圖。進一步的,所述特征分數(shù)計算模塊中是按照判別式依存特征抽取方法,參照基于動態(tài)規(guī)劃算法的增量式句法分析,第二章(Liang Huang and KenjiSagae, 2010, DynamicProgramming for Linear-Time Incremental Parsing, Proceedings of the 48st Meetingof the Association for Computational Linguistics,)的方法。獲得判別式特征實例。進一步的,所述依存樹片段優(yōu)化模塊包括處理模塊,對所述依存樹片段集合中當前特征窗口相同的結(jié)構(gòu)進行合并,保留其中所述特征分數(shù)較高的依存樹片段;將所述依存樹片段集合按照規(guī)約操作的次數(shù)進行分組,每組分別以其判別式特征分數(shù)為標準進行排序并使用堆棧剪枝策略,即保留分數(shù)最高的N個依存樹片段,N為堆棧大?。贿x擇模塊,用于將保留的依存樹片段集合中最高的判別式特征分數(shù)作為當前翻譯片段的結(jié)構(gòu)化語言模型得分。本發(fā)明具有如下技術(shù)效果本發(fā)明將結(jié)構(gòu)化語言模型用于增量式機器翻譯模型,彌補了傳統(tǒng)語言模型在捕捉句法信息方面的不足。在150萬漢英平行句對上,英語為目標語言,本發(fā)明較傳統(tǒng)語言模型在測試集困惑度上下降了 2%,并在翻譯質(zhì)量上提高I. 12個BLEU點。以下結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述,但不作為對本發(fā)明的限定。


      圖I是本發(fā)明的結(jié)構(gòu)化語言模型構(gòu)建方法流程圖;圖2是本發(fā)明的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng)示意圖;圖3為本發(fā)明中分組剪枝策略和同等狀態(tài)合并策略的實例;圖4為圖2中同等狀態(tài)A, B的特征窗口。
      具體實施例方式如圖I所示,圖I是本發(fā)明的結(jié)構(gòu)化語言模型構(gòu)建方法流程圖,該方法包括以下步驟步驟1,對于增量式生成的翻譯片段依次進行依存句法分析,得到依存樹片段集
      口 ο依存分析的主要任務(wù)是對輸入的翻譯片段進行依存分析得到相應(yīng)的依存樹片段集合。由于目前應(yīng)用最廣的機器翻譯系統(tǒng)都是增量式生成翻譯,所以必須使用解碼順序相同的依存分析算法,本實例中采用移進-規(guī)約算法,可參考增量式確定性依存句法分析,第三,四章(Joakim Nivre. 2004. Incrementality indeterministic dependencyparsing. In Proceedings of the ACL Workshop Incremental Parsing. Association forComputational Linguistics)其中包含以下兩種操作I)移進從當前輸入串移入一個詞,將其移至句法分析棧頂端,并將其作為一個節(jié)點拼接至已有依存樹片段上。2)規(guī)約如果句法分析棧中有兩個以上節(jié)點,則取棧頂?shù)膬蓚€節(jié)點,判斷它們之前的依存關(guān)系,在依存樹片段中將其中一個節(jié)點作為Head頭節(jié)點生成一條指向另一節(jié)點Modifier的有向邊。操作完成后Head節(jié)點存于棧頂繼續(xù)參與其他節(jié)點的操作,Modifier節(jié)點作為Head節(jié)點的孩子從棧頂移除。對于一個N個詞的翻譯片段,共需進行N次移進操作,將所有詞語移進句法分析棧,并進行若干次規(guī)約操作(最多N-I次),確定棧頂兩個節(jié)點的依存關(guān)系,生成不同的依存樹片段。上述技術(shù)方案中,所述步驟I中,所述依存樹片段是指未完成的依存樹子結(jié)構(gòu),并可以通過后續(xù)操作生成完整的依存樹。它可以是依存樹中任意聯(lián)通子圖,且所述增量式是指從左到右的順序。步驟2,在所述依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。所述判別式特征分數(shù)是指在句法分析器訓(xùn)練階段通過感知機訓(xùn)練方法得到的特征值??蓞⒖蓟诟兄獧C算法的增量式句法分析,第二章(Collins, M. and Roark, B.,2004,Incremental parsing with the perceptron algorithm,Proceedings of the 42ndAnnual Meeting on Association for Computational Linguistics)的方法。
      在依存樹片段中,依存關(guān)系以一條Head頭結(jié)點指向Modifier修飾節(jié)點的有向邊表示。其依存信息以判別式訓(xùn)練的依存特征實例的形式存儲于結(jié)構(gòu)化語言模型中?,F(xiàn)有的判別式依存特征抽取方法,可參考基于動態(tài)規(guī)劃算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae, 2010, Dynamic Programming for Linear-TimeIncremental Parsing, Proceedings of the 48st Meeting of the Association forComputational Linguistics,)的方法獲得判別式特征實例。利用當前依存樹片段的Head和Modifier,依存分析棧棧頂?shù)脑~,輸出串的第一個詞以及它們的詞性標注作為基礎(chǔ)特征模板,并生成組合特征。其中對圖3中的目標端依存樹片段實例的特征實例表示為表I中形式。表I是圖3中實例的判別式特征實例表示形式
      權(quán)利要求
      1.一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法,其特征在于,包括 步驟1,對于增量式生成的翻譯片段依次進行依存句法分析,得到依存樹片段集合; 步驟2,在所述依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。
      步驟3,根據(jù)所述特征分數(shù)對所述依存樹片段集合進行剪枝,將所述特征分數(shù)最大值作為結(jié)構(gòu)化語言模型的得分,保留結(jié)構(gòu)化語言模型分數(shù)最高的片段,獲得優(yōu)化的依存樹片段集合; 步驟4,將下一個翻譯片段通過移進-規(guī)約操作拼接到所述優(yōu)化的依存樹片段集合上,重復(fù)步驟1,2,3直到翻譯結(jié)束,生成完整的依存樹。
      2.根據(jù)權(quán)利要求I所述的結(jié)構(gòu)化語言模型構(gòu)建方法,其特征在于,所述步驟I中的所述翻譯片段是按從左到右的順序生成的,并通過移進-規(guī)約依存句法分析器進行依存句法分析,該分析器按照增量式進行解碼。
      3.根據(jù)權(quán)利要求I所述的結(jié)構(gòu)化語言模型構(gòu)建方法,其特征在于,所述步驟I中的所述依存樹片段是指未完成的依存樹子結(jié)構(gòu),是依存樹中的任意聯(lián)通子圖。
      4.根據(jù)權(quán)利要求I所述的結(jié)構(gòu)化語言模型構(gòu)建方法,其特征在于,所述步驟2中是利用判別式依存特征抽取方法獲得判別式特征實例。
      5.根據(jù)權(quán)利要求I所述的結(jié)構(gòu)化語言模型構(gòu)建方法,其特征在于,所述步驟3中的構(gòu)建剪枝過程如下 a)對所述依存樹片段集合中當前特征窗口相同的結(jié)構(gòu)進行合并,保留其中所述特征分數(shù)較高的依存樹片段;將所述依存樹片段集合按照規(guī)約操作的次數(shù)進行分組,每組分別以其判別式特征分數(shù)為標準進行排序并使用堆棧剪枝策略,即保留分數(shù)最高的N個依存樹片段,N為堆棧大?。? b)將保留的依存樹片段集合中最高的判別式特征分數(shù)作為當前翻譯片段的結(jié)構(gòu)化語言模型得分。
      6.一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),其特征在于,包括 依存句法分析模塊,用于對增量式生成的翻譯片段依次進行依存句法分析,得到依存樹片段集合; 特征分數(shù)計算模塊,用于在所述依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。
      依存樹片段優(yōu)化模塊,根據(jù)所述特征分數(shù)對所述依存樹片段集合進行剪枝,將所述特征分數(shù)最大值作為結(jié)構(gòu)化語言模型的得分,保留結(jié)構(gòu)化語言模型分數(shù)最高的片段,獲得優(yōu)化的依存樹片段集合; 依存樹構(gòu)建模塊,用于將下一個翻譯片段通過移進-規(guī)約操作拼接到所述優(yōu)化的依存樹片段集合上,重復(fù)執(zhí)行依存句法分析模塊、特征分數(shù)計算模塊、依存樹片段優(yōu)化模塊,直到翻譯結(jié)束生成完整的依存樹。
      7.根據(jù)權(quán)利要求6所述的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),其特征在于,所述依存句法分析模塊中的所述翻譯片段是按從左到右的順序生成的,并通過移進-規(guī)約依存句法分析器進行依存句法分析,該分析器按照增量式進行解碼。
      8.根據(jù)權(quán)利要求6所述的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),其特征在于,所述依存句法分析模塊中的所述依存樹片段是指未完成的依存樹子結(jié)構(gòu),是依存樹中的任意聯(lián)通子圖。
      9.根據(jù)權(quán)利要求6所述的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),其特征在于,所述特征分數(shù)計算模塊中利用判別式依存特征抽取方法獲得判別式特征實例。
      10.根據(jù)權(quán)利要求6所述的結(jié)構(gòu)化語言模型構(gòu)建系統(tǒng),其特征在于,所述依存樹構(gòu)建模塊包括 處理模塊,對所述依存樹片段集合中當前特征窗口相同的結(jié)構(gòu)進行合并,保留其中所述特征分數(shù)較高的依存樹片段;將所述依存樹片段集合按照規(guī)約操作的次數(shù)進行分組,每組分別以其判別式特征分數(shù)為標準進行排序并使用堆棧剪枝策略,即保留分數(shù)最高的N個依存樹片段,N為堆棧大??; 選擇模塊,用于將保留的依存樹片段集合中最高的判別式特征分數(shù)作為當前翻譯片段的結(jié)構(gòu)化語言模型得分。
      全文摘要
      本發(fā)明公開了一種面向增量式翻譯的結(jié)構(gòu)化語言模型構(gòu)建方法及系統(tǒng),該方法包括步驟1,對增量式生成的翻譯片段進行依存句法分析,得到依存樹片段集合;步驟2,在依存樹片段集合上抽取判別式特征實例,并利用判別式依存句法模型計算其特征分數(shù)。步驟3,根據(jù)特征分數(shù)對依存樹片段集合進行剪枝,將特征分數(shù)最大值作為結(jié)構(gòu)化語言模型的得分,保留結(jié)構(gòu)化語言模型分數(shù)最高的片段,獲得優(yōu)化的依存樹片段集合;步驟4,將下一個翻譯片段通過移進-規(guī)約操作拼接到優(yōu)化的依存樹片段集合上,重復(fù)步驟1,2,3直到翻譯結(jié)束,生成完整的依存樹。本發(fā)明能在語言模型中融入句法信息和長距離依賴信息,在解碼過程中為動態(tài)計算結(jié)構(gòu)化語言模型提出有效的優(yōu)化算法,提高了翻譯質(zhì)量。
      文檔編號G06F17/28GK102945231SQ201210401238
      公開日2013年2月27日 申請日期2012年10月19日 優(yōu)先權(quán)日2012年10月19日
      發(fā)明者于恒, 米海濤, 劉群 申請人:中國科學(xué)院計算技術(shù)研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1