一種機器翻譯中翻譯單元表的抽取方法
【專利摘要】本發(fā)明提出了一種機器翻譯中翻譯單元表的抽取方法,本發(fā)明運行于Hadoop并行計算平臺上,包括以下步驟:根據(jù)輸入的雙語對齊語料和詞對齊文件,選擇想要抽取的內(nèi)容,并對相關(guān)信息進行合并;根據(jù)需要選擇是否平滑和平滑方法,進行相應(yīng)的平滑計數(shù)和合并;計算相應(yīng)概率,輸出最終結(jié)果文件。對比現(xiàn)有的集中式抽取方法,能大大加快程序運行時間;同時通過在計算概率的過程中可以選擇性加入多項平滑技術(shù),能夠處理在訓練數(shù)據(jù)集中由于數(shù)據(jù)稀疏和經(jīng)驗分布帶來的過擬合現(xiàn)象,使得其中的概率更符合真實世界的情況,在實際情況中也能提高計算機機器翻譯系統(tǒng)的性能。
【專利說明】一種機器翻譯中翻譯單元表的抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計算機統(tǒng)計機器翻譯和并行計算領(lǐng)域,特別是一種分布式抽取短語、層次短語表及詞匯化調(diào)序模型的方法。
【背景技術(shù)】
[0002]統(tǒng)計機器翻譯自上世紀90年代以來發(fā)展十分迅速,取得了很大的進步,逐漸成為機器翻譯領(lǐng)域中的研究熱點。相對于基于規(guī)則的機器翻譯系統(tǒng),統(tǒng)計方法的最大優(yōu)點在于無需人工編寫規(guī)則,可以利用語料庫直接通過訓練得到機器翻譯系統(tǒng)。而基于短語或?qū)哟味陶Z的統(tǒng)計機器翻譯系統(tǒng)可以更好地把握局部上下文的依賴關(guān)系,在性能上優(yōu)于基于詞的統(tǒng)計機器翻譯方法;相對于基于句法的統(tǒng)計機器翻譯,又具有很好的通用性,且搜索空間比較小。
[0003]基于短語和層次短語的統(tǒng)計機器翻譯系統(tǒng)的工作過程如下:輸入待翻譯的句子S,將之切分為η個短語,即S=S1, S2,……Sn,接著將每個源短語Si翻譯成目標語言短語ti;生成目標語言句子T=t1;t2,……tn。最后在所有可能的候選翻譯中找出概率最高的句子。而短語表、層次短語表和詞匯化調(diào)序模型在基于短語和層次短語的統(tǒng)計機器翻譯系統(tǒng)中扮演重要角色,其中短語表和層次短語表可以用來在翻譯過程中找出翻譯概率最大的目標短語;而詞匯化調(diào)序模型則可以用來調(diào)整翻譯結(jié)果中短語的次序,使得翻譯結(jié)果更符合人們的習慣。在現(xiàn)有的發(fā)明技術(shù)中,如中科院計算所2009年申請的《統(tǒng)計機器翻譯短語抽取方法》專利中,著重于抽取和計算概率的算法,沒有提到如何實現(xiàn)本項工作,如果采用集中式抽取方法進行三個文件的抽取,即利用一臺計算機獨立完成工作,隨著訓練語料規(guī)模的不斷增加,程序的時間消耗越來越大,而且每當試驗一種新的詞對齊方式都要重新抽取這些翻譯規(guī)則,這樣一來更是凸顯了集中式抽 取方法在效率上的不足,因此需要尋求更快抽取這些翻譯規(guī)則的方法。
[0004]Hadoop是由Apache基金會開發(fā)的一個分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,充分利用集群進行高速運算和存儲。Hadoop為大數(shù)據(jù)處理工作提供了優(yōu)秀的數(shù)據(jù)存儲與運算平臺,對于大規(guī)模訓練語料下抽取短語、層次短語表和調(diào)序規(guī)則的工作,可以通過編寫hadoop分布式程序,充分利用多臺計算結(jié)點來完成該項工作,從而縮短工作時間,提高效率。
【發(fā)明內(nèi)容】
[0005]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對集中式抽取方法在效率上的不足,提出一種機器翻譯中翻譯單元表的抽取方法。
[0006]為了解決上述技術(shù)問題,本發(fā)明公開了一種機器翻譯中翻譯單元表的抽取方法,該方法的所有步驟均運行于Hadoop并行計算平臺上,利用Hadoop并行計算平臺分別抽取短語表、層次短語表以及詞匯化調(diào)序模型。
[0007]所述抽取短語表包括如下步驟:[0008]步驟11,輸入雙語對齊語料和對應(yīng)的詞對齊文件,對于雙語對齊語料中每一對雙語對齊句對,根據(jù)詞對齊文件中的詞對齊信息,首先抽取出所有的對齊短語對并記錄其詞對齊信息和一次出現(xiàn)次數(shù);接著對相同對齊短語對進行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對齊信息;抽取出的對齊短語對滿足詞對齊上的相容性,即在原有句子的短語對中一端映射到另一端上的范圍不能超過該端短語的覆蓋范圍;
[0009]步驟12,以步驟11的結(jié)果作為輸入,采用Good-Turing平滑方法進行平滑處理,統(tǒng)計(c,nc)對,其中c是單個短語對的出現(xiàn)次數(shù),nc是所有短語對中出現(xiàn)次數(shù)為c的短語對的個數(shù)。也可以米用Kneser-Ney和Modified Kneser-Ney平滑方法(參閱An empiricalstudy of smoothing techniques for language modeling,I 999, Computer Speech andLanguage,13 :359-394)。
[0010]步驟13,以步驟11和步驟12的結(jié)果作為輸入,計算對齊短語對的正向和反向的相對頻率即短語互翻譯概率,以及詞匯化翻譯概率,得到短語表。
[0011]本發(fā)明步驟12包括以下步驟:
[0012]對于Good-Turing平滑,統(tǒng)計(c,n。)對,其中c是短語對的共現(xiàn)次數(shù),η。是所有短語對中出現(xiàn)c次的短語對的個數(shù);假設(shè)目標短語為t,源短語為S,對于Kneser-Ney平滑,統(tǒng)計與源短語滿足共現(xiàn)次數(shù)c (s,t) >0的目標短語的數(shù)量和與目標短語滿足c (s,t) >0的源短語的數(shù)量;對于Modified Kneser-Ney平滑,統(tǒng)計與源短語分別滿足c (s, t)=l、c(s, t)=2和c (s,t)>2的目標短語的數(shù)量和與目標短語分別滿足c (s,t)=l、c(s,t)=2和c (s,t)>2的源短語的數(shù)量;同時對于Kneser-Ney和Modified Kneser-Ney平滑也同樣統(tǒng)計(c, nc)對。統(tǒng)計這些量分別需要利用一次MapReduce過程。
[0013]對于Kneser-Ney和Modified Kneser-Ney平滑,在計數(shù)的同時要保存相應(yīng)的短語,這樣會導致結(jié)果文件過大,如果直接讀到內(nèi)存中將使hadoop集群的開銷過大,本方法利用兩個MapReduce過程將源短語和目標短語相應(yīng)的計數(shù)合并到步驟11的結(jié)果中。
[0014]本發(fā)明步驟13包括以下步驟:
[0015]短語對的正向相對頻率為給定源短語翻譯為目標短語的相對頻率,反向相對頻率為給定目標短語翻譯為源短語的相對頻率。令s表示源短語,t表示目標短語,未使用平滑技術(shù)的情況下,對齊短語對的正向相對頻率的計算公式如下:
【權(quán)利要求】
1.一種機器翻譯中翻譯單元表的抽取方法,其特征在于,利用Hadoop并行計算平臺分別抽取短語表、層次短語表以及詞匯化調(diào)序模型。
2.根據(jù)權(quán)利要求1所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取短語表包括如下步驟: 步驟11,輸入雙語對齊語料和對應(yīng)的詞對齊文件,對于雙語對齊語料中每一對雙語對齊句對,根據(jù)詞對齊文件中的詞對齊信息,首先抽取出所有的對齊短語對并記錄其詞對齊信息和一次出現(xiàn)次數(shù);接著對相同對齊短語對進行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對齊信息;抽取出的對齊短語對滿足詞對齊上的相容性,即在原有句子的短語對中一端映射到另一端上的范圍不能超過該端短語的覆蓋范圍; 步驟12,以步驟11的結(jié)果作為輸入,采用Good-Turing方法進行平滑處理,統(tǒng)計(c,η。)對,其中c是單個短語對的出現(xiàn)次數(shù),η。是所有短語對中出現(xiàn)次數(shù)為c的短語對的個數(shù); 步驟13,以步驟11和步驟12的結(jié)果作為輸入,計算對齊短語對的正向和反向的相對頻率即短語互翻譯概率,以及詞匯化翻譯概率,得到短語表。
3.根據(jù)權(quán)利要求2所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,步驟13包括以下步驟: 短語對的正向相對頻率為給定源短語翻譯為目標短語的相對頻率,反向相對頻率為給定目標短語翻譯為源短語的相對頻率,根據(jù)訓練語料中短語對的計數(shù)特征來重新計算一個值來替代原先的計數(shù)值,替換公式如下:
4.根據(jù)權(quán)利要求1所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取層次短語表包括如下步驟: 步驟21,輸入雙語對齊語料和對應(yīng)的詞對齊文件,對于雙語對齊語料中每一對雙語對齊句對,根據(jù)詞對齊文件中的詞對齊信息,首先抽取出所有的對齊層次短語對并記錄對應(yīng)詞對齊信息和一次出現(xiàn)次數(shù);接著對相同層次短語對進行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對齊信息; 步驟22,以步驟11的結(jié)果作為輸入,采用Good-Turing方法進行平滑處理,統(tǒng)計(c,η。)對,其中c是單個層次短語對的出現(xiàn)次數(shù),η。是所有層次短語對中出現(xiàn)次數(shù)為c的層次短語對的個數(shù); 步驟23,以步驟11和步驟12的結(jié)果作為輸入,計算層次短語對的正向和反向的相對頻率即層次短語互翻譯概率,以及詞匯化翻譯概率,得到層次短語表。
5.根據(jù)權(quán)利要求4所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,步驟23包括以下步驟: 層次短語對的正向相對頻率為給定源層次短語翻譯為目標層次短語的相對頻率,層次短語對的反向相對頻率為給定目標層次短語翻譯為源層次短語的相對頻率; 根據(jù)訓練語料中層次短語對的計數(shù)特征來重新計算一個值來替代原先的計數(shù)值,替換公式如下:
6.根據(jù)權(quán)利要求1所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取詞匯化調(diào)序模型包括以下步驟: 步驟31,輸入的雙語對齊語料和對應(yīng)的詞對齊文件,對于雙語對齊語料中每一對雙語對齊句對,根據(jù)詞對齊文件中的詞對齊信息,抽取出所有的對齊短語對和對應(yīng)的調(diào)序規(guī)則并輸出至文件; 步驟32,根據(jù)步驟31的結(jié)果,統(tǒng)計各個調(diào)序規(guī)則出現(xiàn)的總次數(shù); 步驟33,合并相同的短語對,統(tǒng)計各調(diào)序規(guī)則的出現(xiàn)次數(shù)和短語對的出現(xiàn)次數(shù),根據(jù)步驟32的結(jié)果,計算短語對的各個調(diào)序規(guī)則的概率,得到詞匯化調(diào)序模型表。
7.根據(jù)權(quán)利要求6所述的一種機器翻譯中翻譯單元表的抽取方法,其特征在于,步驟33包括以下步驟: 計算調(diào)序規(guī)則概率的公式如下:
【文檔編號】G06F17/28GK103488629SQ201310439927
【公開日】2014年1月1日 申請日期:2013年9月24日 優(yōu)先權(quán)日:2013年9月24日
【發(fā)明者】黃書劍, 孫輝豐, 戴新宇, 陳家駿 申請人:南京大學