本發(fā)明涉及統(tǒng)計機器翻譯和跨語言信息檢索技術領域,尤其是一種互譯多詞表達抽取方法及其裝置。
背景技術:
雙語多詞表達是具有互為翻譯關系的源語言多詞表達和目標語言多詞表達組合。在機器翻譯中,正確使用雙語多詞表達能夠極大地提升翻譯過程中詞和短語的對齊效果。在跨語言信息檢索中,及時提取和更新雙語多詞表達可以提高對查詢語句分詞的正確率,提升對查詢語句的句法分析能力,最終增大查詢檢索的準確度。
雙語多詞表達抽取一般在識別多詞表達的基礎上,利用現(xiàn)有雙語知識分析不同語言多詞表達的互譯匹配關系,當前方法面臨的主要問題有:多詞表達邊界分割不準確和現(xiàn)有雙語知識領域受限性。
技術實現(xiàn)要素:
本發(fā)明的首要目的在于提供一種雙語多詞表達的抽取方法,通過自身獲取不同語言詞匯間的聯(lián)系,并同時確定多詞結構和互譯關系,實現(xiàn)有效的互譯多詞表達抽取,提高了互譯多詞表達庫建設的準確度。
為實現(xiàn)上述目的,本發(fā)明采用了以下技術方案,一種雙語多詞表達的抽取方法,該方法包括下列順序的步驟:
(1)雙語可比語料庫中源語言和目標語言文檔經預處理;
(2)產生不同語言相鄰詞匯共現(xiàn)信息構成候選多詞表達;
(3)訓練候選多詞表達中詞匯對主題的權重信息,分析不同語言的詞匯間的相似度;
(4)計算不同語言多詞表達詞匯的相似度、長度比、互譯比、無翻譯比、最長連續(xù)互譯、詞性一致比特征信息;
(5)通過分類器從不同語言候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。
進一步的,在所述步驟(1)中,針對雙語可比語料庫中的所有文檔進行中文分詞、詞性標注、詞性選擇的預處理構成有特定次序的候選詞匯集合。
進一步的,在所述步驟(2)中,計算每種語言相鄰詞匯共現(xiàn)信息MI,MI大于常數(shù)β,構成候選多詞表達,MI計算公式如下:
其中,x和y表示相鄰詞匯;MI表示相鄰詞匯x和y構成的互信息;p(x,y)表示詞匯x和y在所有文檔中共現(xiàn)次數(shù);p(x)表示詞匯x在所有文檔中出現(xiàn)次數(shù);p(y)表示詞匯y在所有文檔中出現(xiàn)次數(shù)。
進一步的,所述步驟(3)中,通過雙語可比語料訓練不同語言主題一致的分布Ζk(1<k<K),產生候選多詞表達中不同語言詞匯ωS和ωT對主題的概率P(ωS|Ζk)和P(ωT|Ζk),根據(jù)歐式距離dist計算ωS和ωT間的相似度Sim(ωS,ωT):
Sim(ωS,ωT)=dist(P(ωS|Ζk),P(ωT|Ζk))
其中,P(ωS|Ζk)為源語言詞匯ωS對主題Ζk的概率分布,P(ωT|Ζk)為目標語言詞匯ωT對主題Ζk的概率分布。
進一步的,所述步驟(4)中,包括以下兩個方面:
(a)根據(jù)不同語言詞匯相似度計算不同語言候選多詞表達的相似度;
(b)根據(jù)標注信息和互譯詞典計算不同語言候選多詞表達的其它特征。
進一步的,所述步驟(5)中,利用不同語言的多詞表達間的匹配關系,根據(jù)候選多詞表達的相似度和其它特征信息,通過分類器從不同語言的候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。
進一步的,所述步驟(a)中,根據(jù)不同語言的詞匯ωS和ωT間的相似度Sim(ωS,ωT),計算不同語言的候選多詞表達的相似度S,計算公式如下:
其中,I為候選多詞表達中源語言的詞匯數(shù)量,i為源語言中詞匯次序,為源語言中第i個詞匯;J為候選多詞表達中目標語言的詞匯數(shù)量,j為目標語言中詞匯次序,為目標語言中第j個詞匯。
進一步的,所述步驟(b)中,針對不同語言候選多詞表達,計算不同語言候選多詞表達的其它特征,主要包括根據(jù)數(shù)值I和J,統(tǒng)計的長度比L=I/J;根據(jù)互譯詞典,統(tǒng)計互譯比T、連續(xù)互譯比cT;根據(jù)標注信息,統(tǒng)計詞性一致比N。
進一步的,所述β為0。
進一步的,所述K為150。
本發(fā)明的另一目的在于提供一種互譯多詞表達抽取裝置,包括:
文檔預處理裝置:針對雙語可比語料庫中的所有文檔進行中文分詞、詞性標注、詞性選擇的預處理構成具有特定次序的候選詞匯集合;
候選多詞表達生成裝置:計算多文檔中相鄰候選詞匯的共現(xiàn)信息,并跟據(jù)相鄰共現(xiàn)信息和預設閾值,篩選出候選多詞表達集合;
詞匯間相似度分析裝置:訓練候選多詞表達中詞匯對主題的權重信息,分析不同語言的詞匯間的相似度;
多特征信息計算裝置:計算不同語言多詞表達詞匯的相似度、長度比、互譯比、無翻譯比、最長連續(xù)互譯、詞性一致比特征信息;
多詞表達篩選裝置:通過分類器從不同語言的候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。
由上述技術方案可知,本發(fā)明通過不同語言詞匯的相似度計算,避免互譯知識稀疏對不同語言匹配的影響,此外在互譯多詞表達抽取過程中,通過雙語間的匹配關系同時確定多詞結構和互譯關系,實現(xiàn)有效的互譯多詞表達抽取,提高了互譯多詞表達庫建設的準確度。
附圖說明
圖1是本發(fā)明方法的流程示意圖;
圖2是本發(fā)明裝置的結構框圖。
具體實施方式
一種雙語多詞表達抽取方法,該方法包括下列順序的步驟:(1)雙語可比語料庫中源語言和目標語言文檔經預處理;(2)產生不同語言相鄰詞匯共現(xiàn)信息構成候選多詞表達;(3)訓練候選多詞表達中詞匯對主題的權重信息,分析不同語言的詞匯間的相似度;(4)計算不同語言多詞表達詞匯的相似度、長度比、互譯比、無翻譯比、最長連續(xù)互譯、詞性一致比特征信息;(5)通過分類器從不同語言候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。如圖1所示。
以下結合圖1對本發(fā)明作進一步的說明。
在所述步驟(1)中,針對雙語可比語料庫中的所有文檔進行中文分詞、詞性標注、詞性選擇的預處理構成有特定次序的候選詞匯集合。
在所述步驟(2)中,計算每種語言相鄰詞匯共現(xiàn)信息MI,MI大于常數(shù)β,構成候選多詞表達,MI計算公式如下:
其中,x和y表示相鄰詞匯;MI表示相鄰詞匯x和y構成的互信息;p(x,y)表示詞匯x和y在所有文檔中共現(xiàn)次數(shù);p(x)表示詞匯x在所有文檔中出現(xiàn)次數(shù);p(y)表示詞匯y在所有文檔中出現(xiàn)次數(shù),所述β為0。
所述步驟(3)中,通過雙語可比語料訓練不同語言主題一致的分布Ζk(1<k<K),產生候選多詞表達中不同語言詞匯ωS和ωT對主題的概率P(ωS|Ζk)和P(ωT|Ζk),根據(jù)歐式距離dist計算ωS和ωT間的相似度Sim(ωS,ωT):
Sim(ωS,ωT)=dist(P(ωS|Ζk),P(ωT|Ζk))
其中,P(ωS|Ζk)為源語言詞匯ωS對主題Ζk的概率分布,P(ωT|Ζk)為目標語言詞匯ωT對主題Ζk的概率分布,所述K為150。所述不同語言主題一致是指主題是一致的,但是通過不同語言來表述的。
所述步驟(4)中,包括以下兩個方面:(a)根據(jù)不同語言詞匯相似度計算不同語言候選多詞表達的相似度;(b)根據(jù)標注信息和互譯詞典計算不同語言候選多詞表達的其它特征。
所述步驟(a)中,根據(jù)不同語言的詞匯ωS和ωT間的相似度Sim(ωS,ωT),計算不同語言的候選多詞表達的相似度S,計算公式如下:
其中,I為候選多詞表達中源語言的詞匯數(shù)量,i為源語言中詞匯次序,為源語言中第i個詞匯;J為候選多詞表達中目標語言的詞匯數(shù)量,j為目標語言中詞匯次序,為目標語言中第j個詞匯。
所述步驟(b)中,針對不同語言候選多詞表達,計算不同語言候選多詞表達的其它特征,主要包括根據(jù)數(shù)值I和J,統(tǒng)計的長度比L=I/J;根據(jù)互譯詞典,統(tǒng)計互譯比T、連續(xù)互譯比cT;根據(jù)標注信息,統(tǒng)計詞性一致比N。
所述步驟(5)中,利用不同語言的多詞表達間的匹配關系,根據(jù)候選多詞表達的相似度和其它特征信息,通過分類器從不同語言的候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。
如圖2所示,本裝置包括:文檔預處理裝置,針對雙語可比語料庫中的所有文檔進行中文分詞、詞性標注、詞性選擇的預處理構成具有特定次序的候選詞匯集合;候選多詞表達生成裝置,計算多文檔中相鄰候選詞匯的共現(xiàn)信息,并根據(jù)相鄰共現(xiàn)信息和預設閾值,篩選出候選多詞表達集合;詞匯間相似度分析裝置,訓練候選多詞表達中詞匯對主題的權重信息,分析不同語言的詞匯間的相似度;多特征信息計算裝置,計算不同語言多詞表達詞匯的相似度、長度比、互譯比、無翻譯比、最長連續(xù)互譯、詞性一致比特征信息;多詞表達篩選裝置,通過分類器從不同語言的候選多詞表達,篩選出多詞表達以及不同語言間的匹配關系,構成互譯多詞表達。
綜上所述,本發(fā)明通過不同語言詞匯的相似度計算,避免互譯知識稀疏對不同語言匹配的影響,此外在互譯多詞表達抽取過程中,通過雙語間的匹配關系同時確定多詞結構和互譯關系,實現(xiàn)有效的互譯多詞表達抽取,提高了互譯多詞表達庫建設的準確度。