一種雙語語料庫過濾方法及系統(tǒng)的制作方法

文檔序號：6613920閱讀：272來源：國知局

專利名稱：一種雙語語料庫過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語料庫過濾方法，尤指一種雙語語料庫過濾方法及系統(tǒng)。
背景技術(shù)：
語料庫資源對于自然語言處理研究的巨大價值已經(jīng)得到越來越多的認可。特別是平行雙語語料庫，它是一種包含有兩種語言互譯信息的特殊的語料庫。平行雙語語料庫能夠提供兩種語言之間豐富的匹配信息，在翻譯知識的獲取、雙語詞典的建立、基于統(tǒng)計或?qū)嵗臋C器翻譯、詞義消歧等領(lǐng)域有著重要的應用價值，尤其是高質(zhì)量的語料庫作用更為凸顯。
語料庫的建立主要有兩種方法，一種是傳統(tǒng)的手工收集的方法；另一種是通過對篇章級對齊的語料庫通過計算機用自動句對齊方法獲得。但這兩種方法都不能保證獲得高質(zhì)量的語料庫，總是存在著一些例如句對不匹配、包含亂碼等錯誤。
消除錯誤句對最常用的方法是使用人工校對的方式對語料庫進行檢查。這種方法準確率雖然很高，但費時費力，尤其是當語料庫非常巨大的時候，這種方法就不太實用。
借助計算機用自動的方法對語料庫進行處理消除錯誤句對，其基本思路
是設(shè)定一些判定句對匹配質(zhì)量的特征，然后對每個特征進行打分，再依照經(jīng) 驗，人工設(shè)定一個特征閾值進行判定。當雙語句對大于這個特征閾值時確定為好句對，當雙語句對小于或等于這個特征閾值時確定為壞句對。這種方法雖然從一定程度上實現(xiàn)了自動化，但缺乏一般性且準確率并不高。特征閾值是憑經(jīng)驗設(shè)定的，特征閾值往往可能是設(shè)定者根據(jù)僅有的幾份語料庫資源來確定的，不能涵蓋大多數(shù)語料庫的分布情況。而且當經(jīng)驗設(shè)定的特征閾值過低會導致準確率下降，過高時又導致召回率下降。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種英漢雙語語料庫的過濾方法及系統(tǒng)，用于提高語料庫通用性、準確率和召回率。
為解決上述問題，本發(fā)明提供一種雙語語料庫過濾方法，包括以下步驟 A、確定雙語句對的句長比例特征值；
B、分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值； '
C、根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
優(yōu)選地，所述預先利用訓練集建立的分類模型具體包括 Cl、構(gòu)建訓練集；
C2、按照步驟A、 B分別計算句長比例特征值和互翻譯性特征值，利用分類器進行訓練；
C3、確定分類模型。
優(yōu)選地，所述訓練集是按照雙語語料庫中一定比例的好壞句對組成的，同時標注每個句對的類別值，設(shè)定好句對為1，壞句對為-1。
優(yōu)選地，所述步驟A之前進一步包括確定數(shù)詞匹配特征值；
所述確定數(shù)詞匹配特征值具體為將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù) 字的轉(zhuǎn)化，當雙語句對中的數(shù)詞轉(zhuǎn)化后的數(shù)字匹配，確定數(shù)詞匹配特征值為1，當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0。
優(yōu)選地，所述步驟A之前進一步包括統(tǒng)一所述雙語句對中的編碼類型的預處理。
優(yōu)選地，所述雙語句具體為英漢雙語句；統(tǒng)一所述雙語句對中的編碼類型的預處理具體包括
11) 將所述英漢雙語句對進行全角轉(zhuǎn)半角處理；
12) 將繁體編碼轉(zhuǎn)換為簡體國標編碼； 13 )排除亂碼的處理。
優(yōu)選地，所述雙語句具體為英漢雙語句；所述步驟A具體為確定英漢雙語句對中采用單詞數(shù)或字符個數(shù)，用所述漢語句中的單詞數(shù)或字符個數(shù)比上所述英雙語句中采用單詞數(shù)或字符個數(shù)，得出句長比例特征值。
優(yōu)選地，所述雙語句具體為英漢雙語句；所述統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，具體為統(tǒng)計英漢雙語句對中名詞、動詞、形容詞及介詞的數(shù)量。
本發(fā)明還提供一種英漢雙語語料庫過濾系統(tǒng)，包括句長比例計算單元、互翻譯性計算單元、訓練分類模型單元以及分類單元；
所述句長比例計算單元，用于確定雙語句對的句長比例特征值；
所述互翻譯性計算單元，用于分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所迷雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)不
同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值；
所述訓練分類模型單元，用于建立的訓練分類才莫型；
所述分類單元，與所述句長比例計算單元、互翻譯性計算單元和訓練分類模型單元相連，用于根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
優(yōu)選地，所述訓練分類模型單元按照雙語語料庫中一定比例的好壞句對組成的訓練集，同時標注每個句對的類別值，設(shè)定好句對為1,壞句對為-1。
優(yōu)選地，所述系統(tǒng)進一步包括數(shù)詞匹配單元，用于將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù)字的轉(zhuǎn)化，當雙語句對中的數(shù)詞轉(zhuǎn)化后的數(shù)字匹配，確定數(shù) 詞匹配特征值為l,當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0。
與上述現(xiàn)有技術(shù)相比，本發(fā)明實施例所述雙語語料庫過濾方法，包括確定雙語句對的句長比例特征值和互翻譯性特征值的步驟，再根據(jù)預先建立的訓練分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。這樣本發(fā)明實施例所述雙語語料庫的過濾方法能夠快速方便的處理數(shù)據(jù) 量龐大的雙語語料庫。本發(fā)明利用訓練分類模型的分類的思想將雙語語料庫的過濾問題轉(zhuǎn)換為二元分類問題，使得雙語語料庫匹配特征的權(quán)值能夠更加科學合理的確定，比現(xiàn)有經(jīng)驗的方法更具普適性，準確率和召回率也得到相應的提高。

圖1是本發(fā)明所述雙語語料庫過濾方法第一種實施例流程圖2是圖1中建立分類模型的流程圖3是本發(fā)明所述雙語語料庫過濾方法第二種實施例流程圖4是圖3中建立分類模型的流程圖5是本發(fā)明所述雙語語料庫過濾方法第三種實施例流程圖6是圖5統(tǒng)一所述雙語句對中的編碼類型的預處理流程圖7是本發(fā)明所述雙語語料庫過濾系統(tǒng)第一種實施例結(jié)構(gòu)圖8是本發(fā)明所述雙語語料庫過濾系統(tǒng)第二種實施例結(jié)構(gòu)圖9是本發(fā)明所述雙語語料庫過濾系統(tǒng)第三種實施例結(jié)構(gòu)圖。
具體實施例方式
本發(fā)明提供一種雙語語料庫的過濾方法，用于提高語料庫通用性、準確率和召回率。
參見參考圖1和圖2，圖1為本發(fā)明所述雙語語料庫過濾方法第一種實施例流程圖，圖2是圖1中建立分類模型的流程圖。
本發(fā)明第一種實施例所述雙語語料庫過濾方法，包括以下步驟 S100、確定雙語句對的句長比例特征值。
確定雙語句對中采用單詞數(shù)或字符個數(shù)。用所述雙語句中一種語句中的單詞數(shù)或字符數(shù)比上所述雙語句中另一種語句的單詞數(shù)或字符數(shù)，所得的值為句長比例特征值。
當所述雙語句為英漢雙語句時，用所述漢語句中的單詞數(shù)或字符個數(shù)比上所述英雙語句中采用單詞數(shù)或字符個數(shù)，得出句長比例特征值。句長分別采用單詞數(shù)或者是字符的個數(shù)來計算時，二者相差不大，一般選用單詞數(shù)計算更能體現(xiàn)英漢雙語句對的句長比例特征。
S200、分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值。
統(tǒng)計雙語句對中不同詞性的數(shù)量，具體是統(tǒng)計雙語句對中名詞、動詞、形容詞及介詞的數(shù)量。
首先，分別對雙語句對進行詞性標注。然后，再統(tǒng)計雙語句對中分別含有名詞、動詞、形容詞和介詞四種詞性的詞的個數(shù)。名詞、動詞、形容詞、介詞的詞性選擇是基于詞典翻譯考慮的，因為具有這四種詞性的詞語的翻譯一般比較具有辨別力。
對于英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞性的詞，利用漢英詞典翻譯，并在英漢雙語句對的英文句子中含有上述詞性的詞中查找。若找到，則匹配，統(tǒng)計匹配的個數(shù)。反之，對英漢雙語句對的英文句子中含有上述詞性的詞，利用英漢詞典翻譯，并在英漢雙語句對的中文句子中含有上述詞性的詞中查找是否匹配。若找到，則匹配，并統(tǒng)計匹配的個數(shù)。
我們以英漢雙語句對為例，利用下面的公式計算英漢雙語句對互翻譯性特征值。
V(c，e) = (T(c，e)/I(c))*(T(e，c)/I(e))
其中，V(c,e):英漢雙語句對互翻譯性特征值；
T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句子中的匹配個數(shù)；
T(e,c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句子中的匹配個it;
英漢雙i眉 I(e):英-;
同樣，當所述雙語句為其它兩種語言的雙語句對時，也可以應用上面的公式進行計算。
5300、根據(jù)預先預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
利用訓練集建立的分類模型具體包括
5301、構(gòu)建訓練集。
所述訓練集是按照雙語語料庫中一定比例的好壞句對組成的，同時標注每個雙語句對的類別值，設(shè)定好句對的類別值為1，壞句對的類別值為-1。
所述訓練集可以從雙語語料庫中按照好壞句對1: 1的比例挑選雙語句對纟且成訓練集。
訓練集的大小應該保持在5萬句對以上，越大的訓練集對訓練分類模型越有好處。語料的來源盡量廣泛，越廣泛的語料分布使訓練后的分類模型越具有一般性。
5302、按照步驟S100和步驟S200分別計算句長比例特征值和互翻譯性特征值，利用分類器進行訓練。
訓練集特征的標注格式"類別值+空格+特征代碼特征值+空格+特征代碼特征值......"
在類別值和特征代碼之間保留一個空格，在特征值與特征代碼之間保留一個空格。例如可以設(shè)定所述句長比例特征值為2,設(shè)定所述互翻譯性特征值為3。
利用分類器進行分類訓練為公知技術(shù)，可以選擇svm (支持向量機)或最大熵等通用的分類器進行訓練。
S303、確定分類模型。 '
分類模型建立后，將類別值標記為"-r的雙語句對放入過濾庫，留待以后處理。類別值標記為"r的雙語句對保留在雙語語料庫中。
本發(fā)明實施例所述雙語語料庫過濾方法，包4舌確定雙語句對的句長比例特征值和互翻譯性特征值的步驟，再根據(jù)預先利用訓練集建立的分類模型，
實施例所述雙語語料庫的過濾方法能夠快速方便的處理數(shù)據(jù)量龐大的雙語語料庫。本發(fā)明利用所述分類模型的分類將英漢雙語語料庫的過濾問題轉(zhuǎn)換為二元分類問題，使得英漢雙語語料庫匹配特征的權(quán)值能夠更加科學合理的確定，比現(xiàn)有經(jīng)驗的方法更具普適性，準確率和召回率也得到相應的提高。
參見參考圖3和圖4，圖3為本發(fā)明所述雙語語料庫過濾方法第二種實施例流程圖；圖4是圖3中建立分類模型的流程圖。
本發(fā)明所述雙語語料庫過濾方法第二種實施例相對第一實施例，增加確定數(shù)詞匹配特征值的步驟。
本發(fā)明第二種實施例所述雙語語料庫過濾方法，包括以下步驟
SIO、確定數(shù)詞匹配特征值；
將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù)字的轉(zhuǎn)化，當雙語句對中的數(shù)詞轉(zhuǎn) 化后的數(shù)字匹配，確定數(shù)詞匹配特征值為1。當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0。
下面以英漢雙語句對為例，具體說明確定數(shù)詞匹配特征值的過程。
方法為7>知4支術(shù)，在此不再詳述。
然后，將中英雙語句對的中文句子中含有標記為m (數(shù)詞)，英文中含有標記為od (系數(shù)詞)和cd (數(shù)詞)的數(shù)詞進行歸一化。
例如中英雙語句對的英文句中含有"$5 million",中文句子中含有"五百萬"，都將統(tǒng)一轉(zhuǎn)化為5000000。
所述歸一化采用基于規(guī)則的方法，即制定一些轉(zhuǎn)化規(guī)則。
所述轉(zhuǎn)化規(guī)則包括漢語的數(shù)詞與數(shù)字轉(zhuǎn)化規(guī)則，例如"一"對應"1"、
"百，，對應"100"等。
所述轉(zhuǎn)化規(guī)則包括英語的數(shù)詞與數(shù)字轉(zhuǎn)化規(guī)則，例如"one"對應"1"、
"hundred"對應"100"等。
將中英雙語句對的中文句子和中英雙語句對的英文句子中歸一化后的數(shù)詞比較，如果匹配，則數(shù)詞匹配特征值為l。如果不匹配，則數(shù)詞匹配特征值為0。
SIOO、確定雙語句對的句長比例特征值。
同樣，以英漢雙語句對為例，具體il明確定句長比例特征值的過程。
確定英漢雙語句對中采用單詞數(shù)或字符個數(shù)，用所述漢語句中的單詞數(shù)
或字符個數(shù)比上所述英雙語句中采用單詞數(shù)或字符個數(shù)，得出句長比例特征值。
句長分別采用單詞數(shù)或者是字符的個數(shù)來計算時，二者相差不大，一般選用單詞數(shù)計算更能體現(xiàn)英漢雙語句對的句長比例特征。
S200、分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，4艮據(jù)不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值。
同樣，以英漢雙語句對為例，具體說明確定互翻譯性特征值的過程。
統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，具體是統(tǒng)計英漢雙語句對中名詞、動詞、形容詞及介詞的數(shù)量。
首先，分別對英漢雙語句對進行詞性標注。然后，再統(tǒng)計英漢雙語句對中分別含有名詞、動詞、形容詞和介詞四種詞性的詞的個數(shù)。
對于英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞性的詞，利用漢英詞典翻譯，并在英漢雙語句對的英文句子中含有上述詞性的詞中查找。若找到，則匹配，統(tǒng)計匹配的個數(shù)。反之，對英漢雙語句對的英文句子中含有上述詞性的詞，利用英漢詞典翻譯，并在英漢雙語句對的中文句子中含有上述詞性的詞中查找是否匹配。若找到，則匹配，并統(tǒng)計匹配的個數(shù)。
利用下面的公式計算英漢雙語句對互翻譯性特征值。<formula>formula see original document page 10</formula>其中，V(c,e):英漢雙語句對互翻譯性特征值；T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句子中的匹配個數(shù)；
T(e，c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句子中的匹配個數(shù)；
I(c):英漢雙語句對的中文句子中含有的上述四種詞性的詞的個數(shù)；
I(e):英漢雙語句對的英文句子中含有的上述四種詞性的詞的個數(shù)。
S300A、根據(jù)預先建立的訓練分類模型，利用所述句長比例特征值和所述互翻譯性特征值以及數(shù)詞匹配特征值進行過濾分類。
同樣，以英漢雙語句對為例，具體說明本發(fā)明所述過濾方法第二實施例對應分類模型的建立過程
所述建立分類模型具體包括
S301A、構(gòu)建訓練集。
所述訓練集是按照英漢雙語語料庫中一定比例的好壞句對組成的，同時標注每個英漢雙語句對的類別值，設(shè)定好句對的類別值為1，壞句對的類別值為-1。
S302A、按照步驟SIO、步驟S100和步驟S200分別計算數(shù)詞匹配特征值、句長比例特征值和互翻譯性特征值，利用分類器進行訓練。
訓練集特征的標注格式類別值+空格+特征代碼特征值+空格+特征代碼特征值+空格+特征代碼特征值。
在類別值和特征代碼之間保留一個空格，在特征值與特征代碼之間保留一個空格。例如可以設(shè)定所述數(shù)詞匹配特征值為1,所述句長比例特征值為2，設(shè)定所述互翻譯性特征值為3。
S303A、確定分類模型。
分類模型建立后，將類別值標記為的英漢雙語句對放入過濾庫，留待以后處理。類別值標記為"1"的英漢雙語句對保留在英漢雙語語料庫中。
本發(fā)明所述方法的第二實施例增加了確定數(shù)詞匹配特征值的步驟，使得包含有數(shù)字信息的雙語句對的過濾準確性大大提高。
參見參考圖5和圖6，圖5為本發(fā)明所述雙語語料庫過濾方法笫三種實施例流程圖；圖6是圖5統(tǒng)一所述雙語句對中的編碼類型的預處理流程圖。
本發(fā)明所述雙語語料庫過濾方法第三種實施例相對第一實施例，增加統(tǒng)
一所述雙i吾句對中的編石馬類型的預處理的步驟。
同樣，以英漢雙語句對為例，具體說明本發(fā)明第三種實施例所述英漢雙語語料庫過濾方法的過程。
本發(fā)明第三種實施例所述英漢雙語語料庫過濾方法，包括以下步驟
Sl、統(tǒng)一所述英漢雙語句對中的編碼類型的預處理。
統(tǒng)一所述英漢雙語句對中的編碼類型的預處理具體包括
Sla、將所述英漢雙語句對進行全角轉(zhuǎn)半角處理；
Slb、將Big5碼(繁體編碼)轉(zhuǎn)換為GB碼(簡體國標編碼)；
Slc、排除亂碼的處理。
對于英漢雙語句對中的中文部分排除亂碼的處理，按照GB碼范圍排查，超越該范圍的剔除。
對于英漢雙語句對中的英文部分排除亂碼的處理，按照ASCII碼范圍排查，超越該范圍的剔除。
對于特殊符號處理
對于一些英漢雙語句對的句首含有標號，如"1、 (1)、 (1)、 (i)、 1)、一、" 等標號時，將句首的該標號刪除，其余保留。
對于一些英漢雙語句對的句中含有特殊的標點符號，如"====="、 "............"或"-"等特殊標點符號，將該符號刪除，其余部分保留。
統(tǒng)一所述英漢雙語句對中的編碼類型的預處理可以包括上述Sla、 Slb、 Slc三個步驟，也可以只包括Sla、 Slb、 Slc中的一個或兩個步驟。
S100、確定英漢雙語句對的句長比例特征值。
確定英漢雙語句對中釆用單詞數(shù)或字符個數(shù)，用所述漢語句中的單詞數(shù) 或字符個數(shù)比上所述英雙語句中采用單詞數(shù)或字符個數(shù)，得出句長比例特征值。
S200、分別統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與漢英詞典或英漢詞典中對應的詞匹配的數(shù)量，根據(jù)不同詞性的數(shù)量和所
述匹配的數(shù)量確定互翻譯性特征值。
統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，具體是統(tǒng)計英漢雙語句對中名詞、動詞、形容詞及介詞的數(shù)量。
首先，分別對英漢雙語句對進行詞性標注。然后，再統(tǒng)計英漢雙語句對
中分別含有名詞、動詞、形容詞和介詞四種詞性的詞的個數(shù)。
對于英漢雙語句對的中文句子中含有上述名詞、動詞、形容詞、介詞詞性的詞，利用漢英詞典翻譯，并在英漢雙語句對的英文句子中含有上述詢性的詞中查找。若找到，則匹配，統(tǒng)計匹配的個數(shù)。反之，對英漢雙語句對的英文句子中含有上述詞性的詞，利用英漢詞典翻譯，并在英漢雙語句對的中文句子中含有上述詞性的詞中查找是否匹配。若找到，則匹配，并統(tǒng)計匹配的個數(shù)。
利用下面的公式計算英漢雙語句對互翻譯性特征值。
V(c,e) = (T(c,e)/I(c))*(T(e，c)/I(e))
其中，V(c,e):英漢雙語句對互翻譯性特征值；
T(c,e):利用漢英詞典查找到的中文句子中的上述四種詞性的詞在英文句子中的匹配個數(shù)；
T(e,c):利用英漢詞典查找到的英文句子中的上述四種詞性的詞在中文句子中的匹配個數(shù)； I(c):英 I(e):英；
5300、根據(jù)預先建立的訓練分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
利用訓練集建立的分類模型具體包括
5301、構(gòu)建訓練集。
所述訓練集是按照英漢雙語語料庫中一定比例的好壞句對組成的，同時標注每個英漢雙語句對的類別值，設(shè)定好句對的類別值為1，壞句對的類別值為-1。
5302、按照步驟S100和步驟S200分別計算句長比例特征值和互翻譯性特征值，利用分類器進行訓練。
利用分類器進行分類訓練為公知技術(shù)，可以選擇svm或最大熵等通用的分類器進行訓練。
5303、確定分類模型。
分類模型建立后，將類別值標記為"1”的英漢雙語句對放入過濾庫，留
待以后處理。類別值標記為"1“的英漢雙語句對保留在英漢雙語語料庫中。本發(fā)明所述雙語語料庫過濾方法第三種實施例增加了統(tǒng)一所述雙語句對中的編碼類型的預處理的步驟，可以進一步提高分類過濾的準確率。
本發(fā)明所述雙語語料庫過濾方法；還可以在第二實施例的sio確定數(shù)詞匹配特征值之前，增加統(tǒng)一所述雙語句對中的編碼類型的預處理的步驟。同樣，可以提高分類過濾的準確率。
本發(fā)明還提供一種雙語語料庫的過濾系統(tǒng)，用于提高語料庫通用性、準確率和召回率。
參見圖7,該圖為本發(fā)明所述雙語語料庫過濾系統(tǒng)第一種實施例結(jié)構(gòu)圖。
本發(fā)明第一種實施例所述雙語語料庫過濾系統(tǒng)，包括句長比例計算單元
12、互翻譯性計算單元13、訓練分類才莫型單元14以及分類單元11。所述句長比例計算單元12，用于確定雙語句對的句長比例特征值。所述互翻譯性計算單元13,用于分別統(tǒng)計雙語句對中不同詞性的數(shù)量，
分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)
不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值。所述分類模型單元14，用于建立的分類模型。
所述分類模型單元14按照雙語語料庫中一定比例的好壞句對組成訓練集，同時標注每個句對的類別值，設(shè)定好句對為l,壞句對為-1。
所述句長比例計算單元12和所述互翻譯性計算單元13，分別計算所述訓練集句長比例特征值和互翻譯性特征值，利用分類器進行訓練。最后，將類別值標記為的雙語句對放入過濾庫，留待以后處理。類別值標記為"1" 的雙語句對保留在雙語語料庫中，建立分類模型。
所述分類單元11，與所述句長比例計算單元12、互翻譯性計算單元13 和分類模型單元14相連，用于根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
本發(fā)明實施例所述雙語語料庫過濾系統(tǒng)，包括確定雙語句對的句長比例特征值的句長比例計算單元12和互翻譯性特征值的互翻譯性計算單元13,分類單元11根據(jù)分類模型單元14，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。這樣本發(fā)明實施例所述雙語語料庫過濾系統(tǒng)能夠快速方便的處理數(shù)據(jù)量龐大的雙語語料庫。本發(fā)明利用分類才莫型單元14進行分類將雙語語料庫的過濾問題轉(zhuǎn)換為二元分類問題，使得雙語語料庫匹配特征的權(quán)
值能夠更加f牛學合理的確定，比現(xiàn)有經(jīng)-瞼的方法更具普適性，準確率和召回率也得到相應的提高。
'參見圖8，該圖為本發(fā)明所述雙語語料庫過濾系統(tǒng)第二種實施例結(jié)構(gòu)圖。本發(fā)明所述雙語語料庫過濾系統(tǒng)第二種實施例相對第一實施例增加了與
所述分類單元相連的數(shù)詞匹配單元15。
所述數(shù)詞匹配單元15，用于將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù)字的轉(zhuǎn) 化，當雙語句對中的數(shù)詞轉(zhuǎn)化后的數(shù)字匹配，確定數(shù)詞匹配特征值為l，當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0。
所述分類單元ll，根據(jù)分類模型單元14預先建立的分類模型，利用所述數(shù)詞匹配特征值、所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
本發(fā)明所述系統(tǒng)的第二實施例增加了確定數(shù)詞匹配單元15,所述系統(tǒng)處理包含有數(shù)字信息的雙語句對時的過濾準確性大大提高。
參見圖9,該圖為本發(fā)明所述雙語語料庫過濾系統(tǒng)第三種實施例結(jié)構(gòu)圖。
本發(fā)明所述雙語語料庫過濾系統(tǒng)第三種實施例相對第一實施例增加了與所述分類單元相連的預處理單元16。
預處理單元16,用于統(tǒng)一所述雙語句對中的編碼類型的預處理。
所述預處理單元16包括與所述分類單元11均相連的全角轉(zhuǎn)半角處理子單元16a和亂碼處理子單元16c。
全角轉(zhuǎn)半角處理子單元16a，用于將所述雙語句對進行全角轉(zhuǎn)半角處理。
亂碼處理子單元16c,用于排除亂碼的處理。
亂碼處理子單元16c對于特殊符號處理
亂碼處理子單元16c對于一些雙語句對的句首含有標號，如"1 、 ( 1 )、 ( I )、 (i)、 1)、一"等標號時，將句首的該標號刪除，其余保留。
亂碼處理子單元對于一些雙語句對的句中含有特殊的標點符號，如
"=="、"............"或"-"等特殊標點符號，將該符號刪除，其余
部分保留。
當本發(fā)明所述雙語語料庫過濾系統(tǒng)為英漢雙語語料庫過濾系統(tǒng)時，亂碼處理子單元對于英漢雙語句對中的中文部分排除亂碼的處理，按照GB碼范圍排查，超越該范圍的剔除。
當本發(fā)明所述雙語語料庫過濾系統(tǒng)為英漢雙語語料庫過濾系統(tǒng)時，亂碼
處理子單元16c對于雙i吾句對中的英文部分4要照ASCII碼范圍排查，超越該范圍的剔除。
當本發(fā)明所述雙語語料庫過濾系統(tǒng)為英漢雙語語料庫過濾系統(tǒng)時，所述預處理單元16包括Big5碼轉(zhuǎn)GB碼處理子單元16b， Big5碼轉(zhuǎn)GB碼處理子單元16b，用于將Big5碼。轉(zhuǎn)換為GB碼。
所述預處理單元16可以全部包括全角轉(zhuǎn)半角處理子單元16a、 Big5碼轉(zhuǎn)
GB碼處理子單元16b和亂碼處理子單元16c，也可以包括全角轉(zhuǎn)半角處理子
單元16a、 Big5碼轉(zhuǎn)GB碼處理子單元16b和亂碼處理子單元16c中的一個或兩個子單元。
本發(fā)明所述雙語語料庫過濾系統(tǒng)第三種實施例增加了預處理單元16,統(tǒng) 一所述雙語句對中的編碼類型，進一步提高分類過濾的準確率。
本發(fā)明實施例所述雙語語料庫過濾系統(tǒng)可以在第二實施例的基礎(chǔ)上進一步增加與所述分類單元11相連的預處理單元16。
所述預處理單元16包括與所述分類單元11均相連的全角轉(zhuǎn)半角處理子單元16a、 Big5碼轉(zhuǎn)GB碼處理子單元16b和亂碼處理單元16c。
所述預處理單元16可以全部包括全角轉(zhuǎn)半角處理子單元16a、 Big5碼轉(zhuǎn) GB碼處理子單元16b和亂碼處理單元16c,也可以包括全角轉(zhuǎn)半角處理子單元16a、 Big5碼轉(zhuǎn)GB碼處理子單元16b和亂碼處理單元16c中的一個或兩個子單元。
以上所述僅為本發(fā)明的優(yōu)選實施方式，并不構(gòu)成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等，均應包含在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。
權(quán)利要求
1、一種雙語語料庫過濾方法，其特征在于，包括以下步驟A、確定雙語句對的句長比例特征值；B、分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值；C、根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
2、根據(jù)權(quán)利要求1所述的過濾方法，其特征在于，所述預先利用訓練集建立的分類模型具體包括Cl、構(gòu)建訓練集；C2、按照步驟A、 B分別計算句長比例特征值和互翻譯性特征值，利用分類器進行訓練；C3、確定分類模型。
3、根據(jù)權(quán)利要求2所述的過濾方法，其特征在于，所述訓練集是按照雙語語料庫中一定比例的好壞句對組成的，同時標注每個句對的類別值，設(shè)定好句對為1,壞句對為-1。
4、根據(jù)權(quán)利要求1所述的過濾方法，其特征在于，所述步驟A之前進一步包括確定數(shù)詞匹配特征值；所述確定數(shù)詞匹配特征值具體為將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù) 字的轉(zhuǎn)化，當雙語句對中的數(shù)詞轉(zhuǎn)化后的數(shù)字匹配，確定數(shù)詞匹配特征值為1，當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0。
5、根據(jù)權(quán)利要求1所述的過濾方法，其特征在于，所述步驟A之前進一步包括統(tǒng)一所述雙語句對中的編碼類型的預處理。
6、根據(jù)權(quán)利要求5所述的過濾方法，其特征在于，所述雙語句具體為英漢雙語句；統(tǒng)一所述雙語句對中的編碼類型的預處理具體包括11) 將所述英漢雙語句對進行全角轉(zhuǎn)半角處理；12) 將繁體編碼轉(zhuǎn)換為簡體國標編碼； 13 )排除亂碼的處理。
7、根據(jù)權(quán)利要求1所述的過濾方法，其特征在于，所述雙語句具體為英漢雙語句；所述步驟A具體為確定英漢雙語句對中釆用單詞數(shù)或字符個數(shù)，個數(shù)，得出句長比例特征值。
8、根據(jù)權(quán)利要求1所述的過濾方法，其特征在于，所述雙語句具體為英漢雙語句；所述統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，具體為統(tǒng)計英漢雙語句對中名詞、動詞、形容詞及介詞的數(shù)量。
9、一種英漢雙語語料庫過濾系統(tǒng)，其特征在于，包括句長比例計算單元、互翻譯性計算單元、訓練分類模型單元以及分類單元；所述句長比例計算單元，用于確定雙語句對的句長比例特征值；所述互翻譯性計算單元，用于分別統(tǒng)計雙語句對中不同詞性的數(shù)量，分同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值；所述訓練分類模型單元，用于建立的訓練分類模型；所述分類單元，與所述句長比例計算單元、互翻譯性計算單元和訓練分類模型單元相連，用于根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。
10、根據(jù)權(quán)利要求1所述的過濾系統(tǒng)，其特征在于，所述訓練分類模型單元按照雙語語料庫中一定比例的好壞句對組成的訓練集，同時標注每個句對的類別值，設(shè)定好句對為l,壞句對為-1。
11、根據(jù)權(quán)利要求1所述的過濾系統(tǒng)，其特征在于，所述系統(tǒng)進一步包括數(shù)詞匹配單元，用于將雙語句對中的數(shù)詞分別統(tǒng)一進行數(shù)字的轉(zhuǎn)化，當雙語句對中的數(shù)詞轉(zhuǎn)化后的數(shù)字匹配，確定數(shù)詞匹配特征值為1,當所述數(shù)詞不匹配，確定數(shù)詞匹配特征值為0 。
全文摘要
本發(fā)明公開一種雙語語料庫過濾方法，包括以下步驟A.確定英漢雙語句對的句長比例特征值；B.分別統(tǒng)計英漢雙語句對中不同詞性的數(shù)量，分別計算所述詞性的詞與所述雙語的互譯詞典中對應的詞匹配的數(shù)量，根據(jù)不同詞性的數(shù)量和所述匹配的數(shù)量確定互翻譯性特征值；C.根據(jù)預先利用訓練集建立的分類模型，利用所述句長比例特征值和所述互翻譯性特征值進行過濾分類。本發(fā)明公開一種雙語語料庫系統(tǒng)。本發(fā)明提供一種雙語語料庫的過濾方法及系統(tǒng)，用于提高語料庫通用性、準確率和召回率。
文檔編號G06F17/27GK101201820SQ200710178309
公開日2008年6月18日申請日期2007年11月28日優(yōu)先權(quán)日2007年11月28日
發(fā)明者挺劉, 剛王, 王海洲, 高立琦申請人:北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司;哈爾濱工業(yè)大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王剛;高立琦;劉挺;王海洲
技術(shù)所有人：北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司;哈爾濱工業(yè)大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

英漢雙語平行語料庫相關(guān)技術(shù)

雙語平行語料庫相關(guān)技術(shù)

英漢雙語語料庫相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種雙語語料庫過濾方法及系統(tǒng)的制作方法