制,在附圖中:
[0055] 圖1示出了根據(jù)本發(fā)明平行句對的篩選方法一實施例的流程示意圖;
[0056] 圖2示出了根據(jù)本發(fā)明平行句對的篩選系統(tǒng)一實施例的結(jié)構(gòu)框圖。
【具體實施方式】
[0057]為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實 施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實施 例及實施例中的特征可以相互組合。
[0058]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護(hù)范圍并不受下面公開 的具體實施例的限制。
[0059 ]本發(fā)明提供一種平行句對的篩選方法,如圖1所示,該方法包括:
[0060] 步驟S1、將每一待篩句對中的源語言語句和目標(biāo)語言語句均切分成詞;
[0061] 步驟S2、利用雙語詞向量模型確定切分得到的每一個詞的詞向量;
[0062] 步驟S3、計算所述源語言語句中每一個詞在該源語言語句中的權(quán)重值;
[0063] 步驟S4、計算所述目標(biāo)語言語句中每一個詞在該目標(biāo)語言語句中的權(quán)重值;
[0064] 步驟S5、建立一目標(biāo)函數(shù),其中:
[0065] 該目標(biāo)函數(shù)的控制變量為所述源語言語句中每一個詞與所述目標(biāo)語言語句中每 一個詞之間的轉(zhuǎn)移量;
[0066] 該目標(biāo)函數(shù)的優(yōu)化目標(biāo)為該待篩句對中源語言語句和目標(biāo)語言語句之間的泥土 移動距離最小,所述泥土移動距離為所述源語言語句中每一個詞的詞向量與所述目標(biāo)語言 語句中每一個詞的詞向量之間的距離與對應(yīng)的轉(zhuǎn)移量之間的乘積之和;
[0067] 該目標(biāo)函數(shù)的約束條件包括:每一所述轉(zhuǎn)移量大于等于0、所述目標(biāo)語言語句中每 一個詞的權(quán)重值等于該詞與所述源語言語句中每一個詞之間的轉(zhuǎn)移量之和、及所述源語言 語句中每一個詞的權(quán)重值等于該詞與所述目標(biāo)語言語句中每一個詞之間的轉(zhuǎn)移量之和;
[0068] 步驟S6、計算所述目標(biāo)函數(shù)的最優(yōu)解,并根據(jù)所述最優(yōu)解確定該待篩句對的所述 泥土移動距離最小值;
[0069]步驟S7、根據(jù)若干個待篩句對的泥土移動距離最小值確定平行句對篩選標(biāo)準(zhǔn),并 根據(jù)所述平行句對篩選標(biāo)準(zhǔn)進(jìn)行平行句對的篩選。
[0070] 應(yīng)當(dāng)理解的是,泥土移動距離的英文表示為Earth Mover's Distance,其大小表 征源語言語句的真實意思和目標(biāo)語言語句的真實意思之間的差距。具體為:泥土移動距離 越小,表示兩者的真實意思越接近;泥土移動距離越大,表示兩者的真實意思差別越大。因 此,在約束條件下求解到的最小泥土移動距離表示源語言語句的真實意思和目標(biāo)語言語句 的真實意思之間的最小差距。
[0071 ]本發(fā)明中將待篩句對中的源語言語句和目標(biāo)語言語句切分為詞,然后根據(jù)每一個 詞的詞向量和權(quán)重值建立以源語言語句和目標(biāo)語言語句之間的泥土移動距離最小為優(yōu)化 目標(biāo)的目標(biāo)函數(shù),通過求解目標(biāo)函數(shù)計算出泥土移動距離最小值,便得知該待篩語句對中 源語言語句的真實意思和目標(biāo)語言語句的真實意思之間的最小差距。根據(jù)該方法可以得到 若干個待篩語句對的泥土移動距離最小值。進(jìn)而根據(jù)這些泥土移動距離最小值制定出平行 句對篩選標(biāo)準(zhǔn),然后便可以利用平行句對篩選標(biāo)準(zhǔn)進(jìn)行平行句對的篩選工作??梢?,本發(fā)明 提供的篩選方法是針對平行句對的篩選工作而專門設(shè)計,沒有假定語料都是互譯的,能夠 對互聯(lián)網(wǎng)上大量的粗糙的雙語語料進(jìn)行篩選,從而得到高質(zhì)量的、可靠的雙語語料,從而改 善后續(xù)機器翻譯的質(zhì)量。
[0072] 在具體實施時,本發(fā)明提供的篩選方法還可包括:
[0073] 將所述源語言語句和所述目標(biāo)語言語句切分所得到的詞轉(zhuǎn)換為統(tǒng)一的大小寫。 [0074]這樣做的好處是,利用大小寫統(tǒng)一的詞語進(jìn)行后續(xù)的處理,可以提高后續(xù)處理的 準(zhǔn)確性。
[0075] 在具體實施時,步驟S1可以采用以下方法實現(xiàn):
[0076] 建立數(shù)據(jù)集,該數(shù)據(jù)集中包括單語訓(xùn)練集和雙語訓(xùn)練集;
[0077] 利用雙語詞向量模型對所述單語訓(xùn)練集和所述雙語訓(xùn)練集中的訓(xùn)練語料進(jìn)行訓(xùn) 練,得到每一訓(xùn)練語料的詞向量;
[0078] 從訓(xùn)練語料的詞向量中篩選出該待篩句對中切分得到的每一個詞的詞向量。
[0079] 由于單語訓(xùn)練集和雙語訓(xùn)練集為較大的訓(xùn)練語料集,因此通過雙語詞向量模型訓(xùn) 練后可以得到大量訓(xùn)練語料的詞向量,每一個詞對應(yīng)一個詞向量,這樣對于待篩語句對中 的詞基本都可以在訓(xùn)練集中找到,因此通過篩選的方式便可以得到相同詞的詞向量。
[0080] 另外,這里不僅采用雙語訓(xùn)練集進(jìn)行訓(xùn)練,還采用單語訓(xùn)練集輔助訓(xùn)練,因此有效 利用了大規(guī)模的高質(zhì)量的單語語料。
[0081] 在具體實施時,本發(fā)明提供的篩選方法還可包括:
[0082] 將根據(jù)所述平行句對篩選標(biāo)準(zhǔn)篩選出的平行句對加入所述雙語訓(xùn)練集中。
[0083] 由于利用平行句對篩選標(biāo)準(zhǔn)可以得到高質(zhì)量、可靠的語料,因此將高質(zhì)量、可靠的 語料加入到雙語訓(xùn)練集中,然后利用這個雙語訓(xùn)練集進(jìn)行訓(xùn)練,得到更加準(zhǔn)確的詞向量,根 據(jù)這些詞向量建立目標(biāo)函數(shù),計算得到更加精確的泥土移動距離最小值,最終制定出更加 可靠的平行句對篩選標(biāo)準(zhǔn),進(jìn)一步提高了篩選的可靠性。
[0084]在具體實施時,步驟S7中,根據(jù)若干個待篩句對的泥土移動距離確定平行句對篩 選標(biāo)準(zhǔn)的實現(xiàn)方法有多種,其中一種實現(xiàn)方法是:根據(jù)所述若干個待篩句對的泥土移動距 離最小值設(shè)置篩選比例,該篩選比例可以為80%,這樣可以對所有待篩句對的泥土移動距 離最小值進(jìn)行從小到大的排序,然后取前80%的待篩句對為合格的句對。另一種實現(xiàn)方法 是:根據(jù)所述若干個待篩句對的泥土移動距離最小值設(shè)置篩選距離閾值,例如,將所述若干 個待篩句對的泥土移動距離最小值的平均值作為距離閾值,將泥土移動距離最小值小于該 距離閾值的待篩句對篩選出來,作為合格的平行句對。
[0085] 在具體實施時,某個詞的權(quán)重值的含義是該詞在相應(yīng)語句中的重要性占比。具體 的,目標(biāo)語言語句中的第i個詞的權(quán)重值可以采用以下公式計算:
[0086]
[0087] 其中,為目標(biāo)語言語句中第i個詞的權(quán)重值,TF(i)為目標(biāo)語言語句中第i個詞的 詞頻,IDF(i)為目標(biāo)語言語句中第i個詞的逆文檔頻率,v t為目標(biāo)語言語句所切分得到的詞 的數(shù)量。
[0088] 具體的,源語言語句中的第i個詞的權(quán)重值可以采用以下公式計算:
[0089]
[0090] 其中,Sl為源語言語句中第i個詞的權(quán)重值,TF(i)為源語言語句中第i個詞的詞 頻,IDF(i)為源語言語句中第i個詞的逆文檔頻率,v s為源語言語句所切分得到的詞的數(shù)
量。
[0091 ]在具體實施時,所建立的目標(biāo)函數(shù)為
[0092]該目標(biāo)函數(shù)的約束條件包括:
[0093] wij > 0
[0094]
[0095]
[0096] 其中,d為泥土移動距離的最小值,Clj為目標(biāo)語言語句中第i個詞的詞向量與源語 言語句中第j個詞的詞向量之間的距離,為目標(biāo)語言語句中第i個詞的詞向量與源語言語 句中第j個詞的詞向量之間的轉(zhuǎn)移量,為目標(biāo)語言語句所切分得到的詞的數(shù)量,VS為源語 言語句所切分得到的詞的數(shù)量,為目標(biāo)語言語句中第i個詞的權(quán)重值,為源語言語句中 第j個詞的權(quán)重值。
[0097] 基于相同的發(fā)明構(gòu)思,本發(fā)明還提供一種平行句對的篩選系統(tǒng),如圖2所示,該系 統(tǒng)100包括:
[0098] 切分模塊101,用于將每一待篩句對中的源語言語句和目標(biāo)語言語句均切分成詞;
[0099] 詞向量確定模塊102,用于利用雙語詞向量模型確定切分得到的每一個詞的詞向 量;
[0100] 第一計算模塊103,用于計算所述源語言語句中每一個詞在該源語言語句中的權(quán) 重值;
[0101 ]第二計算模塊104,用于計算所述目標(biāo)語言語句中每一個詞在該目標(biāo)語言語句中 的權(quán)重值;
[0102] 函數(shù)建立模塊105,用于建立一目標(biāo)函數(shù),其中:
[0103] 該目標(biāo)函數(shù)的控制變量為所述源語言語句中每一個詞與所述目標(biāo)語言語句中每 一個詞之間的轉(zhuǎn)移量;
[0104] 該目標(biāo)函數(shù)的優(yōu)化目標(biāo)為該待篩句對中