基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器翻譯技術(shù)領(lǐng)域,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法及裝 置。
【背景技術(shù)】
[0002] 近年來,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)技術(shù)被廣泛應(yīng)用于機(jī)器 翻譯領(lǐng)域。與傳統(tǒng)的統(tǒng)計機(jī)器翻譯系統(tǒng)相比,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)能夠充分 利用全局語義信息,翻譯質(zhì)量顯著提升。
[0003] 然而,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù)也存在著明顯的不足之處:
[0004] -、詞表受限。
[0005] 通常,RNN翻譯模型僅能使用一個數(shù)量有限的單詞詞表(通常三萬單詞以內(nèi)),導(dǎo) 致詞表外單詞(0ut-〇f-vocabulary,00V)無法翻譯。
[0006] 二、RNN翻譯模型僅支持雙語語句對進(jìn)行訓(xùn)練,難以利用可有效提高翻譯結(jié)果流利 度的目標(biāo)語言單語語料進(jìn)行訓(xùn)練。
[0007] 三、無法增加或豐富更多的特征。
[0008] 具體來說,傳統(tǒng)的統(tǒng)計機(jī)器翻譯方法是基于多種特征執(zhí)行翻譯處理的,對于每一 個翻譯單元(單詞、短語、翻譯規(guī)則等)均計算每個特征的得分,最終結(jié)合多個特征的得分 來確定最優(yōu)翻譯結(jié)果。然而,這些能夠提高翻譯質(zhì)量的特征無法直接為RNN翻譯模型所用。
[0009] 四、漏詞現(xiàn)象嚴(yán)重,易生成較短翻譯結(jié)果,影響翻譯結(jié)果的可讀性。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明實施例的目的在于,提供一種基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法及裝置,結(jié)合 多種翻譯特征執(zhí)行翻譯,以提高翻譯結(jié)果的翻譯準(zhǔn)確性。
[0011] 為實現(xiàn)上述發(fā)明目的,本發(fā)明的實施例提供了一種基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方 法,包括:獲取源語言的語句;將所述源語言的語句進(jìn)行編碼,得到向量序列;基于所述向 量序列逐詞地預(yù)測目標(biāo)語言中相應(yīng)的候選詞;根據(jù)預(yù)測得到的候選詞生成目標(biāo)語言的語 句,其中,在任一所述候選詞的預(yù)測處理中,從預(yù)設(shè)的翻譯詞表中獲取多個初選詞,并且基 于對數(shù)線性模型計算每個所述初選詞的翻譯概率,以根據(jù)所述翻譯概率從所述多個初選詞 選取所述候選詞,所述對數(shù)線性模型根據(jù)神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機(jī)器翻譯模 型的翻譯特征建立的。
[0012] 優(yōu)選地,所述從預(yù)設(shè)的翻譯詞表中獲取多個初選詞,并且基于對數(shù)線性模型計算 每個所述初選詞的翻譯概率,以根據(jù)所述翻譯概率從所述多個初選詞選取所述候選詞的處 理包括:從預(yù)設(shè)的翻譯詞表中獲取M個詞語作為初選詞,M為正整數(shù);根據(jù)所述向量序列和 在獲取M個初選詞之前預(yù)測出的候選詞,計算每個所述初選詞的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯 特征;計算每個所述初選詞的統(tǒng)計機(jī)器翻譯模型的翻譯特征;根據(jù)計算得到的神經(jīng)網(wǎng)絡(luò)翻 譯模型的翻譯特征和統(tǒng)計機(jī)器翻譯模型的翻譯特征,結(jié)合所述對數(shù)線性模型計算每個所述 初選詞的翻譯概率值;對計算得到的M個翻譯概率值進(jìn)行排序,并將與前N位的翻譯概率值 相應(yīng)的初選詞選取為所述候選詞,N為正整數(shù),且N < M。
[0013] 優(yōu)選地,所述基于所述向量序列逐詞地預(yù)測目標(biāo)語言中相應(yīng)的候選詞的處理還包 括:依據(jù)所述神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征標(biāo)記所述候選詞之間的關(guān)聯(lián)關(guān)系,所述根據(jù)預(yù) 測得到的候選詞生成目標(biāo)語言的語句的處理包括:根據(jù)具有關(guān)聯(lián)關(guān)系的所有候選詞生成目 標(biāo)語言的語句。
[0014] 優(yōu)選地,所述統(tǒng)計機(jī)器翻譯模型的翻譯特征包括雙向單詞翻譯模型特征。
[0015] 優(yōu)選地,所述統(tǒng)計機(jī)器翻譯模型的翻譯特征還包括N元語言模型特征和/或詞懲 罰特征。
[0016] 優(yōu)選地,所述將所述源語言的語句進(jìn)行編碼得到向量序列的處理包括:對源語言 的語句進(jìn)行分詞,將分得的多個分詞分別轉(zhuǎn)換成與每個所述分詞對應(yīng)的詞向量,由多個分 詞各自對應(yīng)的詞向量得到所述向量序列。
[0017] 優(yōu)選地,所述獲取源語言的語句的處理包括以下處理之一:接收文本數(shù)據(jù),并將所 述文本數(shù)據(jù)作為所述源語言的語句;接收語音數(shù)據(jù),對所述語音數(shù)據(jù)進(jìn)行語音識別得到經(jīng) 語音識別的文本數(shù)據(jù),并將所述經(jīng)語音識別的文本數(shù)據(jù)作為所述源語言的語句;接收圖片 數(shù)據(jù),對所述圖片數(shù)據(jù)進(jìn)行光學(xué)字符識別OCR得到經(jīng)OCR識別的文本數(shù)據(jù),并將所述經(jīng)OCR 識別的文本數(shù)據(jù)作為所述源語言的語句。
[0018] 本發(fā)明的實施例還提供了一種基于神經(jīng)網(wǎng)絡(luò)模型的翻譯裝置,包括:語句獲取模 塊,用于獲取源語言的語句;語句編碼模塊,用于將所述源語言的語句進(jìn)行編碼得到向量序 列;候選詞預(yù)測模塊,用于基于所述向量序列逐詞地預(yù)測目標(biāo)語言中相應(yīng)的候選詞;語句 生成模塊,用于根據(jù)預(yù)測得到的候選詞生成目標(biāo)語言的語句,其中,在任一所述候選詞的預(yù) 測處理中,從預(yù)設(shè)的翻譯詞表中獲取多個初選詞,并且基于對數(shù)線性模型計算每個所述初 選詞的翻譯概率,以根據(jù)所述翻譯概率從所述多個初選詞選取所述候選詞,所述對數(shù)線性 模型根據(jù)神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機(jī)器翻譯模型的翻譯特征建立的。
[0019] 優(yōu)選地,所述候選詞預(yù)測模塊包括:初選詞獲取單元,用于從預(yù)設(shè)的翻譯詞表中獲 取M個詞語作為初選詞,M為正整數(shù);神經(jīng)網(wǎng)絡(luò)模型特征計算單元,用于根據(jù)所述向量序列 和在獲取M個初選詞之前預(yù)測出的候選詞,計算每個所述初選詞的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻 譯特征;統(tǒng)計機(jī)器模型特征計算單元,用于計算每個所述初選詞的統(tǒng)計機(jī)器翻譯模型的翻 譯特征;翻譯概率計算單元,用于根據(jù)計算得到的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機(jī) 器翻譯模型的翻譯特征,結(jié)合所述對數(shù)線性模型計算每個所述初選詞的翻譯概率值;候選 詞選取單元,用于對計算得到的M個翻譯概率值進(jìn)行排序,并將與前N位的翻譯概率值相應(yīng) 的初選詞選取為所述候選詞,N為正整數(shù),且N < M。
[0020] 優(yōu)選地,所述候選詞預(yù)測模塊還包括:候選詞關(guān)聯(lián)單元,用于依據(jù)所述神經(jīng)網(wǎng)絡(luò)翻 譯模型的翻譯特征標(biāo)記所述候選詞之間的關(guān)聯(lián)關(guān)系,所述語句生成模塊,用于根據(jù)具有關(guān) 聯(lián)關(guān)系的所有候選詞生成目標(biāo)語言的語句。
[0021] 優(yōu)選地,所述統(tǒng)計機(jī)器翻譯模型的翻譯特征包括雙向單詞翻譯模型特征。
[0022] 優(yōu)選地,所述統(tǒng)計機(jī)器翻譯模型的翻譯特征還包括N元語言模型特征和/或詞懲 罰特征。
[0023] 優(yōu)選地,所述語句編碼模塊用于對源語言的語句進(jìn)行分詞,將分得的多個分詞分 別轉(zhuǎn)換成與每個所述分詞對應(yīng)的詞向量,由多個分詞各自對應(yīng)的詞向量得到所述向量序 列。
[0024] 優(yōu)選地,所述語句獲取模塊包括以下單元之一:文本數(shù)據(jù)接收單元,用于接收文本 數(shù)據(jù),并將所述文本數(shù)據(jù)作為所述源語言的語句;語音數(shù)據(jù)接收及識別單元,用于接收語音 數(shù)據(jù),對所述語音數(shù)據(jù)進(jìn)行語音識別得到經(jīng)語音識別的文本數(shù)據(jù),并將所述經(jīng)語音識別的 文本數(shù)據(jù)作為所述源語言的語句;圖片數(shù)據(jù)接收及識別單元,用于接收圖片數(shù)據(jù),對所述圖 片數(shù)據(jù)進(jìn)行光學(xué)字符識別OCR得到經(jīng)OCR識別的文本數(shù)據(jù),并將所述經(jīng)OCR識別的文本數(shù) 據(jù)作為所述源語言的語句。
[0025] 本發(fā)明實施例提供的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法及裝置,對獲取到的源語言的 語句進(jìn)行編碼得到向量序列,再基于向量序列逐詞地預(yù)測目標(biāo)語言中相應(yīng)的候選詞,在任 一所述候選詞的預(yù)測處理過程中,利用對數(shù)線性模型,將統(tǒng)計機(jī)器翻譯模型的翻譯特征引 入神經(jīng)網(wǎng)絡(luò)翻譯模型,從而計算從預(yù)設(shè)的翻譯詞表中獲取的每個初選詞的翻譯概率,由此 基于翻譯概率計算結(jié)果從多個初選詞中選取候選詞,最終根據(jù)預(yù)測的候選詞自動地生成目 標(biāo)語言的語句,極大地提高了翻譯的準(zhǔn)確性、可讀性及流暢性。同時,生成的翻譯結(jié)果長度 適宜,降低了漏詞率。
【附圖說明】
[0026] 圖1是示出本發(fā)明實施例一的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法的流程圖;
[0027] 圖2是示出本發(fā)明實施例一的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法中神經(jīng)網(wǎng)絡(luò)翻譯模 型的應(yīng)用場景示例性示意圖;
[0028] 圖3是示出本發(fā)明實施例一的基于神經(jīng)