本發(fā)明涉及一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法,屬于自然語言處理。
背景技術(shù):
1、作為殘障人群的重要代表,盲人構(gòu)成了一個龐大的群體。他們的生活健康狀況是“健康中國”倡議亟需關(guān)注的焦點之一。我國盲人人數(shù)居全球之首,占據(jù)全球盲人總數(shù)的20%。數(shù)字化盲文工作的有效展開將極大地改善盲人的生活品質(zhì),增強他們在社會中的融入感。因此,推進(jìn)盲文數(shù)字化工程勢在必行。提升盲文的推廣度和社會認(rèn)可度是解決之道,使其成為盲人學(xué)習(xí)的強有力工具。數(shù)字化盲文為盲人提供了更加便捷、高效的學(xué)習(xí)途徑,有助于他們更好地接受教育。此外,數(shù)字技術(shù)還可以助力盲人更好地融入社會,通過互聯(lián)網(wǎng)等渠道參與各類社交和文化活動。總的來說,致力于盲文數(shù)字化工程是促進(jìn)盲人全面融入社會、提升其生活品質(zhì)的重要一步?,F(xiàn)今盲漢轉(zhuǎn)換方法主要分為基于規(guī)則與基于大模型兩類,前者具有準(zhǔn)確率不足的缺點,而后者的模型參數(shù)量過大,不利于離線搭載于邊緣化設(shè)備。因此,如何提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度已經(jīng)成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是為了提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度的技術(shù)問題,提出一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer盲漢轉(zhuǎn)換方法。
2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
3、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer盲漢轉(zhuǎn)換方法,應(yīng)用于盲文重構(gòu)字節(jié)對切分模型中,其中,盲文重構(gòu)字節(jié)對切分模型包括基于字節(jié)切分的編碼器和基于硬化軟輸出的轉(zhuǎn)碼器;包括以下步驟:
4、步驟1:利用盲文重構(gòu)字節(jié)對切分模型對盲漢對照數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,從而獲得預(yù)訓(xùn)練集;
5、步驟1.1:將原始盲漢對照數(shù)據(jù)集的漢語分詞進(jìn)行拼音化后轉(zhuǎn)為盲文單元ascii碼的標(biāo)簽為yj=(y1,y2,...,yn),將處理得到的盲漢對照數(shù)據(jù)集用于訓(xùn)練盲文重構(gòu)字節(jié)對切分模型,并將盲文語句xj=(x1,x2,...,xn)輸入至網(wǎng)絡(luò)中,并以flag作為標(biāo)志符區(qū)分網(wǎng)絡(luò)中參與訓(xùn)練的部分,從而,獲得盲文重構(gòu)字節(jié)對切分模型。
6、步驟1.2:利用padding(填充占位符)對盲文語句進(jìn)行最大長度n的數(shù)據(jù)對齊,并對原始盲文語句采用one-hot編碼,形成盲文句子矩陣;
7、步驟1.3:利用編碼器-轉(zhuǎn)碼器結(jié)構(gòu)將輸入χ重構(gòu)為輸出y;將編碼器采用6層transformer-encoder組成的bert定義為te網(wǎng)絡(luò),當(dāng)flag為0時,將盲文句子輸入至te網(wǎng)絡(luò),并利用公式(1)所示的占位符索引損失函數(shù)對te網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,直至達(dá)到用戶預(yù)設(shè)精度將flag至為1;
8、
9、其中,χj=te(xj)為輸入χ通過編碼器后所得輸出,λ為平衡參數(shù);代表計算矩陣第一列元素的加權(quán)求和,φ(xj)代表檢索χj矩陣,當(dāng)某一行的第一列元素值最大時,將該行插入xj的對應(yīng)位置,用于保證兩個矩陣維數(shù)一致。
10、步驟1.4:將轉(zhuǎn)碼器網(wǎng)絡(luò)采用6層transformer-decoder組成定義為td網(wǎng)絡(luò),并將te網(wǎng)絡(luò)與td網(wǎng)絡(luò)所串聯(lián)的網(wǎng)絡(luò)定義為te-td網(wǎng)絡(luò);當(dāng)flag為1時,將盲文句子輸入至te-td網(wǎng)絡(luò)中,并利用公式(2)所示的基于硬值軟輸出下的漢明損失函數(shù)對te-td網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,直至達(dá)到用戶預(yù)設(shè)精度結(jié)束訓(xùn)練;將te網(wǎng)絡(luò)作為最終的字節(jié)對切分模型;
11、
12、其中,||·||h表示增強網(wǎng)絡(luò)的決斷力的漢明距離,μ與v表示平衡網(wǎng)絡(luò)學(xué)習(xí)權(quán)重的正則化參數(shù),γ(·)函數(shù)定義如式(3)所示,用于將軟標(biāo)簽硬值化;
13、
14、步驟1.5:從訓(xùn)練集中提取盲文句子形成如(4)所示的xi,通過字節(jié)對切分模型所獲得的標(biāo)簽將xi中的每一個詞實現(xiàn)字節(jié)對的切分形式構(gòu)造如式(5)所示的預(yù)訓(xùn)練集;
15、
16、其中,m為句子最大長度,不足部分用padding補齊;
17、步驟2:利用相對距離掩碼映射構(gòu)建編碼器模型,將編碼器模型定義為由用戶指定數(shù)量的改進(jìn)encoder模塊串聯(lián)組成,將每個encoder模塊定義為包含相對距離掩碼注意力網(wǎng)絡(luò)及可學(xué)習(xí)參數(shù)殘差前饋網(wǎng)絡(luò);利用知識蒸餾方法將步驟1所述預(yù)訓(xùn)練集傳至編碼器模型進(jìn)行預(yù)訓(xùn)練。
18、步驟2.1:采用如式(6)所示的相對距離掩碼注意力模塊獲得如式(7)所示的中間向量;
19、
20、其中,x={x1,x2,...,xn},為哈達(dá)瑪乘積;attention(q,k,v)編碼矩陣行向量間的關(guān)系權(quán)重,賦予網(wǎng)絡(luò)雙向關(guān)注盲文信息能力,ψ(xtx)=[aij],ψ(·)表示相對距離映射函數(shù)表示為標(biāo)點信息掩碼矩陣,定義如式(8)所示,punlist為標(biāo)點符號表,將x通過此處掩碼是為了屏蔽padding部分與標(biāo)點符號對注意力分?jǐn)?shù)的影響;
21、
22、步驟2.2:將如式(7)所示的中間向量接入如式(9)所示的分組前饋連接網(wǎng)絡(luò)對注意力分?jǐn)?shù)進(jìn)行編碼整合;
23、
24、其中,g為自定義超參數(shù)分組數(shù),m為batch數(shù)。split函數(shù)用于將拆分為g個向量,concat函數(shù)用于將g個向量合并為一個向量。
25、步驟2.3:利用如式(10)所示的殘差方法構(gòu)建可學(xué)習(xí)參數(shù)殘差連接模塊;通過超參數(shù)調(diào)節(jié)殘差上下界,并通過迭代動態(tài)平衡連接權(quán)重用于保護(hù)盲文編碼信息;
26、
27、其中,χk與分別為步驟2.2與2.1的向量,φ(input)表示注意力層及分組前饋層所代表的廣義函數(shù),γ1與γ2分別為可學(xué)習(xí)參數(shù),u與s為用戶自定義超參數(shù),u為上界,s為下界;
28、步驟2.4:將步驟1所述的盲文重構(gòu)字節(jié)對切分模型作為教師模型定義為tn(·)。將步驟2所述的編碼器作為學(xué)生模型定義為sn(·),采用如式(11)所示的知識蒸餾方法對學(xué)生模型采用如式(12)所示的非均勻交叉蒸餾損失函數(shù)進(jìn)行知識蒸餾預(yù)訓(xùn)練;
29、
30、其中,t為用戶預(yù)設(shè)蒸餾溫度。w的維度為v×vcb_size,vcb_size為根據(jù)訓(xùn)練集創(chuàng)造的詞典大小,w用于將學(xué)生模型輸出轉(zhuǎn)換為維度為vcb_size的概率分布;α1與α2均為平衡因子,α1表示為硬標(biāo)簽損失,α2用于防止輸出概率密度趨于均勻分布;
31、步驟3:構(gòu)建基于雙向篩選注意力集中網(wǎng)絡(luò)的解碼器,將步驟1和步驟2預(yù)訓(xùn)練完畢的編碼器與解碼器進(jìn)行串聯(lián)形成改進(jìn)transformer網(wǎng)絡(luò);并采用自定義范數(shù)損失函數(shù)及盲漢對照數(shù)據(jù)集對改進(jìn)transformer網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,直至達(dá)到用戶預(yù)設(shè)精度;
32、步驟3.1:對步驟2所述的知識蒸餾結(jié)束的編碼器學(xué)生模型參數(shù)進(jìn)行保存;并將輸入盲文句子定義為如式(13)所示的xi,將編碼器輸出定義為如式(14)所示的其中i表示盲漢訓(xùn)練集中的第i句話;
33、
34、步驟3.2:構(gòu)建解碼器,用于將盲文句子xi和編碼器輸出所對應(yīng)的正確中文翻譯為如式(15)所示的將作為解碼器輸入至如式(16)所示的相對距離掩碼注意力模塊得到如式(17)所示的注意力分?jǐn)?shù)矩陣用于捕捉xi中詞向量間依存權(quán)重關(guān)系的注意力向量;
35、
36、其中,為哈達(dá)瑪乘積,mask為下三角屏蔽矩陣用于在訓(xùn)練過程中屏蔽未來信息,對mask定義如式(18)所示,ψ為相對距離映射函數(shù),
37、步驟3.3:利用式(19)所示的分組線性變換殘差連接模塊進(jìn)行整合編碼,形成如式(20)所示的li;
38、
39、其中,bnγ,β為批歸一化操作;
40、
41、步驟3.4:將編碼器輸出與li通過雙向篩選注意力集中網(wǎng)絡(luò)進(jìn)行融合,進(jìn)一步的利用式(21)和式(22)將注意力分布于稀疏的矩陣用于獲得最大權(quán)重max(γ1,γ2),從而,增強網(wǎng)絡(luò)決斷力,并利用式(23)獲得松緊度值;
42、
43、其中,γ1,γ2為可學(xué)習(xí)參數(shù),為篩選函數(shù)定義如式(22)所示;
44、
45、θ函數(shù)定義如(23)所示;
46、
47、其中,θ(m)為矩陣元素松緊度函數(shù),計算得到的松緊度值越大,代表該矩陣元素經(jīng)softmax函數(shù)作用后的注意力權(quán)重分布將更稀疏;
48、步驟3.5:利用松緊度值作為輸入通過式(24)得到如式(25)所示的預(yù)測向量
49、
50、其中,k代表第i句話中的第k個詞預(yù)測為詞匯表中索引為v的字的概率,選取最大概率的預(yù)測字作為網(wǎng)絡(luò)翻譯的中文句子的第·個字,從而實現(xiàn)翻譯;
51、步驟3.6:利用如式(26)所示的自定義范數(shù)損失函數(shù)對預(yù)測向量和范化后進(jìn)行學(xué)習(xí);
52、
53、其中,||·||f為frobenius范數(shù),||·||p為ιp范數(shù),κ為正則超參數(shù),用于增強網(wǎng)絡(luò)決斷力,避免輸出趨于均勻分布;
54、有益效果:
55、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于盲文重構(gòu)的字節(jié)對切分模型,采用逆信息重構(gòu)網(wǎng)絡(luò),無需單獨構(gòu)建數(shù)據(jù)集。由于本模型基于神經(jīng)網(wǎng)絡(luò)的,因此能夠基于抽象特征提取實現(xiàn)切分,克服傳統(tǒng)bpe切分網(wǎng)絡(luò)過于依賴語料庫分布以及需要人工調(diào)節(jié)切分次數(shù)的問題。
56、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于相對距離掩碼映射的預(yù)訓(xùn)練網(wǎng)絡(luò),相對距離映射模塊在attention矩陣計算中引入了相對距離權(quán)重。由于盲文與漢文具有相同的語序,因此傳統(tǒng)attention矩陣嵌入絕對距離向量的方法會將網(wǎng)絡(luò)注意力分散到不必要的復(fù)雜語義關(guān)系中,而忽略了同一詞單元內(nèi)的音節(jié)建模問題。相對距離權(quán)重能夠迫使網(wǎng)絡(luò)關(guān)注更鄰近的token,從而使得網(wǎng)絡(luò)更關(guān)注來自同一盲文連寫單元的詞匯。不同于傳統(tǒng)殘差連接,基于上下界的可學(xué)習(xí)參數(shù)殘差連接可由用戶自定義超參數(shù)避免無窮大問題,同時可由網(wǎng)絡(luò)動態(tài)平衡殘差權(quán)重以保護(hù)淺層或深層信息。
57、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于連寫信息還原的網(wǎng)絡(luò)預(yù)訓(xùn)練步驟,傳統(tǒng)預(yù)訓(xùn)練步驟可以幫助網(wǎng)絡(luò)快速建模語義信息,但是無法幫助網(wǎng)絡(luò)學(xué)習(xí)盲文連寫規(guī)則,本預(yù)訓(xùn)練步驟對于盲漢轉(zhuǎn)換任務(wù)具有更強的針對性。利用雙向篩選注意力集中網(wǎng)絡(luò)融合編碼器與解碼器輸出,相比一般注意力分?jǐn)?shù)計算模塊能夠賦予矩陣元素更集中的鍵值對更大的權(quán)值,從而集中網(wǎng)絡(luò)注意力。并利用自定義范數(shù)損失函數(shù),本損失的正則項能夠由用戶自定義p范數(shù),避免網(wǎng)絡(luò)輸出趨于均勻分布,從而增強網(wǎng)絡(luò)決斷力。從而,有效提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度。