一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)Transformer盲漢轉(zhuǎn)換方法

文檔序號：40393589發(fā)布日期：2024-12-20 12:16閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)Transformer盲漢轉(zhuǎn)換方法

本發(fā)明涉及一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法，屬于自然語言處理。

背景技術(shù)：

1、作為殘障人群的重要代表，盲人構(gòu)成了一個龐大的群體。他們的生活健康狀況是“健康中國”倡議亟需關(guān)注的焦點之一。我國盲人人數(shù)居全球之首，占據(jù)全球盲人總數(shù)的20％。數(shù)字化盲文工作的有效展開將極大地改善盲人的生活品質(zhì)，增強他們在社會中的融入感。因此，推進(jìn)盲文數(shù)字化工程勢在必行。提升盲文的推廣度和社會認(rèn)可度是解決之道，使其成為盲人學(xué)習(xí)的強有力工具。數(shù)字化盲文為盲人提供了更加便捷、高效的學(xué)習(xí)途徑，有助于他們更好地接受教育。此外，數(shù)字技術(shù)還可以助力盲人更好地融入社會，通過互聯(lián)網(wǎng)等渠道參與各類社交和文化活動。總的來說，致力于盲文數(shù)字化工程是促進(jìn)盲人全面融入社會、提升其生活品質(zhì)的重要一步?，F(xiàn)今盲漢轉(zhuǎn)換方法主要分為基于規(guī)則與基于大模型兩類，前者具有準(zhǔn)確率不足的缺點，而后者的模型參數(shù)量過大，不利于離線搭載于邊緣化設(shè)備。因此，如何提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度已經(jīng)成為亟待解決的問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是為了提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度的技術(shù)問題，提出一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer盲漢轉(zhuǎn)換方法。

2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的：

3、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer盲漢轉(zhuǎn)換方法，應(yīng)用于盲文重構(gòu)字節(jié)對切分模型中，其中，盲文重構(gòu)字節(jié)對切分模型包括基于字節(jié)切分的編碼器和基于硬化軟輸出的轉(zhuǎn)碼器；包括以下步驟：

4、步驟1：利用盲文重構(gòu)字節(jié)對切分模型對盲漢對照數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，從而獲得預(yù)訓(xùn)練集；

5、步驟1.1：將原始盲漢對照數(shù)據(jù)集的漢語分詞進(jìn)行拼音化后轉(zhuǎn)為盲文單元ascii碼的標(biāo)簽為yj＝(y1,y2,...,yn)，將處理得到的盲漢對照數(shù)據(jù)集用于訓(xùn)練盲文重構(gòu)字節(jié)對切分模型，并將盲文語句xj＝(x1,x2,...,xn)輸入至網(wǎng)絡(luò)中，并以flag作為標(biāo)志符區(qū)分網(wǎng)絡(luò)中參與訓(xùn)練的部分，從而，獲得盲文重構(gòu)字節(jié)對切分模型。

6、步驟1.2：利用padding(填充占位符)對盲文語句進(jìn)行最大長度n的數(shù)據(jù)對齊，并對原始盲文語句采用one-hot編碼，形成盲文句子矩陣；

7、步驟1.3：利用編碼器-轉(zhuǎn)碼器結(jié)構(gòu)將輸入χ重構(gòu)為輸出y；將編碼器采用6層transformer-encoder組成的bert定義為te網(wǎng)絡(luò)，當(dāng)flag為0時，將盲文句子輸入至te網(wǎng)絡(luò)，并利用公式(1)所示的占位符索引損失函數(shù)對te網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，直至達(dá)到用戶預(yù)設(shè)精度將flag至為1；

8、

9、其中，χj＝te(xj)為輸入χ通過編碼器后所得輸出,λ為平衡參數(shù)；代表計算矩陣第一列元素的加權(quán)求和，φ(xj)代表檢索χj矩陣，當(dāng)某一行的第一列元素值最大時，將該行插入xj的對應(yīng)位置，用于保證兩個矩陣維數(shù)一致。

10、步驟1.4：將轉(zhuǎn)碼器網(wǎng)絡(luò)采用6層transformer-decoder組成定義為td網(wǎng)絡(luò)，并將te網(wǎng)絡(luò)與td網(wǎng)絡(luò)所串聯(lián)的網(wǎng)絡(luò)定義為te-td網(wǎng)絡(luò)；當(dāng)flag為1時，將盲文句子輸入至te-td網(wǎng)絡(luò)中，并利用公式(2)所示的基于硬值軟輸出下的漢明損失函數(shù)對te-td網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，直至達(dá)到用戶預(yù)設(shè)精度結(jié)束訓(xùn)練；將te網(wǎng)絡(luò)作為最終的字節(jié)對切分模型；

11、

12、其中，||·||h表示增強網(wǎng)絡(luò)的決斷力的漢明距離，μ與v表示平衡網(wǎng)絡(luò)學(xué)習(xí)權(quán)重的正則化參數(shù)，γ(·)函數(shù)定義如式(3)所示，用于將軟標(biāo)簽硬值化；

13、

14、步驟1.5：從訓(xùn)練集中提取盲文句子形成如(4)所示的xi，通過字節(jié)對切分模型所獲得的標(biāo)簽將xi中的每一個詞實現(xiàn)字節(jié)對的切分形式構(gòu)造如式(5)所示的預(yù)訓(xùn)練集；

15、

16、其中，m為句子最大長度，不足部分用padding補齊；

17、步驟2：利用相對距離掩碼映射構(gòu)建編碼器模型，將編碼器模型定義為由用戶指定數(shù)量的改進(jìn)encoder模塊串聯(lián)組成，將每個encoder模塊定義為包含相對距離掩碼注意力網(wǎng)絡(luò)及可學(xué)習(xí)參數(shù)殘差前饋網(wǎng)絡(luò)；利用知識蒸餾方法將步驟1所述預(yù)訓(xùn)練集傳至編碼器模型進(jìn)行預(yù)訓(xùn)練。

18、步驟2.1：采用如式(6)所示的相對距離掩碼注意力模塊獲得如式(7)所示的中間向量；

19、

20、其中，x＝{x1,x2,...,xn}，為哈達(dá)瑪乘積；attention(q,k,v)編碼矩陣行向量間的關(guān)系權(quán)重，賦予網(wǎng)絡(luò)雙向關(guān)注盲文信息能力，ψ(xtx)＝[aij]，ψ(·)表示相對距離映射函數(shù)表示為標(biāo)點信息掩碼矩陣，定義如式(8)所示，punlist為標(biāo)點符號表，將x通過此處掩碼是為了屏蔽padding部分與標(biāo)點符號對注意力分?jǐn)?shù)的影響；

21、

22、步驟2.2：將如式(7)所示的中間向量接入如式(9)所示的分組前饋連接網(wǎng)絡(luò)對注意力分?jǐn)?shù)進(jìn)行編碼整合；

23、

24、其中，g為自定義超參數(shù)分組數(shù)，m為batch數(shù)。split函數(shù)用于將拆分為g個向量，concat函數(shù)用于將g個向量合并為一個向量。

25、步驟2.3：利用如式(10)所示的殘差方法構(gòu)建可學(xué)習(xí)參數(shù)殘差連接模塊；通過超參數(shù)調(diào)節(jié)殘差上下界，并通過迭代動態(tài)平衡連接權(quán)重用于保護(hù)盲文編碼信息；

26、

27、其中，χk與分別為步驟2.2與2.1的向量，φ(input)表示注意力層及分組前饋層所代表的廣義函數(shù)，γ1與γ2分別為可學(xué)習(xí)參數(shù)，u與s為用戶自定義超參數(shù)，u為上界，s為下界；

28、步驟2.4：將步驟1所述的盲文重構(gòu)字節(jié)對切分模型作為教師模型定義為tn(·)。將步驟2所述的編碼器作為學(xué)生模型定義為sn(·)，采用如式(11)所示的知識蒸餾方法對學(xué)生模型采用如式(12)所示的非均勻交叉蒸餾損失函數(shù)進(jìn)行知識蒸餾預(yù)訓(xùn)練；

29、

30、其中，t為用戶預(yù)設(shè)蒸餾溫度。w的維度為v×vcb_size，vcb_size為根據(jù)訓(xùn)練集創(chuàng)造的詞典大小，w用于將學(xué)生模型輸出轉(zhuǎn)換為維度為vcb_size的概率分布；α1與α2均為平衡因子，α1表示為硬標(biāo)簽損失，α2用于防止輸出概率密度趨于均勻分布；

31、步驟3：構(gòu)建基于雙向篩選注意力集中網(wǎng)絡(luò)的解碼器，將步驟1和步驟2預(yù)訓(xùn)練完畢的編碼器與解碼器進(jìn)行串聯(lián)形成改進(jìn)transformer網(wǎng)絡(luò)；并采用自定義范數(shù)損失函數(shù)及盲漢對照數(shù)據(jù)集對改進(jìn)transformer網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，直至達(dá)到用戶預(yù)設(shè)精度；

32、步驟3.1：對步驟2所述的知識蒸餾結(jié)束的編碼器學(xué)生模型參數(shù)進(jìn)行保存；并將輸入盲文句子定義為如式(13)所示的xi，將編碼器輸出定義為如式(14)所示的其中i表示盲漢訓(xùn)練集中的第i句話；

33、

34、步驟3.2：構(gòu)建解碼器，用于將盲文句子xi和編碼器輸出所對應(yīng)的正確中文翻譯為如式(15)所示的將作為解碼器輸入至如式(16)所示的相對距離掩碼注意力模塊得到如式(17)所示的注意力分?jǐn)?shù)矩陣用于捕捉xi中詞向量間依存權(quán)重關(guān)系的注意力向量；

35、

36、其中，為哈達(dá)瑪乘積，mask為下三角屏蔽矩陣用于在訓(xùn)練過程中屏蔽未來信息，對mask定義如式(18)所示，ψ為相對距離映射函數(shù)，

37、步驟3.3：利用式(19)所示的分組線性變換殘差連接模塊進(jìn)行整合編碼，形成如式(20)所示的li；

38、

39、其中，bnγ,β為批歸一化操作；

40、

41、步驟3.4：將編碼器輸出與li通過雙向篩選注意力集中網(wǎng)絡(luò)進(jìn)行融合，進(jìn)一步的利用式(21)和式(22)將注意力分布于稀疏的矩陣用于獲得最大權(quán)重max(γ1,γ2)，從而，增強網(wǎng)絡(luò)決斷力，并利用式(23)獲得松緊度值；

42、

43、其中，γ1,γ2為可學(xué)習(xí)參數(shù)，為篩選函數(shù)定義如式(22)所示；

44、

45、θ函數(shù)定義如(23)所示；

46、

47、其中，θ(m)為矩陣元素松緊度函數(shù)，計算得到的松緊度值越大，代表該矩陣元素經(jīng)softmax函數(shù)作用后的注意力權(quán)重分布將更稀疏；

48、步驟3.5：利用松緊度值作為輸入通過式(24)得到如式(25)所示的預(yù)測向量

49、

50、其中，k代表第i句話中的第k個詞預(yù)測為詞匯表中索引為v的字的概率，選取最大概率的預(yù)測字作為網(wǎng)絡(luò)翻譯的中文句子的第·個字，從而實現(xiàn)翻譯；

51、步驟3.6：利用如式(26)所示的自定義范數(shù)損失函數(shù)對預(yù)測向量和范化后進(jìn)行學(xué)習(xí)；

52、

53、其中，||·||f為frobenius范數(shù)，||·||p為ιp范數(shù)，κ為正則超參數(shù)，用于增強網(wǎng)絡(luò)決斷力，避免輸出趨于均勻分布；

54、有益效果：

55、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于盲文重構(gòu)的字節(jié)對切分模型，采用逆信息重構(gòu)網(wǎng)絡(luò)，無需單獨構(gòu)建數(shù)據(jù)集。由于本模型基于神經(jīng)網(wǎng)絡(luò)的，因此能夠基于抽象特征提取實現(xiàn)切分，克服傳統(tǒng)bpe切分網(wǎng)絡(luò)過于依賴語料庫分布以及需要人工調(diào)節(jié)切分次數(shù)的問題。

56、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于相對距離掩碼映射的預(yù)訓(xùn)練網(wǎng)絡(luò)，相對距離映射模塊在attention矩陣計算中引入了相對距離權(quán)重。由于盲文與漢文具有相同的語序，因此傳統(tǒng)attention矩陣嵌入絕對距離向量的方法會將網(wǎng)絡(luò)注意力分散到不必要的復(fù)雜語義關(guān)系中，而忽略了同一詞單元內(nèi)的音節(jié)建模問題。相對距離權(quán)重能夠迫使網(wǎng)絡(luò)關(guān)注更鄰近的token，從而使得網(wǎng)絡(luò)更關(guān)注來自同一盲文連寫單元的詞匯。不同于傳統(tǒng)殘差連接，基于上下界的可學(xué)習(xí)參數(shù)殘差連接可由用戶自定義超參數(shù)避免無窮大問題，同時可由網(wǎng)絡(luò)動態(tài)平衡殘差權(quán)重以保護(hù)淺層或深層信息。

57、本發(fā)明的一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)transformer的盲漢轉(zhuǎn)換方法基于連寫信息還原的網(wǎng)絡(luò)預(yù)訓(xùn)練步驟，傳統(tǒng)預(yù)訓(xùn)練步驟可以幫助網(wǎng)絡(luò)快速建模語義信息，但是無法幫助網(wǎng)絡(luò)學(xué)習(xí)盲文連寫規(guī)則，本預(yù)訓(xùn)練步驟對于盲漢轉(zhuǎn)換任務(wù)具有更強的針對性。利用雙向篩選注意力集中網(wǎng)絡(luò)融合編碼器與解碼器輸出，相比一般注意力分?jǐn)?shù)計算模塊能夠賦予矩陣元素更集中的鍵值對更大的權(quán)值，從而集中網(wǎng)絡(luò)注意力。并利用自定義范數(shù)損失函數(shù)，本損失的正則項能夠由用戶自定義p范數(shù)，避免網(wǎng)絡(luò)輸出趨于均勻分布，從而增強網(wǎng)絡(luò)決斷力。從而，有效提升盲漢轉(zhuǎn)換模型翻譯準(zhǔn)確率與降低模型轉(zhuǎn)換的復(fù)雜度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭樹理,晁越,韓麗娜,楊艷輝,吳雪萍
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種變壓器油色譜在線監(jiān)測設(shè)備的制作方法
上一篇：一種支撐穩(wěn)固的水利管道支撐架的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于知識蒸餾與連寫預(yù)訓(xùn)練的改進(jìn)Transformer盲漢轉(zhuǎn)換方法