本發(fā)明涉及基于混合專家的多方言語音識別模型,屬于自然語言處理。
背景技術(shù):
1、語音識別技術(shù)的應(yīng)用領(lǐng)域非常廣泛,包括語音助手、智能家居、汽車語音交互等多個領(lǐng)域。隨著深度學(xué)習(xí)的進(jìn)步,自動語音識別系統(tǒng)在識別普通話語音方面取得了顯著進(jìn)展。
2、方言是中國民眾日常交流的一種流行方式。然而,由于方言和普通話在發(fā)音上的固有差異和顯著特點,語音識別系統(tǒng)在方言語音中的性能仍然有限,對語音識別技術(shù)領(lǐng)域提出了重大挑戰(zhàn)。因此,提高漢語多方言語音識別系統(tǒng)的準(zhǔn)確性和適應(yīng)性具有重要意義。本發(fā)明主要針對漢語方言,提出的方法也可以推廣到其他方言。
3、近年來,大量的研究集中在解決方言語音識別模型性能不佳的挑戰(zhàn)。傳統(tǒng)的方式是通過不同的建模方法來提高方言語音識別的效果。近年來,基于多任務(wù)的方法被廣泛應(yīng)用于方言語音識別任務(wù)中。與傳統(tǒng)方法相比,多任務(wù)學(xué)習(xí)方法具有更高的效率。提出為每種方言構(gòu)建方言分類模型和單獨的語音識別模型。利用方言分類模型選擇相應(yīng)的方言語音識別模型。然而,這些研究取決于廣泛的方言數(shù)據(jù)集,并且沒有檢查各種方言之間的共性對模型性能的潛在影響。
4、為了構(gòu)建低資源條件下可靠的方言語音識別模型,近年來,基于遷移學(xué)習(xí)的方法被提出,該方法包括一個基于普通話訓(xùn)練的模型,并使用小規(guī)模方言數(shù)據(jù)進(jìn)行微調(diào)。然而,僅僅依靠遷移學(xué)習(xí)的方式?jīng)]有充分考慮方言與普通話之間的異同。
技術(shù)實現(xiàn)思路
1、為了解決上述問題本發(fā)明提出了低資源條件下基于混合專家的漢語多方言語音識別模型、訓(xùn)練方法,本發(fā)明所提出的模型以及訓(xùn)練方法在多方言語音識別中表現(xiàn)出了優(yōu)異的性能。
2、本發(fā)明的技術(shù)方案是:第一方面,本發(fā)明提供一種基于混合專家的漢語多方言語音識別模型,所述模型包括通用編碼器、方言編碼器、聲學(xué)融合模塊、注意力解碼器和ctc解碼器;
3、所述通用編碼器由12層的dialectmoe編碼器塊組成,負(fù)責(zé)以方言無關(guān)的方式捕獲語音信息;
4、所述方言編碼器由6層conformer編碼器組成,從特征序列中捕獲方言信息;
5、所述聲學(xué)融合模塊用于將通用編碼器和方言編碼器的輸出進(jìn)行聲學(xué)融合;
6、所述注意力解碼器用于根據(jù)聲學(xué)融合模塊的輸出計算注意力損失并解碼出文本;
7、所述ctc解碼器用于根據(jù)通用編碼器的輸出計算ctc損失并解碼出文本。
8、進(jìn)一步地,原始音頻序列經(jīng)過前端模塊的預(yù)處理,提取濾波器組特征;然后,利用卷積下采樣對音頻特征序列進(jìn)行時間上的下采樣;通過方言編碼器從卷積下采樣的特征序列中捕獲方言信息;再通過通用編碼器從卷積下采樣的特征序列中以方言無關(guān)的方式捕獲語音信息;再將通用編碼器和方言編碼器的輸出進(jìn)行聲學(xué)融合,通過注意力解碼器根據(jù)聲學(xué)融合模塊的輸出計算注意力損失并解碼出文本;通過ctc解碼器根據(jù)通用編碼器的輸出計算ctc損失并解碼出文本。
9、進(jìn)一步地,所述通用編碼器的dialectmoe編碼器塊中,輸入序列首先通過前饋網(wǎng)絡(luò)(ffn)層,然后通過注意力和卷積神經(jīng)網(wǎng)絡(luò)(cnn)層分別提取全局和局部信息;然后基于動態(tài)路由選擇混合專家層內(nèi)合適的專家,專家的輸出乘以路由器層分配的權(quán)重。
10、進(jìn)一步地,所述基于動態(tài)路由選擇混合專家層內(nèi)合適的專家包括:
11、所述方言編碼器捕獲的方言信息由路由器層進(jìn)行加權(quán),路由器層根據(jù)動態(tài)路由算法以選擇合適的專家;動態(tài)路由算法利用非專家層的輸出序列和方言編碼器提供的方言信息來選擇合適的專家。
12、進(jìn)一步地,所述動態(tài)路由算法在選擇合適的專家時,探究不同方言嵌入,即方言編碼器的方言信息對路由算法的影響,具有如下三種策略:
13、獨立利用“嵌入(embed)”、將嵌入“連接(concat)”和“累加(add)”到卷積層的輸出;具體如下:
14、方言編碼器的輸出表示為其中t表示序列長度,d表示特征維度;假設(shè)有n專家,路由層的輸出定義如下:
15、
16、
17、
18、其中wr表示路由器層的權(quán)重參數(shù),表示卷積模塊的輸出;通用路由器層根據(jù)輸入序列選擇專家,再結(jié)合了方言編碼器的輸出來選擇最合適的專家;
19、路由器層以路由層輸出r為依據(jù),通過動態(tài)路由選擇概率最大的專家,動態(tài)路由概率定義如下:
20、
21、其中是i專家被選中的概率,ri為路由層對應(yīng)第i個專家的輸出,對ri選用e作為底數(shù)的指數(shù)函數(shù)來轉(zhuǎn)換概率,既公式(4)中的exp,防止負(fù)數(shù)或等于0的輸出,為當(dāng)前路由層對應(yīng)專家的輸出總和;則混合專家層的輸出形式化定義如下:
22、
23、其中ei是所選i專家的輸出。
24、進(jìn)一步地,為了將方言信息合并到解碼器中,通過合并通用編碼器和方言編碼器兩個獨立編碼器的輸出來合并信息融合;該融合過程通過聲學(xué)融合模塊實現(xiàn),發(fā)生在將結(jié)果傳輸?shù)浇獯a器之前;融合過程定義如下:
25、
26、其中表示兩個不同編碼器輸出的信息融合的結(jié)果,表示通用編碼器輸出的結(jié)果,表示方言編碼器輸出的結(jié)果;
27、用于語音識別的綜合損失函數(shù)包括聯(lián)合的ctc-注意力損失,以及補充的平衡損失,損失函數(shù)的完整公式如下:
28、
29、其中α是平衡損失的權(quán)重,λ是語音識別損失的權(quán)重,表示平衡性損失,為ctc解碼器輸出的ctc損失,為注意力解碼器輸出的注意力損失。
30、第二方面,本發(fā)明提供第一方面所述基于混合專家的多方言語音識別模型的訓(xùn)練方法,所述基于混合專家的多方言語音識別模型的訓(xùn)練方法包括如下3個訓(xùn)練步驟:
31、step1、預(yù)訓(xùn)練通用編碼器:初始化一個conformer模型作為通用編碼器,并使用漢語數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練;預(yù)訓(xùn)練步驟允許模型捕獲各種常見的語音特征,從而降低多方言語音識別任務(wù)的學(xué)習(xí)復(fù)雜性;
32、step2、訓(xùn)練方言編碼器:初始化一個新的conformer模型為方言編碼器,并使用方言和普通話數(shù)據(jù)在方言分類任務(wù)上進(jìn)行訓(xùn)練;用于使方言編碼器能夠?qū)W習(xí)多種方言和普通話之間的聲學(xué)差異,輔助通用編碼器完成方言語音識別任務(wù);
33、step3、訓(xùn)練dialectmoe編碼器塊:將前兩步訓(xùn)練的通用編碼器和方言編碼器初始化為dialectmoe的參數(shù),用使用混合專家層初始化通用編碼器中的第二層前饋網(wǎng)絡(luò)層,僅使用低資源的多方言訓(xùn)練數(shù)據(jù)來訓(xùn)練最終的多方言語音識別模型。
34、本發(fā)明的有益效果是:
35、1、本發(fā)明的dialectmoe編碼器塊結(jié)合了混合專家層來解決當(dāng)模型遇到的復(fù)雜多變的語音時產(chǎn)生的解碼困難問題;
36、2、在多方言語音識別的背景下,有效解決方言變化的多樣性至關(guān)重要,本發(fā)明提出了一種新的動態(tài)路由算法,旨在增強模型對不同方言的適應(yīng)性和泛化能力;利用非專家層的輸出序列和方言編碼器提供的方言信息來選擇合適的專家;這種動態(tài)路由機(jī)制在復(fù)雜的語音場景中被證明更加有效,尤其是涉及多種方言的場景;
37、3、在aidatatang方言公開數(shù)據(jù)集上的實驗結(jié)果表明,所提出的模型在多方言語音識別中表現(xiàn)出了優(yōu)異的性能。