1.基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:包括通用編碼器、方言編碼器、聲學(xué)融合模塊、注意力解碼器和ctc解碼器;
2.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:原始音頻序列經(jīng)過(guò)前端模塊的預(yù)處理,提取濾波器組特征;然后,利用卷積下采樣對(duì)音頻特征序列進(jìn)行時(shí)間上的下采樣;通過(guò)方言編碼器從卷積下采樣的特征序列中捕獲方言信息;再通過(guò)通用編碼器從卷積下采樣的特征序列中以方言無(wú)關(guān)的方式捕獲語(yǔ)音信息;再將通用編碼器和方言編碼器的輸出進(jìn)行聲學(xué)融合,通過(guò)注意力解碼器根據(jù)聲學(xué)融合模塊的輸出計(jì)算注意力損失并解碼出文本;通過(guò)ctc解碼器根據(jù)通用編碼器的輸出計(jì)算ctc損失并解碼出文本。
3.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:所述通用編碼器的dialectmoe編碼器塊中,輸入序列首先通過(guò)前饋網(wǎng)絡(luò)(ffn)層,然后通過(guò)注意力和卷積神經(jīng)網(wǎng)絡(luò)(cnn)層分別提取全局和局部信息;然后基于動(dòng)態(tài)路由選擇混合專(zhuān)家層內(nèi)合適的專(zhuān)家,專(zhuān)家的輸出乘以路由器層分配的權(quán)重。
4.根據(jù)權(quán)利要求3所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:
5.根據(jù)權(quán)利要求4所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:
6.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:為了將方言信息合并到解碼器中,通過(guò)合并通用編碼器和方言編碼器兩個(gè)獨(dú)立編碼器的輸出來(lái)合并信息融合;該融合過(guò)程通過(guò)聲學(xué)融合模塊實(shí)現(xiàn),發(fā)生在將結(jié)果傳輸?shù)浇獯a器之前;融合過(guò)程定義如下:
7.權(quán)利要求1-6任一項(xiàng)所述基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型的訓(xùn)練方法,其特征在于:所述基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型的訓(xùn)練方法包括如下3個(gè)訓(xùn)練步驟: