国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型、訓(xùn)練方法

      文檔序號(hào):39343418發(fā)布日期:2024-09-10 12:04閱讀:來(lái)源:國(guó)知局

      技術(shù)特征:

      1.基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:包括通用編碼器、方言編碼器、聲學(xué)融合模塊、注意力解碼器和ctc解碼器;

      2.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:原始音頻序列經(jīng)過(guò)前端模塊的預(yù)處理,提取濾波器組特征;然后,利用卷積下采樣對(duì)音頻特征序列進(jìn)行時(shí)間上的下采樣;通過(guò)方言編碼器從卷積下采樣的特征序列中捕獲方言信息;再通過(guò)通用編碼器從卷積下采樣的特征序列中以方言無(wú)關(guān)的方式捕獲語(yǔ)音信息;再將通用編碼器和方言編碼器的輸出進(jìn)行聲學(xué)融合,通過(guò)注意力解碼器根據(jù)聲學(xué)融合模塊的輸出計(jì)算注意力損失并解碼出文本;通過(guò)ctc解碼器根據(jù)通用編碼器的輸出計(jì)算ctc損失并解碼出文本。

      3.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:所述通用編碼器的dialectmoe編碼器塊中,輸入序列首先通過(guò)前饋網(wǎng)絡(luò)(ffn)層,然后通過(guò)注意力和卷積神經(jīng)網(wǎng)絡(luò)(cnn)層分別提取全局和局部信息;然后基于動(dòng)態(tài)路由選擇混合專(zhuān)家層內(nèi)合適的專(zhuān)家,專(zhuān)家的輸出乘以路由器層分配的權(quán)重。

      4.根據(jù)權(quán)利要求3所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:

      5.根據(jù)權(quán)利要求4所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:

      6.根據(jù)權(quán)利要求1所述的基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型,其特征在于:為了將方言信息合并到解碼器中,通過(guò)合并通用編碼器和方言編碼器兩個(gè)獨(dú)立編碼器的輸出來(lái)合并信息融合;該融合過(guò)程通過(guò)聲學(xué)融合模塊實(shí)現(xiàn),發(fā)生在將結(jié)果傳輸?shù)浇獯a器之前;融合過(guò)程定義如下:

      7.權(quán)利要求1-6任一項(xiàng)所述基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型的訓(xùn)練方法,其特征在于:所述基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型的訓(xùn)練方法包括如下3個(gè)訓(xùn)練步驟:


      技術(shù)總結(jié)
      本發(fā)明提供基于混合專(zhuān)家的多方言語(yǔ)音識(shí)別模型、訓(xùn)練方法,屬自然語(yǔ)言處理領(lǐng)域。模型包括通用編碼器、方言編碼器、聲學(xué)融合模塊、注意力解碼器和CTC解碼器;通用編碼器由12層的DialectMoe編碼器塊組成,負(fù)責(zé)以方言無(wú)關(guān)的方式捕獲語(yǔ)音信息;方言編碼器由6層Conformer編碼器組成,從特征序列中捕獲方言信息;聲學(xué)融合模塊用于將通用編碼器和方言編碼器的輸出進(jìn)行聲學(xué)融合;注意力解碼器用于根據(jù)聲學(xué)融合模塊的輸出計(jì)算注意力損失并解碼出文本;CTC解碼器用于根據(jù)通用編碼器的輸出計(jì)算CTC損失并解碼出文本。本發(fā)明所提出的模型在低資源下多方言語(yǔ)音識(shí)別中表現(xiàn)出了優(yōu)異的性能。

      技術(shù)研發(fā)人員:高盛祥,周杰,余正濤,董凌,王文君
      受保護(hù)的技術(shù)使用者:昆明理工大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      當(dāng)前第2頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1