基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備與流程

文檔序號(hào)：39616000發(fā)布日期：2024-10-11 13:27閱讀：49來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備與流程

本技術(shù)涉及金融科技，尤其涉及一種基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備。

背景技術(shù)：

1、隨著科技的不斷發(fā)展，聲紋識(shí)別技術(shù)已經(jīng)在很多行業(yè)和場(chǎng)景中得到廣泛應(yīng)用，例如安全認(rèn)證、客戶(hù)服務(wù)、智能家居等。然而，噪聲是一個(gè)嚴(yán)重影響聲紋識(shí)別模型準(zhǔn)確率的重要因素。這里的噪聲通常指的是除人聲以外的其他聲音，包括靜音、環(huán)境噪聲、背景人聲等等。以金融行業(yè)為例，在金融交易中，聲紋識(shí)別可以作為一種安全措施，用于驗(yàn)證用戶(hù)的身份。然而，噪聲可能會(huì)掩蓋或扭曲聲紋中的關(guān)鍵特征，導(dǎo)致身份驗(yàn)證失敗或誤判?；蛘?，在遠(yuǎn)程開(kāi)戶(hù)場(chǎng)景中，聲紋識(shí)別用于確認(rèn)用戶(hù)身份，噪聲可能導(dǎo)致身份驗(yàn)證過(guò)程變得復(fù)雜和耗時(shí)。

2、目前，市面上存在一些噪聲去除工具可以有效的去除音頻中的靜音。一些噪聲識(shí)別模型可以對(duì)語(yǔ)音片段進(jìn)行噪聲識(shí)別并去除，但是準(zhǔn)確率不高，這些方法雖然能一定程度上降低噪聲的影響，但是對(duì)噪聲片段去除的并不徹底，并不能在聲紋識(shí)別任務(wù)中消除噪聲的干擾，因此，如何從帶有噪聲的音頻中提取出最干凈的人聲片段，是一個(gè)非常有價(jià)值和實(shí)際意義的研究課題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的主要目的在于提出一種基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備，能夠降低噪聲對(duì)音頻的影響，提取出純凈的語(yǔ)音片段。

2、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第一方面提出了一種基于音頻分類(lèi)模型的語(yǔ)音提取方法，所述方法包括：

3、獲取多個(gè)音頻片段和音頻數(shù)據(jù)集；

4、將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練，得到預(yù)訓(xùn)練的音頻分類(lèi)模型；

5、通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取，得到多個(gè)聲紋特征向量；

6、根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段；

7、基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序，得到語(yǔ)音序列；

8、提取所述語(yǔ)音序列中預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段。

9、在一些實(shí)施例中，所述基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序，得到語(yǔ)音序列，包括：

10、對(duì)于每一個(gè)所述語(yǔ)音片段，確定所述語(yǔ)音片段的片段時(shí)長(zhǎng)；

11、將所述語(yǔ)音片段輸入預(yù)訓(xùn)練的音頻分類(lèi)模型進(jìn)行概率計(jì)算，輸出所述語(yǔ)音片段的人聲概率，其中，所述人聲概率用于表征所述語(yǔ)音片段屬于人聲的概率；

12、根據(jù)所述片段時(shí)長(zhǎng)以及所述人聲概率確定所述語(yǔ)音片段的排序權(quán)重；

13、基于所述排序權(quán)重對(duì)所述語(yǔ)音片段進(jìn)行排序，得到語(yǔ)音序列。

14、在一些實(shí)施例中，所述根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段，包括：

15、基于預(yù)設(shè)的聚類(lèi)算法對(duì)所有所述聲紋特征向量進(jìn)行聚類(lèi)操作，得到多個(gè)聚類(lèi)結(jié)果，其中，所述聚類(lèi)結(jié)果用于表征所述聲紋特征向量所屬的類(lèi)別；

16、根據(jù)所述聚類(lèi)結(jié)果對(duì)所述音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段。

17、在一些實(shí)施例中，所述根據(jù)所述聚類(lèi)結(jié)果對(duì)所述音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段，包括：

18、獲取每個(gè)所述聚類(lèi)結(jié)果的類(lèi)別標(biāo)簽；

19、根據(jù)所述類(lèi)別標(biāo)簽對(duì)所述音頻片段進(jìn)行分組，得到多個(gè)音頻組，其中，每個(gè)所述音頻組包括至少一個(gè)音頻片段；

20、對(duì)于每一個(gè)所述音頻組，對(duì)所述音頻組中的所有音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段。

21、在一些實(shí)施例中，所述通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取，得到多個(gè)聲紋特征向量，包括：

22、對(duì)于每一個(gè)所述音頻片段，將所述音頻片段輸入預(yù)設(shè)的聲紋模型，以使所述聲紋模型逐層提取所述音頻片段的特征，輸出多個(gè)層特征向量；

23、在所述層特征向量中篩選出預(yù)設(shè)層的目標(biāo)層特征向量，并將所述目標(biāo)層特征向量作為所述音頻片段的聲紋特征向量。

24、在一些實(shí)施例中，所述將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練，得到預(yù)訓(xùn)練的音頻分類(lèi)模型，包括：

25、基于預(yù)設(shè)比例對(duì)所述音頻數(shù)據(jù)集進(jìn)行劃分，得到訓(xùn)練集、驗(yàn)證集和測(cè)試集；

26、將所述訓(xùn)練集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行概率預(yù)測(cè)，輸出所述概率預(yù)測(cè)值；

27、根據(jù)所述概率預(yù)測(cè)值、所述驗(yàn)證集和所述測(cè)試集對(duì)所述音頻分類(lèi)模型進(jìn)行模型訓(xùn)練，得到模型評(píng)估值；

28、當(dāng)所述模型評(píng)估值滿(mǎn)足預(yù)設(shè)的模型指標(biāo)條件，將模型訓(xùn)練后的音頻分類(lèi)模型作為預(yù)訓(xùn)練的音頻分類(lèi)模型。

29、在一些實(shí)施例中，所述音頻片段由如下步驟得到：

30、獲取待處理音頻；

31、對(duì)所述待處理音頻進(jìn)行語(yǔ)音活性檢測(cè)，并對(duì)語(yǔ)音活性檢測(cè)后的待處理音頻進(jìn)行語(yǔ)義切割，得到多個(gè)音頻片段。

32、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第二方面提出了一種基于音頻分類(lèi)模型的語(yǔ)音提取裝置，所述裝置包括：

33、數(shù)據(jù)獲取模塊，用于獲取多個(gè)音頻片段和音頻數(shù)據(jù)集；

34、模型訓(xùn)練模塊，用于將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練，得到預(yù)訓(xùn)練的音頻分類(lèi)模型；

35、特征提取模塊，用于通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取，得到多個(gè)聲紋特征向量；

36、音頻拼接模塊，用于根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段；

37、語(yǔ)音排序模塊，用于基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序，得到語(yǔ)音序列；

38、目標(biāo)提取模塊，用于提取所述語(yǔ)音序列中預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段。

39、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備，一種電子設(shè)備，所述電子設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如第一方面所述的基于音頻分類(lèi)模型的語(yǔ)音提取方法。

40、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于音頻分類(lèi)模型的語(yǔ)音提取方法。

41、本技術(shù)提出的基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),首先，獲取多個(gè)音頻片段和音頻數(shù)據(jù)集，再將音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型，以對(duì)音頻分類(lèi)模型進(jìn)行訓(xùn)練，提高音頻分類(lèi)模型對(duì)音頻的分類(lèi)準(zhǔn)確性，得到預(yù)訓(xùn)練的音頻分類(lèi)模型，之后，通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有音頻片段進(jìn)行特征提取，得到多個(gè)聲紋特征向量，實(shí)現(xiàn)對(duì)每個(gè)說(shuō)話(huà)者的聲音的捕捉，再根據(jù)聲紋特征向量對(duì)音頻片段進(jìn)行音頻拼接，得到多個(gè)語(yǔ)音片段，以將相同類(lèi)別的音頻片段拼接到一起，提高音頻質(zhì)量，基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有語(yǔ)音片段進(jìn)行語(yǔ)音排序，得到語(yǔ)音序列，可以確保語(yǔ)音片段按照特定的標(biāo)準(zhǔn)或特征進(jìn)行有序排列，方便后續(xù)處理和分析，使得在音頻片段篩選上更加合理和有效，最后提取語(yǔ)音序列中的預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段，從而能夠從帶有噪音的音頻中提取出純凈的人聲片段。本技術(shù)實(shí)施例通過(guò)對(duì)音頻片段進(jìn)行特征提取，并對(duì)音頻片段進(jìn)行音頻拼接能夠降低噪聲對(duì)音頻的影響，再對(duì)語(yǔ)音片段進(jìn)行語(yǔ)音排序，并提取預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段，從而能夠?qū)崿F(xiàn)對(duì)多個(gè)語(yǔ)音片段的合理排序和篩選，實(shí)現(xiàn)對(duì)純凈的人聲片段的提取。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賀亞運(yùn),王健宗,彭俊清
技術(shù)所有人：平安科技（深圳）有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻分類(lèi)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備與流程

基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備與流程