本技術(shù)涉及金融科技,尤其涉及一種基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備。
背景技術(shù):
1、隨著科技的不斷發(fā)展,聲紋識(shí)別技術(shù)已經(jīng)在很多行業(yè)和場(chǎng)景中得到廣泛應(yīng)用,例如安全認(rèn)證、客戶(hù)服務(wù)、智能家居等。然而,噪聲是一個(gè)嚴(yán)重影響聲紋識(shí)別模型準(zhǔn)確率的重要因素。這里的噪聲通常指的是除人聲以外的其他聲音,包括靜音、環(huán)境噪聲、背景人聲等等。以金融行業(yè)為例,在金融交易中,聲紋識(shí)別可以作為一種安全措施,用于驗(yàn)證用戶(hù)的身份。然而,噪聲可能會(huì)掩蓋或扭曲聲紋中的關(guān)鍵特征,導(dǎo)致身份驗(yàn)證失敗或誤判?;蛘?,在遠(yuǎn)程開(kāi)戶(hù)場(chǎng)景中,聲紋識(shí)別用于確認(rèn)用戶(hù)身份,噪聲可能導(dǎo)致身份驗(yàn)證過(guò)程變得復(fù)雜和耗時(shí)。
2、目前,市面上存在一些噪聲去除工具可以有效的去除音頻中的靜音。一些噪聲識(shí)別模型可以對(duì)語(yǔ)音片段進(jìn)行噪聲識(shí)別并去除,但是準(zhǔn)確率不高,這些方法雖然能一定程度上降低噪聲的影響,但是對(duì)噪聲片段去除的并不徹底,并不能在聲紋識(shí)別任務(wù)中消除噪聲的干擾,因此,如何從帶有噪聲的音頻中提取出最干凈的人聲片段,是一個(gè)非常有價(jià)值和實(shí)際意義的研究課題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置及電子設(shè)備,能夠降低噪聲對(duì)音頻的影響,提取出純凈的語(yǔ)音片段。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種基于音頻分類(lèi)模型的語(yǔ)音提取方法,所述方法包括:
3、獲取多個(gè)音頻片段和音頻數(shù)據(jù)集;
4、將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練,得到預(yù)訓(xùn)練的音頻分類(lèi)模型;
5、通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取,得到多個(gè)聲紋特征向量;
6、根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段;
7、基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序,得到語(yǔ)音序列;
8、提取所述語(yǔ)音序列中預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段。
9、在一些實(shí)施例中,所述基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序,得到語(yǔ)音序列,包括:
10、對(duì)于每一個(gè)所述語(yǔ)音片段,確定所述語(yǔ)音片段的片段時(shí)長(zhǎng);
11、將所述語(yǔ)音片段輸入預(yù)訓(xùn)練的音頻分類(lèi)模型進(jìn)行概率計(jì)算,輸出所述語(yǔ)音片段的人聲概率,其中,所述人聲概率用于表征所述語(yǔ)音片段屬于人聲的概率;
12、根據(jù)所述片段時(shí)長(zhǎng)以及所述人聲概率確定所述語(yǔ)音片段的排序權(quán)重;
13、基于所述排序權(quán)重對(duì)所述語(yǔ)音片段進(jìn)行排序,得到語(yǔ)音序列。
14、在一些實(shí)施例中,所述根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段,包括:
15、基于預(yù)設(shè)的聚類(lèi)算法對(duì)所有所述聲紋特征向量進(jìn)行聚類(lèi)操作,得到多個(gè)聚類(lèi)結(jié)果,其中,所述聚類(lèi)結(jié)果用于表征所述聲紋特征向量所屬的類(lèi)別;
16、根據(jù)所述聚類(lèi)結(jié)果對(duì)所述音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段。
17、在一些實(shí)施例中,所述根據(jù)所述聚類(lèi)結(jié)果對(duì)所述音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段,包括:
18、獲取每個(gè)所述聚類(lèi)結(jié)果的類(lèi)別標(biāo)簽;
19、根據(jù)所述類(lèi)別標(biāo)簽對(duì)所述音頻片段進(jìn)行分組,得到多個(gè)音頻組,其中,每個(gè)所述音頻組包括至少一個(gè)音頻片段;
20、對(duì)于每一個(gè)所述音頻組,對(duì)所述音頻組中的所有音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段。
21、在一些實(shí)施例中,所述通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取,得到多個(gè)聲紋特征向量,包括:
22、對(duì)于每一個(gè)所述音頻片段,將所述音頻片段輸入預(yù)設(shè)的聲紋模型,以使所述聲紋模型逐層提取所述音頻片段的特征,輸出多個(gè)層特征向量;
23、在所述層特征向量中篩選出預(yù)設(shè)層的目標(biāo)層特征向量,并將所述目標(biāo)層特征向量作為所述音頻片段的聲紋特征向量。
24、在一些實(shí)施例中,所述將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練,得到預(yù)訓(xùn)練的音頻分類(lèi)模型,包括:
25、基于預(yù)設(shè)比例對(duì)所述音頻數(shù)據(jù)集進(jìn)行劃分,得到訓(xùn)練集、驗(yàn)證集和測(cè)試集;
26、將所述訓(xùn)練集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行概率預(yù)測(cè),輸出所述概率預(yù)測(cè)值;
27、根據(jù)所述概率預(yù)測(cè)值、所述驗(yàn)證集和所述測(cè)試集對(duì)所述音頻分類(lèi)模型進(jìn)行模型訓(xùn)練,得到模型評(píng)估值;
28、當(dāng)所述模型評(píng)估值滿(mǎn)足預(yù)設(shè)的模型指標(biāo)條件,將模型訓(xùn)練后的音頻分類(lèi)模型作為預(yù)訓(xùn)練的音頻分類(lèi)模型。
29、在一些實(shí)施例中,所述音頻片段由如下步驟得到:
30、獲取待處理音頻;
31、對(duì)所述待處理音頻進(jìn)行語(yǔ)音活性檢測(cè),并對(duì)語(yǔ)音活性檢測(cè)后的待處理音頻進(jìn)行語(yǔ)義切割,得到多個(gè)音頻片段。
32、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種基于音頻分類(lèi)模型的語(yǔ)音提取裝置,所述裝置包括:
33、數(shù)據(jù)獲取模塊,用于獲取多個(gè)音頻片段和音頻數(shù)據(jù)集;
34、模型訓(xùn)練模塊,用于將所述音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型進(jìn)行模型訓(xùn)練,得到預(yù)訓(xùn)練的音頻分類(lèi)模型;
35、特征提取模塊,用于通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有所述音頻片段進(jìn)行特征提取,得到多個(gè)聲紋特征向量;
36、音頻拼接模塊,用于根據(jù)所述聲紋特征向量對(duì)所述音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段;
37、語(yǔ)音排序模塊,用于基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有所述語(yǔ)音片段進(jìn)行語(yǔ)音排序,得到語(yǔ)音序列;
38、目標(biāo)提取模塊,用于提取所述語(yǔ)音序列中預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段。
39、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如第一方面所述的基于音頻分類(lèi)模型的語(yǔ)音提取方法。
40、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于音頻分類(lèi)模型的語(yǔ)音提取方法。
41、本技術(shù)提出的基于音頻分類(lèi)模型的語(yǔ)音提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),首先,獲取多個(gè)音頻片段和音頻數(shù)據(jù)集,再將音頻數(shù)據(jù)集輸入預(yù)設(shè)的音頻分類(lèi)模型,以對(duì)音頻分類(lèi)模型進(jìn)行訓(xùn)練,提高音頻分類(lèi)模型對(duì)音頻的分類(lèi)準(zhǔn)確性,得到預(yù)訓(xùn)練的音頻分類(lèi)模型,之后,通過(guò)預(yù)設(shè)的聲紋模型對(duì)所有音頻片段進(jìn)行特征提取,得到多個(gè)聲紋特征向量,實(shí)現(xiàn)對(duì)每個(gè)說(shuō)話(huà)者的聲音的捕捉,再根據(jù)聲紋特征向量對(duì)音頻片段進(jìn)行音頻拼接,得到多個(gè)語(yǔ)音片段,以將相同類(lèi)別的音頻片段拼接到一起,提高音頻質(zhì)量,基于預(yù)訓(xùn)練的音頻分類(lèi)模型對(duì)所有語(yǔ)音片段進(jìn)行語(yǔ)音排序,得到語(yǔ)音序列,可以確保語(yǔ)音片段按照特定的標(biāo)準(zhǔn)或特征進(jìn)行有序排列,方便后續(xù)處理和分析,使得在音頻片段篩選上更加合理和有效,最后提取語(yǔ)音序列中的預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段,從而能夠從帶有噪音的音頻中提取出純凈的人聲片段。本技術(shù)實(shí)施例通過(guò)對(duì)音頻片段進(jìn)行特征提取,并對(duì)音頻片段進(jìn)行音頻拼接能夠降低噪聲對(duì)音頻的影響,再對(duì)語(yǔ)音片段進(jìn)行語(yǔ)音排序,并提取預(yù)設(shè)位置的語(yǔ)音片段作為目標(biāo)語(yǔ)音片段,從而能夠?qū)崿F(xiàn)對(duì)多個(gè)語(yǔ)音片段的合理排序和篩選,實(shí)現(xiàn)對(duì)純凈的人聲片段的提取。