本發(fā)明涉及聲學(xué)場景分類方案設(shè)計,具體涉及一種基于模型融合的聲學(xué)場景分類方法及系統(tǒng)、電子設(shè)備。
背景技術(shù):
1、聲學(xué)場景分類的目的是使機(jī)器能夠通過自身麥克風(fēng)采集到的音頻判斷出所處場景,聲學(xué)場景分類技術(shù)可應(yīng)用在諸如智能監(jiān)控系統(tǒng)、智能手機(jī)、智能耳機(jī)等設(shè)備中。早期的聲學(xué)場景分類工作依賴于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,而近年來,隨著深度學(xué)習(xí)算法的不斷研究與進(jìn)步,多種深度學(xué)習(xí)方法已被用于學(xué)習(xí)音頻特征的高級表示,并且實現(xiàn)了比傳統(tǒng)機(jī)器學(xué)習(xí)方法更好的性能。然而,目前聲學(xué)場景分類研究領(lǐng)域也面臨著一些問題。已有的場景音頻數(shù)據(jù)集的規(guī)模和多樣性是有限的,缺乏大規(guī)模的綜合數(shù)據(jù)集,而神經(jīng)網(wǎng)絡(luò)要實現(xiàn)系統(tǒng)的高性能往往需要大規(guī)模的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。并且,現(xiàn)有的數(shù)據(jù)集是由多種設(shè)備采集,不同設(shè)備間存在有設(shè)備本身的特性差異,不同設(shè)備的數(shù)據(jù)量也不均衡,甚至在測試集中可能出現(xiàn)訓(xùn)練集中所不包含的未知設(shè)備,這就對模型的泛化性能有著較高要求。如何針對聲學(xué)場景分類問題在跨設(shè)備情況下提高神經(jīng)網(wǎng)絡(luò)模型的泛化性能及分類準(zhǔn)確率,是現(xiàn)有技術(shù)亟待解決的問題。
2、因此,現(xiàn)有技術(shù)還有待進(jìn)一步發(fā)展。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于克服上述技術(shù)不足,提供一種基于模型融合的聲學(xué)場景分類方法及系統(tǒng)、電子設(shè)備,以解決現(xiàn)有技術(shù)存在的問題。
2、為達(dá)到上述技術(shù)目的,根據(jù)本發(fā)明的第一方面,本發(fā)明提供了一種基于模型融合的聲學(xué)場景分類方法,包括:
3、s100、獲取噪聲源語音信號的梅爾特征譜圖;將所獲取的梅爾特征譜圖按照預(yù)設(shè)頻率劃分閾值化分為低頻段和高頻段,進(jìn)而搭建基于高低頻分離的resnet模型;基于所獲取的梅爾特征譜圖搭建基于通道注意力的fcnn模型;在構(gòu)建基于通道注意力的fcnn模型的過程中,限制頻率軸的下采樣,進(jìn)而搭建限制頻率下采樣的fcnn模型;
4、s200、將基于高低頻分離的resnet模型和基于通道注意力的fcnn模型的輸出層融合,進(jìn)而訓(xùn)練得到聲學(xué)場景的三分類器;將基于高低頻分離的resnet模型、基于通道注意力的fcnn模型的輸出層、限制頻率下采樣的fcnn模型進(jìn)行輸出層的融合,進(jìn)而訓(xùn)練得到聲學(xué)場景的十分類器;
5、s300、將三分類器和十分類器的輸出層融合,得到目標(biāo)聲學(xué)場景分類模型,利用目標(biāo)聲學(xué)場景分類模型進(jìn)行聲學(xué)場景分類。
6、具體的,所述聲學(xué)場景的三分類器的分類結(jié)果包括:
7、室內(nèi)場景、室外場景和交通場景。
8、具體的,所述聲學(xué)場景的十分類器的分類結(jié)果包括:
9、飛機(jī)場、商場、地鐵站、步行街、公共廣場、街道交通、有軌電車、巴士、地鐵、城市公園。
10、具體的,所述將三分類器和十分類器的輸出層融合,得到目標(biāo)聲學(xué)場景分類模型,利用目標(biāo)聲學(xué)場景分類模型進(jìn)行聲學(xué)場景分類,包括:
11、設(shè)定和分別表示這三大類和十小類的聲學(xué)場景集合,并且分別用和表示三分類器和十分類器的分類結(jié)果輸出,那么對于輸入,最終的預(yù)測分類結(jié)果可用下式表示:
12、
13、其中,表示是的超集;因此,整個分類系統(tǒng)預(yù)測出輸入音頻片段屬于的概率等于由三分類器給出的的概率與由十分類器給出的的概率的乘積。
14、具體的,所述將所獲取的梅爾特征譜圖按照預(yù)設(shè)頻率劃分閾值化分為低頻段和高頻段,進(jìn)而搭建基于高低頻分離的resnet模型,包括:
15、將所述低頻段和高頻段的梅爾特征譜圖分別輸入第一殘差網(wǎng)絡(luò)和第二殘差網(wǎng)絡(luò),將第一殘差網(wǎng)絡(luò)和第二殘差網(wǎng)絡(luò)的各通道的輸出在頻率軸上進(jìn)行級聯(lián),級聯(lián)后,利用全局平均池化層和softmax激活函數(shù),對第一殘差網(wǎng)絡(luò)和第二殘差網(wǎng)絡(luò)的各通道的貢獻(xiàn)值進(jìn)行加權(quán),進(jìn)而得到基于高低頻分離的resnet模型。
16、具體的,所述第一殘差網(wǎng)絡(luò)和第二殘差網(wǎng)絡(luò)均包括依次連接的第一堆棧層、第二堆棧層、第三堆棧層和第四堆棧層,所述第一堆棧層包括第一殘差塊,所述第二堆棧層包括依次連接的第二殘差塊和第一殘差塊,所述第二殘差塊包括下采樣路徑,所述下采樣路徑包括平均池化層和零填充層,用于執(zhí)行下采樣操作,下采樣操作后,將下采樣路徑的輸出結(jié)果和殘差路徑的輸出結(jié)果進(jìn)行拼接,以匹配后續(xù)卷積運算時的輸出維度。
17、具體的,所述基于所獲取的梅爾特征譜圖搭建基于通道注意力的fcnn模型,包括:
18、將所述梅爾特征譜圖輸入第一卷積塊,所述第一卷積塊包含兩個卷積層,第一層卷積的卷積核的大小為5×5、步長為2×2,接著使用了零填充,第二層卷積的卷積核的大小為3×3、步長為1×1,每一層使用的激活函數(shù)都是relu,且每層之后都會進(jìn)行批歸一化,第一卷積塊的最后步驟為執(zhí)行最大池化操作,將第一卷積塊的輸出結(jié)果輸入到第二卷積塊,所述第二卷積塊包含兩個卷積層,第二卷積塊與第一卷積塊的區(qū)別在于第二卷積塊的兩個卷積層均使用了大小為3×3和步長為1×1的卷積核,將第二卷積塊的輸出結(jié)果輸入到第三卷積塊,第三個卷積塊有四個卷積層,每個卷積層都使用了大小為3×3和步長為1×1的卷積核,且每個卷積層均使用了零填充、批歸一化和relu函數(shù)操作,前三個卷積層之后使用了dropout層以防止過擬合,第三卷積塊的最后步驟會進(jìn)行2×2的最大池化操作,最后會經(jīng)過單層卷積運算,其輸出特征圖將作為通道注意力模塊的輸入。
19、具體的,所述搭建限制頻率下采樣的fcnn模型,包括:
20、將所述梅爾特征譜圖輸入第一卷積塊,所述第一卷積塊包含兩個卷積層,第一層卷積的卷積核的大小為5×5、步長為1×2,第二層卷積的卷積核的大小為3×3、步長為1×1,每一層卷積使用的激活函數(shù)都是relu,且每層卷積之后都會進(jìn)行批歸一化,將第一卷積塊的輸出結(jié)果輸入到第二卷積塊,所述第二卷積塊包含兩個卷積層,第二個卷積塊中兩層卷積的卷積核大小都為3×3,步長都為1×1,每層卷積之后使用的激活函數(shù)同樣是relu,且每層之后同樣都會進(jìn)行批歸一化運算,將第二卷積塊的輸出結(jié)果輸入到第三卷積塊,第三卷積塊有四個卷積層,每個卷積層都使用了大小為3×3的卷積核和1×1的步長,且均使用了批歸一化和relu函數(shù),第一個和第三個卷積層之后使用了dropout為0.3以防止過擬合,將第三卷積塊的輸出結(jié)果輸入到第四卷積塊,第四卷積塊包括兩個卷積層,第四卷積塊的兩個卷積層都使用了大小為3×3、步長為1×1的卷積核,第四卷積塊的每個卷積層之后同樣進(jìn)行批歸一化,relu函數(shù)激活和取值為0.5的dropout層,在第一卷積塊、第二卷積塊、第三卷積塊、第四卷積塊的按照計算順序排序的十個卷積層中,第二和第四個卷積層之后應(yīng)用大小為3×3,步長為2×2的最大池化,而在第六和第八個卷積層之后應(yīng)用大小為3×3,步長為1×2的最大池化。
21、根據(jù)本發(fā)明的第二方面,提供一種基于模型融合的聲學(xué)場景分類系統(tǒng),包括:
22、獲取模塊,用于獲取噪聲源語音信號的梅爾特征譜圖;
23、控制模塊,用于將所獲取的梅爾特征譜圖按照預(yù)設(shè)頻率劃分閾值化分為低頻段和高頻段,進(jìn)而搭建基于高低頻分離的resnet模型;基于所獲取的梅爾特征譜圖搭建基于通道注意力的fcnn模型;在構(gòu)建基于通道注意力的fcnn模型的過程中,限制頻率軸的下采樣,進(jìn)而搭建限制頻率下采樣的fcnn模型;用于將基于高低頻分離的resnet模型和基于通道注意力的fcnn模型的輸出層融合,進(jìn)而訓(xùn)練得到聲學(xué)場景的三分類器;將基于高低頻分離的resnet模型、基于通道注意力的fcnn模型的輸出層、限制頻率下采樣的fcnn模型進(jìn)行輸出層的融合,進(jìn)而訓(xùn)練得到聲學(xué)場景的十分類器;用于將三分類器和十分類器的輸出層融合,得到目標(biāo)聲學(xué)場景分類模型,利用目標(biāo)聲學(xué)場景分類模型進(jìn)行聲學(xué)場景分類。
24、根據(jù)本發(fā)明的第三方面,提供一種電子設(shè)備,包括:存儲器;以及處理器,所述存儲器上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被所述處理器執(zhí)行時實現(xiàn)上述的基于模型融合的聲學(xué)場景分類方法。
25、有益效果:
26、本發(fā)明搭建了三種分類模型,并將本發(fā)明搭建的三個模型進(jìn)行融合使用,將十類聲學(xué)場景進(jìn)一步劃分為三大類,并構(gòu)建了一個三分類器用于學(xué)習(xí)相似場景間的上層共享特征。在三分類器和十分類器中均引入數(shù)據(jù)增強(qiáng)和模型融合策略,搭建了一個基于模型融合的多層次聲學(xué)場景分類模型,本發(fā)明將十分類器與三分類器的輸出在后期進(jìn)行融合以提升模型整體性能,很大程度上提高了聲學(xué)場景分類的準(zhǔn)確性和可靠性,實現(xiàn)了針對聲學(xué)場景分類問題在跨設(shè)備情況下提高神經(jīng)網(wǎng)絡(luò)模型的泛化性能及分類準(zhǔn)確率。