一種聲音分析方法及裝置的制造方法

文檔序號：9752218閱讀：436來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種聲音分析方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及聲音識別技術(shù)領(lǐng)域，尤其涉及一種聲音分析方法及裝置。
【背景技術(shù)】
[0002]隨著各類電子設(shè)備的普及，錄音設(shè)備已廣泛應(yīng)用至領(lǐng)域。尤其是在司法、執(zhí)法的實踐中，音頻文件的采集成為調(diào)查取證的一種重要手段。但是，又由于音頻文件的易偽造，案件場景還原能力低等問題，使得音頻文件在很多時候只能作為參考。
[0003]音頻文件由何種設(shè)備錄制在一定程度上反映了錄音場合和情景，對于判斷音頻文件是否可以作為有效證據(jù)十分重要。但是，目前針對音頻文件進(jìn)行錄音設(shè)備的有效判別，主要還是通過辦案人員的經(jīng)驗進(jìn)行判定，準(zhǔn)確率難以保證，而專業(yè)的聲紋分析設(shè)備的成本又很高昂，進(jìn)行聲音鑒定分析的費用居高不下。由此可見，目前對于音頻文件的來源設(shè)備的識另Ij，難度高且準(zhǔn)確率較低，并且專業(yè)的聲紋分析鑒定的成本很高，難以在基層執(zhí)法、司法方面大量普及。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的實施例提供一種聲音分析方法及裝置，能夠以較低的成本提高音頻文件的來源設(shè)備識別的準(zhǔn)確率。
[0005]為達(dá)到上述目的，本發(fā)明的實施例采用如下技術(shù)方案:
[0006]第一方面，本發(fā)明的實施例提供一種聲音分析方法，包括:
[0007]將采集的聲音信號，通過不同的壓縮算法以相同采樣率和比特率根據(jù)所采集的聲音信號得到分別對應(yīng)不同的壓縮算法的音頻文件；
[0008]從對應(yīng)不同的壓縮算法的音頻文件中提取無聲段，并根據(jù)所提取的無聲段得到語音特征信號；
[0009]利用所述語音特征信號作為訓(xùn)練數(shù)據(jù)訓(xùn)練BP(BackPropagat1n，多層前饋)神經(jīng)網(wǎng)絡(luò)，并通過完成訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)分析測試信號，識別生成所述測試信號的錄音設(shè)備。
[0010]第二方面，本發(fā)明的實施例提供一種聲音分析裝置，包括:相互之間通過總線連接的系統(tǒng)主控模塊、語音錄放模塊、TFT觸摸屏模塊、壓縮算法實現(xiàn)模塊、存儲模塊和上位機模塊；
[0011 ]所述語音錄放模塊，用于播放聲音信號；
[0012]所述壓縮算法實現(xiàn)模塊，用于通過不同的壓縮算法以相同采樣率和比特率根據(jù)所采集的聲音信號得到分別對應(yīng)不同的壓縮算法的音頻文件；
[0013]所述存儲模塊，用于存儲所述對應(yīng)不同的壓縮算法的音頻文件；
[0014]所述上位機模塊，用于從對應(yīng)不同的壓縮算法的音頻文件中提取無聲段，并根據(jù)所提取的無聲段得到語音特征信號;并利用所述語音特征信號作為訓(xùn)練數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)，并通過完成訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)分析測試信號，識別生成所述測試信號的錄音設(shè)備。
[0015]本發(fā)明實施例提供的聲音分析方法及裝置，針對采用不同的壓縮算法以相同采樣率和比特率根據(jù)所采集的聲音信號，提取錄音無聲段并分別對其求改進(jìn)的MFCC參數(shù)，將不同波特率的音頻文件輸入Matlab中得到對應(yīng)的MFCC特征參數(shù)，再利用MFCC特征參數(shù)對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)分類語音特征信號，根據(jù)分類結(jié)果識別錄音設(shè)備，由于STM32以及Matlab等本發(fā)明所用的設(shè)備成本低廉，因此實現(xiàn)了以較低的成本提高音頻文件的來源設(shè)備識別的準(zhǔn)確率。
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0017]圖1為本發(fā)明實施例提供的聲音分析方法的流程圖；
[0018]圖2為執(zhí)行本發(fā)明實施例提供的聲音分析方法的具體裝置示意圖；
[0019]圖3為本發(fā)明實施例提供的無聲段提取方案的流程示意圖；
[0020]圖4為本發(fā)明實施例提供的改進(jìn)MFCC參數(shù)提取方案的流程示意圖；
[0021]圖5為本發(fā)明實施例提供的基于BP神經(jīng)網(wǎng)絡(luò)的語音特征信號分類算法的流程示意圖；
[0022]圖6為本發(fā)明實施例提供的錄音設(shè)備識別方案的流程示意圖；
[0023]圖7為本發(fā)明實施例提供的聲音分析裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0024]為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案，下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進(jìn)一步詳細(xì)描述。下文中將詳細(xì)描述本發(fā)明的實施方式，所述實施方式的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施方式是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。
[0025]本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件時，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。
[0026]本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣定義，不會用理想化或過于正式的含義來解釋。
[0027]本發(fā)明實施例提供一種聲音分析方法，如圖1所示，包括:
[0028]101，將采集的聲音信號，通過不同的壓縮算法以相同采樣率和比特率根據(jù)所采集的聲音信號得到分別對應(yīng)不同的壓縮算法的音頻文件。
[0029]在本實施例中，聲音分析方法的具體執(zhí)行流程可以基于如圖2所示架構(gòu)的裝置，具體選取STM32增強型系列F103VET6作為系統(tǒng)主控解決方案;存儲模塊包括CH376U盤存儲電路、SD卡存儲模塊;壓縮算法實現(xiàn)模塊包括MP3、AMR、AAC、WMA四種音頻壓縮算法模塊。協(xié)調(diào)語音錄放模塊、存儲模塊、TFT (Thin Film Transistor，是薄膜晶體管)觸摸屏模塊、壓縮算法實現(xiàn)模塊、串口等其他接口工作。語音錄放模塊包括ISD4004模塊、LM386功放電路、濾波偏置模塊。
[0030]當(dāng)裝置上電后，可錄取一段語音，按停止鍵結(jié)束錄音，并經(jīng)過不同的四種壓縮算法，然后將所錄的相同采樣率和比特率的四段語音存到U盤或SD卡中。其中，SD卡采用的microSD卡，米用SD10(Secure Digital Input and Output Card，安全數(shù)字輸入輸出卡)方式與STM32主控模塊相連，最大支持8G SD卡;U盤存儲模塊是以CH376T為核心，采用USBA型接口連接U盤，最大支持8G U盤。電源具體是5V電源適配器，3.3V電壓由AMSl117芯片提供。
[0031]102，從對應(yīng)不同的壓縮算法的音頻文件中提取無聲段，并根據(jù)所提取的無聲段得到語音特征信號。
[0032]具體可以在上位機上實現(xiàn)，首先提取無聲段，無聲段的提取流程如圖3所示。
[0033]在本實施例中，所述壓縮算法包括4中不同的壓縮算法，包括MP3、AMR、WMA和AAC。所述根據(jù)所提取的無聲段得到語音特征信號，具體包括:通過如圖4所示的求取改進(jìn)MFCC(Mel Frequency Cepstrum Coefficient,Mel頻率倒譜系數(shù))參數(shù)的流程，及針對每段無聲段，采用倒譜系數(shù)法提取500組24維語音特征信號。
[0034]103，利用所述語音特征信號作為訓(xùn)練數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)，并通過完成訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)分析測試信號，識別生成所述測試信號的錄音設(shè)備

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2