專(zhuān)利名稱(chēng):基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,主要是一種不同自
然環(huán)境噪聲低信噪比條件下基于概率密度比的語(yǔ)音/音樂(lè)改變點(diǎn)檢測(cè)方法。
背景技術(shù):
壓縮域語(yǔ)音/音樂(lè)的分類(lèi)檢索、場(chǎng)景分類(lèi)等技術(shù)是指利用信號(hào)處理及統(tǒng)計(jì)理論方法,在 大量的壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)庫(kù)中搜索特定語(yǔ)音/音樂(lè)的技術(shù),而語(yǔ)音/音樂(lè)分割是實(shí)現(xiàn)分類(lèi)檢索 技術(shù)的關(guān)鍵問(wèn)題之一,特別是在自然環(huán)境噪聲低信噪比條件下的處理。
以往常用的語(yǔ)音/音樂(lè)分割方法,大部分都是在非壓縮域中迸行的,直接針對(duì)壓縮域語(yǔ) 音/音樂(lè)分割的問(wèn)題涉及很少,特別是在低信噪比條件下的研究則更少。但是考慮到大部分的 壓縮域語(yǔ)音/音樂(lè)并不能都能在標(biāo)準(zhǔn)錄音棚中完成,有的甚至來(lái)自嘈雜的現(xiàn)實(shí)環(huán)境中,因此針 對(duì)自然環(huán)境噪聲低信噪比條件下壓縮域語(yǔ)音/音樂(lè)分割的研究顯得尤為重要。壓縮域語(yǔ)音/音 樂(lè)數(shù)據(jù)來(lái)自于原始語(yǔ)音/音樂(lè)編碼后的二進(jìn)制碼流,但是僅從這些數(shù)據(jù)流并不能直接體現(xiàn)原始 語(yǔ)音/音樂(lè)的重要特性。因此,壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割首先要考慮的是特征提取的數(shù)據(jù)源 問(wèn)題,即如何對(duì)壓縮數(shù)據(jù)進(jìn)行處理,以最小的計(jì)算代價(jià)來(lái)提取有效的特征參數(shù)以滿足壓縮語(yǔ) 音/音樂(lè)數(shù)據(jù)的處理要求。理論分析及實(shí)驗(yàn)結(jié)果證明通過(guò)對(duì)壓縮數(shù)據(jù)部分解碼,即可獲得與原 始語(yǔ)音/音樂(lè)譜特性相似的數(shù)據(jù),基于該數(shù)據(jù)提取的壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)特征可以體現(xiàn)語(yǔ)音 與音樂(lè)的顯著區(qū)別,并可用于進(jìn)一步的分割與分類(lèi)。本發(fā)明基于概率密度比的壓縮域高魯棒 語(yǔ)音Z音樂(lè)分割方法正是采用上述的思想,從基于MPEG1標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)的壓縮域語(yǔ) 音/音樂(lè)數(shù)據(jù)中提取新的特征參數(shù)壓縮域概率密度比(Compressed probability density ratio ,CPR)、以及壓縮域概率密度比過(guò)零率(Compressed probability density ratio crossing rate , CPRCR),然后在壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)中檢測(cè)語(yǔ)音與音樂(lè)的改變點(diǎn),最后由 此改變點(diǎn)得到分割結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)己有技術(shù)中存在的缺陷,提供一種基于概率密度比的壓縮域高魯 棒語(yǔ)音/音樂(lè)分割方法,解決壓縮域中不同自然環(huán)境噪聲低信噪比條件下語(yǔ)音/音樂(lè)改變點(diǎn)檢 測(cè)問(wèn)題,可進(jìn)一步用于壓縮域語(yǔ)音/音樂(lè)識(shí)別、語(yǔ)音/音樂(lè)分類(lèi)檢索,語(yǔ)音/音樂(lè)場(chǎng)景分類(lèi)等。
為達(dá)到上述目的,本發(fā)明的構(gòu)思是
本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法首先具有很好的抗噪性能,能
6夠在不同自然環(huán)境噪聲低信噪比條件下實(shí)現(xiàn)壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割,其信噪比可低至5dB。 這為壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的進(jìn)一步處理,如分類(lèi)與檢索、識(shí)別,場(chǎng)景檢測(cè)等提供了很好的基 礎(chǔ)。
本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法的目的在于提供一種不同自 然環(huán)境噪聲低信噪比條件下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的分割方法,從壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)中直 接提取語(yǔ)音/音樂(lè)特征參數(shù),通過(guò)語(yǔ)音/音樂(lè)數(shù)據(jù)的改變點(diǎn)檢測(cè)將壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割成 不同類(lèi)別的語(yǔ)音/音樂(lè)段,進(jìn)而將分割結(jié)果用于壓縮域語(yǔ)音/音樂(lè)的分類(lèi)及檢索等。
本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法解決其技術(shù)問(wèn)題采用的技術(shù) 方案為先從不同自然環(huán)境噪聲低信噪比條件下的壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)中提取特征參數(shù),再 對(duì)該數(shù)據(jù)進(jìn)行語(yǔ)音/音樂(lè)改變點(diǎn)檢測(cè),最后由此改變點(diǎn)得到分割結(jié)果。
根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案-
一種基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在于首先從基于
MPEG1標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)的MP3 (MPEGl-layer3)文件中得到能體現(xiàn)原始語(yǔ)音/音樂(lè) 頻域特性的數(shù)據(jù),其次對(duì)這些數(shù)據(jù)提取新的壓縮域概率密度比特征參數(shù)(Compressed probability density ratio , CPR),然后基于此參數(shù)得到能夠體現(xiàn)語(yǔ)音與音樂(lè)不同特性的壓 縮域概率密度比過(guò)零率特征參數(shù)(Compressed probability density ratio crossing rate,CPRCR),最后在壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)中檢測(cè)語(yǔ)音與音樂(lè)的改變點(diǎn),由此改變點(diǎn)最終得 到分割后的語(yǔ)音、音樂(lè)段。
該方法具體包括如下五個(gè)步驟
1) 、壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的預(yù)處理包括壓縮域語(yǔ)音音樂(lè)混合數(shù)據(jù)的獲取、對(duì)解碼幀頭 及邊信息的讀取,主數(shù)據(jù)的讀取,哈夫曼解碼和量化;
2) 、生成修正離散余弦變換MDCT矩陣找出每一子帶中的MDCT系數(shù),對(duì)子帶中的系 數(shù)進(jìn)行排列,形成矩陣;
3) 、壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)特征參數(shù)的提取包括壓縮域概率密度比以及壓縮域概率密度 比過(guò)零率特征參數(shù)的求?。?br>
4) 、語(yǔ)音與音樂(lè)的改變點(diǎn)檢測(cè)基于步驟(3)中提取的特征參數(shù)進(jìn)行語(yǔ)音/音樂(lè)的分割點(diǎn)檢5)、不同自然環(huán)境噪聲低信噪比條件下的語(yǔ)音與音樂(lè)的改變點(diǎn)檢測(cè),輸出自然環(huán)境噪聲低 信噪比條件下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割點(diǎn),得到分割后的語(yǔ)音、音樂(lè)段。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見(jiàn)的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)本發(fā)明直
接從壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)中提取能有效體現(xiàn)語(yǔ)音/音樂(lè)顯著區(qū)別的特征參數(shù),它相對(duì)于將壓
縮數(shù)據(jù)全解壓后再提取特征的方法,既簡(jiǎn)單又節(jié)省計(jì)算時(shí)間;利用壓縮域概率密度比過(guò)零率
特征參數(shù)能有效地將語(yǔ)音/音樂(lè)分割點(diǎn)找出,并且該方法對(duì)于不同環(huán)境噪聲,如汽車(chē)噪聲、火
車(chē)噪聲及人群吵雜聲等,也具有很好的分割效果。實(shí)驗(yàn)結(jié)果表明,采用本發(fā)明得分割方法比
傳統(tǒng)分割方法,在準(zhǔn)確率、抗噪性和綜合性能方面均有顯著提高。
圖1是本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法的流程圖。
具體實(shí)施例方式
本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法的一個(gè)優(yōu)選實(shí)施例結(jié)合附圖 說(shuō)明如下本基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,共分五步
第一步壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的預(yù)處理
壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的處理分為幀頭信息的讀取,邊信息的讀取,主數(shù)據(jù)的讀取,哈 夫曼解碼和量化。
1) 、壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù)的獲取
A) 、從音頻噪音庫(kù)中獲取一段壓縮域白噪聲;
B) 、從語(yǔ)音/音樂(lè)庫(kù)獲取純凈的壓縮域語(yǔ)音和音樂(lè)樣本;
C) 、獲取信噪比為5dB的壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù);
2) 、幀頭信息的讀取
A) 、讀取幀中的同步信息;
B) 、根據(jù)同步信息,使解碼器與數(shù)據(jù)流同步;
C) 、確定該幀數(shù)據(jù)的起始位置,同時(shí)得到其幀頭信息力eac/;
3) 、邊信息的讀取
A) 、確定該幀數(shù)據(jù)的邊信息起始位置,即其幀頭結(jié)束的地方;
B) 、得到該幀的邊信息數(shù)據(jù)57A;4)、主數(shù)據(jù)的讀取
A) 、根據(jù)邊信息計(jì)算主數(shù)據(jù)的長(zhǎng)度船J'/7c/ata-,
B) 、讀取該幀的主數(shù)據(jù),其數(shù)據(jù)長(zhǎng)度即為i&眾血ts;
C) 、從主數(shù)據(jù)信息中得到縮放英子5ba/e; 5)、哈夫曼解碼和反量化
A) 、根據(jù)邊信息^YA確定主數(shù)據(jù)中哈夫曼數(shù)據(jù)的起始位置;
B) 、對(duì)哈夫曼數(shù)據(jù)進(jìn)行解碼,得到32*18維的哈夫曼解碼數(shù)組is;
C) 、對(duì)數(shù)組A中的數(shù)據(jù)進(jìn)行反量化。
第二步生成修正離散余弦變換MDCT矩陣
每個(gè)顆粒的數(shù)據(jù)由32個(gè)子帶構(gòu)成且每一子帶含有18個(gè)系數(shù),根據(jù)頻率由低到高分布的 原則,每一顆??尚纬梢粋€(gè)32xl8的矩陣。該過(guò)程如下.-
1) 、找出每一子帶系數(shù)
A) 、根據(jù)哈夫曼解碼數(shù)組i5得到每一子帶的32個(gè)MDCT系數(shù);
B) 、從每一子帶的每個(gè)MDCT系數(shù)中得到18個(gè)子帶系數(shù);
C) 、按頻率高低原則重新排列每一子帶中的系數(shù),得到一組新的子帶系數(shù)數(shù)組5";
2) 、形成矩陣
A) 、根據(jù)子帶系數(shù)數(shù)組5"的行向量,依子帶序號(hào)組合得到32xl8維的子帶序號(hào)數(shù)組M;
B) 、依照上述原則,分別得到該幀數(shù)據(jù)中兩個(gè)顆粒的MDCT系數(shù)矩陣數(shù)組M/^7M2。 第三步壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)特征參數(shù)的提取
所提取的壓縮域特征包括概率密度比參數(shù)C/^和概率密度比過(guò)零率C尸i Ci 參數(shù)。 1)、求取壓縮域概率密度比CPR特征參數(shù)
A) 、基于統(tǒng)計(jì)學(xué)中貝葉斯準(zhǔn)則; 設(shè)定兩種假設(shè)
H。Z^W 純?cè)肼曉?br>
= W + S語(yǔ)音/音樂(lè)+噪聲音頻
其中H,就是壓縮語(yǔ)音+音樂(lè)+噪聲混合輸入,F(xiàn)。為純?cè)肼暷P汀?br>
B) 、構(gòu)造噪聲模型;假設(shè)//。為壓縮域白噪聲模型,按照權(quán)利要求3、 4的方法,形成白噪聲的MDCT矩陣,
此處的構(gòu)造白噪聲相對(duì)于壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)必須為高信噪比環(huán)境。 C)、計(jì)算概率密度比貝葉斯準(zhǔn)則模型;
<formula>formula see original document page 10</formula>
其中£表示每一幀壓縮音頻MDCT系數(shù)的個(gè)數(shù),《是參數(shù)的計(jì)數(shù)器;Z《表示每一幀混合 壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的第〖個(gè)MDCT數(shù)據(jù),A(幻、4(K)分別表示音頻與噪聲的方差, 可從噪聲模型中估計(jì)得出,^(/Q可基于輸入信號(hào)模型由下式得出-
<formula>formula see original document page 10</formula>
其中尸(義)- ,—,"是權(quán)重系數(shù),本發(fā)明中取"=0"8,
0 C r/ e;^
D)基于概率密度比貝葉斯準(zhǔn)則模型計(jì)算概率密度比CPR;
<formula>formula see original document page 10</formula>
2)、求取壓縮域概率密度比過(guò)零率CPRCR參數(shù) A)、計(jì)算閾值;
計(jì)算每半秒的壓縮域概率密度比閾值,為了充分體現(xiàn)語(yǔ)音與音樂(lè)的顯著細(xì)節(jié)特性,選取 772兩個(gè)閾值,其中7; -0^均值,712 =0^均值*3,即
<formula>formula see original document page 10</formula>
其中CiW[/]為每一幀的概率密度比,W為半秒的幀數(shù)。
B)、計(jì)算過(guò)零率C/WcH , C7^ "2 ;<formula>formula see original document page 11</formula>[C尸^ (> -1) - T2
得到此段數(shù)據(jù)的= C/>U + CPi cT2 ;其中5卵是符號(hào)函數(shù),C7^"0)表示第《個(gè)半秒 第w個(gè)C/V 參數(shù)。
C)、計(jì)算每半秒最終的壓縮域概率密度比過(guò)零率CPRCR;
OT Ci 二 C尸i O / CPi cr max
其中 '"、 ;上述過(guò)程是對(duì)C/^"的歸一化處理。
第四步壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的改變點(diǎn)檢測(cè)
為保證壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割的連續(xù)性以及防止誤判,本發(fā)明要求每段分割的語(yǔ)音
或音樂(lè)長(zhǎng)度必須大于一秒,需要連續(xù)M(1^2)個(gè)CPRCR參數(shù)大于或小于閾值r才能作為有效 CPRCR分割點(diǎn)。
1) 、如步驟3中所述,計(jì)算每一幀壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的壓縮域概率密度比參數(shù),然后基 于此特征參數(shù)得到每半秒的壓縮域概率密度比過(guò)零率CPRCR參數(shù);
2) 、修正CPRCR;
我們將不滿足連續(xù)M個(gè)參數(shù)值大于或小于r(ri. 5)但卻出現(xiàn)大于或小于闞值的參數(shù)點(diǎn)稱(chēng) 為奇異點(diǎn)。找出所有的奇異點(diǎn)并對(duì)之進(jìn)行處理,即根據(jù)奇異點(diǎn)前后的數(shù)據(jù)代替當(dāng)前點(diǎn)-
a^o D'] = * (cm7邵—i〗+c尸織[/+1]) 在進(jìn)行分割之前,找出所有的奇異點(diǎn)能夠保證分割的有效性,減少誤判概率。
3) 、閾值比較;
C7^CW閾值比較,設(shè)置閾值《=0'5。
4) 、分割點(diǎn)檢測(cè);
鑒于語(yǔ)音音樂(lè)的概率密度比特性,語(yǔ)音的小概率密度比序列的數(shù)量遠(yuǎn)比音樂(lè)的多,由此
可知,語(yǔ)音的c/^ci 遠(yuǎn)比音樂(lè)的cp; a 小。所以比《小的段檢測(cè)為語(yǔ)音,比《大的段檢測(cè)
為音樂(lè);5)、輸出壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn)。 第五步不同自然環(huán)境噪聲低信噪比條件下壓縮域語(yǔ)音/音樂(lè)改變點(diǎn)檢測(cè) 1)、不同自然環(huán)境噪聲下壓縮域語(yǔ)音音樂(lè)混合數(shù)據(jù)的獲取;
A) 、從音頻庫(kù)中獲取作為自然環(huán)境噪聲的火車(chē)聲、汽車(chē)聲;
B) 、從語(yǔ)音/音樂(lè)庫(kù)獲取純凈的壓縮域語(yǔ)音和音樂(lè)樣本;
C) 、基于自然環(huán)境噪聲,獲取信噪比為5dB的壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù);
2)、重復(fù)第一步中2)到第四步結(jié)束,輸出對(duì)應(yīng)自然環(huán)境噪聲下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的 分割點(diǎn)。
本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法使用省級(jí)電視臺(tái)新聞播報(bào)語(yǔ) 音庫(kù)、"班得瑞"專(zhuān)輯音樂(lè)庫(kù)以及來(lái)源于sounddogs網(wǎng)站的自然環(huán)境噪聲庫(kù)(如汽車(chē)噪聲、火 車(chē)噪聲和人群吵雜聲等)。壓縮域語(yǔ)音/音樂(lè)資料的格式為MP3,采樣頻率為44.1KHz,總計(jì) 時(shí)間約為270分鐘(3分鐘*92個(gè)壓縮域混合語(yǔ)音/音樂(lè)數(shù)據(jù)段)。
我們對(duì)以上壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)資料用傳統(tǒng)BIC分割檢測(cè)方法和本發(fā)明基于概率密度 比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法分別進(jìn)行實(shí)驗(yàn),測(cè)試精度以語(yǔ)音/音樂(lè)數(shù)據(jù)分割點(diǎn)的判 斷準(zhǔn)確率來(lái)評(píng)估。分割點(diǎn)的判斷準(zhǔn)確率定義為已檢測(cè)出的判斷正確的分割點(diǎn)數(shù)占所有待檢 測(cè)分割點(diǎn)數(shù)的百分比,其計(jì)算公式如下.-
式中^"M表示原來(lái)為語(yǔ)音而被誤判為音樂(lè)的點(diǎn)數(shù);"w爿表示原來(lái)為音樂(lè)而被誤判為
語(yǔ)音的點(diǎn)數(shù),w表示待處理樣本中所有c^ cw點(diǎn)數(shù)。
分割點(diǎn)的判斷準(zhǔn)確率體現(xiàn)了檢測(cè)出的語(yǔ)音/音樂(lè)分割點(diǎn)中,正確的分割點(diǎn)在所有待檢測(cè)點(diǎn) 中所占有的比率,表征了檢測(cè)結(jié)果的正確性。
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)表明傳統(tǒng)的BIC檢測(cè)方法對(duì)白噪聲環(huán)境下信噪比為5dB時(shí)的壓縮 域語(yǔ)咅/音樂(lè)數(shù)據(jù)的分割點(diǎn)檢測(cè)準(zhǔn)確率僅達(dá)到30.56%,而在自然噪聲環(huán)境下其檢測(cè)準(zhǔn)確率則 更低,如火車(chē)噪聲環(huán)境下信噪比為5dB時(shí)的壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn)檢測(cè)準(zhǔn)確率僅為
實(shí)驗(yàn)結(jié)果
1225.27%,汽車(chē)噪聲環(huán)境下信噪比為5dB時(shí)的壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn)檢測(cè)準(zhǔn)確率僅為 22.15%,這遠(yuǎn)遠(yuǎn)不能滿足正常的分割需求,可以認(rèn)為是不能有效地進(jìn)行壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù) 的分割;使用本發(fā)明基于概率密度比的壓縮域卨魯棒語(yǔ)音/音樂(lè)分割方法,在白噪聲環(huán)境下信 噪比為5dB時(shí)的壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割點(diǎn)檢測(cè)的準(zhǔn)確率達(dá)到82.25%,在自然噪聲環(huán)境下 也能實(shí)現(xiàn)良好的分割效果,如火車(chē)噪聲環(huán)境下信噪比為5dB時(shí)壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割點(diǎn)的 檢測(cè)準(zhǔn)確率達(dá)到81.09%,汽車(chē)噪聲環(huán)境下信噪比為5dB時(shí)壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)分割點(diǎn)的檢 測(cè)準(zhǔn)確率達(dá)到78. 21%。
由此可見(jiàn),本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,可以對(duì)不同自然 環(huán)境噪聲低信噪比條件下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)進(jìn)行有效的語(yǔ)音/音樂(lè)分割點(diǎn)檢測(cè),從而解決 了壓縮域中不同自然環(huán)境噪聲低信噪比條件下語(yǔ)音/音樂(lè)改變點(diǎn)檢測(cè)問(wèn)題,該發(fā)明可進(jìn)一步用 于壓縮域語(yǔ)音/音樂(lè)識(shí)別、語(yǔ)音/音樂(lè)分類(lèi)檢索,音頻場(chǎng)景分析等多種應(yīng)用場(chǎng)合。
權(quán)利要求
1、一種基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在于首先從低信噪比壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù)中提取能夠體現(xiàn)語(yǔ)音與音樂(lè)不同特性的基于概率密度比的新特征參數(shù)壓縮域概率密度比和壓縮域概率密度比過(guò)零率;然后基于此新特征參數(shù)對(duì)壓縮域語(yǔ)音和音樂(lè)進(jìn)行改變點(diǎn)檢測(cè);最后由此進(jìn)行分割,分別得到分割點(diǎn)后的語(yǔ)音、音樂(lè)段。
2、 根據(jù)權(quán)利要求1所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征 在于具體操作步驟如下[1) 、壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的預(yù)處理包括壓縮域語(yǔ)音音樂(lè)混合數(shù)據(jù)的獲取、對(duì)解碼幀頭及 邊信息的讀取,主數(shù)據(jù)的讀取,哈夫曼解碼和量化;[2) 、生成修正離散余弦變換MDCT矩陣找出每一子帶中的MDCT系數(shù),對(duì)子帶中的系 數(shù)進(jìn)行排列,形成矩陣;[3) 、壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)特征參數(shù)的提取包括壓縮域概率密度比以及壓縮域概率密度 比過(guò)零率特征參數(shù)的求??;[4) 、語(yǔ)音與音樂(lè)的改變點(diǎn)檢測(cè)基于步驟(3)中提取的特征參數(shù)進(jìn)行語(yǔ)音/音樂(lè)的分割點(diǎn)檢測(cè);[5) 、不同自然環(huán)境噪聲低信噪比條件下的語(yǔ)音與音樂(lè)的改變點(diǎn)檢測(cè),輸出自然環(huán)境噪聲低 信噪比條件下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn),得到分割后的語(yǔ)音、音樂(lè)段。
3、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在 于所述步驟1)的壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的預(yù)處理具體步驟是① 、壓縮域語(yǔ)音音樂(lè)混合數(shù)據(jù)的獲取A) 、從音頻噪音庫(kù)中獲取一段壓縮域白噪聲B) 、從語(yǔ)音/音樂(lè)庫(kù)獲取純凈的壓縮域語(yǔ)音和音樂(lè)樣本;C) 、獲取信噪比為5dB的壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù);② 、幀頭信息的讀取A) 、讀取幀中的同步信息;B) 、根據(jù)同步信息,使解碼器與數(shù)據(jù)流同步;C) 、確定該幀數(shù)據(jù)的起始位置,同時(shí)得到其幀頭信息力朋d③ 、邊信息的讀取A) 、確定該幀數(shù)據(jù)的邊信息起始位置,即其幀頭結(jié)束的地方;B) 、得到該幀的邊信息數(shù)據(jù) 、主數(shù)據(jù)的讀取A) 、根據(jù)邊信息計(jì)算主數(shù)據(jù)的長(zhǎng)度ifei'/7c/ata;B) 、讀取該幀的主數(shù)據(jù),其數(shù)據(jù)長(zhǎng)度即為ifei/7血ta;C) 、從主數(shù)據(jù)信息中得到縮放英子&a7e; ⑤、哈夫曼解碼和反量化A) 、根據(jù)邊信息5^/e確定主數(shù)據(jù)中哈夫曼數(shù)據(jù)的起始位置;B) 、對(duì)哈夫曼數(shù)據(jù)進(jìn)行解碼,得到32*18維的哈夫曼解碼數(shù)組is;C) 、對(duì)數(shù)組is中的數(shù)據(jù)進(jìn)行反量化。
4、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在 于所述步驟2)的生成修正離散余弦變換MDCT矩陣具體步驟是① 、找出每一子帶系數(shù)A) 、根據(jù)哈夫曼解碼數(shù)組化得到每一子帶的32個(gè)MDCT系數(shù);B) 、從每一子帶的每個(gè)MDCT系數(shù)中得到18個(gè)子帶系數(shù);C) 、按頻率高低原則重新排列每一子帶中的系數(shù),得到一組新的子帶系數(shù)數(shù)組&② 、形成矩陣A) 、根據(jù)子帶系數(shù)數(shù)組5"的行向量,依子帶序號(hào)組合得到32xl8維的子帶序號(hào)數(shù)組M;B) 、依照上述原則,分別得到該幀數(shù)據(jù)中兩個(gè)顆粒的MDCT系數(shù)矩陣數(shù)組M/^/A/2。
5、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在 于所述步驟3)壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)特征參數(shù)的提取的具體步驟是①、求取壓縮域概率密度比CPR特征參數(shù)A) 、基于統(tǒng)計(jì)學(xué)中貝葉斯準(zhǔn)則,設(shè)定兩種假設(shè)/f。,/f,:F。Z = JV 純?cè)肼曉?/,:Z-AT + S語(yǔ)音/音樂(lè)+噪聲音頻其中H,就是MP3語(yǔ)音+音樂(lè)+噪聲輸入,//。為純?cè)肼暷P?;B) 、構(gòu)造噪聲模型,假設(shè)/7。為壓縮域白噪聲模型,按照步驟2)中具體步驟②的方法,形成白噪聲的MDCT矩陣,此處的構(gòu)造白噪聲相對(duì)于壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)必須為高信噪比環(huán)境;C) 、計(jì)算概率密度比貝葉斯準(zhǔn)則模型<formula>formula see original document page 3</formula>其中z表示每一幀壓縮音頻mdct系數(shù)的個(gè)數(shù),at是參數(shù)的計(jì)數(shù)器;z《表示每一幀混合壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的第《個(gè)mdct數(shù)據(jù),;lz(x) 、 ;^(/o分別表示音頻與噪聲的方差,可從噪聲模型中估計(jì)得出,Az(尺)可基于輸入信號(hào)模型由下式得出<formula>formula see original document page 4</formula>其中戶(hù)(義):=<[義義》0,"是權(quán)重系數(shù),取^ = 0.98。 D)基于貝葉斯準(zhǔn)則模型計(jì)算壓縮域概率密度比cpr厶a>1②、求取壓縮域概率密度比過(guò)零率CPRCR參數(shù) A)、計(jì)算閨值計(jì)算每半秒的壓縮域概率密度比閾值,為了充分體現(xiàn)語(yǔ)音與音樂(lè)的顯著細(xì)節(jié)特性,選取772兩個(gè)閾值,其中?;=<:戶(hù)/ 均值,72 =<:尸及均值*3,即<formula>formula see original document page 4</formula>其中cr; [/]為每一幀的概率密度比,v為半秒的幀數(shù);B) 、計(jì)算過(guò)零率C尸及cK,CT及"2<formula>formula see original document page 4</formula> 得到此段數(shù)據(jù)的C尸及c" = Ci^crl + C^"2 ;其中是符號(hào)函數(shù),C尸A (w)表示第"個(gè)半秒第w個(gè)cp/ 參數(shù);C) 、計(jì)算每半秒最終的概率密度比過(guò)零率CPRCRC尸i O = C尸i C/ / max其中 '" ;上述過(guò)程是對(duì)C^ "的歸一化處理。
6、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在 于所述步驟4)語(yǔ)音/音樂(lè)的改變點(diǎn)檢測(cè)具體步驟是① 、按所述步驟3)計(jì)算每一幀數(shù)據(jù)的壓縮域概率密度比參數(shù),然后基于此特征參數(shù)得到 每半秒的壓縮域概率密度比過(guò)零率CPRCR特征參數(shù);② 、修正CPRCR將不滿足連續(xù)M個(gè)參數(shù)值大于或小于r,r=0. 5,但卻出現(xiàn)大于或小于閾值的參數(shù)點(diǎn)稱(chēng)為奇 異點(diǎn),找出所有的奇異點(diǎn)并對(duì)之進(jìn)行處理,即根據(jù)奇異點(diǎn)前后的數(shù)據(jù)代替當(dāng)前點(diǎn)C尸/JO [/] = * (C尸i C7 [/ 一 1] + C尸i C鄧+1])在進(jìn)行分割之前,找出所有的奇異點(diǎn)能夠保證分割的有效性,減少誤判概率;③ 、閾值比較CP/ Ci 閾值比較,設(shè)置閾值《=0-5。
、分割點(diǎn)檢測(cè)鑒于語(yǔ)音音樂(lè)的概率密度比特性,語(yǔ)音的小概率密度比序列的數(shù)量遠(yuǎn)比音樂(lè)的多,由此可知,語(yǔ)音的c尸i o 遠(yuǎn)比音樂(lè)的cpi a 小。所以比《小的段檢測(cè)為語(yǔ)音改變點(diǎn),比《大的段檢測(cè)為音樂(lè)改變點(diǎn);5)、輸出壓縮語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn)。
7、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法,其特征在 于所述步驟5)的不同自然環(huán)境噪聲低信噪比條件下語(yǔ)音/音樂(lè)改變點(diǎn)檢測(cè)的具體步驟是①、不同自然環(huán)境噪聲下壓縮域語(yǔ)音音樂(lè)混合數(shù)據(jù)的獲取 A)、從音頻庫(kù)中獲取作為自然環(huán)境噪聲的火車(chē)聲、汽車(chē)聲; B)、從語(yǔ)音/音樂(lè)庫(kù)獲取純凈的壓縮域語(yǔ)音和音樂(lè)樣本; C)、基于自然環(huán)境噪聲,獲取信噪比為5dB的壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù); ②、按照權(quán)利要求3-6步驟處理此壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù),輸出自然環(huán)境噪聲低信 噪比條件下壓縮域語(yǔ)音/音樂(lè)數(shù)據(jù)的分割點(diǎn),從而得到分割后的語(yǔ)音、音樂(lè)段。
全文摘要
本發(fā)明涉及一種基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法。本方法首先從低信噪比壓縮域語(yǔ)音/音樂(lè)混合數(shù)據(jù)中提取基于概率密度比的新特征參數(shù),然后基于此新特征參數(shù)對(duì)壓縮域語(yǔ)音和音樂(lè)進(jìn)行改變點(diǎn)檢測(cè),最后由此進(jìn)行分割,分別得到分割后的語(yǔ)音、音樂(lè)段。實(shí)驗(yàn)結(jié)果表明,采用本發(fā)明基于概率密度比的壓縮域高魯棒語(yǔ)音/音樂(lè)分割方法得到的語(yǔ)音/音樂(lè)分割方法比傳統(tǒng)的分割方法,在其準(zhǔn)確率、抗噪性和綜合性能方面均有顯著提高。
文檔編號(hào)G10L11/00GK101667423SQ20091019651
公開(kāi)日2010年3月10日 申請(qǐng)日期2009年9月25日 優(yōu)先權(quán)日2009年9月25日
發(fā)明者萬(wàn)旺根, 余小清, 李昌蓮, 許雪瓊 申請(qǐng)人:上海大學(xué)