一種結(jié)合hpss的mfcc-多反復(fù)模型的音樂分離方法
【技術(shù)領(lǐng)域】:
[0001] 本發(fā)明設(shè)及音頻信號處理,具體為一種音樂信號中歌聲與背景音樂的分離問題。
【背景技術(shù)】
[0002] 提取音樂的背景樂曲與歌聲在音頻信號處理領(lǐng)域有著廣闊的應(yīng)用前景,如在歌手 檢索與歌曲檢索、旋律提取、樂器背景下的語音識別等,但是音頻分離也是一項(xiàng)極具挑戰(zhàn)性 的任務(wù)。在多音音樂分離問題上,人耳的聽覺系統(tǒng)有著不可思議的能力,人們可W很容易分 辨音樂中的歌聲與背景樂曲,甚至可W分辨出曲調(diào)中包含了哪些樂器,該些都是輕易的小 事,但對計(jì)算機(jī)而言卻面臨著重重困難。
[0003] 當(dāng)今音樂分離技術(shù)主要為統(tǒng)計(jì)技術(shù)和基于屯、理聲學(xué)的研究技術(shù)。統(tǒng)計(jì)技術(shù)在音 樂分離研究中主要采用的是非負(fù)矩陣分解(Nonnegative Matrix Decom-position,NMF) 方法和稀疏編碼。在基于屯、理聲學(xué)的研究中,運(yùn)用的是計(jì)算聽覺場景分析(Computational Auditcxry Scene Analysis, CASA)方法,從人耳聽覺系統(tǒng)的感知上出發(fā),著重于感知音樂信 號的各種特征。近年來,基于統(tǒng)計(jì)技術(shù)和CASA技術(shù)的音樂分離方法取得了很大成功。
[0004] 圖1所示為CASA過程基本流程圖。
[0005] CASA系統(tǒng)主要有兩種處理方式,一種稱作自下而上的信息處理方式,該種方式表 現(xiàn)為人耳的聽覺系統(tǒng)具有對聲音進(jìn)行分解、再重組能力。通常表現(xiàn)為通過對聲音數(shù)據(jù)的周 期性、相似性、連續(xù)性等特征分析,將聲音分量進(jìn)行分解并匯聚到不同的聽覺流中,最終再 將同一類聲音組合到一起,實(shí)現(xiàn)聲音的分離。另一種方式稱為自上而下的信息處理方式,它 表現(xiàn)為人耳的聽覺系統(tǒng)具有對未知聲源進(jìn)行學(xué)習(xí)與記憶的能力。在CASA系統(tǒng)中,通常表現(xiàn) 為利用聲音信號的先驗(yàn)信息,進(jìn)行機(jī)器學(xué)習(xí)與建立模型,最終實(shí)現(xiàn)對未知聲音的識別、分離 等功能。CASA雖然在長期的研究中取得了顯著的進(jìn)步,但是仍然面臨著一些挑戰(zhàn)。魯椿性 的基音估計(jì)、聽覺線索融合、高頻區(qū)域的語音分離、清音的分離等方面都面臨著重重困難。 而且真實(shí)音樂總是千變?nèi)f化,且多數(shù)情況下,對音樂的先驗(yàn)信息掌握并不足夠充分,因此針 對音樂的盲分離技術(shù)仍需要進(jìn)一步探索與研究。近年來,人們也不斷探索與研究音樂的其 它特征,文獻(xiàn)狂.Rafii, B. Pardo. Repeating pattern extraction technique (REPET) : A simple method for music/voice separation[J]. Audio, Speech, and Language Processing,IE邸Transactions on)對其進(jìn)行了研究,其中最具代表性的要屬反復(fù)性 (repeating)特征。音樂家Schenker認(rèn)為"反復(fù)是音樂作品中最小的結(jié)構(gòu)元素"化. Schenker. Harmony [M]. University of Qiicago Press, 1980),但是反復(fù)作為音樂的一個重 要屬性,近幾年才被運(yùn)用到分離方法中來。
[0006] 圖2所示為識別反復(fù)片段方法(RE陽T)示意圖。
[0007] 基于反復(fù)結(jié)構(gòu)的方法旨在將存在反復(fù)結(jié)構(gòu)的背景音樂與沒有反復(fù)結(jié)構(gòu)的歌聲分 離開來。其中屯、思想是用一個背景音樂的反復(fù)結(jié)構(gòu)模型識別出背景音樂的反復(fù)片段,最后 經(jīng)二元理想掩蔽(IBM)提取出背景音樂。
[000引與音樂的一些局部特征(如音調(diào)、泛音等)相比,反復(fù)是一個全局屬性,音樂時(shí)變 特性對其的影響要遠(yuǎn)小于其它特征,受干擾影響較小,并且在音樂分離中,反復(fù)結(jié)構(gòu)提取的 方法簡單。然而基于反復(fù)特征的分離方法才發(fā)展起來,針對不同的音源類型,采用反復(fù)結(jié)構(gòu) 進(jìn)行音樂分離的自適應(yīng)性仍然很差,需要更多的探索和研究。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明針對現(xiàn)有反復(fù)分離方法中存在的問題,利用音源類型的固有特性及梅爾倒 譜系數(shù)(MFCC)的全局特性,提出一種結(jié)合沖擊源分離方法HPSS的MFCC-多反復(fù)結(jié)構(gòu)的音 樂分離方法。該方法可W有效的對不同的音源進(jìn)行分析,再進(jìn)行歌聲與背景音樂分離,不但 分離效果好,運(yùn)行速度快,且具有很好的穩(wěn)定性。
[0010] 本發(fā)明解決上述問題的技術(shù)方案是,針對音源類型的固有特性及梅爾倒譜系數(shù) MFCC的全局特性,首先對要分離的音源類型利用諧波、采用沖擊源分離方法HPSS加W分 析,有效區(qū)分不同類型的音源信息,尤其是對一些節(jié)奏平緩的音源信息;在選用表征反復(fù)結(jié) 構(gòu)的特征中,除了用到能量信息外,還加入了音頻信號的MFCC特征進(jìn)行改進(jìn),MFCC的魯椿 性將更有效的保證了反復(fù)結(jié)構(gòu)提取的準(zhǔn)確性;針對于音樂的時(shí)變特性,采用相似性運(yùn)算,自 適應(yīng)地建立背景音樂的多反復(fù)結(jié)構(gòu)進(jìn)行音樂分離。
[OCm] -種基于HPSS的MFCC-多反復(fù)結(jié)構(gòu)音樂分離方法,其特征在于,包括W下步驟:
[0012] 在短時(shí)傅里葉變換STFT下進(jìn)行諧波分離,將背景音樂中的諧波源分離出來;提 取經(jīng)諧波分離后剩余的音樂信息中的MFCC特征參數(shù),對MFCC特征參數(shù)進(jìn)行相似運(yùn)算,得 到相似矩陣根據(jù)相似矩陣尋找相似片段;根據(jù)相似片段建立相應(yīng)帖的反復(fù)結(jié)構(gòu) 模型S (i,j),調(diào)用反復(fù)結(jié)構(gòu)模型進(jìn)行中值濾波計(jì)算相應(yīng)的反復(fù)結(jié)構(gòu)處的背景音樂;根據(jù)公 式;W(i,j) = min怯(i,j),V(i,j)},得到背景音樂的幅度譜W(i,j),根據(jù)幅度譜調(diào)用公式: = 建立掩蔽矩陣M(iJ);對掩蔽矩陣M(iJ)采用理想二元掩蔽,經(jīng)傅里葉 逆變換恢復(fù)出歌聲和背景音樂的時(shí)域波形,其中,V(i,j)為信號的幅度譜矩陣,j為帖數(shù),i 為頻率點(diǎn)。
[0013] 所述將背景音樂中的諧波源分離出來具體包括,根據(jù)公式:
【主權(quán)項(xiàng)】
1. 一種基于HPSS的MFCC-多反復(fù)結(jié)構(gòu)音樂分離方法,其特征在于,包括以下步驟: 在短時(shí)傅里葉變換STFT下進(jìn)行諧波分離,將背景音樂中的諧波源分離出來;提取經(jīng) 諧波分離后剩余的音樂信息中的MFCC特征參數(shù),對MFCC特征參數(shù)進(jìn)行相似運(yùn)算,得到相 似矩陣根據(jù)相似矩陣S_。尋找相似片段;根據(jù)相似片段建立相應(yīng)幀的反復(fù)結(jié)構(gòu)模型 5 (i,j),調(diào)用反復(fù)結(jié)構(gòu)模型進(jìn)行中值濾波計(jì)算相應(yīng)的反復(fù)結(jié)構(gòu)處的背景音樂;根據(jù)公式: W(i,j) =min{S(i,j),V(i,j)},得到背景音樂的幅度譜W(i,j),根據(jù)幅度譜調(diào)用公式:
建立掩蔽矩陣M(i,j);對掩蔽矩陣M(i,j)采用理想二元掩蔽,經(jīng)傅里葉 逆變換恢復(fù)出歌聲和背景音樂的時(shí)域波形,其中,V(i,j)為信號的幅度譜矩陣,j為幀數(shù),i為頻率點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將背景音樂中的諧波源分離出來具
體包括,根據(jù)公式 獲得掩蔽矩陣Mg對音樂信號的傅里葉變換Fhp HhJ,, 調(diào)用& =4 分離諧波源,獲得分離后諧波源的頻譜XH,其中,HhjPPh,^別為諧 波源和沖擊源的短時(shí)傅里葉變換。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對提取出的MFCC參 數(shù)矩陣進(jìn)行相似運(yùn)算,得到不同譜線數(shù)下MFCC系數(shù)間的相似矩陣為: 其中,i表示頻率點(diǎn),n為維數(shù),C(i,ja)、C(i,jb) 丨r=i
i=i 為第i幀、第九譜線和第i幀、第jb譜線下MFCC系數(shù)矩陣。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)公式
S用反復(fù)結(jié)構(gòu)模型將輸入信號的幅度譜上所對應(yīng)的 片段進(jìn)行中值濾波,其中,median表示中值濾波器,x表示片段數(shù)量,i表示頻率點(diǎn),j表示 幀數(shù),V(i,1(1))為頻率點(diǎn)i的第1個重復(fù)的片段的信號幅度譜。
5. 根據(jù)權(quán)利要求1-3其中之一所述的方法,其特征在于,所述尋找相似片段進(jìn)一步具 體包括:根據(jù)音樂片段長度限定反復(fù)結(jié)構(gòu)的最大長度、最小長度,根據(jù)反復(fù)片段的持續(xù)時(shí)間 和音樂時(shí)間確定門限值,根據(jù)相似矩陣確定片段之間的相似度,相似度大于門限值的兩個 片段為相似片段。
6. 根據(jù)權(quán)利要求1-3其中之一所述的方法,其特征在于,調(diào)用公式: 6 =廠1 {M(i,jO.F⑴丨,f!{〇-M(i,jrKT(.v)丨恢復(fù)出歌聲和背景音樂的時(shí)域波 形,其中,x為原始輸入音樂信號,6為背景樂曲的時(shí)域波形,9為歌聲的時(shí)域波形,,與^-1 分別代表傅里葉變換與反變換。 根據(jù)權(quán)利要求書1-3其中之一所述的方法,其特征在于,根據(jù)公式:
定MFCC特征參數(shù)CMrc。,根據(jù)公式:
立MFCC特征參數(shù)的相似矩陣確定不同譜線數(shù)下 MFCC系數(shù)間的相似度,其中,m(l)為信號通過濾波器的能量,L為濾波器組的數(shù)目,i表示 頻率點(diǎn),j表示幀數(shù),C(i,ja)為第i幀、第ja譜線下MFCC系數(shù)矩陣,C(i,jb)為第i幀、第jb 譜線下MFCC系數(shù)矩陣,n為MFCC的維數(shù)。
【專利摘要】本發(fā)明請求保護(hù)一種MFCC-多反復(fù)模型的音樂分離方法,涉及信號處理技術(shù)領(lǐng)域。考慮到平緩音源較易被忽略,及音樂的時(shí)變變化特性,本發(fā)明通過諧波、沖擊源分離方法(HPSS)對音源類型進(jìn)行分析,分離出諧波源,然后對剩下的音源提取MFCC特征參數(shù),并對其進(jìn)行相似運(yùn)算,構(gòu)建相似矩陣,以此建立一個適合曲調(diào)變換的音源的多反復(fù)結(jié)構(gòu)模型,從而得到掩蔽矩陣,最后通過理想二元掩蔽(IBM)和傅里葉逆變換得到歌聲及背景音樂的時(shí)域波形。該方法可以對不同類型的音源信號進(jìn)行有效分離,提高了分離的精度,同時(shí),該方法復(fù)雜度較低,處理速度快,穩(wěn)定性較高,在歌手檢索及歌曲檢索、旋律提取、樂器背景下的語音識別等領(lǐng)域?qū)⒕哂袕V泛的應(yīng)用前景。
【IPC分類】G10L21-028, G10L25-81
【公開號】CN104616663
【申請?zhí)枴緾N201510023609
【發(fā)明人】張?zhí)祢U, 徐昕, 張剛, 高超, 陽銳, 李 燦
【申請人】重慶郵電大學(xué)
【公開日】2015年5月13日
【申請日】2015年1月16日