專利名稱:一種音樂片段的伸縮抗性區(qū)間的計算方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種音樂片段的伸縮抗性區(qū)間的計算方法,屬于音頻處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著21世紀(jì)互聯(lián)網(wǎng)融入千家萬戶、各行各業(yè),同時數(shù)字音樂產(chǎn)業(yè)快速增長和發(fā)展,人們通過互聯(lián)網(wǎng)來獲取音樂,享受音樂,甚至創(chuàng)作音樂的需求也日益增加。音樂重構(gòu)就是一種允許用戶將一個音樂片段延展或縮短到指定的時間長度的技術(shù),它增強了音樂在不同場景下使用的靈活性,例如為不同時長的影片做背景音樂。而目前的音樂重構(gòu)技術(shù)(包括申請?zhí)枮?01010570241. I和201010570222. 9的發(fā)明專利)只關(guān)心如何進(jìn)行重構(gòu),而不關(guān)心音樂片段伸縮尺度的限制,即音樂伸縮抗性。音樂伸縮抗性是指在滿足人聽覺感受的自 然、流暢性前提下,對音樂片段進(jìn)行時域伸縮的最大延展率α_和最小縮短率amin。這種特性表征了音樂片段的可伸縮尺度范圍,是音樂自身結(jié)構(gòu)以及人對音樂的感知之間的重要 聯(lián)系,在音樂重構(gòu)、音樂心理學(xué)、語音感知等研究領(lǐng)域都有重要的參考價值,而目前與之直接相關(guān)的研究成果很少。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種音樂片段的伸縮抗性區(qū)間的計算方法,通過設(shè)計一種伸縮抗性類別的非均勻劃分方式,將伸縮抗性離散化表示,然后再提取音樂片段的內(nèi)容特征,利用分類模型來解決伸縮抗性的計算問題。最后,利用機(jī)器學(xué)習(xí)技術(shù)和音樂風(fēng)格信息對計算方法進(jìn)行優(yōu)化,從而實現(xiàn)音樂伸縮抗性計算的目標(biāo)。本發(fā)明提出的音樂片段的伸縮抗性區(qū)間的計算方法,包括以下步驟(I)選擇多個不同風(fēng)格的音樂片段,由多人進(jìn)行試聽實驗,根據(jù)個人聽覺的舒適度確定每個音樂片段的伸縮抗性值,根據(jù)多個音樂片段的伸縮抗性值建立一個音樂伸縮抗性數(shù)據(jù)集,進(jìn)而得到音樂伸縮抗性數(shù)據(jù)集中伸縮抗性分布直方圖H,其中橫坐標(biāo)為伸縮抗性值,從O. 00到2. 00,縱坐標(biāo)為伸縮抗性值出現(xiàn)的頻數(shù);(2)對上述分布直方圖H進(jìn)行等面積切分,將伸縮抗性值中的最大延展率α _和最小縮短率amin各劃分為1*個子區(qū)間,將每個子區(qū)間定義為一個伸縮抗性類別,得到伸縮抗性類別的集合L,具體過程如下(2-1)令m為音樂伸縮抗性數(shù)據(jù)集中音樂片段總數(shù),則每個伸縮抗性類別含有的音樂片段數(shù)為令抗性類別集合L為空,設(shè)判斷邊界值W=L 00,初始化伸縮抗性區(qū)間的下界 R1qw=O. 00,上界 Rup = w ;(2-2)對伸縮抗性區(qū)間的下界Rlw進(jìn)行判斷,若Rlw彡W,則得到伸縮抗性類別的集合L,若R1ot〈w且R1ot ^ Rup,則停止當(dāng)前計算直到得到伸縮抗性類別的集合L,若R1ot〈w且Rlmt〈Rup,從上述分布直方圖H的伸縮抗性區(qū)間[Rlmt,Rup)中找到頻數(shù)最高的伸縮抗性值ax,并從分布直方圖H得到相應(yīng)的出現(xiàn)頻數(shù)Fx ;(2-3)對上述出現(xiàn)頻數(shù)Fx進(jìn)行判斷,若Fx〈mavg,則進(jìn)行步驟(2_4),若Fx彡mavg,則使抗性類別集合L=L U {〈αχ,αχ+δ>},其中δ為不同伸縮抗性值之間的最小距離,即分布直方圖H中橫坐標(biāo)相鄰刻度的距離,U表示對集合求并集的操作;然后同時分別執(zhí)行兩步,其一是令伸縮抗性區(qū)間的下界Rltw保持不變,伸縮抗性區(qū)間的上界Rup= αχ-δ,再重復(fù)步驟(2-2),其二是令伸縮抗性區(qū)間的上界Rup保持不變,伸縮抗性區(qū)間的下界Rlmt=Ci χ+ δ,再重復(fù)步驟(2-2);直到上述步驟(2-2)中,Rlow≥W,得到伸縮抗性類別的集合L,或R1ot〈w且Rlow ^ Rup,停止當(dāng)前計算直到得到伸縮抗性類別的集合L ;(2-4)設(shè)定一個抗性指示變量q,q的取值為從伸縮抗性區(qū)間的下界Rlw開始以分布直方圖H中相鄰伸縮抗性值之間的最小距離δ遞增,且q〈Rup,計算分布直方圖H中從下界Rlmt到q的所有伸縮抗性值出現(xiàn)的頻數(shù)的和S,得到結(jié)果S ≥ mavg,或q ^ Rup,對得到的結(jié)果進(jìn)行判斷,若S≥mavg,則令L=L U {<Rl0W, q+ δ >},Rlow = q+ δ,q=Rlow,重復(fù)本步驟,直到q≥Rup≥q≥Rup,則令L=L U {〈R1(W,q>},并停止重復(fù)本步驟,直到步驟(2-2)得到伸縮抗性類別的集合L ;(2-5)令步驟(2-1)中的判斷邊界值w=2.0,初始化伸縮抗性區(qū)間的下界Rlow=L 00,上界Rup=w,執(zhí)行步驟(2-2),添加對a _的伸縮抗性類別劃分,得到總的伸縮抗性類別的集合L ;(3)從抗性類別集合L中,得到與音樂伸縮抗性數(shù)據(jù)集中每個音樂片段的伸縮抗性值相對應(yīng)的類別,分別對每個音樂片段作出類別標(biāo)注Rmin和Rmax,分別提取每個音樂片段的音頻內(nèi)容特征,音頻內(nèi)容特征包括頻譜時域特征、梅爾倒譜系數(shù)和色度,并將頻譜時域特征、梅爾倒譜系數(shù)和色度的組合作為該音樂片段的與Rmin分類對應(yīng)的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應(yīng)的特征向量;(4)對步驟(3)得到的每個音樂片段的特征向量進(jìn)行泛化處理令Xmin(Mi)表示與上述音樂伸縮抗性數(shù)據(jù)集中與Rmin分類對應(yīng)的第i個音樂片段的特征向量,則(Xmin(M1),…,Xfflin(Mn)I表示與音樂伸縮抗性數(shù)據(jù)集中與Rmin分類對應(yīng)的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第j個維度出現(xiàn)的最大值maXj和最小值mirij,使Xj = (xj-mirij)/(maxj-mirij),其中Xj為上述特征向量集合中各個特征向量的第j個維度的特征值;同理,令{Xmax (M1),…,Xmax (Mn)}表示與Rmax分類對應(yīng)的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第P個維度的最大值maxp和最小值minp,使Xp= (xp-minp)/(maxp-minp),其中xp為該特征向量集合中各個特征向量第P個維度的特征值;(5)定義音樂伸縮抗性數(shù)據(jù)集中,具有步驟(3)標(biāo)注的相同伸縮抗性類別的音樂片段滿足伸縮抗性相似關(guān)系,記該相似關(guān)系為Must-Link,具有步驟(3)標(biāo)注的不同伸縮抗性類別的音樂片段滿足伸縮抗性相異關(guān)系,記該相異關(guān)系為Cannot-Link,建立一個優(yōu)化目標(biāo)函數(shù)g⑷對A=Σ 7U所Μ Σ ])Λ .^m^
(Mj ,Mj ^Nhisf-Link(Xj ,Xj )eCannot-Link其中A為待求解的對角矩陣,DA_dm& (mf ,) = ^Y^k=l Akk (mik -m丨、,初始化時,設(shè)
對角矩陣A中所有對角元為l,d為特征向量的維數(shù),利用梯度下降算法,迭代求解對角矩陣A,對角矩陣A中的對角元即為特征向量各維度的權(quán)重Akk ;(6)從待處理的音樂片段中提取頻譜時域特征、梅爾倒譜系數(shù)和色度,并將頻譜時域特征、梅爾倒譜系數(shù)和色度的組合作為待處理音樂片段的與Rmin分類對應(yīng)的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應(yīng)的特征向量;根據(jù)上述步驟(4)計算得到的特征向量集合中各向量的第s個維度的最大值maxs和最小值mins,以及第s個維度的特征向量值Xs,并采用步驟(4)的泛化處理方法,對待處理的音樂片段的特征向量進(jìn)行泛化處理,得到待處理音樂片段的特征向量;
(7)設(shè)定待處理音樂片段的音樂風(fēng)格;(8)根據(jù)上述步驟(5)得到的特征向量各維度的權(quán)重Akk,計算待處理音樂片段Hlu與上述音樂伸縮抗性數(shù)據(jù)集中各個音樂片段&的相異程度ψ ,
__|θ,當(dāng)與mr風(fēng)格相同
權(quán)利要求
1.一種音樂片段的伸縮抗性區(qū)間的計算方法,其特征在于該方法包括以下步驟 (1)選擇多個不同風(fēng)格的音樂片段,由多人進(jìn)行試聽實驗,根據(jù)個人聽覺的舒適度確定每個音樂片段的伸縮抗性值,根據(jù)多個音樂片段的伸縮抗性值建立一個音樂伸縮抗性數(shù)據(jù)集,進(jìn)而得到音樂伸縮抗性數(shù)據(jù)集中伸縮抗性分布直方圖H,其中橫坐標(biāo)為伸縮抗性值,從O.OO到2. 00,縱坐標(biāo)為伸縮抗性值出現(xiàn)的頻數(shù); (2)對上述分布直方圖H進(jìn)行等面積切分,將伸縮抗性值中的最大延展率amax和最小縮短率amin各劃分為1*個子區(qū)間,將每個子區(qū)間定義為一個伸縮抗性類別,得到伸縮抗性類別的集合L,具體過程如下 (2-1)令m為音樂伸縮抗性數(shù)據(jù)集中音樂片段總數(shù),則每個伸縮抗性類別含有的音樂片段數(shù)為令抗性類別集合L為空,設(shè)判斷邊界值W=L 00,初始化伸縮抗性區(qū)間的下界 Ricw=O. 00,上界 Rup=W ; (2-2)對伸縮抗性區(qū)間的下界R1ot進(jìn)行判斷,若R1otS W,則得到伸縮抗性類別的集合L,若R1 Jw且R1ot彡Rup,則停止當(dāng)前計算直到得到伸縮抗性類別的集合L,若R1ot〈w且R1 JRup,從上述分布直方圖H的伸縮抗性區(qū)間[R1m,Rup)中找到頻數(shù)最高的伸縮抗性值Cix,并從分布直方圖H得到相應(yīng)的出現(xiàn)頻數(shù)Fx ; (2-3)對上述出現(xiàn)頻數(shù)Fx進(jìn)行判斷,若Fx〈mavg,則進(jìn)行步驟(2-4),若Fx > mavg,則使抗性類別集合L=L U {<αχ, αχ+δ>},其中δ為不同伸縮抗性值之間的最小距離,即分布直方圖H中橫坐標(biāo)相鄰刻度的距離,U表示對集合求并集的操作;然后同時分別執(zhí)行兩步,其一是令伸縮抗性區(qū)間的下界Rlmt保持不變,伸縮抗性區(qū)間的上界Rup=a χ_ δ,再重復(fù)步驟(2-2),其二是令伸縮抗性區(qū)間的上界Rup保持不變,伸縮抗性區(qū)間的下界Rlmt= αχ+δ,再重復(fù)步驟(2-2);直到上述步驟(2-2沖,R1ot彡W,得到伸縮抗性類別的集合L,或R1ot〈w且Rlw彡Rup,停止當(dāng)前計算直到得到伸縮抗性類別的集合L ; (2-4)設(shè)定一個抗性指示變量q,q的取值為從伸縮抗性區(qū)間的下界Rlw開始以分布直方圖H中相鄰伸縮抗性值之間的最小距離δ遞增,且q〈Rup,計算分布直方圖H中從下界R1ot到q的所有伸縮抗性值出現(xiàn)的頻數(shù)的和S,得到結(jié)果S ^ mavg,或q ^ Rup,對得到的結(jié)果進(jìn)行判斷,若 S 彡 mavg,則令 L=L U {<Rl0W, q+ δ >},Rlow = q+ δ,q=Rlow,重復(fù)本步驟,直到 q 彡 Rup ;若q彡Rup,則令L=L U {〈RlM,q>},并停止重復(fù)本步驟,直到步驟(2-2)得到伸縮抗性類別的集合L ; (2-5)令步驟(2-1)中的判斷邊界值w=2. 0,初始化伸縮抗性區(qū)間的下界Rlw=L 00,上界Rup=w,執(zhí)行步驟(2-2),添加對a max的伸縮抗性類別劃分,得到總的伸縮抗性類別的集合L ; (3)從抗性類別集合L中,得到與音樂伸縮抗性數(shù)據(jù)集中每個音樂片段的伸縮抗性值相對應(yīng)的類別,分別對每個音樂片段作出類別標(biāo)注Rmin和Rmax,分別提取每個音樂片段的音頻內(nèi)容特征,音頻內(nèi)容特征包括頻譜時域特征、梅爾倒譜系數(shù)和色度,并將頻譜時域特征、梅爾倒譜系數(shù)和色度的組合作為該音樂片段的與Rmin分類對應(yīng)的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應(yīng)的特征向量; (4)對步驟(3)得到的每個音樂片段的特征向量進(jìn)行泛化處理令Xmin(Mi)表示與上述音樂伸縮抗性數(shù)據(jù)集中與Rmin分類對應(yīng)的第i個音樂片段的特征向量,則(Xmin(M1),…,Xfflin(Mn)I表示與音樂伸縮抗性數(shù)據(jù)集中與Rmin分類對應(yīng)的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第j個維度出現(xiàn)的最大值ma\和最小值Hiinj,使Xj=(Xj-Hiinj)/(maxj-mirij),其中Xj為上述特征向量集合中各個特征向量的第j個維度的特征值;同理,令{Xmax (M1),…,Xmax (Mn)}表示與Rmax分類對應(yīng)的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第P個維度的最大值maxp和最小值minp,使Xp= (xp-minp)/(maxp-minp),其中xp為該特征向量集合中各個特征向量第P個維度的特征值; (5)定義音樂伸縮抗性數(shù)據(jù)集中,具有步驟(3)標(biāo)注的相同伸縮抗性類別的音樂片段滿足伸縮抗性相似關(guān)系,記該相似關(guān)系為Must-Link,具有步驟(3)標(biāo)注的不同伸縮抗性類別的音樂片段滿足伸縮抗性相異關(guān)系,記該相異關(guān)系為Cannot-Link,建立一個優(yōu)化目標(biāo)函數(shù)g⑷
全文摘要
本發(fā)明涉及一種音樂片段的伸縮抗性區(qū)間的計算方法,屬于音頻處理技術(shù)領(lǐng)域。首先建立音樂伸縮抗性數(shù)據(jù)集,得到伸縮抗性分布直方圖,對其進(jìn)行等面積切分形成伸縮抗性類別,提取多種音頻內(nèi)容特征形成音樂片段的特征向量,并進(jìn)行泛化處理,并求解出對角矩陣,使用音樂風(fēng)格區(qū)分音樂片段的相異程度,在K近鄰判別下,計算出待處理片段的伸縮抗性區(qū)間。本發(fā)明方法首次提出對音樂伸縮抗性的量化表示方法,以音頻內(nèi)容特征為主,以音樂風(fēng)格為輔,并結(jié)合機(jī)器學(xué)習(xí)的策略實現(xiàn)了對音樂伸縮抗性區(qū)間的計算,具有較高精確度,且操作簡潔,它能夠直接被用于音樂重構(gòu)算法中的參數(shù)估計,和音樂心理學(xué)、語音感知中關(guān)于人感知音樂片段的特性的研究。
文檔編號G11B20/14GK102831910SQ201210247939
公開日2012年12月19日 申請日期2012年7月17日 優(yōu)先權(quán)日2012年7月17日
發(fā)明者王朝坤, 陳俊 申請人:清華大學(xué)