一種音頻數(shù)據(jù)的特征提取方法及裝置制造方法

文檔序號(hào)：2826046閱讀：260來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種音頻數(shù)據(jù)的特征提取方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種音頻數(shù)據(jù)的特征提取方法及裝置，用以實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)序列中提取出相同長(zhǎng)度的特征向量。方法包括：獲得音頻數(shù)據(jù)序列；針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行：將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
【專利說(shuō)明】
一種音頻數(shù)據(jù)的特征提取方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域，尤其涉及一種音頻數(shù)據(jù)的特征提取方法及裝置。

【背景技術(shù)】
[0002]在音頻分類與識(shí)別中，提取同一類別音頻數(shù)據(jù)的共性特征非常重要，因?yàn)樵诂F(xiàn)有技術(shù)中，通常需要依靠這些共性特征來(lái)對(duì)未知類別的音頻數(shù)據(jù)進(jìn)行分類識(shí)別。
[0003]現(xiàn)有技術(shù)中采用的音頻數(shù)據(jù)的共性特征的提取方案中，一般都是將時(shí)間定長(zhǎng)的音頻數(shù)據(jù)序列(即由多個(gè)音頻數(shù)據(jù)組成的一個(gè)序列)進(jìn)行分幀短時(shí)處理，即將時(shí)間定長(zhǎng)的音頻數(shù)據(jù)序列切分為多幀音頻數(shù)據(jù)子序列，然后將得到的各幀音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理之后，提取出各巾貞音頻數(shù)據(jù)子序列的美爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預(yù)測(cè)美爾倒譜系數(shù)(Linear Predictive Mel Frequency Cepstral Coding,LPMFCC)等等。進(jìn)一步地，再將從各幀音頻數(shù)據(jù)子序列的特征組合起來(lái)作為該段音頻數(shù)據(jù)的特征。采用該方式，可以實(shí)現(xiàn)根據(jù)訓(xùn)練用的各段音頻數(shù)據(jù)序列的特征，對(duì)訓(xùn)練用的音頻數(shù)據(jù)序列進(jìn)行聚類而得到各類音頻數(shù)據(jù)序列的共性特征。
[0004]其中需要說(shuō)明的是，美爾(Mel)是主觀音高的單位，而赫茲(Hz)則是客觀音高的單位。美爾頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的，它與赫茲頻率成非線性對(duì)應(yīng)關(guān)系。美爾倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系，計(jì)算得到的Hz頻譜特征。而線性預(yù)測(cè)倒譜系數(shù)(LPMFCC)則是在線性預(yù)測(cè)系數(shù)的基礎(chǔ)上，借鑒美爾倒譜系數(shù)(MFCC)計(jì)算方法，對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行美爾倒譜計(jì)算而得到的一種新的特征參數(shù)?；谠撎卣鲄?shù)對(duì)音頻數(shù)據(jù)進(jìn)行分類有利于提高音頻數(shù)據(jù)分類裝置的識(shí)別率。
[0005]上述共性特征的提取方案在音頻數(shù)據(jù)的分類識(shí)別中能夠達(dá)到較好的效果，但是由于該方案是按照對(duì)不同音頻數(shù)據(jù)序列進(jìn)行切分而得到相同時(shí)長(zhǎng)的音頻數(shù)據(jù)子序列的切分規(guī)則，來(lái)對(duì)音頻數(shù)據(jù)序列進(jìn)行切分，從而要求音頻數(shù)據(jù)序列的時(shí)長(zhǎng)必須是定長(zhǎng)，才能將不同的音頻數(shù)據(jù)序列切分為相同幀數(shù)的音頻數(shù)據(jù)段。因此，該方案存在一定的缺陷:當(dāng)音頻數(shù)據(jù)序列的時(shí)長(zhǎng)大于規(guī)定時(shí)間長(zhǎng)度時(shí)，需要對(duì)音頻數(shù)據(jù)序列進(jìn)行切分處理，這樣的操作方式會(huì)破壞音頻數(shù)據(jù)序列的完整性；而當(dāng)音頻數(shù)據(jù)序列的時(shí)長(zhǎng)小于規(guī)定時(shí)間長(zhǎng)度時(shí)，則不能采用該方案對(duì)該音頻數(shù)據(jù)序列進(jìn)行處理。造成上述缺陷的原因在于，如果不同音頻數(shù)據(jù)序列的時(shí)長(zhǎng)不相等，那么，得到的音頻數(shù)據(jù)序列的特征向量的長(zhǎng)度也是不相等的，而基于不相等的特征向量，無(wú)法實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)序列的聚類或分類訓(xùn)練。

【發(fā)明內(nèi)容】

[0006]本發(fā)明實(shí)施例提供一種音頻數(shù)據(jù)的特征提取方法，用以解決現(xiàn)有技術(shù)無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)序列中提取出相同長(zhǎng)度的特征向量的問(wèn)題。
[0007]本發(fā)明實(shí)施例采用以下技術(shù)方案:
[0008]一種音頻數(shù)據(jù)的特征提取方法，包括:獲得音頻數(shù)據(jù)序列；針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
[0009]一種音頻數(shù)據(jù)的特征提取裝置，包括:獲得單元，用于獲得音頻數(shù)據(jù)序列；
[0010]特征提取單元，用于針對(duì)獲得單元獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
[0011]本發(fā)明實(shí)施例的有益效果如下:
[0012]通過(guò)本發(fā)明實(shí)施例提供的技術(shù)方案，由于將音頻數(shù)據(jù)切分成固定幀數(shù)的音頻數(shù)據(jù)子序列，可以保證從每個(gè)音頻數(shù)據(jù)子序列中分別提取的指定特征組合起來(lái)得到的特征的長(zhǎng)度也是固定的，從而解決現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)中提取出相同長(zhǎng)度的特征向量的問(wèn)題。采用本發(fā)明實(shí)施例提供的該方案，可以實(shí)現(xiàn)在對(duì)音頻數(shù)據(jù)序列樣本進(jìn)行訓(xùn)練時(shí)，更有效地利用更多的音頻數(shù)據(jù)序列樣本。

【專利附圖】

【附圖說(shuō)明】
[0013]圖1為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法的流程圖；
[0014]圖2為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法的具體應(yīng)用流程圖；
[0015]圖3為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取裝置的具體結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0016]發(fā)明人通過(guò)對(duì)現(xiàn)有技術(shù)的分析研究，發(fā)現(xiàn)現(xiàn)有技術(shù)中采用的音頻數(shù)據(jù)共性特征的提取方法存在著一個(gè)共同的缺陷，即要求音頻數(shù)據(jù)序列的時(shí)長(zhǎng)必須是定長(zhǎng)，才能將不同的音頻數(shù)據(jù)序列切分為相同幀數(shù)的音頻數(shù)據(jù)段，進(jìn)而保證從各音頻數(shù)據(jù)序列中提取出相等長(zhǎng)度的特征向量。為了解決該問(wèn)題，本發(fā)明實(shí)施例提供了一種針對(duì)不同時(shí)長(zhǎng)的音頻數(shù)據(jù)的共性特征的提取方法，在該方法中，發(fā)明人將各個(gè)音頻數(shù)據(jù)序列切分成固定幀數(shù)的音頻數(shù)據(jù)子序列，可以保證從每個(gè)音頻數(shù)據(jù)子序列中分別提取的指定特征組合起來(lái)得到的特征的長(zhǎng)度也是固定的，從而解決了現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)中提取出相同長(zhǎng)度的特征向量的問(wèn)題。
[0017]以下結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明，應(yīng)當(dāng)理解，此處所描述的實(shí)施例僅用于說(shuō)明和解釋本發(fā)明，并不用于限制本發(fā)明。并且在不沖突的情況下，本說(shuō)明中的實(shí)施例及實(shí)施例中的特征可以互相結(jié)合。
[0018]首先，本發(fā)明實(shí)施例提供一種音頻數(shù)據(jù)的特征提取方法，該方法的具體流程示意圖如圖1所示，包括以下步驟。需要說(shuō)明的是，以下步驟僅以獲得的任意音頻數(shù)據(jù)序列為例，說(shuō)明如何從該音頻數(shù)據(jù)序列中提取特征。本領(lǐng)域技術(shù)人員可以理解，對(duì)于獲得的每個(gè)音頻數(shù)據(jù)序列而言，均可以采用下述步驟進(jìn)行處理，以使得分別從獲得的每個(gè)音頻數(shù)據(jù)序列提取到的特征的長(zhǎng)度相同。
[0019]步驟11，將獲得的音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；
[0020]本發(fā)明實(shí)施例中，將該音頻數(shù)據(jù)序列進(jìn)行切分而得到多個(gè)音頻數(shù)據(jù)子序列的一種具體的實(shí)現(xiàn)方式可以包括下述子步驟:
[0021]首先，根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比，確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量；
[0022]然后，根據(jù)該固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列。
[0023]在本發(fā)明的實(shí)施例中，音頻數(shù)據(jù)序列一般是通過(guò)對(duì)實(shí)際的音頻信號(hào)進(jìn)行采樣獲得的；預(yù)設(shè)數(shù)量是指預(yù)先規(guī)定的將該音頻數(shù)據(jù)序列切分而得到的音頻數(shù)據(jù)子序列的個(gè)數(shù)，該預(yù)設(shè)數(shù)量也稱固定的幀數(shù)；固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比。
[0024]特別的，上述固定幀重疊百分比可以為O。
[0025]可選的，若該音頻數(shù)據(jù)序列包含的是分布均勻的音頻數(shù)據(jù)，即該音頻數(shù)據(jù)序列所包含的、長(zhǎng)度為單位時(shí)間長(zhǎng)度的各音頻數(shù)據(jù)子序列的數(shù)據(jù)量彼此相同，并且，該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度能夠被前文所述的預(yù)設(shè)數(shù)量所整除，那么，也可以不按照上述子步驟來(lái)對(duì)該音頻數(shù)據(jù)序列進(jìn)行切分，而是可以直接按照該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度和預(yù)設(shè)數(shù)量，將該音頻數(shù)據(jù)序列劃分為時(shí)間長(zhǎng)度彼此相等的多個(gè)音頻數(shù)據(jù)子序列，且使得劃分得到的多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量。
[0026]可選的，為了便于后續(xù)對(duì)分別從對(duì)該音頻數(shù)據(jù)序列進(jìn)行切分而得到的各個(gè)音頻數(shù)據(jù)子序列中提取出的指定特征進(jìn)行組合，本發(fā)明實(shí)施例中，還可以對(duì)該音頻數(shù)據(jù)序列切分而得到的該些音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
[0027]步驟12，針對(duì)對(duì)該音頻數(shù)據(jù)序列進(jìn)行如步驟11所述的切分而得到的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:分別提取多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；
[0028]本發(fā)明實(shí)施例中，為了平滑數(shù)據(jù)波形、降低雜音干擾，在從音頻數(shù)據(jù)子序列中提取指定特征之前，還可以對(duì)獲得的每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理，得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列。然后，再?gòu)念A(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征。本領(lǐng)域技術(shù)人員能夠理解，如果不需要平滑數(shù)據(jù)波形、降低雜音干擾，也可以不執(zhí)行對(duì)音頻數(shù)據(jù)子序列的預(yù)處理。
[0029]一般的，對(duì)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理的方式有很多種，在本發(fā)明的實(shí)施例中，該方式可以但不限于包括下述方式中的一種或多種的組合:
[0030]零均值化處理、預(yù)加重處理以及加窗處理。由于零均值化處理、預(yù)加重處理以及加窗處理是現(xiàn)有技術(shù)中比較成熟的技術(shù)，而該些技術(shù)并非本發(fā)明的重點(diǎn)，因此不再贅述。
[0031]步驟13，將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合。組合得到的特征(往往為特征向量)即為該音頻數(shù)據(jù)序列的特征(特征向量)。
[0032]可選的，本發(fā)明實(shí)施例中若記錄了對(duì)該音頻數(shù)據(jù)序列切分而得到的各音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，則可以按記錄的該排列順序，對(duì)各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行依次排列，而得到一個(gè)合成的特征。
[0033]由本發(fā)明實(shí)施例提供的上述方法可知:由于該方法可以保證從各個(gè)音頻數(shù)據(jù)序列提取的特征向量的長(zhǎng)度相等，使之能夠適應(yīng)不同時(shí)長(zhǎng)的音頻數(shù)據(jù)的共性特征的提取，從而本發(fā)明實(shí)施例提供的該方法具有較廣的適用范圍。
[0034]以下介紹本發(fā)明實(shí)施例提供的上述方法在實(shí)際中的一種具體應(yīng)用流程。該應(yīng)用流程包括如圖2所示的下述步驟:
[0035]步驟21，采集一段音頻數(shù)據(jù)序列，并對(duì)相應(yīng)的采集信息進(jìn)行記錄，其中，該采集信息包括該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度T和采樣率K ；
[0036]步驟22，對(duì)采集到的該段音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)數(shù)據(jù)量相等的音頻數(shù)據(jù)子序列；
[0037]具體地，先根據(jù)該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度和采樣率，得到該音頻數(shù)據(jù)序列的數(shù)據(jù)總量K*T。然后，由于Κ*Τ滿足下述公式[I]
[0038]K*T = N*X* (1-P) +Χ*Ρ [ I ]
[0039]從而可以計(jì)算出音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量X，如下式[2]所示:
[0040]X = K*T/ (N-N*P+P) [2]
[0041]其中，N為預(yù)設(shè)的固定幀數(shù)量，P為所述固定幀重疊百分比，T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度，K為對(duì)原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率，κ*τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量，X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
[0042]最后，根據(jù)固定幀重疊百分比P以及計(jì)算出的X，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)數(shù)據(jù)量相等的音頻數(shù)據(jù)子序列。
[0043]步驟23，對(duì)每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理，得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列；然后，分別從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中提取指定特征；
[0044]可選的，在本發(fā)明的實(shí)施例中，因?yàn)閹瑪?shù)量是固定的，而總時(shí)長(zhǎng)是變化的，所以頻域相關(guān)的特征的穩(wěn)定性會(huì)比時(shí)域相關(guān)的特征的穩(wěn)定性高，因此上述指定特征一般可以是頻域特征，比如美爾倒譜系數(shù)(MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPMFCC)等等，或者是它們的組合。這樣，才能在音頻數(shù)據(jù)的特征提取過(guò)程中達(dá)到更好的效果。
[0045]步驟24，將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合，按記錄的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，將各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量，并確定該特征向量為各個(gè)音頻數(shù)據(jù)子序列所對(duì)應(yīng)的音頻數(shù)據(jù)序列的特征向量。
[0046]例如，一段音頻數(shù)據(jù)序列ABC在進(jìn)行切分處理時(shí)，被依次切分為音頻數(shù)據(jù)子序列Α、音頻數(shù)據(jù)子序列B和音頻數(shù)據(jù)子序列C，那么，從三個(gè)音頻數(shù)據(jù)子序列A、B、C中分別提取出的與之相應(yīng)的三個(gè)音頻數(shù)據(jù)子序列的指定特征分別為a、b、c ;然后，按照切分時(shí)三個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，將三個(gè)音頻數(shù)據(jù)子序列分別對(duì)應(yīng)的指定特征a、b、c合成為一個(gè)特征向量abc，最后，確定該特征向量abc為該段音頻數(shù)據(jù)序列ABC的特征向量。
[0047]其中，每個(gè)音頻數(shù)據(jù)子序列的指定特征的長(zhǎng)度是固定的，而且預(yù)設(shè)幀數(shù)量是固定的，則得到的每個(gè)音頻數(shù)據(jù)序列的特征向量的長(zhǎng)度也是固定的。
[0048]通過(guò)本發(fā)明實(shí)施例提供的技術(shù)方案，由于對(duì)一段已知類別的音頻數(shù)據(jù)序列按預(yù)設(shè)的數(shù)量、固定幀重疊百分比以及該音頻數(shù)據(jù)序列包含的數(shù)據(jù)總量，對(duì)該音頻數(shù)據(jù)序列分別進(jìn)行預(yù)設(shè)數(shù)量的分幀處理，可以保證從該音頻數(shù)據(jù)序列提取的特征向量的長(zhǎng)度是恒定的，進(jìn)而能夠從不同時(shí)長(zhǎng)的音頻數(shù)據(jù)序列提取出相等長(zhǎng)度的指定特征，擴(kuò)大了本發(fā)明實(shí)施例提供的該方法的適用范圍。
[0049]對(duì)應(yīng)于本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法，本發(fā)明實(shí)施例還提供一種音頻數(shù)據(jù)的特征提取裝置，該裝置的具體結(jié)構(gòu)示意圖如圖3所示，其具體包括如下功能單元:
[0050]獲得單元31，用于獲得音頻數(shù)據(jù)序列；
[0051]特征提取單元32，用于針對(duì)獲得單元31獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；
[0052]其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
[0053]可選的，特征提取單元32具體可以用于:根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比，確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量；其中，固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比；
[0054]根據(jù)固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列，并對(duì)多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
[0055]可選的，特征提取單元32具體可以用于:通過(guò)采用下述公式，計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
[0056]X = K*T/ (Ν_Ν*Ρ+Ρ)
[0057]其中，N為預(yù)設(shè)數(shù)量，P為固定幀重疊百分比，T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度，K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率，Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量，X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
[0058]可選的，特征提取單元32具體可以用于:
[0059]對(duì)每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理，得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列；從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征。其中，預(yù)處理具體包括下述方式中的一種或多種的組合:
[0060]零均值化處理；預(yù)加重處理；加窗處理。
[0061]可選的，本發(fā)明實(shí)施例提供的該裝置還可以包括:記錄單元，用于在特征提取單元32將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列時(shí)，對(duì)得到的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄?；谠撚涗泦卧墓δ?，特征提取單元32具體可以用于:按該記錄單元記錄的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，將各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
[0062]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此，本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0063]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器，使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0064]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中，使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0065]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理，從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0066]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對(duì)這些實(shí)施例作出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
[0067]顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種音頻數(shù)據(jù)的特征提取方法，其特征在于，包括: 獲得音頻數(shù)據(jù)序列；針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
2.如權(quán)利要求1所述的方法，其特征在于，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列，具體包括: 根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分t匕，確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量；其中，所述固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的[tTt 匕 5 根據(jù)所述固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到所述多個(gè)音頻數(shù)據(jù)子序列。
3.如權(quán)利要求2所述的方法，其特征在于，根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比，確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量，具體包括: 通過(guò)采用下述公式，計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
X = K*T/(Ν-Ν*Ρ+Ρ) 其中，N為所述預(yù)設(shè)數(shù)量，P為所述固定幀重疊百分比，T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度，K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率，Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量，X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
4.如權(quán)利要求1所述的方法，其特征在于，分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征，具體包括: 對(duì)所述每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理，得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列；從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征；其中，所述預(yù)處理具體包括下述方式中的一種或多種的組合: 零均值化處理；預(yù)加重處理；加窗處理。
5.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括: 將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列時(shí)，對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄；則將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合，具體包括: 按記錄的所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，將所述各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
6.一種音頻數(shù)據(jù)的特征提取裝置，其特征在于，包括: 獲得單元，用于獲得音頻數(shù)據(jù)序列；特征提取單元，用于針對(duì)獲得單元獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列；分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征；將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合；其中，所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量；且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
7.如權(quán)利要求6所述的裝置，其特征在于，所述特征提取單元具體用于:根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比，確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量；其中，所述固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比；根據(jù)所述固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量，將該音頻數(shù)據(jù)序列進(jìn)行切分，得到所述多個(gè)音頻數(shù)據(jù)子序列，對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
8.權(quán)利要求7所述的裝置，其特征在于，所述特征提取單元具體用于: 通過(guò)采用下述公式，計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
X = Κ*Τ/ (Ν-Ν*Ρ+Ρ) 其中，N為所述預(yù)設(shè)數(shù)量，P為所述固定幀重疊百分比，T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度，K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率，Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量，X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
9.如權(quán)利要求6所述的裝置，其特征在于，所述特征提取單元具體用于:: 對(duì)所述每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理，得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列；從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征；其中，所述預(yù)處理具體包括下述方式中的一種或多種的組合: 零均值化處理；預(yù)加重處理；加窗處理。
10.如權(quán)利要求6所述的裝置，其特征在于，所述裝置還包括: 記錄單元，用于在所述特征提取單元將該音頻數(shù)據(jù)序列進(jìn)行切分，得到多個(gè)音頻數(shù)據(jù)子序列時(shí)，對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄；則所述特征提取單元具體用于:按記錄單元記錄的所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序，將所述各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
【文檔編號(hào)】G10L15/02GK104240697SQ201310255723
【公開(kāi)日】2014年12月24日申請(qǐng)日期:2013年6月24日優(yōu)先權(quán)日:2013年6月24日
【發(fā)明者】謝志明, 潘石柱, 張興明, 傅利泉, 朱江明, 吳軍, 吳堅(jiān) 申請(qǐng)人:浙江大華技術(shù)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝志明;潘石柱;張興明;傅利泉;朱江明;吳軍;吳堅(jiān);
技術(shù)所有人：浙江大華技術(shù)股份有限公司;
我是此專利的發(fā)明人

上一篇：音頻的特征提取方法、音頻的分類方法和相關(guān)裝置制造方法
上一篇：具有鑲嵌品板的弦樂(lè)器及其制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)特征提取方法相關(guān)技術(shù)

大數(shù)據(jù)特征提取方法相關(guān)技術(shù)

音頻特征提取相關(guān)技術(shù)

頁(yè)面數(shù)據(jù)抓取相關(guān)技術(shù)

音頻信號(hào)特征提取相關(guān)技術(shù)

數(shù)據(jù)特征提取算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種音頻數(shù)據(jù)的特征提取方法及裝置制造方法