国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種音頻數(shù)據(jù)的特征提取方法及裝置制造方法

      文檔序號(hào):2826046閱讀:260來(lái)源:國(guó)知局
      一種音頻數(shù)據(jù)的特征提取方法及裝置制造方法
      【專利摘要】本發(fā)明公開(kāi)了一種音頻數(shù)據(jù)的特征提取方法及裝置,用以實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)序列中提取出相同長(zhǎng)度的特征向量。方法包括:獲得音頻數(shù)據(jù)序列;針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合;其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      【專利說(shuō)明】
      一種音頻數(shù)據(jù)的特征提取方法及裝置

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種音頻數(shù)據(jù)的特征提取方法及裝置。

      【背景技術(shù)】
      [0002]在音頻分類與識(shí)別中,提取同一類別音頻數(shù)據(jù)的共性特征非常重要,因?yàn)樵诂F(xiàn)有技術(shù)中,通常需要依靠這些共性特征來(lái)對(duì)未知類別的音頻數(shù)據(jù)進(jìn)行分類識(shí)別。
      [0003]現(xiàn)有技術(shù)中采用的音頻數(shù)據(jù)的共性特征的提取方案中,一般都是將時(shí)間定長(zhǎng)的音頻數(shù)據(jù)序列(即由多個(gè)音頻數(shù)據(jù)組成的一個(gè)序列)進(jìn)行分幀短時(shí)處理,即將時(shí)間定長(zhǎng)的音頻數(shù)據(jù)序列切分為多幀音頻數(shù)據(jù)子序列,然后將得到的各幀音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理之后,提取出各巾貞音頻數(shù)據(jù)子序列的美爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預(yù)測(cè)美爾倒譜系數(shù)(Linear Predictive Mel Frequency Cepstral Coding,LPMFCC)等等。進(jìn)一步地,再將從各幀音頻數(shù)據(jù)子序列的特征組合起來(lái)作為該段音頻數(shù)據(jù)的特征。采用該方式,可以實(shí)現(xiàn)根據(jù)訓(xùn)練用的各段音頻數(shù)據(jù)序列的特征,對(duì)訓(xùn)練用的音頻數(shù)據(jù)序列進(jìn)行聚類而得到各類音頻數(shù)據(jù)序列的共性特征。
      [0004]其中需要說(shuō)明的是,美爾(Mel)是主觀音高的單位,而赫茲(Hz)則是客觀音高的單位。美爾頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,它與赫茲頻率成非線性對(duì)應(yīng)關(guān)系。美爾倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征。而線性預(yù)測(cè)倒譜系數(shù)(LPMFCC)則是在線性預(yù)測(cè)系數(shù)的基礎(chǔ)上,借鑒美爾倒譜系數(shù)(MFCC)計(jì)算方法,對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行美爾倒譜計(jì)算而得到的一種新的特征參數(shù)?;谠撎卣鲄?shù)對(duì)音頻數(shù)據(jù)進(jìn)行分類有利于提高音頻數(shù)據(jù)分類裝置的識(shí)別率。
      [0005]上述共性特征的提取方案在音頻數(shù)據(jù)的分類識(shí)別中能夠達(dá)到較好的效果,但是由于該方案是按照對(duì)不同音頻數(shù)據(jù)序列進(jìn)行切分而得到相同時(shí)長(zhǎng)的音頻數(shù)據(jù)子序列的切分規(guī)則,來(lái)對(duì)音頻數(shù)據(jù)序列進(jìn)行切分,從而要求音頻數(shù)據(jù)序列的時(shí)長(zhǎng)必須是定長(zhǎng),才能將不同的音頻數(shù)據(jù)序列切分為相同幀數(shù)的音頻數(shù)據(jù)段。因此,該方案存在一定的缺陷:當(dāng)音頻數(shù)據(jù)序列的時(shí)長(zhǎng)大于規(guī)定時(shí)間長(zhǎng)度時(shí),需要對(duì)音頻數(shù)據(jù)序列進(jìn)行切分處理,這樣的操作方式會(huì)破壞音頻數(shù)據(jù)序列的完整性;而當(dāng)音頻數(shù)據(jù)序列的時(shí)長(zhǎng)小于規(guī)定時(shí)間長(zhǎng)度時(shí),則不能采用該方案對(duì)該音頻數(shù)據(jù)序列進(jìn)行處理。造成上述缺陷的原因在于,如果不同音頻數(shù)據(jù)序列的時(shí)長(zhǎng)不相等,那么,得到的音頻數(shù)據(jù)序列的特征向量的長(zhǎng)度也是不相等的,而基于不相等的特征向量,無(wú)法實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)序列的聚類或分類訓(xùn)練。


      【發(fā)明內(nèi)容】

      [0006]本發(fā)明實(shí)施例提供一種音頻數(shù)據(jù)的特征提取方法,用以解決現(xiàn)有技術(shù)無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)序列中提取出相同長(zhǎng)度的特征向量的問(wèn)題。
      [0007]本發(fā)明實(shí)施例采用以下技術(shù)方案:
      [0008]一種音頻數(shù)據(jù)的特征提取方法,包括:獲得音頻數(shù)據(jù)序列;針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合;其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      [0009]一種音頻數(shù)據(jù)的特征提取裝置,包括:獲得單元,用于獲得音頻數(shù)據(jù)序列;
      [0010]特征提取單元,用于針對(duì)獲得單元獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合;其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      [0011]本發(fā)明實(shí)施例的有益效果如下:
      [0012]通過(guò)本發(fā)明實(shí)施例提供的技術(shù)方案,由于將音頻數(shù)據(jù)切分成固定幀數(shù)的音頻數(shù)據(jù)子序列,可以保證從每個(gè)音頻數(shù)據(jù)子序列中分別提取的指定特征組合起來(lái)得到的特征的長(zhǎng)度也是固定的,從而解決現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)中提取出相同長(zhǎng)度的特征向量的問(wèn)題。采用本發(fā)明實(shí)施例提供的該方案,可以實(shí)現(xiàn)在對(duì)音頻數(shù)據(jù)序列樣本進(jìn)行訓(xùn)練時(shí),更有效地利用更多的音頻數(shù)據(jù)序列樣本。

      【專利附圖】

      【附圖說(shuō)明】
      [0013]圖1為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法的流程圖;
      [0014]圖2為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法的具體應(yīng)用流程圖;
      [0015]圖3為本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取裝置的具體結(jié)構(gòu)示意圖。

      【具體實(shí)施方式】
      [0016]發(fā)明人通過(guò)對(duì)現(xiàn)有技術(shù)的分析研究,發(fā)現(xiàn)現(xiàn)有技術(shù)中采用的音頻數(shù)據(jù)共性特征的提取方法存在著一個(gè)共同的缺陷,即要求音頻數(shù)據(jù)序列的時(shí)長(zhǎng)必須是定長(zhǎng),才能將不同的音頻數(shù)據(jù)序列切分為相同幀數(shù)的音頻數(shù)據(jù)段,進(jìn)而保證從各音頻數(shù)據(jù)序列中提取出相等長(zhǎng)度的特征向量。為了解決該問(wèn)題,本發(fā)明實(shí)施例提供了一種針對(duì)不同時(shí)長(zhǎng)的音頻數(shù)據(jù)的共性特征的提取方法,在該方法中,發(fā)明人將各個(gè)音頻數(shù)據(jù)序列切分成固定幀數(shù)的音頻數(shù)據(jù)子序列,可以保證從每個(gè)音頻數(shù)據(jù)子序列中分別提取的指定特征組合起來(lái)得到的特征的長(zhǎng)度也是固定的,從而解決了現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)從不同長(zhǎng)度的音頻數(shù)據(jù)中提取出相同長(zhǎng)度的特征向量的問(wèn)題。
      [0017]以下結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的實(shí)施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限制本發(fā)明。并且在不沖突的情況下,本說(shuō)明中的實(shí)施例及實(shí)施例中的特征可以互相結(jié)合。
      [0018]首先,本發(fā)明實(shí)施例提供一種音頻數(shù)據(jù)的特征提取方法,該方法的具體流程示意圖如圖1所示,包括以下步驟。需要說(shuō)明的是,以下步驟僅以獲得的任意音頻數(shù)據(jù)序列為例,說(shuō)明如何從該音頻數(shù)據(jù)序列中提取特征。本領(lǐng)域技術(shù)人員可以理解,對(duì)于獲得的每個(gè)音頻數(shù)據(jù)序列而言,均可以采用下述步驟進(jìn)行處理,以使得分別從獲得的每個(gè)音頻數(shù)據(jù)序列提取到的特征的長(zhǎng)度相同。
      [0019]步驟11,將獲得的音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;
      [0020]本發(fā)明實(shí)施例中,將該音頻數(shù)據(jù)序列進(jìn)行切分而得到多個(gè)音頻數(shù)據(jù)子序列的一種具體的實(shí)現(xiàn)方式可以包括下述子步驟:
      [0021]首先,根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比,確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量;
      [0022]然后,根據(jù)該固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列。
      [0023]在本發(fā)明的實(shí)施例中,音頻數(shù)據(jù)序列一般是通過(guò)對(duì)實(shí)際的音頻信號(hào)進(jìn)行采樣獲得的;預(yù)設(shè)數(shù)量是指預(yù)先規(guī)定的將該音頻數(shù)據(jù)序列切分而得到的音頻數(shù)據(jù)子序列的個(gè)數(shù),該預(yù)設(shè)數(shù)量也稱固定的幀數(shù);固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比。
      [0024]特別的,上述固定幀重疊百分比可以為O。
      [0025]可選的,若該音頻數(shù)據(jù)序列包含的是分布均勻的音頻數(shù)據(jù),即該音頻數(shù)據(jù)序列所包含的、長(zhǎng)度為單位時(shí)間長(zhǎng)度的各音頻數(shù)據(jù)子序列的數(shù)據(jù)量彼此相同,并且,該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度能夠被前文所述的預(yù)設(shè)數(shù)量所整除,那么,也可以不按照上述子步驟來(lái)對(duì)該音頻數(shù)據(jù)序列進(jìn)行切分,而是可以直接按照該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度和預(yù)設(shè)數(shù)量,將該音頻數(shù)據(jù)序列劃分為時(shí)間長(zhǎng)度彼此相等的多個(gè)音頻數(shù)據(jù)子序列,且使得劃分得到的多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量。
      [0026]可選的,為了便于后續(xù)對(duì)分別從對(duì)該音頻數(shù)據(jù)序列進(jìn)行切分而得到的各個(gè)音頻數(shù)據(jù)子序列中提取出的指定特征進(jìn)行組合,本發(fā)明實(shí)施例中,還可以對(duì)該音頻數(shù)據(jù)序列切分而得到的該些音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
      [0027]步驟12,針對(duì)對(duì)該音頻數(shù)據(jù)序列進(jìn)行如步驟11所述的切分而得到的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:分別提取多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;
      [0028]本發(fā)明實(shí)施例中,為了平滑數(shù)據(jù)波形、降低雜音干擾,在從音頻數(shù)據(jù)子序列中提取指定特征之前,還可以對(duì)獲得的每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理,得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列。然后,再?gòu)念A(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征。本領(lǐng)域技術(shù)人員能夠理解,如果不需要平滑數(shù)據(jù)波形、降低雜音干擾,也可以不執(zhí)行對(duì)音頻數(shù)據(jù)子序列的預(yù)處理。
      [0029]一般的,對(duì)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理的方式有很多種,在本發(fā)明的實(shí)施例中,該方式可以但不限于包括下述方式中的一種或多種的組合:
      [0030]零均值化處理、預(yù)加重處理以及加窗處理。由于零均值化處理、預(yù)加重處理以及加窗處理是現(xiàn)有技術(shù)中比較成熟的技術(shù),而該些技術(shù)并非本發(fā)明的重點(diǎn),因此不再贅述。
      [0031]步驟13,將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合。組合得到的特征(往往為特征向量)即為該音頻數(shù)據(jù)序列的特征(特征向量)。
      [0032]可選的,本發(fā)明實(shí)施例中若記錄了對(duì)該音頻數(shù)據(jù)序列切分而得到的各音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,則可以按記錄的該排列順序,對(duì)各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行依次排列,而得到一個(gè)合成的特征。
      [0033]由本發(fā)明實(shí)施例提供的上述方法可知:由于該方法可以保證從各個(gè)音頻數(shù)據(jù)序列提取的特征向量的長(zhǎng)度相等,使之能夠適應(yīng)不同時(shí)長(zhǎng)的音頻數(shù)據(jù)的共性特征的提取,從而本發(fā)明實(shí)施例提供的該方法具有較廣的適用范圍。
      [0034]以下介紹本發(fā)明實(shí)施例提供的上述方法在實(shí)際中的一種具體應(yīng)用流程。該應(yīng)用流程包括如圖2所示的下述步驟:
      [0035]步驟21,采集一段音頻數(shù)據(jù)序列,并對(duì)相應(yīng)的采集信息進(jìn)行記錄,其中,該采集信息包括該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度T和采樣率K ;
      [0036]步驟22,對(duì)采集到的該段音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)數(shù)據(jù)量相等的音頻數(shù)據(jù)子序列;
      [0037]具體地,先根據(jù)該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度和采樣率,得到該音頻數(shù)據(jù)序列的數(shù)據(jù)總量K*T。然后,由于Κ*Τ滿足下述公式[I]
      [0038]K*T = N*X* (1-P) +Χ*Ρ [ I ]
      [0039]從而可以計(jì)算出音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量X,如下式[2]所示:
      [0040]X = K*T/ (N-N*P+P) [2]
      [0041]其中,N為預(yù)設(shè)的固定幀數(shù)量,P為所述固定幀重疊百分比,T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度,K為對(duì)原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率,κ*τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量,X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
      [0042]最后,根據(jù)固定幀重疊百分比P以及計(jì)算出的X,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)數(shù)據(jù)量相等的音頻數(shù)據(jù)子序列。
      [0043]步驟23,對(duì)每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理,得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列;然后,分別從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中提取指定特征;
      [0044]可選的,在本發(fā)明的實(shí)施例中,因?yàn)閹瑪?shù)量是固定的,而總時(shí)長(zhǎng)是變化的,所以頻域相關(guān)的特征的穩(wěn)定性會(huì)比時(shí)域相關(guān)的特征的穩(wěn)定性高,因此上述指定特征一般可以是頻域特征,比如美爾倒譜系數(shù)(MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPMFCC)等等,或者是它們的組合。這樣,才能在音頻數(shù)據(jù)的特征提取過(guò)程中達(dá)到更好的效果。
      [0045]步驟24,將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合,按記錄的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,將各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量,并確定該特征向量為各個(gè)音頻數(shù)據(jù)子序列所對(duì)應(yīng)的音頻數(shù)據(jù)序列的特征向量。
      [0046]例如,一段音頻數(shù)據(jù)序列ABC在進(jìn)行切分處理時(shí),被依次切分為音頻數(shù)據(jù)子序列Α、音頻數(shù)據(jù)子序列B和音頻數(shù)據(jù)子序列C,那么,從三個(gè)音頻數(shù)據(jù)子序列A、B、C中分別提取出的與之相應(yīng)的三個(gè)音頻數(shù)據(jù)子序列的指定特征分別為a、b、c ;然后,按照切分時(shí)三個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,將三個(gè)音頻數(shù)據(jù)子序列分別對(duì)應(yīng)的指定特征a、b、c合成為一個(gè)特征向量abc,最后,確定該特征向量abc為該段音頻數(shù)據(jù)序列ABC的特征向量。
      [0047]其中,每個(gè)音頻數(shù)據(jù)子序列的指定特征的長(zhǎng)度是固定的,而且預(yù)設(shè)幀數(shù)量是固定的,則得到的每個(gè)音頻數(shù)據(jù)序列的特征向量的長(zhǎng)度也是固定的。
      [0048]通過(guò)本發(fā)明實(shí)施例提供的技術(shù)方案,由于對(duì)一段已知類別的音頻數(shù)據(jù)序列按預(yù)設(shè)的數(shù)量、固定幀重疊百分比以及該音頻數(shù)據(jù)序列包含的數(shù)據(jù)總量,對(duì)該音頻數(shù)據(jù)序列分別進(jìn)行預(yù)設(shè)數(shù)量的分幀處理,可以保證從該音頻數(shù)據(jù)序列提取的特征向量的長(zhǎng)度是恒定的,進(jìn)而能夠從不同時(shí)長(zhǎng)的音頻數(shù)據(jù)序列提取出相等長(zhǎng)度的指定特征,擴(kuò)大了本發(fā)明實(shí)施例提供的該方法的適用范圍。
      [0049]對(duì)應(yīng)于本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)的特征提取方法,本發(fā)明實(shí)施例還提供一種音頻數(shù)據(jù)的特征提取裝置,該裝置的具體結(jié)構(gòu)示意圖如圖3所示,其具體包括如下功能單元:
      [0050]獲得單元31,用于獲得音頻數(shù)據(jù)序列;
      [0051]特征提取單元32,用于針對(duì)獲得單元31獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合;
      [0052]其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      [0053]可選的,特征提取單元32具體可以用于:根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比,確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量;其中,固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比;
      [0054]根據(jù)固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列,并對(duì)多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
      [0055]可選的,特征提取單元32具體可以用于:通過(guò)采用下述公式,計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
      [0056]X = K*T/ (Ν_Ν*Ρ+Ρ)
      [0057]其中,N為預(yù)設(shè)數(shù)量,P為固定幀重疊百分比,T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度,K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率,Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量,X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
      [0058]可選的,特征提取單元32具體可以用于:
      [0059]對(duì)每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理,得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列;從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征。其中,預(yù)處理具體包括下述方式中的一種或多種的組合:
      [0060]零均值化處理;預(yù)加重處理;加窗處理。
      [0061]可選的,本發(fā)明實(shí)施例提供的該裝置還可以包括:記錄單元,用于在特征提取單元32將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列時(shí),對(duì)得到的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄?;谠撚涗泦卧墓δ?,特征提取單元32具體可以用于:按該記錄單元記錄的多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,將各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
      [0062]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
      [0063]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
      [0064]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
      [0065]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
      [0066]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
      [0067]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
      【權(quán)利要求】
      1.一種音頻數(shù)據(jù)的特征提取方法,其特征在于,包括: 獲得音頻數(shù)據(jù)序列; 針對(duì)獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合; 其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      2.如權(quán)利要求1所述的方法,其特征在于,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列,具體包括: 根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分t匕,確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量;其中,所述固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的[tTt 匕 5 根據(jù)所述固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到所述多個(gè)音頻數(shù)據(jù)子序列。
      3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比,確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量,具體包括: 通過(guò)采用下述公式,計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
      X = K*T/(Ν-Ν*Ρ+Ρ) 其中,N為所述預(yù)設(shè)數(shù)量,P為所述固定幀重疊百分比,T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度,K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率,Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量,X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
      4.如權(quán)利要求1所述的方法,其特征在于,分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征,具體包括: 對(duì)所述每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理,得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列; 從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征; 其中,所述預(yù)處理具體包括下述方式中的一種或多種的組合: 零均值化處理;預(yù)加重處理;加窗處理。
      5.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列時(shí),對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄;則 將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合,具體包括: 按記錄的所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,將所述各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
      6.一種音頻數(shù)據(jù)的特征提取裝置,其特征在于,包括: 獲得單元,用于獲得音頻數(shù)據(jù)序列; 特征提取單元,用于針對(duì)獲得單元獲得的每個(gè)音頻數(shù)據(jù)序列執(zhí)行:將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列;分別提取所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列的指定特征;將提取到的各個(gè)音頻數(shù)據(jù)子序列的指定特征進(jìn)行組合; 其中,所述多個(gè)音頻數(shù)據(jù)子序列的數(shù)量等于預(yù)設(shè)數(shù)量;且所述多個(gè)音頻數(shù)據(jù)子序列中的每個(gè)音頻數(shù)據(jù)子序列均包含相同的數(shù)據(jù)總量。
      7.如權(quán)利要求6所述的裝置,其特征在于,所述特征提取單元具體用于:根據(jù)該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量、所述預(yù)設(shè)數(shù)量以及預(yù)設(shè)的固定幀重疊百分比,確定音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量;其中,所述固定幀重疊百分比表示時(shí)間上相鄰的兩個(gè)音頻數(shù)據(jù)子序列共有的音頻數(shù)據(jù)的數(shù)量在音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量中的占比; 根據(jù)所述固定幀重疊百分比以及確定出的音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量,將該音頻數(shù)據(jù)序列進(jìn)行切分,得到所述多個(gè)音頻數(shù)據(jù)子序列,對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄。
      8.權(quán)利要求7所述的裝置,其特征在于,所述特征提取單元具體用于: 通過(guò)采用下述公式,計(jì)算音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量:
      X = Κ*Τ/ (Ν-Ν*Ρ+Ρ) 其中,N為所述預(yù)設(shè)數(shù)量,P為所述固定幀重疊百分比,T為該音頻數(shù)據(jù)序列的時(shí)間長(zhǎng)度,K為原始音頻進(jìn)行采樣而得到該音頻數(shù)據(jù)序列時(shí)采用的采樣率,Κ*Τ為該音頻數(shù)據(jù)序列所包含的數(shù)據(jù)總量,X為音頻數(shù)據(jù)子序列所包含的數(shù)據(jù)總量。
      9.如權(quán)利要求6所述的裝置,其特征在于,所述特征提取單元具體用于:: 對(duì)所述每個(gè)音頻數(shù)據(jù)子序列進(jìn)行預(yù)處理,得到預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列; 從預(yù)處理后的各個(gè)音頻數(shù)據(jù)子序列中分別提取指定特征; 其中,所述預(yù)處理具體包括下述方式中的一種或多種的組合: 零均值化處理;預(yù)加重處理;加窗處理。
      10.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 記錄單元,用于在所述特征提取單元將該音頻數(shù)據(jù)序列進(jìn)行切分,得到多個(gè)音頻數(shù)據(jù)子序列時(shí),對(duì)所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序進(jìn)行記錄;則 所述特征提取單元具體用于:按記錄單元記錄的所述多個(gè)音頻數(shù)據(jù)子序列在時(shí)間上的排列順序,將所述各個(gè)音頻數(shù)據(jù)子序列的指定特征合成為一個(gè)特征向量。
      【文檔編號(hào)】G10L15/02GK104240697SQ201310255723
      【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2013年6月24日 優(yōu)先權(quán)日:2013年6月24日
      【發(fā)明者】謝志明, 潘石柱, 張興明, 傅利泉, 朱江明, 吳軍, 吳堅(jiān) 申請(qǐng)人:浙江大華技術(shù)股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1