国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法

      文檔序號(hào):2830734閱讀:526來(lái)源:國(guó)知局
      專利名稱:用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法
      用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,特別是指適
      用于基于高斯混合模型的分類器的參數(shù)更新方法。背景技術(shù)
      音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索
      技術(shù)中的一個(gè)重要部分,相應(yīng)的現(xiàn)有技術(shù)可參考中國(guó)專利1391211、 1223739 及1270361號(hào)及美國(guó)專利5, 613, 037、 6, 292, 776及5, 440, 662號(hào)等。 在音頻檢索應(yīng)用中,需要對(duì)音頻數(shù)據(jù)進(jìn)行分類,它的目的是區(qū)分輸入的音頻信 號(hào)屬于那一類,常見(jiàn)的音頻類別有人聲、背景噪聲、流行音樂(lè)、古典音樂(lè)等, 并且音頻內(nèi)容分類的應(yīng)用也非常廣泛,特別是在音頻檢索領(lǐng)域,音頻內(nèi)容分 類起著決定性的作用,而在一些多媒體摘要的抽取過(guò)程中,音頻內(nèi)容分類作 為視頻內(nèi)容檢索的一種輔助手段也起到了重要作用。廣義上來(lái)說(shuō),在很多語(yǔ) 音和音頻標(biāo)準(zhǔn),例如3GPP的AMR-WB和AMR-WB+里,它們都用到了語(yǔ)音 /噪聲分類器和語(yǔ)音/音樂(lè)分類器,提供給編碼器輸入信號(hào)是哪一種音頻信號(hào), 從而對(duì)每一種信號(hào)采取不同的編碼器,因此設(shè)計(jì)一種良好的音頻內(nèi)容分類方 法是相當(dāng)關(guān)鍵和重要的。在通常的分類方法中,通常用到兩個(gè)必不可少的模 塊,即音頻特征提取模塊,其功能是從輸入的音頻采樣點(diǎn)中提取反映音頻內(nèi) 容種類的信息,而另一個(gè)則是分類器,其利用這些信息完成對(duì)種類判斷的過(guò)程。在音頻內(nèi)容分類技術(shù)領(lǐng)域內(nèi),已有很多種分類器被廣泛應(yīng)用了,其中決
      策樹(shù)(Decision Tree)和k-最近鄰方法(K Nearest Neighbor)為兩種相對(duì)較 易于實(shí)現(xiàn)和理解的分類器,它們并對(duì)語(yǔ)音、環(huán)境噪聲、音樂(lè)三類音頻內(nèi)容分 類取得了良好的效果。此外,在AMR-WB+標(biāo)準(zhǔn)里,語(yǔ)音和音樂(lè)的分類器也 是采用的決策樹(shù)的方法。而支持向量機(jī)分類器(Support Vector Machine Classifier)作為一種近幾年來(lái)被很多機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域里采用的分類 器,也被證明是一種非常行之有效的方法。其他幾種經(jīng)典分類器,例如反向 神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),聚類(Clustering)方法,也被證明對(duì)音頻內(nèi)容分類是有效的。
      高斯混合模型(Gaussian Mixture Model, GMM)是一種應(yīng)用最廣泛的概率 密度模型,尤其在音頻內(nèi)容分類器里,它認(rèn)為特征向量的概率密度模型符合 高斯混合模型,并用訓(xùn)練數(shù)據(jù)來(lái)估計(jì)混合模型的參數(shù),再根據(jù)建立的混合模 型采用適當(dāng)?shù)姆诸惼魍瓿煞诸愡^(guò)程。而實(shí)際上,在很多分類器應(yīng)用里,訓(xùn)練 樣本都是很有限或者不充分的,無(wú)法根據(jù)實(shí)際測(cè)試樣本來(lái)更新分類器參數(shù), 進(jìn)而無(wú)法達(dá)到最優(yōu)化分類的目的.
      發(fā)明內(nèi)容
      本發(fā)明的目的在于提供一種用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法, 特別是指適用于基于高斯混合模型的分類器的參數(shù)更新方法,其能夠根據(jù)實(shí) 際測(cè)試樣本來(lái)更新分類器參數(shù),以達(dá)到最優(yōu)化分類的目的。
      依據(jù)上述發(fā)明目的,本發(fā)明提供一種用于音頻內(nèi)容識(shí)別的分類器參數(shù)更 新方法,包括如下步驟獲取新的訓(xùn)練數(shù)據(jù);
      進(jìn)行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二; 利用數(shù)據(jù)集一更新高斯混合模型參數(shù);
      而對(duì)于數(shù)據(jù)集二,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是 大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù)。
      依據(jù)上述主要特征,如果數(shù)據(jù)集二的數(shù)據(jù)量小于一門限值,則保持原高 斯混合模型參數(shù)不變。
      依據(jù)上述主要特征,其中在進(jìn)行數(shù)據(jù)選擇的過(guò)程中是基于原參數(shù)所構(gòu)成 的高斯混合模型并計(jì)算新數(shù)據(jù)在此模型下概率的大小而選擇。
      依據(jù)上迷主要特征,其中當(dāng)t A(x";A,:s,)"的時(shí)候,將新數(shù)據(jù)x"放
      在數(shù)據(jù)集一,而當(dāng)|>^ ;/^,^)<7的時(shí)候,則將新數(shù)據(jù)^放在數(shù)據(jù)集二,
      此時(shí)v為一預(yù)設(shè)值。
      依據(jù)上述主要特征,其中在進(jìn)行數(shù)據(jù)選擇的過(guò)程中是基于計(jì)算數(shù)據(jù)和高 斯混合模型分布中心的距離而選擇。
      依據(jù)上述主要特征,其中如果新數(shù)據(jù)和高斯混合模型分布中心的距離大 于某一個(gè)門限,則歸為數(shù)據(jù)集二,反之為歸為數(shù)據(jù)集一,
      依據(jù)上述主要特征,對(duì)于數(shù)據(jù)集一的數(shù)據(jù),應(yīng)用如下的推導(dǎo)式子求出新 高斯混合模型參數(shù)其中參數(shù)^,A,!'-1,2,3決定著更新的強(qiáng)度,其具體值可以任意決定,只需 滿足a,+早=U-1,2,3。
      依據(jù)上述主要特征,上述的A-_J_,/-i,2j3,其中N是原數(shù)
      據(jù)集大小,K是數(shù)據(jù)集一的數(shù)據(jù)個(gè)數(shù)。
      依據(jù)上迷主要特征,其中對(duì)于數(shù)據(jù)集二的數(shù)據(jù),則訓(xùn)練其自身的高斯混 合模型參數(shù)并更新整體的高斯混合模型參數(shù),采取如下的方法
      第一步根據(jù)xf,《,...,《計(jì)算這些數(shù)據(jù)所產(chǎn)生的高斯混合模型參數(shù)(新 增h個(gè)高斯混合)
      第二步重新分配混合百分比參數(shù)^,/ = 1,2,...,5 + /|,而不更新其它兩組參
      ,巧,S乂,j-g + l,g + 2,…,g + A
      , 乂 = g +1, g + 2,…,A
      其中,參數(shù)須滿足"+ # = 1。依據(jù)上述主要特征,其中"-^^,p-"^,其中N是原數(shù)據(jù)集大小, K是數(shù)據(jù)集一的數(shù)據(jù)個(gè)數(shù)。
      與現(xiàn)有技術(shù)相比較,本發(fā)明針對(duì)當(dāng)前的高斯混合模型,根據(jù)實(shí)際測(cè)試樣 本來(lái)更新分類器參數(shù),從而可以達(dá)到最優(yōu)化分類的目的,并且經(jīng)試驗(yàn)證明, 針對(duì)音頻內(nèi)容分類,實(shí)施本發(fā)明的方法后得到的分類正確率要比不采用此方
      法平均增加5.3%,,對(duì)于某些特定音頻分類問(wèn)題,其增強(qiáng)效果可以達(dá)到8.1% 以上,


      圖1為實(shí)施本發(fā)明的流程圖.具體實(shí)施方式

      音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索 技術(shù)中的一個(gè)重要部分。在音頻檢索應(yīng)用中,需要對(duì)音頻數(shù)據(jù)進(jìn)行分類,它 的目的是區(qū)分輸入的音頻信號(hào)屬于那一類,常見(jiàn)的音頻類別有人聲、背景噪 聲、流行音樂(lè)、古典音樂(lè)等,并且音頻內(nèi)容分類的應(yīng)用也非常廣泛,特別是 在音頻檢索領(lǐng)域,音頻內(nèi)容分類起著決定性的作用,而在一些多媒體摘要的 抽取過(guò)程中,音頻內(nèi)容分類作為視頻內(nèi)容檢索的一種輔助手段也起到了重要 作用。廣義上來(lái)說(shuō),在很多語(yǔ)音和音頻標(biāo)準(zhǔn),例如3GPP的AMR-WB和 AMR-WB+里,它們都用到了語(yǔ)音/噪聲分類器和語(yǔ)音/音樂(lè)分類器,提供給編 碼器輸入信號(hào)是哪一種音頻信號(hào),從而對(duì)每一種信號(hào)采取不同的編碼器,因 此設(shè)計(jì)一種良好的音頻內(nèi)容分類方法是相當(dāng)關(guān)鍵和重要的。在通常的分類方法中,通常用到兩個(gè)必不可少的模塊,即音頻特征提取模塊,其功能是從輸 入的音頻采樣點(diǎn)中提取反映音頻內(nèi)容種類的信息,而另一個(gè)則是分類器,其 利用這些信息完成對(duì)種類判斷的過(guò)程.在音頻內(nèi)容分類技術(shù)領(lǐng)域內(nèi),已有很
      多種分類器被廣泛應(yīng)用了,其中決策樹(shù)(DecisionTree)和k-最近鄰方法(K Nearest Neighbor)為兩種相對(duì)較易于實(shí)現(xiàn)和理解的分類器,它們并對(duì)語(yǔ)音、 環(huán)境噪聲、音樂(lè)三類音頻內(nèi)容分類取得了良好的效果。此外,在八嫩- 8+ 標(biāo)準(zhǔn)里,語(yǔ)音和音樂(lè)的分類器也是采用的決策樹(shù)的方法。而支持向量機(jī)分類 器(Support Vector Machine Classifier)作為一種近幾年來(lái)被很多機(jī)器學(xué)習(xí)和 模式識(shí)別領(lǐng)域里采用的分類器,也被證明是一種非常行之有效的方法。其他 幾種經(jīng)典分類器,例如反向神經(jīng)網(wǎng)絡(luò)(Back-iPropagation Neural Network),人 工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),聚類(Clustering)方法,也被證明對(duì)音 頻內(nèi)容分類是有效的。
      高斯混合模型(Gaussian Mixture Model,以下簡(jiǎn)稱GMM)是一種應(yīng)用最廣 泛的概率密度模型,尤其在音頻內(nèi)容分類器里,它認(rèn)為特征向量的概率密度 模型符合高斯混合模型,并用訓(xùn)練數(shù)據(jù)來(lái)估計(jì)混合模型的參數(shù),再根據(jù)建立 的混合模型采用適當(dāng)?shù)姆诸惼魍瓿煞诸愡^(guò)程。而實(shí)際上,在很多分類器應(yīng)用 里,訓(xùn)練樣本都是很有限或者不充分的,無(wú)法根據(jù)實(shí)際測(cè)試樣本來(lái)更新分類 器參數(shù),進(jìn)而無(wú)法達(dá)到最優(yōu)化分類的目的,本發(fā)明正是針對(duì)現(xiàn)有技術(shù)的此缺 陷而提出一種解決方案。
      在具體實(shí)施時(shí),假i殳當(dāng)前的0自參數(shù)為~,^,2:,,7-1,2,...,《(這表示這個(gè)GMM總共有g(shù)個(gè)分量,每一個(gè)分量都對(duì)應(yīng)了三個(gè)參數(shù)),所以GMM的概率 為
      則龍,//,1:)=|>乂 》
      戶i
      本發(fā)明是用以解決當(dāng)新數(shù)據(jù)塞r,xr,.,.,x,到來(lái)的時(shí)候,如何更新GMM的
      參數(shù),具體流程可參圖2所示,具體包括如下步驟
      笫一步獲取新的訓(xùn)練數(shù)據(jù),即接收新數(shù)據(jù)xr,《,...,《;
      笫二步進(jìn)行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二,首先根據(jù)當(dāng)前的高
      斯混合模型分布,選擇出哪些數(shù)據(jù)構(gòu)成了新的混合模型,而哪些數(shù)據(jù)用來(lái)更
      新原高斯混合模型的參數(shù)。在具體實(shí)施時(shí), 一種方式是根據(jù)新數(shù)據(jù)在原模型
      下的概率大小來(lái)選擇,即
      *當(dāng)lX^(x";A,、)"的時(shí)候,將xf放在數(shù)據(jù)集一; *當(dāng)lXp,(xr;A,2,)q的時(shí)候,將xf放在數(shù)據(jù)集二; 此時(shí)"為一預(yù)設(shè)值。
      另外 一種實(shí)施方式是計(jì)算數(shù)據(jù)和高斯混合模型分布中心的距離,如果距 離大于某一個(gè)門限,則判為數(shù)據(jù)集二,反之為數(shù)據(jù)集一的數(shù)據(jù),
      如此可以得到兩個(gè)數(shù)據(jù)集數(shù)據(jù)集一和數(shù)據(jù)集二,其中數(shù)據(jù)集二中保存 了構(gòu)造新混合模型的數(shù)據(jù),而數(shù)據(jù)集一保存了剩下的數(shù)據(jù),用于更新當(dāng)前 GMM參數(shù)"http:///,2々=1,2"."容。
      對(duì)于數(shù)據(jù)集一的數(shù)據(jù),應(yīng)用如下的推導(dǎo)式子求出新GMM參數(shù), .啡H s)
      *=1
      其中參數(shù)a,,A,i-L2,3決定著更新的強(qiáng)度,其具體值可以任意決定,只是
      需滿足a,+KA-U = U,3。 一種實(shí)施方式是《, =~^~,A-~^~,f-lJ253,其中N
      是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一的數(shù)據(jù)個(gè)數(shù)。
      對(duì)于數(shù)據(jù)集二的數(shù)據(jù),則訓(xùn)練其自身的高斯混合模型參數(shù)并更新整體的 高斯混合模型參數(shù),采取如下的方法
      第一步根據(jù)sr,《,...,《計(jì)算這些數(shù)據(jù)所產(chǎn)生的高斯混合模型參數(shù)(新 增h個(gè)高斯混合)
      第二步重新分配混合百分比參數(shù)~,7-1,2,...^ + /1,而不更新其它兩組參
      數(shù)
      (a;r乂,y = l,2,...g 乂" + l,g + 2,""/j
      其中,參數(shù)須滿足"+ A-l,其中一種實(shí)施例則是令"=_^一,# = _£_,其中
      13N是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一的數(shù)據(jù)個(gè)數(shù)。此時(shí)高斯混合模型參數(shù)被更 新為jr),〃/,Z>,/ = l,2,...,g+/
      至此,高斯混合模型參數(shù)更新完畢。
      與現(xiàn)有技術(shù)相比較,本發(fā)明針對(duì)當(dāng)前的高斯混合模型,根據(jù)實(shí)際測(cè)試樣 本來(lái)更新分類器參數(shù),從而可以達(dá)到最優(yōu)化分類的目的。針對(duì)音頻內(nèi)容分類, 采用此方法所取得分類正確率要比不采用此方法平均增加5.3%.尤其對(duì)于某 些特定音頻分類問(wèn)題,其增強(qiáng)效果可以達(dá)到8.1%以上。
      權(quán)利要求
      1. 一種用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,適用于基于高斯混合模型的分類器,其特征在于該方法包括如下步驟獲取新的訓(xùn)練數(shù)據(jù);進(jìn)行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二;利用數(shù)據(jù)集一更新高斯混合模型參數(shù);而對(duì)于數(shù)據(jù)集二,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù)。
      2. 如權(quán)利要求1所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特 征在于如果數(shù)據(jù)集二的數(shù)據(jù)量小于一門限值,則保持原高斯混合模型參數(shù) 不變。
      3. 如權(quán)利要求1所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特征在于其中在進(jìn)行數(shù)據(jù)選擇的過(guò)程中是基于原參數(shù)所構(gòu)成的高斯混合模型 并計(jì)算新數(shù)據(jù)在此模型下概率的大小而選擇。
      4. 如權(quán)利要求3所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特 征在于其中當(dāng)^>^ ;/^,2,)>"的時(shí)候,將新數(shù)據(jù)xr放在數(shù)據(jù)集一,而當(dāng)^>^ ;//,,2,)<;7的時(shí)候,則將新數(shù)據(jù)x產(chǎn)放在數(shù)據(jù)集二,此時(shí)"為一預(yù)設(shè) 值.
      5. 如權(quán)利要求1所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特征在于其中在進(jìn)行數(shù)據(jù)選擇的過(guò)程中是基于計(jì)算數(shù)據(jù)和高斯混合模型分布 中心的距離而選擇。
      6. 如權(quán)利要求5所迷的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特 征在于其中如果新數(shù)據(jù)和高斯混合模型分布中心的距離大于某一個(gè)門限, 則歸為數(shù)據(jù)集二,反之為歸為數(shù)據(jù)集一。
      7. 如權(quán)利要求4或6所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法, 其特征在于對(duì)于數(shù)據(jù)集一的數(shù)據(jù),應(yīng)用如下的推導(dǎo)式子求出新高斯混合模 型參數(shù)<formula>formula see original document page 3</formula>其中參數(shù)",,A,"1,2J決定著更新的強(qiáng)度,其具體值可以任意決定,只需
      8. 如權(quán)利要求7所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特 征在于上述的",-^,A-^,,'-^2山其中N是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一 的數(shù)據(jù)個(gè)數(shù)。
      9. 如權(quán)利要求8所迷的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其特征在于對(duì)于數(shù)據(jù)集二的數(shù)據(jù),則訓(xùn)練其自身的高斯混合模型參數(shù)并更新整 體的高斯混合模型參數(shù),采取如下的方法第 一 步根據(jù)xf ,x,,…,xf計(jì)算這些數(shù)據(jù)所產(chǎn)生的高斯混合模型參數(shù)龍;,〃"2" _/= g +1, g + 2"." g +/ 第二步重新分配混合百分比參數(shù)^,1/ = 1,2"^ + /1,而不更新其它兩組參數(shù)龍'=, = g +1, g + 2,…,A其中,參數(shù)須滿足a + "-l。
      10. 如權(quán)利要求9所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其 特征在于《-T7^,;ff-_^,其中N是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一的數(shù)據(jù)個(gè)數(shù)。
      11. 如權(quán)利要求4或6所述的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法, 其特征在于對(duì)于數(shù)據(jù)集二的數(shù)據(jù),則訓(xùn)練其自身的高斯混合模型參數(shù)并更 新整體的高斯混合模型參數(shù),采取如下的方法第一步根據(jù)<"%《,...,《計(jì)算這些數(shù)據(jù)所產(chǎn)生的高斯混合模型參數(shù)第二步重新分配混合百分比參數(shù)^,y-i,2,…,g+;j,而不更新其它兩組參數(shù)龍;卞^,"g + l,g + U其中,參數(shù)須滿足《 + ^-1。
      12.如權(quán)利要求u所迷的用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,其a工 w s工,其中N是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一的數(shù)特征在于.."-;^,"-w+k據(jù)個(gè)數(shù)。
      全文摘要
      一種用于音頻內(nèi)容識(shí)別的分類器參數(shù)更新方法,包括如下步驟獲取新的訓(xùn)練數(shù)據(jù);進(jìn)行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二;利用數(shù)據(jù)集一更新高斯混合模型參數(shù);而對(duì)于數(shù)據(jù)集二,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù),如此本發(fā)明可針對(duì)當(dāng)前的高斯混合模型,根據(jù)實(shí)際測(cè)試樣本來(lái)更新分類器參數(shù),從而可以達(dá)到最優(yōu)化分類的目的。
      文檔編號(hào)G10L15/14GK101546557SQ200810035350
      公開(kāi)日2009年9月30日 申請(qǐng)日期2008年3月28日 優(yōu)先權(quán)日2008年3月28日
      發(fā)明者林福輝, 黃鶴云 申請(qǐng)人:展訊通信(上海)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1