專利名稱:語音信號區(qū)間估計(jì)裝置與語音信號區(qū)間估計(jì)方法及其程序與記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從包含多個(gè)聲音信號的信號中,估計(jì)語音信號存在的區(qū)間的語音信號區(qū)間估計(jì)裝置與語音信號區(qū)間估計(jì)方法以及在計(jì)算機(jī)中實(shí)施該裝置的程序與記錄了該程序的記錄介質(zhì)。
背景技術(shù):
在實(shí)際環(huán)境中利用自動語音識別技術(shù)的情況下,需要從包含作為處理對象的語音信號以外的噪聲的聲音信號中,估計(jì)作為處理對象的語音信號存在的區(qū)間,并進(jìn)一步去除噪聲。圖22作為以往的語音信號區(qū)間估計(jì)裝置900而表示用于實(shí)施在非專利文獻(xiàn)1公開的以往的語音信號區(qū)間估計(jì)方法的功能結(jié)構(gòu),簡單說明其動作。語音信號區(qū)間估計(jì)裝置 900包括聲音信號分析單元90、語音/非語音狀態(tài)概率比計(jì)算單元95、語音信號區(qū)間估計(jì)單元96。聲音信號分析單元90進(jìn)一步由聲音特征量提取單元91、概率估計(jì)單元92、參數(shù)存儲單元93、GMM(高斯混合模型(Gaussian Mixture Model)混合正態(tài)分布模型)存儲單元 94構(gòu)成。參數(shù)存儲單元93由初始噪聲概率模型估計(jì)用緩沖器931與噪聲概率模型估計(jì)用緩沖器931構(gòu)成。GMM存儲單元94由分別存儲了預(yù)先生成的無聲GMM與去噪語音GMM的無聲GMM存儲單元940與去噪語音(clean speech) GMM存儲單元941構(gòu)成。聲音特征量提取單元91提取包括語音信號與噪聲信號的聲音數(shù)字信號At的聲音特征量0t。作為聲音特征量,例如能夠利用對數(shù)梅爾譜(mel spectrum)或倒普(c印strum) 等。概率估計(jì)單元92利用無聲GMM與去噪語音GMM生成適應(yīng)了噪聲環(huán)境的非語音GMM與語音GMM,并計(jì)算相對于輸入的聲音特征量Qt的非語音GMM內(nèi)的全部的正態(tài)分布的非語音輸出概率以及語音GMM內(nèi)的全部的正態(tài)分布的語音輸出概率。語音/非語音狀態(tài)概率比計(jì)算單元95利用該非語音輸出概率與語音輸出概率,計(jì)算語音/非語音狀態(tài)概率比。語音信號區(qū)間估計(jì)單元96根據(jù)語音/非語音狀態(tài)概率比判斷輸入聲音信號是語音狀態(tài)還是非語音狀態(tài),從而僅輸出例如語音狀態(tài)的聲音信號Ds。這樣,以往的語音信號區(qū)間的估計(jì)方法利用GMM內(nèi)的全部的概率分布模型而估計(jì)語音區(qū)間。利用全部的概率模型是因?yàn)檎J(rèn)為其全部都重要。這種想法在非專利文獻(xiàn)2中作為語音信號區(qū)間檢測與噪聲抑制的方法而公開。利用全部的概率分布的想法從非專利文獻(xiàn) 2所示的計(jì)算噪聲抑制濾波器以及濾波器增益的下式(1)也可以明白。[數(shù)1]
權(quán)利要求
1.一種語音信號區(qū)間估計(jì)裝置,包括聲音信號分析單元,以包含語音信號與噪聲信號的聲音數(shù)字信號作為輸入,利用對該聲音數(shù)字信號的每個(gè)幀預(yù)先生成的無聲混合正態(tài)分布模型與去噪語音GMM,生成適合噪聲環(huán)境的非語音GMM與語音GMM,計(jì)算從各GMM中除去了最小輸出概率的一個(gè)以上的正態(tài)分布的剩余的正態(tài)分布的非語音輸出概率與語音輸出概率,其中GMM表示混合正態(tài)分布模型; 以及區(qū)間估計(jì)信息生成單元,利用上述非語音輸出概率與語音輸出概率,算出基于語音狀態(tài)/非語音狀態(tài)的狀態(tài)轉(zhuǎn)移模型的語音/非語音狀態(tài)概率比,并基于算出的上述概率比,生成有關(guān)語音區(qū)間的信息,并作為語音區(qū)間估計(jì)信息來輸出。
2.如權(quán)利要求1所述的語音信號區(qū)間估計(jì)裝置,其中,上述聲音信號分析單元包括 初始噪聲概率模型估計(jì)處理單元,估計(jì)初始的噪聲概率模型參數(shù);參數(shù)預(yù)測處理單元,根據(jù)一個(gè)幀之前的噪聲概率模型參數(shù)的估計(jì)結(jié)果,通過隨機(jī)游走過程,預(yù)測當(dāng)前幀的噪聲概率模型參數(shù);參數(shù)更新處理單元,以當(dāng)前幀的噪聲概率模型參數(shù)作為輸入,更新在無聲GMM與去噪語音GMM中包含的全部的正態(tài)分布的參數(shù);概率模型參數(shù)生成估計(jì)處理單元,利用更新后的正態(tài)分布的參數(shù)、無聲GMM以及去噪語音GMM的多個(gè)正態(tài)分布的參數(shù),生成適合當(dāng)前幀的噪聲環(huán)境的非語音GMM與語音GMM ; 輸出概率計(jì)算處理單元,計(jì)算在上述幀GMM中包含的各正態(tài)分布的輸出概率; 概率權(quán)重計(jì)算處理單元,以高次統(tǒng)計(jì)量將上述各正態(tài)分布的輸出概率的分散程度進(jìn)行參數(shù)化,從而計(jì)算用于將非語音狀態(tài)與語音狀態(tài)各自的上述各正態(tài)分布的輸出概率進(jìn)行加權(quán)的概率權(quán)重;必要分布決定處理單元,去除上述輸出概率的值成為微小的正態(tài)分布,僅提取具有充分大的輸出概率的正態(tài)分布;第1加權(quán)平均處理單元,利用概率權(quán)重計(jì)算單元算出的概率權(quán)重,對在上述參數(shù)預(yù)測處理單元中預(yù)測的當(dāng)前幀的噪聲概率模型參數(shù)進(jìn)行加權(quán)平均;以及第2加權(quán)平均處理單元,將在第1加權(quán)平均處理單元中加權(quán)平均后的噪聲概率模型參數(shù),僅針對上述必要分布決定處理單元提取的正態(tài)分布進(jìn)行加權(quán)平均。
3.如權(quán)利要求1所述的語音信號區(qū)間估計(jì)裝置,其中上述聲音信號分析單元包括概率權(quán)重計(jì)算處理單元,計(jì)算上述非語音輸出概率以及語音輸出概率的分散程度,并分別計(jì)算用于校正該非語音輸出概率以及語音輸出概率的概率權(quán)重,使得分散程度越小,該正態(tài)分布的輸出概率越大。
4.如權(quán)利要求1所述的語音信號區(qū)間估計(jì)裝置,其中上述語音信號分析單元包括必要分布決定處理的與,將上述輸出概率按照由大到小的順序依次算出累計(jì)和,并將產(chǎn)生超過規(guī)定值的累計(jì)和的輸出概率的正態(tài)分布決定為應(yīng)除去的上述最小輸出概率的一個(gè)以上的正態(tài)分布。
5.如權(quán)利要求1所述的語音信號區(qū)間估計(jì)裝置,進(jìn)一步包括信號平均單元,針對每個(gè)幀,將多聲道的上述聲音數(shù)字信號平均化;以及第2聲音信號分析單元,利用周期分量功率與非周期分量功率,求出語音概率與非語音概率,上述區(qū)間估計(jì)信息生成單元將上述語音信號分析單元與上述第2語音信號分析單元輸出的語音概率與非語音概率的對應(yīng)的概率分別進(jìn)行乘法運(yùn)算,并利用乘法運(yùn)算結(jié)果算出上述語音/非語音狀態(tài)概率比。
6.如權(quán)利要求1至5的任一項(xiàng)所述的語音信號區(qū)間估計(jì)裝置, 上述區(qū)間估計(jì)信息生成單元包括語音/非語音狀態(tài)概率比計(jì)算單元,算出上述語音/非語音狀態(tài)概率比;以及語音信號區(qū)間估計(jì)單元,根據(jù)上述語音/非語音狀態(tài)概率比,判定該幀的聲音信號是語音狀態(tài)還是非語音狀態(tài),并基于判定結(jié)果來生成上述語音區(qū)間估計(jì)信息。
7.如權(quán)利要求1至5的任一項(xiàng)所述的語音信號區(qū)間估計(jì)裝置,進(jìn)一步包括噪聲抑制單元,以上述區(qū)間估計(jì)信息生成單元輸出的概率比以及上述聲音信號分析單元輸出的輸出概率作為輸入,生成噪聲抑制濾波器,并抑制上述聲音數(shù)字信號的噪聲。
8.一種語音信號區(qū)間估計(jì)方法,包括聲音信號分析過程,以包含語音信號與噪聲信號的聲音數(shù)字信號作為輸入,利用對該聲音數(shù)字信號的每個(gè)幀預(yù)先生成的無聲混合正態(tài)分布模型與去噪語音GMM,生成適合噪聲環(huán)境的非語音GMM與語音GMM的概率模型,計(jì)算從各GMM中除去了最小輸出概率的一個(gè)以上的正態(tài)分布的剩余的正態(tài)分布的非語音輸出概率與語音輸出概率,其中GMM表示混合正態(tài)分布模型;以及區(qū)間估計(jì)信息生成過程,利用上述非語音輸出概率與語音輸出概率,算出基于語音狀態(tài)/非語音狀態(tài)的狀態(tài)轉(zhuǎn)移模型的概率比,并基于算出的上述概率比,生成有關(guān)語音區(qū)間的信息,并作為語音區(qū)間估計(jì)信息來輸出。
9.如權(quán)利要求8所述的語音信號區(qū)間估計(jì)方法,上述聲音信號分析過程包括 初始噪聲概率模型估計(jì)處理步驟,估計(jì)初始的噪聲概率模型參數(shù);參數(shù)預(yù)測處理步驟,根據(jù)一個(gè)幀之前的噪聲概率模型參數(shù)的估計(jì)結(jié)果,通過隨機(jī)游走過程,預(yù)測當(dāng)前幀的噪聲概率模型參數(shù);參數(shù)更新處理步驟,以當(dāng)前幀的噪聲概率模型參數(shù)作為輸入,更新在無聲GMM與去噪語音GMM中包含的全部的正態(tài)分布的參數(shù);概率模型參數(shù)生成估計(jì)處理步驟,利用更新后的正態(tài)分布的參數(shù)、無聲GMM以及去噪語音GMM的多個(gè)正態(tài)分布的參數(shù),生成適合當(dāng)前幀的噪聲環(huán)境的非語音GMM與語音GMM ; 輸出概率計(jì)算處理步驟,計(jì)算在上述幀GMM中包含的各正態(tài)分布的輸出概率; 概率權(quán)重計(jì)算處理步驟,以高次統(tǒng)計(jì)量將上述各正態(tài)分布的輸出概率的分散程度進(jìn)行參數(shù)化,從而計(jì)算用于將非語音狀態(tài)與語音狀態(tài)各自的上述各正態(tài)分布的輸出概率進(jìn)行加權(quán)的概率權(quán)重;必要分布決定處理步驟,去除上述輸出概率的值成為微小的正態(tài)分布,僅提取具有充分大的輸出概率的正態(tài)分布;第1加權(quán)平均處理步驟,利用概率權(quán)重計(jì)算單元算出的概率權(quán)重,對在上述參數(shù)預(yù)測處理單元中預(yù)測的當(dāng)前幀的噪聲概率模型參數(shù)進(jìn)行加權(quán)平均;以及第2加權(quán)平均處理步驟,將在第1加權(quán)平均處理部中加權(quán)平均后的噪聲概率模型參數(shù), 僅針對上述必要分布決定處理單元提取的正態(tài)分布進(jìn)行加權(quán)平均。
10.如權(quán)利要求8所述的語音信號區(qū)間估計(jì)方法,上述聲音信號分析過程包括以下過程計(jì)算上述非語音輸出概率以及語音輸出概率的分散程度,并校正上述非語音輸出概率以及語音輸出概率,使得分散程度越小,該正態(tài)分布的輸出概率越大。
11.如權(quán)利要求8所述的語音信號區(qū)間估計(jì)方法,上述語音信號分析過程包括以下過程將上述輸出概率按照由大到小的順序依次算出累計(jì)和,并將產(chǎn)生超過規(guī)定值的累計(jì)和的輸出概率的正態(tài)分布決定為應(yīng)除去的上述最小輸出概率的一個(gè)以上的正態(tài)分布。
12.如權(quán)利要求8所述的語音信號區(qū)間估計(jì)方法,進(jìn)一步包括信號平均過程,信號平均單元針對每個(gè)幀,將多聲道的上述聲音數(shù)字信號平均化;以及第2聲音信號分析過程,利用周期分量功率與非周期分量功率,求出語音概率與非語音概率,上述區(qū)間估計(jì)信息生成過程將上述語音信號分析單元與上述第2語音信號分析單元輸出的語音概率與非語音概率的對應(yīng)的概率分別進(jìn)行乘法運(yùn)算,并利用乘法運(yùn)算結(jié)果算出上述語音/非語音狀態(tài)概率比。
13.如權(quán)利要求8至12的任一項(xiàng)所述的語音信號區(qū)間估計(jì)方法,上述區(qū)間估計(jì)信息生成過程包括語音狀態(tài)/非語音狀態(tài)概率比計(jì)算過程,利用上述必要的分布的輸出概率,算出基于語音/非語音狀態(tài)的狀態(tài)轉(zhuǎn)移模型的概率比;以及語音信號區(qū)間估計(jì)過程,語音信號區(qū)間估計(jì)單元根據(jù)上述概率比,判定該幀的聲音信號是語音狀態(tài)還是非語音狀態(tài),并基于判定結(jié)果來生成上述語音區(qū)間估計(jì)信息。
14.如權(quán)利要求8至12的任一項(xiàng)所述的語音信號區(qū)間估計(jì)方法,進(jìn)一步包括噪聲抑制過程,以上述區(qū)間估計(jì)信息生成過程輸出的概率比以及上述聲音信號分析單元輸出的輸出概率作為輸入,生成噪聲抑制濾波器抑制上述聲音數(shù)字信號的噪聲。
15.一種程序,使計(jì)算機(jī)起到權(quán)利要求1所述的裝置的作用。
16.一種記錄介質(zhì),記錄了用于使計(jì)算機(jī)起到權(quán)利要求1所述的裝置的作用的程序。
全文摘要
提高語音信號區(qū)間估計(jì)裝置的處理效率與估計(jì)精度。聲音信號分析單元以包含語音信號與噪聲信號的聲音數(shù)字信號作為輸入,針對該聲音數(shù)字信號的每個(gè)幀,利用無聲GMM與去噪語音GMM生成適合噪聲環(huán)境的非語音GMM與語音GMM,并從各GMM中僅計(jì)算必要的正態(tài)分布的輸出概率。然后,語音/非語音狀態(tài)概率比計(jì)算單元利用該輸出概率,算出基于語音狀態(tài)/非語音狀態(tài)的狀態(tài)轉(zhuǎn)移模型的語音/非語音狀態(tài)概率比,語音信號區(qū)間估計(jì)單元根據(jù)語音/非語音狀態(tài)概率比,判定該幀的聲音信號是語音狀態(tài)還是非語音狀態(tài),從而僅輸出語音狀態(tài)的聲音信號。
文檔編號G10L15/20GK102473412SQ20108003274
公開日2012年5月23日 申請日期2010年7月15日 優(yōu)先權(quán)日2009年7月21日
發(fā)明者中谷智廣, 藤本雅清 申請人:日本電信電話株式會社