專利名稱:噪聲除去裝置、方法以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從包含噪聲的語音信號中除去噪聲成分的噪聲除去裝置、 方法以及程序。
背景技術(shù):
利用電話、移動電話來輸入語音的情況非常多。但是,由于包含噪聲 (例如交叉路口的噪聲、辦公室的噪聲等),所以經(jīng)常發(fā)生作為傳達對象 的語音的傳達困難、或者造成語音識別裝置的誤識別的情況。因此,需要 進行除去不需要的噪聲的處理。而且,以往已經(jīng)提出了噪聲除去的方法。在非專利文獻1中,作為以除去無相關(guān)性噪聲為目的的語音處理方式,提出了 SPAC ( Speech Processing system by use of Autocorrelation function)方式。周期波的自相關(guān)函數(shù)甲由與原信號相同的頻率成分構(gòu)成,并且也容易 進行周期的檢測。另一方面,隨機噪聲的自相關(guān)函數(shù)Y,振幅成分集中在 其原點附近。SPAC方式是,利用這樣的自相關(guān)函數(shù)Y的性質(zhì),把語音的 短時間自相關(guān)函數(shù)視為波形,將其1個周期的波形進行連接來再現(xiàn)語音信 號的方式,其利用噪聲與信號的相關(guān)函數(shù)的差異,能夠?qū)崿F(xiàn)噪聲電平的降 低和SN比的改善。如果對于量化的信號進行基于SPAC方式的噪聲降低 處理,則可大幅抑制停頓時的噪聲,從而能夠非常容易聽清。非專利文獻2記載了如下的方法,該方法把不存在語音的區(qū)間中的輸 入平均化,作為噪聲的頻鐠來保持,并通it^在語音區(qū)間中所輸入的包含 噪聲的語音的頻鐠中減去該噪聲的頻鐠,作為語音的頻鐠。非專利文獻1:高杉敏男、鈴木誠史、田中良二,"利用自相關(guān)函數(shù) 的語音處理方式(SPAC)的功能和基本特性"信學(xué)論,J62-A, No.3, pp.l75畫182, 1979年3月非專利文獻2: S.F.Boii."Suppression of Acoustic Noise in Speech Using Spectral Subtraction,,.IEEE Trans. ASSP-27,No.2,pp.ll3-120,1979但是,在非專利文獻l的方法中,必須要求出需要大量運算的自相關(guān) 函數(shù)。另外,由于使用自相關(guān)函數(shù)來生成語音,所以語音的頻率特性成為 原始語音的頻率頻鐠的二次方,從而產(chǎn)生語音的失真。作為避免語音的頻 率特性變成二次方的對策,雖然提出有將語音分割成多個頻帶,分別對每 個頻帶預(yù)先進行頻率特性的根處理的方法,但是在用于分割成頻帶的處 理、取得根的處理中需要大量的運算。在非專利文獻2的方法中,假定周圍的噪聲是穩(wěn)定的,雖然在穩(wěn)定噪 聲的情況下,或者噪聲較小的情況下具有一定的效果,但存在如下的缺點, 即在具有比較大電平的非穩(wěn)定噪聲的環(huán)境下,不能適當(dāng)?shù)爻ピ肼暢煞帧A硗?,作為噪聲除去裝置,還有一種裝置是除了設(shè)置用于捕捉本來的 語音的擴音器以外,還設(shè)置用于捕捉噪聲成分的擴音器,從這2個擴音器 的捕捉信號中除去噪聲,但其處理量較大。發(fā)明內(nèi)容因此,本發(fā)明提供一種能夠以較少的運算量、處理量來適當(dāng)?shù)爻ピ?聲成分的噪聲除去裝置、方法以及程序。本發(fā)明之1是一種噪聲除去裝置,從混入了噪聲的語音信號中除去噪 聲成分,其特征在于,具有(l)峰值檢測單元,從上述語音信號的頻譜 中檢測出其峰值位置;(2)掩模(mask)處理單元,使用以上述峰值位置 為變量的掩模函數(shù),獲得把頻鐠的值置換成更小值的噪聲除去頻譜。本發(fā)明之2是一種噪聲除去方法,從混入了噪聲的語音信號中除去噪 聲成分,其特征在于,(0)具有峰值檢測步驟和掩模處理步驟,(l)上述 峰值檢測步g上述語音信號的頻譜中檢測出其峰值位置,(2)上述掩模 處理步驟使用以上述峰值位置為變量的掩模函數(shù),獲得把頻鐠的值置換成 更小值的噪聲除去頻鐠。本發(fā)明之3是一種噪聲除去程序,從混入了噪聲的語音信號中除去噪 聲成分,其特征在于,使計算機作為如下單元而起作用(l)峰值檢測單 元,從上述語音信號的頻鐠中檢測出其峰值位置;(2)掩模處理單元,使 用以上述峰值位置為變量的掩模函數(shù),獲得把頻鐠的值置換成更小值的噪 聲除去頻鐠。根據(jù)本發(fā)明的噪聲除去裝置、方法以及程序,能夠以較少的運算量、 處理量,適當(dāng)?shù)爻ピ肼暢煞帧?br>
圖l是表示實施方式涉及的噪聲除去裝置的整體構(gòu)成的方框圖。圖2是表示實施方式涉及的噪聲除去裝置的各部分的詳細構(gòu)成的方框圖。圖3是表示實施方式的各部分的輸出等的說明圖。圖4是表示實施方式的掩模函數(shù)的例的說明圖。圖中1-噪聲除去裝置;10-分析部;101 -窗處理部;102-FFT 處理部;20-噪聲除去部;201-振幅特性計算處理部;202- ^值檢測處 理部;203-掩"模處理部;30-生成部;301-反FFT處理部;302-連接 處理部。
具體實施方式
(A)主要實施方式以下,參照附圖,對基于本發(fā)明的噪聲除去裝置、方法以及程序的一 實施方式進行說明。本實施方式的噪聲除去裝置的用途沒有被限定,但是, 例如作為語音識別裝置的前處理裝置而設(shè)置噪聲除去裝置,或者設(shè)置于移 動電話等的免提電話的捕捉語音的初始處理級中。(A-l)實施方式的構(gòu)成圖1是表示實施方式的噪聲除去裝置的全體構(gòu)成的方框圖,圖2是表 示其各部分的詳細構(gòu)成的方框圖。此外,圖2也可以被視為表示各部分的 處理和處理流程的圖。在圖1中,本實施方式的噪聲除去裝置1概括地具有分析部10、噪聲
除去部20、和生成部30。也可以將這些分析部IO、噪聲除去部20和生成 部30分別用專用的硬件(例如半導(dǎo)體芯片)構(gòu)成,另外,也可以通過把用 于使處理器執(zhí)行作為分析部10、噪聲除去部20以及生成部30的功能的程 序安裝在具有處理器(CPU)的裝置中來實現(xiàn)。分析部10,輸入混入了噪聲的數(shù)字語音信號,通過FFT (高速傅立葉 變換)處理來進行頻率分析。噪聲除去部20,以來自分析部10的輸出為 輸入,除去噪聲成分。生成部30,對來自噪聲除去部20的輸出進行反FFT 處理,生成輸出語音。詳細地如圖2所示,分析部10具有窗處理部101和FFT處理部102。把輸入分析部10的數(shù)字語音信號設(shè)為x (n )。其中n表示第n個數(shù)據(jù) (抽樣)。數(shù)字語音信號x (n)例如是通過將從擴音器等語音輸入裝置輸 入的模擬語音信號進行模擬/數(shù)字變換,并在每個抽樣周期T進行抽樣而得 到的信號。抽樣周期T通常是31.25微秒~ 125微秒左右。以N個連續(xù)的 x (n)為1個分析單位(幀),進行各部分的處理。這里,作為一例,設(shè) N=512。當(dāng)完成了針對處理對象分析單位的該噪聲除去裝置10的一系列處 理后,將x (n)的后半N/2個數(shù)據(jù)移位到前半部,重新輸入連續(xù)的N/2個 數(shù)據(jù),并連接在后半部,由此生成新的N個連續(xù)的x (n ),作為1個分析 單位進行新的處理,并且反復(fù)進行這樣的處理對象分析單位的切換。此外,輸入數(shù)字語音信號不限于由擴音器捕捉的并進行了模擬/數(shù)字 變換的信號。例如,也可以是從記錄介質(zhì)等讀出的信號,另外,也可以是 從其他裝置通過通信提供的信號。窗處理部101對N個連續(xù)的x (n ),為了提高分析精度而設(shè)置窗函數(shù)。 如果把窗函數(shù)設(shè)為w (n ),則窗處理部101的輸出b (n)可通過(1)式 獲得。此外,作為窗函數(shù)w(n),可適用各種窗函數(shù),例如,適用(2) 式所示那樣的漢明(hamming)窗。窗處理是如后述那樣考慮到生成部30 中的分析單位的連接處理而進行的處理。[算式l<formula>formula see original document page 7</formula>不過,雖然最好加窗函數(shù),但不是必須的,可省略窗處理部101。FFT處理部102對來自窗處理部101的輸出b (n)進行N點FFT處 理。由(3 )式給出由FFT處理部102得到的頻鐠C (m )。[算式2<formula>formula see original document page 7</formula>此外,頻率分析方法不限于FFT,也可使用DFT (離散傅立葉變換) 等其他頻率分析方法。另外,才艮據(jù)安裝了實施方式的噪聲除去裝置l的裝 置,也可以將其他目的的處理裝置中的分析部構(gòu)成作為該噪聲除去裝置1 的構(gòu)成而轉(zhuǎn)用。例如,在設(shè)置該噪聲除去裝置1的裝置是IP電話的情況下, 可進行這樣的轉(zhuǎn)用。在IP電話的情況下,在IPlt據(jù)包的有效載荷中插入 將FFT輸出編碼后的信號,但是,能夠?qū)⒃揊FT輸出作為上述分析部IO 的輸出而轉(zhuǎn)用。詳細地如圖2所示,噪聲除去部20具有振幅特性計算處理部201、峰 值檢測處理部202、和掩模處理部203。振幅特性計算處理部201,計算來自FFT處理部102的輸出C (m) 的振幅特性。來自FFT處理部102的輸出C (m)是復(fù)數(shù),振幅特性計算 處理部201針對該輸出C (m),如(4)式所示那樣,進行絕對值運算和 對數(shù)運算,由此得到振幅特性D(m)。對數(shù)運算處理是考慮到聽覺上的線 性度而進行的處理。[算式3<formula>formula see original document page 7</formula>噪聲除去部20的處理,根據(jù)頻謙C (m)的性質(zhì)C (m) =C* (N-m) (其中,l舀m^N/2-l、 C* (N-m)表示C (N-m)的共軛復(fù)數(shù)),只要在 的范圍內(nèi)it:行即可。峰值檢測處理部202檢測振幅特性D (m)的峰值。即,峰值檢測處 理部202,檢索振幅特性D ( m)相對m在局部成為最大的峰值點mp。為了減少噪聲的影響,且強調(diào)振幅特性D (m)的峰值(極大值),使 用與一般的語音信號的頻謙的峰值附近的平均形狀接近的部分比較函數(shù)E(m ),按照(5 )式計算出振幅特性D ( m)與部分比較函數(shù)E ( m )之間 的非相似度F (m),將非相似度F (m)在閾值以下(換言之,相似程度 較大),且提供極小值的位置設(shè)為峰值點mp。部分比較函數(shù)E (m)由峰 值檢測處理部202預(yù)先保持。(5 )式中的Ml和M2,是部分比較函數(shù)E(m)具有值的范圍的開始和結(jié)束。[算式4M2F(m) = Z ((D(m + k)-卿-(D(m) - E(O))) 2......( 5)k = _Ml掩模處理部203,在多個峰值點mp中,從提供較大的振幅特性D( mm) 的峰值點inm,按順序進行如下的掩模處理。在掩模處理部203中,將預(yù)先考慮聽覺的掩模特性而作成的掩模函數(shù) M (s, mm, D (mm))表格化,并儲存(參照后述的圖4)。掩模處理部 203對于在振幅特性D (m)與掩模函數(shù)M (s, mm, D (mm))之間滿足 (6)式的關(guān)系的點s (s為的范圍),進行把FFT處理部102 的輸出C (m)置換為0的處理(掩模)。掩模處理部203對于全部的峰值 點mp實施掩模處理。[算式5D(mm)-D(s) >M(S,mm,D(mm)) ……(6)對于在0^m^N/2的范圍求出的噪聲除去頻鐠G (m),根據(jù)G (m)=G* (N-m)(其中N/2+l^m^N-l),求出的范圍的噪聲除去 頻譜G (m )。然后把所得到的噪聲除去頻諳G (m)提供給生成部30。詳細地如圖2所示,生成部30具有反FFT處理部301和連接處理部302。反FFT處理部301 ,對噪聲除去頻鐠G ( m)進行N點反FFT處理, 得到噪聲除去信號g (n)。此外,在取代上述的FFT處理部102而使用 DFT處理部的情況下,也把該反FFT處理部301置換成反DFT處理部。連接處理部302,如(7)式所示那樣,將關(guān)于當(dāng)前處理對象分析單位 的噪聲除去信號g (n)的前半部的N/2個數(shù)據(jù)、與關(guān)于前一個分析單位的 噪聲除去信號g, (n)的后半部的N/2個^:據(jù)相加,得到輸出y (n)。[算式6= g(w)+容,("+ 7V7 2) …,"(7) 這里,以在互為前后的分析單位中使半數(shù)的數(shù)據(jù)(抽樣)重復(fù)的方式,一邊移位N/2個lt據(jù), 一邊進行上述的處理,是為了圓滑地進行波形連接, 該方法被普遍使用。對于l個分析單位,從分析部10到該生成部30為止 的上述一系列處理所允許的時間為NT/2,此外,根據(jù)噪聲除去裝置的用途,可省略生成部30或轉(zhuǎn)用其他裝置所 具有的生成部。例如,如果在噪聲除去裝置被使用在語音識別裝置中的情 況下,將噪聲除去頻譜G (m)作為識別用特征量使用,從而可省略生成 部30。另外,例如如果在噪聲除去裝置被使用在IP電話機中的情況下, 由于IP電話機具有生成部,所以也可以轉(zhuǎn)用該生成部。(A-2)實施方式的動作下面,參照圖3和圖4,對具有上述構(gòu)成的實施方式的噪聲除去裝置1 的動作(實施方式的噪聲除去方法)進行說明。由窗處理部101對輸入到分析部10的N個連續(xù)的HL據(jù)x (n)實施窗 處理,由FFT處理部102對被實施窗處理后的數(shù)據(jù)b (n)執(zhí)行N點FFT 在FFT處理部102中得到的頻鐠C (m)被提供給噪聲除去部20。噪 聲除去部20的處理根據(jù)頻鐠C (m)的性質(zhì)C (m) =C* (N-m)(其中, 1^m^N/2曙l, CMN-m)表示C(N-m)的共軛復(fù)數(shù)),只要在0^m^N/2 的范圍內(nèi)進行即可.在噪聲除去部20中,由振幅特性計算處理部201計算出頻譜C (m) 的振幅特性。圖3 (a)表示來自振幅特性計算處理部201的輸出D (m) 的一例。在振幅特性D(m)中,包含大概30~100個左右的峰值點。然后,由峰值檢測處理部202,利用圖3 (b)所示那樣的部分比較函 數(shù)E (m)檢測振幅特性D (m)的峰值。即,計算出圖3 (a)所示的振 幅特性D (m)與圖3 (b)所示的部分比較函數(shù)E (m)之間的非相似度 F (m),并且將該非相似度F (m)小于閾值、且提供極小值的位置作為 峰值點mp檢測出來,圖3 (c)表示在對于圖3 (a)所示的振幅特性D (m ) 應(yīng)用了圖3 (b )所示的部分比較函數(shù)E ( m)的情況下的非相似度F (m ), 根據(jù)該非相似度F (m)檢測出圖3 (d)所示那樣的峰值點mp。在^^模處理部203中,首先>^%值點mp中識別出提供最大振幅特性D (mm)的峰值點mm,從預(yù)先作成并保存的掩模函數(shù)M (s、 mm、 D ( mm )) 的表中,取出關(guān)于所識別的峰值點nv的掩模函數(shù)M(s、 mm、 D(mm)), 對于在振幅特性D (m)與掩模函數(shù)m (s、 mm、 D (mm))之間滿足(6) 式的關(guān)系的點s(s在0^s^N/2的范圍),將FFT處理部102的輸出C(m) 置換成O。從峰值點mp的較大的一方開始,按順序?qū)?^P峰值點mp反復(fù)執(zhí)行這 樣的處理。圖4表示掩模函數(shù)M (s、 mm、 D (mm))的例.實線曲線(連結(jié)黑菱 形的曲線)表示掩模函數(shù)M (s、 38、 100),虛線曲線(連結(jié)黑四邊形的 曲線)表示掩模函數(shù)M (s、 28、 100)。頻率越高的峰值點,越容易掩模, 且附近范圍變寬。圖3 (e)表示從掩模處理部203輸出的噪聲除去頻諉G (m )。噪聲除 去頻鐠G (m)如果與振幅特性D (m)比較,則強調(diào)了振幅特性D (m) 的峰值(極大值)的附近。可將在振幅特性D (m)中值較小的頻率成分 視為噪聲成分,在本實施方式中將其除去。在振幅特性D (m)中值較大 的頻率成分是SN比非常好的成分,即使不進行噪聲成分的排除,在聽覺 上也不會成問題.另外,即使除去被視為噪聲成分的頻率成分,由于人類 具有良好的對頻率進行連續(xù)處理的i/v知力,所以不會產(chǎn)生異樣的感覺。在 本實施方式中,基于這一點,通過以振幅特性D (m)中的峰值點為基準 的掩模處理,來除去噪聲。針對在0^m^N/2的范圍內(nèi)求出的噪聲除去頻諳G(m),根據(jù)G(m) =G* (N-m)(其中N/2+l^m^N-l),求出0芻m^N-l范圍內(nèi)的噪聲除去 頻譜G (m )。對于噪聲除去頻譜G (m ),由生成部30的反FFT處理部301實施N 點反FFT處理,將其變換成噪聲除去信號g (n ),進一步,由連接處理部 302將分析單位的噪聲除去信號g (n)進行連接處理,從而得到輸出信號 y (n)'(A-3)實施方式的效果根據(jù)上述實施方式,由于在頻率特性上除去噪聲,所以與其他方式比 較,能夠以極少的處理量、運算量來除去噪聲。另外,與使用2個擴音器 那樣的以往裝置比較,可簡化構(gòu)成或處理。(B)其他實施方式在上述實施方式的說明中,雖然也提到了各種變形實施方式,但$可 以列舉出以下所示的變形實施方式。在上述實施方式中,說明了互為前后的每個分析單位重疊數(shù)據(jù)的1/2 的情況,但也可以把互為前后的分析單位的數(shù)據(jù)完全切分.在這樣做的情 況下,即使是處理器的處理能力較低的情況,和希望另外地使用處理能力 的等情況下,也可以進行噪聲除去。此外,在這種情況下,最好不執(zhí)行窗 處理。作為與上迷實施方式相比將振幅特性計算處理部201中的運算更簡化 的方法,可列舉出以下2種方法。
第1是在振幅特性計算處理部201中省略對數(shù)運算,利用(8)式計算 出振幅特性D (m)的方法,可獲得與上述實施方式基^目同的效果,第 2是在振幅特性計算處理部201中,省略對數(shù)運算和絕對值運算中需要的 平方根處理,利用(9)式計算出振幅特性D (m)的方法,可獲得與上述 實施方式^M目同的效果。其中任意的方法,都需要將掩模函數(shù)M(s、 D (mm))與新的振幅特性D (m)相應(yīng)進行變換。m.[算式71= {其中,表示絕對值 )(8)(其中,表示絕對值 )(9)另外,作為與上述實施方式相比將峰值檢測處理部202的運算筒化的 方法,可列舉出將振幅特性D (m)在從m-K到B+K (K是任意數(shù))的 區(qū)間平均化來求出J^值的方法。進而,對于掩模函數(shù)M (s、 mm、 D (mm)),也可以取代使用實施方 式那樣的在頻譜的全域具有有效值的函數(shù),而使用如(10)式所示那樣的 非常簡化的掩模函數(shù)M (s、 mm、 D(mm))。如果把P設(shè)為峰值點nip的 平均間隔,貝,J (10)式所示的掩模函數(shù)具有對于在從峰值點mp到相隔P 的振幅特性上,將衰減H (H是預(yù)先設(shè)定的常數(shù))以上的FFT處理部102 的輸出C (s)進行掩模的作用。[算式81正的最大值S —W7」S尸時)^s-m》/5時)(10)另外,作為掩模函數(shù)M(s、 mm、 D(mm)),在參數(shù)s和mm相同的 情況下,也可以使用相同曲線的掩模函數(shù),根據(jù)D(mm)將其上下變動來 使用。此外,通過掩模處理而置換的值不限于0。例如,也可以使用使振幅 特性D (m)衰減的值。
另夕卜本發(fā)明的噪聲除去裝置也可以與其他噪聲除去裝置并用。例如,也可以在本發(fā)明的噪聲除去裝置的前級設(shè)置利用2個擴音器將多個說話者 的語音分離的基于獨立成分分沖斤(Independent Component Analysis : ICA)的音源分離裝置,對分離后的語音信號,4吏用本發(fā)明的噪聲除去裝 置除去殘留的噪聲。
權(quán)利要求
1.一種噪聲除去裝置,從混入了噪聲的語音信號中除去噪聲成分,其特征在于,具有峰值檢測單元,從上述語音信號的頻譜中檢測出其峰值位置;和掩模處理單元,使用以上述峰值位置為變量的掩模函數(shù),獲得將頻譜的值置換成更小值的噪聲除去頻譜。
2. 根據(jù)權(quán)利要求l所述的噪聲除去裝置,其特征在于,還具有頻率 分析單元,輸入上述語音信號,獲得其頻譜。
3. 根據(jù)權(quán)利要求1或2所述的噪聲除去裝置,其特征在于,還具有 信號生成處理單元,將上述噪聲除去頻鐠變換成語音信號。
4. 一種噪聲除去方法,從混入了噪聲的語音信號中除去噪聲成分,其 特征在于,具有峰值檢測步驟和掩模處理步驟,上述峰值檢測步驟從上述語音信號的頻鐠中檢測出其峰值位置, 上述掩模處理步驟使用以上述峰值位置為變量的4^模函數(shù),獲得將頻 鐠的值置換成更小值的噪聲除去頻鐠。
5. 根據(jù)權(quán)利要求4所述的噪聲除去方法,其特征在于,還具有頻率分 析步驟,該頻率分析步驟獲得被輸入的上述語音信號的頻語。
6. 根據(jù)權(quán)利要求4或5所述的噪聲除去方法,其特征在于,還具有信 號生成處理步驟,該信號生成處理步驟把上述噪聲除去頻鐠變換成語音信 號。
7. —種噪聲除去程序,從混入了噪聲的語音信號中除去噪聲成分,其 特征在于,使計算機作為以下單元而發(fā)揮功能峰值檢測單元,從上述語音信號的頻鐠中檢測出其峰值位置;和 掩模處理單元,使用以上述峰值位置為變量的掩模函數(shù),獲得將頻譜 的值置換成更小值的噪聲除去頻譜。
全文摘要
本發(fā)明提供一種能夠以較少的運算量、處理量,適當(dāng)?shù)爻ピ肼暢煞值脑肼暢パb置。本發(fā)明涉及從混入了噪聲的語音信號中除去噪聲成分的噪聲除去裝置。而且,其特征在于,具有峰值檢測單元,從上述語音信號的頻譜中檢測出其峰值位置;掩模處理單元,使用以上述峰值位置為變量的掩模函數(shù),獲得將頻譜的值置換成更小值的噪聲除去頻譜。
文檔編號G10L15/00GK101131819SQ20071009735
公開日2008年2月27日 申請日期2007年5月11日 優(yōu)先權(quán)日2006年8月25日
發(fā)明者森戶誠 申請人:沖電氣工業(yè)株式會社