專利名稱:用于自動地選擇閾值以分離聲音源的信號分離系統(tǒng)和方法
技術領域:
以下描述涉及一種用于自動地選擇閾值以分離聲音源的信號分離系統(tǒng)和方法。
背景技術:
雖然語音識別技術的性能已經(jīng)極大地提高,但是語音識別的準確性通常在噪聲環(huán) 境中降低。因此,需要有效地解決在消費產(chǎn)品中實際使用的語音識別系統(tǒng)中,語音識別的準 確性減小的問題。因此,需要一種用于從干擾聲音源中有效地分離目標聲音的系統(tǒng)和方法。
發(fā)明內(nèi)容
在一個總體方面,一種信號分離系統(tǒng)包括冪序列計算器,基于從多個話筒接收的 信號使用目標掩碼計算目標信號的冪序列,并使用補充掩碼計算干擾信號的冪序列;閾值 設置單元,對目標信號冪序列和干擾信號冪序列應用非線性,計算非線性目標信號冪序列 和非線性干擾信號冪序列的相關系數(shù),以及設置最小化相關系數(shù)的噪聲掩飾閾值。冪序列計算器可基于從接收的信號的耳間時間差值(ITD)、接收的信號的耳間相 位差值(IPD)和接收的信號的耳間強度差值(IID)中選擇的至少一個差值,來產(chǎn)生目標掩 碼和補充掩碼。信號分離系統(tǒng)還可包括差值計算器,將短時傅里葉變換(STFT)應用于每個接收 的信號;以及基于STFT變換的信號計算所述至少一個差值。閾值設置單元可基于非線性目標信號冪序列、非線性干擾信號冪序列以及從接收 的信號的耳間時間差值(ITD)、接收的信號的耳間相位差值(IPD)和接收的信號的耳間強 度差值(IID)中選擇的至少一個差值,來計算相關系數(shù)。閾值設置單元可將所述至少一個差值設置為最小化相關系數(shù)的噪聲掩飾閾值。非線性可以是對數(shù)非線性或冪法則非線性。 目標掩碼和補充掩碼的每一個可以是二進制掩碼或連續(xù)掩碼。在另一總體方面,一種信號分離方法包括基于從多個話筒接收的信號使用目標 掩碼計算目標信號的冪序列,并使用補充掩碼計算干擾信號的冪序列;對目標信號冪序列 和干擾信號冪序列應用非線性;計算非線性目標信號冪序列和非線性干擾信號冪序列的相 關系數(shù);以及設置最小化相關系數(shù)的噪聲掩飾閾值。在另一總體方面,一種信號分離系統(tǒng)包括掩飾單元,使用目標掩碼和補充掩碼分 別掩飾從多個話筒接收的信號;閾值設置單元,設置最小化在掩飾的信號之間的相關性的 噪聲掩飾閾值。在另一總體方面,一種信號分離方法包括使用目標掩碼和補充掩碼分別掩飾從多個話筒接收的信號;以及設置最小化在掩飾的信號之間的相關性的噪聲掩飾閾值。在另一總體方面,一種信號分離系統(tǒng)包括掩飾頻譜產(chǎn)生器,使用目標掩碼和補充 掩碼從多個話筒接收的信號中產(chǎn)生掩飾的目標信號頻譜和掩飾的干擾信號頻譜;閾值設置 單元,基于接收的信號之間的差值來設置目標掩碼和補充掩碼的閾值,從而所述閾值最小 化在掩飾的目標信號頻譜的非線性的目標冪序列與掩飾的干擾信號頻譜的非線性的干擾 冪序列之間的相關性。在另一總體方面,一種信號分離方法包括使用目標掩碼和補充掩碼從多個話筒 接收的信號產(chǎn)生掩飾的目標信號頻譜和掩飾的干擾信號頻譜;以及基于接收的信號之間的 差值來設置目標掩碼和補充掩碼的閾值,從而所述閾值最小化在掩飾的目標信號頻譜的非 線性的目標冪序列與掩飾的干擾信號頻譜的非線性的干擾冪序列之間的相關性。通過以下詳細描述、附圖和權利要求,其它特點和方面將會變得更加清楚。
圖1示出左話筒、右話筒、目標聲音源和干擾聲音源的示例。圖2示出選擇用于聲音源分離的最優(yōu)掩飾耳間時間差值(ITD)閾值的過程的示 例。圖3示出信號分離系統(tǒng)的示例。圖4示出信號分離方法的示例。圖5示出信號分離系統(tǒng)的示例。圖6示出信號分離方法的示例。貫穿附圖和詳細描述,除非另外說明,相同的附圖標號將被理解為表示相同的元 件、特征和結構。為了清楚、示出和方便的目的,可夸大這些元件的相對大小和描述。
具體實施例方式提供以下詳細描述以助于讀者獲得對在此描述的方法、設備和/或系統(tǒng)的全面理 解。因此,在此描述的方法、設備和/或系統(tǒng)的各種改變、修改和/或等同物將被建議給本 領域的普通技術人員。另外,為了增加清楚和簡明的目的,可省略已知功能和結構的描述。即使在混合有各種聲音的噪聲環(huán)境中,人類雙耳系統(tǒng)也具有分離期望的聲音的能 力。這往往稱為雙耳雞尾酒會效應。在用于聲音分離的技術中,可基于每種聲音的唯一頻率、關于聲音到來的方向的 信息以及用于掩飾除了期望的聲音之外的聲音的聽覺特征,來分離聲音。已經(jīng)使用耳間時間差值(ITD)、耳間相位差值(IPD)和耳間強度差值(IID)開發(fā)了 基于聲音產(chǎn)生方向的信息的分離信號的各種方法。耳間強度差值(IID)也被稱為耳間聲級 差值(ILD)。由于通過頻率分析容易獲得相位信息,故相位信息可被廣泛用于雙耳處理。在基于如上所述的技術的許多算法中,二進制掩飾方案或連續(xù)掩飾方案可被用于 選擇由目標聲音源控制的時頻bin。這里,時頻表示針對時間變化的頻率成分變化,bin表 示與各個頻率相對應的值(或信息),時頻bin表示相關時間中的各個頻率成分。連續(xù)掩飾 方案通常呈現(xiàn)優(yōu)于二進制掩飾方案的性能,但是通常需要知道噪聲源的地點。然而,二進制 掩飾方案可用于全向噪聲環(huán)境或當事先沒有關于噪聲源的位置或特性的信息的情況中。然而,二進制掩飾方案的性能取決于如何選擇閾值,最優(yōu)閾值取決于非已知的噪聲源的位置 和強度。另外,如果噪聲源的位置和強度可變,則最優(yōu)閾值可隨時間而改變。以下描述是ITD、IPD和IID中的ITD被設置為閾值時的二進制掩飾方案。大體上, 可從一組潛在的ITD候選中選擇合適的ITD閾值。然而,最優(yōu)ITD閾值將取決于噪聲源的 數(shù)量和噪聲源的位置,并可隨時間而改變。例如,當來自噪聲源的聲音的方向與來自目標聲 音源的聲音的方向極大地不同時,包括更大范圍的ITD的ITD閾值會提供更好的結果。然 而,如果當噪聲源的位置與目標聲音源很接近時使用這樣的包括更大范圍的ITD的ITD閾 值,則干擾聲音源信號和目標聲音源信號均會被ITD閾值允許通過。當存在多于一個噪聲 源和/或當噪聲源移動時,這個問題可變的更加復雜。因此,如下所述,可使用采用二進制閾值的兩個補充掩碼。當使用兩個補充掩碼 時,可獲得兩個不同頻譜目標聲音源的頻譜和干擾聲音源的頻譜。還可從所述兩個頻譜獲 得用于目標聲音源和干擾聲音源的多個短時冪作為短時冪序列。可將非線性應用于短時冪 序列??墒褂脩玫姆蔷€性從冪序列計算相關系數(shù),并可選擇最小化相關系數(shù)的ITD閾值。下面描述從相位信息中獲得ITD的過程。假設和^[n]表示分別從左話筒 和右話筒接收的信號。圖1示出左話筒101、右話筒102、目標聲音源103和干擾聲音源104的示例。如 圖ι所示,目標聲音源103位于兩個話筒之間的中垂線105上,干擾聲音源104位于從中垂 線105以順時針方向旋轉(zhuǎn)角θ的線106上。兩個話筒分離距離Δ。從干擾聲音源104到 左話筒101的距離長于從干擾聲音源104到右話筒102的距離,這使來自干擾聲音源104 的聲音相比到達左話筒101更早地到達右話筒102,產(chǎn)生耳間時間差值(ITD)和耳間相位差 值(IPD)。在從干擾聲音源104到左話筒101的距離與從干擾聲音源104到右話筒102的 距離之間的差是Asine。由于聲音的強度隨著距離而減小,故所述距離的差值使在右話 筒102的聲音的強度大于在左話筒101的聲音的強度,從而產(chǎn)生耳間強度差值(IID)。當干 擾聲音源的總數(shù)是S時,單獨的聲音源s具有各自的ITD δ (s)。S和δ (s)兩者通常是未 知的。通過上述構想,可通過以下等式1來表示分別從左話筒101和右話筒102接收的由 xL[η]和χΕ [η]表示的信號
權利要求
1.一種信號分離系統(tǒng),包括冪序列計算器,基于從多個話筒接收的信號,使用目標掩碼計算目標信號的冪序列,并 使用補充掩碼計算干擾信號的冪序列;和 閾值設置單元,用于對目標信號冪序列和干擾信號冪序列應用非線性; 計算非線性目標信號冪序列和非線性干擾信號冪序列的相關系數(shù);以及 設置最小化相關系數(shù)的噪聲掩飾閾值。
2.如權利要求1所述的信號分離系統(tǒng),其中,冪序列計算器基于從接收的信號的耳間 時間差值ITD、接收的信號的耳間相位差值IPD和接收的信號的耳間強度差值IID中選擇的 至少一個差值,來產(chǎn)生目標掩碼和補充掩碼。
3.如權利要求2所述的信號分離系統(tǒng),還包括差值計算器,用于 將短時傅里葉變換STFT應用于每個接收的信號;以及基于STFT變換的信號計算所述至少一個差值。
4.如權利要求1所述的信號分離系統(tǒng),其中,閾值設置單元基于非線性目標信號冪序 列、非線性干擾信號冪序列以及從接收的信號的耳間時間差值ITD、接收的信號的耳間相位 差值IPD和接收的信號的耳間強度差值IID中選擇的至少一個差值,來計算相關系數(shù)。
5.如權利要求4所述的信號分離系統(tǒng),其中,閾值設置單元將所述至少一個差值設置 為最小化相關系數(shù)的噪聲掩飾閾值。
6.如權利要求1所述的信號分離系統(tǒng),其中,非線性是對數(shù)非線性或冪法則非線性。
7.如權利要求1所述的信號分離系統(tǒng),其中,目標掩碼和補充掩碼的每一個是二進制 掩碼或連續(xù)掩碼。
8.一種信號分離系統(tǒng),包括掩飾單元,使用目標掩碼和補充掩碼分別掩飾從多個話筒接收的信號;和 閾值設置單元,設置最小化在掩飾的信號之間的相關性的噪聲掩飾閾值。
9.如權利要求8所述的信號分離系統(tǒng),其中,閾值設置單元 對掩飾的信號的每一個應用非線性;計算非線性掩飾的信號的相關系數(shù);以及 設置噪聲掩飾閾值,從而相關系數(shù)具有最小值。
10.一種在信號分離系統(tǒng)中的信號分離方法,包括基于從多個話筒接收的信號,使用目標掩碼計算目標信號的冪序列,并使用補充掩碼 計算干擾信號的冪序列;對目標信號冪序列和干擾信號冪序列應用非線性; 計算非線性目標信號冪序列和非線性干擾信號冪序列的相關系數(shù);以及 設置最小化相關系數(shù)的噪聲掩飾閾值。
11.如權利要求10所述的信號分離方法,其中,計算冪序列的步驟包括基于從接收的 信號的耳間時間差值ITD、接收的信號的耳間相位差值IPD和接收的信號的耳間強度差值 IID中選擇的至少一個差值,來產(chǎn)生目標掩碼和補充掩碼。
12.如權利要求11所述的信號分離方法,還包括 將短時傅里葉變換STFT應用于每個接收的信號;以及基于STFT變換的信號計算所述至少一個差值。
13.如權利要求10所述的信號分離方法,其中,計算相關系數(shù)的步驟包括基于非線性 目標信號冪序列、非線性干擾信號冪序列以及從接收的信號的耳間時間差值ITD、接收的信 號的耳間相位差值IPD和接收的信號的耳間強度差值IID中選擇的至少一個差值,來計算 相關系數(shù)。
14.如權利要求13所述的信號分離方法,其中,設置噪聲掩飾閾值的步驟包括將所述 至少一個差值設置為最小化相關系數(shù)的噪聲掩飾閾值。
15.一種在信號分離系統(tǒng)中的信號分離方法,所述方法包括使用目標掩碼和補充掩碼分別掩飾從多個話筒接收的信號;以及設置最小化在掩飾的信號之間的相關性的噪聲掩飾閾值。
16.如權利要求15所述的信號分離方法,其中,所述設置的步驟包括對掩飾的信號的每一個應用非線性;計算非線性掩飾的信號的相關系數(shù);以及設置噪聲掩飾閾值,從而相關系數(shù)具有最小值。
17.一種信號分離系統(tǒng),包括掩飾頻譜產(chǎn)生器,使用目標掩碼和補充掩碼從多個話筒接收的信號中產(chǎn)生掩飾的目標 信號頻譜和掩飾的干擾信號頻譜;和閾值設置單元,基于接收的信號之間的差值來設置目標掩碼和補充掩碼的閾值,從而 所述閾值最小化在掩飾的目標信號頻譜的非線性的目標冪序列與掩飾的干擾信號頻譜的 非線性的干擾冪序列之間的相關性。
18.如權利要求17所述的信號分離系統(tǒng),還包括分離的目標信號產(chǎn)生器,從掩飾的目 標信號頻譜和由閾值設置單元設置的閾值中產(chǎn)生基本沒有干擾信號的分離的目標信號。
19.如權利要求17所述的信號分離系統(tǒng),其中,所述差值是耳間時間差值ITD。
20.如權利要求17所述的信號分離系統(tǒng),其中,目標掩碼和補充掩碼的每一個是二進 制掩碼。
21.如權利要求20所述的信號分離系統(tǒng),其中,如果所述差值小于或等于所述閾值,則目標掩碼具有值1,如果所述差值大于所述閾 值,則目標掩碼具有值n ;以及如果所述差值大于所述閾值,則補充掩碼具有值η,如果所述差值小于或等于所述閾 值,則補充掩碼具有值1。
22.如權利要求21所述的信號分離系統(tǒng),其中,值η表示實際是目標信號頻譜的部分 的干擾信號頻譜的部分。
23.如權利要求22所述的信號分離系統(tǒng),其中,值η=0.01。
24.一種信號分離系統(tǒng)中的信號分離方法,所述方法包括使用目標掩碼和補充掩碼從多個話筒接收的信號產(chǎn)生掩飾的目標信號頻譜和掩飾的 干擾信號頻譜;以及基于接收的信號之間的差值來設置目標掩碼和補充掩碼的閾值,從而所述閾值最小化 在掩飾的目標信號頻譜的非線性的目標冪序列與掩飾的干擾信號頻譜的非線性的干擾冪 序列之間的相關性。
25.如權利要求M所述的信號分離方法,還包括從掩飾的目標信號頻譜和由閾值設置 單元設置的閾值中產(chǎn)生基本沒有干擾信號的分離的目標信號。
26.如權利要求M所述的信號分離方法,其中,所述差值是耳間時間差值ITD。
27.如權利要求M所述的信號分離方法,其中,目標掩碼和補充掩碼的每一個是二進 制掩碼。
28.如權利要求27所述的信號分離方法,其中,如果所述差值小于或等于所述閾值,則目標掩碼具有值1,如果所述差值大于所述閾 值,則目標掩碼具有值n ;以及如果所述差值大于所述閾值,則補充掩碼具有值η,如果所述差值小于或等于所述閾 值,則補充掩碼具有值1。
29.如權利要求觀所述的信號分離方法,其中,值η表示實際是目標信號頻譜的部分 的干擾信號頻譜的部分。
30.如權利要求四所述的信號分離方法,其中,值η=0.01。
全文摘要
提供了一種用于自動地選擇閾值以分離聲音源的信號分離系統(tǒng)和方法。所述信號分離系統(tǒng)基于從多個話筒接收的信號,使用目標掩碼計算目標信號的冪序列,并使用補充掩碼計算干擾信號的冪序列;對目標信號冪序列和干擾信號冪序列應用非線性;計算非線性目標信號冪序列和非線性干擾信號冪序列的相關系數(shù);設置最小化相關系數(shù)的噪聲掩飾閾值。
文檔編號G10L21/02GK102142259SQ20111003739
公開日2011年8月3日 申請日期2011年1月28日 優(yōu)先權日2010年1月28日
發(fā)明者嚴基完, 李在原, 理查德·M·斯特恩, 金燦佑 申請人:三星電子株式會社