專利名稱:移動設(shè)備上多傳感語音增強的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及降噪,尤其涉及從由移動手持式設(shè)備接收的語音信號中移除噪聲。
背景技術(shù):
諸如移動電話和個人數(shù)字助理等提供電話功能或接受語音輸入的移動手持式 設(shè)備通常在諸如繁忙的街道、餐館、機場和汽車等不利的噪聲環(huán)境中使用。這些環(huán) 境中強大的環(huán)境噪聲使用戶的語音變得模糊,并且很難理解一個人在說什么。
盡管開發(fā)了試圖基于噪聲模型移除噪聲的噪聲濾除系統(tǒng),然而這些系統(tǒng)尚不 能移除所有的噪聲。具體地,許多這樣的系統(tǒng)發(fā)現(xiàn)很難移除在背景中包括其它人的 說話的噪聲。其一個原因是這些系統(tǒng)及其難以(如果不是不可能的話)確定由麥克 風接收的語音信號是來自除使用該移動設(shè)備的人之外的其他人。
對于電話頭戴式耳機,它通過環(huán)繞在用戶頭部或耳朵的周圍定位在用戶的頭 部,開發(fā)了通過依賴于頭戴式耳機中的附加類型的傳感器來提供更健壯的噪聲濾除 系統(tǒng)。在一個示例中, 一骨導傳感器被放置在頭戴式耳機的一端,并由頭戴式耳機 的彈力擠壓到與覆蓋用戶頭蓋骨、耳朵或下顎骨的皮膚接觸。該骨導傳感器檢測頭 蓋骨、耳朵或下顎骨中在用戶說話時引起的振動。使用來自骨導傳感器的信號,該 系統(tǒng)能夠更好地識別用戶何時在說話,并且結(jié)果能夠更好地濾除語音信號中的噪
聲o
盡管這一系統(tǒng)對頭戴式耳機能夠起較好的作用,其中,骨導傳感器和用戶之 間的接觸由頭戴式耳機的機械設(shè)計來維護,然而這些系統(tǒng)不能直接用于手持式移動 設(shè)備,因為用戶很難將骨導傳感器維持在正確的位置,并且這些系統(tǒng)未考慮骨導傳 感器可能無法保持在正確的位置。
發(fā)明內(nèi)容
提供了一種移動設(shè)備,包括可由用戶的手指或大拇指操縱的數(shù)字輸入,以及 一氣導麥克風和提供指示語音的備選傳感器信號的備選傳感器。在某些實施例中, 移動設(shè)備也包括一鄰近傳感器,它提供指示從移動設(shè)備到對象的鄰近性的信號。在 某些實施例中,來自氣導麥克風的信號、備選傳感器信號以及鄰近信號用于形成對 干凈語音值的估算。在另外的實施例中,基于干凈信號值中的噪聲量,通過移動設(shè) 備中的揚聲器產(chǎn)生聲音。在其它實施例中,通過揚聲器產(chǎn)生的聲音基于鄰近傳感器 信號。
圖1是本發(fā)明的一個實施例的透視圖。
圖2在用戶頭部的左側(cè)的位置上示出了圖1的電話。
圖3在用戶頭部的右側(cè)的位置上示出了圖1的電話。
圖4是骨導麥克風的框圖。
圖5是本發(fā)明的一個替換實施例的透視圖。
圖6是本發(fā)明的一個實施例中的備選骨導麥克風的橫截面。
圖7是本發(fā)明的一個實施例中的移動設(shè)備的框圖。
圖8是本發(fā)明的通用語音處理系統(tǒng)的框圖。
圖9是本發(fā)明的一個實施例中用于訓練降噪?yún)?shù)的框圖。
圖10是使用圖9的系統(tǒng)訓練降噪?yún)?shù)的流程圖。
圖11是本發(fā)明的一個實施例中從噪聲測試語音信號中標識出干凈語音信號的 估算的系統(tǒng)的框圖。
圖12是使用圖11的系統(tǒng)標識干凈語音信號的估算的方法的流程圖。
圖13是標識干凈語音信號的估算的替換系統(tǒng)的框圖。
圖14是標識干凈語音信號的估算的第二替換系統(tǒng)的框圖。
圖15是使用圖14的系統(tǒng)標識干凈語音信號估算的方法的流程圖。
圖16是本發(fā)明的移動設(shè)備的另一實施例的透視圖。
具體實施例方式
本發(fā)明的實施例提供了一種手持式移動設(shè)備,它包含可用于語音檢測和噪聲 濾除的氣導麥克風以及備選傳感器。圖l提供了一個示例實施例,其中,手持式移動設(shè)備是移動電話100。移動電話100包括鍵區(qū)102、顯示屏104、光標控制106、 氣導麥克風108、揚聲器IIO、兩個骨導麥克風112和114以及可任選的鄰近傳感 器116。
觸摸墊102允許用戶將數(shù)字和字母輸入到移動電話中。在其它實施例中,觸 摸墊102與顯示屏104以觸摸屏的形式組合。光標控制106允許用戶加亮并選擇顯 示屏104上的信息,并滾動通過大于顯示屏104的圖像和頁面。
如圖2和3所示,當移動電話100被防止在標準位置用于通過電話對話時, 揚聲器110位于用戶左耳200或右耳300的附近,并且氣導麥克風108位于用戶口 部202的附近。當電話位于用戶的左耳時,如圖2所示,骨導麥克風114接觸用戶 的頭蓋骨或耳朵,并產(chǎn)生可用于從由氣導麥克風108接收的語音信號中移除噪聲的 備選傳感器信號。當電話位于用戶的右耳時,如圖3所示,骨導麥克風112接觸用 戶的頭蓋骨或耳朵,并產(chǎn)生可用于從語音信號中移除噪聲的備選傳感器信號。
可任選鄰近傳感器116指示電話與用戶如何接近。如下文進一步討論的,該 信息用于對骨導麥克風在產(chǎn)生干凈語音值時的貢獻進行加權(quán)。 一般而言,如果鄰近 檢測器檢測到電話就在用戶旁邊,則骨導麥克風信號被賦予比遠離用戶某一距離時 更大的權(quán)值。這一調(diào)整反映了這樣一個事實當骨導麥克風與用戶接觸時,其信號 更能夠表示用戶正在說話。當它遠離用戶時,它更可疑地為環(huán)境噪聲。鄰近傳感器 在本發(fā)明的實施例中使用,因為用戶不總是將電話壓向其頭部。
圖4示出了本發(fā)明的骨導傳感器400的一個實施例。在傳感器400中, 一軟 彈性橋402黏附在正常的氣導麥克風406的橫隔膜404上。該軟橋402將來自用戶 的皮膚接觸408的振動直接傳導到麥克風406的橫隔膜。橫隔膜404的移動由麥克 風406中的轉(zhuǎn)換器轉(zhuǎn)換成電信號。
圖5提供了本發(fā)明的手持式移動設(shè)備的一個替換移動電話實施例500。移動電 話500包括鍵區(qū)502、顯示屏504、光標控制506、氣導麥克風508、揚聲器510 和組合的骨導麥克風和鄰近傳感器512。
如圖6的橫截面中所示的,組合的骨導麥克風和鄰近傳感器512包括一軟的、 填充了介質(zhì)(用液體或彈性體)襯墊600,它具有外表面602,它被設(shè)計成當用戶 將電話緊貼在耳朵上時與用戶接觸。襯墊600形成了為來自揚聲器的聲音提供了通 路的開口周圍的環(huán),揚聲器位于該開口中或直接在電話500內(nèi)位于開口之下。襯墊 600不限于這一形狀,可對該襯墊使用任何形狀。然而, 一般而言,如果襯墊600 包括揚聲器501的左邊和右邊部分,則它是較佳的,使得襯墊的至少一個部分與用戶接觸,而無論用戶的哪一耳朵在電話旁邊。襯墊的該部分可以是外部連續(xù)的,或 可以是外部分離的,但是在電話內(nèi)流暢地連接在一起。
電子壓力轉(zhuǎn)換器604液壓地連接到襯墊600中的液體或彈性體中,并將襯墊 600中的液體的壓力轉(zhuǎn)換成導體606上的電信號。電子壓力轉(zhuǎn)換器604的示例包括 基于MEMS的轉(zhuǎn)換器。 一般而言,壓力轉(zhuǎn)換器604應(yīng)當具有高頻響應(yīng)。
導線606上的電信號包括兩個分量DC分量和AC分量。DC分量提供了鄰 近傳感器信號,因為當電話被壓向用戶的耳朵時,襯墊600內(nèi)的靜壓將高于電話遠 離用戶的耳朵某一距離時的靜壓。電信號的AC分量提供了骨導麥克風信號,因為 用戶頭蓋骨、下顎或耳朵的骨頭中的振動引起襯墊600中的壓力波動,它們由壓力 轉(zhuǎn)換器604轉(zhuǎn)換成AC電信號。在一個實施例中,將濾波器應(yīng)用到電信號,以允許 信號的DC分量和高于最小頻率的AC能夠通過。
盡管上文描述了骨導傳感器的這兩個示例,然而骨導傳感器的其它形式也處 于本發(fā)明的范圍之內(nèi)。
圖7所示是本發(fā)明的一個實施例中移動設(shè)備700的框圖。移動設(shè)備700包括 微處理器702、存儲器704、輸入/輸出(I/O)接口 706和用于與遠程計算機、通 信網(wǎng)絡(luò)或其它移動設(shè)備通信的通信接口 708。在一個實施例中,上述組件被耦合在 一起,用于通過合適的總線710彼此通信。
存儲器704可以被實現(xiàn)為非易失電子存儲器,如具有電池備份模塊(未示出) 的隨機存取存儲器(RAM),使得當移動設(shè)備700的總電源被關(guān)閉時'儲存在存 儲器704中的信息也不會丟失?;蛘?,存儲器704的所有或部分可以是易失或非易 失可移動存儲器。存儲器704的一部分較佳地被分配為用于程序執(zhí)行的可尋址存儲 器,而存儲器704的另一部分較佳地用于存儲,如模擬盤驅(qū)動器上的存儲。
存儲器704包括操作系統(tǒng)712、應(yīng)用程序714以及對象存儲716。在操作過程 中,操作系統(tǒng)712較佳地由處理器702從存儲器704中執(zhí)行。在一個較佳實施例中, 操作系統(tǒng)712是可從微軟公司購買的WINDOWS CE品牌的操作系統(tǒng)。操作系統(tǒng) 712較佳地被設(shè)計成用于移動設(shè)備,并實現(xiàn)可由應(yīng)用程序714通過一組展現(xiàn)的應(yīng)用 編程接口和方法來使用的數(shù)據(jù)庫特征。對象存儲716中的對象由應(yīng)用程序714和操
作系統(tǒng)712至少部分地響應(yīng)于對所展現(xiàn)的應(yīng)用編程接口和方法的調(diào)用來維護。
通信接口 708表示允許移動設(shè)備700發(fā)送和接收信息的多種設(shè)備和技術(shù)。在 移動電話環(huán)境中,通信接口 708代表了蜂窩電話網(wǎng)絡(luò)接口,它與蜂窩電話網(wǎng)絡(luò)通信 以允許呼叫可被放置或接收??赡苡赏ㄐ沤涌?708表示的其它設(shè)備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器,此處僅舉幾個例子。移動設(shè)備700也可直 接連接到計算機上,以與其交換數(shù)據(jù)。在這些情況下,通信接口 708可以是紅外收 發(fā)器或串行或并行通信連接,所有這些都能夠發(fā)送流信息。
由處理器702執(zhí)行來實現(xiàn)本發(fā)明的計算機可執(zhí)行指令可以儲存在存儲器704 中,或通過通信接口 708接收。這些指令在計算機可讀介質(zhì)中找到,包括但不限于 計算機存儲介質(zhì)和通信介質(zhì)。
計算機存儲介質(zhì)包括以用于儲存諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊 或其它數(shù)據(jù)等信息的任一方法或技術(shù)實現(xiàn)的易失和非易失,可移動和不可移動介 質(zhì)。計算機存儲介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其它存儲器 技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存 儲或其它磁存儲設(shè)備、或可以用來儲存所期望的信息并可訪問的任一其它介質(zhì)。
通信介質(zhì)通常在諸如載波或其它傳輸機制的已調(diào)制數(shù)據(jù)信號中包含計算機可 讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù)語"已調(diào) 制數(shù)據(jù)信號"指以對信號中的信息進行編碼的方式設(shè)置或改變其一個或多個特征的 信號。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接, 以及無線介質(zhì),如聲學、RF、紅外和其它無線介質(zhì)。上述任一的組合也應(yīng)當包括 在計算機可讀介質(zhì)的范圍之內(nèi)。
輸入/輸出接口 706表示到包括揚聲器、數(shù)字輸入732 (如一個或一組按鈕、 觸摸屏、跟蹤球、鼠標墊、滾軸或這些組件的組合,它們可由用戶的大拇指或手指 操縱)、顯示屏734、氣導麥克風736、備選傳感器738、備選傳感器740和鄰近 傳感器742的輸入和輸出設(shè)備的集合的接口。在一個實施例中,備選傳感器738 和740是骨導麥克風。上文列出的設(shè)備作為示例,不需要在移動設(shè)備700中都存在。 此外,在至少一個實施例中,備選傳感器和鄰近傳感器被組合成單個傳感器,它提 供鄰近傳感器信號和備選傳感器信號。這些信號可被放置在單獨的導線上,或可以 是單個導線上的信號的分量。另外,在本發(fā)明的范圍之內(nèi),其它輸入/輸出設(shè)備可 以附加到移動設(shè)備700或在其中找到。
圖8提供了本發(fā)明的實施例的語音處理系統(tǒng)的基本框圖。在圖8中,說話者 800生成語音信號802,它由氣導麥克風804以及備選傳感器806和備選傳感器807 之一或兩者檢測。備選傳感器的一個示例是骨導傳感器,它位于用戶的臉部或頭蓋 骨(如顎骨)上,或與其相鄰,或在用戶的耳朵上,并傳感對應(yīng)于由用戶生成的語 音的耳朵、頭骨或顎骨的振動。備選傳感器的另一示例是紅外傳感器,它被瞄準并檢測用戶的口部運動。注意,在某些實施例中,僅存在一個備選傳感器。氣導麥克 風804是常用于將音頻空氣波轉(zhuǎn)換成電信號的麥克風的類型。
氣導麥克風804也接收由一個或多個噪聲源810生成的噪聲808。根據(jù)備選傳 感器的類型和噪聲級別,噪聲808也可由備選傳感器806和807檢測。然而,在本 發(fā)明的實施例中,備選傳感器806和807通常比氣導麥克風804對環(huán)境噪聲更不敏 感。由此,由備選傳感器806和807分別生成的備選傳感器信號812和813 —般比 由氣導麥克風804生成的氣導麥克風信號814包括更少的噪聲。
如果有兩個備選傳感器,如兩個骨導傳感器,則傳感器信號812和813可任 選地被提供給比較/選擇單元815。比較/選擇單元815比較這兩個信號的強度,并 選擇較強的信號作為其輸出817。較弱的信號不被傳遞用于進一步處理。對于移動 電話環(huán)境,如圖1-3的移動電話,比較/選擇單元815通常選擇由與用戶皮膚接觸 的骨導傳感器生成的信號。由此,在圖2中,來自骨導傳感器114的信號將被選中, 而在圖3中,來自骨導傳感器112的信號將被選中。
備選傳感器信號817和氣導麥克風信號814被提供給干凈信號估算器816,它 通過下文詳細描述的過程估算干凈信號818。可任選地,干凈信號估算器816也接 收來自鄰近傳感器832的鄰近信號830,它用于估算干凈信號818。如上所述,在 某些實施例中,鄰近傳感器可以與備選傳感器信號相組合。干凈信號估算818被提 供給語音處理820。干凈語音信號818可以是經(jīng)濾波的時域信號或特征域矢量。如 果干凈信號估算818是時域信號,則語音處理820可采用收聽者、蜂窩電話發(fā)送器、 語音編碼系統(tǒng)或語音識別系統(tǒng)的形式。如果干凈語音信號818是特征域矢量,則語 音處理820通常是語音識別系統(tǒng)。
干凈信號估算器816也產(chǎn)生噪聲估算819,它指示干凈語音信號818中估算的 噪聲。噪聲估算819被提供給側(cè)音生成器821,它基于噪聲估算819生成通過移動 設(shè)備的揚聲器的音調(diào)。具體地,當噪聲估算819提高時,側(cè)音生成器812提高了側(cè) 音的音量。
側(cè)音向用戶提供了反饋,指示用戶是否將移動設(shè)備保持在最佳的位置,以充 分利用備選傳感器。例如,如果用戶未將骨導傳感器壓緊其頭部,則干凈信號估算 器將接收到較差的備選傳感器信號,并且由于較差的備選傳感器信號會產(chǎn)生含噪聲 的干凈信號818。這會導致較響的側(cè)音。當用戶將骨導傳感器與其頭部接觸時,備 選傳感器信號將得到改善,由此降低了干凈信號818中的噪聲,并降低了側(cè)音的音 量。由此,用戶可基于側(cè)音中的反饋快速地了解如何握住電話以最好地降低干凈信號中的噪聲。
在一個替換實施例中,側(cè)音是基于來自鄰近傳感器32的鄰近傳感器信號803 生成的。當鄰近傳感器指示電話接觸或極接近用戶的頭部時,側(cè)音音量較低。當鄰 近傳感器指示電話遠離用戶的頭部時,側(cè)音將更響。
本發(fā)明使用若干方法和系統(tǒng),以利用氣導麥克風814、備選傳感器信號817 和可任選鄰近傳感器信號830估算干凈信號。一種系統(tǒng)使用立體聲訓練數(shù)據(jù)來訓練 備選傳感器信號的糾正矢量。當這些糾正矢量稍后被添加到測試備選傳感器矢量 時,它們提供干凈信號矢量的估算。本系統(tǒng)的一個進一步擴展是首先跟蹤時變失真, 然后將該信息結(jié)合到糾正矢量的計算和干凈信號的估算中。
第二種系統(tǒng)提供了由糾正矢量生成的干凈信號估算和通過從氣導信號中減去
氣導測試信號中的當前噪聲的估算形成的估算之間的內(nèi)插。第三種系統(tǒng)使用備選傳 感器信號來估算語音信號的基音,然后使用所估算的基音來標識干凈語音信號的估 算。這些系統(tǒng)的每一個在下文單獨地討論。
訓練立體聲糾正矢量
圖9和10提供了本發(fā)明的兩個實施例的訓練立體聲糾正矢量的框圖和流程 圖,它們依賴于糾正矢量來生成干凈信號的估算。
標識糾正矢量的方法在圖10的步驟1000開始,其中,將"干凈"氣導麥克 風信號轉(zhuǎn)換成特征矢量序列。為此,圖9的說話者900對氣導麥克風910說話,后 者將音頻波轉(zhuǎn)換成電信號。電信號然后由模一數(shù)轉(zhuǎn)換器914采樣,以生成數(shù)字值序 列,它們由幀構(gòu)造器916組合成值的幀。在一個實施例中,A-D轉(zhuǎn)換器914以16kHz 和每樣值16比特對模擬信號進行采樣,由此創(chuàng)建了每秒32千字節(jié)的語音數(shù)據(jù),并 且?guī)瑯?gòu)造器916每10毫秒創(chuàng)建包括25毫秒數(shù)據(jù)的新幀。
由幀構(gòu)造器916提供的每一數(shù)據(jù)幀由特征提取器918轉(zhuǎn)換成特征矢量。在一 個實施例中,特征提取器918形成倒譜特征。這類特征的示例包括LPC導出的倒 譜和梅爾(Mel)頻率倒譜系數(shù)??捎糜诒景l(fā)明的其它可能的矢量提取模塊的示例 包括用于執(zhí)行線性預測編碼(LPC)、感知線性預測(PLP)以及聽覺模型特征提 取的模塊。注意,本發(fā)明不限于這些特征提取模塊,在本發(fā)明的環(huán)境中也可使用其 它模塊。
在圖10的步驟1002,將備選傳感器信號轉(zhuǎn)換成特征矢量。盡管步驟1002的 轉(zhuǎn)換被示出為在步驟1000的轉(zhuǎn)換之后發(fā)生,然而在本發(fā)明中,轉(zhuǎn)換的任一部分可以在步驟1000之前、期間或之后發(fā)生。步驟1002的轉(zhuǎn)換通過類似于上文相對于步 驟1000所描述的過程來執(zhí)行。
在圖9的實施例中,該過程在備選傳感器902和903檢測到與說話者900的 語音產(chǎn)生相關(guān)聯(lián)的物理事件開始,如骨振動或面部運動。由于備選傳感器902和 903在移動設(shè)備上相互隔開,它們不會檢測到關(guān)于語音產(chǎn)生的相同的值。備選傳感 器902和903將物理事件轉(zhuǎn)換成模擬電信號。這些電信號被提供給比較/選擇單元 904,它標識這兩個信號中較強的一個,并在其輸出提供較強的信號。注意,在某 些實施例中,僅使用一個備選傳感器。在這一情況下,比較/選擇單元卯4不存在。
所選擇的模擬信號由模一數(shù)轉(zhuǎn)換器卯5采樣。A/D轉(zhuǎn)換器905的采樣特征與 上文相對于A/D轉(zhuǎn)換器914所描述的相同。由A/D轉(zhuǎn)換器905提供的樣值由幀構(gòu) 造器906收集成幀,后者以類似于幀構(gòu)造器916的方式運作。樣值幀然后由特tE提 取器908轉(zhuǎn)換成特征矢量,后者使用與特征提取器918相同的特征提取方法。
備選傳感器信號和氣導信號的特征矢量被提供給圖9中的降噪訓練器902。在 圖IO的步驟1004,降噪訓練器920將備選傳感器信號的特征矢量組合成混合分量。 這一組合可通過使用最大似然性訓練技術(shù)將類似的特征矢量組合在一起來完成,或 通過將表示語音信號的時間部分的特征矢量組合在一起完成。本領(lǐng)域的技術(shù)人員將 認識到,可使用組合特征矢量的其它技術(shù),并且上文列出的兩個技術(shù)僅作為示例來 提供。
在圖10的步驟1008,降噪訓練器902然后確定每一混合分量s的糾正矢量rs。 在一個實施例中,每一混合分量的糾正矢量使用最大似然性標準來確定。在這一技 術(shù)中,糾正矢量計算如下
公式
其中X,是幀t的氣導矢量值,h,是幀t的備選傳感器矢量值。在公式l中
順 ,"、 公式2
其中,p(S)僅是多個混合分量中的一個,M一)被模型化為高斯分布
/7(6,l":iV(6,;A,i;) 公式3
它具有均值a和方差r;,它們使用期望值最大化(em)算法來訓練,其中,每
一次迭代包括以下步驟
rsW = pW6,) 公式4"=, 公式5
「 Z,"她-/Qr 八h
-~- 公式6
公式4是EM算法中的E步驟,它使用先前估算的參數(shù)。公式5和公式6是M步 驟,它使用E步驟的結(jié)果更新參數(shù)。
該算法的E步驟和M步驟反復,直到確定了模型參數(shù)的穩(wěn)定值。這些參數(shù)然 后用于評估公式l,以形成糾正矢量。糾正矢量和模型參數(shù)然后被儲存在降噪?yún)?shù) 存儲922中。
在步驟1008對每一混合分量確定了糾正矢量之后,訓練本發(fā)明的降噪系統(tǒng)的 過程完成。 一旦對每一混合分量確定了糾正矢量,該矢量可在本發(fā)明的降噪技術(shù)中 使用。下文討論使用就糾正矢量的兩個單獨的降噪技術(shù)。
使用糾正矢量和噪聲估算的降噪
基于糾正矢量和噪聲估算降低含噪聲的語音信號中的噪聲的系統(tǒng)和方法分別 在圖11的框圖和圖12的流程圖中示出。
在步驟1200,由氣導麥克風1104檢測的測試信號被轉(zhuǎn)換成特征矢量。由麥克 風1104接收的音頻測試信號包括來自說話者1100的語音和來自一個或多個噪聲源 1102的加性噪聲。由麥克風1104檢測到的音頻測試信號被轉(zhuǎn)換成電信號,它被提 供給模一數(shù)轉(zhuǎn)換器U06。
A-D轉(zhuǎn)換器1106將來自麥克風1104的模擬信號轉(zhuǎn)換成一系列數(shù)字值。在若 干實施例中,A-D轉(zhuǎn)換器1106以16kHz和每樣值16比特對模擬信號進行采樣, 由此創(chuàng)建了每秒32千字節(jié)的語音數(shù)據(jù)。這些數(shù)字值被提供給幀構(gòu)造器1108,在一 個實施例中,幀構(gòu)造器1108將值組合成25毫秒的幀,其起始處相隔10毫秒。
由幀構(gòu)造器108創(chuàng)建的數(shù)據(jù)幀被提供給特征提取器1110,它從每一幀中提取 特征。在一個實施例中,該特征提取器不同于用于訓練糾正矢量的特征提取器908 和918。具體地,在這一實施例中,特征提取器U10產(chǎn)生功率譜值而非倒譜值。 所提取的特征被提供給干凈信號估算器1122、語音檢測單元1126和噪聲模型訓練 器1124。
在步驟1202,與說話者100的語音產(chǎn)生相關(guān)聯(lián)的物理事件,如骨振動或面部 運動被轉(zhuǎn)換成特征矢量。盡管在圖12中被示出為單獨的步驟,然而本領(lǐng)域的技術(shù)人員將認識到,該步驟可以與步驟1200同時完成。在步驟1202中,由備選傳感器 1112和1114之一或兩者檢測物理事件。備選傳感器12和14基于物理事件生 成模擬電信號。模擬信號被提供給比較和選擇單元1115,它選擇較大幅度的信號 作為其輸出。注意,在某些實施例中,僅提供了一個備選傳感器。在這一實施例中, 比較和選擇單元1115是不需要的。
所選擇的模擬信號由模一數(shù)轉(zhuǎn)換器1116轉(zhuǎn)換成數(shù)字信號,并且所得的數(shù)字樣 值由幀構(gòu)造器1118組合成幀。在一個實施例中,模一數(shù)轉(zhuǎn)換器1116和幀構(gòu)造器 1118以類似于模一數(shù)轉(zhuǎn)換器U06和幀構(gòu)造器1108的方式運作。
數(shù)字值的幀被提供給特征提取器1120,它使用用于訓練糾正矢量的相同的特 征提取技術(shù)。如上所述,這類特征提取模塊的示例包括用于執(zhí)行線性預測編碼 (LPC) 、 LPC導出倒譜、感知線性預測(PLP)、聽覺模型特征提取以及梅爾頻 率倒譜系數(shù)(MFCC)特征提取的模塊。然而,在許多實施例中,使用了產(chǎn)生倒譜 特征的特征提取技術(shù)。
特征提取模塊產(chǎn)生特征矢量流,其每一個都與語音信號的一個單獨幀相關(guān)聯(lián)。 該特征矢量流被提供給干凈信號估算器1122。
來自幀構(gòu)造器1118的值幀也被提供給特征提取器1121,在一個實施例中,特 征提取器1121提取每一幀的能量。每一幀的能量值被提供給語音檢測單元1126。
在步驟1204,語音檢測單元1126使用備選傳感器信號的能量特征來確定何時 可能存在語音。該信息被傳遞到噪聲模型訓練器1124,在步驟1206,它試圖在沒 有語音的時間段中對噪聲建模。
在一個實施例中,語音檢測單元U26首先搜索幀能量值序列以找出能量中的 峰值。它然后搜索峰值之后的谷值。該谷值的能量被稱為能量分隔符d。為確定幀 是否包含語音,然后確定幀能量e與能量分隔符d之間的比值k,如下k=e/d。然 后確定該幀的語音置信度q,如下
<formula>formula see original document page 13</formula>公式7
個實施例中被設(shè)為2。最后,將其5個
其中,"定義了兩種狀態(tài)之間的轉(zhuǎn)移,在 相鄰幀(包括其本身)的平均置信度值用作該幀的最終置信度值。
在一個實施例中,使用固定的閾值來確定是否存在語音,使得如果置信度值 超過閾值,則該幀被認為包含語音,如果置信度值不超過閾值,則該幀被認為包含非語音。在一個實施例中,使用了0.1的閾值。
對于由語音檢測單元1126檢測的每一非語音幀,噪聲模型訓練器1124在步 驟1206更新噪聲模型1125。在一個實施例中,噪聲模型1125是高斯模型,它具 有均值A(chǔ)和方差、。該模型基于非語音的最近幀的移動窗。用于從窗中的非語音
幀中確定均值和方差的技術(shù)在本領(lǐng)域中是眾所周知的。
參數(shù)存儲922中的糾正矢量和模型參數(shù)以及噪聲模型1125,連同備選傳感器 的特征矢量6和含噪聲的氣導麥克風信號的特征矢量^一起被提供給干凈信號估 算器1122。在步驟1208,干凈信號估算器1122基于備選傳感器特征矢量、糾正矢 量和備選傳感器的模型參數(shù)估算干凈語音信號的初始值。具體地,干凈信號的備選 傳感器估算計算如下
h"》&歐 公式8
其中,;f是倒譜域中的干凈信號估算,6是備選傳感器特征矢量,;^問是使用上文 的公式2來確定的,^是混合分量s的糾正矢量。由此,公式8中的干凈信號估算 通過將備選傳感器特征矢量添加到糾正矢量的加權(quán)和來形成,其中,加權(quán)基于給定 備選傳感器特征矢量時混合分量的概率。
在步驟1210,通過將初始備選傳感器干凈語言估算與從含噪聲的氣導麥克風 矢量和噪聲模型中形成的干凈語音估算相組合,初始備選傳感器干凈語音估算被凈 化。這得到一經(jīng)凈化的干凈語音估算1128。為將初始干凈信號估算的倒譜值與含 噪聲的氣導麥克風的功率譜特征矢量相組合,使用以下公式將倒譜值轉(zhuǎn)換成功率譜 域
l = ec—'; 公式9 其中,C-'是離散余弦反變換,&|6是基于備選傳感器的干凈語音的功率譜估算。
一旦已將來自備選傳感器的初始干凈信號估算放入功率譜域中,它可與含噪 聲的氣導麥克風矢量和噪聲模型相組合,如下
& = 0::' +5^r1[i:;;l(& + 公式10
其中,&是功率譜域中經(jīng)凈化的干凈信號估算,&是含噪聲的氣導麥克風特征矢量, (A,;)是先驗噪聲模型(見1124)的均值和協(xié)方差,&|6是基于備選傳感器的初始 干凈信號估算,、16是給定備選傳感器的測量時干凈信號的條件概率分布的協(xié)方差 矩陣。5^可被計算如下。設(shè)J表示公式9的右側(cè)的函數(shù)的雅各比行列式。設(shè)s是^的協(xié)方差矩陣,則^6的協(xié)方差為
= ■/L/r 公式11
在一簡化的實施例中,公式10被重寫成以下公式
&= (/)(\-+ —"(/))^ 公式12
其中,《(/)是時間和頻帶的函數(shù)。例如,如果備選傳感器的頻帶達3KHz,對低于 3KHz的頻帶選擇a(/)為0?;旧?,對于低頻帶,來自備選傳感器的初始干凈信 號估算是可信的。
對于高頻帶,來自備選傳感器的初始干凈信號估算并不可靠。直觀上,當在 當前幀上頻帶的噪聲較小時,選擇較大的"(/),使得對這一頻帶可從氣導麥克風 中取出更多的信息。否則,通過選擇較小的a(/)使用來自備選傳感器的更多的信
息。在一個實施例中,使用來自備選傳感器的初始干凈信號估^:的能量來確定每一
頻帶的噪聲級別。設(shè)五(/)表示頻帶/的能量。設(shè)M-Mox,E(/),作為/的函數(shù),a(/) 被定義如下助 .
"(/)=
a(4/Q : 3尺</<4尺 公式13
0 : / "〖
其中,使用了線性內(nèi)插從3K過渡到4K,以確保a(/)的平滑性。
在一個實施例中,移動設(shè)備與用戶頭部的鄰近性被結(jié)合到a(/)的確定中。具 體地,如果鄰近傳感器832產(chǎn)生最大距離值D和當前距離值d,則公式13可被修 改為
義一3/:"(4/0 : 3^</<4〖 公式14
0 : /《3A:
其中,々在0到1之間,并基于哪一矢量、能量或鄰近性被認為能夠提供氣導麥克
風的噪聲模型或備選傳感器的糾正矢量將提供干凈信號的最佳估算的最佳指示來 選擇。
如果P被設(shè)為O,則a(/)不再是頻率相關(guān)的,并簡單地變?yōu)?br>
=爻 公式15功率譜域中經(jīng)凈化的干凈信號估算可用于構(gòu)造維納(Wiener)濾波器,以對 含噪聲的氣導麥克風信號進行濾波。具體地,設(shè)置維納濾波器h,使得
// = | 公式16
該濾波器然后可被應(yīng)用于時域含噪聲的氣導麥克風信號,以產(chǎn)生經(jīng)降噪的或 干凈的時域信號。經(jīng)降噪的信號可被提供給收聽者或可應(yīng)用于語音識別器。
注意,公式12提供了經(jīng)凈化的干凈信號估算,它是兩個因子的加權(quán)和,其中 一個是來自備選傳感器的千凈信號估算。該加權(quán)和可被擴充以包括附加備選傳感器 的附加因子。由此,可使用一個以上備選傳感器來生成干凈信號的獨立估算。這多 個估算然后可使用公式12來組合。
在一個實施例中,經(jīng)凈化的干凈信號估算中的噪聲也被估算。在一個實施例 中,該噪聲被認為是O均值的高斯型,其協(xié)方差被確定如下
= (;-' + s;;)-' = s"s^ /(z + 、) 其中,s。是氣導麥克風中的噪聲的方差,s^是來自備選傳感器的估算中的噪聲的
方差。具體地,如果備選傳感器不與皮膚表面較好地接觸,則2^較大。接觸的程
度可通過使用附加鄰近傳感器或分析備選傳感器來測量。對于后者,觀察到如果接
觸良好,則備選傳感器幾乎不產(chǎn)生高頻響應(yīng)(大于4KHz),則用低頻能量(小于 3KHz)與高頻能量之比來測量接觸。該比值越高,接觸越好。
在某些實施例中,干凈信號估算中的噪聲用于生成如上文相對于圖6所描述 的側(cè)音。當經(jīng)凈化的干凈信號估算中的噪聲增加時,側(cè)音的音量也提高,以鼓勵用 戶將備選傳感器放置在更好的位置,使得增強處理得以改進。例如,側(cè)音鼓勵用戶 將骨導傳感器壓向其頭部,使得增強處理得以改進。
使用糾IH矢量而沒有噪聲估算的降噪
圖13提供了本發(fā)明中估算干凈語音值的替換系統(tǒng)的框圖。圖13的系統(tǒng)類似 于圖11的系統(tǒng),除干凈語音值的估算在不需要氣導麥克風或噪聲模型的情況下形 成之外。
在圖13中,與產(chǎn)生語音的說話者1300相關(guān)聯(lián)的物理事件由備選傳感器1302、 模一數(shù)轉(zhuǎn)換器1304、幀構(gòu)造器1306和特征提取器1308以與上述圖11的備選傳感 器1114、模一數(shù)轉(zhuǎn)換器1116、幀構(gòu)造器1117和特征提取器1118相似的方式轉(zhuǎn)換 成特征矢量。注意,盡管在圖13中僅示出了一個備選傳感器,然而如圖11中一樣,可使用附加的備選傳感器,外加圖11中討論的比較和選擇單元。
來自特征提取器1308的特征矢量以及降噪?yún)?shù)922被提供給干凈信號估算器 1310,它使用上文的公式8和9確定干凈信號值1312夂|6的估算。
功率譜域中干凈信號估算&|6可用于構(gòu)造維納濾波器,以對含噪聲的氣導麥克
風信號進行濾波。具體地,設(shè)置維納濾波器H,使得
/f = ~ 公式17
該濾波器可被應(yīng)用于時域含噪聲的氣導麥克風信號,以產(chǎn)生經(jīng)降噪的或干凈 信號。經(jīng)降噪的信號可被提供給收聽者或被應(yīng)用于語音識別器。
或者,公式8中計算的倒譜域中的千凈信號估算i可被直接應(yīng)用于語音識別系統(tǒng)。
使用基音跟蹤的降噪
生成干凈語音信號估算的一個替換技術(shù)在圖14的框圖和圖15的流程圖中示 出。具體地,圖14和15的實施例通過使用備選傳感器然后使用基音將含噪聲的氣 導麥克風信號分解成諧波分量和隨機分量,來標識語音信號的基音,從而確定了干 凈信號估算。由此,含噪聲的信號被表示為-
少=凡+凡 公式18
其中,少是含噪聲的信號,》是諧波分量,》是隨機分量。使用諧波分量和隨機分
量的加權(quán)和來形成表示經(jīng)降噪的語音信號的經(jīng)降噪的特征矢量。
在一個實施例中,諧波分量被模型化為諧波上相關(guān)的正弦和,使得
>^ = cos(/:oV) + 6A sin(A:6V) 公式19
其中,叫是基頻或基音頻率,K是信號中的諧波總數(shù)。
由此,為標識諧波分量,必須確定基音頻率和幅度參數(shù)k"2…^Vv.A)的估算。
在步驟1500,收集含噪聲的語音信號,并將其轉(zhuǎn)換成數(shù)字樣值。為此,氣導 麥克風1404將來自說話者1400和一個或多個加性噪聲源1402的音頻波轉(zhuǎn)換成電 信號。電信號然后由模一數(shù)轉(zhuǎn)換器1406轉(zhuǎn)換,以生成一數(shù)字值序列。在一個實施 例中,A-D轉(zhuǎn)換器1406以16kHz和每樣值16比特對模擬信號進行采樣,由此創(chuàng) 建了每秒32千字節(jié)的語音數(shù)據(jù)。在步驟1502,數(shù)字樣值由幀構(gòu)造器1408組合成幀。在一個實施例中,幀構(gòu)造器1408每10毫秒創(chuàng)建包括25毫秒數(shù)據(jù)的新幀。
在步驟1504,與語音產(chǎn)生相關(guān)聯(lián)的物理事件由備選傳感器1444檢測。在本實 施例中,能夠檢測諧波分量的備選傳感器,如骨導傳感器最適合用作備選傳感器 1444。注意,盡管步驟1504被示出為與步驟1500分離,然而本領(lǐng)域的技術(shù)人員將 認識到,這些步驟可以同時執(zhí)行。另外,盡管在圖14中僅示出了一個備選傳感器, 然而可如圖11中一樣使用附加的備選傳感器,外加圖11中所述的比較和選擇單元。
由備選傳感器1444生成的模擬信號由模一數(shù)轉(zhuǎn)換器1446轉(zhuǎn)換成數(shù)字樣值。 數(shù)字樣值然后在步驟1506由幀構(gòu)造器1448組合成幀。
在步驟1508,備選傳感器信號的幀由基音跟蹤器1450用于標識語音的基音頻 率或基頻。
可使用多種可用基音跟蹤系統(tǒng)的任一種來確定基音頻率的估算。在許多這樣 的系統(tǒng)中,候選基音用于標識備選傳感器信號的片斷中心之間的間隔。對于每一候 選基音,確定連續(xù)的語音片斷之間的相關(guān)。 一般而言,提供最佳相關(guān)的候選基音是 該幀的基音頻率。在某些系統(tǒng)中,使用附加信息來凈化基音選擇,如信號的能量和 /或期望基音跟蹤。
給定來自基音跟蹤器1450的基音的估算,在步驟1510,氣導信號矢量可被分 解成諧波分量和隨機分量。為此,公式19被重寫為
其中,y是含噪聲的語音信號的N個樣值的矢量,A是iVx2K矩陣,由以下公式給
出
y =Ab
公式20
A = [Ac0SAsin]
公式21
其元素為
公式22
并且6是2ATxl的矢量,由以下公式給出:
公式23
則振幅系數(shù)的最小二乘解為:
公式24
使用6,含噪聲的語音信號的諧波分量的估算可以確定如下:
公式25
隨機分量的估算則被計算如下:
公式26由此,使用上述公式20-26,諧波分解單元1410能夠產(chǎn)生諧波分量樣值1412 的矢量y^和隨機分量樣值的矢量》。
在將幀的樣值分解成諧波和隨機樣值之后,在步驟1512對諧波分量確定一比 例縮放參數(shù)或權(quán)值。該比例縮放參數(shù)被用作經(jīng)降噪的語音信號的計算的一部分,如 下文進一步討論的。在一個實施例中,比例縮放參數(shù)計算如下
其中,a是比例縮放參數(shù),h(/)是諧波分量樣值矢量y,中的第/個樣值, 是該幀的含噪聲的語音信號的第/個樣值。在公式27中,分子是諧波分量的每一 樣值的能量之和,分母是含噪聲的語音信號的每一樣值的能量之和。由此,比例縮 放參數(shù)是該幀的諧波能量與該幀的總能量之比。
在替換實施例中,比例縮放參數(shù)使用概率有聲一無聲檢測單元來設(shè)置。這一 單元提供了語音的特定幀為有聲而非無聲的概率,這意味著該幀中的聲帶共振。幀 來自語音的有聲區(qū)域的概率可直接用作比例縮放參數(shù)。
在確定了比例縮放參數(shù)之后,或正在被確定時,在步驟1514確定諧波分量樣 值矢量和隨機分量樣值矢量的梅爾頻譜。這涉及令每一樣值矢量通過一離散傅立葉 變換(DFT),以產(chǎn)生諧波分量頻率值矢量1422和隨機分量頻率值矢量1420。由 頻率值矢量表示的功率譜然后由梅爾加權(quán)單元1424使用沿梅爾標度應(yīng)用的一系列 三角加權(quán)函數(shù)來平滑。這可得到諧波分量梅爾頻譜矢量1428 Y,和隨機分量梅爾頻 譜矢量1426 Y,。
在步驟1516,將諧波分量和隨機分量的梅爾頻譜組合成加權(quán)和,以形成經(jīng)降 噪的梅爾頻譜估算。這一步驟由加權(quán)和計算器1430使用以上確定的比例縮放因子 在以下公式中執(zhí)行
文W = aA(r)YA(0 + arY々) 公式28
其中,文(/)是經(jīng)降噪的梅爾頻譜的估算,Y力)是諧波分量梅爾頻譜,Y力)是 隨機分量梅爾頻譜,a^)是以上確定的比例縮放因子,A是隨機分量的固定的比 例縮放因子,在一個實施例中,它被設(shè)為I,時間下標t用于強調(diào)諧波分量的比例 縮放因子是對每一幀確定的,而隨機分量的比例縮放因子保持不變。注意,在其它 實施例中,隨機分量的比例縮放因子可對每一幀確定。
在步驟1516計算了經(jīng)降噪的梅爾頻譜之后,確定梅爾頻譜的對數(shù)1432,然后 在步驟1518將其應(yīng)用于離散余弦變換1434。這產(chǎn)生了梅爾頻率倒譜系統(tǒng)(MFCC)特征矢量1436,它表示經(jīng)降噪的語音信號。
對含噪聲的信號的每一幀產(chǎn)生一單獨的經(jīng)降噪的MFCC特征矢量。這些特征 矢量可用于任何期望的目的,包括語音增強和語音識別。對于語音增強,MFCC 特征矢量可被轉(zhuǎn)換到功率譜域,并可用含噪聲的氣導信號來形成維納濾波器。
盡管特別參照使用骨導傳感器作為備選傳感器來討論本發(fā)明,然而可使用其 它備選傳感器。例如,在圖16中,本發(fā)明的移動設(shè)備使用紅外傳感器1600,它一 般瞄準用戶的臉部,尤其是口部,并生成指示用戶的面部運動中對應(yīng)于語音的變化。 由紅外傳感器1600生成的信號可用作上述技術(shù)中的備選傳感器信號。
盡管參考特定的實施例描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認識到,可 以在不脫離本發(fā)明的精神和范圍的情況下在形式和細節(jié)上作出改變。
權(quán)利要求
1. 一種移動設(shè)備,其特征在于,包括一氣導麥克風,它將聲波轉(zhuǎn)換成電子麥克風信號;一備選傳感器,它提供指示語音的電子備選傳感器信號;一鄰近傳感器,它提供指示從所述移動設(shè)備到對象的距離的電子鄰近信號;以及干凈信號估算器,它使用所述麥克風信號、所述備選傳感器信號和所述鄰近信號以從所述麥克風信號中移除噪聲,并由此產(chǎn)生一增強的干凈語音信號。
2. 如權(quán)利要求1所述的移動設(shè)備,其特征在于,它還包括一揚聲器,它基于 所述增強的干凈語音信號中的噪聲級別的估算生成聲音。
3. 如權(quán)利要求1所述的移動設(shè)備,其特征在于,所述移動設(shè)備通過使用所述 鄰近信號來加權(quán)對從所述備選傳感器信號形成的增強的干凈語音信號的作用,來產(chǎn) 生所述增強的干凈語音信號。
4. 如權(quán)利要求3所述的移動設(shè)備,其特征在于,加權(quán)所述作用包括當所述鄰 近信號指示所述移動設(shè)備遠離對象時,給予所述作用較小的權(quán)值。
5. 如權(quán)利要求1所述的移動設(shè)備,其特征在于,它還包括一揚聲器,它基于 所述鄰近信號產(chǎn)生聲音。
6. 如權(quán)利要求5所述的移動設(shè)備,其特征在于,當所述鄰近信號指示所述移動設(shè)備和對象之間的距離增加時,所述聲音的音量提高。
7. 如權(quán)利要求1所述的移動設(shè)備,其特征在于,所述備選傳感器信號和所述鄰近傳感器信號是由單個傳感器產(chǎn)生的。
8. 如權(quán)利要求7所述的移動設(shè)備,其特征在于,所述單個傳感器包括一壓力 轉(zhuǎn)換器,它提供一電信號,所述電信號具有表示所述鄰近信號的DC分量和表示所 述備選傳感器信號的AC分量。
9. 一種移動設(shè)備中的方法,其特征在于,所述方法包括 接收一氣導麥克風信號; 接收一指示語音的備選傳感器信號;接收一指示所述移動設(shè)備和一對象之間的距離的鄰近傳感器信號; 基于所述氣導麥克風信號、所述備選傳感器信號和所述鄰近傳感器信號估算一增強的干凈語音值;估算所述增強的干凈語音值中的噪聲;以及使用所述噪聲的估算來通過所述移動設(shè)備中的揚聲器生成聲音。
10. 如權(quán)利要求9所述的方法,其特征在于,當所述噪聲的估算增大時,所 述聲音的音量提高。
11. 如權(quán)利要求9所述的方法,其特征在于,還包括基于所述鄰近傳感器信 號對從所述備選傳感器信號中導出的增強的千凈語音值的作用加權(quán)。
12. 如權(quán)利要求11所述的方法,其特征在于,所述移動設(shè)備越接近所述對象, 對從所述備選傳感器信號中導出的作用給予的權(quán)值越大。
13. 如權(quán)利要求12所述的方法,其特征在于,所述對象是用戶頭部。
全文摘要
提供了一種移動設(shè)備,它包括一可由用戶的手指或大拇指操縱的數(shù)字輸入、一氣導麥克風和一提供指示語音的備選傳感器信號的備選傳感器。在某些實施例中,該移動設(shè)備也包括一鄰近傳感器,它提供指示從移動設(shè)備到對象的距離的鄰近信號。在某些實施例中,來自氣導麥克風的信號、備選傳感器信號和鄰近信號用于形成干凈語音值的估算。在另外的實施例中,基于干凈語音值中的噪聲的量產(chǎn)生通過移動設(shè)備中的揚聲器的聲音。在其它實施例中,通過揚聲器產(chǎn)生的信號基于鄰近傳感器信號。
文檔編號H04R1/00GK101510905SQ200910008400
公開日2009年8月19日 申請日期2005年2月24日 優(yōu)先權(quán)日2004年2月24日
發(fā)明者M·J·辛克萊爾, 張正友, 黃學東 申請人:微軟公司