專利名稱:包括語(yǔ)音信號(hào)處理在內(nèi)的生成多聲道信號(hào)的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理領(lǐng)域,并且具體地,涉及從較少的輸入聲道(例如,如一個(gè)(單聲道)聲道或兩個(gè)(立體聲)輸入聲道)生成若干輸出聲道。
背景技術(shù):
多聲道音頻材料正變得越來(lái)越受歡迎。這使得很多最終用戶同時(shí)擁有了多聲道再 現(xiàn)系統(tǒng)。這主要?dú)w功于以下事實(shí)DVD正變得日益流行,因此很多DVD的用戶同時(shí)擁有5. 1 多聲道設(shè)備。這種再現(xiàn)系統(tǒng)通常由三個(gè)典型地布置在用戶前方的揚(yáng)聲器(L(左)、C(中) 和R(右))、兩個(gè)布置在用戶后面的揚(yáng)聲器(Ls和Rs)以及典型地也被稱為低頻音效聲道 或低音炮的一個(gè)LFE聲道組成。圖5b和5c示出了這種聲道場(chǎng)景。雖然為了用戶可以接收 到可能的最佳收聽(tīng)體驗(yàn),應(yīng)該如圖10和11所示,關(guān)于用戶放置揚(yáng)聲器L、C、R、Ls和Rs,但 是LFE聲道(在圖5b和5c中未示出)的位置不是那么有決定性,因?yàn)槎洳荒茉谶@么低 的頻率下進(jìn)行定位,并且由于LTE聲道的尺寸較大,從而可以將LFE聲道布置在不會(huì)妨礙的 任何位置。與圖5a示意性示出的兩聲道再現(xiàn)的典型立體聲再現(xiàn)相比,這種多聲道系統(tǒng)呈現(xiàn) 出了若干優(yōu)勢(shì)。即使在最佳的中央收聽(tīng)位置之外,由于中間聲道而使得也被稱為“前像”的前方收 聽(tīng)體驗(yàn)的穩(wěn)定性得到提高。該結(jié)果是更大的“甜點(diǎn)”,“甜點(diǎn)”表示最佳收聽(tīng)位置。此外,由于兩個(gè)后置揚(yáng)聲器Ls和Rs,向收聽(tīng)者提供了“鉆入”聲音的場(chǎng)景的改進(jìn)體驗(yàn)。然而,有大量用戶擁有的音頻材料或通??捎玫囊纛l材料,這些音頻材料僅作為 立體聲材料存在,即僅包括兩個(gè)聲道,稱之為左聲道和右聲道。壓縮盤是用于這類立體聲部 件的典型聲音載體。ITU推薦使用5. 1多聲道音頻設(shè)備來(lái)播放這類立體聲材料的兩種選擇。第一種選擇是使用多聲道再現(xiàn)系統(tǒng)的左揚(yáng)聲器和右揚(yáng)聲器來(lái)播放左聲道和右聲 道。然而,該方案的劣勢(shì)在于沒(méi)有使用已經(jīng)存在的多個(gè)揚(yáng)聲器,這指的是沒(méi)有有利地使用存 在的中央揚(yáng)聲器和兩個(gè)后置揚(yáng)聲器。另一種選擇是將兩個(gè)聲道轉(zhuǎn)變成多聲道信號(hào)。這可以在再現(xiàn)期間或通過(guò)特殊的預(yù) 處理來(lái)完成,這有利地使用了示例性地呈現(xiàn)的5. 1再現(xiàn)系統(tǒng)的所有六個(gè)揚(yáng)聲器,并從而在 以無(wú)差錯(cuò)的方式將兩個(gè)聲道上混音到五個(gè)或六個(gè)聲道時(shí),產(chǎn)生改進(jìn)的收聽(tīng)體驗(yàn)。只有這時(shí),即沒(méi)有上混音差錯(cuò)時(shí),與第一方案相比,使用多聲道系統(tǒng)的所有揚(yáng)聲器 的第二種選擇才是有利的。當(dāng)不能以無(wú)差錯(cuò)的方式生成用于后置揚(yáng)聲器的信號(hào)(也稱為環(huán) 境信號(hào))時(shí),這種類型的上混音差錯(cuò)可能特別令人不安?;陉P(guān)鍵詞“直接環(huán)境概念”,已知執(zhí)行這種所謂的上混音處理的一種方式。通過(guò) 3個(gè)前置聲道再現(xiàn)直接聲源,使得用戶感覺(jué)如同在原始兩聲道版本中相同的位置處一樣。圖 5中使用不同的鼓樂(lè)器來(lái)示意性地示出了原始的兩聲道版本。
圖5b示出了該概念的上混音版本,其中,通過(guò)三個(gè)前置揚(yáng)聲器L、C和R再現(xiàn)了所 有原始的聲源(即,鼓樂(lè)器),其中,由兩個(gè)后方的揚(yáng)聲器另外輸出專門的環(huán)境信號(hào)。因此, 將術(shù)語(yǔ)“直接聲源”用來(lái)描述僅從并且直接從離散聲源而來(lái)的音調(diào),該離散聲源例如鼓樂(lè)器 或其它樂(lè)器,或者一般地,如圖5中使用鼓樂(lè)器示例性地示出的特殊聲音對(duì)象。在這樣的直 接聲源中,沒(méi)有其它例如由墻面反射造成的附加音調(diào)。在該場(chǎng)景中,圖5b中的兩個(gè)后方的 揚(yáng)聲器Ls、Rs所輸出的聲音信號(hào)僅由環(huán)境信號(hào)組成,環(huán)境信號(hào)可以呈現(xiàn),也可以不呈現(xiàn)在 原始的錄音中。這種類型的環(huán)境信號(hào)不屬于單個(gè)聲源,但對(duì)再現(xiàn)錄音的房間音響效果作出 了貢獻(xiàn),并從而導(dǎo)致收聽(tīng)者的所謂“鉆入”體驗(yàn)。圖5c中示出了另一個(gè)被稱為“帶內(nèi)”概念的備選概念。將每一種類型的聲音(即, 直接聲源和環(huán)境類型的音調(diào))都圍繞著收聽(tīng)者放置。如圖5c中示例性地示出的,音調(diào)的位 置獨(dú)立于其特性(直接聲源和環(huán)境類型的音調(diào)),并且僅取決于算法的特定設(shè)計(jì)。從而,在 圖5c中通過(guò)上混音算法確定了將兩個(gè)樂(lè)器1100和1102相對(duì)于收聽(tīng)者側(cè)向放置,而將兩個(gè) 樂(lè)器1104和1106放置在用戶前方。其結(jié)果是兩個(gè)后方的揚(yáng)聲器Ls、Rs此時(shí)也包含了兩個(gè) 樂(lè)器1100和1102的一部分,并且不再如圖5b中的情況一樣僅是環(huán)境類型的音調(diào),在圖5b 中的情況中,同樣的樂(lè)器都放置在用戶的前方。專業(yè)出片反物 ‘‘( Avendano and J. M. Jot "Ambience Extraction andSynthesis from Stereo Signals for Multichannel Audio Upmix",IEEEInternational Conference on Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002” 公開(kāi) 了識(shí)別并提取立體聲音頻信號(hào)中的環(huán)境信息的頻域技術(shù)。該概念基于對(duì)聲道間相關(guān)性和非 線性映射函數(shù)的計(jì)算,該非線性映射函數(shù)允許確定立體聲信號(hào)中主要由環(huán)境分量組成的時(shí) 頻區(qū)域。隨后,環(huán)境信號(hào)被合成并用于存儲(chǔ)多聲道再現(xiàn)系統(tǒng)的后方聲道或“環(huán)繞”聲道Ls、 Rs (圖 10 和 11)。在專業(yè)出版物"R. Irwan and Ronald M. Aarts :“A method to convertstereo to multi-channel sound", The proceedings of the AES 19thInternational Conference, Schloss Elmau, Germany, June 21-24,pagesl39_143,2001” 中,呈現(xiàn)了一種用于將立體聲 信號(hào)轉(zhuǎn)變成多聲道信號(hào)的方法。使用了互相關(guān)技術(shù)來(lái)計(jì)算環(huán)繞聲道的信號(hào)。使用主要分量 分析(PCA)來(lái)計(jì)算指示主要信號(hào)的方向的向量。然后,將該向量從兩聲道表示映射到三聲 道表示,以生成三個(gè)前置聲道。所有已知的技術(shù)嘗試了不同方式從原始的立體聲信號(hào)中提取環(huán)境信號(hào),或甚至從 噪聲或其它信息合成環(huán)境信號(hào),其中,可以使用不在立體聲信號(hào)中的信息來(lái)合成環(huán)境信號(hào)。 然而,最后,都是關(guān)于從立體聲信號(hào)提取信息和/或饋入到以明確的形式呈現(xiàn)的再現(xiàn)場(chǎng)景 信息中,因?yàn)榈湫偷?,只有兩聲道立體聲信號(hào)和可能的附加信息和/或元信息可用。隨后,將詳細(xì)闡述其它在沒(méi)有控制參數(shù)的情況下進(jìn)行操作的已知上混音方法。這 種類型的上混音方法也被稱為盲上混音方法。多數(shù)這種從單聲道生成所謂偽立體聲信號(hào)(即,1至2上混音)的技術(shù)都不是信 號(hào)自適應(yīng)的。這意味著這些技術(shù)將總是以相同的方式處理單聲道信號(hào),而不管該單聲道 信號(hào)中包含了哪些內(nèi)容。示例性地通過(guò)一對(duì)所謂的互補(bǔ)梳狀濾波器來(lái)處理一聲道輸入信 號(hào)(如 M. Schroeder,“An artificial stereophonic effect obtained from using a singlesignal,,,JAES,1957. Another overview of systems of this kind can befound inC. Faller, "Pseudo stereophony revisited,,,Proceedings of theAES 118thConvention, 2005所描述的),這種類型的系統(tǒng)頻繁使用單濾波結(jié)構(gòu)和/或時(shí)間延遲來(lái)進(jìn)行操作,以對(duì)生 成的信號(hào)進(jìn)行去相關(guān)。此外,存在使用非負(fù)矩陣分解的環(huán)境信號(hào)提取技術(shù),具體地在1至N上混音的背景下,其中N大于2。這里,示例性地通過(guò)短時(shí)傅立葉變換的方式來(lái)計(jì)算輸入信號(hào)的時(shí)頻分 布(TFD)。通過(guò)被稱為非負(fù)矩陣分解的數(shù)字優(yōu)化方法,導(dǎo)出直接信號(hào)分量的TFD的估計(jì)值。 通過(guò)計(jì)算輸入信號(hào)的TFD與直接信號(hào)的TFD的估計(jì)值之差,確定環(huán)境信號(hào)的TFD的估計(jì) 值。使用輸入信號(hào)的相位譜圖來(lái)執(zhí)行環(huán)境信號(hào)的時(shí)間信號(hào)的再合成或合成??蛇x地,為了 提高所生成的多聲道信號(hào)的收聽(tīng)體驗(yàn),執(zhí)行附加的后處理。C. Uhle, A. Walther, 0. Hellmuth and J. Herre ^t "Ambience separation from mono recordings using non-negative matrixfactorization", Proceedings of the AES 30thConference 2007
種方法。存在不同的技術(shù)用于對(duì)立體聲錄音進(jìn)行上混音。一項(xiàng)技術(shù)是使用矩陣解碼器。在 Dolby Pro Logic II, DTS Neo :6orHarmanKardon/Lexicon Logic 7 T"失巨P車角軍石馬||
是已知的,并被包含在當(dāng)今出售的幾乎每一個(gè)音頻/視頻接收機(jī)中。作為這些方法所預(yù)期 的功能的副產(chǎn)品,這些方法同樣能夠執(zhí)行盲上混音。這些解碼器使用聲道間差與信號(hào)自適 應(yīng)控制機(jī)制來(lái)生成多聲道輸出信號(hào)。如已經(jīng)討論的,將Avendano和Jot所描述的頻域技術(shù)用于識(shí)別和提取立體聲音頻 信號(hào)中的環(huán)境信息。這種方法基于對(duì)聲道間相干系數(shù)和非線性映射函數(shù)的計(jì)算,從而使得 能夠確定主要由環(huán)境信號(hào)分量組成的時(shí)頻區(qū)域。然后,環(huán)境信號(hào)被合成并用于供給多聲道 再現(xiàn)系統(tǒng)的環(huán)繞聲道。直接/環(huán)境上混音處理的一個(gè)組成是提取被饋送至到兩個(gè)后置聲道Ls、Rs的環(huán)境 信號(hào)。在直接/環(huán)境上混音處理的背景下,為了某一個(gè)信號(hào)能夠被用作環(huán)境時(shí)間信號(hào),對(duì)這 個(gè)信號(hào)有著特定的要求。一個(gè)先決條件是,為了使收聽(tīng)者能夠安全地將直接聲源定位在前 方,直接聲源的相關(guān)部分不應(yīng)該是可聽(tīng)到的。當(dāng)音頻信號(hào)包含語(yǔ)音或者一個(gè)或若干個(gè)可區(qū) 分的說(shuō)話者時(shí),這將是特別重要的。相反,當(dāng)沒(méi)有定位在收聽(tīng)者的前方時(shí),由一群人生成的 語(yǔ)音信號(hào)對(duì)收聽(tīng)者來(lái)說(shuō)不一定是令人不安的。如果特定數(shù)目的語(yǔ)音分量要由后置聲道來(lái)再現(xiàn),這將導(dǎo)致收聽(tīng)者或少數(shù)說(shuō)話者的 位置從前方放置到后方,或距離用戶特定的距離或者甚至在用戶的后方,這導(dǎo)致了非常令 人不安的聲音體驗(yàn)。具體地,在音頻和視頻材料同時(shí)呈現(xiàn)的情況下(例如,如在電影院中), 這樣的體驗(yàn)是特別令人不安的。針對(duì)電影的音調(diào)信號(hào)的(音軌)一個(gè)基本先決條件是收聽(tīng)體驗(yàn)與圖像所生成的體 驗(yàn)相一致。因此,關(guān)于定位的可聽(tīng)到的提示不應(yīng)該與關(guān)于定位的可視的提示相違背。因此, 當(dāng)可以在屏幕上看到說(shuō)話者時(shí),也應(yīng)該將相應(yīng)的語(yǔ)音放到用戶的前方。同樣的情況適用于所有其它的音頻信號(hào),即,沒(méi)有必要局限于同時(shí)呈現(xiàn)音頻信號(hào) 和視頻信號(hào)的情況。例如,其它這種類型的音頻信號(hào)是廣播信號(hào)或有聲書。收聽(tīng)者習(xí)慣于 前置聲道所生成的語(yǔ)音,并且當(dāng)突然的語(yǔ)音從后置聲道而來(lái)時(shí),很可能轉(zhuǎn)身以恢復(fù)其常規(guī) 的體驗(yàn)。為了改進(jìn)環(huán)境信號(hào)的質(zhì)量,德國(guó)專利申請(qǐng)DE 102006017280. 9-55建議在環(huán)境信號(hào)的能量中沒(méi)有較大損失的情況下,使曾經(jīng)提取到的環(huán)境信號(hào)受到瞬變檢測(cè),并產(chǎn)生瞬變 抑制。這里,為了由沒(méi)有瞬變、然而具有大致相同的能量的對(duì)應(yīng)信號(hào)來(lái)替換包括瞬變?cè)趦?nèi)的 區(qū)域,執(zhí)行信號(hào)替換。AES 會(huì)議論文"Descriptor-based spatialization", J. Monceaux, F. Pachet et al.,May 28-31,2005, Barcelona, Spain公開(kāi)了基于描述符的空間化,其中,通過(guò)僅將中央 聲道切換到靜音,基于所提取的描述符對(duì)檢測(cè)到的語(yǔ)音進(jìn)行衰減。這里,使用了語(yǔ)音提取 器。使用動(dòng)作和瞬變次數(shù)來(lái)平滑輸出信號(hào)的修改。從而,可以從電影中提取沒(méi)有語(yǔ)音的多 聲道音軌。當(dāng)在原始的立體聲下混音信號(hào)中呈現(xiàn)出特定的立體聲混響特性時(shí),這導(dǎo)致上混 音工具將該混響分布到除中央聲道之外的所有聲道,從而使得混響能夠被聽(tīng)到。為了防止 這種情況發(fā)生,針對(duì)L、R、Ls和Rs執(zhí)行動(dòng)態(tài)電平控制,以衰減語(yǔ)音的混響。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于生成包括多個(gè)輸出聲道的多聲道信號(hào)的概念,這一 概念一方面是靈活的,另一方面提供了高質(zhì)量的產(chǎn)品。這個(gè)目的是通過(guò)根據(jù)權(quán)利要求1的用于生成多聲道信號(hào)的設(shè)備、根據(jù)權(quán)利要求23 的用于生成多聲道信號(hào)的方法或根據(jù)權(quán)利要求24的計(jì)算機(jī)程序產(chǎn)品來(lái)實(shí)現(xiàn)的。本發(fā)明基于以下發(fā)現(xiàn)為了使后置聲道擺脫語(yǔ)音分量,對(duì)后置聲道(即,環(huán)境聲 道)中的語(yǔ)音分量進(jìn)行抑制。將具有一個(gè)或若干聲道的輸入信號(hào)進(jìn)行上混音,以提供直接 信號(hào)聲道以及提供環(huán)境信號(hào)聲道,或者根據(jù)實(shí)現(xiàn),提供已修改的環(huán)境信號(hào)聲道。提供了一種 語(yǔ)音檢測(cè)器,用于搜索輸入信號(hào)、直接聲道或環(huán)境聲道中的語(yǔ)音分量,其中,這種類型的語(yǔ) 音分量可以示例性地出現(xiàn)在時(shí)間和/或頻率部分或者還在正交分解的分量中。提供了一種 信號(hào)修改器,用來(lái)修改上混音器所生成的直接信號(hào)或輸入信號(hào)的副本,以便抑制其中的語(yǔ) 音信號(hào)分量,而在包括語(yǔ)音信號(hào)分量的對(duì)應(yīng)部分中,直接信號(hào)分量以較低的程度衰減或根 本不衰減。然后,使用已修改的環(huán)境聲道信號(hào)來(lái)生成用于對(duì)應(yīng)的揚(yáng)聲器的揚(yáng)聲器信號(hào)。然而,當(dāng)已經(jīng)修改了輸入信號(hào)之后,直接使用上混音器生成的環(huán)境信號(hào),因?yàn)樵谄?中已經(jīng)對(duì)語(yǔ)音分量進(jìn)行了抑制,因?yàn)闈撛诘囊纛l信號(hào)的確也具有已抑制的語(yǔ)音分量。然而 在這種情況下,當(dāng)上混音處理還生成直接聲道時(shí),僅在環(huán)境聲道中而不是明確需要語(yǔ)音分 量的直接聲道中,基于未修改的輸入信號(hào)而不是基于已修改的輸入信號(hào)來(lái)計(jì)算該直接聲 道,以獲得要選擇性抑制的語(yǔ)音分量。這防止了在后置聲道或環(huán)境信號(hào)聲道中發(fā)生語(yǔ)音分量的再現(xiàn),否則將會(huì)使收聽(tīng)者 困擾或混亂。由此可見(jiàn),本發(fā)明確保了將對(duì)話或收聽(tīng)者能夠聽(tīng)懂(即,具有語(yǔ)音典型的譜特 性)的其它語(yǔ)音放在收聽(tīng)者的前方。同樣的要求也適用于帶內(nèi)概念,在帶內(nèi)概念中,同樣期望不將直接信號(hào)放在后置 聲道中,而是如圖5c所示放在收聽(tīng)者前方以及可能在收聽(tīng)者的側(cè)面,而不是在收聽(tīng)者的后 方,在圖5c中,將直接信號(hào)分量(還有環(huán)境信號(hào)分量)全部放在收聽(tīng)者的前方。根據(jù)本發(fā)明,執(zhí)行取決于信號(hào)的處理,以消除或抑制后置聲道或環(huán)境聲道中的語(yǔ) 音分量。這里,執(zhí)行兩個(gè)基本的步驟,即,檢測(cè)語(yǔ)音的出現(xiàn)和抑制語(yǔ)音,其中,檢測(cè)語(yǔ)音的出 現(xiàn)可以在輸入信號(hào)中、在直接聲道中或在環(huán)境聲道中執(zhí)行,以及其中,抑制語(yǔ)音可以直接在 環(huán)境聲道中執(zhí)行,或者間接在之后將被用于生成環(huán)境聲道的輸入信號(hào)中執(zhí)行,其中,已修改的輸入信號(hào)不用于生成直接聲道。因此,本發(fā)明實(shí)現(xiàn)了 當(dāng)從具有較少聲道的音頻信號(hào)生成多聲道環(huán)繞信號(hào)時(shí),聲道包含了語(yǔ)音分量,確保了所產(chǎn)生的用于后置聲道(從用戶的角度)的信號(hào)包括最小量的語(yǔ) 音,以保留用戶前方的原始音像(前像)。當(dāng)后置聲道再現(xiàn)特定量的語(yǔ)音分量時(shí),應(yīng)該將說(shuō) 話者的位置放置在前方區(qū)域之外的收聽(tīng)者和前置揚(yáng)聲器之間的任何位置,或在極端的情況 下,甚至在收聽(tīng)者的后方。這可能產(chǎn)生非常令人不安的聲音體驗(yàn),特別是當(dāng)音頻信號(hào)與視頻 信號(hào)同時(shí)呈現(xiàn)時(shí),例如在電影的情況下。從而,許多多聲道電影音軌很難在后置聲道中包含 任何語(yǔ)音分量。根據(jù)本發(fā)明,在適當(dāng)時(shí)檢測(cè)并抑制語(yǔ)音信號(hào)分量。
隨后將參考附圖詳細(xì)地描述本發(fā)明的優(yōu)選實(shí)施例,其中圖1示出了本發(fā)明的實(shí)施例的框圖;圖2示出了分析信號(hào)的時(shí)/頻片段與用于討論“對(duì)應(yīng)片段”的環(huán)境聲道或輸入信 號(hào)的關(guān)聯(lián);圖3示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的環(huán)境信號(hào)修改;圖4示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的語(yǔ)音檢測(cè)器與環(huán)境信號(hào)修改器之間的 協(xié)作;圖5a示出了包括直接源(鼓樂(lè)器)和漫射分量的立體聲再現(xiàn)場(chǎng)景;圖5b示出了多聲道再現(xiàn)場(chǎng)景,其中,所有的直接聲源由前置聲道再現(xiàn),漫射分量 由所有的聲道再現(xiàn),該場(chǎng)景也被稱為直接環(huán)境概念;圖5c示出了多聲道再現(xiàn)場(chǎng)景,其中,離散聲源還可以至少部分地由后置聲道再 現(xiàn),以及其中,環(huán)境聲道不由后置揚(yáng)聲器再現(xiàn)或者再現(xiàn)的程度比圖5b中的小;圖6a示出了包括環(huán)境聲道中的語(yǔ)音檢測(cè)和環(huán)境聲道的修改的另一個(gè)實(shí)施例;圖6b示出了包括輸入信號(hào)中的語(yǔ)音檢測(cè)和環(huán)境聲道的修改的實(shí)施例;圖6c示出了包括輸入信號(hào)中的語(yǔ)音檢測(cè)和輸入信號(hào)的修改的實(shí)施例;圖6d示出了包括輸入信號(hào)中的語(yǔ)音檢測(cè)和環(huán)境信號(hào)的修改的另一個(gè)實(shí)施例,該 修改具體調(diào)到語(yǔ)音;圖7示出了基于帶通信號(hào)/子帶信號(hào)的逐頻段的放大因子計(jì)算的實(shí)施例;以及圖8示出了圖7中的放大計(jì)算塊的詳細(xì)示意圖。
具體實(shí)施例方式圖1示出了用于生成多聲道信號(hào)10的設(shè)備的框圖,如圖1所示,該設(shè)備包括左聲 道L、右聲道R、中央聲道C、LFE聲道、左后聲道LS和右后聲道RS。然而,應(yīng)該指出的是,本 發(fā)明同樣適合除了在這里所選擇的5. 1表示之外的任何表示,例如,7. 1表示或者甚至在這 里僅有左聲道、右聲道和中央聲道生成的3. 0表示。如圖1所示的示例性地包括6個(gè)聲道 的多聲道信號(hào)10是根據(jù)包括多個(gè)輸入聲道的輸入信號(hào)12或“X”生成的,當(dāng)輸入立體聲下 混音時(shí),輸入聲道的數(shù)目等于或大于1,并且示例性地等于2。然而,輸出聲道的數(shù)目通常大 于輸入聲道的數(shù)目。圖1中示出的設(shè)備包括上混音器14,用于對(duì)輸入信號(hào)12進(jìn)行上混音,以生成至少直接信號(hào)聲道15和環(huán)境信號(hào)聲道16或者可能的已修改的環(huán)境信號(hào)聲道16’。此外,提供了 語(yǔ)音檢測(cè)器18,語(yǔ)音檢測(cè)器18實(shí)現(xiàn)用于將輸入信號(hào)12用作在18a處提供的分析信號(hào),或使 用在18b處提供的直接信號(hào)聲道15,或使用另外的信號(hào),該另外的信號(hào)在時(shí)間/頻率出現(xiàn)方 面或在其與語(yǔ)音分量有關(guān)的特性方面與輸入信號(hào)I2相似。語(yǔ)音檢測(cè)器檢測(cè)輸入信號(hào)、直接 聲道或示例性地在18c處示出的環(huán)境聲道的片段,該片段中存在語(yǔ)音部分。該語(yǔ)音部分可 以是顯著的語(yǔ)音部分,即,示例性地為語(yǔ)音特性是根據(jù)特定的定性或定量測(cè)量所獲得的語(yǔ) 音部分,該特定的定性測(cè)量和定量測(cè)量超過(guò)也被稱為語(yǔ)音檢測(cè)閾值的閾值。就定量測(cè)量而言,使用數(shù)字值來(lái)量化語(yǔ)音特性,并且將該數(shù)字值與閾值相比較。就 定性測(cè)量而言,每片段地作出決定,其中,可相對(duì)于一個(gè)或若干決定準(zhǔn)則來(lái)作出決定。示例 性地,這種決定準(zhǔn)則可以是可以以某種方式對(duì)不同的定量特性在彼此間進(jìn)行比較/進(jìn)行 加權(quán)或處理,以達(dá)成是/否的決定。圖1中示出的設(shè)備附加地包括信號(hào)修改器20,信號(hào)修改器20被實(shí)現(xiàn)為修改如以 20a所示的原始輸入信號(hào),或者被實(shí)現(xiàn)為修改環(huán)境聲道16。當(dāng)對(duì)環(huán)境聲道16進(jìn)行修改時(shí), 信號(hào)修改器20輸出已修改的環(huán)境聲道21,而當(dāng)對(duì)輸入信號(hào)20a進(jìn)行修改時(shí),向上混音器14 輸出已修改的輸出信號(hào)20b,然后上混音器14例如通過(guò)已經(jīng)針對(duì)直接聲道15使用的相同上 混音處理,生成已修改的環(huán)境聲道16’。如果由于已修改的輸入信號(hào)20b,該上混音處理還 導(dǎo)致直接聲道,可以消除該直接聲道,因?yàn)楦鶕?jù)本發(fā)明,將已經(jīng)從未修改的輸入信號(hào)12(沒(méi) 有語(yǔ)音抑制)而不是已修改的輸入信號(hào)20b獲得的直接聲道用作直接聲道。信號(hào)修改器實(shí)現(xiàn)為修改至少一個(gè)環(huán)境聲道或輸入信號(hào)的片段,其中,這些片段示 例性地可以是時(shí)間或頻率片段或正交分解的部分。具體地,修改與語(yǔ)音檢測(cè)器已檢測(cè)到的 片段相對(duì)應(yīng)的片段,使得信號(hào)修改器如上所述地生成已修改的環(huán)境聲道21或已修改的輸 入信號(hào)20b,在已修改的環(huán)境聲道21或已修改的輸入信號(hào)20b中,語(yǔ)音部分被衰減或消除, 其中,在直接聲道的對(duì)應(yīng)片段中,語(yǔ)音部分已經(jīng)以較低的程度衰減,或者可選地,根本不衰 減。此外,圖1中示出的設(shè)備包括揚(yáng)聲器信號(hào)輸出裝置22,用于在再現(xiàn)場(chǎng)景(例如,如 圖1中示例性示出的5. 1場(chǎng)景)中輸出揚(yáng)聲器信號(hào),其中,然而7. 1場(chǎng)景、3. 0或者其它的或 甚至更高的場(chǎng)景也是可能的。具體地,使用至少一個(gè)直接聲道和至少一個(gè)已修改的環(huán)境聲 道來(lái)生成用于再現(xiàn)場(chǎng)景的揚(yáng)聲器信號(hào),其中,已修改的環(huán)境聲道可以如21所示地源自信號(hào) 修改器20,或者如16'所示地源自上混音器14。當(dāng)示例性地提供兩個(gè)已修改的環(huán)境聲道21時(shí),可以將這兩個(gè)已修改的環(huán)境聲道直接饋送至兩個(gè)揚(yáng)聲器信號(hào)Ls、Rs中,而僅將直接聲道饋送至三個(gè)前置揚(yáng)聲器L、R、C中, 以使得可以在環(huán)境信號(hào)分量與直接信號(hào)分量之間進(jìn)行徹底的劃分。這樣,直接信號(hào)分量將 全部在用戶的前方,而環(huán)境信號(hào)分量將全部在用戶的后方。備選地,還可以典型地以較小的 百分比將環(huán)境信號(hào)分量引入到前置聲道中,以得到如圖5b所示的直接/環(huán)境場(chǎng)景,其中,環(huán) 境信號(hào)不僅由環(huán)繞聲道生成,而且還由前置揚(yáng)聲器(例如,如L、C、R)生成。然而,當(dāng)優(yōu)選為帶內(nèi)場(chǎng)景時(shí),環(huán)境信號(hào)分量主要還將由前置揚(yáng)聲器(例如,如L、C、 R)輸出,然而,其中還可以至少部分地將直接信號(hào)分量饋送至兩個(gè)后置揚(yáng)聲器Ls、Rs中。 為了能夠?qū)D5c中的兩個(gè)直接信號(hào)源1100和1102放置在所指示的位置處,源1100在揚(yáng) 聲器L中的部分將粗略地和揚(yáng)聲器Ls中的一樣大,以根據(jù)典型的全景化(panning)規(guī)則將源1100放置在L與Ls的中間。根據(jù)實(shí)現(xiàn),揚(yáng)聲器信號(hào)輸出裝置22可以使得饋送至輸入側(cè) 的聲道直接通過(guò),或者可以例如通過(guò)帶內(nèi)概念或直接/環(huán)境概念來(lái)映射環(huán)境聲道和直接聲 道,以便將聲道分布到各個(gè)揚(yáng)聲器,并最終將來(lái)自各個(gè)聲道的部分加起來(lái)生成實(shí)際的揚(yáng)聲 器信號(hào)。
圖2在頂部中示出了分析信號(hào)的時(shí)/頻分布,并在底部中示出了環(huán)境聲道或輸入 信號(hào)的時(shí)/頻分布。具體地,沿著水平軸繪制時(shí)間,并沿著垂直軸繪制頻率。這意味著,在 圖2中,對(duì)于每一個(gè)信號(hào)15,有在分析信號(hào)和環(huán)境聲道/輸入信號(hào)中都具有相同數(shù)目的時(shí) /頻片(tile)或時(shí)/頻片段。這意味著,例如當(dāng)語(yǔ)音檢測(cè)器18檢測(cè)部分22中的語(yǔ)音信號(hào) 時(shí),信號(hào)修改器20將以某種方法處理環(huán)境聲道/輸入信號(hào)中的片段,例如,如衰減、徹底消 除或由不包括語(yǔ)音特性的合成信號(hào)來(lái)替換該片段。應(yīng)該指出的是,在本發(fā)明中,該分布不需 要像圖2中示出的那樣有選擇性。相反,時(shí)間檢測(cè)可能已經(jīng)提供了令人滿意的效果,其中, 將分析信號(hào)的特定時(shí)間片段(示例性地,從第二個(gè)2到第二個(gè)2. 1)檢測(cè)為包含語(yǔ)音信號(hào), 以便接著處理環(huán)境聲道或輸入信號(hào)中也在第二個(gè)2與第二個(gè)2. 1之間的片段,以獲得語(yǔ)音 抑制。備選地,還可以通過(guò)例如主要分量分析來(lái)執(zhí)行正交分解,在這種情況下,將在環(huán)境 聲道或輸入信號(hào)中、以及在分析信號(hào)中均使用相同的分量分布。在環(huán)境聲道或輸入信號(hào)中, 對(duì)分析信號(hào)中已被檢測(cè)作為語(yǔ)音分量的特定分量進(jìn)行衰減或者徹底抑制或消除。根據(jù)實(shí) 現(xiàn),在分析信號(hào)中檢測(cè)片段,該片段不必在分析信號(hào)中進(jìn)行處理,也可能在另外的信號(hào)中進(jìn) 行處理。圖3示出了語(yǔ)音檢測(cè)器協(xié)同環(huán)境聲道修改器的實(shí)現(xiàn),語(yǔ)音檢測(cè)器僅提供時(shí)間信 息,即,當(dāng)看圖2時(shí),僅以寬帶的方式識(shí)別第一、第二、第三、第四或第五時(shí)間間隔,并將該信 息經(jīng)由控制線18d (如1)傳送到環(huán)境聲道修改器20。同步工作或以緩存的方式工作的語(yǔ)音 檢測(cè)器18和環(huán)境聲道修改器20 —道獲得語(yǔ)音信號(hào)或要被修改的信號(hào)中要被衰減的語(yǔ)音分 量,示例性地,該信號(hào)可以是信號(hào)12或信號(hào)16,然而,確定的是這種對(duì)應(yīng)片段的衰減將不會(huì) 發(fā)生或僅較少程度地發(fā)生在直接聲道中。根據(jù)實(shí)現(xiàn),還可以通過(guò)在不考慮語(yǔ)音分量的情況 下進(jìn)行操作的上混音器14來(lái)完成,例如,以矩陣方法或以其它不執(zhí)行特殊的語(yǔ)音處理的方 法。然后,將通過(guò)這種方式獲得的直接信號(hào)饋送到輸出裝置22,而沒(méi)有進(jìn)一步處理,而關(guān)于 語(yǔ)音抑制來(lái)處理環(huán)境信號(hào)。備選地,當(dāng)信號(hào)修改器使輸入信號(hào)遭受語(yǔ)音抑制時(shí),上混音器14可以在某種意義 上操作兩次,以在一方面基于原始輸入信號(hào)提取直接聲道分量,而且還基于已修改的輸入 信號(hào)20b提取已修改的環(huán)境聲道16’。然而,在使用相應(yīng)的其它輸入信號(hào)的情況下,相同的 上混音算法可能出現(xiàn)兩次,其中,語(yǔ)音分量在一個(gè)輸入信號(hào)中衰減了,而在另一個(gè)輸入信號(hào) 中沒(méi)有衰減。根據(jù)實(shí)現(xiàn),環(huán)境聲道修改器呈現(xiàn)出了寬帶衰減的功能或高通濾波的功能,隨后將 對(duì)此進(jìn)行說(shuō)明。隨后,將參考圖6a、6b、6c和6d來(lái)說(shuō)明本發(fā)明設(shè)備的不同實(shí)現(xiàn)。在圖6a中,從輸入信號(hào)χ提取環(huán)境信號(hào)a,這一提取是上混音器14的一部分功能。 檢測(cè)語(yǔ)音在環(huán)境信號(hào)中的出現(xiàn)。將檢測(cè)的結(jié)果d用在環(huán)境聲道修改器20中計(jì)算已修改的 環(huán)境信號(hào),在已修改的環(huán)境信號(hào)中語(yǔ)音部分被抑制了。
圖6b示出的配置與圖6a的不同之處在于將輸入信號(hào)而不是環(huán)境信號(hào)饋送至語(yǔ) 音檢測(cè)器18作為分析信號(hào)18a。具體地,與圖6a的配置相類似地計(jì)算已修改的環(huán)境聲道信 號(hào)\,然而,檢測(cè)輸入信號(hào)中的語(yǔ)音。這可以通過(guò)以下事實(shí)來(lái)解釋在輸入信號(hào)χ中,語(yǔ)音分 量通常比在環(huán)境信號(hào)a中更容易被發(fā)現(xiàn)。從而,通過(guò)圖6b示出的配置可以實(shí)現(xiàn)改進(jìn)的可靠 性。在圖6c中,從已經(jīng)遭受到語(yǔ)音信號(hào)抑制的輸入信號(hào)版本Xs中提取語(yǔ)音已修改的 環(huán)境信號(hào)as。典型地,由于與在所提取的環(huán)境信號(hào)中相比,χ中的語(yǔ)音分量更加顯著,因此 可以以比圖6a中更安全且更持久的方式來(lái)抑制語(yǔ)音分量。與圖6a中的配置相比,圖6c中 示出的配置的缺點(diǎn)在于根據(jù)提取方法的類型,語(yǔ)音抑制和環(huán)境提取處理的潛在偽象可能 惡化。然而,在圖6c中,僅使用環(huán)境聲道提取器14的功能來(lái)從已修改的音頻信號(hào)中提取環(huán) 境聲道。然而,直接聲道不是從已修改的音頻信號(hào)Xs (20b)中提取的,而是基于原始輸入信 號(hào)(12)提取的。在圖6d示出的配置中,上混音器從輸入信號(hào)χ中提取環(huán)境信號(hào)a。檢測(cè)輸入信號(hào) χ中的語(yǔ)音出現(xiàn)。此外,語(yǔ)音分析器30計(jì)算附加地對(duì)環(huán)境聲道修改器20的功能進(jìn)行控制 的附加輔助信息e。這些輔助信息是直接根據(jù)輸入信號(hào)計(jì)算的,并且可以是語(yǔ)音分量在時(shí)/ 頻表示中的位置,示例性地,以圖2中的譜圖的形式示出,或者這些輔助信息可以是將在下 面更詳細(xì)地描述的其它附加信息。下面對(duì)語(yǔ)音檢測(cè)器18的功能進(jìn)行詳細(xì)描述。語(yǔ)音檢測(cè)的目的是分析音頻信號(hào)的 混合,以估計(jì)語(yǔ)音存在的可能性。輸入信號(hào)可以是由多個(gè)不同類型的音頻信號(hào)聚集而成的 信號(hào),示例性地,音頻信號(hào)包括音樂(lè)信號(hào)、噪聲信號(hào)或從電影中可知的特殊音效。檢測(cè)語(yǔ)音 的一種方式是使用模式識(shí)別系統(tǒng)。模式識(shí)別是指分析原始數(shù)據(jù),并基于已在原始數(shù)據(jù)中顯 式的模式類別來(lái)執(zhí)行特定處理。具體地,術(shù)語(yǔ)“模式”描述了將在同等類別(種類)的目標(biāo) 的測(cè)量之間發(fā)現(xiàn)的根本的相似性。模式識(shí)別系統(tǒng)的基本操作是檢測(cè),即,使用變換器記錄數(shù) 據(jù)、預(yù)處理、提取特征以及分類,其中,這些基本操作可以以所指示的順序來(lái)執(zhí)行。通常,使用麥克風(fēng)作為用于語(yǔ)音檢測(cè)系統(tǒng)的傳感器。準(zhǔn)備工作可以是A/D變換、重 采樣或減噪。提取特征是指根據(jù)測(cè)量計(jì)算每一個(gè)目標(biāo)的特有特征。選擇特征,以使得特征 在同一種類的目標(biāo)中是類似的,即,以便能夠?qū)崿F(xiàn)較好的種類內(nèi)的致密性,以及使得針對(duì)不 同種類的目標(biāo)特征是不同的,由此能夠獲得種類間的可分性。第三個(gè)要求是相對(duì)于噪聲、環(huán) 境條件以及與人的感知無(wú)關(guān)的輸入信號(hào)的轉(zhuǎn)換,特征應(yīng)該是魯棒的??梢詫⑻崛√匦詣澐?成兩個(gè)階段。第一階段是計(jì)算特征,第二階段是將該特征投影或轉(zhuǎn)換到大致正交的基底上, 以最小化特性向量之間的相關(guān),并通過(guò)不使用低能量的元素來(lái)降低特征的維度。分類是基于所提取的特征和已訓(xùn)練的分類器來(lái)決定是否存在語(yǔ)音的過(guò)程。給出了 下列等式Qxy = Kx1, Y1) , . . . , (X1, Υι)},Χ(.GY= {1,· · ·,c}在以上等式中,定義了訓(xùn)練向量Qxy的量,Xi指的是特征向量以及Y指的是種類集 合。這意味著對(duì)于基本的語(yǔ)音檢測(cè),Y有兩個(gè)值,即{語(yǔ)音,非語(yǔ)音}。在訓(xùn)練階段,根據(jù)所指定的數(shù)據(jù)計(jì)算特征xy,即知道它們屬于哪一個(gè)種類y的音頻 信號(hào)。在完成訓(xùn)練后,分類器獲悉了所有種類的特征。在應(yīng)用分類器的階段,如同訓(xùn)練階段 中一樣,根據(jù)未知數(shù)據(jù)計(jì)算并投影特征,并且基于訓(xùn)練中所獲悉的與種類的特征有關(guān)的知識(shí),分類器對(duì)該特征進(jìn)行分類。下面將詳細(xì)描述語(yǔ)音抑制的特定實(shí)現(xiàn),示例性地,該特定實(shí)現(xiàn)可以由信號(hào)修改器 20來(lái)執(zhí)行。從而,可以采用不同的方法來(lái)抑制音頻信號(hào)中的語(yǔ)音。存在不為語(yǔ)音放大和減 噪的領(lǐng)域所已知的方法用于通信應(yīng)用。最初,使用語(yǔ)音放大方法來(lái)放大語(yǔ)音和背景噪聲 的 混合中的語(yǔ)音。可以對(duì)這種方法進(jìn)行修改,以產(chǎn)生如針對(duì)本發(fā)明所執(zhí)行的相反效果,即抑制 語(yǔ)首。存在針對(duì)語(yǔ)音放大和減噪的解決方法,該方法根據(jù)對(duì)包含在時(shí)/頻系數(shù)中的噪聲 度的估計(jì)值來(lái)衰減或放大時(shí)/頻表示的系數(shù)。在不知道與背景噪聲有關(guān)的附加信息(例如, 先驗(yàn)信息或特定噪聲傳感器所測(cè)量到的信息)時(shí),示例性地使用特定的最小統(tǒng)計(jì)法來(lái)從噪 聲滋生的測(cè)量中獲得時(shí)/頻表示。噪聲抑制規(guī)則使用所估計(jì)的噪聲值計(jì)算衰減因子。該 原理已知為短時(shí)頻譜衰減或頻譜加權(quán)為人所知,示例性地,從G. Schmid, "Single-channel noise suppression based on spectralweighting,,, Eurasip Newsletter 2004 可知道該 原理。減譜、Wiener濾波和Ephraim-Malah算法是根據(jù)短時(shí)譜衰減(STSA)原理進(jìn)行操作的 信號(hào)處理方法。STSA方法的更一般的表達(dá)產(chǎn)生信號(hào)子空間方法,信號(hào)子空間方法也被稱為 降維方法,并在 P· Hansen and S. Jensen, "Fir filterrepresentation of reduced-rank noise reduction”,IEEE TSP, 1998 中進(jìn)行了描述。原則上,利用與其已知用法的相反的使用方式,可以使用所有放大語(yǔ)音或抑制非 語(yǔ)音分量的方法來(lái)抑制語(yǔ)音和/或放大非語(yǔ)音。語(yǔ)音方法或噪聲抑制的一般模型是以下事 實(shí)輸入信號(hào)是期望的信號(hào)(語(yǔ)音)和背景噪聲(非語(yǔ)音)的混合。例如,通過(guò)在基于STSA 的方法中倒置衰減因子或者通過(guò)交換對(duì)期望信號(hào)和背景噪聲的定義來(lái)實(shí)現(xiàn)對(duì)語(yǔ)音的抑制。然而,關(guān)于上混音的上下文,語(yǔ)音抑制中的重要要求在于將產(chǎn)生的音頻信號(hào)感知 為高音頻質(zhì)量的音頻信號(hào)。本領(lǐng)域技術(shù)人員知道,語(yǔ)音改進(jìn)方法和降噪方法將可聽(tīng)到的偽 象引入了輸出信號(hào)中。已知這種偽象的示例是音樂(lè)噪聲或音樂(lè)音調(diào),并且由于對(duì)噪聲底的 易出錯(cuò)的估計(jì)和變化的子帶衰減因子而產(chǎn)生。備選地,還可以使用盲源分離方法來(lái)將語(yǔ)音信號(hào)部分從環(huán)境信號(hào)中分離,以及隨 后對(duì)語(yǔ)音信號(hào)部分和環(huán)境信號(hào)進(jìn)行單獨(dú)處理。然而,對(duì)于生成高質(zhì)量音頻信號(hào)的特殊要求來(lái)說(shuō),隨后詳細(xì)描述的特定方法是優(yōu) 選的,這是因?yàn)檫@些特定方法明顯好于其它方法。一種方法是如圖3中20所指示的寬帶衰 減。音頻信號(hào)在語(yǔ)音所在的時(shí)間間隔中衰減。特殊的放大因子在-12dB到-3dB的范圍內(nèi), 優(yōu)選的衰減是在6dB處。因?yàn)槠渌盘?hào)分量/部分也會(huì)被抑制,所以可以假定音頻信號(hào)能 量中的全部損耗都清楚地感知到。然而,已經(jīng)發(fā)現(xiàn)效果并不會(huì)令人不安,這是因?yàn)樵谡Z(yǔ)音 序列開(kāi)始時(shí),不管怎樣,用戶總是特別地集中在前置揚(yáng)聲器L、C、R上,這樣當(dāng)用戶集中在語(yǔ) 音信號(hào)上時(shí),他或她將體驗(yàn)不到后置聲道或環(huán)境信號(hào)中的能量減少。由于另外的典型效果, 艮口,音頻信號(hào)的電平由于語(yǔ)音開(kāi)始而都將增大,這尤其令人鼓舞。通過(guò)將衰減引入到_12dB 到3dB之間的范圍內(nèi),該衰減不會(huì)被體驗(yàn)為令人不安的。相反,用戶將發(fā)現(xiàn)這令人愉悅得 多,這是因?yàn)橛捎趯?duì)后置聲道中的語(yǔ)音分量的抑制,對(duì)于用戶而言,實(shí)現(xiàn)了將語(yǔ)音分量獨(dú)占 地放置在前置聲道中的效果。圖3中20還示出一種備選方法,高通濾波。在語(yǔ)音所在之處對(duì)音頻信號(hào)進(jìn)行高通 濾波,其中,截止頻率在600Hz到3000Hz之間的范圍內(nèi)。關(guān)于本發(fā)明,這一針對(duì)截止頻率的設(shè)置是由語(yǔ)音的信號(hào)特性產(chǎn)生的。語(yǔ)音信號(hào)的長(zhǎng)期功率譜集中在2. 5kHz以下的范圍內(nèi)。濁 音的基頻的優(yōu)選范圍在75Hz到330Hz之間的范圍內(nèi)。對(duì)于成年男性,產(chǎn)生60Hz到250Hz之 間的范圍。針對(duì)男性說(shuō)話者的均值在120Hz處,而針對(duì)女性說(shuō)話者的均值在215Hz處。由 于聲道中的共振,特定信號(hào)頻率被放大。頻譜中對(duì)應(yīng)的峰值也被稱為共振峰頻率,或簡(jiǎn)單地 稱為共振峰。典型地,在3500Hz以下大約有3個(gè)顯著的共振峰。由此可見(jiàn),語(yǔ)音呈現(xiàn)出1/ F的特性,即,頻譜能量隨著頻率增大而降低。從而,為了本發(fā)明,可以通過(guò)包括了所指示的 截止頻率范圍在內(nèi)的高通濾波來(lái)對(duì)語(yǔ)音分量進(jìn)行濾波。另一個(gè)優(yōu)選的實(shí)現(xiàn)是參考圖4示出的正弦信號(hào)建模。在第一步驟40中,檢測(cè)語(yǔ)音 的基波,其中,該檢測(cè)可以在語(yǔ)音檢測(cè)器18中或者在如圖6中e所示的語(yǔ)音分析器30中執(zhí) 行。之后,在步驟41中,執(zhí)行分析以找出屬于基波的諧波。這一功能可以在語(yǔ)音檢測(cè)器/ 語(yǔ)音分析器中執(zhí)行,或者甚至可以在環(huán)境信號(hào)修改器中已經(jīng)執(zhí)行。隨后,如42所示,基于逐 塊轉(zhuǎn)換來(lái)計(jì)算針對(duì)環(huán)境信號(hào)的譜圖。隨后,在步驟43中通過(guò)衰減譜圖中的基波和諧波來(lái)執(zhí) 行實(shí)際的語(yǔ)音抑制。在步驟44中,對(duì)基波和諧波已被衰減或消除的已修改的環(huán)境信號(hào)進(jìn)行 再轉(zhuǎn)換,以獲得已修改的環(huán)境信號(hào)或已修改的輸入信號(hào)。該正弦信號(hào)建模經(jīng)常用于音調(diào)合成、音頻編碼、源分離、音調(diào)處理和噪聲抑制。這 里,將信號(hào)表示為幅度和頻率時(shí)變的正弦波構(gòu)成的集合。通過(guò)識(shí)別和修改部分音調(diào)(即,基 波及其諧波)來(lái)處理濁音信號(hào)分量。如41處所示,通過(guò)部分音調(diào)發(fā)現(xiàn)器來(lái)識(shí)別部分音調(diào)。典型地,在時(shí)/頻域執(zhí)行部 分音調(diào)發(fā)現(xiàn)。如42處所示,通過(guò)短時(shí)傅立葉變換完成譜圖。在譜圖的每一個(gè)譜中檢測(cè)局部 最大值,并通過(guò)相鄰譜的局部最大值確定軌跡。對(duì)基頻進(jìn)行估計(jì)可以支持峰值選取處理,對(duì) 基頻的估計(jì)是在40處執(zhí)行的。然后,可以從軌跡中獲得正弦信號(hào)表示。應(yīng)該指出的是,還 可以改變步驟40、41和42之間的順序,以使得在圖6d的語(yǔ)音分析器30中執(zhí)行的轉(zhuǎn)換42 首先發(fā)生。已經(jīng)建議了獲得正弦信號(hào)表示的不同開(kāi)發(fā)。在D.Andersen and Μ. Clements, "Audio signal noise reduction using multi-resolution sinusoidalmodeling,,, Proceedings of ICASSP 1999中示出了用于減噪的多解處理方法。在J. Jensen and J. Hansen, "Speech enhancement using aconstrained iterative sinusoidal model,,, IEEE TSAP 2001中已經(jīng)呈現(xiàn)了用于獲得正弦表示的迭代過(guò)程。使用正弦信號(hào)表示,通過(guò)放大正弦分量獲得改進(jìn)的語(yǔ)音信號(hào)。然而,本發(fā)明的語(yǔ)音 抑制旨在實(shí)現(xiàn)相反的目標(biāo),即,針對(duì)包括濁音在內(nèi)的語(yǔ)音段抑制部分音調(diào),部分音調(diào)包括基 波及其諧波。典型地,高能量的語(yǔ)音分量具有音調(diào)的特性。因此,對(duì)于元音,語(yǔ)音在60-75dB 的電平處,而對(duì)于輔音,大約要低20-30dB。激發(fā)周期脈沖類型的信號(hào)是針對(duì)濁音(元音) 的。激發(fā)信號(hào)通過(guò)聲腔進(jìn)行濾波。由此可見(jiàn),濁音段的幾乎所有能量都集中在基波及其諧 波中。當(dāng)抑制這些部分音調(diào)時(shí),顯著地抑制了語(yǔ)音分量。在圖7和8中示出了另一種實(shí)現(xiàn)語(yǔ)音抑制的方式。圖7和8解釋了短時(shí)譜衰減或譜加權(quán)的基本原理。首先,估計(jì)背景噪聲的功率密度譜。所示出的方法使用所謂的低層次 特征來(lái)估計(jì)包含在時(shí)/頻片(tile)中的語(yǔ)音量,低級(jí)特征是對(duì)信號(hào)在特定頻率段中的“語(yǔ) 音相似性”的測(cè)量。低級(jí)特征是與解釋其重要性和計(jì)算復(fù)雜度有關(guān)的低層次的特征。如在圖7中70處所示,使用濾波器組或短時(shí)傅立葉變換將音頻信號(hào)分解成很多個(gè)頻段。然后,如71a和71b所示例性示出的,從這種類型的低層次特征中計(jì)算針對(duì)所有子頻 段的時(shí)變的放大因子,以與子頻段信號(hào)所包含的語(yǔ)音量成比例地對(duì)子頻段信號(hào)進(jìn)行衰減。 適當(dāng)?shù)牡蛯哟翁卣魇亲V平坦度測(cè)量(SFM)和4-Hz調(diào)制能量(4HzME)。SFM測(cè)量音頻信號(hào)的 音度,并且對(duì)于某一個(gè)頻段,是由該頻段的所有譜值的幾何均值與該頻段中譜成分的算術(shù) 均值之商來(lái)產(chǎn)生的。4HzME源自語(yǔ)音在大致4Hz處具有特性能量調(diào)制峰值這一事實(shí),4Hz與 說(shuō)話者的音節(jié)的平均速率相對(duì)應(yīng)。 圖8示出了圖7中的放大計(jì)算塊71a和71b的詳細(xì)示意。基于子頻段Xi計(jì)算多 個(gè)不同的低層次特征,即LLF1,. . .,LLFn。然后,在合并器80中合并這些特征,以獲得針對(duì) 子頻段的放大因子gi。應(yīng)該指出的是,根據(jù)實(shí)現(xiàn),不是必然需要使用低層次特征,而是可以使用任何特 征,例如能量特征等,然后根據(jù)圖8中的實(shí)現(xiàn)在合并器中合并這些特征,以獲得定量的放大 因子gi,從而能夠可變地衰減每一個(gè)頻段(在任何時(shí)間點(diǎn)處)以實(shí)現(xiàn)語(yǔ)音抑制。根據(jù)環(huán)境,本發(fā)明的方法可以利用硬件或軟件來(lái)實(shí)現(xiàn)。該實(shí)現(xiàn)可以是在數(shù)字存儲(chǔ) 介質(zhì)上,特別是在具有可被電子讀出的控制信號(hào)的盤或CD上,數(shù)字存儲(chǔ)介質(zhì)可以與可編程 計(jì)算機(jī)系統(tǒng)協(xié)同以執(zhí)行本發(fā)明的方法??偠灾?,本發(fā)明因此也包括計(jì)算機(jī)程序產(chǎn)品,計(jì) 算機(jī)程序產(chǎn)品具有存儲(chǔ)在機(jī)器可讀載體上的程序代碼,當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行 時(shí),程序代碼執(zhí)行本發(fā)明的方法。換言之,因此可以將本發(fā)明實(shí)現(xiàn)為計(jì)算機(jī)程序,該計(jì)算機(jī) 程序程序代碼,當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),程序代碼執(zhí)行本方法。
權(quán)利要求
一種用于生成多聲道信號(hào)(10)的設(shè)備,所述多聲道信號(hào)(10)包括多個(gè)輸出聲道,所述多個(gè)輸出聲道的數(shù)目比輸入信號(hào)(12)的多個(gè)輸入聲道的數(shù)目多,所述多個(gè)輸入聲道的數(shù)目等于或大于1,所述設(shè)備包括上混音器(14),用于對(duì)所述輸入信號(hào)進(jìn)行上混音,以提供至少直接信號(hào)聲道以及至少環(huán)境聲道或已修改的環(huán)境聲道;語(yǔ)音檢測(cè)器(18),用于檢測(cè)所述輸入信號(hào)、所述直接信號(hào)聲道或所述環(huán)境信號(hào)聲道中出現(xiàn)語(yǔ)音部分的片段;以及信號(hào)修改器(20),用于修改所述環(huán)境聲道或所述輸入信號(hào)中與已被所述語(yǔ)音檢測(cè)器(18)檢測(cè)到的片段相對(duì)應(yīng)的片段,以獲得已修改的環(huán)境信號(hào)聲道或已修改的輸入信號(hào),在已修改的環(huán)境信號(hào)聲道或已修改的輸入信號(hào)中語(yǔ)音部分被衰減或消除,所述直接聲道信號(hào)中的片段以較低的程度衰減或根本不衰減;以及揚(yáng)聲器信號(hào)輸出裝置(22),用于使用所述直接聲道和所述已修改的環(huán)境聲道來(lái)輸出再現(xiàn)方案中的揚(yáng)聲器信號(hào)。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述揚(yáng)聲器信號(hào)輸出裝置(22)被實(shí)現(xiàn)為按照直 接/環(huán)境方案進(jìn)行操作,在所述直接/環(huán)境方案中,將每一個(gè)直接聲道映射到其自身的揚(yáng)聲 器,并將每一個(gè)環(huán)境聲道映射到其自身的揚(yáng)聲器,所述揚(yáng)聲器信號(hào)輸出裝置(22)被實(shí)現(xiàn)為 僅將所述環(huán)境聲道而不是所述直接聲道映射到針對(duì)所述再現(xiàn)方案中收聽(tīng)者后方的揚(yáng)聲器 的揚(yáng)聲器信號(hào)。
3.根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述揚(yáng)聲器信號(hào)輸出裝置(22)被實(shí)現(xiàn)為根據(jù)帶 內(nèi)方案進(jìn)行操作,在所述帶內(nèi)方案中,根據(jù)每一個(gè)直接信號(hào)聲道的位置,將每一個(gè)直接信號(hào) 聲道映射到一個(gè)或數(shù)個(gè)揚(yáng)聲器,并且其中,所述揚(yáng)聲器信號(hào)輸出裝置(22)被實(shí)現(xiàn)為把被確 定用于揚(yáng)聲器的所述環(huán)境聲道和所述直接聲道或者所述環(huán)境聲道或所述直接聲道的一部 分相加,以獲得針對(duì)所述揚(yáng)聲器的揚(yáng)聲器輸出信號(hào)。
4.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述揚(yáng)聲器信號(hào)輸出裝置被實(shí)現(xiàn)為 給在所述再現(xiàn)方案中能夠被放置在所述收聽(tīng)者前方的至少三個(gè)聲道提供揚(yáng)聲器信號(hào),以及 生成在所述再現(xiàn)方案中能夠被放置在所述收聽(tīng)者后方的至少兩個(gè)聲道。
5.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為在時(shí)間上以逐塊的方式進(jìn)行操作,以及以頻率選 擇性的方式逐頻段地分析每一個(gè)時(shí)間塊,來(lái)檢測(cè)針對(duì)時(shí)間塊的頻段,以及其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為修改所述環(huán)境信號(hào)聲道或所述輸入信號(hào)的這種 時(shí)間塊中與已被所述語(yǔ)音檢測(cè)器(18)檢測(cè)到的頻段相對(duì)應(yīng)的頻段。
6.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述信號(hào)修改器被實(shí)現(xiàn)為衰減所述環(huán)境聲道信號(hào)或所述輸入信號(hào),或者所述環(huán) 境聲道信號(hào)或所述輸入信號(hào)中在已被所述語(yǔ)音檢測(cè)器(18)檢測(cè)到的時(shí)間間隔中的部分, 以及其中,所述上混音器(14)和所述揚(yáng)聲器信號(hào)輸出裝置(22)被實(shí)現(xiàn)為生成所述至少一 個(gè)直接聲道,使得同一時(shí)間間隔以較低的程度衰減或根本不衰減,以使得所述直接聲道包 括當(dāng)再現(xiàn)時(shí)能夠比所述已修改的環(huán)境聲道信號(hào)中或所述已修改輸入信號(hào)中的語(yǔ)音成分更 強(qiáng)地被感知到的語(yǔ)音分量。
7.依照前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為在 所述語(yǔ)音修改器(18)已經(jīng)檢測(cè)到存在語(yǔ)音部分的時(shí)間間隔時(shí),對(duì)所述至少一個(gè)環(huán)境聲道 或輸入信號(hào)進(jìn)行高通濾波,所述高通濾波的截止頻率在400Hz到3,500Hz之間。
8.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為檢測(cè)語(yǔ)音信號(hào)分量在時(shí)間上的出現(xiàn),以及 其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為找出所述語(yǔ)音信號(hào)分量的基頻,以及 選擇性地衰減(43)所述環(huán)境聲道或所述輸入信號(hào)在所述基頻和諧波處的音調(diào),以獲 得已修改的環(huán)境聲道信號(hào)或已修改的輸入信號(hào)。
9.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為找出每一頻段的語(yǔ)音內(nèi)容的測(cè)量,以及 其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為根據(jù)所述測(cè)量通過(guò)衰減因子來(lái)衰減(72a、72b)所 述環(huán)境聲道的對(duì)應(yīng)頻段,較高的測(cè)量導(dǎo)致較高的衰減因子,以及較低的測(cè)量導(dǎo)致較低的衰 減因子。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中,所述信號(hào)修改器(20)包括 時(shí)頻域變換器(70),用于將所述環(huán)境信號(hào)或所述輸入信號(hào)變換為譜表示; 衰減(72a、72b),用于頻率選擇性地對(duì)所述譜表示進(jìn)行可變衰減;以及頻時(shí)域變換器(73),用于將可變衰減后的譜表示變換到時(shí)域,以獲得已修改的環(huán)境聲 道信號(hào)或已修改的輸入信號(hào)。
11.根據(jù)權(quán)利要求9或10所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)包括 時(shí)頻域變換器(42),用于提供分析信號(hào)的譜表示;用于計(jì)算所述分析信號(hào)的每頻段的一個(gè)或數(shù)個(gè)特征(71a、71b)的裝置;以及 用于基于所述每頻段的一個(gè)或數(shù)個(gè)特征的組合來(lái)計(jì)算語(yǔ)音內(nèi)容的測(cè)量的裝置(80)。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為計(jì)算譜平坦度 測(cè)量(SFM)或4Hz調(diào)制能量(4HzME)作為特征。
13.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為分 析所述環(huán)境聲道信號(hào)(18c),以及其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為修改所述環(huán)境聲道 信號(hào)(16)。
14.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為 分析所述輸入信號(hào)(18a),以及其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為基于來(lái)自所述語(yǔ)音檢 測(cè)器(18)的控制信息(18d)修改所述環(huán)境聲道信號(hào)(16)。
15.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為 分析所述輸入信號(hào)(18a),以及其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為基于來(lái)自所述語(yǔ)音檢 測(cè)器(18)的控制信息(18d)修改所述輸入信號(hào),以及其中,所述上混音器(14)包括環(huán)境聲 道提取器,所述環(huán)境聲道提取器被實(shí)現(xiàn)為基于已修改的輸入信號(hào)找出已修改的環(huán)境聲道信 號(hào)(16’),所述上混音器(14)還被實(shí)現(xiàn)為基于在所述信號(hào)修改器(20)的輸入處的輸入信 號(hào)(12)來(lái)找出所述直接聲道信號(hào)(15)。
16.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的設(shè)備,其中,所述語(yǔ)音檢測(cè)器(18)被實(shí)現(xiàn)為分析所述輸入信號(hào)(18a),其中,還提供了語(yǔ)音分 析器(30)來(lái)對(duì)所述輸入信號(hào)進(jìn)行語(yǔ)音分析,以及其中,所述信號(hào)修改器(20)被實(shí)現(xiàn)為基于來(lái)自所述語(yǔ)音檢測(cè)器(18)的控制信息(18d) 和基于來(lái)自所述語(yǔ)音分析器(30)的語(yǔ)音分析信息(18e)來(lái)修改所述環(huán)境聲道信號(hào)(16)。
17.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,將所述上混音器(14)實(shí)現(xiàn)為矩陣解碼器。
18.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,將所述上混音器(14)實(shí)現(xiàn)為盲上 混音器,所述盲上混音器僅基于所述輸入信號(hào)(12),而在沒(méi)有另外發(fā)送的上混音信息的情 況下,生成所述直接聲道信號(hào)(15)、所述環(huán)境聲道信號(hào)(16)或所述已修改的環(huán)境聲道信號(hào) (16,)。
19.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述上混音器(14)被實(shí)現(xiàn)為對(duì)輸入信號(hào)(12)執(zhí)行統(tǒng)計(jì)分析,以生成直接聲道信 號(hào)(15)、所述環(huán)境聲道信號(hào)(16)或已修改的環(huán)境聲道信號(hào)(16’)。
20.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的設(shè)備,其中,所述輸入信號(hào)是包括一個(gè)聲道的單 聲道信號(hào),以及其中,所述輸出信號(hào)是包括兩個(gè)或更多聲道信號(hào)的多聲道信號(hào)。
21.根據(jù)權(quán)利要求1至19中任一項(xiàng)所述的設(shè)備,其中,所述上混音器(14)被實(shí)現(xiàn)為獲 得包括兩個(gè)立體聲聲道信號(hào)的立體聲信號(hào)作為輸入信號(hào),以及其中,所述上混音器(14)還 被實(shí)現(xiàn)為基于所述立體聲聲道信號(hào)的互相關(guān)計(jì)算來(lái)實(shí)現(xiàn)所述環(huán)境聲道信號(hào)(16)或所述已 修改的環(huán)境聲道信號(hào)(16’)。
22.一種用于生成多聲道信號(hào)(10)的方法,所述多聲道信號(hào)(10)包括多個(gè)輸出聲道, 所述多個(gè)輸出聲道的數(shù)目比輸入信號(hào)(12)的多個(gè)輸入聲道的數(shù)目多,所述多個(gè)輸入聲道 的數(shù)目大于或等于1,所述方法包括以下步驟對(duì)所述輸入信號(hào)進(jìn)行上混音(14),以提供至少直接信號(hào)聲道以及至少環(huán)境聲道或已修 改的環(huán)境聲道;檢測(cè)(18)所述輸入信號(hào)、所述直接信號(hào)聲道或所述環(huán)境信號(hào)聲道中出現(xiàn)語(yǔ)音部分的 片段;以及修改(20)所述環(huán)境聲道或所述輸入信號(hào)中與在檢測(cè)(18)步驟中已經(jīng)檢測(cè)到的片段相 對(duì)應(yīng)的片段,以獲得已修改的環(huán)境信號(hào)聲道或已修改的輸入信號(hào),在已修改的環(huán)境信號(hào)聲 道或已修改的輸入信號(hào)中語(yǔ)音部分被衰減或消除,所述直接聲道信號(hào)中的所述片段以較低 的程度衰減或根本不衰減;以及使用所述直接聲道和所述已修改的環(huán)境聲道來(lái)輸出(22)再現(xiàn)方案中的揚(yáng)聲器信號(hào)。
23.一種計(jì)算機(jī)程序,包括程序,當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí),用于執(zhí)行根據(jù)權(quán)利要 求22所述的方法。
全文摘要
為了生成包括多于多個(gè)輸入聲道的多個(gè)輸出聲道的多聲道信號(hào),將混音器用于對(duì)輸入信號(hào)上混音,以形成至少直接聲道信號(hào)和至少環(huán)境聲道信號(hào)。提供了語(yǔ)音檢測(cè)器(18)來(lái)檢測(cè)輸入信號(hào)、直接聲道信號(hào)或環(huán)境聲道信號(hào)出現(xiàn)語(yǔ)音部分的片段。基于該檢測(cè),信號(hào)修改器(20)修改輸入信號(hào)或環(huán)境聲道信號(hào),以衰減環(huán)境聲道信號(hào)中的語(yǔ)音部分,而以較低的程度衰減或根本不衰減直接聲道信號(hào)中的這種語(yǔ)音部分。然后,揚(yáng)聲器信號(hào)輸出裝置(22)將直接聲道信號(hào)和環(huán)境聲道信號(hào)映射到與所限定的再現(xiàn)方案相關(guān)聯(lián)的揚(yáng)聲器信號(hào),該再現(xiàn)方案例如5.1方案。
文檔編號(hào)G10L19/00GK101842834SQ200880111235
公開(kāi)日2010年9月22日 申請(qǐng)日期2008年10月1日 優(yōu)先權(quán)日2007年10月12日
發(fā)明者于爾根·赫勒, 克里斯丁·烏勒, 哈拉爾德·波普, 奧利弗·赫爾穆特, 索爾斯滕·克斯特納 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)