用于以幾何為基礎(chǔ)的空間音頻編碼的裝置及方法
【專利摘要】本發(fā)明提供了一種用于根據(jù)包含與一個(gè)或多個(gè)聲源的音頻數(shù)據(jù)相關(guān)的音頻數(shù)據(jù)流來產(chǎn)生至少一個(gè)音頻輸出信號(hào)的裝置。此裝置包含用于接收包含音頻數(shù)據(jù)的音頻數(shù)據(jù)流的接收器。音頻數(shù)據(jù)包含各個(gè)聲源的一個(gè)或多個(gè)壓力值。另外,音頻數(shù)據(jù)針對(duì)各個(gè)聲源包含表明一個(gè)聲源的位置的一個(gè)或多個(gè)位置值。另外,此裝置包含合成模塊,用于根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的一個(gè)或多個(gè)壓力值中的至少一個(gè)及根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的一個(gè)或多個(gè)位置值中的至少一個(gè),來產(chǎn)生所述至少一個(gè)音頻輸出信號(hào)。
【專利說明】用于以幾何為基礎(chǔ)的空間音頻編碼的裝置及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是關(guān)于音頻處理,尤其是關(guān)于用于以幾何為基礎(chǔ)的空間音頻編碼的裝置及方法。
【背景技術(shù)】
[0002]音頻處理,更具體地,空間音頻編碼變得越來越重要。傳統(tǒng)空間聲音記錄g在捕獲聲場(chǎng),以使得在再生側(cè),收聽者如在記錄位置一祥感知聲像。由目前技術(shù)水平已知空間聲音記錄及再生技術(shù)的不同方法,這些方法可基于聲道、對(duì)象或參數(shù)表示。
[0003]以聲道為基礎(chǔ)的表不(channel-based representation)通過意味著通過以已知配置排列的N個(gè)揚(yáng)聲器(例如5.1環(huán)繞聲配置)回放的N個(gè)離散音頻信號(hào)表不聲音場(chǎng)景??臻g聲音記錄的方法通常使用例如,AB立體聲的間隔的全向麥克風(fēng),或例如強(qiáng)度立體聲的重合定向麥克風(fēng)?;蛘?,可使用例如Ambisonics的更高級(jí)麥克風(fēng),諸如B格式麥克風(fēng),參見:
[0004][l]Michael A.Gerzon.Amoisonics in multichannel broadcasting and vide0.J.Audio Eng.Soc,33(11):859 - 871,1985.[0005]直接從記錄的麥克風(fēng)信號(hào)中導(dǎo)出已知配置的期望揚(yáng)聲器信號(hào)且然后離散地傳輸或存儲(chǔ)。通過將音頻編碼應(yīng)用至離散信號(hào)獲得更有效表示,在一些情況下,該音頻編碼共同編碼不同聲道的信息以增加效率,例如在5.1的MPEG環(huán)繞中,參見:
[0006][21] J.Herre, K.Kjoi'Iillg? J.Breebaart, C.Faller, S.Disch, H.Purnhagen,J.Koppens, J.Hilpert, J.Roden? ff.0omen,K.Linzmeier,K.S.Chong: “MPEG Surround -The IS0/MPEG Standard for Efficient and Compatible Multichannel Audio Coding,,,122nd AES Convention, Vienna, Austria, 2007, Preprint7084.[0007]這些技術(shù)的主要缺點(diǎn)為:一旦已計(jì)算出揚(yáng)聲器信號(hào),則聲音場(chǎng)景不可修改。
[0008]例如,在空間音頻對(duì)象編碼(SA0C)中使用以對(duì)象為基礎(chǔ)的表示(object-basedrepresentation;,參見:
[0009][25] Jeroen Breebaart, Jonas Engdegai'd > Cornelia Falch,Oliver Hellmuth,Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch,Erik Schuijers, and Leonid Terentiev.Spatial audio object coding(saoc)-theupcoming mpeg standard on parametric ooject based audio coding.1n AudioEngineering Society Conventionl24,52008.[0010]以對(duì)象為基礎(chǔ)的表示使用N個(gè)離散音頻對(duì)象表示聲音場(chǎng)景。由于可通過改變例如各對(duì)象的位置及響度,來操控聲音場(chǎng)景,故該表示在再生側(cè)賦予出高靈活性(flexibility)。雖然可易于從例如多軌記錄中可得該表示,但很難從使用幾個(gè)麥克風(fēng)記錄的復(fù)合聲音場(chǎng)景中獲得該表示(參見,例如[21])。實(shí)際上,通話器(或其它發(fā)音對(duì)象)必須首先經(jīng)定位,然后從混合物中提取,這可導(dǎo)致非自然信號(hào)(artifact)。
[0011]參數(shù)表示(parametric representation)常常使用空間麥克風(fēng),以決定一個(gè)或多個(gè)音頻降混信號(hào)以及描述空間聲音的空間邊信息。一個(gè)例子為定向音頻編碼(DirAC),在下文中論述:
[0012][29]Ville Pulkk1.Spatial sound reproduction witn directional audiocoding.J.Audio Eng.Soc,55(6):503 - 516, June2007。
[0013]術(shù)語“空間麥克風(fēng)”指能夠重新獲得(retrieve,檢索)聲音的抵達(dá)方向的用于獲取空間聲音的任何裝置(例如,定向麥克風(fēng)的組合、麥克風(fēng)陣列等)。
[0014]術(shù)語“非空間麥克風(fēng)”指不適于重新獲得聲音的抵達(dá)方向的任何裝置,諸如單個(gè)全向或定向麥克風(fēng)。
[0015]在下文給出另一例子:
[0016][23]C.Faller.Microphone front-ends for spatial audio coders.1n Proc.0fthe AES125th International Convention, San Francisco, Oct.2008。
[0017]在DirAC中,空間信號(hào)信息包含聲音的抵達(dá)方向(D0A)及以時(shí)頻域計(jì)算的聲場(chǎng)的擴(kuò)散度。對(duì)于聲音再生,可根據(jù)參數(shù)描述導(dǎo)出音頻回放信號(hào)。這些技術(shù)在再生側(cè)提供大的靈活性,因?yàn)榭墒褂萌我鈸P(yáng)聲器配置,因?yàn)楸硎咎貏e靈活且緊湊,由于該表示包含降混單音頻信號(hào)及邊信息(side information),且因?yàn)樵摫硎驹试S聲音場(chǎng)景的易于修改,例如聲陸變、定向?yàn)V波、場(chǎng)景合并等。
[0018]然而,這些技術(shù)仍為存在局限,因?yàn)樗涗浛臻g影像總是與所使用的空間麥克風(fēng)有夫。因此,不可變化聲視點(diǎn)且不可改變聲音場(chǎng)景內(nèi)的收聽位置。
[0019]在下文提供了一種虛擬麥克風(fēng)方法:
[0020][22] Giovanni Del Gal do, Oliver Thiergart, Tobias Weller, andE.A.P.Habets.Generating virtual microphone signals using geometricalinformation gathered by distributed arrays.1n Third Joint Workshop onHands-free Speech Communication and Microphone Arrays(HSCMA> 11), Edinburgh,United Kingdom, May2011o
[0021]該方法允許計(jì)算環(huán)境中隨意(亦即,任意位置及方位)虛擬放置的任意空間麥克風(fēng)的輸出信號(hào)。表征虛擬麥克風(fēng)(VM)方法的靈活性允許聲音場(chǎng)景在后處理步驟中隨意虛擬捕獲,但是不能獲得聲場(chǎng)表示,該聲場(chǎng)表示可用以有效地傳輸和/或存儲(chǔ)和/或修改聲音場(chǎng)景。另外,假設(shè)每個(gè)時(shí)頻點(diǎn)僅ー個(gè)源為有效的,因此,若在相同時(shí)頻點(diǎn)有兩個(gè)或更多源為有效的,則不能正確描述聲音場(chǎng)景。另外,若在接收器側(cè)應(yīng)用虛擬麥克風(fēng)(VM),則需要在聲道上發(fā)送所有麥克風(fēng)信號(hào),這使得表示低效,而若在發(fā)射器側(cè)應(yīng)用VM,則不可進(jìn)ー步操控聲音場(chǎng)景且模型失去靈活性且變得限于某ー揚(yáng)聲器配置。另外,沒有考慮根據(jù)參數(shù)信息操控聲音場(chǎng)景。
[0022]在下文中:
[0023][24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.1n AES30th InternationalConference on Intelligent Audio Environments,2007,
[0024]聲源位置估計(jì)是基于通過分布式麥克風(fēng)所測(cè)量的成對(duì)抵達(dá)時(shí)差。另外,接收器取決于記錄且需要用于合成的所有麥克風(fēng)信號(hào)(例如揚(yáng)聲器信號(hào)的產(chǎn)生)。
[0025]在下文提供的方法中:
[0026][28] Svem Berge.Device and method for converting spatial audio signal.US patent application, Appl.N0.10/547, 151
[0027]類似于DirAC,使用抵達(dá)方向作為參數(shù),因此將表示限于聲音場(chǎng)景的特定視點(diǎn)。另夕卜,由于在通訊系統(tǒng)的相同側(cè)需要應(yīng)用分析及合成兩者,故該方法沒有提出傳輸/存儲(chǔ)聲音場(chǎng)景表示的可能性。
【發(fā)明內(nèi)容】
[0028]本發(fā)明的目標(biāo)為提供用于經(jīng)由提取幾何信息的空間聲音獲取及描述的改良概念。通過根據(jù)權(quán)利要求1所述的用于基于音頻數(shù)據(jù)流產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置、根據(jù)權(quán)利要求10的產(chǎn)生音頻數(shù)據(jù)流的裝置、根據(jù)權(quán)利要求19的系統(tǒng)、根據(jù)權(quán)利要求20的音頻數(shù)據(jù)流、根據(jù)權(quán)利要求23的用于產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的方法、根據(jù)權(quán)利要求24的用于產(chǎn)生音頻數(shù)據(jù)流的方法及根據(jù)權(quán)利要求25的計(jì)算機(jī)程序,來實(shí)現(xiàn)本發(fā)明的目標(biāo)。
[0029]本發(fā)明提供ー種用于根據(jù)包含與一個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置。此裝置包含用于接收包含音頻數(shù)據(jù)的音頻數(shù)據(jù)流的接收器。音頻數(shù)據(jù)包含各個(gè)聲源的ー個(gè)或多個(gè)壓カ值。另外,音頻數(shù)據(jù)針對(duì)所述聲源中的各個(gè)聲源包含表明所述聲源中的ー個(gè)的位置的ー個(gè)或多個(gè)位置值。另外,此裝置包含合成模塊,用于根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的一個(gè)或多個(gè)壓カ值中的至少ー個(gè)及根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的ー個(gè)或多個(gè)位置值中的至少ー個(gè),產(chǎn)生至少ー個(gè)音頻輸出信號(hào)。在一實(shí)施方式中,ー個(gè)或多個(gè)位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值。
[0030]音頻數(shù)據(jù)可針對(duì)多個(gè)時(shí)頻點(diǎn)(time-frequency bin)中的一時(shí)頻點(diǎn)被定義?;蛘撸纛l數(shù)據(jù)可針對(duì)多個(gè)時(shí)刻(time instant)中的一個(gè)時(shí)刻被定義。在一些實(shí)施方式中,可針對(duì)多個(gè)時(shí)刻中的一個(gè)時(shí)刻定義音頻數(shù)據(jù)的ー個(gè)或多個(gè)壓カ值,而相應(yīng)參數(shù)(例如位置值)可以在時(shí)頻域中定義。這很容易通過將以時(shí)頻不同定義的壓カ值轉(zhuǎn)換回時(shí)域而獲得。對(duì)于所述聲源中的各個(gè)聲源,至少ー個(gè)壓カ值包含在音頻數(shù)據(jù)中,其中至少ー個(gè)壓カ值可為與例如從聲源的所發(fā)出聲波相關(guān)的壓カ值。壓カ值可為音頻信號(hào)的值,例如,由用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置產(chǎn)生的音頻輸出信號(hào)的壓カ值,其中虛擬麥克風(fēng)放置在聲源的位置。
[0031]上述實(shí)施方式允許計(jì)算實(shí)際獨(dú)立于記錄位置的聲場(chǎng)表示,且提供復(fù)合聲音場(chǎng)景的有效傳輸及存儲(chǔ),以及提供在再生系統(tǒng)易于修改及増加的靈活性。
[0032]特別地,此技術(shù)的重要優(yōu)點(diǎn)為:在再生側(cè),收聽者可在所記錄的聲音場(chǎng)景內(nèi)自由選擇該收聽者的位置、使用任何揚(yáng)聲器配置、以及根據(jù)幾何信息額外地操控聲音場(chǎng)景,例如以位置為基礎(chǔ)的濾波。換言之,使用所提出技術(shù),可變化聲視點(diǎn)(acoustic viewpoint)且可改變聲音場(chǎng)景內(nèi)的收聽位置。
[0033]根據(jù)上述實(shí)施方式,音頻數(shù)據(jù)流中包含的音頻數(shù)據(jù)包含各個(gè)聲源的ー個(gè)或多個(gè)壓カ值。因此,壓カ值表明與其中一個(gè)聲源相關(guān)且與記錄麥克風(fēng)的位置無關(guān)的音頻信號(hào),例如源自聲源的音頻信號(hào)。類似地,音頻數(shù)據(jù)流中包含的ー個(gè)或多個(gè)位置值表明聲源而非麥克風(fēng)的位置。
[0034]由此,實(shí)現(xiàn)了多個(gè)優(yōu)點(diǎn):舉例而言,實(shí)現(xiàn)了可使用很少位編碼的音頻場(chǎng)景的表示。若聲音場(chǎng)景僅包含在特別時(shí)頻點(diǎn)中的單個(gè)聲源,則僅與該唯一聲源相關(guān)的單個(gè)音頻信號(hào)的壓カ值必須與表明該聲源的位置的位置值一起編碼。相反,傳統(tǒng)方法可能必須編碼來自多個(gè)所記錄的麥克風(fēng)信號(hào)的多個(gè)壓カ值,以在接收器處重建音頻場(chǎng)景。另外,如下文將描述,上述實(shí)施方式允許易于修改發(fā)射器以及接收器側(cè)的聲音場(chǎng)景。因此,亦可在接收器側(cè)執(zhí)行場(chǎng)景組成(例如,判定聲音場(chǎng)景內(nèi)的收聽位置)。
[0035]一些實(shí)施方式采用借助于聲源(例如點(diǎn)狀聲源(PLS=點(diǎn)狀聲源),例如,各向同性點(diǎn)狀聲源(IPLS))建模復(fù)雜聲音場(chǎng)景的概念,這些聲源在以時(shí)頻表示的特定槽(slot)中是有效的(active),例如由短時(shí)間傅立葉轉(zhuǎn)換(STFT)所提供的時(shí)隙。
[0036]根據(jù)ー實(shí)施方式,接收器可適于接收包含音頻數(shù)據(jù)的音頻數(shù)據(jù)流,其中音頻數(shù)據(jù)進(jìn)ー步包含針對(duì)各個(gè)聲源的ー個(gè)或多個(gè)擴(kuò)散度值。合成模塊可適于根據(jù)ー個(gè)或多個(gè)擴(kuò)散度值中的至少ー個(gè),產(chǎn)生至少ー個(gè)音頻輸出信號(hào)。
[0037]在另ー實(shí)施方式中,接收器可進(jìn)ー步包含修改模塊,該修改模塊用于通過修改音頻數(shù)據(jù)的一個(gè)或多個(gè)壓カ值中的至少ー個(gè)、通過修改音頻數(shù)據(jù)的ー個(gè)或多個(gè)位置值中的至少ー個(gè)或通過修改音頻數(shù)據(jù)的擴(kuò)散度值中的至少ー個(gè),來修改所接收音頻數(shù)據(jù)流的音頻數(shù)據(jù)。合成模塊可適于根據(jù)經(jīng)修改的至少ー個(gè)壓カ值、根據(jù)經(jīng)修改的至少ー個(gè)位置值或根據(jù)經(jīng)修改的至少ー個(gè)擴(kuò)散度值,來產(chǎn)生至少ー個(gè)音頻輸出信號(hào)。
[0038]在另ー實(shí)施方式中,所述聲源中的各個(gè)聲源的位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值。另外,修改模塊可適于在坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過將至少ー個(gè)隨機(jī)數(shù)増加至坐標(biāo)值,來修改坐標(biāo)值。
[0039]根據(jù)另ー實(shí)施方式中,所述聲源中的各個(gè)聲源的位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值。另外,修改模塊適于在坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過在坐標(biāo)值上應(yīng)用確定性函數(shù)來修改坐標(biāo)值。
[0040]在另ー實(shí)施方式中,所述聲源中的各個(gè)聲源的位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值。另外,修改模塊可適于在坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置吋,修改關(guān)于與坐標(biāo)值相同的聲源的音頻數(shù)據(jù)的一個(gè)或多個(gè)壓カ值中的選定壓カ值。
[0041]根據(jù)ー實(shí)施方式,合成模塊可包含第一階段合成単元及第ニ階段合成単元。第一階段合成単元可適于根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的一個(gè)或多個(gè)壓カ值中的至少ー個(gè)、根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的ー個(gè)或多個(gè)位置值中的至少ー個(gè)及根據(jù)音頻數(shù)據(jù)流的音頻數(shù)據(jù)的一個(gè)或多個(gè)擴(kuò)散度值中的至少ー個(gè),來產(chǎn)生包含直接聲音的直接壓カ信號(hào)、包含擴(kuò)散聲音的擴(kuò)散壓力信號(hào)及抵達(dá)方向信息。第二階段合成単元可適于根據(jù)直接壓カ信號(hào)、擴(kuò)散壓力信號(hào)及抵達(dá)方向信息,來產(chǎn)生至少ー個(gè)音頻輸出信號(hào)。
[0042]根據(jù)ー實(shí)施方式,提供了ー種用于產(chǎn)生包含關(guān)于ー個(gè)或多個(gè)聲源的聲源數(shù)據(jù)的音頻數(shù)據(jù)流的裝置。用于產(chǎn)生音頻數(shù)據(jù)流的裝置包含決定器(determiner),該決定器用于根據(jù)由至少ー個(gè)麥克風(fēng)記錄的至少ー個(gè)音頻輸入信號(hào)及根據(jù)由至少兩個(gè)空間麥克風(fēng)提供的音頻邊信息,來決定聲源數(shù)據(jù)。另外,此裝置包含用于產(chǎn)生音頻數(shù)據(jù)流,以使得音頻數(shù)據(jù)流包含聲源數(shù)據(jù)的數(shù)據(jù)流產(chǎn)生器。聲源數(shù)據(jù)包含各個(gè)聲源的ー個(gè)或多個(gè)壓カ值。另外,聲源數(shù)據(jù)進(jìn)一歩包含表明各個(gè)聲源的聲源位置的ー個(gè)或多個(gè)位置值。另外,聲源數(shù)據(jù)針對(duì)多個(gè)時(shí)頻點(diǎn)中的一個(gè)時(shí)頻點(diǎn)而被定義。
[0043]在另ー實(shí)施方式中,決定器可適于根據(jù)擴(kuò)散度信息,通過至少一個(gè)空間麥克風(fēng)來決定聲源數(shù)據(jù)。數(shù)據(jù)流產(chǎn)生器可適于產(chǎn)生音頻數(shù)據(jù)流,以使得音頻數(shù)據(jù)流包含聲源數(shù)據(jù)。聲源數(shù)據(jù)進(jìn)一歩包含各個(gè)聲源的一個(gè)或多個(gè)擴(kuò)散度值。[0044]在另ー實(shí)施方式中,用于產(chǎn)生音頻數(shù)據(jù)流的裝置可進(jìn)ー步包含修改模塊,該修改模塊用于通過修改與聲源中的至少ー個(gè)相關(guān)的音頻數(shù)據(jù)的壓カ值中的至少ー個(gè)、音頻數(shù)據(jù)的位置值中的至少ー個(gè)或音頻數(shù)據(jù)的擴(kuò)散度值中的至少ー個(gè),來修改由數(shù)據(jù)流產(chǎn)生器產(chǎn)生的音頻數(shù)據(jù)流。
[0045]根據(jù)另ー實(shí)施方式,所述聲源中的各個(gè)聲源的位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值(例如笛卡耳坐標(biāo)系統(tǒng)的兩個(gè)坐標(biāo),或極坐標(biāo)系統(tǒng)中的方位角及距離)。修改模塊可適于在坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過將至少ー個(gè)隨機(jī)數(shù)増加至坐標(biāo)值或通過在坐標(biāo)值上應(yīng)用確定性函數(shù)來修改坐標(biāo)值。
[0046]根據(jù)又ー實(shí)施方式,提供了ー種音頻數(shù)據(jù)流。音頻數(shù)據(jù)流可包含與ー個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù),其中音頻數(shù)據(jù)包含所述聲源中的各個(gè)聲源的ー個(gè)或多個(gè)壓カ值。音頻數(shù)據(jù)可進(jìn)一歩包含表明各個(gè)聲源的聲源位置的至少ー個(gè)位置值。在ー實(shí)施方式中,所述至少ー個(gè)位置值中的各個(gè)位置值可包含至少兩個(gè)坐標(biāo)值。音頻數(shù)據(jù)可被定義用于多個(gè)時(shí)頻點(diǎn)中的一個(gè)時(shí)頻點(diǎn)。
[0047]在另ー實(shí)施方式中,音頻數(shù)據(jù)進(jìn)ー步包含各個(gè)聲源的一個(gè)或多個(gè)擴(kuò)散度值?!緦@綀D】
【附圖說明】
[0048]下文將描述本發(fā)明的優(yōu)選實(shí)施方式,其中:
[0049]圖1示出根據(jù)ー實(shí)施方式的用于根據(jù)包含與一個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置,
[0050]圖2示出根據(jù)ー實(shí)施方式的用于產(chǎn)生包含關(guān)于ー個(gè)或多個(gè)聲源的聲源數(shù)據(jù)的音頻數(shù)據(jù)流的裝置,
[0051]圖3A至圖3C示出根據(jù)不同實(shí)施方式的音頻數(shù)據(jù)流,
[0052]圖4示出根據(jù)另ー實(shí)施方式的用于產(chǎn)生包含關(guān)于ー個(gè)或多個(gè)聲源的聲源數(shù)據(jù)的音頻數(shù)據(jù)流的裝置,
[0053]圖5示出由兩個(gè)聲源及兩個(gè)均勻線性麥克風(fēng)陣列組成的聲音場(chǎng)景,
[0054]圖6A示出根據(jù)ー實(shí)施方式,用于根據(jù)音頻數(shù)據(jù)流,產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置600,
[0055]圖6B示出根據(jù)ー實(shí)施方式,用于產(chǎn)生包含關(guān)于ー個(gè)或多個(gè)聲源的聲源數(shù)據(jù)的音頻數(shù)據(jù)流的裝置660,
[0056]圖7不出根據(jù)ー實(shí)施方式的修改模塊,
[0057]圖8示出根據(jù)另ー實(shí)施方式的修改模塊,
[0058]圖9示出根據(jù)ー實(shí)施方式的發(fā)射器/分析単元及接收器/合成単元,
[0059]圖10A示出根據(jù)ー實(shí)施方式的合成模塊,
[0060]圖10B示出根據(jù)ー實(shí)施方式的第一合成階段單元,
[0061]圖10C示出根據(jù)ー實(shí)施方式的第二合成階段單元,
[0062]圖11示出根據(jù)另ー實(shí)施方式的合成模塊,
[0063]圖12不出根據(jù)ー實(shí)施方式的用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置,
[0064]圖13示出根據(jù)ー實(shí)施方式的用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置及方法的輸入及輸出,[0065]圖14示出根據(jù)ー實(shí)施方式的包含聲音事件位置估計(jì)器及信息計(jì)算模塊、用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置的基本結(jié)構(gòu),
[0066]圖15示出真實(shí)空間麥克風(fēng)描繪為各3個(gè)麥克風(fēng)的均勻線性陣列的示例性情境,
[0067]圖16示出用于估計(jì)3D空間中抵達(dá)方向的3D的兩個(gè)空間麥克風(fēng),
[0068]圖17示出當(dāng)前時(shí)頻點(diǎn)(k, η)的各向同性點(diǎn)狀聲源位于位置pms (k, η)的幾何排列,
[0069]圖18示出根據(jù)ー實(shí)施方式的信息計(jì)算模塊,
[0070]圖19示出根據(jù)另ー實(shí)施方式的信息計(jì)算模塊,
[0071]圖20示出兩個(gè)真實(shí)空間麥克風(fēng)、經(jīng)定位的聲音事件、及虛空間麥克風(fēng)的位置,
[0072]圖21不出根據(jù)ー實(shí)施方式如何獲得關(guān)于虛擬麥克風(fēng)的抵達(dá)方向,
[0073]圖22不出根據(jù)ー實(shí)施方式由虛擬麥克風(fēng)的視點(diǎn)導(dǎo)出聲音的D0A的可能方式,
[0074]圖23示出根據(jù)ー實(shí)施方式的包含擴(kuò)散度計(jì)算單元的信息計(jì)算塊,
[0075]圖24示出根據(jù)ー實(shí)施方式的擴(kuò)散度計(jì)算單元,
[0076]圖25示出不可能估計(jì)聲音事件位置的情境,
[0077]圖26示出根據(jù)ー實(shí)施方式的用于產(chǎn)生虛擬麥克風(fēng)數(shù)據(jù)流的裝置,
[0078]圖27示出根據(jù)另ー實(shí)施方式的用于根據(jù)音頻數(shù)據(jù)流產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置,以及
[0079]圖28Α至圖28C示出兩個(gè)麥克風(fēng)陣列接收直接聲音、由墻反射的聲音及擴(kuò)散聲音的情境。
【具體實(shí)施方式】
[0080]在提供本發(fā)明的實(shí)施方式的詳細(xì)描述之前,描述ー種用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置,以提供關(guān)于本發(fā)明的概念的背景信息。
[0081]圖12不出用于產(chǎn)生音頻輸出信號(hào)以仿真在環(huán)境中的可配置虛擬位置posVmic處的麥克風(fēng)的記錄的裝置。此裝置包含聲音事件位置估計(jì)器110及信息計(jì)算模塊120。聲音事件位置估計(jì)器110接收來自第一真實(shí)空間麥克風(fēng)的第一方向信息dil及來自第二真實(shí)空間麥克風(fēng)的第二方向信息di2。聲音事件位置估計(jì)器110適于估計(jì)表明環(huán)境中發(fā)出聲波的聲源的位置的聲源位置ssp,其中聲音事件位置估計(jì)器110適于根據(jù)由位于環(huán)境中第一真實(shí)麥克風(fēng)位置poslmic的第一真實(shí)空間麥克風(fēng)提供的第一方向信息dil,及根據(jù)由位于環(huán)境中第二真實(shí)麥克風(fēng)位置的第二真實(shí)空間麥克風(fēng)提供的第二方向信息di2,估計(jì)聲源位置ssp。信息計(jì)算模塊120適于根據(jù)由第一真實(shí)空間麥克風(fēng)記錄的第一記錄音頻輸入信號(hào)isl、根據(jù)第一真實(shí)麥克風(fēng)位置poslmic及根據(jù)虛擬麥克風(fēng)的虛擬位置posVmic,產(chǎn)生音頻輸出信號(hào)。信息計(jì)算模塊120包含傳播補(bǔ)償器,該傳播補(bǔ)償器適于通過調(diào)整第一記錄音頻輸入信號(hào)isl的振幅值、量值或相位值,來通過補(bǔ)償由第一真實(shí)空間麥克風(fēng)處的聲源發(fā)出的聲波的抵達(dá)與虛擬麥克風(fēng)處的聲波的抵達(dá)之間的第一延遲或振幅衰減,來通過修改第一記錄音頻輸入信號(hào)isl,產(chǎn)生第一經(jīng)修改音頻信號(hào)。
[0082]圖13示出根據(jù)ー實(shí)施方式的裝置及方法的輸入及輸出。將來自兩個(gè)或更多真實(shí)
空間麥克風(fēng)111、112.....11N的信息饋至裝置/通過所述方法處理。該信息包含由真實(shí)
空間麥克風(fēng)拾取的音頻信號(hào)以及來自真實(shí)空間麥克風(fēng)的方向信息,例如抵達(dá)方向(D0A)估值。可以在時(shí)頻域中表達(dá)音頻信號(hào)及諸如抵達(dá)方向估值的方向信息。例如,若期望2D幾何重建且選擇傳統(tǒng)短時(shí)間傅立葉轉(zhuǎn)換(STFT)域用于信號(hào)的表示,則DOA可表示為依賴于k及n(即頻率和時(shí)間索引)的方位角。
[0083]在一些實(shí)施方式中,可根據(jù)常見坐標(biāo)系統(tǒng)中真實(shí)及虛空間麥克風(fēng)的位置及方位,來實(shí)施空間中聲音事件定位,以及虛擬麥克風(fēng)的位置的描述??梢缘?3圖中輸入121...12N及輸入104來表示該信息。如下文將論述,輸入104可額外說明虛空間麥克風(fēng)的特征,例如,該虛空間麥克風(fēng)的位置及拾取模式。若虛空間麥克風(fēng)包含多個(gè)虛擬傳感器,則可考慮這些虛擬傳感器的位置及相應(yīng)不同拾取模式。
[0084]當(dāng)期望時(shí),裝置或相應(yīng)方法的輸出可為可通過按照由104說明進(jìn)行定義及放置的空間麥克風(fēng)拾取的ー個(gè)或多個(gè)聲音信號(hào)105。另外,此裝置(或者說方法)可提供可通過使用虛空間麥克風(fēng)估計(jì)的相應(yīng)空間邊信息106作為輸出。
[0085]圖14示出根據(jù)ー實(shí)施方式的裝置,該裝置包含兩個(gè)主處理單元:聲音事件位置估計(jì)器201及信息計(jì)算模塊202。聲音事件位置估計(jì)器201可根據(jù)輸入111...11N中包含的D0A及根據(jù)對(duì)計(jì)算D0A的真實(shí)空間麥克風(fēng)的位置及方位的認(rèn)識(shí),來執(zhí)行幾何重建。聲音事件位置估計(jì)器的輸出205包含聲源的位置估值(在2D或3D中),其中每個(gè)時(shí)頻點(diǎn)發(fā)生聲音事件。第二處理塊202為信息計(jì)算模塊。根據(jù)圖14的實(shí)施方式,第二處理塊202計(jì)算虛擬麥克風(fēng)信號(hào)及空間邊信息。因此,該第二處理塊202亦稱為虛擬麥克風(fēng)信號(hào)及邊信息計(jì)算塊202。虛擬麥克風(fēng)信號(hào)及邊信息計(jì)算塊202使用聲音事件的位置205,來處理111...11N中包含的音頻信號(hào),以輸出虛擬麥克風(fēng)音頻信號(hào)105。若需要,塊202亦可計(jì)算對(duì)應(yīng)于虛空間麥克風(fēng)的空間邊信息106。以下一些實(shí)施方式示出塊201及202可如何操作的可能性。
[0086]在下文中,更詳細(xì)地描述根據(jù)ー實(shí)施方式的聲音事件位置估計(jì)器的位置估計(jì)。
[0087]取決于問題的維數(shù)(2D或3D)及空間麥克風(fēng)的數(shù)量,可以有若干位置估計(jì)方案。
[0088]若在2D中存在兩個(gè)空間麥克風(fēng),則(最簡(jiǎn)單可能的情況)可以進(jìn)行簡(jiǎn)單三角測(cè)量(triangulation)。圖15示出真實(shí)空間麥克風(fēng)描繪為各3個(gè)麥克風(fēng)的均勻線性陣列(ULA)的示例性情境。計(jì)算時(shí)頻點(diǎn)(k,n)的表示為方位角al (k,n)及a2(k,n)的D0A。這通過使用適當(dāng)D0A估計(jì)器來實(shí)現(xiàn),例如ESPRIT,
[0089][13]R.Roy, A.Paulraj, and T.Kailath,“Direction-of-arrival estimationby subspace rotation methods - ESPRIT, ” in IEEE International Conference onAcoustics, Speech, and Signal Processing(ICASSP), Stanford, CA, USA, Aprill986,
[0090]或(root)MUSIC,參見
[0091][14] R.Schmidt, “Multiple emitter location and signal parameterestimation, ”IEEE Transactions on Antennas and Propagation, vol.34, n0.3,pp.276-280,1986
[0092]至轉(zhuǎn)變成為時(shí)頻域的壓カ信號(hào)。
[0093]在圖15中,示出兩個(gè)真實(shí)空間麥克風(fēng),此處為兩個(gè)真實(shí)空間麥克風(fēng)陣列410、420。通過兩條線表示兩個(gè)估計(jì)DOA al (k, η)及a2 (k, η),第一線430表示DOA al (k, η),而第二線440表示DOA a2(k,n)。經(jīng)由簡(jiǎn)單的幾何考慮了解的每個(gè)陣列的位置及方位,三角測(cè)量是可能的。
[0094]當(dāng)兩條線430、440完全平行時(shí),三角測(cè)量失敗。然而,在實(shí)際應(yīng)用中,此狀況不太可能。然而,并非所有三角測(cè)量結(jié)果對(duì)應(yīng)于所考慮空間中聲音事件的物理位置或可行位置。舉例而言,聲音事件的估計(jì)位置可離假設(shè)空間非常遠(yuǎn)或甚至位于假設(shè)空間外,表明DOAN能不對(duì)應(yīng)于能用所使用的模型物理地解釋的任何聲音事件??赡苡蓚鞲衅髟肼暬蚍浅?qiáng)的房間交混回響造成這些結(jié)果。因此,根據(jù)ー實(shí)施方式,標(biāo)記這些不期望結(jié)果,以使得信息計(jì)算模塊202可適當(dāng)?shù)靥幚磉@些結(jié)果。
[0095]圖16示出在3D空間中估計(jì)聲音事件的位置的情境。使用了適當(dāng)空間麥克風(fēng),例如,平面或3D麥克風(fēng)陣列。在圖16中,示出第一空間麥克風(fēng)510(例如,第一 3D麥克風(fēng)陣列),及第ニ空間麥克風(fēng)520 (例如,第一 3D麥克風(fēng)陣列)。3D空間中的D0A可例如,表示為方位角及仰角??墒褂脝挝幌蛄?30、540來表示D0A。根據(jù)D0A投影兩條線550、560。在3D中,即使有非??煽抗乐担鶕?jù)D0A所投影的兩條線550、560也不可能相交。然而,例如,可通過選擇連接兩條線的最小線段的中點(diǎn)來仍執(zhí)行三角測(cè)量。
[0096]類似于2D的情況,三角測(cè)量可能失敗或可能產(chǎn)生某些方向組合的不可行結(jié)果,然后可亦將這些不可行結(jié)果標(biāo)記至例如圖14的信息計(jì)算模塊202。
[0097]若存在多于兩個(gè)空間麥克風(fēng),則可以有若干方案。舉例而言,可對(duì)所有真實(shí)空間麥克風(fēng)對(duì)(若N=3,則1與2,1與3,及2與3)執(zhí)行以上所闡釋的三角測(cè)量。然后可將所得位置平均(沿X及y,以及若考慮到3D,z)。
[0098]或者,可使用更復(fù)雜的概念。舉例而言,可應(yīng)用機(jī)率方法,如下文中所描述:
[0099][15]J.Micnael Steele, “Optimal Triangulation of Random Samples in thePlane”, The Annals of Probability, Vol.10, N0.3 (Aug.,1982),pp.548-553.[0100]根據(jù)ー實(shí)施方式,可以例如,經(jīng)由短時(shí)間傅立葉轉(zhuǎn)換(STFT)所獲得的時(shí)頻域分析聲場(chǎng),其中kin分別表示頻率索引k及時(shí)間索引η。某一 k及η的任意位置ρν處的復(fù)合壓カPv(k,η)通過例如使用以下公式建模為由窄帶各向同性點(diǎn)狀源發(fā)出的單個(gè)球面波:
[0101]Pv(k, n) = PIPLS (k, η).Y (k, pIPLS (k, η), pv), (1)
[0102]其中Pms(k,n)為由IPLS在該IPLS的位置pms(k,η)處發(fā)出的信號(hào)。復(fù)合因子Y (k, pIPLS, pv)表示從pms(k, η)至ρν的傳播,例如,該復(fù)合因子、引入合適相位及量值修改。此處,可應(yīng)用假設(shè):在每個(gè)時(shí)頻點(diǎn)中僅ー個(gè)IPLS為有效的。然而,在單ー時(shí)間實(shí)體(single time instance)處,位于不同位置的多個(gè)窄帶IPLS也可為有效的。
[0103]每個(gè)IPLS建模直接聲音或清楚的房間反射。該IPLS的位置pms (k,η)可理想地分別對(duì)應(yīng)于位于房間內(nèi)部的實(shí)際聲源,或位于外面的鏡像聲源。因此,位置pms(k,n)亦可表明聲音事件的位置。
[0104]請(qǐng)注意,術(shù)語“真實(shí)聲源”表示物理存在于記錄環(huán)境中的實(shí)際聲源,諸如通話器或樂器。相反,我們使用“聲源”或“聲音事件”或“IPLS”指有效聲源,這些有效聲源在某些時(shí)刻或在某些時(shí)頻點(diǎn)為有效的,其中聲源可表示例如真實(shí)聲源或鏡像源。
[0105]圖28A至圖28B示出定位聲源的麥克風(fēng)陣列。定位聲源可取決于這些定位聲源的性質(zhì)具有不同的物理解釋。當(dāng)麥克風(fēng)陣列接收直接聲音吋,這些麥克風(fēng)陣列能夠定位正確聲源(例如,通話器)的位置。當(dāng)麥克風(fēng)陣列接收反射時(shí),這些麥克風(fēng)陣列可定位鏡像源的位置。鏡像源亦為聲源。
[0106]圖28A示出兩個(gè)麥克風(fēng)陣列151及152接收來自實(shí)際聲源(物理存在聲源)153的直接聲音的情境。[0107]圖28B示出兩個(gè)麥克風(fēng)陣列161、162接收反射聲音的情境,其中聲音由墻反射。由于反射,麥克風(fēng)陣列161、162將看起來聲音來自該處的位置定位在鏡像源165的位置,該位置不同于話筒163的位置。
[0108]圖28A的實(shí)際聲源153以及鏡像源165兩者均為聲源。
[0109]圖28C示出兩個(gè)麥克風(fēng)陣列171、172接收擴(kuò)散聲音且不能夠定位聲源的情境。
[0110]在源信號(hào)滿足W分離正交性(WD0)條件的情況下,亦即,時(shí)頻重迭足夠小,而該單波模型只有在柔和交混回響環(huán)境中為準(zhǔn)確的。這對(duì)于語音信號(hào)通常為正確的,參見,例如,
[0111][12] S.Rickard and Z.Yilmaz,“0n the approximate ff-disjointorthogonality of speech,,,in Acoustics, Speech and Signal Processing, 2002.1CASSP2002.1EEE International Conference on, April2002,vol.1.[0112]然而,此模型亦提供對(duì)于其它環(huán)境的良好估值且因此也適用于那些環(huán)境。
[0113]在下文中,闡釋了根據(jù)ー實(shí)施方式的位置pms(k,η)的估計(jì)。有效IPLS的位置PIPLS(k, η)處于某ー時(shí)頻點(diǎn),且因此,經(jīng)由根據(jù)在至少兩個(gè)不同觀測(cè)點(diǎn)測(cè)量的聲音的抵達(dá)方向(D0A)的三角測(cè)量來估計(jì)時(shí)頻點(diǎn)中聲音事件的估值。
[0114]圖17 不出幾何排列(geometry),其中當(dāng)前時(shí)頻槽(time-frequency slot) (k, η)的IPLS被定位于未知位置pms (k,n)。為決定所需D0A信息,使用具有已知幾何、位置及方位的兩個(gè)真實(shí)空間麥克風(fēng),此處為兩個(gè)麥克風(fēng)陣列,該兩個(gè)真實(shí)空間麥克風(fēng)分別放置在位置610及620。向量Pl及p2分別指向位置610、620。通過單位向量Cl及c2定義陣列方位。對(duì)于每個(gè)(k,n),使用例如,如由DirAC分析(參見[2]、[3])所提供的D0A估值算法,來決定位置610及620中聲音的D0A。由此,可提供關(guān)于麥克風(fēng)陣列的視點(diǎn)的第一視點(diǎn)單位向量
6;10¥わ11)及第ニ視點(diǎn)單位向量6pcvk2(k,n)(兩者在圖17中均未示出)作為DirAC分析的輸
出。舉例而言,當(dāng)在2D中操作時(shí),第一視點(diǎn)單位向量得到:
[0115]
【權(quán)利要求】
1.ー種用于根據(jù)包括與一個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的裝置(150),其中,所述裝置(150)包括: 接收器(160),用于接收包括所述音頻數(shù)據(jù)的所述音頻數(shù)據(jù)流,其中所述音頻數(shù)據(jù)針對(duì)所述ー個(gè)或多個(gè)聲源中的各個(gè)聲源包括ー個(gè)或多個(gè)壓カ值,以及其中,所述音頻數(shù)據(jù)進(jìn)ー步針對(duì)所述ー個(gè)或多個(gè)聲源中的各個(gè)聲源包括表明所述聲源中的一個(gè)聲源的位置的ー個(gè)或多個(gè)位置值,其中,所述ー個(gè)或多個(gè)位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值;以及 合成模塊(170),用于根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的至少ー個(gè)以及根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)位置值中的至少ー個(gè)來產(chǎn)生所述至少ー個(gè)音頻輸出信號(hào)。
2.根據(jù)權(quán)利要求1所述的裝置(150),其中,針對(duì)多個(gè)時(shí)頻點(diǎn)中的ー個(gè)時(shí)頻點(diǎn)定義所述音頻數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的裝置(150), 其中,所述接收器(160 ;610)適于接收包括所述音頻數(shù)據(jù)的所述音頻數(shù)據(jù)流,其中所述音頻數(shù)據(jù)還包括所述聲源中的各個(gè)聲源的一個(gè)或多個(gè)擴(kuò)散度值, 其中,所述合成模塊(170 ;620)適于根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)擴(kuò)散度值中的至少ー個(gè)來產(chǎn)生所述至少ー個(gè)音頻輸出信號(hào)。
4.根據(jù)權(quán)利要求3所述的裝置(150), 其中,所述接收器(160 ;610)還包括修改模塊(630),所述修改模塊用于通過修改所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的至少ー個(gè)、通過修改所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)位置值中的至少ー個(gè)或通過修改所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)擴(kuò)散度值中的至少ー個(gè)來修改所接收的音頻數(shù)據(jù) 流的所述音頻數(shù)據(jù),且 其中,所述合成模塊(170 ;620)適于根據(jù)經(jīng)修改的所述至少ー個(gè)壓カ值、根據(jù)經(jīng)修改的所述至少ー個(gè)位置值或根據(jù)經(jīng)修改的所述至少一個(gè)擴(kuò)散度值來產(chǎn)生所述至少一個(gè)音頻輸出信號(hào)。
5.根據(jù)權(quán)利要求4所述的裝置(150),其中,所述聲源中的各個(gè)聲源的所述位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值,以及其中,所述修改模塊(630)適于在所述坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過將至少ー個(gè)隨機(jī)數(shù)増加至所述坐標(biāo)值來修改所述坐標(biāo)值。
6.根據(jù)權(quán)利要求4所述的裝置(150),其中,所述聲源中的各個(gè)聲源的所述位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值,以及其中,所述修改模塊(630 )適于在所述坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過對(duì)所述坐標(biāo)值應(yīng)用確定性函數(shù)來修改所述坐標(biāo)值。
7.根據(jù)權(quán)利要求4所述的裝置(150),其中,所述聲源中的各個(gè)聲源的所述位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值,以及其中,所述修改模塊(630 )適于在所述坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),修改所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的選定壓カ值,所述選定壓カ值與和所述坐標(biāo)值相同的聲源相關(guān)。
8.根據(jù)權(quán)利要求7所述的裝置(150),其中,所述修改模塊(630)適于在所述坐標(biāo)值表明所述聲源位于環(huán)境的所述預(yù)定區(qū)域內(nèi)的所述位置時(shí),根據(jù)所述一個(gè)或多個(gè)擴(kuò)散度值中的ー個(gè)來修改所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的所述選定壓カ值。
9.根據(jù)權(quán)利要求2至8中任一項(xiàng)所述的裝置(150),其中,所述合成模塊(630)包括:第一階段合成単元(501),用于根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的至少ー個(gè)、根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)位置值中的至少ー個(gè)以及根據(jù)所述音頻數(shù)據(jù)流的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)擴(kuò)散度值中的至少ー個(gè)來產(chǎn)生包括直接聲音的直接壓カ信號(hào)、包括擴(kuò)散聲音的擴(kuò)散壓力信號(hào)及抵達(dá)方向信息;以及 第二階段合成単元(502),用于根據(jù)所述直接壓カ信號(hào)、所述擴(kuò)散壓カ信號(hào)及所述抵達(dá)方向信息來產(chǎn)生所述至少ー個(gè)音頻輸出信號(hào)。
10.ー種用于產(chǎn)生包括與一個(gè)或多個(gè)聲源相關(guān)的聲源數(shù)據(jù)的音頻數(shù)據(jù)流的裝置(200),其中,用于產(chǎn)生音頻數(shù)據(jù)流的所述裝置包括: 決定器(210 ;670),用于根據(jù)由至少ー個(gè)麥克風(fēng)記錄的至少ー個(gè)音頻輸入信號(hào)及根據(jù)由至少兩個(gè)空間麥克風(fēng)提供的音頻邊信息來決定所述聲源數(shù)據(jù);以及 數(shù)據(jù)流產(chǎn)生器(220 ;680),用于產(chǎn)生所述音頻數(shù)據(jù)流使得所述音頻數(shù)據(jù)流包括所述聲源數(shù)據(jù); 其中,所述聲源數(shù)據(jù)包括所述聲源中的各個(gè)聲源的ー個(gè)或多個(gè)壓カ值,其中,所述聲源數(shù)據(jù)還包括表明所述聲源中的各個(gè)聲源的聲源位置的ー個(gè)或多個(gè)位置值;以及。
11.根據(jù)權(quán)利要求10所述的裝置(200),其中,針對(duì)多個(gè)時(shí)頻點(diǎn)中的一個(gè)時(shí)頻點(diǎn)定義所述聲源數(shù)據(jù)。
12.根據(jù)權(quán)利要求10或11所述的裝置(200),其中,所述決定器(210;670)適于通過至少ー個(gè)空間麥克風(fēng)根據(jù)擴(kuò)散度信息來決定所述聲源數(shù)據(jù);以及其中,所述數(shù)據(jù)流產(chǎn)生器(220 ;680)適于產(chǎn)生所述音頻數(shù)據(jù)流使得所述音頻數(shù)據(jù)流包括所述聲源數(shù)據(jù);其中,所述聲源數(shù)據(jù)還包括所述聲源中的各個(gè)聲源的一個(gè)或多個(gè)擴(kuò)散度值。
13.根據(jù)權(quán)利要求12所述的裝置(200),其中,所述裝置(200)還包括修改模塊(690),所述修改模塊(690)用于通過修改與所述聲源中的至少ー個(gè)聲源相關(guān)的所述音頻數(shù)據(jù)的所述壓カ值中的至少ー個(gè)壓カ值、所述音頻數(shù)據(jù)的所述位置值中的至少ー個(gè)位置值或所述音頻數(shù)據(jù)的所述擴(kuò)散度值中的至少ー個(gè)擴(kuò)散度值來修改由所述數(shù)據(jù)流產(chǎn)生器產(chǎn)生的所述音頻數(shù)據(jù)流。
14.根據(jù)權(quán)利要求13所述的裝置(200),其中,所述聲源中的各個(gè)聲源的所述位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值,以及其中,所述修改模塊(690 )適于在所述坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),通過將至少ー個(gè)隨機(jī)數(shù)増加至所述坐標(biāo)值或通過對(duì)所述坐標(biāo)值應(yīng)用確定性函數(shù)來修改所述坐標(biāo)值。
15.根據(jù)權(quán)利要求13所述的裝置(200),其中,所述聲源中的各個(gè)聲源的所述位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值,以及其中,所述修改模塊(690 )適于在所述坐標(biāo)值表明聲源位于環(huán)境的預(yù)定區(qū)域內(nèi)的位置時(shí),修改與和所述坐標(biāo)值相同的所述聲源相關(guān)的所述音頻數(shù)據(jù)的所述ー個(gè)或多個(gè)壓カ值中的選定壓カ值。
16.根據(jù)權(quán)利要求15所述的裝置(200),其中,所述修改模塊(690)適于根據(jù)所述至少ー個(gè)音頻輸入信號(hào)中的至少ー個(gè)來修改所述ー個(gè)或多個(gè)壓カ值中的所述選定壓カ值。
17.一種用于產(chǎn)生虛擬麥克風(fēng)數(shù)據(jù)流的裝置(950),包括: 用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置(960 ),及根據(jù)權(quán)利要求10至13中任一項(xiàng)所述的裝置(970),所述裝置(970)用于產(chǎn)生音頻數(shù)據(jù)流作為所述虛擬麥克風(fēng)數(shù)據(jù)流, 其中,用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的所述裝置(960)包括: 聲音事件位置估計(jì)器(110),用于估計(jì)表明所述環(huán)境中聲源的位置的聲源位置,其中,所述聲音事件位置估計(jì)器(110)適于根據(jù)由位于所述環(huán)境中第一真實(shí)麥克風(fēng)位置的第一真實(shí)空間麥克風(fēng)所提供的第一方向信息、以及根據(jù)由位于所述環(huán)境中第二真實(shí)麥克風(fēng)位置的第二真實(shí)空間麥克風(fēng)所提供的第二方向信息來估計(jì)所述聲源位置;以及 信息計(jì)算模塊(120),用于根據(jù)記錄音頻輸入信號(hào)、根據(jù)所述第一真實(shí)麥克風(fēng)位置、以及根據(jù)計(jì)算出的麥克風(fēng)位置來產(chǎn)生所述音頻輸出信號(hào), 其中,用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的裝置(960)被配置為將所述音頻輸出信號(hào)提供至用于產(chǎn)生音頻數(shù)據(jù)流的所述裝置(970 ), 以及其中,用于產(chǎn)生音頻數(shù)據(jù)流的所述裝置(970)的所述決定器根據(jù)由用于產(chǎn)生虛擬麥克風(fēng)的音頻輸出信號(hào)的所述裝置(960)提供的所述音頻輸出信號(hào)來決定所述聲源數(shù)據(jù)。
18.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的裝置(980),所述裝置(980)被配置為根據(jù)由根據(jù)權(quán)利要求17所述的用于產(chǎn)生虛擬麥克風(fēng)數(shù)據(jù)流的裝置(950)提供的作為所述音頻數(shù)據(jù)流的虛擬麥克風(fēng)數(shù)據(jù)流來產(chǎn)生所述音頻輸出信號(hào)。
19.一種系統(tǒng),包括: 根據(jù)權(quán)利要求1至9中任一項(xiàng)或權(quán)利要求18所述的裝置,及 根據(jù)權(quán)利要求10至16中任一項(xiàng)所述的裝置。
20.ー種包括與一個(gè)或多個(gè)`聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流,其中,所述音頻數(shù)據(jù)針對(duì)所述一個(gè)或多個(gè)聲源中的各個(gè)聲源包括ー個(gè)或多個(gè)壓カ值,且 其中,所述音頻數(shù)據(jù)還針對(duì)所述一個(gè)或多個(gè)聲源中的各個(gè)聲源包括表明聲源位置的一個(gè)或多個(gè)位置值,其中,所述ー個(gè)或多個(gè)位置值中的各個(gè)位置值包括至少兩個(gè)坐標(biāo)值。
21.根據(jù)權(quán)利要求20所述的音頻數(shù)據(jù)流,其中,針對(duì)多個(gè)時(shí)頻點(diǎn)中的一個(gè)時(shí)頻點(diǎn)定義所述音頻數(shù)據(jù)。
22.根據(jù)權(quán)利要求20或21所述的音頻數(shù)據(jù)流,其中,所述音頻數(shù)據(jù)還包括所述ー個(gè)或多個(gè)聲源中的各個(gè)聲源的一個(gè)或多個(gè)擴(kuò)散度值。
23.ー種用于根據(jù)包括與一個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流來產(chǎn)生至少ー個(gè)音頻輸出信號(hào)的方法,包括: 接收所述音頻數(shù)據(jù)流,其中,所述音頻數(shù)據(jù)流包括所述聲源中的各個(gè)聲源的一個(gè)或多個(gè)壓カ值,以及其中,所述音頻數(shù)據(jù)流還包括表明所述聲源中的各個(gè)聲源的聲源位置的一個(gè)或多個(gè)位置值; 決定所述壓カ值中的至少一部分來從所述音頻流獲取所獲得的壓カ值以及決定所述位置值中的至少一部分來從所述音頻流獲取所獲得的位置值;以及 根據(jù)所述所獲得的壓カ值中的至少一部分及根據(jù)所述所獲得的位置值中的至少一部分來決定所述至少ー個(gè)音頻輸出信號(hào)。
24.ー種用于產(chǎn)生包括與一個(gè)或多個(gè)聲源相關(guān)的音頻數(shù)據(jù)的音頻數(shù)據(jù)流的方法,包括: 接收包括所述聲源中的各個(gè)聲源的至少ー個(gè)壓カ值的音頻數(shù)據(jù),其中,所述音頻數(shù)據(jù)還包括表明所述聲源中的各個(gè)聲源的聲源位置的ー個(gè)或多個(gè)位置值; 產(chǎn)生所述音頻數(shù)據(jù)流,使得所述音頻數(shù)據(jù)流包括所述聲源中的各個(gè)聲源的ー個(gè)或多個(gè)壓カ值,以及使得所述音頻數(shù)據(jù)流還包括表明所述聲源中的各個(gè)聲源的聲源位置的ー個(gè)或多個(gè)位置值。
25.一種計(jì)算機(jī)程序,用于在計(jì)算機(jī)或處理器上執(zhí)行吋,實(shí)施根據(jù)權(quán)利要求23或24所述的方法?!?br>
【文檔編號(hào)】G10L19/16GK103460285SQ201180066795
【公開日】2013年12月18日 申請(qǐng)日期:2011年12月2日 優(yōu)先權(quán)日:2010年12月3日
【發(fā)明者】喬瓦尼·德爾加爾多, 奧利弗·蒂爾加特, 于爾根·赫萊, 法比安·庫奇, 埃馬努埃爾·哈貝茨, 亞歷山大拉·克拉瓊, 阿希姆·昆茨 申請(qǐng)人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司, 埃爾朗根-紐倫堡弗里德希-亞歷山大大學(xué)