專利名稱:用于電話會議的空間化設(shè)置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電話會議系統(tǒng),并且更具體地,涉及設(shè)置電話會議 中的空間化效果。
背景技術(shù):
各種音頻和視頻會議服務(wù)已經(jīng)被使用了很長時(shí)間,尤其在電路 交換通信網(wǎng)絡(luò)中。電話會議系統(tǒng)可以被劃分成分布式和集中式系統(tǒng), 后者在提供電話會議服務(wù)中已變得更為有利,當(dāng)考慮服務(wù)提供商和 終端的實(shí)施時(shí)。圖1示出用于實(shí)施集中式音頻會議服務(wù)的現(xiàn)有技術(shù)設(shè)計(jì)。電話會i義系統(tǒng)包括會議橋CB和與其通信的若干個終端UE。每個終端UE 通過麥克風(fēng)接收終端用戶的語音并且利用本質(zhì)上已知的語音編碼器 來對語音信號進(jìn)行編碼。編碼的語音被傳輸?shù)綍h橋CB,其解碼來 自接收到的信號的語音信號。會議橋CB使用現(xiàn)有技術(shù)的處理方法、 在音頻處理單元APU中將從不同終端接收到的語音信號進(jìn)行合并, 此后,包括若千語音信號的合并信號被本質(zhì)上已知的語音編解碼器 編碼并且發(fā)送回終端UE,終端UE將從接收到的信號解碼合并的語 音信號。由揚(yáng)聲器或耳機(jī)從合并的語音信號生成可聽的音頻信號。 為了避免有害的回聲現(xiàn)象,由終端發(fā)送到會議橋的音頻信號通常從 將要發(fā)送到終端的合并的音頻信號去除。在會議橋中生成的合并信號通常作為單聲道(單頻道)音頻信 號或作為雙聲道(立體聲)音頻信號。在會議橋中,空間效果,稱 為空間化,可以在雙聲道音頻信號中人工地創(chuàng)建。在這種情況下, 處理音頻信號以給收聽者這樣的印象,即,電話會議的參與者處于 會議室的不同位置。在這種情況下,將在不同音頻聲道上再生的音頻信號彼此不同。當(dāng)使用單聲道音頻信號時(shí),所有語音信號(即, 合并的信號)被再生,作為相同音頻通道上的混合。如果被合適地實(shí)施,則空間化提高了電話會議參與者的語音清 晰度,因?yàn)槭章犝吣軌蚋杏X每個參與者的語音來自于不同的方向。 相應(yīng)地,在電話會議系統(tǒng)中,空間化是期望的特征。在例如WO99/53673, US 6,125,115和US 5,991,385中描述了包括空間化的現(xiàn)有 技術(shù)的電話會議系統(tǒng)。然而,這些現(xiàn)有技術(shù)具有明顯的缺陷。為了創(chuàng)建空間化效果, 接收終端需要關(guān)于在每個時(shí)刻哪個參與者正在進(jìn)行發(fā)言的信息。在 多數(shù)情況下,電話會議橋能夠定義該信息,但必須將其包括在將要 發(fā)送到每個參與終端的電話會議橋的輸出信號中。沒有標(biāo)準(zhǔn)化的方 式將該額外的信息包括在將要發(fā)送的信號中。此外,包括該額外的 信息將導(dǎo)致增加在數(shù)據(jù)傳輸中所使用的帶寬,這是進(jìn) 一 步的缺陷。一種用于創(chuàng)建空間化效果的可選現(xiàn)有已知方法是提供會議橋內(nèi) 的空間化單元。在空間化單元中,所有的輸入聲道^皮空間化并且空 間化的信號被發(fā)送到每個參與終端。這接著又增加了會議橋的復(fù)雜 度。包括空間化信息的信號也需要更大的帶寬。另外,在某些情況下,電話會議橋甚至不能夠定義在每個時(shí)刻 哪個參與者正在發(fā)言。例如,可以使用電話會議橋作為單頻道會議網(wǎng)絡(luò)和支持3D (立體聲/n-聲音)會議網(wǎng)絡(luò)之間的網(wǎng)關(guān)。在這樣的情 形下,網(wǎng)關(guān)電話會議橋從單頻道會議網(wǎng)絡(luò)的電話會議橋4妄收包括單 頻道會議網(wǎng)絡(luò)的參與者的所有語音信號的合并信號。另外,定義在 每個時(shí)刻哪個參與者正在發(fā)言的額外信息應(yīng)該包括在合并的信號 中,從而使得網(wǎng)關(guān)電話會議橋能夠?qū)l(fā)言者彼此區(qū)分,以便進(jìn)一步 的空間化處理。發(fā)明內(nèi)容現(xiàn)在發(fā)明了 一種改進(jìn)的方法和實(shí)施該方法的技術(shù)i殳備,由此可以 在接收時(shí)執(zhí)行發(fā)言者標(biāo)識,而不需要任何額外的信息被包括在接收到的合并信號中。本發(fā)明的各種方面包括方法、系統(tǒng)、電子設(shè)備和 計(jì)算機(jī)程序,其特征在獨(dú)立權(quán)利要求中陳述。在從屬權(quán)利要求中公 開了本發(fā)明的各種實(shí)施方式。根據(jù)第 一 方面,根據(jù)本發(fā)明的方法基于觀察到在編碼的語音數(shù)據(jù) 中的語音參數(shù)通常包括足夠的信息,以在涉及典型電話會議情況中 的若千發(fā)言者之間做出區(qū)別。相應(yīng)地,本發(fā)明的第一方面包括一種用于區(qū)分多個參與者的電話會議中的發(fā)言者的方法,該方法包括 接收電話會議的語音幀,所述語音幀包括編碼的語音參數(shù);檢查接 收到的語音幀的至少一個語音參數(shù);以及將語音幀分類成屬于參與 者之一,分類是根據(jù)在檢查的至少一個語音參數(shù)中的差異來實(shí)施的。根據(jù)一個實(shí)施方式,該方法另外包括通過基于參與者的語音幀 分類將參與者放置在音頻信號的聲學(xué)空間的不同位置,向?qū)⒁偕?的音頻信號創(chuàng)建空間化效果。根據(jù)一個實(shí)施方式,該方法另外包括根據(jù)在檢查的至少一個語 音參數(shù)中的差異來確定每個參與者的控制字;將控制字附加到語音 幀,每個語音幀的控制字是在特定語音幀中發(fā)言的參與者所特有的。根據(jù) 一 個實(shí)施方式,該方法另外包括根據(jù)附加到語音幀的控制字 來創(chuàng)建空間化效果。根據(jù)一個實(shí)施方式,該方法另外包括根據(jù)在檢查的僅一個語音 參數(shù)中的線性差異來確定每個參與者的控制字;以及根據(jù)控制字來 控制將要再生的音頻信號的音頻通道的空間位置。根據(jù)一個實(shí)施方式,該方法另外包括根據(jù)多個檢查的語音參數(shù) 中的差異來聚結(jié)語音幀;根據(jù)聚結(jié)的語音幀的語音參數(shù)中的差異來 確定每個參與者的控制字;以及根據(jù)控制字來控制將要再生的音頻 信號的音頻通道的空間位置。根據(jù)一個實(shí)施方式,檢查的語音參數(shù)包括下面的至少一個話音 的基音(pitch);編碼語音幀的話音/非話音分類;或編碼的語音幀 的任何LPC參數(shù)。根據(jù)本發(fā)明的設(shè)置提供顯著的優(yōu)勢。主要優(yōu)勢在于在電話會議的情況下,不需要來自網(wǎng)絡(luò)的發(fā)言者標(biāo)識信息,而是標(biāo)識可僅在接收 單元內(nèi)實(shí)施。另外,在接收機(jī)內(nèi)不需要單獨(dú)的話音分析算法,由于 編碼的語音幀參數(shù)用于標(biāo)識,這導(dǎo)致低的計(jì)算復(fù)雜度。另外的優(yōu)勢 在于甚至通過使用若千,可能僅一個或兩個合適選擇的語音參數(shù), 可在終端中獲得明顯的空間化效果。根據(jù)本發(fā)明的第二方面,提供一種用于區(qū)分具有多個參與者的電話會議中的發(fā)言者的系統(tǒng),該系統(tǒng)包括用于接收電話會議的語音 幀的裝置,所述語音幀包括編碼的語音參數(shù);音頻編解碼器,用于 檢查接收到的語音幀的至少一個參數(shù);以及用于將語音幀分類成屬 于參與者之一的裝置,該分類基于在檢查的至少一個語音參數(shù)中的差異。這樣的系統(tǒng)可以應(yīng)用在電話會議的處理《連中的各種位置。這提供 了顯著的優(yōu)勢,定位發(fā)言者標(biāo)識處理的某種自由度提供在會議網(wǎng)絡(luò) 的不同階段中將單頻道會議系統(tǒng)連接到3D會議系統(tǒng)的靈活性。在本 發(fā)明的另外方面示出了這些可選的位置。根據(jù)第三方面,提供一種終端設(shè)備,用于對具有多個參與者的電 話會議的音頻信號進(jìn)行三維空間化,該設(shè)備包括用于接收電話會 議的語音幀的裝置,所述語音幀包括編碼的語音參數(shù);音頻編解碼 器,用于檢查接收到的語音幀的至少一個參數(shù);用于將語音幀分類 成屬于參與者之一的裝置,該分類基于在檢查的至少一個語音參數(shù) 中的差異;以及空間化裝置,用于通過將參與者放置在音頻信號的 聲學(xué)空間中的不同位置,向?qū)⒁偕囊纛l信號創(chuàng)建空間化效果。根據(jù)第四方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其存儲在計(jì)算機(jī)可讀 介質(zhì)上并且可在數(shù)據(jù)處理設(shè)備中執(zhí)行,用于對具有多個參與者的電 話會議的音頻信號進(jìn)行三維空間化,該計(jì)算機(jī)程序產(chǎn)品包括用于 接收電話會議的語音幀的計(jì)算機(jī)程序代碼段,所述語音幀包括編碼 的語音參數(shù);計(jì)算機(jī)程序代碼段,用于檢查接收到的語音幀的至少 一個參數(shù);以及計(jì)算機(jī)程序代碼段,用于將語音幀分類成屬于參與 者之一,所述分類基于在檢查的至少一個語音參數(shù)中的差異;以及計(jì)算機(jī)程序代碼段,用于通過將參與者放置在音頻信號的聲學(xué)空間 中的不同位置,向?qū)⒁偕囊纛l信號創(chuàng)建空間化效果。根據(jù)第五方面,提供一種用于電話會議系統(tǒng)的會議橋,所述橋包括用于接收具有多個參與者的電話會議的語音幀的裝置,所述語音幀包括編碼的語音參數(shù);音頻編解碼器,用于檢查接收到的語音幀的至少一個參數(shù);以及用于將語音幀分類成屬于參與者之一的裝置,所述分類基于在檢查的至少一個語音參數(shù)中的差異;以及用于 基于參與者的語音幀分類將信息包括在音頻信號中以便音頻信號的進(jìn)一 步空間化處理的裝置。根據(jù)第六方面,提供一種計(jì)算機(jī)程序產(chǎn)品,存儲在計(jì)算機(jī)可讀介 質(zhì)上并且可以在數(shù)據(jù)處理設(shè)備中執(zhí)行,以便區(qū)分具有多個參與者的 電話會議中的發(fā)言者,計(jì)算機(jī)程序產(chǎn)品包括用于接收電話會議的 語音幀的計(jì)算機(jī)程序代碼段,所述語音幀包括編碼的語音參數(shù);計(jì) 算機(jī)程序代碼段,用于檢查接收到的語音幀的至少一個參數(shù);計(jì)算 機(jī)程序代碼段,用于將語音幀分類成屬于參與者之一,所述分類基 于在檢查的至少 一個語音參數(shù)中的差異;以及計(jì)算機(jī)程序代碼段, 用于基于參與者的語音幀分類將信息包括在音頻信號中,以便音頻 信號的進(jìn) 一 步空間化處理。根據(jù)第七方面,提供一種終端設(shè)備,其操作為將多個從終端連接 到會議橋的主終端,所述終端設(shè)備包括用于接收具有多個參與者 的電話會議的語音幀的裝置,所述語音幀包括編碼的語音參數(shù);音 頻編解碼器,用于檢查接收到的語音幀的至少一個參數(shù);以及用于 將語音幀分類成屬于參與者之一的裝置,所述分類基于在檢查的至 少一個語音參數(shù)中的差異;以及用于基于參與者的語音幀分類將信 息包括在音頻信號中以便音頻信號的進(jìn) 一 步空間化處理的裝置。
在下文中,將參考附圖來更為詳細(xì)地描述本發(fā)明的各種實(shí)施方 式和方面,其中圖1表示根據(jù)現(xiàn)有技術(shù)的集中式電話會議系統(tǒng);圖2表示寬帶AMR語音編解碼器的通用功能結(jié)構(gòu);圖3表示在簡化的塊流程圖中的根據(jù)本發(fā)明的一個實(shí)施方式的發(fā)言者標(biāo)識系統(tǒng);圖4表示實(shí)施在根據(jù)本發(fā)明的一個實(shí)施方式的終端或會議橋中的發(fā)言者標(biāo)識系統(tǒng);圖5表示實(shí)施在根據(jù)本發(fā)明的另一實(shí)施方式的會議橋中的發(fā)言者標(biāo)識系統(tǒng);圖6表示實(shí)施在根據(jù)本發(fā)明的另一實(shí)施方式的分布式電話會議 系統(tǒng)的會議橋中的發(fā)言者標(biāo)識系統(tǒng);圖7a表示電話會議情形,其中一組終端經(jīng)由主終端連接到會議橋;圖7b表示實(shí)施在根據(jù)本發(fā)明的一個實(shí)施方式的圖7a的主終端中 的發(fā)言者標(biāo)識系統(tǒng);圖7c表示實(shí)施在根據(jù)本發(fā)明的另一實(shí)施方式的圖7a的主終端中 的發(fā)言者標(biāo)識系統(tǒng);圖8表示根據(jù)本發(fā)明的一個實(shí)施方式的空間化方法的流程圖;圖9表示在簡化的塊流程圖中的根據(jù)本發(fā)明的 一 個實(shí)施方式的 終端設(shè)備;以及圖10表示在簡化的塊流程圖中的根據(jù)本發(fā)明的 一個實(shí)施方式的 會議橋。
具體實(shí)施方式
本發(fā)明不限于任何特定的電信系統(tǒng),其可以使用在任何電信系 統(tǒng)中,其中語音編解碼器分析語音的特性并且將編碼語音的參數(shù)包 括在將要發(fā)送到接收者的音頻信號中。因此,本發(fā)明可以使用不同 的音頻和語音編解碼器,例如本質(zhì)上乂人GSM/UMTS系統(tǒng)已知的 EFR/FR/HR語音編解碼器((增強(qiáng)型)全/半速率編解碼器)和窄帶 AMR或?qū)拵MR語音編解碼器(自適應(yīng)多速率編解碼器),以及使用在MPEG1、 MPEG2和MPEG4音頻編碼中的編解碼器,例如 AAC編解碼器(高級音頻編碼),其適用于編碼/解碼不同的音頻格 式。因此術(shù)語音頻編解碼器表示傳統(tǒng)意義上的音頻編解碼器和使用 在不同系統(tǒng)中的語音編解碼器以及具有可伸縮比特率的編解碼器, 例如根據(jù)MPEG4的CELP+AAC。因此,技術(shù)人員將理解到電信系 統(tǒng)的屬性根本不會限制本發(fā)明的實(shí)施,本發(fā)明可以應(yīng)用于任何電路 交換或分組交換電信網(wǎng)絡(luò)中,例如GSM網(wǎng)絡(luò)、GPRS網(wǎng)絡(luò)、UMTS 網(wǎng)絡(luò)以及經(jīng)由因特網(wǎng)使用的電話會議設(shè)置中。在下文中,將使用寬帶AMR ( AMR-WB)編解碼器作為例子來 描述實(shí)施方式。寬帶語音編解碼器AMR-WB 乂人先前開發(fā)用于GSM 系統(tǒng)的窄帶語音編解碼器AMR-NB進(jìn)一步發(fā)展而來。寬帶和窄帶 AMR編解碼器都被設(shè)置成將錯誤消除的等級適配于無線信道和業(yè)務(wù) 條件,從而它們總是試圖選擇最佳的信道和編解碼器模式(語音和 信道比特率),從而提供最佳的可能語音質(zhì)量。AMR語音編解碼器包括多速率語音編碼器,源控制速率圖,其 包括話音活動檢測(VAD)和背景噪聲生成系統(tǒng)(DTX,非連續(xù)傳 輸)以及阻止將傳輸路徑錯誤發(fā)送到接收方的錯誤消除機(jī)制。多速 率語音編解碼器是集成的語音編解碼器,其窄帶版本AMR-NB包括 具有比特速率為12.2、 10.2、 7.95、 7.4、 6.7、 5.9、 5.15和4.75kbit/s 的八個語音編解碼器。寬帶語音編解碼器接著包括比特速率為 23.85、 23.05、 19.85、 18.25、 15.85、 14.25、 12.65、 8.85和6雖bit/s 的九個語音編解碼器。AMR語音編解碼器的語音編碼的操作基于ACELP(代數(shù)碼本激 勵線性預(yù)測)方法。寬帶編解碼器AMR-WB在16kHz的頻率處對語 音進(jìn)行采樣,此后預(yù)處理的語音信號被下采樣到編解碼器的操作頻 率12.8kHz。這實(shí)現(xiàn)解碼語音信號的6.4kHz帶寬,但操作在最高比 特率23.85kbit/s的編解碼器模式也包括語音信號后處理功能,通過 該功能可以確定對于語音信號來說,更高頻率范圍(6.4到7kHz) 內(nèi)的有色隨機(jī)噪聲分量將使用的帶寬增加到7kHz。語音編碼器的輸出比特流因此包括是典型ACELP編碼器參數(shù)的編碼語音參數(shù)。這些包括-在ISP (導(dǎo)抗頻譜對(Immitance Spectral Pair ))域中量化的 LPC (線性預(yù)測編碼)參數(shù),描述頻鐠內(nèi)容并且定義濾波器的短期常 數(shù);-LTP (長期預(yù)測)參數(shù),描述語音的周期性結(jié)構(gòu); -ACELP激勵,描述線性預(yù)測器后的冗余信號; -信號增益-擴(kuò)展高頻帶的增益參數(shù)(僅用于最高比特率的編解碼器中)圖2的框圖描述寬帶語音編解碼器AMR-WB的通用功能結(jié)構(gòu), 其中語音編解碼器的輸入語音首先施加到話音活動檢測塊(VAD) 200。在該塊中,通過VAD算法對輸入信號執(zhí)行操作,其中包括語 音分量的幀與僅包括噪聲的幀相分離。在包括語音分量的幀上執(zhí)行 初步VAD參數(shù)化,而僅包括噪聲的語音幀將被引導(dǎo)旁路語音編碼器 到非連續(xù)傳輸(DTX)塊202,該塊202以低比特率(1.75kbit/s)對 包括噪聲的幀進(jìn)行編碼。作為初步VAD參數(shù)化的結(jié)果,通??梢源_ 定語音幀的基音和能量。包括語音分量的語音幀被施加到語音編碼 器204,該語音編碼器包括本質(zhì)上已知的功能性,用于計(jì)算LPC參 數(shù)(塊206 ) 、 LTP參數(shù)(塊208 )和描述信號增益的參數(shù)(塊210 )。語音編解碼器將編碼的語音參數(shù)饋入到信道編碼器,其中執(zhí)行 連續(xù)的操作,例如比特重組、針對一些比特計(jì)算CRC (循環(huán)冗余校 驗(yàn))值、巻積編碼和鑿孔。這些信道編碼語音參數(shù)經(jīng)由發(fā)送器發(fā)送 到接收終端的編解碼器,其中解碼器解碼信道編碼并且解碼語音參 數(shù),從而形成將要在接收機(jī)中再生的音頻信號?,F(xiàn)在讓我們假設(shè)圖2的寬帶AMR-WB語音編解碼器使用在圖1 的電話會議橋中,即,音頻處理單元APU合并和處理從不同終端接 收到的語音信號,并且包括若干語音信號的合并的信號由寬帶 AMR-WB語音編解碼器來編碼并且發(fā)送回終端或另一會議橋。本發(fā)明的實(shí)施方式基于觀察到編碼語音數(shù)據(jù)中的語音參數(shù)通常包括對涉及典型電話會議情況中的若千發(fā)言者之間做出區(qū)分的足夠 信息。因此,接收單元(例如終端或網(wǎng)關(guān)電話會議橋)的語音編解 碼器被設(shè)置成檢查一組語音參數(shù),即, 一個或多個參數(shù),并且根據(jù) 檢查的語音參數(shù)中的差異來將發(fā)言者彼此分開。接著將根據(jù)檢查的 語音參數(shù)的特性值來從后續(xù)的語音幀標(biāo)識出發(fā)言者,在此之后,被 標(biāo)識的發(fā)言者的信息可以被進(jìn)一步用于對將要再生的音頻信號創(chuàng)建 空間化效果。通過參考圖3的框圖來進(jìn)一步示出實(shí)施方式,其示出通用層面上的發(fā)言者標(biāo)識塊的實(shí)施。圖3僅示出關(guān)于編碼的語音幀的處理的功能性。對技術(shù)人員,顯而易見的是在編碼的語音幀被插入到語音 編解碼器前,已知的各種操作將被實(shí)施于接收到的信號。這些操作 至少在某種程度上是系統(tǒng)相關(guān)的并且通常包括例如接收幀的去交織 和巻積解碼,然而對于實(shí)施方式的實(shí)施是不相關(guān)的。接收單元(例如終端或網(wǎng)關(guān)電話會議橋)接收包括各種語音參數(shù)的編碼語音幀300。從至少一些接收到的語音幀,由提取塊302 復(fù)制一個或多個預(yù)定的語音參數(shù)。事實(shí)上,不必檢查每個語音幀, 如果例如檢查每第二個或每第三個語音幀,則可以獲得可靠的解決 方案。語音參數(shù)進(jìn)一步被饋入到識別塊304,其中根據(jù)語音參數(shù)中的 差異來彼此區(qū)分發(fā)言者并且接著每個幀將被分類到屬于發(fā)言者之 一。識別塊304進(jìn)一步計(jì)算控制字,該控制字標(biāo)識發(fā)言者并且將進(jìn) 一步被用于針對特定的語音幀來創(chuàng)建空間化效果。因此,發(fā)言者標(biāo) 識塊306的基本實(shí)施包括提取塊302和識別塊304。這樣的發(fā)言者標(biāo) 識塊可以應(yīng)用于各種音頻會議架構(gòu)和電話會議的處理鏈的各種位置 中。根據(jù)一個實(shí)施方式,發(fā)言者標(biāo)識塊可以被實(shí)施在接收終端中, 由此不需要來自網(wǎng)絡(luò)的發(fā)言者標(biāo)識信息以便創(chuàng)建將要再生的音頻信 號的空間化效果。圖4示出更為詳細(xì)的終端中的實(shí)施。終端接收來 自會議橋的編碼語音幀400。提取塊402復(fù)制來自接收語音幀的預(yù)定 語音參數(shù),接著將語音參數(shù)輸入到識別塊404中。識別塊404 4全查語音參數(shù)中的差異,相應(yīng)地將發(fā)言者彼此區(qū)分,并且將每個幀標(biāo)識為屬于發(fā)言者之一。接著識別塊404確定每個識別發(fā)言者的控制字, 該控制字被進(jìn)一步用于創(chuàng)建用于語音幀的空間化效果。同時(shí),由終 端接收到的編碼語音幀400被插入到標(biāo)準(zhǔn)語音解碼器408,例如, AMR-WB語音編解碼器以用于解碼處理。語音解碼器408的輸出包 括解碼語音幀,其被插入到空間化處理模塊410以便創(chuàng)建空間化效 果。在空間化處理模塊410中,每個語音幀被標(biāo)記有由發(fā)言者標(biāo)識 塊406所計(jì)算的相應(yīng)控制字。根據(jù)標(biāo)記有語音幀的控制字來處理語 音的每個部分,使得從由收聽者所感覺的聲學(xué)空間中的不同位置聽 到每個發(fā)言者。這給出來自不同方位的每個對手發(fā)言的感知?;胤?裝置412可包括立體聲再生裝置,例如,耳機(jī)或立體聲揚(yáng)聲器,或 任意其他的多通道音頻系統(tǒng),例如5.1系統(tǒng)。通常已知空間化可以被執(zhí)行為例如HRTF (頭部相關(guān)傳輸功能) 濾波,其為收聽者的左和右耳產(chǎn)生雙耳聲的信號。人造房間效果(例 如,早期反射聲或后期混響)可以被添加到空間化信號以提高源外 在化和逼真度。也可僅通過修改信號間的時(shí)間差(耳間的時(shí)間差) 或幅度差(耳間的幅度差)來執(zhí)行空間化。人類聽覺系統(tǒng)甚至將小 幅度的差轉(zhuǎn)換成空間差。當(dāng)使用耳機(jī)時(shí),從濾波器到達(dá)的信號可以 被再生用于左耳和右耳,這給收聽者留下空間差的印象。當(dāng)使用揚(yáng) 聲器時(shí),收聽者用兩個耳朵聽到兩個通道并且可能需要串音消除。 因此,可以執(zhí)行串音消除作為回》文處理的一部分。類似于AMR-WB編解碼器,大多數(shù)編解碼器在編碼處理中使用 線性預(yù)測編碼(LPC)。它們也估計(jì)話音的基音,以及聲音是話音還 是非話音。基音和LPC參數(shù)對于每個發(fā)言者來說稍微有些特性,并 且因此對于識別發(fā)言者來說是顯著可變的。自然地,根據(jù)使用在語 音編碼中的參數(shù),不同的語音編解碼器需要特定的實(shí)施。根據(jù) 一 個實(shí)施方式,通過僅使用例如在語音幀的標(biāo)識中的基音 的一個語音參數(shù)可以實(shí)現(xiàn)發(fā)言者標(biāo)識塊306的很簡單實(shí)現(xiàn)。因此, 提取塊302復(fù)制來自接收到的語音幀的選擇參數(shù)(例如,基音)并且將該參數(shù)插入到識別塊304。識別塊304線性地將參數(shù)映射進(jìn)控制 字,并且線性創(chuàng)建的控制字可以被用于創(chuàng)建空間化效果。例如,如 果發(fā)言者標(biāo)識塊被實(shí)施在根據(jù)圖4的終端中,則空間化處理模塊410 直接使用控制字以便控制立體聲輸出的左/右展平(panning)。該實(shí) 施方式的復(fù)雜度很低并且實(shí)驗(yàn)表明甚至僅通過使用一個合適選擇的 語音參數(shù)可以獲得不同的空間化效果。自然地,可以實(shí)現(xiàn)更為明顯的空間化效果,如果在標(biāo)識中使用 編碼語音幀的若干或所有語音參數(shù)。因此根據(jù)另一實(shí)施方式,提取 塊302復(fù)制來自接收到的語音幀的多個預(yù)定參數(shù)并且將該參數(shù)插入 到識別塊304。識別塊304根據(jù)檢查的語音參數(shù)的特性值來執(zhí)行語音 幀的聚結(jié)并且標(biāo)識每個語音幀屬于哪個聚結(jié)(即,發(fā)言者)。接著 識別塊304計(jì)算表征每個發(fā)言者(即,語音幀的聚結(jié))的控制字。 同樣地,例如,在發(fā)言者標(biāo)識塊的終端實(shí)施中,在空間化處理模塊 410中,每個語音幀標(biāo)記有相應(yīng)的控制字。接著每個發(fā)言者被放置到 聲學(xué)空間中的不同位置。當(dāng)相比較于上述的實(shí)施方式時(shí),實(shí)施的復(fù) 雜度在某種程度上增加,但每個語音幀的發(fā)言者標(biāo)識的可靠性相應(yīng) 地更高。根據(jù)另一實(shí)施方式,如果除了基音值,對話音/非話音語音幀的 劃分被應(yīng)用到語音幀的分類中,則可實(shí)現(xiàn)相應(yīng)簡單實(shí)施但增強(qiáng)的空 間化效果。這里,例如可以根據(jù)相同幀的話音/非話音信息來處理語 音幀的基音信息,使得僅當(dāng)語音幀的聲音是清晰的話音時(shí),進(jìn)一步 處理基音信息。如果語音幀的聲音是非話音的,則基音信息被用作 此類的發(fā)言者標(biāo)識中。由于對于每個發(fā)言者,話音/非話音聲音的使 用通常是特有的,所以其提供促進(jìn)區(qū)分發(fā)言者彼此的額外信息。然而,技術(shù)人員將理解到標(biāo)識的準(zhǔn)確性對于此類應(yīng)用不是非常 重要的。標(biāo)識同樣不影響語音項(xiàng)目的再生,而僅影響相關(guān)的空間化 效果。因此,某個語音項(xiàng)目的發(fā)言者的故障標(biāo)識導(dǎo)致將發(fā)言者放置 到聲學(xué)空間的錯誤位置,這可能造成某種混亂,但消息仍被正確地再生。根據(jù)一個實(shí)施方式,由發(fā)言者標(biāo)識塊所提供的發(fā)言者標(biāo)識信息 可以被進(jìn)一步使用在接收終端中,使得發(fā)言者標(biāo)識(例如,"發(fā)言 者1")同時(shí)隨相應(yīng)發(fā)言者的語音幀的回放而顯示在終端的顯示屏上。 當(dāng)前發(fā)言者的視覺信息加深空間化效果的感知。的。主要優(yōu)勢在于在電話會議的情況中,不需要來自網(wǎng)絡(luò)的發(fā)言者 標(biāo)識信息,而標(biāo)識可以單獨(dú)在接收終端中實(shí)施。另外,在^妻收機(jī)中 不需要單獨(dú)的話音分析算法,因?yàn)榫幋a的語音幀參數(shù)用于標(biāo)識,這導(dǎo)致低的計(jì)算復(fù)雜度。另外的優(yōu)勢在于甚至通過使用若干、可能僅 一個或兩個合適選4奪的語音參數(shù),可在終端中實(shí)現(xiàn)不同的空間化效果。然而,上述的發(fā)言者標(biāo)識塊可應(yīng)用于不同電話會議架構(gòu)的各種 位置。因此,本發(fā)明的另外方面公開一種包括根據(jù)本發(fā)明的發(fā)言者 標(biāo)識塊的電話會議橋。此類的電話會議橋通常通過將傳統(tǒng)的單聲道會議網(wǎng)絡(luò)連接到3D會議網(wǎng)絡(luò)而操作為網(wǎng)關(guān)。這里使用的術(shù)語"3D 會議網(wǎng)絡(luò),,表示一種解決方案,其中終端能夠接收來自會議橋的立 體聲/多通道編碼語音流或 一些額外的信息可以并行于單聲道語音聲 道而纟皮發(fā)送到終端,從而創(chuàng)建空間化效果。圖4中示出的實(shí)施也可以-故應(yīng)用在電話會議橋中,自然地也不 需要回放裝置412。因此,在電話會議橋?qū)嵤┑囊粋€實(shí)施方式中,電 話會議橋接收來自單聲道電話會議網(wǎng)絡(luò)的合并信號,所述合并信號 包括來自多個電話會議參與者的編碼語音幀400。發(fā)言者標(biāo)識塊406 如上述的終端實(shí)施中所述的操作提取塊402將來自每個接收到的 語音幀的預(yù)定語音參數(shù)輸入到識別塊404,識別塊404根據(jù)語音參數(shù) 中的差異來將每個幀分類到屬于發(fā)言者之一,在此之后,控制字被 定義于每個識別的發(fā)言者。合并信號的編碼語音幀400被插入到電 話會議橋的語音解碼器408中以便解碼處理。解碼的語音幀被插入 到空間化音頻處理模塊410,其中每個語音幀標(biāo)記有由發(fā)言者標(biāo)識塊 406所計(jì)算的相應(yīng)控制字。因此,在電話會議橋中才丸行來自單聲道電話會議網(wǎng)絡(luò)的合并信號的3D處理,由此根據(jù)檢測到的發(fā)言者的身份 來控制空間位置,并且處理的立體聲信號首先被編碼并且接著被發(fā) 送到能夠進(jìn)行3D再生的那些參與者。相應(yīng)地,在該實(shí)施方式中,回 ;故裝置412被實(shí)施在接收終端中。相應(yīng)地,來自3D會i義網(wǎng)絡(luò)的終端 的信號被在會議橋中混響以形成合并的單聲道信號,接著將該信號 發(fā)送到僅能夠接收單聲道音頻信號的電話會議參與者。圖5示出電話會議橋?qū)嵤┑牧硪粚?shí)施方式。在該實(shí)施方式中,識別發(fā)言者并且定義每個發(fā)言者的控制字;同時(shí),在電話會議橋的 語音解碼器508中解碼合并信號的編碼語音幀500。在本實(shí)施方式 中,替代于將空間化效果直接創(chuàng)建到會議橋的輸出信號中,僅將ID 標(biāo)簽附加到將要發(fā)送到終端的單聲道混響信號。相應(yīng)地,處理模塊 510將額外的控制流附加到并行于首先將要編碼的語音流并且接著 發(fā)送到終端。處理模塊510可以是上述的空間化音頻處理模塊,其 被設(shè)置成將控制字附加到解碼的語音幀作為額外的信息,或處理模 塊50可以專用于該特定處理。自然地,在該實(shí)施方式中,終端負(fù) 責(zé)在回放階段創(chuàng)建空間化效果,由此根據(jù)來自會議橋、并行于語音 流接收到的額外控制流的ID標(biāo)簽來處理語音部分。有各種可選方案將ID標(biāo)簽包括在將要發(fā)送到終端的單聲道混響 信號中。例如,ID標(biāo)簽可以被嵌入進(jìn)語音信號中??蛇x地,可以應(yīng) 用語音信號的冗余,使得可以使用比特挪用(bit-stealing)技術(shù),即, 語音幀的比特流中的 一 些冗余比特用于指示ID標(biāo)簽。另 一 種選擇是 應(yīng)用用于將混響信號傳送到終端的傳輸協(xié)議。用于電話會議的典型 傳輸協(xié)議是RTP (實(shí)時(shí)傳輸協(xié)議),其中RTP的未用控制字段可用 于將活躍的發(fā)言者的ID信息發(fā)送到接收器。自然地,例如RTCP(實(shí) 時(shí)傳輸控制協(xié)議)的單獨(dú)控制流可連同專用于信號發(fā)送ID標(biāo)簽的傳 輸協(xié)議使用。圖6示出用于分布式電話會議架構(gòu)的電話會議橋?qū)嵤┑牧硗鈱?shí) 施方式。同樣地,發(fā)言者被識別并且控制字被定義用于如上所述的發(fā)言者標(biāo)識塊606中的每個發(fā)言者。然而,對于分布式電話會議系 統(tǒng),會議橋創(chuàng)建單獨(dú)的輸出信號,它們的每個代表電話會議的一個 參與者的語音。因此,如果發(fā)言者標(biāo)識塊606檢測到參與者A正在 單聲道混響信號的特定語音幀600中發(fā)言,則解多路復(fù)用器610控 制語音幀與參與者A的流關(guān)聯(lián),并且在該特定幀的持續(xù)期間,靜音 幀或柔化噪音幀被生成用于參與者的剩余流。接著,如果發(fā)言者標(biāo) 識塊606纟全測到例如參與者B正在下一個進(jìn)入的語音幀中發(fā)言,則 語音幀關(guān)聯(lián)在參與者B的流中,并且靜音幀被生成用于流的剩余。 所有的這些(分開的)N個語音信號接著被發(fā)送到終端,終端包括 用于將它們空間化到回放階段的不同位置處的裝置。注意到在該實(shí)施方式中,由語音解碼器608所執(zhí)行的代碼轉(zhuǎn)換 可優(yōu)選地^皮旁路,因?yàn)榫幋a的語音幀600可以被直接地轉(zhuǎn)發(fā)到不同 的流。當(dāng)然,可以解碼語音幀并且接著引導(dǎo)得到的PCM (脈沖編碼 調(diào)制)信號到不同的流,接著在將這些流傳輸?shù)浇K端之前對其進(jìn)行 編碼。圖7a示出電話會議情況中的另一實(shí)施方式,其中參與電話會議 的一組從終端(ST1-ST3)經(jīng)由主終端(MT)連接到會議橋(CB)。 例如,多個電話會議參與者可以聚集在房間內(nèi),其中一個參與者的 終端操作為主終端,其連接到會議橋,并且其他的終端經(jīng)由例如藍(lán) 牙連接或WLAN連接連接到主終端??蓱?yīng)用于該電話會議情形中的 實(shí)施方式是上述的實(shí)施方式的變形。根據(jù)圖7b中所示出的一個實(shí)施方式,主終端從會議橋接收合并 的信號700,并且主終端的發(fā)言者標(biāo)識塊706識別發(fā)言者并且定義每 個發(fā)言者的控制字。同時(shí)地,在主終端的語音解碼器708中解碼合 并信號的編碼語音幀700。在該實(shí)施方式中,ID標(biāo)簽被附加到將要 發(fā)送到從終端的單聲道混響信號。相應(yīng)地,處理模塊710將并行于 語音流來附加額外的控制流以共同地發(fā)送到乂人終端。接著從終端在 回放階段創(chuàng)建空間化效果,由此根據(jù)附加的ID標(biāo)簽來處理語音部分。根據(jù)圖7c中示出的另一實(shí)施方式,主終端根據(jù)分布式電話會議架構(gòu)的原理來針對從終端進(jìn)行操作。因此,主終端創(chuàng)建代表電話會 議的參與者的語音的單獨(dú)輸出信號。分開的語音信號被發(fā)送到從終端,其在回放階段創(chuàng)建空間化效果。同樣地,編碼的語音幀700可 以被直接轉(zhuǎn)發(fā)到不同的流,不需要由語音解碼器708執(zhí)行任何的代 碼轉(zhuǎn)換。事實(shí)上發(fā)言者標(biāo)識塊可應(yīng)用于電話會議的處理鏈的各種位置所 提供的優(yōu)勢是顯著的。主要優(yōu)勢在于定位發(fā)言者標(biāo)識處理的某些自 由度提供在會議網(wǎng)絡(luò)的不同階段中將單聲道會議系統(tǒng)連接到3D會 議系統(tǒng)的靈活性。另外,在實(shí)施方式中,其中發(fā)言者標(biāo)識塊被實(shí)施 在會議橋中,發(fā)言者標(biāo)識塊處理的簡單實(shí)施的需要不是太重要。因 此,如果發(fā)言者標(biāo)識塊被實(shí)施在會議橋(服務(wù)器)中,則可以使用 需要更高的處理功率和存儲消耗的高性能ID檢測處理。圖8表示根據(jù)本發(fā)明的 一 個實(shí)施方式的空間化方法的流程圖。 在步驟800中,在接收單元中接收包括電話會議的編碼語音參數(shù)的 編碼語音幀。接收單元包括預(yù)定的設(shè)置以在發(fā)言者標(biāo)識中使用某些 語音參數(shù)。相應(yīng)地,編碼的語音幀的所述預(yù)定語音參數(shù)被輸入到標(biāo) 識處理(802 )。選擇的語音參數(shù)中的差異是驅(qū)動因子,根據(jù)該驅(qū)動 因子,每個幀被分類成屬于發(fā)言者之一 (804)。接著以控制字來標(biāo) 識每個發(fā)言者(806 ),這可以簡單的是發(fā)言者號或,如果應(yīng)用更為 復(fù)雜的計(jì)算,例如相對于收聽者的聲音源位置的坐標(biāo)參數(shù)(笛卡爾 坐標(biāo)'.x, y, z或球坐標(biāo)方位角、仰角和距離)或展平或增益參數(shù) 以控制音頻通道的空間位置。此后,同時(shí)利用標(biāo)準(zhǔn)語音解碼器解碼 的語音幀被利用在標(biāo)識處理中計(jì)算的相應(yīng)控制字來標(biāo)記(808 )???選地,如果如上所解釋的使用分布式架構(gòu),則解碼優(yōu)選地被旁路并 且根據(jù)它們的相應(yīng)控制字來進(jìn)一 步處理編碼的語音幀。上述的步驟涉及發(fā)言者標(biāo)識并且通常在接收單元內(nèi)執(zhí)行(即, 會議橋、終端、主終端)。下面的步驟也包括在處理鏈中以創(chuàng)建空 間化效果,但根據(jù)使用的電話會議架構(gòu)和實(shí)施以及在所述架構(gòu)中的 發(fā)言者標(biāo)識塊的位置,根據(jù)標(biāo)記有相應(yīng)語音幀的控制字來為每個語音幀創(chuàng)建空間化效果的步驟(810)可以實(shí)施在處理鏈的各種位置, 如上所述解釋。因此以虛線示出最后的步驟。最后,總是經(jīng)由音頻再生裝置來在接收終端中實(shí)施回放(812),使得從由收聽者感知的聲學(xué)空間的不同位置聽到每個發(fā)言者。上述的空間化系統(tǒng)和方法可以^皮實(shí)施在能夠參與電話會議并且包括合適的語音解碼器和音頻再生裝置的任意終端中。圖9表示可 以應(yīng)用本發(fā)明的終端(即,電子設(shè)備(ED))通用框圖。電子設(shè)備 例如可以是無線移動臺或PDA (個人數(shù)字助理)設(shè)備、有線電話或 計(jì)算機(jī)。電子設(shè)備(ED)包括中央處理單元(CPU)、存儲器(MEM) 和I/0系統(tǒng)(I/O)。所有需要的信息存儲在設(shè)備的存儲器(MEM) 中。存儲器(MEM)包括只讀存儲器部分,其例如可以是ROM存 儲器,以及寫存儲器部分,其例如可以由RAM (隨機(jī)存取存儲器) 和/或閃存存儲器形成。經(jīng)由I/O系統(tǒng)(I/O),設(shè)備與例如其他設(shè)備、 網(wǎng)絡(luò)和用戶通信。更具體地,I/O系統(tǒng)包括設(shè)置成根據(jù)使用的電信協(xié) 議來發(fā)送和接收電話會議數(shù)據(jù)的收發(fā)器Tx/Rx。隨同收發(fā)器Tx/Rx, 有至少一個語音編解碼器(CODEC),其包括語音編碼器和語音解 碼器的功能。如上所述,根據(jù)本發(fā)明的發(fā)言者標(biāo)識塊優(yōu)選地結(jié)合編 解碼器實(shí)施。用戶接口 (UI)(其是I/0系統(tǒng)(I/O)的一部分)包 括與用戶通信所需的接口,例如顯示器、按鍵和音頻再生裝置,類 似于揚(yáng)聲器和/或麥克風(fēng)。從設(shè)備的不同組件接收到的信息被發(fā)送到 中央處理單元(CPU),其包括一個或多個處理器并且以期望的方 式來處理接收到的信息。會議橋CB可以是已知的基于PC的服務(wù)器計(jì)算機(jī)。相應(yīng)地,如 圖10中所示,會議橋包括用于接收從若干個終端和/或另 一會議網(wǎng)絡(luò) 到達(dá)的音頻信號的輸入(11, ..., IN),并且通常包括多個解碼器 (Dl, ..., DN)以用于解碼輸入的信號。輸入的音頻信號一皮施加到 音頻處理單元APU,其中以期望的方式來合并音頻信號,其可以包 括信號混頻、空間化、濾波或其他期望的處理方法,作為該處理的結(jié)果,生成單聲道或立體聲(或多通道)合并輸出音頻信號。根據(jù) 本發(fā)明的發(fā)言者標(biāo)識塊實(shí)施為APU的一部分。會議橋進(jìn)一步包括存儲器MEM和包括至少一個處理器的一個或多個中央處理單元CPU, 由此通過應(yīng)用公共存儲器組件和會議橋的處理單元來實(shí)施音頻處理 單元APU的功能,或可將音頻處理單元APU實(shí)施為專用單元。另 外,會議橋包括一個或多個語音編碼器(EN)以用于對橋的輸出信 號進(jìn)行編碼。根據(jù)實(shí)施方式的步驟很大程度地可以利用在圖9的終端或圖10 的會議橋的中央處理單元中執(zhí)行的程序指令來實(shí)施。因此,用于實(shí) 施上述方法的所述裝置通常實(shí)施為計(jì)算機(jī)軟件代碼。計(jì)算機(jī)軟件可 以被存儲到任意存儲器裝置,例如PC的硬盤或CD-ROM磁盤,從 這可將其加載到終端的存儲器。計(jì)算機(jī)軟件可以通過網(wǎng)絡(luò)加載,例如使用TCP/IP協(xié)議棧。也可以使用硬件解決方案或硬件和軟件解決 方案的組合以實(shí)施本發(fā)明的裝置。顯然的是本發(fā)明不只限于上述的實(shí)施方式,而是可以在所附權(quán)利 要求書的范圍內(nèi)修改。
權(quán)利要求
1.一種用于區(qū)分多個參與者的電話會議中的發(fā)言者的方法,該方法包括接收所述電話會議的語音幀,所述語音幀包括編碼的語音參數(shù);檢查接收到的語音幀的至少一個語音參數(shù);以及將語音幀分類成屬于參與者之一,所述分類根據(jù)在檢查的至少一個語音參數(shù)中的差異來實(shí)施。
2. 根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括 通過基于參與者的語音幀分類將所述參與者放置在所述音頻信號的聲學(xué)空間的不同位置,對將要再生的音頻信號創(chuàng)建空間化效果。
3. 根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括 根據(jù)在檢查的至少一個語音參數(shù)中的差異來確定每個參與者的控制字;以及將控制字附加到語音幀,每個語音幀的所述控制字是在特定語音 幀中發(fā)言的參與者所特有的。
4. 根據(jù)權(quán)利要求3所述的方法,該方法進(jìn)一步包括 根據(jù)附加到語音幀的控制字來創(chuàng)建空間化效果。
5. 根據(jù)權(quán)利要求4所述的方法,該方法進(jìn)一步包括 根據(jù)在檢查的僅一個語音參數(shù)中的差異來確定每個參與者的所述控制字;以及根據(jù)所述控制字來控制將要再生的音頻信號的音頻通道的空間 位置。
6. 才艮據(jù)權(quán)利要求4所述的方法,該方法進(jìn)一步包括 根據(jù)多個檢查的語音<參數(shù)中的差異來聚結(jié)所述語音幀; 根據(jù)聚結(jié)的語音幀的語音參數(shù)中的差異來確定每個參與者的所述控制字;以及根據(jù)所述控制字來控制將要再生的音頻信號的音頻通道的空間位置。
7. 根據(jù)任意前述權(quán)利要求所述的方法,其中檢查的語音參數(shù)包 括下面的至少一個-話音的基音; -語音幀的話音分類; -語音幀的任意LPC參數(shù)。
8. —種用于區(qū)分具有多個參與者的電話會議中的發(fā)言者的系 統(tǒng),該系統(tǒng)包4舌用于接收所述電話會議的語音幀的接收單元,所述語音幀包括編 碼的語音參數(shù);提取單元,用于檢查接收到的語音幀的至少一個參數(shù);以及 識別單元,用于將語音幀分類成屬于參與者之一,所述分類基于 在檢查的至少一個語音參數(shù)中的差異。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),進(jìn)一步包括空間化單元,用于通過將所述參與者放置在所述音頻信號的聲學(xué) 空間的不同位置,對將要再生的音頻信號創(chuàng)建空間化效果。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),進(jìn)一步包括 用于根據(jù)在檢查的至少一個語音參數(shù)中的差異來確定每個參與者的控制字的裝置;以及用于將控制字附加到語音幀的裝置,每個語音幀的控制字是在特 定語音幀中發(fā)言的參與者所特有的。
11. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中空間化單元被設(shè)置成根據(jù)附加到語音幀的控制字來創(chuàng)建所述空 間化效果。
12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中用于確定每個參與者的控制字的裝置被設(shè)置成根據(jù)所述語音參 數(shù)中的線性差異來檢查僅一個語音參數(shù)并且定義控制字;并且其中 所述系統(tǒng)進(jìn)一步包括用于根據(jù)所述控制字來控制將要再生的音頻信號的音頻通道的空間位置的裝置。
13. 根據(jù)權(quán)利要求11所述的系統(tǒng),進(jìn)一步包括 用于根據(jù)多個檢查的語音參數(shù)的差異來聚結(jié)所述語音幀的裝置; 用于根據(jù)聚結(jié)的語音幀的語音參數(shù)中的差異來確定每個參與者的控制字的裝置;以及用于根據(jù)所述控制字來控制將要再生的所述音頻信號的音頻通 道的空間位置的裝置。
14. 根據(jù)權(quán)利要求8到13的任意一項(xiàng)所述的系統(tǒng),其中檢查的 語音參數(shù)包括下面的至少一個-話音的基音;-語音幀的話音分類;-語音幀的任意LPC參數(shù)。
15. —種設(shè)備,包括接收單元,用于接收具有多個參與者的電話會議的語音幀,所述 語音幀包括編碼的語音參數(shù);提取單元,用于檢查接收到的語音幀的至少 一 個參數(shù);識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基 于在檢查的至少一個語音參數(shù)中的差異;以及空間化單元,用于通過將所述參與者放置在所述音頻信號的聲學(xué) 空間的不同位置,對將要再生的所述音頻信號創(chuàng)建空間化效果。
16. 根據(jù)權(quán)利要求15所述的設(shè)備,進(jìn)一步包括 立體聲或多通道音頻再生裝置。
17. 根據(jù)權(quán)利要求15所述的設(shè)備,進(jìn)一步包括顯示器,用于顯示所述參與者的發(fā)言者標(biāo)識,并存的語音幀被分 類成屬于該參與者。
18. —種計(jì)算機(jī)程序產(chǎn)品,其存儲在計(jì)算機(jī)可讀介質(zhì)上并且可在 數(shù)據(jù)處理設(shè)備中執(zhí)行,用于對具有多個參與者的電話會議的音頻信 號進(jìn)行三維空間化,該計(jì)算機(jī)程序產(chǎn)品包括用于接收所述電話會議的語音幀的計(jì)算機(jī)程序代碼段,所述語音幀包括編碼的語音參數(shù);計(jì)算機(jī)程序代碼段,用于檢查接收到的語音幀的至少 一個語音參數(shù);計(jì)算機(jī)程序代碼段,用于將所述語音幀分類成屬于參與者之一, 所述分類是基于在檢查的至少一個語音參數(shù)中的差異;以及計(jì)算機(jī)程序代碼段,用于通過將所述參與者放置在音頻信號的聲 學(xué)空間的不同位置,對將要再生的音頻信號創(chuàng)建空間化效果。
19. 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)程序產(chǎn)品,進(jìn)一步包括計(jì)算機(jī)程序代碼段,用于根據(jù)在檢查的至少 一 個語音參數(shù)中的差 異來確定每個參與者的控制字;以及計(jì)算機(jī)程序代碼段,用于將控制字附加到語音幀,每個語音幀的 控制字是在特定語音幀中發(fā)言的參與者所特有的。
20. 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)程序產(chǎn)品,其中用于創(chuàng)建空間化效果的計(jì)算機(jī)程序代碼段進(jìn) 一 步包括用于基于 附加到語音幀的控制字來創(chuàng)建空間化效果的計(jì)算機(jī)程序代碼段。
21. —種用于電話會議系統(tǒng)的會議橋,所述橋包括 接收單元,用于接收具有多個參與者的電話會議的語音幀,所述語音幀包括編碼的語音參數(shù);提取單元,用于檢查接收到的語音幀的至少一個參數(shù); 識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基于在檢查的至少一個語音參數(shù)中的差異;以及音頻處理單元,用于將基于參與者的語音幀分類的信息包括在音頻信號中以便音頻信號的進(jìn)一步空間化處理。
22. 根據(jù)權(quán)利要求21所述的會議橋,其中所述音頻處理單元被設(shè)置成根據(jù)檢查的至少 一個語音參數(shù)中的 差異來確定每個參與者的控制字。
23. 根據(jù)權(quán)利要求22所述的會議橋,進(jìn)一步包括 空間化單元,用于通過根據(jù)控制字將參與者放置在音頻信號的聲學(xué)空間的不同位置,對將要發(fā)送到參與者的音頻信號創(chuàng)建空間化效果,以及編碼器,用于在傳送之前編碼所述空間化的音頻信號。
24. 根據(jù)權(quán)利要求22所述的會議橋,進(jìn)一步包括用于將所述控制字附加到將要被發(fā)送的音頻信號中作為額外的 控制信息的裝置,以便在接收終端中的音頻信號的進(jìn)一步空間化處 理。
25. 根據(jù)權(quán)利要求24所述的會議橋,其中根據(jù)下面方法的一個 將所述額外的控制信息附加到音頻信號中-將所述控制字嵌入進(jìn)所述音頻信號;-挪用所述音頻信號的語音幀的特定比特以指示所述控制字; -將所述控制字插入到用于傳送所述音頻信號的傳輸協(xié)議的未用 控制字段中;或者-連同所述音頻信號,在單獨(dú)的控制信號中發(fā)送所述控制字。
26. 根據(jù)權(quán)利要求22-25的任意一項(xiàng)所述的會議橋,進(jìn)一步包括 用于創(chuàng)建單獨(dú)的音頻信號的裝置,每個信號代表參與者的語音; 用于將由所述語音幀的控制字所指示的活躍發(fā)言的參與者的語音幀引導(dǎo)到所述參與者的單獨(dú)的音頻信號的裝置;用于在所述語音幀的持續(xù)期間,針對其他參與者的單獨(dú)的音頻信 號生成靜音幀的裝置;以及用于將所述單獨(dú)的音頻信號發(fā)送到所述參與者的每個的裝置。
27. —種計(jì)算機(jī)程序產(chǎn)品,存儲在計(jì)算機(jī)可讀介質(zhì)上并且可以在 數(shù)據(jù)處理設(shè)備中執(zhí)行,以便區(qū)分具有多個參與者的電話會議中的發(fā) 言者,所述計(jì)算機(jī)程序產(chǎn)品包括用于接收電話會議的語音幀的計(jì)算機(jī)程序代碼段,所述語音幀包 括編碼的語音參數(shù);計(jì)算機(jī)程序代碼段,用于檢查接收到的語音幀的至少 一個參數(shù);計(jì)算機(jī)程序代碼段,用于將語音幀分類成屬于參與者之一,所述 分類是基于在檢查的至少一個語音參數(shù)中的差異;以及計(jì)算機(jī)程序代碼段,用于基于參與者的語音幀分類將信息包括在音頻信號中,以便音頻信號的進(jìn)一步空間化處理。
28. —種終端設(shè)備,其操作為將多個從終端連接到會議橋的主終端,所述終端設(shè)備包括接收單元,用于接收具有多個參與者的電話會議的語音幀,所述 語音幀包括編碼的語音參數(shù);音頻編解碼器,用于檢查接收到的語音幀的至少 一 個參數(shù);識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基 于在檢查的至少一個語音參數(shù)中的差異;以及音頻處理單元,用于基于參與者的語音幀分類將信息包括在音頻 信號中以便音頻信號的進(jìn)一步空間化處理。
29. 根據(jù)權(quán)利要求28所述的終端設(shè)備,其中 所述音頻處理單元被設(shè)置成根據(jù)在4全查的至少一個語音參數(shù)中的差異來確定每個參與者的控制字。
30. 根據(jù)權(quán)利要求28或29所述的終端設(shè)備,進(jìn)一步包括用于將所述控制字附加到將要被發(fā)送的音頻信號中作為額外的 控制信,包-以便在從終端中的音頻信號的進(jìn) 一 步空間化處理的裝置。
31. 根據(jù)權(quán)利要求28-30的任意一項(xiàng)所述的終端設(shè)備,進(jìn)一步包括用于創(chuàng)建單獨(dú)的音頻信號的裝置,每個信號代表參與者的語音; 用于將由所述語音幀的控制字所指示的活躍發(fā)言的參與者的語音幀引導(dǎo)到所述參與者的單獨(dú)的音頻信號的裝置;用于在所述語音幀的持續(xù)期間,針對其他參與者的單獨(dú)的音頻信 號生成靜音幀的裝置;以及用于將所述單獨(dú)的音頻信號發(fā)送到每個從終端的裝置。
32. 根據(jù)權(quán)利要求28-31的任意一項(xiàng)所述的終端設(shè)備,進(jìn)一步包括低功率RF裝置,用于建立到所述從終端的連接。
全文摘要
一種用于區(qū)分多個參與者的電話會議中的發(fā)言者的方法,在該方法中,在接收單元中接收電話會議的語音幀,所述語音幀包括編碼的語音參數(shù)。在接收單元的音頻編解碼器中檢查接收到的語音幀的至少一個參數(shù),并且將語音幀分類成屬于參與者之一,所述分類是根據(jù)在檢查的至少一個語音參數(shù)中的差異來實(shí)施的。這些功能可以被實(shí)施在發(fā)言者標(biāo)識塊中,其可以應(yīng)用于電話會議處理鏈的各種位置。最后,通過將參與者放置在音頻信號的聲學(xué)空間的不同位置、根據(jù)告知的差別來在再生音頻信號的終端中創(chuàng)建空間化效果。
文檔編號H04M3/56GK101218813SQ200680025249
公開日2008年7月9日 申請日期2006年7月5日 優(yōu)先權(quán)日2005年7月11日
發(fā)明者J·維羅萊南, P·雅爾斯克 申請人:諾基亞公司