處理音頻信號的制作方法
【專利摘要】本發(fā)明描述了一種用于改善移動用戶之間的實時視頻會話的QoE的計算機實現的系統和方法。例如,根據本發(fā)明的一個實施例的方法包括:在服務提供商網絡的周界配置一個或多個服務器;從第一移動設備接收與第二移動設備建立實時通信會話的請求;給所述第一和第二移動設備提供用于連接到所述服務器的聯網信息;以及通過所述服務器建立所述實時通信會話。
【專利說明】處理音頻信號
【技術領域】
[0001]本發(fā)明涉及在通信會話期間處理音頻信號。
【背景技術】
[0002]通信系統允許用戶通過網絡與彼此進行通信。網絡可以是例如因特網或公共交換電話網絡(PSTN)。音頻信號能夠在網絡的節(jié)點之間被傳送,以便從而允許用戶通過通信系統在通信會話中向彼此傳送和接收音頻數據(諸如,語音數據)。
[0003]用戶設備可以具有音頻輸入裝置,諸如能夠被用來接收諸如來自用戶的語音之類的音頻信號的麥克風。用戶可以進入與另一用戶的通信會話,諸如私人呼叫(在呼叫中僅有兩個用戶)或會議呼叫(在呼叫中有兩個以上的用戶)。用戶的語音在麥克風處被接收、處理并且然后通過網絡被傳送到呼叫中的其他(一個或多個)用戶。
[0004]和來自用戶的音頻信號一樣,麥克風還可以接收可能干擾從用戶接收到的音頻信號的其他音頻信號,諸如背景噪聲。
[0005]用戶設備還可以具有音頻輸出裝置,諸如用于將音頻信號輸出到用戶的揚聲器,所述音頻信號在呼叫期間從(一個或多個)用戶通過網絡被接收到。然而,揚聲器還可以被用來輸出來自被在用戶設備處執(zhí)行的其他應用的音頻信號。例如,用戶設備可以是執(zhí)行諸如用于通過網絡進行通信的通信客戶端之類的應用的TV。當用戶設備正參與呼叫時,連接到用戶設備的麥克風旨在接收由意在傳送到呼叫中的其他(一個或多個)用戶的用戶所提供的語音或其他音頻信號。然而,麥克風可以拾取從用戶設備的揚聲器輸出的不需要的音頻信號。從用戶設備輸出的不需要的音頻信號可以導致對在麥克風處從用戶接收以用于在呼叫中傳送的音頻信號的干擾。
[0006]為了改善信號的質量,諸如用于在呼叫中使用,期望抑制在用戶設備的音頻輸入裝置處被接收到的不需要的音頻信號(背景噪聲和從用戶設備輸出的不需要的音頻信號)。
[0007]立體聲麥克風和其中多個麥克風作為單個設備操作的麥克風陣列的使用正變得愈加常見。這些使得除了能夠在單個麥克風中實現的東西之外還能夠實現提取的空間信息的使用。當使用這種設備時抑制不需要的音頻信號的一個辦法是應用波束形成器(beamformer)。波束形成是設法通過應用信號處理以增強來自一個或多個期望的方向的聲音來聚焦由麥克風陣列所接收到的信號的過程。為了簡單我們將在下文中描述僅具有單個期望的方向的情況,但當存在更多感興趣方向時相同的方法將適用。波束形成通過首先估計所需信號在麥克風處被從其接收到的角度(所謂的到達方向(“D0A”)信息)來實現。自適應波束形成器使用DOA信息來對來自陣列中的麥克風的信號進行濾波,以便形成在所需信號在麥克風陣列處被從其接收到的方向上具有高增益并且在任何其他方向上具有低增益的波束。
[0008]雖然波束形成器將試圖抑制來自不需要的方向的不需要的音頻信號,但是麥克風的數目以及麥克風陣列的形狀和尺寸將限制波束形成器的效果,并且結果不需要的音頻信號被抑制,但仍然是可聽的。
[0009]對于后續(xù)的單通道處理,波束形成器的輸出通常被作為輸入信號供應給單通道噪聲降低級。先前已經提出了實現單通道噪聲降低的各種方法。使用中的大多數單通道噪聲降低方法是譜相減(spectral subtraction)方法的變體。
[0010]譜相減方法試圖使噪聲從語音加噪聲信號分離。譜相減牽涉計算語音加噪聲信號的功率譜并且獲得噪聲譜的估計。語音加噪聲信號的功率譜與所估計的噪聲譜相比較。噪聲降低能夠例如通過語音加噪聲譜的幅度減去噪聲譜的幅度來實現。如果語音加噪聲信號具有高的信號加噪聲與噪聲之比(SNNR)則僅非常小的噪聲降低被應用。然而如果語音加噪聲信號具有低的SNNR,則噪聲降低將顯著地降低噪聲能量。
[0011]譜相減的問題是它通常使語音失真并且產生臨時地且可怕地波動增益改變從而引起常常被稱為樂音(musical tone)的一種類型的殘留噪聲的出現,這可以影響呼叫中已傳送的語音質量。不同程度的這個問題同樣在實現單通道噪聲降低的其他已知方法中發(fā)生。
【發(fā)明內容】
[0012]根據本發(fā)明的第一方面提供了在用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的方法,所述方法包括:在用戶設備處的音頻輸入裝置處接收包括至少一個基本音頻信號和不需要的信號的多個音頻信號;在噪聲抑制裝置處接收音頻信號的到達方向的信息;將表示所述不需要的信號中的至少一些的已知的到達方向的信息提供給噪聲抑制裝置;以及在噪聲抑制裝置處處理音頻信號以基于音頻信號的到達方向的信息與已知的到達方向的信息之間的比較將識別為不需要的信號的部分對待為噪聲識別。
[0013]優(yōu)選地,音頻輸入裝置包括波束形成器,所述波束形成器被布置成:估計至少一個基本音頻信號在音頻輸入裝置處被從其接收到的至少一個主方向;以及處理所述多個音頻信號以便通過在至少一個主方向上形成波束并且基本上抑制來自除主方向以外的任何方向的音頻信號來生成單通道音頻輸出信號。
[0014]優(yōu)選地,單通道音頻輸出信號包括幀的序列,噪聲抑制裝置處理序列中的所述幀中的每一個。
[0015]優(yōu)選地,針對正被處理的當前幀的主信號分量的到達方向的信息在噪聲抑制裝置處被接收到,所述方法進一步包括:比較針對當前幀的主信號分量的信息的到達的方向和已知的到達方向的信息。
[0016]已知的到達方向的信息包括遠端信號在音頻輸入裝置處被從其接收到的至少一個方向。替換地,或者此外,已知的到達方向的信息包括至少一個已分類的方向,所述至少一個已分類的方向是至少一個不需要的音頻信號從其到達音頻輸入裝置并且基于所述至少一個不需要的音頻信號的信號特性被識別的方向。替換地,或者此外,已知的到達方向的信息包括至少一個基本音頻信號在音頻輸入裝置處被從其接收到的至少一個主方向。替換地,或者此外,已知的到達方向的信息進一步包括波束形成器的波束方向圖。
[0017]在一個實施例中,所述方法進一步包括:基于所述比較來確定當前幀的主信號分量是否是不需要的信號;以及如果確定當前幀的主信號分量是不需要的信號,則對正被處理的當前幀應用最大衰減。如果發(fā)生以下情況則當前幀的主信號分量可以被確定為不需要的信號:主信號分量在音頻輸入裝置處被接收自遠端信號在音頻輸入裝置處被從其接收到的至少一個方向;或者主信號分量在音頻輸入裝置處被從至少一個已分類的方向接收到;或者主信號分量在音頻輸入裝置處未被從至少一個主方向接收到。
[0018]所述方法可以進一步包括:在信號處理裝置處接收多個音頻信號和關于至少一個主方向的信息;使用關于至少一個主方向的所述信息在信號處理裝置處處理所述多個音頻信號以便將附加的信息提供給噪聲抑制裝置;以及取決于所述附加的信息和所述比較對在噪聲抑制裝置處正被處理的當前幀應用一定水平的衰減。
[0019]替換地,所述方法可以進一步包括:在信號處理裝置處接收單通道音頻輸出信號和關于至少一個主方向的信息;使用關于至少一個主方向的所述信息在信號處理裝置處處理單通道音頻輸出信號以便將附加的信息提供給噪聲抑制裝置;以及取決于所述附加的信息和所述比較對在噪聲抑制裝置處正被處理的當前幀應用一定水平的衰減。
[0020]所述附加的信息可以包括:關于當前幀的主信號分量的合意性(desirability)的指示、或當前幀的主信號分量相對于至少一個基本音頻信號的平均功率電平的功率電平、或當前幀的主信號分量的信號分類、或當前幀的主信號分量在音頻輸入裝置處從其被接收到的至少一個方向。
[0021]優(yōu)選地,所述至少一個主方向通過以下各項來確定:確定最大化在音頻輸入裝置處正被接收的音頻信號之間的交叉相關的時間延遲;以及用最大交叉相關的所述時間延遲來檢測在音頻輸入裝置處接收到的音頻信號中的語音特性。
[0022]優(yōu)選地,在用戶設備處從通信會話中的遠程節(jié)點接收到的音頻數據被從用戶設備的音頻輸出裝置輸出。
[0023]不需要的信號可以由在用戶設備處的源來生成,所述源包括以下各項中的至少一個:用戶設備的音頻輸出裝置;在用戶設備處的活動的源,其中所述活動包括點擊活動,所述點擊活動包括按鈕點擊活動、鍵盤點擊活動以及鼠標點擊活動。替換地,不需要的信號由在用戶設備外部的源生成。
[0024]優(yōu)選地,所述至少一個基本音頻信號是在音頻輸入裝置處接收到的語音信號。
[0025]根據本發(fā)明的第二方面提供了用于在用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的用戶設備,所述用戶終端包括:音頻輸入裝置,其用于接收包括至少一個基本音頻信號和不需要的信號的多個音頻信號;以及噪聲抑制裝置,其用于接收音頻信號的到達方向的信息和表示所述不需要的信號中的至少一些的已知的到達方向的信息,所述噪聲抑制裝置被配置成通過基于音頻信號的到達方向的信息與已知的到達方向的信息之間的比較將識別為不需要的信號的部分對待為噪聲來處理音頻信號識別。
[0026]根據本發(fā)明的第三方面提供了計算機程序產品,所述計算機程序產品包括由在用戶設備處的計算機處理裝置執(zhí)行以用于在用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的計算機可讀指令,所述指令包括用于完成根據本發(fā)明的第一方面的方法的指令。
[0027]在以下描述的實施例中,到達方向的信息被用來細化在后續(xù)單通道噪聲降低方法中要應用多少抑制的決策。因為大部分單通道噪聲降低方法具有被應用于輸入信號以便確保自然發(fā)聲但使背景噪聲衰減的最大抑制因子,所以到達方向的信息將被用來確保當聲音正從除波束形成器集中于的角度外的任何其他角度到達時最大抑制因子被應用。例如,在TV通過與被用于播出遠端語音相同的揚聲器播出(可能以下降的音量)的情況下,一個問題是輸出將被麥克風拾取。采用本發(fā)明的描述的實施例,將檢測到的是,音頻正從揚聲器的角度到達并且除通過波束形成器的所嘗試的抑制之外最大噪聲降低將被應用。結果,不希望有的信號將是不太可聽的,并且因此對遠端揚聲器干擾較少,并且由于降低的能量它將使用于將信號傳送到遠端的平均位速率下降。
【專利附圖】
【附圖說明】
[0028]為了更好地理解本發(fā)明并且以便示出本發(fā)明可以如何被付諸實施,現通過例子對以下圖進行參考,在圖中:
圖1示出了根據優(yōu)選實施例的通信系統;
圖2示出了根據優(yōu)選實施例的用戶終端的示意視圖;
圖3示出了用戶終端的示例環(huán)境;
圖4示出了根據一個實施例的在用戶終端處的音頻輸入裝置的示意圖;
圖5示出了表示在一個實施例中DOA信息如何被估計的圖。
【具體實施方式】
[0029]在本發(fā)明的以下實施例中,描述了一種技術,其中,不是完全地依賴于波束形成器來使不來自焦點的方向的聲音衰減,而是在后續(xù)單通道噪聲降低方法中使用DOA信息確保來自除波束形成器被集中于的方向外的任何其他方向的聲音的最大單通道噪聲抑制。當不希望有的信號能夠通過使用空間信息從所期望的近端語音信號區(qū)分時這是顯著的優(yōu)點。這種源的示例是播放音樂的擴音器、吹風的風扇以及正關閉的門。
[0030]通過使用信號分類其他源的方向也能夠被找到。這種源的示例可以是例如冷卻風扇/空調系統、背景中播放的音樂以及鍵盤敲擊。
[0031]能夠采取兩個辦法:第一,正從某些方向到達的不希望有的源能夠被識別并且角度被從其中高于用于最大抑制的噪聲抑制增益的噪聲抑制增益被允許的角度中排除。例如確保來自某個不希望有的方向的音頻的段被按比例縮小得就像該信號僅含有噪聲那樣將是可能的。在實踐中對于這樣的段噪聲估計能夠被設置為等于輸入信號,并且因此噪聲降低方法然后將應用最大衰減。
[0032]第二,能夠在除我們預期近端語音從其到達的那些方向外的任何其他方向上使得噪聲降低對語音不太敏感。也就是說,當根據信號加噪聲與噪聲之比來計算增益以應用于噪聲信號時,作為信號加噪聲與噪聲之比的函數的增益還將取決于我們將傳入語音的角度將看作是多么期望的。對于期望的方向作為給定信號加噪聲與噪聲之比的函數的增益將高于對于不太期望的方向。第二方法將確保我們不基于移動噪聲源來調整,所述移動噪聲源不從與(一個或多個)基本揚聲器相同的方向到達,并且所述移動噪聲源還尚未被檢測為噪聲的源。
[0033]本發(fā)明的實施例在具有單通道的單道聲再現(常常被稱為單聲道)應用中是特別相關的。立體聲應用中的噪聲降低(其中存在兩個或更多個獨立音頻通道)典型地不通過獨立單通道噪聲降低方法來完成,而是通過確保噪聲降低方法不使立體圖像失真的方法來完成。[0034]首先參考圖1,圖1圖示了優(yōu)選實施例的通信系統100。通信系統的第一用戶(用戶A 102)操作用戶設備104。用戶設備104可以是例如移動電話、電視、個人數字助理(“PDA” )、個人計算機(“PC”)(包括例如Windows ?、Mac OS ?以及Linux ? PC)、游戲設備或能夠通過通信系統100進行通信的其他嵌入式設備。
[0035]用戶設備104包括中央處理單元(CPU) 108,其可以被配置成執(zhí)行諸如用于通過通信系統100進行通信的通信客戶端之類的應用。該應用允許用戶設備104通過通信系統100參與呼叫和其他通信會話(例如,即時消息傳遞通信會話)。用戶設備104能夠經由網絡106通過通信系統100進行通信,所述網絡106可以是例如因特網或公共交換電話網絡(PSTN)。用戶設備104能夠通過鏈路110將數據傳送到網絡106,以及從網絡106接收數據。
[0036]圖1同樣示出了遠程節(jié)點,用戶設備104能夠通過通信系統100與該遠程節(jié)點進行通信。在圖1中所示出的示例中,遠程節(jié)點是可由第二用戶112使用并且包括CPU 116的第二用戶設備114,所述CPU 116能夠執(zhí)行應用(例如,通信客戶端)以便以與用戶設備104在通信系統100中通過通信網絡106進行通信的方式相同的方式通過通信網絡106通信。用戶設備114可以是例如移動電話、電視、個人數字助理(“PDA”)、個人計算機(“PC”)(包括,例如Windows ?、Mac OS ?以及Linux ? PC)、游戲設備或能夠通過通信系統100進行通信的其他嵌入式設備。用戶設備114能夠通過鏈路118將數據傳送到網絡106,以及從網絡106接收數據。因此,用戶A 102和用戶B 112能夠通過通信網絡106與彼此進行通信。
[0037]圖2圖示了客戶端在其上被執(zhí)行的用戶終端104的示意視圖。用戶終端104包括CPU 108,諸如屏幕之類的顯示器204、諸如鍵盤214之類的輸入設備以及諸如鼠標212之類的定點設備被連接到所述CPU 108。顯示器204可以包括用于將數據輸入到CPU 108的觸摸屏。輸出音頻設備206 (例如揚聲器)被連接到CPU 108。諸如麥克風208之類的輸入音頻設備經由噪聲抑制裝置227被連接到CPU 108。盡管噪聲抑制裝置227在圖2中被表示為獨立式硬件設備,但是噪聲抑制裝置227能夠被實現在軟件中。例如噪聲抑制裝置227能夠被包括在客戶端中。
[0038]CPU 108被連接到諸如調制解調器之類的網絡接口 226以用于與網絡106通信。
[0039]現參考圖3,圖3圖示了用戶終端104的示例環(huán)境300。
[0040]當在麥克風208處已被接收到的音頻信號被處理時期望的音頻信號被識別。在處理期間,期望的音頻信號基于像質量這樣的語音的檢測被識別并且主要揚聲器的主方向被確定。這在圖3中被示出,其中主要揚聲器(用戶102)被示出為從主方向dl到達麥克風208的期望的音頻信號的源302。雖然為了簡單單個主要揚聲器在圖3中被示出,但是應領會的是,所需音頻信號的任何數目的源可以存在于環(huán)境300中。
[0041]不需要的噪聲信號的源可以存在于環(huán)境300中。圖3示出了可以從方向d3到達麥克風208的環(huán)境300中的不需要的噪聲信號的噪聲源304。不需要的噪聲信號的源包括例如冷卻風扇、空調系統以及播放音樂的設備。
[0042]不需要的噪聲信號還可以從在用戶終端104處的噪聲源到達麥克風208,所述噪聲源例如鼠標212的點擊、鍵盤214的敲擊以及從揚聲器206輸出的音頻信號。圖3示出了連接到麥克風208和揚聲器206的用戶終端104。在圖3中,揚聲器206是可以從方向d2到達麥克風208的不需要的音頻信號的源。[0043]雖然麥克風208和揚聲器206已經被示出為連接到用戶終端的外部設備,但是將領會的是,麥克風208和揚聲器206可以被集成到用戶終端104中。
[0044]現參考圖4,圖4圖示了根據一個實施例的麥克風208和噪聲抑制裝置227的更詳細的視圖。
[0045]麥克風208包括包含多個麥克風的麥克風陣列402以及波束形成器404。麥克風陣列402中的每個麥克風的輸出被耦合到波束形成器404。本領域的技術人員將領會,為了實現波束形成多個輸入是需要的。麥克風陣列402在圖4中被示出為具有三個麥克風,但是將理解的是,麥克風的這個數目僅僅是示例并且無論如何不是限制性的。
[0046]波束形成器404包括從麥克風陣列402接收音頻信號的處理塊409。處理塊409包括話音活動檢測器(VAD) 411和DOA估計塊413 (其操作稍后將被描述)。處理塊409明確由麥克風陣列402所接收到的音頻信號的性質,并且基于像由VAD 11所檢測到的質量這樣的語音的檢測和在塊413中估計的DOA信息,(一個或多個)主要揚聲器的一個或多個主方向被確定。波束形成器404使用DOA信息通過形成這樣的波束來處理音頻信號:所述波束在來自所需信號在麥克風陣列處被從其接收到的一個或多個主方向的方向上具有高增益并且在任何其他方向上具有低增益。雖然上面已經描述了處理塊409能夠確定任何數目的主方向,但是被確定的主方向的數目影響波束形成器的屬性,例如在麥克風陣列處從其他(不需要的)方向接收到的信號比如果僅單個主方向被確定的情況衰減得更少。波束形成器404的輸出在以待處理的單通道的形式的線路406上被提供給噪聲降低級227并且然后給自動增益控制裝置(在圖4中未示出)。
[0047]優(yōu)選地,在增益的電平被自動增益控制裝置應用之前噪聲抑制被應用于波束形成器的輸出。這是因為噪聲抑制理論上略微能夠降低語音電平(非故意地),并且自動增益控制裝置將在噪聲抑制之后提高語音電平并且補償由噪聲抑制所引起的語音電平中的略微降低。
[0048]在波束形成器404中估計的DOA信息被供應給噪聲降低級227并且供應給信號處理電路420。
[0049]在波束形成器404中估計的DOA信息還可以被供應給自動增益控制裝置。自動增益控制裝置對噪聲降低級227的輸出應用一定水平的增益。應用于來自噪聲降低級227的通道輸出的增益的水平取決于在自動增益控制裝置處被接收到的DOA信息。自動增益控制裝置的操作在英國專利申請N0.1108885.3中被描述并且將不在本文中進一步詳細地討論。
[0050]噪聲降低級227對單通道信號應用噪聲降低。噪聲降低能夠被以許多不同的方式完成,僅作為示例,所述不同的方式包括譜相減(例如,如Boll, S在IEEE會報Acoustics,Speech and Signal Processing, 1979 年 4 月第 27 卷第 2 期第 113 - 120 頁的論文“Suppression of acoustic noise in speech using spectral subtraction (使用譜相減對語音中的聲學噪聲的抑制)”中所描述的那樣)。
[0051]這個技術(以及其他已知技術)抑制識別為噪聲的信號的分量以便提高信噪比,其中信號是意中的有用的信號,諸如在這種情況下的語音。
[0052]如稍后更詳細地描述的那樣,到達方向的信息在噪聲降低級中被用來改善噪聲降低并且因此提高信號的質量。[0053]現將參考圖5更詳細地描述DOA估計塊413的操作。
[0054]在DOA估計塊413中,DOA信息通過例如使用相關方法來估計在多個麥克風處的接收到的音頻信號之間的時間延遲并且使用關于所述多個麥克風的位置的先驗知識來估計音頻信號的源而被估計。
[0055]圖5示出了從音頻源516接收音頻信號的麥克風403和405。能夠使用等式(I)估計被分隔開距離d的麥克風403和405處的音頻信號的到達的方向:
Θ = arcs In (子)(1)
其中r是聲音的速度,并且%是來自源516的音頻信號到達麥克風403和405的時間之間的差-也就是說,時間延遲。該時間延遲被獲得作為使在麥克風403和405的輸出處的信號之間的交叉相關最大化的時滯。然后可以找到對應于這個時間延遲的角度
[0056]將領會的是,計算信號的交叉相關是信號處理領域中的常見技術并且將不在本文中更詳細地描述。
[0057]現將在下面更詳細地描述噪聲降低級227的操作。在本發(fā)明的所有實施例中噪聲降低級227使用在用戶終端處已知的以及由DOA塊227所表示的DOA信息并且接收待處理的音頻信號。噪聲降低級227逐幀地處理音頻信號。幀在長度上例如可以是在5與20毫秒之間,并且根據一種噪聲抑制技術被劃分成譜區(qū)間(Mn),例如,每幀介于64個與256個區(qū)間之間。
[0058]在噪聲降低級227中施行的處理包括對輸入到噪聲降低級227的音頻信號的每個幀應用一定水平的噪聲抑制。由噪聲降低級227應用于音頻信號的每個幀的噪聲抑制的水平取決于正被處理的當前幀的所提取的DOA信息與針對在用戶終端處已知的各種音頻源的DOA信息的組合知識之間的比較。所提取的DOA信息并排地在幀上被傳遞,使得它被用作除幀自身之外的噪聲降低級227的輸入參數。
[0059]由噪聲降低級227應用于輸入音頻信號的噪聲抑制的水平可以以許多方式受到DOA信息影響。
[0060]從已被識別為來自不需要的源的方向到達麥克風208的音頻信號可以基于像特性這樣的語音的檢測被識別并且識別為來自主要揚聲器的主方向。
[0061]在用戶終端處已知的DOA信息427可以包括波束形成器的波束方向圖408。噪聲降低級227逐幀地處理音頻輸入信號。在幀的處理期間,噪聲降低級227讀取幀的DOA信息以找到該幀中音頻信號的主要分量在麥克風208處被從其接收到的角度。幀的DOA信息被與在用戶終端處已知的DOA信息427相比較。這個比較確定正被處理的幀中的音頻信號的主要分量是否在麥克風208處從所需源的方向被接收到。
[0062]替換地,或者此外,在用戶終端處已知的DOA信息427可以包括以其遠端信號在麥克風208處從在用戶終端處的揚聲器(諸如206)被接收(以供應給噪聲降低級227線路407)的角度Φ。
[0063]替換地,或者此外,在用戶終端處已知的DOA信息427可以得自功能425,所述功能425對來自不同方向的音頻進行分類以定位可能作為固定噪聲源的結果的非常嘈雜的特定方向。
[0064]當DOA信息427表示主所需方向時,并且通過比較確定正被處理的幀的主要分量在麥克風208處從主方向被接收到。噪聲降低級227使用上面所描述的常規(guī)方法來確定噪聲抑制的水平。
[0065]在第一辦法中,如果確定正被處理的巾貞的主要分量在麥克風208處從除主方向以外的方向被接收到,則與該幀相關聯的區(qū)間全部被對待為好像它們是噪聲那樣(即使正常的噪聲降低技術將識別良好的信號加噪聲與噪聲之比并且因此不顯著地抑制噪聲)。這可以通過針對這樣的幀將噪聲估計設置為等于輸入信號完成,并且因此噪聲降低級然后將對該幀應用最大衰減。以這種方式,從除所需方向以外的方向到達的幀能夠作為噪聲被抑制并且信號的質量得以改善。
[0066]如在上面所提到的那樣,噪聲降低級227可以從功能425接收DOA信息,所述功能425識別從在不同方向上的(一個或多個)噪聲源到達麥克風208的不需要的音頻信號。這些不需要的音頻信號被從它們的特性識別,例如來自鍵盤上的鍵敲擊或風扇的音頻信號具有不同于人類語音的特性。在高于用于最大抑制的噪聲抑制增益的噪聲抑制增益被允許的情況下,以其不需要的音頻信號到達麥克風208的角度可以被排除。因此當正被處理的幀中的音頻信號的主要分量在麥克風208處從排除的方向被接收到時,噪聲降低級227對該幀應用最大衰減。
[0067]可以進一步包括驗證裝置423。例如,一旦一個或多個主方向已經被檢測到(例如在波束形成器的情況下基于波束方向圖408),客戶端就經由客戶端用戶接口通知用戶102所檢測到的主方向,并且詢問用戶102所檢測到的主方向是否是正確的。這個驗證正如由圖4中的虛線所指示的那樣是可選的。
[0068]如果用戶102確認所檢測到的主方向是正確的,則所檢測到的主方向被發(fā)送到噪聲降低級227并且噪聲降低級227如上面所描述的那樣操作。通信客戶端可以將所檢測到的主方向存儲在存儲器210中,一旦用戶102登錄到客戶端并且已經確認所檢測到的主方向是正確的,緊跟后續(xù)登錄到客戶端之后如果檢測到的主方向和存儲器中的確認的正確主方向匹配,則所檢測到的主方向被認為是正確的。這使用戶102避免了每當他登錄到客戶端中時不得不確認主方向。
[0069]如果用戶指示所檢測到的主方向是不正確的,則所檢測到的主方向不被作為DOA信息發(fā)送到噪聲降低級227。在這種情況下,基于相關的方法(上面參考圖5來描述)就將繼續(xù)檢測主方向并且將僅僅在用戶102確認所檢測到的主方向正確時發(fā)送所檢測到的一個或多個主方向。
[0070]在第一辦法中,操作的模式是使得最大衰減能夠基于幀的DOA信息被應用于正被處理的幀。
[0071]在第二辦法中,噪聲降低級227不在這樣的嚴格的操作模式下操作。
[0072]在第二辦法中,當根據信號加噪聲與噪聲之比來計算要應用于幀中的音頻信號的增益時,作為信號加噪聲與噪聲之比的函數的增益取決于附加的信息。能夠在信號處理塊(圖4中未示出)中計算這個附加的信息。
[0073]在第一實施方式中信號處理塊可以被實現在麥克風208中。信號處理塊(在音頻信號已被應用于波束形成器404之前)從麥克風陣列402接收遠端音頻信號來作為輸入,并且同樣接收關于從相關方法獲得的(一個或多個)主方向的信息。在這個實施方式中,信號處理塊將附加的信息輸出到噪聲降低級227。[0074]在第二實施方式中信號處理塊可以被實現在噪聲降低級227它本身中。信號處理塊從波束形成器404接收單通道輸出信號來作為輸入,并且同樣接收關于從相關方法獲得的(一個或多個)主方向的信息。在這個實施方式中噪聲降低級227可以接收指不揚聲器206是活動的信息,并且能夠確保在正被處理的幀中的主信號分量僅僅作為噪聲被處置,只要它不同于期望的語音的角度。
[0075]在這兩個實施方式中在信號處理塊中計算的附加的信息被噪聲降低級227用來根據信號加噪聲與噪聲之比來計算要應用于正被處理的幀中的音頻信號的增益。
[0076]附加的信息可以包括例如期望的語音將從特定方向/角度到達的可能性。
[0077]在這個場景中信號處理塊提供這樣的值作為輸出:所述值指示當前正被噪聲降低級277處理的幀有多大可能包含噪聲降低級應該保留的期望的分量。信號處理塊量化傳入語音在麥克風208處被從其接收到的角度的合意性。例如如果音頻信號在回聲期間在麥克風208處被接收到,則以其這些音頻信號在麥克風208處被接收到的角度很可能是不希望有的角度,因為不期望保留從在用戶終端處的揚聲器(諸如206)接收到的任何遠端信號。
[0078]在這個場景中,由噪聲降低級227應用于幀的作為信號加噪聲與噪聲之比的函數的噪聲抑制增益取決于合意性的這個量化的量度。對于期望的方向作為給定信號加噪聲與噪聲之比的函數的增益將比對于不太期望的方向的更高,即較少衰減被噪聲降低級227針對較期望的方向來應用。
[0079]附加的信息可以替換地包括當前幀的主信號分量相對于從所期望的(一個或多個)方向接收到的音頻信號的平均功率的功率。在這個場景中,由噪聲降低級227應用于幀的作為信號加噪聲與噪聲之比的函數的噪聲抑制增益取決于這個量化的功率比。主信號分量的功率相對于來自主方向的平均功率越接近,由噪聲降低級227應用的作為給定信號加噪聲與噪聲之比的函數的增益越高,即較少衰減被應用。
[0080]附加的信息可以替換地是提供當前幀的主信號分量的信號分類的信號分類器輸出。在這個場景中,噪聲降低級227可以對幀應用變化水平的衰減,其中幀的主要分量在麥克風陣列402處被從取決于信號分類器輸出的特定方向接收到。因此如果角度被確定為非期望的方向,則噪聲降低級227可以較之來自相同的非期望的方向的語音更多地降低來自該非期望的方向的噪聲。如果期望的語音被預期從非期望的方向到達則這是可能的并且的確是實用的。然而,它具有嚴重的缺點,即,噪聲將被調制,即當所期望的揚聲器是活動的時噪聲將是較高的,并且當不希望有的揚聲器是活動的時噪聲將是較低的。替代地,優(yōu)選略微降低來自這個方向的信號中的語音的電平。如果通過確信應用相同量的衰減未將它確切地處置為噪聲,則通過將它處置為介于期望的語音與噪聲之間的某物。這能夠通過對非期望的方向使用略微不同的衰減函數來實現。
[0081]附加的信息可以替換地是角度它本身,從所述角度當前幀的主信號分量在音頻輸入裝置處被接收到,即在線路407上被供應給噪聲降低級227的Φ。隨著音頻源遠離(一個或多個)主方向移動這使得噪聲降低級能夠應用較多衰減。
[0082]在這個第二辦法中,當噪聲降低級227能夠在僅將幀處置為噪聲和將幀處置為如單通道噪聲降低方法中照慣例完成的那樣的兩個極端之間操作時更多粒度被提供。因此對于從不希望有的方向到達的音頻信號,能夠使噪聲降低級227略微更進取些,而不用完全地處置它好像它只是噪聲。也就是說,在我們例如將對語音信號應用一些衰減的意義上是進取的。
[0083]雖然上面所描述的實施已經涉及了從單個用戶102接收音頻信號的麥克風208,但是將理解的是,麥克風可以例如在會議呼叫中從多個用戶接收音頻信號。在這個場景中所需音頻信號的多個源到達麥克風208。
[0084]雖然已經參考優(yōu)選實施例具體地示出并且描述了本發(fā)明,但是本領域的技術人員將理解,在不背離如由所附權利要求所限定的本發(fā)明的范圍的情況下可以做出形式和細節(jié)上的各種改變。
【權利要求】
1.一種在用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的方法,所述方法包括: 在所述用戶設備處的音頻輸入裝置處接收包括至少一個基本音頻信號和不需要的信號的多個音頻信號; 在噪聲抑制裝置處接收所述音頻信號的到達方向的信息; 將表示所述不需要的信號中的至少一些的已知的到達方向的信息提供給所述噪聲抑制裝置;以及在所述噪聲抑制裝置處處理所述音頻信號以基于所述音頻信號的到達方向的信息與已知的到達方向的信息之間的比較,將識別為不需要的所述信號的部分對待為噪聲識別。
2.根據權利要求1的方法,其中所述音頻輸入裝置包括波束形成器,所述波束形成器被布置成: 估計所述至少一個基本音頻信號在所述音頻輸入裝置處被從其接收到的至少一個主方向;以及 處理所述多個音頻信號以通過在所述至少一個主方向上形成波束并且基本上抑制來自除所述主方向以外的任何方向的音頻信號來生成單通道音頻輸出信號,其中所述單通道音頻輸出信號包括幀的序列,所述噪聲抑制裝置處理序列中的所述幀中的每一個。
3.根據任一前述權利要求的方法,其中針對正被處理的當前幀的主信號分量的信息的到達的方向在所述噪聲抑制裝置處被接收到,所述方法進一步包括: 比較針對所述當前幀的所·述主信號分量的信息的到達的方向和已知的到達方向的信息,其中已知的到達方向的信息包括以下各項中的至少一個:(i)遠端信號在所述音頻輸入裝置處被從其接收到的至少一個方向;(ii)至少一個已分類的方向,所述至少一個已分類的方向是至少一個不需要的音頻信號從其到達所述音頻輸入裝置并且基于所述至少一個不需要的音頻信號的信號特性被識別的方向;(iii)所述至少一個基本音頻信號在所述音頻輸入裝置處被從其接收到的至少一個主方向;以及(iv)所述波束形成器的波束方向圖。
4.根據權利要求3的方法,進一步包括: 基于所述比較來確定所述當前幀的所述主信號分量是否是不需要的信號; 如果確定所述當前幀的所述主信號分量是不需要的信號則對正被處理的所述當前幀應用最大衰減;并且如果發(fā)生以下情況則確定所述當前幀的所述主信號分量是不需要的信號: 所述主信號分量在所述音頻輸入裝置處被接收自遠端信號在所述音頻輸入裝置處被從其接收到的所述至少一個方向;或者 所述主信號分量在所述音頻輸入裝置處被從所述至少一個已分類的方向接收到;或者 所述主信號分量在所述音頻輸入裝置處未被從所述至少一個主方向接收到。
5.根據權利要求3的方法,進一步包括: 在信號處理裝置處接收所述多個音頻信號和關于所述至少一個主方向的信息; 在所述信號處理裝置處使用關于所述至少一個主方向的所述信息來處理所述多個音頻信號以將附加的信息提供給所述噪聲抑制裝置;以及 取決于所述附加的信息和所述比較對在所述噪聲抑制裝置處正被處理的所述當前幀應用一定水平的衰減,其中所述附加的信息包括以下各項中的一個:(i)關于所述當前幀的所述主信號分量的合意性的指示,(ii)所述當前幀的所述主信號分量相對于所述至少一個基本音頻信號的平均功率電平的功率電平;(iii)所述當前幀的所述主信號分量的信號分類;以及(iv)所述當前幀的所述主信號分量在所述音頻輸入裝置處被從其接收到的至少一個方向。
6.根據權利要求4至8中任一項的方法,進一步包括: 在信號處理裝置處接收所述單通道音頻輸出信號和關于所述至少一個主方向的信息; 在所述信號處理裝置處使用關于所述至少一個主方向的所述信息來處理所述單通道音頻輸出信號以將附加的信息提供給所述噪聲抑制裝置;以及 取決于所述附加的信息和所述比較對在所述噪聲抑制裝置處正被處理的所述當前幀應用一定水平的衰減,其中所述附加的信息包括以下各項中的一個:(i)關于所述當前幀的所述主信號分量的合意性的指示,(?)所述當前幀的所述主信號分量相對于所述至少一個基本音頻信號的平均功率電平的功率電平;(iii)所述當前幀的所述主信號分量的信號分類;以及(iv)所述當前幀的所述主信號分量在所述音頻輸入裝置處被從其接收到的至少一個方向。
7.根據權利要求2至6中任一項的方法,其中所述至少一個主方向通過以下各項來確定: 確定使在所述音頻輸 入裝置處正被接收的所述音頻信號之間的交叉相關最大化的時間延遲;以及 用最大交叉相關的所述時間延遲來檢測在所述音頻輸入裝置處接收到的所述音頻信號中的語音特性。
8.根據任一前述權利要求的方法,其中所述不需要的信號由在所述用戶設備外部的源或在所述用戶設備處的源來生成,所述源包括以下各項中的至少一個:所述用戶設備的音頻輸出裝置;在所述用戶設備處的活動的源,其中所述活動包括點擊活動,所述點擊活動包括按鈕點擊活動、鍵盤點擊活動以及鼠標點擊活動。
9.一種用于在用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的用戶設備,所述用戶設備包括: 音頻輸入裝置,其用于接收包括至少一個基本音頻信號和不需要的信號的多個音頻信號;以及 噪聲抑制裝置,其用于接收所述音頻信號的到達方向的信息和表示所述不需要的信號中的至少一些的已知的到達方向的信息,所述噪聲抑制裝置被配置成通過基于所述音頻信號的到達方向的信息與已知的到達方向的信息之間的比較將識別為不需要的所述信號的部分對待為噪聲來處理所述音頻信號識別。
10.一種計算機程序產品,其包括用于由在用戶設備處的計算機處理裝置執(zhí)行以用于在所述用戶設備與遠程節(jié)點之間的通信會話期間處理音頻信號的計算機可讀指令,所述指令包括用于完成根據權利要求1至8中任一項的方法的指令。
【文檔編號】H04R3/00GK103827966SQ201280043129
【公開日】2014年5月28日 申請日期:2012年7月5日 優(yōu)先權日:2011年7月5日
【發(fā)明者】S.斯特羅默, K.V.索倫森 申請人:微軟公司