本申請涉及音頻技術領域,且更具體地,涉及一種音頻信號處理設備。
背景技術:
無論是智能化的語音識別系統(tǒng)(例如,智能家電、機器人等),還是傳統(tǒng)的語音通信系統(tǒng)(例如,會議系統(tǒng)、因特網(wǎng)協(xié)議傳送話音VoIP系統(tǒng)等),都會遇到回聲抵消的問題。
例如,在單講模式下:在智能設備應用場景中,設備不希望自己所播放的內容中包括的喚醒詞或識別詞再次進入自己的識別系統(tǒng)從而造成誤報,影響體驗和浪費資源;在傳統(tǒng)通信系統(tǒng)中,遠端用戶不希望聽到自己說話的回音。在雙講模式下:在智能設備應用場景中,希望設備可以聽到用戶說話的聲音,但不被自己播放的內容所干擾;在傳統(tǒng)通信系統(tǒng)中,希望即使近端和遠端用戶同時說話,也能夠保證清晰的通信質量和較高的可懂度。以上都是在語音體驗中非常重要的場景,也是當今音頻信號處理中的難題。
目前現(xiàn)有的回聲消除技術是基于單麥克風和回聲抑制算法的結合?;芈曇种扑惴▋H僅從時域和頻域的角度來處理輸入信號,使得在處理回聲的時候也會同時損傷語音,從而影響后續(xù)的識別率。并且,在存在大回聲的情況下,就會面臨要么回聲處理不干凈而影響識別率,要么算法抑制過強而損傷語音成分,二者都會影響識別效果。
技術實現(xiàn)要素:
為了解決上述技術問題,提出了本申請。本申請的實施例提供了一種音頻信號處理設備,其可以利用指向麥克風陣列的特性來實現(xiàn)無損的關注信號增強和回聲信號抑制。
根據(jù)本申請的一個方面,提供了一種音頻信號處理設備,所述設備包括:揚聲器;麥克風陣列,包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內采集分路輸入信號,所述分路輸入信號包括來自信號源的關注信號分量和來自所述揚聲器的回聲信號分量;復用器,與每個指向麥克風電連接,用于將每個指向麥克風所采集的分路輸入信號合并為總輸入信號;聲源定位器件,用于確定所述信號源的位置和所述揚聲器的位置;以及增益控制器件,與所述聲源定位器件和每個指向麥克風電連接,用于根據(jù)所述信號源的位置和所述揚聲器的位置來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。
在本申請的一個實施例中,所述聲源定位器件包括:信號源定位器件,用于檢測在當前場景中是否存在正在輸出關注信號的信號源、所述信號源的數(shù)量及其相應位置;以及揚聲器定位器件,用于檢測在所述當前場景中是否存在正在播放聲音信號的揚聲器、所述揚聲器的數(shù)量及其相應位置。
在本申請的一個實施例中,所述信號源定位器件包括:攝像頭,用于捕捉所述當前場景的場景圖像;以及圖像識別單元,用于在所述場景圖像中識別所述信號源,確定所述信號源的數(shù)量,并且確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
在本申請的一個實施例中,所述圖像識別單元根據(jù)所述信號源在所述場景圖像中的位置來確定所述信號源與所述信號源定位器件的基準位置之間的相對位置,并且根據(jù)所述信號源定位器件的基準位置與所述音頻信號處理設備的基準位置之間的配準關系來確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
在本申請的一個實施例中,所述信號源定位器件包括:信號分離單元,用于接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述信號源的關注信號分量;以及聲音識別單元,用于根據(jù)分離出的所述信號源的關注信號分量的相位來確定所述信號源與所述音頻信號處理設備的相對位置。
在本申請的一個實施例中,所述揚聲器定位器件包括:信號分離單元,用于接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述揚聲器的關注信號分量;以及聲音識別單元,用于根據(jù)分離出的所述揚聲器的關注信號分量的相位來確定所述揚聲器與所述音頻信號處理設備的相對位置。
在本申請的一個實施例中,所述增益控制器件包括:比較單元,用于響應于存在正在輸出關注信號的一個或多個信號源且不存在正在播放聲音信號的揚聲器,比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系;以及增益調整單元,用于根據(jù)所述第一位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大。
在本申請的一個實施例中,所述增益調整單元增大所述一個或多個信號源位于其拾音區(qū)的一個或多個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大且沒有任何一個關注信號分量發(fā)生失真。
在本申請的一個實施例中,所述增益調整單元進一步減小所述麥克風陣列中除了所述一個或多個指向麥克風的其他麥克風的增益,以降低在所述總輸入信號中從噪聲源接收到的噪聲分量的功率。
在本申請的一個實施例中,所述增益控制器件包括:比較單元,用于響應于不存在正在輸出關注信號的信號源且存在正在播放聲音信號的一個或多個揚聲器,比較所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及增益調整單元,用于根據(jù)所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個揚聲器接收到的回聲信號分量的功率最小。
在本申請的一個實施例中,所述增益調整單元減小所述一個或多個揚聲器位于其拾音區(qū)的一個或多個指向麥克風的增益。
在本申請的一個實施例中,所述增益控制器件包括:比較單元,用于響應于同時存在正在輸出關注信號的一個或多個信號源和正在播放聲音信號的一個或多個揚聲器,比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系和所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及增益調整單元,用于根據(jù)所述第一位置關系和所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率與從所述一個或多個揚聲器接收到的回聲信號分量的功率之間的信回比最大。
在本申請的一個實施例中,所述設備還包括:自適應濾波器,用于根據(jù)所述揚聲器正在播放的聲音來在時域和/或頻域上對增益調整后的總輸入信號進行回聲消除。
與現(xiàn)有技術相比,采用根據(jù)本申請實施例的音頻信號處理設備,可以根據(jù)信號源的位置和揚聲器的位置來調整麥克風陣列中每個指向麥克風的增益,以使得在麥克風陣列所采集的總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。因此,可以利用指向麥克風陣列的特性來實現(xiàn)無損的關注信號增強和回聲信號抑制。
附圖說明
通過結合附圖對本申請實施例進行更詳細的描述,本申請的上述以及其他目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本申請實施例的進一步理解,并且構成說明書的一部分,與本申請實施例一起用于解釋本申請,并不構成對本申請的限制。在附圖中,相同的參考標號通常代表相同部件或步驟。
圖1圖示了根據(jù)本申請實施例的音頻信號處理設備的結構示意圖。
圖2圖示了根據(jù)本申請實施例的麥克風陣列的結構示意圖。
圖3圖示了根據(jù)本申請實施例的聲源定位器件的結構示意圖。
圖4圖示了根據(jù)本申請實施例的增益控制器件的結構示意圖。
圖5圖示了根據(jù)本申請實施例的音頻信號處理設備和信號源的示例位置關系示意圖。
圖6圖示了根據(jù)本申請實施例的音頻信號處理方法的流程示意圖。
圖7圖示了根據(jù)本申請實施例的電子設備的框圖。
具體實施方式
下面,將參考附圖詳細地描述根據(jù)本申請的示例實施例。顯然,所描述的實施例僅僅是本申請的一部分實施例,而不是本申請的全部實施例,應理解,本申請不受這里描述的示例實施例的限制。
申請概述
如上所述,傳統(tǒng)的單麥克風結合回聲抑制算法的回聲消除方案從時域和頻域的角度來處理麥克風采集的輸入信號,其在揚聲器強耦合的情況下將面臨:如果回聲抑制算法抑制過強,會對關注的語音信號衰減過多,造成語音信號損傷,影響識別率;而如果回聲抑制算法過弱,會有大部分的回聲信號無法消除,對語音信號將成為新的非穩(wěn)態(tài)噪聲,同樣影響識別率。
例如,在智能設備應用場景中,諸如電視、音響、機器人之類的智能設備為了實現(xiàn)遠場效果,揚聲器功率都會比較大,這就導致該揚聲器播放的聲音將被麥克風再次采集而產生較大的回聲。常規(guī)的自適應濾波算法很難消除這種回聲,會導致消除后的殘余回聲較大并且該算法對語音的損傷也較大,從而使得語音信號的識別率低并且通信質量低。
針對該技術問題,本申請的基本構思是提出一種音頻信號處理設備、音頻信號處理方法、電子設備、計算機程序產品和計算機可讀存儲介質,其是基于麥克風陣列和回聲抑制算法的結合,從空域上實現(xiàn)關注信號(例如,語音信號)的增強和回聲信號的消除??沼蛟鰪妼﹃P注信號的損傷最小,后續(xù)回聲算法僅僅利用線性回聲抑制部分即可非常好地消除回聲信號,從而提升回聲消除能力且不影響識別率。指向麥克風陣列相比于全向麥克風陣列,是利用麥克風本身的特性、而不引入空域算法的形式,其對于關注信號的損傷更小。再進一步結合關注信號與回聲信號最大比原則進行算法配置,針對指向性麥克風陣列的麥克風進行不同增益配比,保證關注信號功率與回聲信號功率之間的信回比(SER)最大。因此,可以自適應地最大化語音識別可懂度以及語音通信質量等,提升用戶體驗。
在介紹了本申請的基本原理之后,下面將參考附圖來具體介紹本申請的各種非限制性實施例。
示例性音頻信號處理設備
圖1圖示了根據(jù)本申請實施例的音頻信號處理設備的結構示意圖。
如圖1所示,根據(jù)本申請實施例的音頻信號處理設備100包括:揚聲器110、麥克風陣列120、復用器130、聲源定位器件140、和增益控制器件150。
在一個實施例中,揚聲器110用于播放聲音信號,其可以是單獨的揚聲器或由多個揚聲器構成的揚聲器陣列。該聲音信號在播放時是已知的。
例如,該揚聲器110可以是2.1音箱,由一個低音音箱(一般稱為低音炮)和一對低音較弱的全頻音箱(一般稱為衛(wèi)星箱)組成。該音箱對包括左(L)聲道揚聲器和右(R)聲道揚聲器,從而形成立體聲播放效果。顯然,本申請不限于此。例如,該揚聲器110也可以是2.0音箱、5.1音箱等。
在一個實施例中,麥克風陣列120可以包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內采集分路輸入信號,所述分路輸入信號包括來自信號源的關注信號分量和來自所述揚聲器的回聲信號分量。
例如,麥克風陣列120是由一定數(shù)目的麥克風組成、用來對聲場的空間特性進行采樣并處理的系統(tǒng)。麥克風的指向性是麥克風對來自空間各個方向聲音靈感度模式的一個描述,是它的一個重要屬性。根據(jù)指向性不同,麥克風可以分為:全向麥克風和指向麥克風。全向麥克風對于來自不同角度的聲音,其靈敏度是基本相同的,其頭部采用壓力感應的原理設計,振膜只接受來自外界的壓力。指向麥克風主要采用壓力梯度的原理設計,通過頭部腔體后面的小孔,振膜接受到正反兩面的壓力,因此振膜受不同方向的壓力并不相同,麥克風具有了指向性。指向麥克風陣列相比于全向麥克風陣列,是利用麥克風本身的特性、而不引入空域算法的形式,其對于語音的損傷更小。
例如,取決于各個麥克風的相對位置關系,麥克風陣列120可以分為:線性陣列,其陣元中心位于同一條直線上;平面陣列,其陣元中心分布在一個平面上;以及空間陣列,其陣元中心分布在立體空間中。
例如,麥克風陣列120可以包括具有不同拾音區(qū)的多個指向麥克風MIC1到MICn,其中n是大于等于2的自然數(shù)。下面,將在一個示例中以平面陣列為例對麥克風陣列進行描述。
圖2圖示了根據(jù)本申請實施例的麥克風陣列的結構示意圖。
如圖2所示,例如,在音頻信號處理設備100上裝備有一平面型的麥克風陣列120,所述麥克風陣列120包括具有同一中心點且呈現(xiàn)中心對稱的8個指向麥克風MIC1到MIC8。所述8個指向麥克風并聯(lián)后用于在自身的拾音區(qū)內采集分路輸入信號。
具體地,指向麥克風MIC1到MIC8設置在同一平面,各指向麥克風之間的距離根據(jù)實際需求和所采用的算法設置。相鄰的指向麥克風在二維平面圍繞中心點均勻分布,相互之間呈45°角。如圖2所示,假設MIC1位于音頻信號處理設備100的基準方向,即0°方向,則MIC2位于45°方向,MIC3位于90°方向,MIC4位于135°方向,MIC5位于180°方向,MIC6位于225°方向,MIC7位于270方向,MIC8位于315°方向。
當然,本申請不限于此。在其他實施例中,麥克風陣列也可以是其他平面陣列,也可以是線性陣列或空間立體陣列等。麥克風陣列中的各個指向麥克風可根據(jù)實際需求設置在同一平面或不同平面,可根據(jù)實際需求設置成圍繞中心點均勻分布以獲取盡可能大的采集定位范圍,或設置成非均勻分布以重點對某些方向的聲源進行采集。并且,所述指向麥克風也可以是以單獨、成組等非成對方式設置的。
MIC1到MIC8可以分別具有朝向自己正前方的拾音區(qū),即分別朝向0°方向、45°方向、90°方向、135°方向、180°方向、225°方向、270方向和315°方向的拾音區(qū)。為了避免出現(xiàn)信號的漏檢,相鄰的拾音區(qū)可以具有重疊區(qū)域。MIC1到MIC8中的每個可以在自身的拾音區(qū)內采集各自的分路輸入信號,當信號源處于其拾音區(qū)內時,該分路輸入信號包括來自信號源的關注信號分量;當揚聲器處于其拾音區(qū)內時,該分路輸入信號包括來自所述揚聲器的回聲信號分量;當信號源和揚聲器同時處于其拾音區(qū)內時,該分路輸入信號包括來自信號源的關注信號分量和來自所述揚聲器的回聲信號分量兩者;當信號源和揚聲器均未處于其拾音區(qū)內時,該分路輸入信號為零。
在一個實施例中,復用器130與每個指向麥克風電連接,用于將每個指向麥克風所采集的分路輸入信號合并為總輸入信號。
例如,該復用器簡單地可以是加法器,用于將各路分路輸入信號在時域上對齊并且疊加為一路總輸入信號。替換地,該復用器也可以是加權加法器,用于通過在疊加的過程中向不同的分路輸入信號施加不同的權重,以使得關注的分路輸入信號在總輸入信號中具有更高的峰值。
在一個實施例中,聲源定位器件140用于確定所述信號源的位置和所述揚聲器的位置。可以采用各種方式來對信號和揚聲器進行定位。
圖3圖示了根據(jù)本申請實施例的聲源定位器件的結構示意圖。
如圖3所示,所述聲源定位器件140可以包括:信號源定位器件141,用于檢測在當前場景中是否存在正在輸出關注信號的信號源、所述信號源的數(shù)量及其相應位置;以及揚聲器定位器件142,用于檢測在所述當前場景中是否存在正在播放聲音信號的揚聲器、所述揚聲器的數(shù)量及其相應位置。
這里,術語“位置”更加關注信號源和揚聲器相對于所述音頻信號處理設備的基準方向(例如,圖2中的0°方向)的夾角。
在第一示例中,所述信號源定位器件141可以包括:攝像頭,用于捕捉所述當前場景的場景圖像;以及圖像識別單元,用于在所述場景圖像中識別所述信號源,確定所述信號源的數(shù)量,并且確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
例如,該攝像頭可以用于捕捉當前場景(例如,其至少覆蓋所有指向麥克風的拾音區(qū))的場景圖像,其可以是單獨的攝像頭或攝像頭陣列。例如,攝像頭所采集到的場景圖像可以是單幀圖像、連續(xù)圖像幀序列(即,視頻流)或離散圖像幀序列(即,在預定采樣時間點采樣到的圖像數(shù)據(jù)組)等。例如,該攝像頭可以是如單目相機、雙目相機、多目相機等,另外,其可以用于捕捉灰度圖,也可以捕捉帶有顏色信息的彩色圖。當然,本領域中已知的以及將來可能出現(xiàn)的任何其他類型的相機都可以應用于本申請,本申請對其捕捉圖像的方式?jīng)]有特別限制,只要能夠獲得輸入圖像的灰度或顏色信息即可。為了減小后續(xù)操作中的計算量,在一個實施例中,可以在進行分析和處理之前,將彩色圖進行灰度化處理。
例如,成像器件可以不斷捕捉圖像幀,捕捉到的圖像幀可以被不斷進行分析和處理,以識別其中的信號源。例如,在智能化電子設備(例如,智能家電、機器人等)的語音識別場景下,信號源可以是與電子設備進行交互的用戶。這時,信號源的識別可以基于人體識別、人臉識別、口部識別等算法來實現(xiàn)。例如,簡單地,可以在識別出在當前場景中存在用戶的情況下,即判斷識別出作為信號源的用戶;更精確地,也可以在識別到在當前場景中存在用戶并且用戶的嘴唇在開合的情況下,判斷識別出作為信號源的用戶。
需要說明的是,發(fā)出關注信號的信號源并不限于用戶,而可以是其他任何可能的來源,例如,電視、車輛、動物等。相應地,信號源的識別算法也可以對應地調整為電視識別、車輛識別、動物識別等識別算法。
接下來,所述圖像識別單元根據(jù)所述信號源在所述場景圖像中的位置來確定所述信號源與所述信號源定位器件的基準位置之間的相對位置,并且根據(jù)所述信號源定位器件的基準位置與所述音頻信號處理設備的基準位置之間的配準關系來確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
例如,圖像識別單元可以確定識別到的信號源(例如,用戶或用戶口部)在圖像坐標系中的位置,并且根據(jù)攝像頭的外參矩陣,將其轉換為世界坐標系中的位置。然后,圖像識別單元可以獲取事先校準好的攝像頭的基準方向與音頻信號處理設備100的基準方向(例如,麥克風陣列的基準方向)之間的映射關系,將信號源在世界坐標系中的位置再次轉換到聲音坐標系中,從而得到信號源與麥克風陣列的基準方向(即,0°方向)之間的夾角。
在第二示例中,所述信號源定位器件141可以包括:信號分離單元,用于接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述信號源的關注信號分量;以及聲音識別單元,用于根據(jù)分離出的所述信號源的關注信號分量的相位來確定所述信號源與所述音頻信號處理設備的相對位置。
例如,由于已知揚聲器當前正在播放的聲音信號,所以信號分離單元可以在時域和/或頻域上從麥克風所采集的分路輸入信號中去除該聲音信號分量(相當于回聲信號分量),而獲得僅僅來自信號源的關注信號分量。例如,在此情況下,該信號分離單元簡單地可以是減法器。然后,聲音識別單元可以基于至少兩路分離出來的來自所述信號源的關注信號分量,利用現(xiàn)有的、或者將來開發(fā)的聲源定位方法來直接得到信號源與麥克風陣列的基準方向(即,0°方向)之間的夾角。
顯然,本申請不限于上述提到的兩個示例,任何可以用于確定信號源的位置的方法都可以應用于此,并因而,落入本申請的保護范圍之內。例如,還可以將上述第一示例和第二示例相結合,即,只有在不但識別到在當前場景中存在用戶并且用戶的嘴唇在開合,而且還在相應方向中檢測到聲音信號時,才判斷識別出在該方向存在信號源,以獲得更加準確的信號源檢測和定位結果。
另外,在一個示例中,所述揚聲器定位器件142包括:信號分離單元,用于接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述揚聲器的關注信號分量;以及聲音識別單元,用于根據(jù)分離出的所述揚聲器的關注信號分量的相位來確定所述揚聲器與所述音頻信號處理設備的相對位置。
由于揚聲器定位器件142的該示例結構與第二示例中的信號源定位器件141的結構相同,所以為了簡潔,在此省略了其相關描述。更進一步地,為了節(jié)省成本和空間,該揚聲器定位器件142還可以與信號源定位器件141共用同一組信號分離單元和聲音識別單元。
在另一示例中,考慮到揚聲器陣列在音頻信號處理設備100中的位置往往是預設且固定的,在出廠模式中往往包含有揚聲器相對麥克風陣列的位置信息,因此,簡單起見,揚聲器定位器件142可以直接利用該位置信息來確定一個或多個揚聲器與麥克風陣列的基準方向(即,0°方向)之間的夾角。
在此情況下,所述揚聲器定位器件142包括:位置獲取單元,用于讀取所述揚聲器與所述音頻信號處理設備的相對位置。
顯然,本申請不限于上述提到的兩個示例,任何可以用于確定揚聲器的位置的方法都可以應用于此,并因而,落入本申請的保護范圍之內。例如,還可以將上述兩個示例相結合,即,為了防止揚聲器的位置可能會與預設位置產生偏移,可以先以預設位置為基礎,粗略確定揚聲器與麥克風陣列之間的相對位置關系,然后,再根據(jù)聲源定位方法來自適應尋找真實模式下的區(qū)別。
在一個實施例中,增益控制器件150與所述聲源定位器件140和每個指向麥克風電連接,用于根據(jù)所述信號源的位置和所述揚聲器的位置來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。
圖4圖示了根據(jù)本申請實施例的增益控制器件的結構示意圖。
如圖4所示,所述增益控制器件150可以包括:比較單元151,用于比較所述信號源和所述揚聲器與每個指向麥克風的拾音區(qū)之間的位置關系;以及增益調整單元152,用于根據(jù)所述位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。
例如,該比較單元151簡單地可以是比較器,在聲源定位器件檢測到信號源與麥克風陣列的基準方向(即,0°方向)之間的夾角和揚聲器與麥克風陣列的基準方向(即,0°方向)之間的夾角之后,確定信號源和揚聲器分別位于哪一個或多個指向麥克風的拾音區(qū)內。
例如,該增益調整單元152可以是模擬放大器和數(shù)字放大器中的一個或兩者,用于基于上述位置關系來生成每個指向麥克風的增益因子,并且根據(jù)所述增益因子對每個指向麥克風所采集的分路輸入信號進行放大或縮小,以在增強關注信號功率(例如,來自用戶的語音信號)的同時,抑制回聲信號功率。
下面,在幾個具體的場景中描述該增益調整過程。
在第一場景中,假設存在正在輸出關注信號的一個或多個信號源且不存在正在播放聲音信號的揚聲器。
這時,該比較單元151可以用于比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系。該增益調整單元152可以用于根據(jù)所述第一位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大。
例如,所述增益調整單元152可以增大所述一個或多個信號源位于其拾音區(qū)的一個或多個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大且沒有任何一個關注信號分量發(fā)生失真。
更進一步地,所述增益調整單元152還可以減小所述麥克風陣列中除了所述一個或多個指向麥克風的其他麥克風的增益,以降低在所述總輸入信號中從噪聲源接收到的噪聲分量的功率,或降低從潛在噪聲源接收到噪聲分量的可能性。例如,可以將其他麥克風的增益減小為0,即禁用相應麥克風,以減小噪聲輸入并節(jié)省功率。然而,由于禁用麥克風可能導致相應麥克風無法起到實時檢測的目的,所以替換地,可以將其他麥克風的增益減小為一個預定值,以滿足最小能量要求Emin,從而在功率節(jié)省和實時檢測之間取得權衡。
在第二場景中,假設不存在正在輸出關注信號的信號源且存在正在播放聲音信號的一個或多個揚聲器。
這時,該比較單元151可以用于比較所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系。該增益調整單元152可以用于根據(jù)所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個揚聲器接收到的回聲信號分量的功率最小。
例如,所述增益調整單元152可以減小所述一個或多個揚聲器位于其拾音區(qū)的一個或多個指向麥克風的增益。類似地,出于不同的目的,例如,可以將所述一個或多個麥克風的增益減小為0,也可以將所述麥克風的增益減小為一個預定值,例如Emin。
在第三場景中,假設同時存在正在輸出關注信號的一個或多個信號源和正在播放聲音信號的一個或多個揚聲器。本場景是第一場景與第二場景的結合。
這時,該比較單元151可以用于比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系和所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系。該增益調整單元152用于根據(jù)所述第一位置關系和所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率與從所述一個或多個揚聲器接收到的回聲信號分量的功率之間的信回比最大。
例如,所述增益調整單元152可以生成每個指向麥克風的第一組增益,其中,所述一個或多個信號源位于其拾音區(qū)的一個或多個指向麥克風的增益被增大,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大。然后,所述增益調整單元152可以生成每個指向麥克風的第二組增益,其中,所述一個或多個揚聲器位于其拾音區(qū)的一個或多個指向麥克風的增益被減小,以使得在所述總輸入信號中從所述一個或多個揚聲器接收到的回聲信號分量的功率最小。接下來,所述增益調整單元152可以生成用于第一組增益的第一組權重和用于第二組增益的第二組權重,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率與從所述一個或多個揚聲器接收到的回聲信號分量的功率之間的信回比最大。最后,所述增益調整單元152可以使用所述第一組增益、所述第一組權重、所述第二組增益、和所述第二組權重來調整每個指向麥克風的增益。
下面,將參考圖5來在一個具體示例中描述上述不同場景中的該增益調整過程。
圖5圖示了根據(jù)本申請實施例的音頻信號處理設備和信號源的示例位置關系示意圖。
如圖5所示,在音頻信號處理設備100中包括麥克風陣列120。所述麥克風陣列120包括具有同一中心點且呈現(xiàn)中心對稱的4個指向麥克風MIC1到MIC4。假設MIC1位于音頻信號處理設備100的基準方向,即0°方向,則MIC2位于90°方向,MIC3位于180°方向,MIC4位于270方向。簡單起見,假設該音頻信號處理設備100僅包括一個揚聲器110,并且在該應用場景中僅包括一個信號源200,該信號源200可以是與智能化電子設備進行交互的用戶。該揚聲器110位于音頻信號處理設備100的基準方向(即,0°方向)的45°方向。該信號源200位于音頻信號處理設備100的基準方向(即,0°方向)的135°方向。
例如,首先,該設備可以通過諸如攝像頭之類的信號源定位器件來檢測信號源(含多個信號源)的方向,并且該設備可以判斷揚聲器的播放狀態(tài),判斷揚聲器是否在播放聲音。
一方面,一旦判斷出有聲源(或稱為信號源)而無揚聲器播放,則說明進入上述的第一場景,即純近端單講模式,只有近端講話。此時沒有回聲E,只有近端語音S,設備只需要通過配置獲取最大的語音能量即可,支持單/多聲源。
每個指向麥克風配有獨立增益控制,例如其可以通過信號增益控制向量[Gs1,Gs2,…,Gsn](其中,n為麥克風的數(shù)量)來表示,從而控制對該指向方向的靈敏度或者聲音采集能力。
然后,聲源檢測器件獲取聲源的個數(shù)和位置(方向)坐標,例如其可以通過多聲源方向向量[S1,S2,...,Sm](其中,m為聲源的數(shù)量)來表示。算法根據(jù)聲源的個數(shù)和位置,自適應地計算增益控制矩陣,自適應地將聲源方向的指向麥克風增益向量(例如,圖5中的MIC2和MIC3)調整增大,使得多聲源信號通過設備后,確保在聲源方向的信號能量最大,即S最大,且不失真。無聲源角度方向的麥克風增益置零,降低噪聲。
隨后,可以循環(huán)地執(zhí)行上述過程,即,當聲源變化(例如,數(shù)量改變、位置改變)時,自適應更新多聲源方向向量,通過最大SER準則自適應地更新增益控制向量。
另一方面,一旦判斷出無聲源而有揚聲器播放,則說明進入上述的第二場景,即純近端播放模式,只有揚聲器播放。此時只有回聲E,沒有近端語音S,設備只需要通過配置獲取最小的回聲能量即可。
每個指向麥克風配有獨立增益控制,例如其可以通過回聲增益控制向量[Ge1,Ge2,…,Gen](其中,n為麥克風的數(shù)量)來表示,從而控制對該指向方向的靈敏度或者聲音采集能力。
然后,回聲檢測器件獲取揚聲器的個數(shù)和位置(方向)坐標,例如其可以通過多回聲方向向量[E1,E2,...,El](其中,l為揚聲器的數(shù)量)來表示。例如,出廠預設模式包含揚聲器相對麥克風陣列的位置信息,以此為基礎開始算法收斂,自適應尋找真實模式下的區(qū)別。算法根據(jù)回聲源(即,揚聲器)的個數(shù)和位置,自適應地計算增益控制矩陣,自適應地將有回聲角度方向的指向麥克風增益向量(例如,圖5中的MIC1和MIC2)調整降低,使得多聲源信號通過設備后,確保在有回聲方向E的能量小,設定門限,滿足最小能量要求Emin。無回聲角度方向的麥克風增益向量保持不變,保證此時仍然可以喚醒。
隨后,可以循環(huán)地執(zhí)行上述過程,即,當揚聲器變化(例如,數(shù)量改變、位置改變)時,自適應更新多回聲方向向量,通過最大SER準則自適應地更新增益控制向量。
又一方面,一旦判斷出有聲源且有揚聲器播放,則說明進入上述的第三場景,即近/遠端雙講模式。此時既有回聲E,又有近端語音S,設備需要通過配置獲取最大SER,即S和E的比最大。
算法可以設置信號加權系數(shù)向量[α1,α2,…,αn]和回聲加權系數(shù)向量[β1,β2,…,βn]。該第三模式為第一模式和第二模式的結合,加權系數(shù)分別為第一模式和第二模式的加權系數(shù)向量,用來加權第一模式和第二模式的增益控制向量。
使得α向量和β向量分別與信號增益控制向量和回聲增益控制向量進行加權,利用最大SER比準,獲得α向量、β向量、Gs向量、和Gn向量的最優(yōu)值。
然后,可以將α向量、β向量、Gs向量、和Gn向量寫入到處理設備中,進行增益控制,獲取當前最優(yōu)的SER性能。
隨后,可以循環(huán)地執(zhí)行上述過程,即,當聲源變化(例如,數(shù)量改變、位置改變)時,自適應更新多聲源方向向量,通過最大SER準則自適應地更新增益控制向量。另外,上述參數(shù)還可以被存儲起來,以便在稍后相同的場景下被直接讀取出來,而無需再次執(zhí)行增益和向量計算操作,從而加快處理音頻信號的速度。
在一個實施例中,音頻信號處理設備100還可以包括:自適應濾波器160,用于根據(jù)所述揚聲器正在播放的聲音來在時域和/或頻域上對增益調整后的總輸入信號進行回聲消除。
在經(jīng)過上述增益調整之后,可以將麥克風采集的、包括已經(jīng)在空域上實現(xiàn)增強的關注信號分量和消除后的回聲信號分量的分路輸入信號在通過復用器130合并為一路總輸入信號之后,通過基于自適應濾波的回聲抑制器件。
例如,由于已知揚聲器當前正在播放的聲音信號,所以自適應濾波器160可以從麥克風所采集的分路輸入信號中去除該聲音信號分量(相當于回聲信號分量),而獲得僅僅來自信號源的關注信號分量。顯然,本申請不限于此。無論是現(xiàn)有的、還是將來開發(fā)的自適應濾波器,都可以應用于根據(jù)本申請實施例的音頻信號處理設備中,并且也應包括在本申請的保護范圍內。
最后,取決于音頻信號處理設備是純近端設備還是近/遠端設備,還可以執(zhí)行對于濾波處理后的信號的音頻識別操作,或將它發(fā)送到遠端設備,以用于遠程通信目的。
由此可見,采用根據(jù)本申請實施例的音頻信號處理設備,可以根據(jù)信號源的位置和揚聲器的位置來調整麥克風陣列中每個指向麥克風的增益,以使得在麥克風陣列所采集的總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。因此,可以利用指向麥克風陣列的特性來實現(xiàn)無損的關注信號增強和回聲信號抑制。
具體地,本申請的實施例具有以下優(yōu)點:
1.在聲源方向增強的同時,還可以自適應地抑制回聲方向,且自適應地調整指向麥克風陣列增益獲得最大SER,從而對于大聲音播放下的回聲有非常好的抑制效果,提升信號(例如,語音信號)的可懂度/識別率/通信質量;
2.可以利用指向麥克風陣列的特性做到無損地對諸如語音之類的關注信號進行增強并對回聲信號進行抑制,相比于全向麥克風的波束形成算法,利用麥克風本體特性可以更好地保護語音質量,并且可以做到多聲源同時增強;
3.支持三種模式下的自由切換。
示例性音頻信號處理方法
圖6圖示了根據(jù)本申請實施例的音頻信號處理方法的流程示意圖。
根據(jù)本申請實施例的音頻信號處理方法可以應用于參考圖1到圖5所描述的音頻信號處理設備100。
如圖6所示,所述音頻信號處理方法可以包括:
在步驟S110中,從麥克風陣列中的每個指向麥克風接收分路輸入信號,所述麥克風陣列包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內采集包括來自信號源的關注信號分量和來自揚聲器的回聲信號分量的所述分路輸入信號;
在步驟S120中,將每個指向麥克風所采集的分路輸入信號合并為總輸入信號;
在步驟S130中,確定所述信號源的位置和所述揚聲器的位置;以及
在步驟S140中,根據(jù)所述信號源的位置和所述揚聲器的位置來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述信號源接收到的關注信號分量的功率與從所述揚聲器接收到的回聲信號分量的功率之間的信回比最大。
在一個實施例中,該步驟S130包括:檢測在當前場景中是否存在正在輸出關注信號的信號源、所述信號源的數(shù)量及其相應位置;以及檢測在所述當前場景中是否存在正在播放聲音信號的揚聲器、所述揚聲器的數(shù)量及其相應位置。
在一個實施例中,檢測在當前場景中是否存在正在輸出關注信號的信號源、所述信號源的數(shù)量及其相應位置包括:接收攝像頭捕捉的所述當前場景的場景圖像;以及在所述場景圖像中識別所述信號源,確定所述信號源的數(shù)量,并且確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
在一個實施例中,確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置包括:根據(jù)所述信號源在所述場景圖像中的位置來確定所述信號源與所述信號源定位器件的基準位置之間的相對位置,并且根據(jù)所述信號源定位器件的基準位置與所述音頻信號處理設備的基準位置之間的配準關系來確定所述信號源與所述音頻信號處理設備的基準位置之間的相對位置。
在一個實施例中,檢測在當前場景中是否存在正在輸出關注信號的信號源、所述信號源的數(shù)量及其相應位置包括:接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述信號源的關注信號分量;以及根據(jù)分離出的所述信號源的關注信號分量的相位來確定所述信號源與所述音頻信號處理設備的相對位置。
在一個實施例中,檢測在所述當前場景中是否存在正在播放聲音信號的揚聲器、所述揚聲器的數(shù)量及其相應位置包括:接收由至少兩個指向麥克風所采集的至少兩路分路輸入信號,并且從所述至少兩路分路輸入信號中分離來自所述揚聲器的關注信號分量;以及根據(jù)分離出的所述揚聲器的關注信號分量的相位來確定所述揚聲器與所述音頻信號處理設備的相對位置。
在一個實施例中,該步驟S140包括:響應于存在正在輸出關注信號的一個或多個信號源且不存在正在播放聲音信號的揚聲器,比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系;以及根據(jù)所述第一位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大。
在一個實施例中,根據(jù)所述第一位置關系來調整每個指向麥克風的增益包括:增大所述一個或多個信號源位于其拾音區(qū)的一個或多個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率最大且沒有任何一個關注信號分量發(fā)生失真。
在一個實施例中,根據(jù)所述第一位置關系來調整每個指向麥克風的增益還包括:減小所述麥克風陣列中除了所述一個或多個指向麥克風的其他麥克風的增益,以降低在所述總輸入信號中從噪聲源接收到的噪聲分量的功率。
在一個實施例中,該步驟S140包括:響應于不存在正在輸出關注信號的信號源且存在正在播放聲音信號的一個或多個揚聲器,比較所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及根據(jù)所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個揚聲器接收到的回聲信號分量的功率最小。
在一個實施例中,根據(jù)所述第二位置關系來調整每個指向麥克風的增益包括:減小所述一個或多個揚聲器位于其拾音區(qū)的一個或多個指向麥克風的增益。
在一個實施例中,該步驟S140包括:響應于同時存在正在輸出關注信號的一個或多個信號源和正在播放聲音信號的一個或多個揚聲器,比較所述一個或多個信號源與每個指向麥克風的拾音區(qū)之間的第一位置關系和所述一個或多個揚聲器與每個指向麥克風的拾音區(qū)之間的第二位置關系;以及根據(jù)所述第一位置關系和所述第二位置關系來調整每個指向麥克風的增益,以使得在所述總輸入信號中從所述一個或多個信號源接收到的關注信號分量的功率與從所述一個或多個揚聲器接收到的回聲信號分量的功率之間的信回比最大。
在一個實施例中,所述音頻信號處理方法還可以包括:在步驟S150中,根據(jù)所述揚聲器正在播放的聲音來在時域和/或頻域上對增益調整后的總輸入信號進行回聲消除。
上述音頻信號處理方法中的各個步驟的具體功能和操作已經(jīng)在上面參考圖1到圖5描述的音頻信號處理設備100中詳細介紹,并因此,將省略其重復描述。
示例性電子設備
下面,參考圖7來描述根據(jù)本申請實施例的電子設備。該電子設備可以是智能化的語音識別系統(tǒng)(例如,智能家電、機器人等)、傳統(tǒng)的語音通信系統(tǒng)(例如,會議系統(tǒng)、因特網(wǎng)協(xié)議傳送話音VoIP系統(tǒng)等)中的近端設備或遠端設備等。
圖7圖示了根據(jù)本申請實施例的電子設備的框圖。
如圖7所示,電子設備10包括一個或多個處理器11和存儲器12。
處理器11可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其他形式的處理單元,并且可以控制電子設備10中的其他組件以執(zhí)行期望的功能。
存儲器12可以包括一個或多個計算機程序產品,所述計算機程序產品可以包括各種形式的計算機可讀存儲介質,例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(ROM)、硬盤、閃存等。在所述計算機可讀存儲介質上可以存儲一個或多個計算機程序指令,處理器11可以運行所述程序指令,以實現(xiàn)上文所述的本申請的各個實施例的音頻信號處理方法以及/或者其他期望的功能。在所述計算機可讀存儲介質中還可以存儲諸如信號源的位置、揚聲器的位置、信號增益控制向量、回聲增益控制向量、信號加權系數(shù)向量、回聲加權系數(shù)向量等信息。
在一個示例中,電子設備10還可以包括:輸入裝置13和輸出裝置14,這些組件通過總線系統(tǒng)和/或其他形式的連接機構(未示出)互連。
例如,該輸入裝置13可以包括例如鍵盤、鼠標、以及通信網(wǎng)絡及其所連接的遠程輸入設備等等。替換地或附加地,該輸入裝置13也可以是上述的麥克風陣列120,包括具有不同拾音區(qū)的多個指向麥克風,每個指向麥克風用于在自身的拾音區(qū)內采集分路輸入信號。
輸出裝置14可以向外部(例如,用戶)輸出各種信息,包括調整后的每個指向麥克風的增益、回聲消除后的總輸入信號等。該輸出設備14可以包括例如顯示器、打印機、以及通信網(wǎng)絡及其所連接的遠程輸出設備等等。替換地或附加地,該輸出裝置14也可以是上述的揚聲器110,用于播放聲音,其可以是單獨的揚聲器或由多個揚聲器構成的揚聲器陣列。
當然,為了簡化,圖7中僅示出了該電子設備10中與本申請有關的組件中的一些,省略了諸如總線、輸入/輸出接口等等的組件。應當注意,圖7所示的電子設備10的組件和結構只是示例性的,而非限制性的,根據(jù)需要,電子設備10也可以具有其他組件和結構。
示例性計算機程序產品和計算機可讀存儲介質
除了上述方法和設備以外,本申請的實施例還可以是計算機程序產品,其包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本申請各種實施例的音頻信號處理方法中的步驟。
所述計算機程序產品可以以一種或多種程序設計語言的任意組合來編寫用于執(zhí)行本申請實施例操作的程序代碼,所述程序設計語言包括面向對象的程序設計語言,諸如Java、C++等,還包括常規(guī)的過程式程序設計語言,諸如“C”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執(zhí)行、部分地在用戶設備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設備上部分在遠程計算設備上執(zhí)行、或者完全在遠程計算設備或服務器上執(zhí)行。
此外,本申請的實施例還可以是計算機可讀存儲介質,其上存儲有計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本申請各種實施例的音頻信號處理方法中的步驟。
所述計算機可讀存儲介質可以采用一個或多個可讀介質的任意組合??勺x介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以包括但不限于電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。
以上結合具體實施例描述了本申請的基本原理,但是,需要指出的是,在本申請中提及的優(yōu)點、優(yōu)勢、效果等僅是示例而非限制,不能認為這些優(yōu)點、優(yōu)勢、效果等是本申請的各個實施例必須具備的。另外,上述公開的具體細節(jié)僅是為了示例的作用和便于理解的作用,而非限制,上述細節(jié)并不限制本申請為必須采用上述具體的細節(jié)來實現(xiàn)。
本申請中涉及的器件、裝置、設備、系統(tǒng)的方框圖僅作為例示性的例子并且不意圖要求或暗示必須按照方框圖示出的方式進行連接、布置、配置。如本領域技術人員將認識到的,可以按任意方式連接、布置、配置這些器件、裝置、設備、系統(tǒng)。諸如“包括”、“包含”、“具有”等等的詞語是開放性詞匯,指“包括但不限于”,且可與其互換使用。這里所使用的詞匯“或”和“和”指詞匯“和/或”,且可與其互換使用,除非上下文明確指示不是如此。這里所使用的詞匯“諸如”指詞組“諸如但不限于”,且可與其互換使用。
還需要指出的是,在本申請的裝置、設備和方法中,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應視為本申請的等效方案。
提供所公開的方面的以上描述以使本領域的任何技術人員能夠做出或者使用本申請。對這些方面的各種修改對于本領域技術人員而言是非常顯而易見的,并且在此定義的一般原理可以應用于其他方面而不脫離本申請的范圍。因此,本申請不意圖被限制到在此示出的方面,而是按照與在此公開的原理和新穎的特征一致的最寬范圍。
為了例示和描述的目的已經(jīng)給出了以上描述。此外,此描述不意圖將本申請的實施例限制到在此公開的形式。盡管以上已經(jīng)討論了多個示例方面和實施例,但是本領域技術人員將認識到其某些變型、修改、改變、添加和子組合。