自動(dòng)語(yǔ)音識(shí)別期間的選擇性噪聲抑制的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及自動(dòng)語(yǔ)音識(shí)別期間的選擇性噪聲抑制。
【背景技術(shù)】
[0002]免提計(jì)算裝置變得越來(lái)越流行;尤其是在可以期望語(yǔ)音命令/控制的車輛中一使得能夠使用駕駛員的語(yǔ)音控制車輛功能。語(yǔ)音控制系統(tǒng)可以接收駕駛員的語(yǔ)音作為輸入,解釋語(yǔ)音,并且基于語(yǔ)音的解釋而做出邏輯判定(例如執(zhí)行對(duì)車輛功能的控制)。當(dāng)駕駛員能夠采用語(yǔ)音命令模式時(shí),能夠?qū)④囕v操作期間駕駛員的分心最小化,并且可以防止與分心相關(guān)的事故。
[0003]當(dāng)然,在駕駛員試圖使用他/她的語(yǔ)音命令車輛并且車輛不響應(yīng)(或不正確地響應(yīng))的情況下,這可能導(dǎo)致駕駛員受挫,并且比如果駕駛員僅手動(dòng)地執(zhí)行命令而不試圖語(yǔ)音控制的情形最終導(dǎo)致更大的分心。
【發(fā)明內(nèi)容】
[0004]因此本發(fā)明的目的在于提高自動(dòng)語(yǔ)音處理的精度,特別是在車輛環(huán)境中。
[0005]根據(jù)本發(fā)明的實(shí)施例,提供了一種前端處理音頻信號(hào)的方法。該方法包括以下步驟:識(shí)別音頻信號(hào)的多個(gè)有聲幀;確定多個(gè)有聲幀中的一個(gè)或多個(gè)具有大于第一預(yù)定閾值的信噪比(SNR)數(shù)值;并且基于所述確定,對(duì)于多個(gè)有聲幀中的一個(gè)或多個(gè)回避噪聲抑制。
[0006]根據(jù)本發(fā)明的另一實(shí)施例,提供了一種預(yù)處理音頻信號(hào)的方法。該方法包括以下步驟:從由自動(dòng)語(yǔ)音識(shí)別(ASR)引擎接收到的音頻信號(hào)識(shí)別多個(gè)語(yǔ)音支配幀;將所述多個(gè)語(yǔ)音支配幀分類為有聲幀和無(wú)聲幀;對(duì)于每個(gè)所述有聲幀,確定所述有聲幀的信噪比(SNR)是否大于預(yù)定閾值(Tvi);以及對(duì)于具有大于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述有聲幀,提供所述有聲幀用于下游處理而不進(jìn)行噪聲抑制,并且對(duì)于具有小于或等于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述有聲幀,在對(duì)所述有聲幀執(zhí)行預(yù)處理噪聲抑制之后,提供所述有聲幀用于下游處理。
[0007]1.一種前端處理音頻信號(hào)的方法,包括以下步驟:
識(shí)別音頻信號(hào)的多個(gè)有聲幀;
確定所述多個(gè)有聲幀中的一個(gè)或多個(gè)具有大于第一預(yù)定閾值的信噪比(SNR)數(shù)值;以及
基于所述確定,對(duì)于所述多個(gè)有聲幀中的一個(gè)或多個(gè)回避噪聲抑制。
[0008]2.根據(jù)方案I所述的方法,還包括:
識(shí)別音頻信號(hào)的多個(gè)無(wú)聲幀;
確定所述多個(gè)無(wú)聲幀中的一個(gè)或多個(gè)具有大于第二預(yù)定閾值的SNR數(shù)值;以及基于所述確定,對(duì)于所述多個(gè)無(wú)聲幀中的一個(gè)或多個(gè)回避噪聲抑制。
[0009]3.根據(jù)方案2所述的方法,還包括:對(duì)具有小于或等于所述第一預(yù)定閾值的SNR的多個(gè)有聲幀以及對(duì)具有小于或等于所述第二預(yù)定閾值的SNR的多個(gè)無(wú)聲幀執(zhí)行噪聲抑制。
[0010]4.根據(jù)方案2所述的方法,其中所述第一預(yù)定閾值與所述第二預(yù)定閾值相同。
[0011]5.根據(jù)方案4所述的方法,還包括在前端處理步驟之后執(zhí)行所述多個(gè)有聲幀中的一個(gè)或多個(gè)和所述多個(gè)無(wú)聲幀中的一個(gè)或多個(gè)的下游處理。
[0012]6.根據(jù)方案5所述的方法,其中,執(zhí)行下游處理包括特征提取子級(jí)、分類子級(jí)、組合子級(jí)以及解碼子級(jí)。
[0013]7.根據(jù)方案4所述的方法,其中所述第一預(yù)定閾值近似為20dB。
[0014]8.一種預(yù)處理音頻信號(hào)的方法,包括以下步驟:
從由自動(dòng)語(yǔ)音識(shí)別(ASR)引擎接收到的音頻信號(hào)識(shí)別多個(gè)語(yǔ)音支配幀;
將所述多個(gè)語(yǔ)音支配幀分類為有聲幀和無(wú)聲幀;
對(duì)于每個(gè)所述有聲幀,確定所述有聲幀的信噪比(SNR)是否大于預(yù)定閾值(Tvi);以及對(duì)于具有大于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述有聲幀,提供所述有聲幀用于下游處理而不進(jìn)行噪聲抑制,并且對(duì)于具有小于或等于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述有聲幀,在對(duì)所述有聲幀執(zhí)行預(yù)處理噪聲抑制之后,提供所述有聲幀用于下游處理。
[0015]9.根據(jù)方案8所述的方法,還包括:
對(duì)于具有小于或等于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述有聲幀,將所述SNR分類為一個(gè)或多個(gè)SNR類別,其中所述一個(gè)或多個(gè)SNR類別與各個(gè)有聲幀的SNR的強(qiáng)度相關(guān)聯(lián);以及
根據(jù)所述一個(gè)或多個(gè)SNR類別中的一個(gè)對(duì)各個(gè)有聲幀中的每個(gè)抑制噪聲。
[0016]10.根據(jù)方案9所述的方法,其中所述預(yù)定閾值(Tvi)近似為20分貝(dB)。
[0017]11.根據(jù)方案10所述的方法,其中,所述一個(gè)或多個(gè)SNR類別包括:SNR>20dB的第一 SNR類別和6dB〈SNR彡20dB的第二 SNR類別。
[0018]12.根據(jù)方案8所述的方法,還包括:
對(duì)于每個(gè)所述無(wú)聲幀,確定所述無(wú)聲幀的信噪比(SNR)是否大于預(yù)定閾值(Tui);以及對(duì)于具有大于所述預(yù)定閾值(Tui)的SNR的每個(gè)所述無(wú)聲幀,提供所述無(wú)聲幀用于下游處理而不進(jìn)行噪聲抑制,并且對(duì)于具有小于或等于所述預(yù)定閾值(Tvi)的SNR的每個(gè)所述無(wú)聲幀,在對(duì)所述無(wú)聲幀執(zhí)行預(yù)處理噪聲抑制之后,提供所述無(wú)聲幀用于下游處理。
[0019]13.根據(jù)方案12所述的方法,還包括:
對(duì)于具有小于或等于所述預(yù)定閾值(Tui)的SNR的每個(gè)所述無(wú)聲幀,將所述SNR分類為一個(gè)或多個(gè)SNR類別,其中所述一個(gè)或多個(gè)SNR類別與各個(gè)無(wú)聲幀的SNR的強(qiáng)度相關(guān)聯(lián);以及
根據(jù)所述一個(gè)或多個(gè)SNR類別中的一個(gè)對(duì)各個(gè)無(wú)聲幀中的每個(gè)抑制噪聲。
[0020]14.根據(jù)方案13所述的方法,其中所述預(yù)定閾值(Tm)近似為20分貝(dB)。
[0021]15.根據(jù)方案14所述的方法,其中所述一個(gè)或多個(gè)SNR類別包括:SNR>20dB的第一 SNR類別和6dB〈SNR ( 20dB的第二 SNR類別。
[0022]16.根據(jù)方案8所述的方法,其中所述ASR引擎位于車輛中,并且所述音頻信號(hào)表示由車輛中的話筒接收到的語(yǔ)音。
【附圖說(shuō)明】
[0023]以下將結(jié)合附圖描述本發(fā)明的一個(gè)或多個(gè)實(shí)施例,其中相同的標(biāo)記表示相同的元件,并且在附圖中:
圖1是描繪能夠采用本文公開的方法的通信系統(tǒng)的實(shí)施例的方框圖;
圖2是示出了自動(dòng)語(yǔ)音識(shí)別(ASR)引擎的預(yù)處理級(jí)(具有噪聲抑制器)和下游處理級(jí)的示意圖;
圖3是示出了使用ASR引擎處理語(yǔ)音的一個(gè)實(shí)施例的流程圖;
圖4是示出了使用圖2和圖3中所示的噪聲抑制器的噪聲抑制實(shí)施例的流程圖;以及圖5 —圖7是示出了當(dāng)使用如本文所述配置的ASR引擎處理語(yǔ)音時(shí)的ASR精度增加的真實(shí)數(shù)據(jù)的表格。
【具體實(shí)施方式】
[0024]以下所述方法大體上關(guān)于提高語(yǔ)音識(shí)別精度。方法描述了在語(yǔ)音信號(hào)的前端或預(yù)處理期間選擇性和智能地移除噪聲抑制以實(shí)現(xiàn)該提高精度。如以下將更詳細(xì)描述的那樣,自動(dòng)語(yǔ)音識(shí)別(ASR)處理可以包括預(yù)處理級(jí)和下游處理級(jí)。預(yù)處理級(jí)通??梢灶A(yù)備在背景噪聲當(dāng)中接收到的語(yǔ)音信號(hào)以用于在下游處理級(jí)期間解釋。在預(yù)處理期間,可以將一種或多種噪聲抑制技術(shù)或算法應(yīng)用于語(yǔ)音信號(hào)的語(yǔ)音幀以提高整體ASR精度一由此向下游處理級(jí)提供了更干凈的語(yǔ)音信號(hào)。然而,已經(jīng)發(fā)現(xiàn)在一些情形中,這可能將不期望的音樂失真引入到下游級(jí)中。這些失真是不期望的,因?yàn)檎Z(yǔ)音識(shí)別系統(tǒng)是基于人類語(yǔ)音感知模型而設(shè)計(jì)的。語(yǔ)音幅度中不期望的變化可以顯著地影響系統(tǒng)的性能。本文所述的方法示出了通過(guò)選擇性地對(duì)一些語(yǔ)音幀而不對(duì)其他幀應(yīng)用噪聲抑制,可以實(shí)現(xiàn)對(duì)ASR精度的提高。
[0025]方法示出在車輛環(huán)境中。這樣的環(huán)境適當(dāng)?shù)厥境隽?(a)車輛的ASR引擎可以如何使用車輛音頻系統(tǒng)從車輛用戶接收語(yǔ)音命令(語(yǔ)音信號(hào));(b)使用車輛中的ASR引擎處理語(yǔ)音命令;以及(C)基于使用車輛處理裝置所處理的語(yǔ)音命令執(zhí)行動(dòng)作。應(yīng)該意識(shí)到的是,本文所述的ASR引擎的配置或?qū)嵤├梢杂糜谌魏芜m當(dāng)?shù)膽?yīng)用或環(huán)境中,并且以下描述的車輛環(huán)境僅是示例。
[0026]通信系統(tǒng)一
現(xiàn)在轉(zhuǎn)向圖1,示出了操作環(huán)境,包括移動(dòng)車輛通信系統(tǒng)10并且可以用于實(shí)施本文公開的方法。通信系統(tǒng)10通常包括車輛12、一個(gè)或多個(gè)無(wú)線載波系統(tǒng)14、陸地通信網(wǎng)絡(luò)16、計(jì)算機(jī)18以及呼叫中心20。應(yīng)該理解的是,所公開的方法可以與許多不同系統(tǒng)一起使用,并且并非特別限于在此所示的操作環(huán)境。此外,系統(tǒng)10的架構(gòu)、構(gòu)成、設(shè)置和操作及其單個(gè)部件是在本領(lǐng)域中通常已知的。因此,以下段落簡(jiǎn)單地提供了一種這樣的通信系統(tǒng)10的簡(jiǎn)單概要,然而在此未示出的其他系統(tǒng)也可以采用所公開的方法。
[0027]車輛12在圖示實(shí)施例中示出為客車,但是應(yīng)該意識(shí)到也可以使用任何其他車輛,包括摩托車、卡車、多功能越野車(SUV)、旅行車(RV)、船舶、飛機(jī)等。一些車輛電子部件28在圖1中整體示出,并且包括遠(yuǎn)程信息處理單元30、話筒32,一個(gè)或多個(gè)按鈕或其他控制輸入部34、音頻系統(tǒng)36、視頻顯示器38和GPS模塊40以及許多車輛系統(tǒng)模塊(VSM) 42。這些裝置中的一些可以直接連接至遠(yuǎn)程信息處理單元,例如像話筒32和按鈕34,而其他裝置使用諸如通信總線44或娛樂總線46等一個(gè)或多個(gè)網(wǎng)絡(luò)連接件而間接地連接。適當(dāng)?shù)木W(wǎng)絡(luò)連接件的示例包括控制器區(qū)域網(wǎng)(CAN)、面向媒體的系統(tǒng)傳輸(MOST)、本地互聯(lián)網(wǎng)(LIN)、本地局域網(wǎng)(LAN)、以及其他適當(dāng)?shù)倪B接件,諸如以太網(wǎng)或符合已知IS0、SAE和IEEE標(biāo)準(zhǔn)和規(guī)范的其他連接件,僅列舉少數(shù)。
[0028]遠(yuǎn)程信息處理單元30可以是安裝在車輛中并且啟用通過(guò)無(wú)線載波系統(tǒng)14并且經(jīng)由無(wú)線網(wǎng)絡(luò)的無(wú)線語(yǔ)音和/或數(shù)據(jù)通信的OEM安裝(嵌入式)或