国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用聲學(xué)傳感器和非聲學(xué)傳感器檢測有聲和無聲語音的制作方法

      文檔序號(hào):2835591閱讀:354來源:國知局
      專利名稱:使用聲學(xué)傳感器和非聲學(xué)傳感器檢測有聲和無聲語音的制作方法
      技術(shù)領(lǐng)域
      公開的實(shí)施例涉及語音信號(hào)的處理。
      背景技術(shù)
      正確識(shí)別有聲和無聲語音的能力對(duì)于包括語音識(shí)別、發(fā)言者驗(yàn)證、噪音抑制以及許多其它的應(yīng)用的諸多語音應(yīng)用是很重要的。在典型的聲學(xué)應(yīng)用中,發(fā)言人的語音被捕捉后,并將之傳輸?shù)揭粋€(gè)不同位置的接收器。發(fā)言人的周圍環(huán)境可能存在一種或多種噪音源,該噪音源通過一些有害的噪聲會(huì)污染語音信號(hào)或所關(guān)心的信號(hào)。因此,對(duì)接收器來說,無論人或機(jī)器,都很難或者不可能理解用戶的講話。
      對(duì)有聲和無聲語音的典型分類方法主要是依賴麥克風(fēng)數(shù)據(jù)的聲學(xué)內(nèi)容,其受信號(hào)內(nèi)容中的噪聲和相關(guān)不定因素的干擾。目前,這對(duì)于例如蜂窩電話和個(gè)人數(shù)字助理等便攜式通信裝置的激增非常不利,在許多情況下,這些裝置提供的服務(wù)質(zhì)量依賴于設(shè)備提供的話音質(zhì)量?,F(xiàn)有技術(shù)中,存在很多對(duì)語音信號(hào)中的噪音進(jìn)行抑制的方法,但是這些方法在性能方面存在一些不足,通常包括計(jì)算時(shí)間長、需要繁瑣的硬件進(jìn)行信號(hào)處理、使得所關(guān)心的信號(hào)失真。


      圖1所示為一個(gè)實(shí)施例中NAVSAD系統(tǒng)的框圖。
      圖2所示為一個(gè)實(shí)施例中PSAD系統(tǒng)的框圖。
      圖3所示為一個(gè)實(shí)施例中一個(gè)降噪系統(tǒng),本文稱為尋路器(Pathfinder)系統(tǒng)的框圖。
      圖4所示為一個(gè)實(shí)施例中用于檢測有聲和無聲語音的檢測算法的流程圖。
      圖5A所示為所接收的用于發(fā)言的GEMS信號(hào)、GEMS信號(hào)和Mic 1信號(hào)之間的平均相關(guān)以及用于有聲語音檢測的門限。
      圖5B所示為所接收的用于發(fā)言的GEMS信號(hào),以及GEMS信號(hào)和用于有聲語音檢測的門限之間的標(biāo)準(zhǔn)偏差。
      圖6所示為從發(fā)言中檢測到的有聲語音以及GEMS信號(hào)和噪聲。
      圖7所示為用于PSAD系統(tǒng)的一個(gè)實(shí)施例中的麥克風(fēng)陣列。
      圖8所示為一個(gè)實(shí)施例中對(duì)于幾個(gè)Δd值Δm對(duì)d1的比值曲線。
      圖9所示為作為H1(z)的絕對(duì)值與麥克風(fēng)1的聲學(xué)數(shù)據(jù)或音頻之和的增益參數(shù)曲線。
      圖10所示為圖9所示的聲學(xué)數(shù)據(jù)的另外一種替換曲線。
      在附圖中,相同的參考數(shù)字代表相同或?qū)嵸|(zhì)相似的元件或操作。
      這里提供的任何標(biāo)題只是為方便描述,不會(huì)影響本發(fā)明的范圍和意義。
      具體實(shí)施例方式
      以下提供從背景噪音中分辨有聲和無聲語音的系統(tǒng)和方法包括非聲學(xué)傳感器有聲語音活動(dòng)檢測(Non-Acoustic Sensor Voiced Speech ActivityDetection,NAVSAD)系統(tǒng)和尋路器語音活動(dòng)檢測(Pathfinder SpeechActivity Detection,PSAD)系統(tǒng)。在允許從背景噪音中將無聲語音和有聲語音進(jìn)行分離和分類的同時(shí),本文所述的消除和降低噪音的方法在不使信號(hào)失真的情況下,通過使所關(guān)注的聲學(xué)信號(hào)變得清晰而克服現(xiàn)有技術(shù)中已知的典型系統(tǒng)的缺點(diǎn)。
      圖1所示為一個(gè)實(shí)施例中NAVSAD系統(tǒng)100的框圖。NAVSAD系統(tǒng)將麥克風(fēng)10和傳感器20耦合到至少一個(gè)處理器30。實(shí)施例中的傳感器20包括發(fā)音檢測器和非聲學(xué)傳感器。處理器30控制子系統(tǒng)包括一個(gè)檢測子系統(tǒng)50,本文稱為檢測算法和降噪子系統(tǒng)40。對(duì)于降噪子系統(tǒng)40的操作在相關(guān)的申請(qǐng)中給予了詳細(xì)描述。NAVSAD系統(tǒng)在任何背景噪聲環(huán)境中都能達(dá)到比較好的工作性能。
      圖2所示為一個(gè)實(shí)施例中PSAD系統(tǒng)200的框圖。PSAD系統(tǒng)將麥克風(fēng)10耦合到至少一個(gè)處理器30。處理器30包括一個(gè)檢測子系統(tǒng)50(本文稱為檢測算法)和一個(gè)降噪子系統(tǒng)40。PSAD系統(tǒng)在低噪聲環(huán)境中具有高效的敏感性,而在高噪聲環(huán)境中相對(duì)不敏感。PSAD能獨(dú)立操作或作為對(duì)NAVSAD的備份,如果NAVSAD出現(xiàn)故障,PSAD檢測有聲語音。
      需要注意的是,實(shí)施例中的NAVSAD和PSAD系統(tǒng)的檢測子系統(tǒng)50和降噪子系統(tǒng)40都是被處理器30控制的算法,但不限于此。NAVSAD和PSAD系統(tǒng)的替換實(shí)施例可以包括檢測子系統(tǒng)50和/或降噪子系統(tǒng)40,其包括附加硬件、固件和軟件。而且,檢測子系統(tǒng)50和降噪子系統(tǒng)40的功能可以在NAVSAD和PSAD系統(tǒng)的許多組件上分布。
      圖3所示為一個(gè)實(shí)施例中的一個(gè)本文稱為尋路器系統(tǒng)的降噪子系統(tǒng)300的框圖。下文對(duì)尋路器系統(tǒng)進(jìn)行簡要描述,在相關(guān)申請(qǐng)中對(duì)其進(jìn)行詳細(xì)描述。尋路器系統(tǒng)中使用了兩個(gè)麥克風(fēng)Mic 1和Mic 2,Mic 1看作“信號(hào)”麥克風(fēng)。參考圖1,當(dāng)發(fā)音活動(dòng)檢測器(VAD)320為非聲學(xué)有聲傳感器20,且噪聲消除子系統(tǒng)340包括檢測子系統(tǒng)50和降噪子系統(tǒng)40時(shí),尋路器系統(tǒng)300相當(dāng)于NAVSAD系統(tǒng)100。參考圖2,當(dāng)降噪系統(tǒng)340包括檢測子系統(tǒng)50和降噪子系統(tǒng)40時(shí),尋路器系統(tǒng)300相當(dāng)于VAD 320不存在時(shí)的PSAD系統(tǒng)200。
      NAVSAD和PSAD系統(tǒng)支持兩級(jí)商業(yè)方法,其中(i)相對(duì)便宜的PSAD系統(tǒng)支持聲學(xué)方法,該方法通常在中低噪聲環(huán)境中運(yùn)行,(ii)NAVSAD系統(tǒng)將添加非聲學(xué)傳感器,以便在任何環(huán)境中都能檢測有聲語音。使用傳感器通常不能正確檢測到無聲語音,因?yàn)闊o聲語音通常不能充分地振動(dòng)人的組織。然而,在高噪聲環(huán)境下,檢測無聲語音并不十分重要,因?yàn)闊o聲語音通常能量低且容易被噪音沖淡。因此,在高噪聲環(huán)境下,無聲語音不可能影響有聲語音的降噪。無聲語音信息在噪聲很小或沒有的情況下是最重要的,因此,無聲檢測在低噪聲環(huán)境下應(yīng)該是高度敏感的,而在高噪聲環(huán)境下是不敏感的。這很難實(shí)現(xiàn),現(xiàn)有技術(shù)中相應(yīng)的無聲檢測器不能在這些環(huán)境限制下工作。
      NAVSAD和PSAD系統(tǒng)包括進(jìn)行語音檢測的陣列算法,該陣列算法使用兩個(gè)麥克風(fēng)之間的頻譜之差來計(jì)算兩個(gè)麥克風(fēng)的信號(hào)之間的關(guān)系。這和傳統(tǒng)的試圖使用每個(gè)麥克風(fēng)的時(shí)間/相位差來消除“敏感區(qū)域”外的噪聲大不相同。這里所述的方法提供一個(gè)很大的優(yōu)點(diǎn),他們不需要根據(jù)信號(hào)對(duì)陣列進(jìn)行特殊的定向。
      而且,這里所述的系統(tǒng)對(duì)每種類型和每種方向的噪聲都敏感,不像傳統(tǒng)的陣列依賴特定的噪聲方向。因此,本文所述基于頻率的陣列是獨(dú)特的,因?yàn)樗麄儍H僅依賴于兩個(gè)麥克風(fēng)自身的相對(duì)方向,而不依賴于信號(hào)和噪音相對(duì)麥克風(fēng)的方向。這導(dǎo)致關(guān)于噪聲的類型、麥克風(fēng)以及噪聲/信號(hào)源和麥克風(fēng)之間的方向的高效的信號(hào)處理系統(tǒng)。
      本文所述的系統(tǒng)使用來自尋路器噪聲抑制系統(tǒng)和/或相關(guān)申請(qǐng)所述的非聲學(xué)傳感器的信息,以確定輸入信號(hào)的發(fā)音狀態(tài),下文將給予詳細(xì)說明。發(fā)音狀態(tài)包括不發(fā)音、有聲和無聲狀態(tài)。例如,NAVSAD系統(tǒng)包括一個(gè)非聲學(xué)傳感器,以檢測和語音相關(guān)的人體組織的振動(dòng)。實(shí)施例中的非聲學(xué)傳感器是一個(gè)通用電磁運(yùn)動(dòng)傳感器(GEMS),本文給予簡要介紹,在相關(guān)的申請(qǐng)中有其詳細(xì)描述,但并不限于此。然而,在變換實(shí)施例中,可以使用任何能夠檢測和語音相關(guān)聯(lián)的人體組織運(yùn)動(dòng)的傳感器,而且不受周圍聲音噪聲的影響。
      GEMS為一個(gè)射頻(RF)裝置(2.4GHz),其允許對(duì)移動(dòng)的人體組織絕緣介面進(jìn)行檢測。GEMS包括一個(gè)RF干涉儀,該RF干涉儀使用零差混合以檢測和目標(biāo)動(dòng)作相關(guān)聯(lián)的很小的相位偏移。本質(zhì)上講,傳感器發(fā)出弱的電磁波(小于1毫瓦),該電磁波反射掉在傳感器的周圍的電磁波。反射波中混有原始傳輸?shù)牟ㄒ约皩?duì)目標(biāo)位置的任何變化而分析的結(jié)果。任何在傳感器附近移動(dòng)的物體都將導(dǎo)致反射波的相位變化,將該反射波將進(jìn)行放大并以傳感器輸出的電壓變化的方式而輸出顯示出來。加州大學(xué)戴維斯分校的Gregory C.Burnett(1999)在博士論文“Thephysiological basis of glottal electromagnetic micropower sensors(GEMS)and their use in defining an excitation function for the human vocal tract”中對(duì)類似的傳感器進(jìn)行過描述。
      圖4所示為一個(gè)實(shí)施例中用于檢測有聲和無聲語音的檢測算法50的流程圖。參考圖1和圖2,實(shí)施例中的NAVSAD和PSAD系統(tǒng)包括一個(gè)作為檢測子系統(tǒng)50的檢測算法50。該檢測算法50在實(shí)施例中實(shí)時(shí)工作,在20毫秒的限幅內(nèi)操作,每次變化10毫秒,但不限于此。在前10毫秒對(duì)話音活動(dòng)檢測進(jìn)行記錄,在第二個(gè)10毫秒行使“前望(look-ahead)”緩沖器的作用。該實(shí)施例使用20/10限幅,變換實(shí)施例可以使用限幅值的許多其它組合。
      在開發(fā)檢測算法50的時(shí)候?qū)Υ罅康亩嗑S因素進(jìn)行考慮。考慮最多的是維持尋路器降噪技術(shù)的有效性,其詳細(xì)說明見相關(guān)的申請(qǐng),回顧于此。如果在語音方面而非噪聲方面執(zhí)行適應(yīng)濾波器的訓(xùn)練,則尋路器性能會(huì)降低。因此,很重要的一點(diǎn)是,不要為使這種干擾保持在最小而從VAD中排除任何數(shù)目巨大的語音。
      也需要考慮有聲和無聲語音信號(hào)的特性準(zhǔn)確性以及從噪聲信號(hào)中區(qū)分出每路語音信號(hào)。這種特性可應(yīng)用于例如語音識(shí)別和發(fā)言者驗(yàn)證的多種應(yīng)用中。
      而且,實(shí)施例中使用檢測算法的系統(tǒng)適合在包含大量變化的背景聲學(xué)噪聲的環(huán)境中運(yùn)行。如果使用非聲學(xué)傳感器,對(duì)于有聲語音,這種外部噪聲不是問題。然而,無聲語音(以及在非聲學(xué)傳感器不能使用或出現(xiàn)故障時(shí)的有聲語音)僅僅依賴于聲學(xué)數(shù)據(jù),以便從無聲語音中分離出噪聲。為有助于無聲語音的檢測,本文的一個(gè)優(yōu)點(diǎn)是在尋路器噪聲抑制系統(tǒng)的實(shí)施例中使用兩個(gè)麥克風(fēng),同時(shí)充分利用麥克風(fēng)之間的位置關(guān)系。然而,噪聲音級(jí)很高,使得幾乎不能檢測到語音,而單獨(dú)的聲學(xué)方法不能奏效。這種情況下,為保證良好的性能就需要非聲學(xué)傳感器(或下文中稱為傳感器)就需要。
      在兩麥克風(fēng)系統(tǒng)中,在一個(gè)指定麥克風(fēng)中的語音源中應(yīng)該比另外一個(gè)麥克風(fēng)中相對(duì)洪亮一些。測試證明,由于任何噪聲都會(huì)導(dǎo)致具有一接近1的增益的H1,因此當(dāng)麥克風(fēng)置于頭部時(shí),可利用現(xiàn)有的麥克風(fēng)輕易滿足這種要求。
      根據(jù)NAVSAD系統(tǒng),參考圖1和圖3,NAVSAD依賴于兩個(gè)參數(shù)檢測有聲語音。這兩個(gè)參數(shù)包括所涉及限幅中的傳感器的能量(其在一實(shí)施例中由標(biāo)準(zhǔn)偏差(SD)確定),以及可選地麥克風(fēng)1的聲學(xué)信號(hào)和傳感器數(shù)據(jù)之間的交叉相關(guān)性(XCORR)。傳感器的能量可以通過多種方法中的任何一種方法來確定,而SD只是用于確定能量的一種便捷的方法。
      對(duì)于傳感器,SD等效于信號(hào)能量,一般精確地對(duì)應(yīng)于發(fā)音狀態(tài),但可能易受移動(dòng)噪聲(用戶傳感器的相對(duì)移動(dòng))和/或電磁噪聲的影響。為更好的從組織運(yùn)動(dòng)中分辨出傳感器噪聲,可以使用XCORR。XCORR僅僅計(jì)算至15個(gè)延遲,該延遲在8000Hz時(shí)對(duì)應(yīng)于僅不足2毫秒。
      當(dāng)傳感器信號(hào)以某種形式失真或調(diào)制時(shí),XCORR也可以有效。例如,存在一些傳感器位置(例如下頜或頸后),在這些位置中語音產(chǎn)生能被檢測到但信號(hào)可能含有不正確的或失真的基于時(shí)間的信息。也就是說,它們可能不具有被良好定義的特性,該特性與聲波波形相匹配。然而,XCORR更容易受到來自聲學(xué)噪聲錯(cuò)誤的影響,并且在高的(<0dB SNR)環(huán)境下幾乎不起作用。因此,不能將其作為發(fā)音信息的唯一來源。
      傳感器檢測與聲帶的閉合相關(guān)聯(lián)的人體組織運(yùn)動(dòng),因此該聲帶的閉合產(chǎn)生的聲學(xué)信號(hào)與閉合高度相關(guān)。因此,將和聲學(xué)信號(hào)高度相關(guān)的傳感器數(shù)據(jù)當(dāng)作語音,將相關(guān)性不好的傳感器數(shù)據(jù)稱為噪聲。由于聲音的速度相對(duì)較慢(約330m/s)而產(chǎn)生延遲時(shí)間,因此可預(yù)期聲學(xué)數(shù)據(jù)滯后于傳感器數(shù)據(jù)約0.1至0.8毫秒(或約1-7個(gè)樣本)。然而,由于聲波波形隨產(chǎn)生的聲音不同而變化顯著,因此實(shí)施例中使用15個(gè)樣本相關(guān),同時(shí)還需要較大的相關(guān)寬度以確保證檢測的進(jìn)行。
      SD和XCORR信號(hào)是相關(guān)的,但二者很不相同,因此有聲語音的檢測是更可靠的。為簡單起見,可以使用二個(gè)參數(shù)中的任意一個(gè)。將SD和XCORR的值與試驗(yàn)門限比較,如果兩個(gè)都在門限以上,則認(rèn)為是有聲語音。以下給出例證數(shù)據(jù)并給予說明。
      圖5A、圖5B和圖6所示為一個(gè)實(shí)施例中,一個(gè)主體兩次講短語“poppan”時(shí)的例證數(shù)據(jù)圖。圖5A所示為接收到的此次講話的GEMS信號(hào)502、GEMS信號(hào)和Mic 1信號(hào)之間的平均相關(guān)504以及用于有聲語音檢測的門限T1。圖5B所示為接收到的此次講話的GEMS信號(hào)502、GEMS信號(hào)的標(biāo)準(zhǔn)偏差506和用于有聲語音檢測的門限T2。圖6所示為從聲學(xué)或音頻信號(hào)608中檢測的有聲語音602、GEMS信號(hào)604以及聲學(xué)噪聲606;由于嚴(yán)重的背景多路重合噪聲606的影響,在該例中檢測不到無聲語音。對(duì)門限進(jìn)行設(shè)定,以使實(shí)際上不存在假負(fù)數(shù)(false negative),只存在偶爾的假正數(shù)(false positive)。在任何聲學(xué)背景噪聲條件下,都能夠?qū)崿F(xiàn)大于99%的有聲語音活動(dòng)檢測精確度。
      根據(jù)非聲學(xué)傳感器數(shù)據(jù),NAVSAD能以較高級(jí)別的精確度確定有聲語音什么時(shí)候產(chǎn)生。然而,對(duì)于將無聲語音從噪聲中分離出來,傳感器幾乎提供不了幫助,因?yàn)樵诖蠖鄶?shù)非聲學(xué)傳感器中,有聲語音通常不產(chǎn)生可檢測信號(hào)。如果有可檢測信號(hào),則可以使用NAVSAD,雖然由于無聲語音一般相關(guān)很小而SD方法的使用是決定性的。當(dāng)缺乏可檢測信號(hào)時(shí),在確定無聲語音何時(shí)發(fā)生方面,采用尋路器噪聲去除算法的系統(tǒng)和方法。下面簡要描述尋路器算法,而其詳細(xì)描述見相關(guān)的申請(qǐng)。
      參考圖3,進(jìn)入麥克風(fēng)1的聲學(xué)信息由m1(n)表示,進(jìn)入麥克風(fēng)2的信息同理由m2(n)表示,假設(shè)可利用GEMS傳感器來確定有聲語音區(qū)域。當(dāng)定義域?yàn)閦(數(shù)字頻率)時(shí),可將這些信號(hào)表示為M1(z)和M2(z)。則M1(z)=S(z)+N2(z)M2(z)=N(z)+S2(z)
      其中N2(z)=N(z)H1(z)S2(z)=S(z)H2(z)M1(z)=S(z)+N(z)H1(z)由此M2(z)=N(z)+S(z)H2(z)(1)這是對(duì)所有具有兩個(gè)麥克風(fēng)的系統(tǒng)的通用公式??倳?huì)有一些噪聲漏泄進(jìn)入Mic 1,而一些噪聲漏泄進(jìn)入Mic 2。方程式1有四個(gè)未知量,而且僅有兩個(gè)關(guān)系式,因此不能精確求解。
      然而,存在另外一種方法可用于求解方程式1中的一些未知量??疾樾盘?hào)沒有產(chǎn)生的情況,即當(dāng)表示發(fā)音的GEMS信號(hào)未出現(xiàn)時(shí)。這種情況下,s(z)=S(z)=0,方程式1簡化為M1n(z)=N(z)H1(z)M2n(z)=N(z)其中,變量M的下標(biāo)n表示只有噪聲正在被接收。于是方程式變?yōu)镸1n(z)=M2n(z)H1(z)H1(z)=M1n(z)M2n(z)---(2)]]>H1(z)可以通過任何一種有效系統(tǒng)識(shí)別算法來計(jì)算,且麥克風(fēng)在只接收噪聲的情況下才輸出。計(jì)算可以自適應(yīng)進(jìn)行,因此如果噪聲發(fā)生顯著變化,可以迅速計(jì)算出H1(z)。
      通過解方程式1中的一個(gè)變量的解,使用GEMS的波幅或類似的裝置以及兩個(gè)麥克風(fēng)的波幅,可以找到另外一個(gè)變量H2(z)的解。當(dāng)GEMS表示話音,但麥克風(fēng)最近的(小于1秒)歷史表示較低音級(jí)的噪聲時(shí),假設(shè)n(s)=N(z)~0。于是方程式1簡化為
      M1s(z)=S(z)M2s(z)=S(z)H2(z)然后,依次可得到M2s(z)=M1s(z)H2(z)H2(z)=M2s(z)M1s(z)]]>該式為計(jì)算H1(z)的反換式,但是需要注意的是,使用不同的輸入。
      從上述步驟計(jì)算出H1(z)和H2(z)之后,利用它們從信號(hào)中去除噪聲。方程式1重寫為S(z)=M1(z)-N(z)H1(z)N(z)=M2(z)-S(z)H2(z)S(z)=M1(z)-[M2(z)-S(z)H2(z)]H1(z)S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z)求解S(z)為S(z)=M1(z)-M2(z)H1(z)1-H2(z)H1(z)---(3)]]>實(shí)際上H2(z)通常很小,因此H2(z)H1(z)<<1,而且S(z)≈M1(z)-M2(z)H1(z),不需要計(jì)算H2(z)。
      參考圖2和圖3,對(duì)PSAD系統(tǒng)給予說明。當(dāng)聲波傳播時(shí),由于衍射和色散現(xiàn)象的存在,傳輸時(shí)通常會(huì)損失能量。假設(shè)聲波產(chǎn)生于一個(gè)點(diǎn)聲源,且各向同性地輻射,則它們的幅度將作為1/r的函數(shù)而降低,其中r為至聲源點(diǎn)的距離。此與幅度成正比的1/r的函數(shù)是最差的情況,如果限制在一個(gè)較小的區(qū)域,則會(huì)有很小的減幅。然而對(duì)于所關(guān)注的配置,該模型足矣,尤其對(duì)于向位于用戶頭上某處的麥克風(fēng)傳輸噪聲和語音的情況。
      圖7所示為用于PSAD系統(tǒng)的一個(gè)實(shí)施例中所使用的麥克風(fēng)陣列。將Mic 1和Mic 2以線性陣列排列,嘴位于陣列的中線上,Mic 1和Mic 2(假設(shè)兩個(gè)麥克風(fēng)具有相同的頻率反應(yīng))中的信號(hào)強(qiáng)度差正比于d1和Δd。假設(shè)1/r(或本例中的1/d)關(guān)系,如下式所述&Delta;M=|Mic1||Mic2|=&Delta;H1(z)&Proportional;d1+&Delta;dd1]]>其中,Δm為Mic 1和Mic 2之間的增益之差,因此等于H1(z),如上由方程式2所示。變量d1為從Mic 1到語音或噪聲源的距離。圖8所示為一個(gè)實(shí)施例中,在幾個(gè)Δd值的情況下,Δm與d1的比值曲線800。從圖中可清楚地看出,當(dāng)Δd變大同時(shí)噪聲源靠近時(shí),Δm變大。從陣列中線的最大值到垂直于陣列中線的零,變量Δd將依賴于相對(duì)語音/噪聲源的方向變化而變化。從曲線800可以清晰的看出,對(duì)于較小的Δd和超過大約30厘米(cm)的距離,Δm接近于1。由于大部分噪聲源遠(yuǎn)于30cm,而且不是在陣列的中線上,因此有可能在按上述方程式2計(jì)算H1(z)時(shí),Δm(或等效地H1(z)的增益)將接近于1。相反,對(duì)于近距離的噪聲源(幾厘米之內(nèi)),則增益根據(jù)哪個(gè)麥克風(fēng)更接近于噪聲而具有顯著的不同。
      如果“噪聲”是用戶發(fā)出的,而且Mic 1較Mic 2離嘴更近,則增益提高。由于環(huán)境噪聲與語音相比通常產(chǎn)生于距離用戶的頭更遠(yuǎn)的位置,因此當(dāng)H1(z)的增益接近于1或某一固定的值時(shí),就可以發(fā)現(xiàn)噪聲,語音可以在增益的劇烈上升后被發(fā)現(xiàn)。語音可以是無聲的或有聲的,只要相對(duì)于周圍的噪聲有足夠的音量。在語音部分,增益將停留在某一高度,然后語音停止之后會(huì)迅速下降。H1(z)的增益的快速上升或下降應(yīng)該足夠大,以便在任何環(huán)境下都能檢測語音。本例中的增益通過對(duì)過濾系數(shù)的絕對(duì)值求和來計(jì)算得出。該和不等于增益,但這兩個(gè)量是相關(guān)的,即絕對(duì)值之和的增大反應(yīng)出增益的增大。
      作為這種行為的一個(gè)例子,圖9所示為作為H1(z)的絕對(duì)值與麥克風(fēng)1的聲學(xué)數(shù)據(jù)904或音頻之和的增益參數(shù)902的曲線900。語音信號(hào)是重復(fù)兩次短語“pop pan”的一段講話。雖然1500Hz到2500Hz在實(shí)際中額外使用,但估計(jì)的帶寬包括從2500Hz到3500Hz的頻率范圍。注意當(dāng)首先遇到無聲語音時(shí),增益驟然變大,并且在語音結(jié)束時(shí)返回到正常的狀態(tài)??衫萌魏螛?biāo)準(zhǔn)信號(hào)處理技術(shù)檢測到導(dǎo)致噪聲和語音之間過渡的這種增益的顯著變化。通過由標(biāo)準(zhǔn)偏差和標(biāo)準(zhǔn)偏差噪聲底限(floor)的移動(dòng)平均來定義門限,對(duì)最后一段增益的標(biāo)準(zhǔn)偏差進(jìn)行計(jì)算。為清楚起見,有聲語音的增益的后段變化在曲線900中被刪除。
      圖10所示為圖9所示的聲學(xué)數(shù)據(jù)的另外一種替換曲線1000。在曲線1000中再次示出用于形成曲線900的數(shù)據(jù),并且曲線1000中還示出了無噪聲的音頻數(shù)據(jù)1004和GEMS數(shù)據(jù)1006,以使無聲語音清晰。有聲信號(hào)1002有三種可能的值0表示噪聲,1表示無聲語音,2表示有聲語音。只有V=0進(jìn)行降噪處理。很明顯,除每個(gè)“pop”末端附近的檢測出的兩個(gè)單獨(dú)的信號(hào)丟失之外,無聲語音被很好地捕獲到。然而,這些單獨(dú)的限幅信號(hào)丟失并不常見,因而不會(huì)嚴(yán)重影響降噪算法。使用標(biāo)準(zhǔn)平滑技術(shù),能夠輕易將之去除。
      從曲線1000中不能明顯看出的是,PSAD系統(tǒng)作為NAVSAD的自動(dòng)備份。這是因?yàn)槿绻麄鞲衅骰騈AVSAD系統(tǒng)由于任何原因出現(xiàn)故障,有聲語音(和無聲語音一樣,由于具有和麥克風(fēng)相同的空間位置關(guān)系)將被檢測為無聲語音。有聲語音將被被誤分為無聲語音,即使在保證語音信號(hào)質(zhì)量的情況下,仍然不能實(shí)現(xiàn)降噪。
      然而,由于高功率的(10dB SNR或少于10dB SNR)聲學(xué)噪聲會(huì)快速淹沒任何包括PSAD的唯聲學(xué)(acoustic-only)無聲檢測器,因此對(duì)NAVSAD系統(tǒng)的自動(dòng)備份在低噪聲(大約10+dB SNR)的環(huán)境下工作性能最佳。這在圖6和圖10中的曲線600和100中所示的有聲信號(hào)數(shù)據(jù)602和1002的差別中可以很明顯的看出,其中進(jìn)行了相同的講話,但由于無聲語音檢測不到曲線600不顯示無聲語音。如果無聲語音檢測不到,那么它將不會(huì)嚴(yán)重影響降噪處理,這是進(jìn)行降噪時(shí)所期望的情況。使用該尋路器系統(tǒng)對(duì)無聲語音進(jìn)行檢測能保證檢測任何大到足以使降噪失真的無聲語音。
      對(duì)于硬件方面的考慮,結(jié)合圖7,麥克風(fēng)的配置會(huì)影響與語音相關(guān)聯(lián)的增益的變化和檢測語音所需的門限。一般來說,每種配置都需要測驗(yàn),以確定正確的門限,但是采用兩個(gè)麥克風(fēng)的配置進(jìn)行的測驗(yàn)顯示相同的門限且其它參數(shù)工作良好。第一組麥克風(fēng)將信號(hào)麥克風(fēng)置于嘴附近并將噪聲麥克風(fēng)置于離耳朵幾厘米遠(yuǎn)的位置,而第二種配置將噪聲麥克風(fēng)和信號(hào)麥克風(fēng)以背對(duì)背的方式置于嘴的幾厘米之內(nèi)。本文給出的結(jié)果是使用第一種麥克風(fēng)配置得到的,但使用另一組麥克風(fēng)得到的效果實(shí)際上是相同的,因此使用兩種麥克風(fēng)結(jié)構(gòu)的檢測算法是相當(dāng)有效的。
      多種配置都可以使用NAVSAD和PSAD系統(tǒng)來對(duì)有聲和無聲語音進(jìn)行檢測。一種配置使用NAVSAD系統(tǒng)(僅僅是非聲學(xué))檢測有聲語音,同時(shí)使用PSAD系統(tǒng)檢測無聲語音;PSAD系統(tǒng)也直至NAVSAD系統(tǒng)的備份功能而檢測有聲語音。一種替換配置使用NAVSAD系統(tǒng)(和聽覺非聲學(xué)相關(guān))檢測有聲語音,同時(shí)使用PSAD系統(tǒng)檢測無聲語音;PSAD系統(tǒng)起NAVSAD系統(tǒng)的備份功能而檢測有聲語音。另一種替換配置使用PSAD系統(tǒng)檢測有聲語音和無聲語音。
      以上通過論述如何從背景噪聲中分離出有聲和無聲語音的過程對(duì)本系統(tǒng)進(jìn)行了說明,不存在不能進(jìn)行更復(fù)雜的分類的理由。對(duì)于語音的更深的特性,系統(tǒng)可以對(duì)來自Mic 1和Mic 2的信息進(jìn)行帶通,由此可以看出,Mic 1數(shù)據(jù)中的哪段帶寬是更多地由噪聲組成,哪段帶寬對(duì)語音的權(quán)重更多。使用這個(gè)知識(shí),根據(jù)它們和現(xiàn)有聲學(xué)方法中相似的頻譜特性,即可對(duì)講話進(jìn)行分組,該方法在嘈雜的環(huán)境中作用良好。
      例如,“kick”中的“k”具有從500Hz到4000Hz的有效頻譜,但“she”中的“sh”僅僅具有1700-4000Hz的有效能量。對(duì)有聲語音可以采用類似的方法進(jìn)行分類。例如,/i/(“ee”)具有從大約300Hz到2500Hz的有效能量,/a/(“ah”)具有從大約900Hz到1200Hz的能量。因此,這種對(duì)有聲和無聲語音的分辨力在噪聲存在的環(huán)境中是很有用的。
      本文給出的流程圖中所描述的每個(gè)步驟自身都可包括無需在本文中說明的操作順序。相關(guān)領(lǐng)域的技術(shù)人員可以根據(jù)流程圖和本文提供的詳細(xì)說明建立用于實(shí)施本發(fā)明的例程、算法、源碼、微碼、程序邏輯陣列,或者其他手段。本文所述的例程可以包括一個(gè)或多個(gè)下述步驟,或一個(gè)或多個(gè)下述步驟的組合將形成相關(guān)聯(lián)的一個(gè)或多個(gè)處理器的一部分的內(nèi)容存儲(chǔ)在非易失性存儲(chǔ)器(未示)中、或使用傳統(tǒng)的程序邏輯陣列或電路元件來實(shí)施、或存儲(chǔ)在例如磁盤等移動(dòng)媒體中中、或從服務(wù)器下載并存儲(chǔ)在本地客戶中、或在例如EEPROM等半導(dǎo)體芯片中進(jìn)行硬連線或預(yù)編程、多個(gè)專用集成電路(ASIC),或數(shù)字信號(hào)處理器(DSP)集成電路。
      除在本文另外說明之外,在此所述信息為公知的且其詳細(xì)說明見相關(guān)申請(qǐng)。實(shí)際上,本文提供的很多詳細(xì)說明在相關(guān)申請(qǐng)中都給予明確的公開;本發(fā)明的大部分附加資料都可以被相關(guān)領(lǐng)域的技術(shù)人員所認(rèn)識(shí),因?yàn)槠湓谙嚓P(guān)申請(qǐng)中都進(jìn)行過詳細(xì)的描述或者對(duì)相關(guān)領(lǐng)域的技術(shù)人員來說是公知技術(shù)。相關(guān)領(lǐng)域的技術(shù)人員能根據(jù)該資料和相關(guān)申請(qǐng)中的詳細(xì)描述實(shí)現(xiàn)本發(fā)明的各個(gè)方面。
      除非明確地另有要求之外,在整個(gè)說明書和權(quán)利要求書中,對(duì)于詞語“包括(comprise)”、“包括(comprising)”類似詞語應(yīng)作廣義地解釋,而非狹義地或詳盡地解釋;即,應(yīng)為“包括,但并不限于”的意思。使用單數(shù)或復(fù)數(shù)修飾的詞也分別包括復(fù)數(shù)和單數(shù)。此外,當(dāng)用在申請(qǐng)文件中時(shí),詞語“本文”、“下文”以及含義相近的詞應(yīng)該指的是該申請(qǐng)的整體,而不是指申請(qǐng)的任一具體部分。
      本發(fā)明中所述的實(shí)施例并非窮舉性的,也不是用于限制本發(fā)明的確切公開形式。相關(guān)領(lǐng)域的技術(shù)人員應(yīng)明確本文所述具體的實(shí)施例或?qū)嵗糜诮忉尩哪康模诒景l(fā)明范圍內(nèi)可以做出各種等效變換。本文所提供的本發(fā)明的訓(xùn)練法還可以應(yīng)用于信號(hào)處理系統(tǒng),不僅僅用于上述語音信號(hào)的處理。而且,可以對(duì)上述的各個(gè)實(shí)施例的元件和步驟進(jìn)行組合以形成其它的實(shí)施例。
      通過引用將上述所有的參考資料和相關(guān)申請(qǐng)并入本文。為采用上述各參考資料的系統(tǒng)、功能以及原理,如果必要的話,可以對(duì)本發(fā)明的各個(gè)方面進(jìn)行修改,和,以提供本發(fā)明其他實(shí)施例。
      通過理解上述說明,可以對(duì)本發(fā)明進(jìn)行這些以及其他變化。一般來說,在下述權(quán)利要求書中,所使用的術(shù)語不應(yīng)該理解為將本發(fā)明限制在說明書和權(quán)利要求書中所公開的具體實(shí)施例,而應(yīng)該理解為包括在根據(jù)權(quán)利要求而工作的所有的語音信號(hào)系統(tǒng),以提供實(shí)現(xiàn)方法。因此,本發(fā)明的范圍不限于所公開的內(nèi)容制,而本發(fā)明的范圍應(yīng)該完全以權(quán)利要求書來界定。
      雖然本發(fā)明的一些方面以某個(gè)權(quán)利要求的形式體現(xiàn),但發(fā)明人在任一項(xiàng)權(quán)利要求中都對(duì)本發(fā)明的各個(gè)方面進(jìn)行了考慮。因此,本發(fā)明保留在提交申請(qǐng)之后增加額外權(quán)利要求的權(quán)力,以便追加對(duì)應(yīng)本發(fā)明其它方面的額外的權(quán)利要求。
      權(quán)利要求
      1.一種檢測具有各種音級(jí)的背景噪聲的聲學(xué)信號(hào)中的有聲語音和無聲語音的系統(tǒng),包括至少兩個(gè)麥克風(fēng),用于接收聲學(xué)信號(hào);至少一個(gè)處理器,耦接在麥克風(fēng)之間,其中所述至少一個(gè)處理器產(chǎn)生在兩個(gè)麥克風(fēng)各自接收的聲學(xué)信號(hào)之間的差別參數(shù),所述差別參數(shù)表示所接收的聲學(xué)信號(hào)的各部分之間信號(hào)增益的相對(duì)差別;當(dāng)差別參數(shù)超過第一個(gè)門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為無聲語音;以及當(dāng)差別參數(shù)超過第二個(gè)門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為有聲語音。
      2.一種檢測具有各種音級(jí)的背景噪聲的聲學(xué)信號(hào)中的有聲語音和無聲語音的方法,包括在兩個(gè)接收器接收聲學(xué)信號(hào);產(chǎn)生在兩個(gè)接收器各自接收的聲學(xué)信號(hào)之間的差別參數(shù),所述差別參數(shù)表示所接收的聲學(xué)信號(hào)的各部分之間信號(hào)增益的相對(duì)差別;當(dāng)差別參數(shù)超過第一個(gè)門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為無聲語音;以及當(dāng)差別參數(shù)超過第二個(gè)門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為有聲語音。
      3.如權(quán)利要求2所述的方法,還包括利用對(duì)應(yīng)于差別參數(shù)產(chǎn)生的標(biāo)準(zhǔn)偏差來產(chǎn)生第一和第二門限。
      4.如權(quán)利要求2所述的方法,還包括當(dāng)差別參數(shù)小于第一個(gè)門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為噪聲;以及在識(shí)別的噪聲上進(jìn)行降噪處理。
      5.如權(quán)利要求2所述的方法,還包括接收和人的發(fā)音活動(dòng)相關(guān)聯(lián)的生理信息,所述生理信息包括利用從包括射頻裝置、電舌記錄器(electroglottograph),超聲裝置,聲學(xué)咽喉麥克風(fēng)(acoustic throat microphone)以及氣流檢測器的一組器件中選擇的至少一個(gè)檢測器,接收與人類發(fā)音相關(guān)的生理數(shù)據(jù)。
      6.一種檢測具有各種音級(jí)的背景噪聲的聲學(xué)信號(hào)中的有聲語音和無聲語音的系統(tǒng),包括至少兩個(gè)麥克風(fēng),用于接收聲學(xué)信號(hào);至少一個(gè)發(fā)音傳感器,用于接收和人的發(fā)音活動(dòng)相關(guān)聯(lián)的生理信息;以及至少一個(gè)處理器,耦接于麥克風(fēng)和發(fā)音傳感器之間,其中所述至少一個(gè)處理器產(chǎn)生生理信息和在兩個(gè)麥克風(fēng)之一處所接收的聲學(xué)信號(hào)之間的交叉相關(guān)數(shù)據(jù);當(dāng)對(duì)應(yīng)于在一個(gè)接收器接收的聲學(xué)信號(hào)的其中一部分信號(hào)的交叉相關(guān)數(shù)據(jù)超過相關(guān)門限時(shí),將有聲信號(hào)的信息識(shí)別為有聲語音;產(chǎn)生在兩個(gè)接收器各自接收的聲學(xué)信號(hào)之間的差別參數(shù),所述差別參數(shù)表示所接收的聲學(xué)信號(hào)的各部分之間信號(hào)增益的相對(duì)差別;當(dāng)差別參數(shù)超過增益門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為無聲語音;以及當(dāng)差別參數(shù)小于增益門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為噪聲。
      7.一種去除聲學(xué)信號(hào)中噪聲的方法,包括在兩個(gè)接收器處接收聲學(xué)信號(hào),并且在一個(gè)發(fā)音傳感器處接收和人的發(fā)音活動(dòng)相關(guān)的生理信息;產(chǎn)生在兩個(gè)接收器的每個(gè)接收器處接收的聲學(xué)信號(hào)與生理信息之間的交叉相關(guān)數(shù)據(jù);當(dāng)對(duì)應(yīng)于在一個(gè)接收器處接收的聲學(xué)信號(hào)的部分信號(hào)的交叉相關(guān)數(shù)據(jù)超過相關(guān)門限時(shí),將有聲信號(hào)的信息識(shí)別為有聲語音;產(chǎn)生在兩個(gè)接收器的每個(gè)接收器處所接收的聲學(xué)信號(hào)之間的差別參數(shù),所述差別參數(shù)表示所接收的聲學(xué)信號(hào)的各部分之間的信號(hào)增益的相關(guān)差別;當(dāng)所述差別參數(shù)超過增益門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為無聲語音;以及當(dāng)所述差別參數(shù)小于增益門限時(shí),將聲學(xué)信號(hào)的信息識(shí)別為噪聲。
      全文摘要
      本發(fā)明提供了用于從具有多種不同音級(jí)的背景噪聲的聲學(xué)信號(hào)中檢測有聲和無聲語音的系統(tǒng)和方法。系統(tǒng)(圖3)在兩個(gè)麥克風(fēng)(Mic1和Mic2)處接收聲學(xué)信號(hào),產(chǎn)生在兩個(gè)麥克風(fēng)(Mic1和Mic2)處各自接收的聲學(xué)信號(hào)之間的差別參數(shù)。差別參數(shù)用于表示所接收的聲學(xué)信號(hào)的各部分之間信號(hào)增益的相對(duì)差別。當(dāng)差別參數(shù)超過第一個(gè)門限時(shí),系統(tǒng)將聲學(xué)信號(hào)的信息識(shí)別為無聲語音;當(dāng)差別參數(shù)超過第二個(gè)門限時(shí),系統(tǒng)將聲學(xué)信號(hào)的信息識(shí)別為有聲語音。而且,系統(tǒng)的實(shí)施例包括非聲學(xué)傳感器(20),該非聲學(xué)傳感器接收生理信息,以便輔助識(shí)別有聲信息。
      文檔編號(hào)G10L15/02GK1513278SQ02810972
      公開日2004年7月14日 申請(qǐng)日期2002年5月30日 優(yōu)先權(quán)日2001年5月30日
      發(fā)明者格雷戈里·C·伯內(nèi)特, 格雷戈里 C 伯內(nèi)特 申請(qǐng)人:艾黎弗公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1