專利名稱:低復(fù)雜度聽覺事件邊界檢測(cè)的制作方法
低復(fù)雜度昕覺事件邊界檢測(cè)相關(guān)申請(qǐng)的交叉引用本申請(qǐng)主張于2009年4月30日提交的美國(guó)臨時(shí)專利申請(qǐng)第61/174,467號(hào)的優(yōu)先權(quán),其整體通過(guò)引用而并入此。
背景技術(shù):
依據(jù)本發(fā)明的各方面,聽覺事件邊界檢測(cè)器處理數(shù)字音頻采樣流以指示存在聽覺事件邊界的時(shí)間。令人感興趣的聽覺事件邊界可包括水平的突然增加(例如聲音或樂(lè)器的開始)以及譜平衡的改變(例如音高(Pitch)的改變和音色(timbre)的改變)。檢測(cè)這樣的事件邊界提供了聽覺事件邊界流,每一個(gè)聽覺事件邊界具有關(guān)于從中導(dǎo)出該聽覺事件邊界的音頻信號(hào)的發(fā)生時(shí)間。此聽覺事件邊界流可對(duì)于許多目的而言是有用的,這些目的包括控制具有最小可聽到的偽像的音頻信號(hào)的處理。例如,音頻信號(hào)的處理中的某些改變可只在聽覺事件邊界處或附近被允許。可受益于將處理限于聽覺事件邊界處或附近的時(shí)間點(diǎn)的例子可包括動(dòng)態(tài)范圍控制、響度控制、動(dòng)態(tài)均衡以及主動(dòng)矩陣化(active matrixing)(例如用于上混或下混音頻通道的主動(dòng)矩陣化)。一或多個(gè)以下的申請(qǐng)和專利與這樣的示例有關(guān),且每一個(gè)的整體通過(guò)引用被并入此美國(guó)專利7,508,947,2009 年 3 月 24 日,“Method for Combining Signals Using Auditory Scene Analysis”,Michael John Smithers,其也于 2006 年 2 月 23 日作為 WO 2006/019719A1公開。代理人檔案編號(hào)為D0L147。美國(guó)專利申請(qǐng)第11/999,159 號(hào),2007 年 12 月 3 日,"Channel Reconfiguration with Side Information”,Seefeldt 等人。其也于 2006 年 12 月 14 日作為 WO 2006/132857 公開。代理人檔案編號(hào)為D0L16101。美國(guó)專利申請(qǐng)第11/989,974 號(hào),2008 年 2 月 1 日,“Controlling Spacial Audio Coding Parameters as a Function of Auditory Events,,,Seefeldt 等人。其也于 2007 年2月8日作為WO 2007/016107公開。代理人檔案編號(hào)為D0L16301。美國(guó)專利申請(qǐng)第12/2 , 698 號(hào),2008 年 10 月 M 日,“Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection,,, Crockett 等人。其也于 2007 年 11月8日作為WO 2007/127023公開。代理人檔案編號(hào)為D0L186US。專利合作條約序號(hào)第PCT/US2008/008592號(hào),2008年7月11日“Audio Processing Using Auditory Scene Analysis and Spectral Skewness,,Smithers 等人。 其于2009年1月1日作為WO 2009/011827公開。代理人檔案編號(hào)為D0L220??商鎿Q地,音頻信號(hào)的處理中的某些改變可僅在聽覺事件邊界之間被允許??墒芤嬗趯⑻幚硐抻谙噜徛犛X事件邊界之間的時(shí)間的處理的例子可包括時(shí)間縮放和音高偏移 (pitch shifting)。以下申請(qǐng)與這樣的示例有關(guān),且其整體通過(guò)引用被并入此美國(guó)專利申請(qǐng)第10/474,387 號(hào),2003 年 10 月 7 日,“High Quality Time Scaling and Pitch-Scaling of Audio Signals", Brett Graham Crockett。 giiif 2002 $ 10 ^ 24日作為WO 2002/084645公開。代理人檔案編號(hào)為D0L07503。
聽覺事件邊界對(duì)于時(shí)間對(duì)準(zhǔn)或識(shí)別多個(gè)音頻通道也可是有用的。以下申請(qǐng)與這樣的示例有關(guān),且其等完整內(nèi)容合并于本文中以供參考美國(guó)專利7,洲3,954,2007 年 10 月 16 日,“Comparing Audio Using Characterizations Based on Auditory Events,,, Crockett 等人。其也于 2002 年 12 月 5 日作為WO 2002/097790公開。代理人檔案編號(hào)為D0L092。美國(guó)專利7,461,002,2008 年 12 月 2 日,“Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events,,,Crockett 等人。其也于2002年12月5日作為WO 2002/097791公開。代理人檔案編號(hào)為D0L09201。本發(fā)明針對(duì)將數(shù)字音頻信號(hào)變換成相關(guān)的聽覺事件邊界流。這樣的與音頻信號(hào)相關(guān)的聽覺事件邊界流對(duì)于以上所述的目的中的任一個(gè)或其它目的而言可是有用的。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)方面是如下實(shí)現(xiàn),即通過(guò)對(duì)數(shù)字音頻信號(hào)進(jìn)行子采樣以造成混疊且然后對(duì)該經(jīng)子采樣的信號(hào)進(jìn)行操作,可以較低的復(fù)雜度(例如低的存儲(chǔ)器需求和低的處理負(fù)擔(dān),且后者常常由“MIPS”、每秒百萬(wàn)條指令表征)完成數(shù)字音頻信號(hào)的譜中的改變的檢測(cè)。在子采樣后,該數(shù)字音頻信號(hào)的所有頻譜成分被保留在減小的帶寬中(它們被“折疊”至基帶內(nèi)),但是是以無(wú)序方式。通過(guò)檢測(cè)由子采樣產(chǎn)生的非混疊的信號(hào)成分和有混疊的信號(hào)成分的頻率內(nèi)容的改變,可隨時(shí)間檢測(cè)到數(shù)字音頻信號(hào)的譜的改變。術(shù)語(yǔ)“抽選(decimation),,常常在音頻領(lǐng)域中被用于表示在數(shù)字音頻信號(hào)的低通抗混疊后的數(shù)字音頻信號(hào)的子采樣或“下采樣”??够殳B濾波器通常被使用以最小化混疊信號(hào)成分從高于經(jīng)子采樣的奈奎斯特頻率到在經(jīng)子采樣的奈奎斯特頻率以下的非混疊(基帶)信號(hào)成分的“折疊”。例如參見<http://en. wikipedia. org/wiki/Decimation_(signal—processing)>。與通常的實(shí)踐相反,根據(jù)本發(fā)明的一些方面的混疊不需要與抗混疊濾波器相關(guān)聯(lián),實(shí)際上,希望混疊信號(hào)成分沒有被抑制而是與低于經(jīng)子采樣的奈奎斯特頻率的非混疊 (基帶)信號(hào)成分一起出現(xiàn),這在大部分音頻處理中是不希望的結(jié)果?;殳B和非混疊(基帶)信號(hào)成分的混合已被發(fā)現(xiàn)適用于檢測(cè)在數(shù)字音頻信號(hào)中的聽覺事件邊界,允許邊界檢測(cè)對(duì)于與沒有混疊時(shí)相比數(shù)量減少的信號(hào)采樣在減小的帶寬上進(jìn)行操作。已經(jīng)發(fā)現(xiàn),產(chǎn)生1. 5kHz的奈奎斯特頻率的具有48kHz的采樣率的數(shù)字音頻信號(hào)的更進(jìn)一步的子采樣(例如,忽略每16個(gè)采樣中的15個(gè)采樣,從而以3kHz輸送采樣并且得到1/256的運(yùn)算復(fù)雜度的降低)在只需要約50字的存儲(chǔ)器且少于0. 5MIPS的同時(shí)產(chǎn)生有用的結(jié)果。這些剛提及的示例值不是關(guān)鍵的。本發(fā)明不限于這些示例值。其它子采樣率可有用。盡管使用了混疊且可導(dǎo)致的降低的復(fù)雜度,當(dāng)采用混疊時(shí),在實(shí)際的實(shí)施例可獲得增加的對(duì)于數(shù)字音頻信號(hào)的改變的靈敏性。此意想不到的結(jié)果是本發(fā)明的一個(gè)方面。雖然上述的示例假定了具有48kHz的采樣率(常用專業(yè)音頻采樣率)的數(shù)字輸入信號(hào),但該采樣率僅僅是示例且不是關(guān)鍵的。其它數(shù)字輸入信號(hào)可被使用,例如 44. IkHz (標(biāo)準(zhǔn)的光盤采樣率)。本發(fā)明的針對(duì)48kHz輸入采樣率設(shè)計(jì)的實(shí)際實(shí)施例例如也可在44. IkHz令人滿意地操作,反的亦然。對(duì)于比本發(fā)明的裝置或過(guò)程針對(duì)其設(shè)計(jì)的輸入信號(hào)采樣率高或低約10%的那些采樣率,在該裝置或過(guò)程中的參數(shù)可能需要調(diào)整以實(shí)現(xiàn)令人滿意的操作。在本發(fā)明的優(yōu)選實(shí)施例中,可在沒有明確地計(jì)算經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜的情況下檢測(cè)經(jīng)子采樣的數(shù)字音頻信號(hào)中的頻率內(nèi)容的改變。通過(guò)采用此檢測(cè)方法,可使存儲(chǔ)器和處理復(fù)雜度的降低最大化。如以下所進(jìn)一步解釋的,這可通過(guò)將譜選擇濾波器 (例如線性預(yù)測(cè)濾波器)應(yīng)用于經(jīng)子采樣的數(shù)字音頻信號(hào)來(lái)實(shí)現(xiàn)。此方法的特征可在于在時(shí)域中發(fā)生。可替換地,可通過(guò)明確地計(jì)算經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜(例如通過(guò)使用時(shí)間至頻率的變換),檢測(cè)經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的改變。下面的申請(qǐng)與這樣的示例有關(guān)且其整體通過(guò)引用被并入此美國(guó)專利申請(qǐng)第10/478,538 號(hào),2003 年 11 月 20 H ,"Segmenting Audio Signals into Auditory Events", Brett Graham Crockett, ^ ik Ψ 2002 ^Ξ 12 ^ 5 H # ^ WO 2002/097792被公開。代理人檔案編號(hào)為D0L098。雖然此頻域方法因?yàn)槭褂脮r(shí)間至頻率變換而較時(shí)域方法需要較多的存儲(chǔ)器和處理,但是其確實(shí)對(duì)具有數(shù)量減少的采樣的上述的經(jīng)子采樣的數(shù)字音頻信號(hào)進(jìn)行操作,從而提供了與數(shù)字音頻信號(hào)未被下采樣的情況相比較低的復(fù)雜度(較小的變換)。因此,本發(fā)明的各方面包括明確地計(jì)算經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜以及不執(zhí)行此操作兩者。依據(jù)本發(fā)明的各方面檢測(cè)聽覺事件邊界可以是標(biāo)度不變的,使得音頻信號(hào)的絕對(duì)水平基本不影響事件檢測(cè)或事件檢測(cè)的靈敏度。依據(jù)本發(fā)明的各方面檢測(cè)聽覺事件邊界可最小化對(duì)于諸如噓聲、爆裂聲和背景噪聲的“猝發(fā)性(bursty) ”或類似噪聲信號(hào)狀況的假事件邊界的錯(cuò)誤檢測(cè)。如上所述,令人感興趣的聽覺事件邊界包括數(shù)字音頻采樣所代表的聲音或樂(lè)器的開始(水平的突然增加)和音高或音色的改變(譜平衡的改變)。通常可通過(guò)尋找瞬時(shí)信號(hào)水平(例如幅度或能量)的突然增加來(lái)檢測(cè)到開始。然而,如果樂(lè)器將在沒有任何中斷的情況下改變音高(例如連奏發(fā)音),信號(hào)水平改變的偵測(cè)不足以檢測(cè)到事件邊界。只檢測(cè)水平的突然增加將不能檢測(cè)到聲源的突然結(jié)束(其也可被視為是聽覺事件邊界)。依據(jù)本發(fā)明的一個(gè)方面,可通過(guò)使用自適應(yīng)性濾波器以追蹤每一連續(xù)音頻采樣的線性預(yù)測(cè)模型(LPC)來(lái)檢測(cè)音高的改變。該具有可變系數(shù)的濾波器預(yù)測(cè)未來(lái)的采樣將是什么,比較經(jīng)濾波的結(jié)果與實(shí)際信號(hào),且修改該濾波器以最小化誤差。當(dāng)經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜是靜態(tài)的時(shí),該濾波器將收斂且該誤差信號(hào)的水平將減少。當(dāng)頻譜改變時(shí),該濾波器將自適應(yīng),并且在該自適應(yīng)期間該誤差的水平將大得多。因而,可通過(guò)誤差的水平或?yàn)V波器系數(shù)必須改變的程度來(lái)檢測(cè)改變何時(shí)發(fā)生。如果頻譜的改變較自適應(yīng)性濾波器可自適應(yīng)的還快,這表現(xiàn)為預(yù)測(cè)濾波器的誤差水平的增加。該自適應(yīng)預(yù)測(cè)濾波器需要足夠長(zhǎng)以實(shí)現(xiàn)希望的頻率選擇性,且被調(diào)諧以具有適當(dāng)?shù)氖諗克俾室詤^(qū)分時(shí)間上的連續(xù)事件。諸如規(guī)格化最小均方的算法或其它適合的自適應(yīng)算法被用來(lái)更新濾波器系數(shù),以嘗試預(yù)測(cè)下一采樣。雖然這不是關(guān)鍵的且其它的自適應(yīng)速率也可被使用,但被設(shè)為以20至50ms收斂的濾波器自適應(yīng)速率已被發(fā)現(xiàn)是有用的。允許該濾波器以50ms收斂的自適應(yīng)速率允許事件以大約20Hz的速率被檢測(cè)到。這是可論證的人類的事件感知的最大速率。可替換地,由于譜的改變?cè)斐蔀V波器系數(shù)的改變,因此可以檢測(cè)那些系數(shù)的改變而不是檢測(cè)在誤差信號(hào)中的改變。然而,隨著移動(dòng)系數(shù)朝向收斂移動(dòng)系數(shù)更緩慢地改變,因而檢測(cè)系數(shù)的改變?cè)黾恿水?dāng)檢測(cè)誤差信號(hào)的改變時(shí)所不存在的延遲。雖然檢測(cè)濾波器系數(shù)的改變可能不需要任何規(guī)格化(而當(dāng)檢測(cè)誤差信號(hào)的改變時(shí)可能需要),但是通常來(lái)說(shuō),檢測(cè)誤差信號(hào)的改變比檢測(cè)濾波器系數(shù)的改變簡(jiǎn)單,需要較少的存儲(chǔ)器和處理能力。事件邊界與預(yù)測(cè)器誤差信號(hào)的水平的增加相關(guān)聯(lián)。短期誤差水平通過(guò)利用時(shí)間平滑濾波器對(duì)誤差的幅度或功率進(jìn)行濾波而獲得。然后,該信號(hào)具有在每一事件邊界顯示出急劇增加的特性。該信號(hào)的進(jìn)一步縮放及/或處理可被應(yīng)用,以產(chǎn)生指示事件邊界的定時(shí)的信號(hào)。經(jīng)由使用適當(dāng)?shù)拈撝岛拖拗?,該事件信?hào)可被提供作為二進(jìn)制的“是或否”或一范圍上的值。確切的處理和由預(yù)測(cè)器誤差信號(hào)導(dǎo)出的輸出將依賴于事件邊界檢測(cè)器的應(yīng)用和希望的靈敏度。本發(fā)明的一個(gè)方面是不是通過(guò)絕對(duì)譜平衡、而是通過(guò)譜平衡的相對(duì)改變來(lái)檢測(cè)聽覺事件邊界。因此,可應(yīng)用上述混疊技術(shù),其中原始數(shù)字音頻信號(hào)譜被分為較小的片段且被相互折疊,以產(chǎn)生用于分析的較小帶寬。從而,只有原始音頻采樣的一部分需要被處理。此方法具有減少有效帶寬、從而減少所需的濾波器長(zhǎng)度的優(yōu)點(diǎn)。因?yàn)橹挥性疾蓸拥囊徊糠中枰惶幚?,因此減少了計(jì)算復(fù)雜度。在上述實(shí)際實(shí)施例中,1/16的子采樣被使用,產(chǎn)生了 1/256的運(yùn)算降低。通過(guò)將48kHz的信號(hào)向下子采樣至3000Hz,例如可通過(guò)20階的預(yù)測(cè)濾波器實(shí)現(xiàn)有用的譜選擇性。在沒有此子采樣下,將需要具有320階量級(jí)的預(yù)測(cè)濾波器。從而,可實(shí)現(xiàn)存儲(chǔ)器和處理負(fù)擔(dān)的大量降低。本發(fā)明的一個(gè)方面是如下的認(rèn)知導(dǎo)致混疊的子采樣沒有不利地影響預(yù)測(cè)器收斂和聽覺事件邊界的檢測(cè)。這可能是因?yàn)榇蟛糠值穆犛X事件是諧波的的且在許多周期上延伸,以及因?yàn)樵S多令人感興趣的聽覺事件邊界與譜的基帶、非混疊部分的改變相關(guān)聯(lián)。
圖1是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的一示例的示意功能框圖。圖2是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的另一示例的示意功能框圖。圖2的示例與圖1的示例的不同之處在于其示出將第三輸入加到該分析16’以得到經(jīng)子采樣的數(shù)字音頻信號(hào)中的音調(diào)或相關(guān)程度的度量。圖3是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的又一示例的示意功能框圖。圖3的示例與圖2的示例的不同之處在于其具有附加的子采樣器或子采樣功能。圖4是示出圖3的示例的更詳細(xì)版本的示意功能框圖。圖5A-F、6A_F以及7A_F是對(duì)于理解依據(jù)圖4的示例的聽覺事件邊界檢測(cè)裝置或方法的操作是有用的示例性波形集合。波形集合中的每一個(gè)沿著共用時(shí)間刻度(水平軸) 時(shí)間對(duì)準(zhǔn)。如圖所示,各波形具有其自己的水平刻度(垂直軸)。在圖5A-F中,圖5A中的數(shù)字輸入信號(hào)代表三個(gè)猝發(fā)音,其中從一猝發(fā)音至另一猝發(fā)音在振幅上具有級(jí)進(jìn)式增加,且其中在每一猝發(fā)音間中途音高被改變。圖6A-F的示例性波形集合與圖5A-F中的那些的不同之處在于該數(shù)字音頻信號(hào)代表兩個(gè)鋼琴音符序列。圖7A-F的示例性波形集合與圖5A-F和圖6A_F中的那些的不同之處在于該數(shù)字音頻信號(hào)代表在存在背景噪聲的情況下的語(yǔ)音。
具體實(shí)施例方式現(xiàn)在將參考各個(gè)圖,圖1-4是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器或檢測(cè)過(guò)程的示例的示意性功能框圖。在那些圖中,相同的附圖標(biāo)記的使用表示該裝置或功能可與具有相同附圖標(biāo)記的另一裝置或功能或其它裝置或功能基本相同。具有引號(hào)的附圖標(biāo)記(例如“10’”)表示該裝置或功能在結(jié)構(gòu)或功能上是相似的,但是可能是具有相同基礎(chǔ)附圖標(biāo)記或其引號(hào)版本的另一裝置或功能或其它裝置或功能的變型。在圖1-4的示例中,經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的改變是在沒有明確地計(jì)算該經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜的情況下被檢測(cè)到的。圖1是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的示例的示意功能框圖。包含特定采樣率的采樣的流的數(shù)字音頻信號(hào)被施加到混疊產(chǎn)生子采樣器或子采樣功能 (“子采樣”)2。數(shù)字音頻輸入信號(hào)可由離散時(shí)間序列x[n]表示,該離散時(shí)間序列可已被從音頻源以某一采樣頻率fs采樣出。對(duì)于典型的48kHz或44. IkHz的采樣率,子采樣2可通過(guò)每16個(gè)音頻采樣中丟棄15個(gè)來(lái)以1/16的因子降低采樣率。該子采樣2的輸出經(jīng)由延遲器或延遲功能(“延遲”)6被施加到用作譜選擇濾波器的自適應(yīng)預(yù)測(cè)濾波器或?yàn)V波器功能(“預(yù)測(cè)器”)4。預(yù)測(cè)器4可是例如HR濾波器或?yàn)V波功能。延遲6可具有單位延遲(以該子采樣率的)以便確保預(yù)測(cè)器4沒有使用當(dāng)前的采樣。LPC預(yù)測(cè)濾波器的一些常見表示包括該濾波器本身內(nèi)的延遲??蓞⒖祭?lt;http://en. wikipedia. org/wiki/Linear—prediction>。仍參考圖1,通過(guò)在減法器或減法功能8(以符號(hào)顯示)中從輸入信號(hào)中減去該預(yù)測(cè)器4的輸出而得出誤差信號(hào)。預(yù)測(cè)器4響應(yīng)于開始事件和譜改變事件兩者。盡管其它值也將可接受,但是對(duì)于以1/16被子采樣以產(chǎn)生3kHz的采樣的48kHz的原始音頻,20階的濾波器長(zhǎng)度已被發(fā)現(xiàn)是有用的。可利用規(guī)格化的最小均方或另一相似的自適應(yīng)方案來(lái)實(shí)施自適應(yīng)更新,以實(shí)現(xiàn)例如20至50ms的希望的收斂時(shí)間。來(lái)自預(yù)測(cè)器4的誤差信號(hào)然后在“幅度或功率”裝置或功能10中被求平方(以提供誤差信號(hào)的能量)或取絕對(duì)值(以提供誤差信號(hào)的幅度)(絕對(duì)值更適于固定點(diǎn)實(shí)現(xiàn)),然后在第一時(shí)間平滑濾波器或?yàn)V波功能(“短期濾波器”)12和第二時(shí)間平滑濾波器或?yàn)V波功能(“較長(zhǎng)期濾波器”)14中被濾波,以分別產(chǎn)生第一信號(hào)和第二信號(hào)。第一信號(hào)是該預(yù)測(cè)器誤差的短期度量,而第二信號(hào)是該濾波器誤差的較長(zhǎng)期平均。雖然其不是關(guān)鍵的并且也可使用其它值或其它類型的濾波器,然而已發(fā)現(xiàn)具有在10至20ms范圍內(nèi)的時(shí)間常數(shù)的低通濾波器可用于第一時(shí)間平滑濾波器12,且具有在50至IOOms范圍內(nèi)的時(shí)間常數(shù)的低通濾波器可用于第二時(shí)間平滑濾波器14。第一和第二經(jīng)平滑化的信號(hào)在分析器或分析功能(“分析” )16中被比較和分析, 以產(chǎn)生由相對(duì)于第二信號(hào)的第一信號(hào)中的急劇增加指示的聽覺事件邊界流。產(chǎn)生該事件邊界信號(hào)的一種方法是考慮該第一信號(hào)與該第二信號(hào)的比率。其具有以下優(yōu)點(diǎn)產(chǎn)生基本不受輸入信號(hào)的絕對(duì)標(biāo)度的變化影響的信號(hào)。在獲得此比率(除法運(yùn)算)后,此值可與閾值或值的范圍相比較,以產(chǎn)生指示事件邊界的存在的二進(jìn)制的或連續(xù)值的輸出。盡管這些值不是關(guān)鍵的且將取決于應(yīng)用需要,經(jīng)短期濾波的信號(hào)與經(jīng)長(zhǎng)期濾波的信號(hào)的比率大于1. 2可暗示可能的事件邊界,而大于2. 0的比率可被明確地視為是事件邊界??墒褂糜糜诙M(jìn)制事件輸出的單個(gè)閾值,或可替換地,可將值映射到具有例如0至1的范圍的事件邊界度量。很明顯的,可使用其它濾波器和/或處理布置來(lái)從誤差信號(hào)的水平識(shí)別出表示事件邊界的特征。此外,事件邊界輸出的范圍和靈敏度可適應(yīng)被施加該邊界輸出的裝置或處理。例如,這可通過(guò)改變聽覺事件邊界檢測(cè)器中的濾波和/或處理參數(shù)而實(shí)現(xiàn)。因?yàn)榈诙r(shí)間平滑濾波器(“較長(zhǎng)期濾波器” )14具有較長(zhǎng)的時(shí)間常數(shù),因此其可使用第一時(shí)間平滑濾波器(“短期濾波器”)12的輸出作為其輸入。這可允許以較低的采樣率實(shí)施第二濾波和分析。如果第二平滑濾波器對(duì)于水平增加具有較長(zhǎng)時(shí)間常數(shù)且對(duì)于水平減小具有與平滑濾波器12相同的時(shí)間常數(shù),則可獲得改進(jìn)的事件邊界的檢測(cè)。這通過(guò)促使該第一濾波器輸出等于或大于該第二濾波器輸出來(lái)減少檢測(cè)事件邊界時(shí)的延遲。為了實(shí)現(xiàn)基本標(biāo)度不變的輸出,分析16中的除法或規(guī)格化只需要是近似的。為了避免除法步驟,通過(guò)比較和水平位移可實(shí)現(xiàn)粗略的規(guī)格化??商鎿Q地,規(guī)格化可在預(yù)測(cè)器4 之前執(zhí)行,允許預(yù)測(cè)濾波器對(duì)較小的字操作。要實(shí)現(xiàn)對(duì)具有類似噪聲性質(zhì)的事件的靈敏度的希望的降低,可使用預(yù)測(cè)器的狀態(tài)以提供音頻信號(hào)的音調(diào)(tonality)或可預(yù)測(cè)性的度量。此度量可被從預(yù)測(cè)器系數(shù)導(dǎo)出,以強(qiáng)調(diào)在信號(hào)是更音調(diào)或更加可預(yù)測(cè)時(shí)發(fā)生的事件,并且不強(qiáng)調(diào)在類似噪聲條件下發(fā)生的事件。自適應(yīng)濾波器4可被設(shè)計(jì)有泄漏項(xiàng)(leakage term),該泄漏項(xiàng)使得在沒有收斂以匹配音調(diào)輸入時(shí)濾波器系數(shù)隨時(shí)間衰減。給定類似噪聲信號(hào)時(shí),濾波器系數(shù)朝零衰減。從而,濾波器能量或絕對(duì)濾波器值的總和的度量可提供頻譜偏斜的合理度量。只使用濾波器系數(shù)的子集、尤其通過(guò)忽略最先的一些濾波器系數(shù),可以獲得偏斜的更好度量。為0.2或更小的總和可被視為代表低的頻譜偏斜,并且從而可被映射到值0,而當(dāng)為1. 0或更大的總和可被視為代表嚴(yán)重的頻譜偏斜且從而可映射到值1。頻譜偏斜的度量可被使用來(lái)修改用于產(chǎn)生事件邊界輸出信號(hào)的信號(hào)或閾值,使得對(duì)于類似噪聲信號(hào)的總體靈敏度降低。圖2是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的另一示例的示意功能框圖。圖2的示例與圖1的示例的不同之處至少在于其示出了將第三輸入加到分析16’(用引號(hào)表示以指示與圖1的分析16的不同)。可稱為“偏斜”輸入的此第三輸入可被從分析器或分析功能(“分析相關(guān)”)18中的預(yù)測(cè)器系數(shù)的分析獲得,以得到如以上兩個(gè)段落中的描述的該經(jīng)子采樣的數(shù)字音頻信號(hào)中的音調(diào)或相關(guān)程度的度量。要自該三個(gè)輸入產(chǎn)生事件邊界信號(hào),分析16’的處理可如下所述操作。首先,其取得平滑濾波器12的輸出與平滑濾波器14的輸出的比率,減去1并且強(qiáng)制該信號(hào)大于或等于0。然后該信號(hào)乘以“偏斜”輸入,該“偏斜”輸入的范圍是自0(對(duì)于類似噪聲信號(hào)而言) 到1 (對(duì)于音調(diào)信號(hào)而言)。此結(jié)果是事件邊界的存在的指示,大于0. 2的值暗示可能的事件邊界,而大于1. 0的值指示明確的事件邊界。如上述圖1的示例中那樣,此輸出可利用在此范圍中的單個(gè)閾值被轉(zhuǎn)換成二進(jìn)制信號(hào)或被轉(zhuǎn)換成可信范圍。很明顯的,導(dǎo)出最終事件邊界信號(hào)的可替換方法以及寬范圍的值對(duì)于一些使用來(lái)說(shuō)也是適合的。圖3是示出依據(jù)本發(fā)明的各方面的聽覺事件邊界檢測(cè)器的又一示例的示意功能框圖。圖3的示例與圖2的示例的不同之處至少在于其具有附加的子采樣器或子采樣功能。如果與事件邊界檢測(cè)相關(guān)的處理與子采樣2所提供的子采樣操作相比較不頻繁地需要事件邊界輸出,則附加的子采樣器或子采樣功能(“子采樣”)20可被設(shè)置在短期濾波器12 之后。例如,在子采樣2的采樣率的1/16的縮減可進(jìn)一步以1/16縮減,以每256個(gè)采樣在事件邊界輸出流中提供潛在的事件邊界。第二平滑濾波器、即較長(zhǎng)期濾波器14’接收子采樣20的輸出以提供分析16”的第二濾波輸入。因?yàn)槠交瑸V波器14’的輸入現(xiàn)在已經(jīng)被平滑濾波器12低通濾波,并且被20子采樣過(guò),因而14’的濾波器特性應(yīng)被相應(yīng)地修改。一種適當(dāng)?shù)呐渲檬菍?duì)于輸入的增加為50到IOOms的時(shí)間常數(shù),而對(duì)于輸入的減少則為立即響應(yīng)。 要匹配分析16”的其它輸入的降低的采樣率,該預(yù)測(cè)器的系數(shù)也應(yīng)在另一子采樣器或子采樣功能(“子采樣”)22中被用相同的子采樣率(在此示例中是1/16)進(jìn)行子采樣,以產(chǎn)生分析16” (用雙引號(hào)表示以指示與圖1的分析16和圖2的分析16’的不同)的偏斜輸入。 分析16”基本與圖2的分析16’相似,但具有微小的改變以針對(duì)較低采樣率進(jìn)行調(diào)整。此附加的抽取級(jí)20大大地減少了計(jì)算。在子采樣20的輸出處,這些信號(hào)代表了緩慢時(shí)變包絡(luò)信號(hào),所以混疊不是令人在意的問(wèn)題。圖4是依據(jù)本發(fā)明的各方面的事件邊界檢測(cè)器的具體示例。此特定實(shí)現(xiàn)被設(shè)計(jì)為處理音頻采樣值在-1. 0至+1. 0的范圍內(nèi)的48kHz的輸入音頻。在本實(shí)現(xiàn)中所包含的各種值和常數(shù)并不是關(guān)鍵的,而是建議了有用的操作點(diǎn)。此圖和下面的方程式詳細(xì)解釋了被用于通過(guò)示例信號(hào)產(chǎn)生后續(xù)圖的處理和本發(fā)明的具體變量。通過(guò)子采樣功能(“子采樣”)2’ 通過(guò)選取每第16個(gè)采樣而對(duì)輸入音頻進(jìn)行子采樣χ' [η] =χ [16η]延遲功能(“延遲”)6和預(yù)測(cè)器功能(“FIR預(yù)測(cè)器”)4’通過(guò)先前采樣使用20階
HR濾波器產(chǎn)生當(dāng)前采樣的估計(jì)
20y[n] = Yj Wi [η]χ' [η - /+]
i=l其中Wi [η]代表在子采樣時(shí)間η的第i個(gè)濾波器系數(shù)。減法功能8產(chǎn)生預(yù)測(cè)誤差
信號(hào)e[n]=x' [n]-y [η]其被用于依據(jù)規(guī)格化最小均方自適應(yīng)過(guò)程通過(guò)加入泄漏項(xiàng)以穩(wěn)定濾波器來(lái)更新預(yù)測(cè)器4’的系數(shù)
W1 [η +1] = 0.999wt [η] + —-——^~-ZI2 +.000001
;=1其中分母是包含先前20個(gè)輸入采樣的平方和的規(guī)格化項(xiàng),且加入小的偏移量以避免除以0。變量j用于索引先前20個(gè)采樣,χ' [n-j],j = 1到20。誤差信號(hào)然后通過(guò)幅度功能(“幅度”)10’和第一時(shí)間濾波器(“短期濾波器”)12’以產(chǎn)生第一濾波后信號(hào), 該第一時(shí)間濾波器是簡(jiǎn)單的一階低通濾波器f [n] = 0. 99f [η-1]+0. 01 |e[n]該信號(hào)然后通過(guò)第二時(shí)間濾波器(“較長(zhǎng)期濾波器”)14’以產(chǎn)生第二濾波后信號(hào), 該第二時(shí)間濾波器具有用于增加輸入的一階低通以及用于減少輸入的立即響應(yīng)
Γ π Γ1 f0.99M _l] + 0.01/[ ]g[n\ = <
預(yù)測(cè)器4’的系數(shù)被用于產(chǎn)生作為第3至最后的濾波器系數(shù)的幅度的和音調(diào)的初
始度量(“分析相關(guān)”)18’
權(quán)利要求
1.一種用于處理數(shù)字音頻信號(hào)以從中導(dǎo)出聽覺事件邊界流的方法,該方法包含通過(guò)子采樣所述數(shù)字音頻信號(hào)導(dǎo)出經(jīng)子采樣的數(shù)字音頻信號(hào),使得其的經(jīng)子采樣的奈奎斯特頻率在所述數(shù)字音頻信號(hào)的帶寬內(nèi),導(dǎo)致所述數(shù)字音頻信號(hào)中在所述經(jīng)子采樣的奈奎斯特頻率以上的信號(hào)成分在所述經(jīng)子采樣的數(shù)字音頻信號(hào)中在所述經(jīng)子采樣的奈奎斯特頻率以下出現(xiàn),以及檢測(cè)所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨時(shí)間的改變,以導(dǎo)出所述聽覺事件邊界流。
2.如權(quán)利要求1所述的方法,其中,當(dāng)所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變超過(guò)閾值時(shí),檢測(cè)到聽覺事件邊界。
3.如權(quán)利要求1或2所述的方法,其中,對(duì)于代表類似噪聲的信號(hào)的數(shù)字音頻信號(hào),針對(duì)所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變的靈敏度被降低。
4.如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變?cè)跊]有明確地計(jì)算所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜的情況下被檢測(cè)出。
5.如權(quán)利要求1-4中任一項(xiàng)所述的方法,其中,所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變是通過(guò)對(duì)所述經(jīng)子采樣的數(shù)字音頻信號(hào)應(yīng)用譜選擇濾波器而被導(dǎo)出的。
6.如權(quán)利要求1-5中任一項(xiàng)所述的方法,其中,檢測(cè)所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變包括從先前采樣的集合預(yù)測(cè)當(dāng)前采樣,產(chǎn)生預(yù)測(cè)誤差信號(hào),并且檢測(cè)所述誤差信號(hào)的水平的隨著時(shí)間的改變何時(shí)超過(guò)閾值。
7.如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容的隨著時(shí)間的改變是通過(guò)包括明確計(jì)算所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻譜的過(guò)程而被檢測(cè)出的。
8.如權(quán)利要求7所述的方法,其中,明確地計(jì)算所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻率內(nèi)容包括對(duì)所述經(jīng)子采樣的數(shù)字音頻信號(hào)應(yīng)用時(shí)間至頻率變換,且該過(guò)程進(jìn)一步包括檢測(cè)所述經(jīng)子采樣的數(shù)字音頻信號(hào)的頻域表示的隨時(shí)間的改變。
9.如權(quán)利要求1-8中任一項(xiàng)所述的方法,其中,檢測(cè)到的聽覺事件邊界具有指示所述邊界存在或不存在的二進(jìn)制值。
10.如權(quán)利要求1-8中任一項(xiàng)所述的方法,其中,檢測(cè)到的聽覺事件邊界具有指示邊界不存在或邊界的存在及強(qiáng)度的值的范圍。
11.一種設(shè)備,包含適用于執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法的裝置。
12.—種存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,用于使計(jì)算機(jī)執(zhí)行如權(quán)利要求1-10 中任一項(xiàng)所述的方法。
13.一種計(jì)算機(jī)可讀介質(zhì),在其上存儲(chǔ)執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法的計(jì)算機(jī)程序。
全文摘要
一種聽覺事件邊界檢測(cè)器在沒有抗混疊濾波器的情況下使用輸入數(shù)字音頻信號(hào)的下采樣,產(chǎn)生了具有混疊的較窄帶寬中間信號(hào)。指示事件邊界的此中間信號(hào)的頻譜改變可通過(guò)使用自適應(yīng)濾波器來(lái)追蹤該中間信號(hào)的采樣的線性預(yù)測(cè)模型而被檢測(cè)到。濾波器誤差的幅度或功率的改變對(duì)應(yīng)于輸入音頻信號(hào)的頻譜的改變。該自適應(yīng)濾波器以與聽覺事件的持續(xù)時(shí)間一致的速率收斂,因而濾波器誤差幅度或功率的改變指示事件邊界。與對(duì)于音頻信號(hào)的全帶寬使用時(shí)間至頻率變換的方法相比,該檢測(cè)器的復(fù)雜度小得多。
文檔編號(hào)G10L11/02GK102414742SQ201080018685
公開日2012年4月11日 申請(qǐng)日期2010年4月12日 優(yōu)先權(quán)日2009年4月30日
發(fā)明者G·N·迪金斯 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司