基于位置的混合域數(shù)據(jù)包丟失隱藏的制作方法
【專利摘要】本發(fā)明總地來說涉及音頻信號處理,具體地涉及通過數(shù)據(jù)包交換網(wǎng)絡(luò)對音頻發(fā)送期間由音頻數(shù)據(jù)包丟失導(dǎo)致的偽影進(jìn)行隱藏。描述了用于隱藏一個或更多個連續(xù)數(shù)據(jù)包的方法。丟失數(shù)據(jù)包是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包。一個或更多個丟失數(shù)據(jù)包中的每個都包括變換系數(shù)組?;谧儞Q的音頻解碼器使用變換系數(shù)組來生成時域音頻信號的對應(yīng)幀。該方法包括:針對一個或更多個丟失數(shù)據(jù)包的當(dāng)前丟失數(shù)據(jù)包確定來自一個或更多個丟失數(shù)據(jù)包的在前丟失數(shù)據(jù)包的數(shù)目;所確定的數(shù)目被視為丟失位置。此外,該方法包括基于當(dāng)前數(shù)據(jù)包的丟失位置確定數(shù)據(jù)包丟失隱藏方案;以及使用所確定的PLC方案確定音頻信號的當(dāng)前幀的估計;其中當(dāng)前幀對應(yīng)于當(dāng)前丟失數(shù)據(jù)包。
【專利說明】基于位置的混合域數(shù)據(jù)包丟失隱藏
【技術(shù)領(lǐng)域】
[0001]本公開總地涉及音頻信號處理,且具體地涉及在通過數(shù)據(jù)包交換網(wǎng)絡(luò)進(jìn)行音頻發(fā)送期間丟失音頻數(shù)據(jù)包導(dǎo)致的偽影(artifact)的隱藏。
【背景技術(shù)】
[0002]在VoIP或無線話音通信系統(tǒng)中頻繁地出現(xiàn)數(shù)據(jù)包丟失。丟失的數(shù)據(jù)包導(dǎo)致咔嗒或噼噗聲或其他偽影,而這大大降低了接收機側(cè)感知的語音質(zhì)量。為了減輕數(shù)據(jù)包丟失的負(fù)面影響,描述了數(shù)據(jù)包丟失隱藏(packet loss concealment, PLC)算法,也稱為巾貞刪除隱藏算法。該算法通常在接收機側(cè)工作,生成合成音頻信號以覆蓋所接收的位流中的丟失數(shù)據(jù)(刪除)。在各種PLC方法中,可以使用時域基于基音的波形替代,諸如G.711附錄I (ITU-T 推薦 G.711 附錄 I, “A high quality low complexity algorithm for packetloss concealment with G.711,” 1999,其通過引用包括在此)。然而,這些方法在連續(xù)數(shù)據(jù)包丟失的情況下顯著地降低了音頻質(zhì)量,經(jīng)常由于在若干幀上重復(fù)相似內(nèi)容或由于低信號周期性而生成偽影。
[0003]時域中的PLC由于額外的混淆緩沖區(qū)一般不能直接應(yīng)用于根據(jù)變換域編解碼器確定的解碼的語音。為此,描述了變換域例如MDCT域中的PLC方案。然而,該方案會導(dǎo)致“機器人”發(fā)聲偽影,且會導(dǎo)致快速質(zhì)量劣化,尤其在對多個丟失的數(shù)據(jù)包使用PLC的情形下。
[0004]因此,需要通過結(jié)合變換域編解碼器使用的改進(jìn)型PLC算法來減緩偽影,從而改
進(jìn)音頻質(zhì)量。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明一方面,描述了一種用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法。一般說來,丟失數(shù)據(jù)包是被認(rèn)為通過基于變換的音頻解碼器而丟失的數(shù)據(jù)包。一個或更多個丟失數(shù)據(jù)包中的每個都包括變換系數(shù)組。換句話說,基于變換的音頻解碼器期待一個或更多個丟失數(shù)據(jù)包中的每個都包括各自的變換系數(shù)組。變換系數(shù)組(如果被接收到)中的每組被基于變換的音頻解碼器用來生成時域音頻信號的對應(yīng)幀。
[0006]基于變換的音頻解碼器可施加交疊變換(例如改進(jìn)型離散余弦變換(MDCT),隨后是交疊相加操作)。每個變換系數(shù)組可包括N個變換系數(shù),其中N>1(例如N=320或N=1028)。對于每組變換系數(shù),交疊變換可生成對應(yīng)的具有2N個樣本的混淆中間幀。對于每個接收的數(shù)據(jù)包,交疊變換可基于對應(yīng)的混淆中間幀的第一半且基于在所接收的數(shù)據(jù)包之前的數(shù)據(jù)包的混淆中間幀的第二半來生成時域音頻信號的對應(yīng)幀(使用交疊相加操作,例如結(jié)合針對對應(yīng)的混淆中間幀的第一半的漸強窗和針對在所接收的數(shù)據(jù)包之前的數(shù)據(jù)包的混淆中間幀的第二半的漸弱窗)。在實施例中,基于變換的音頻解碼器是基于改進(jìn)型離散余弦變換(MDCT)的音頻解碼器(例如AAC解碼器),且變換系數(shù)組是MDCT系數(shù)組。
[0007]該方法可包括針對一個或更多個丟失的數(shù)據(jù)包的當(dāng)前丟失數(shù)據(jù)包確定來自一個或更多個丟失的數(shù)據(jù)包的在前丟失數(shù)據(jù)包的數(shù)目。所確定的數(shù)目可被視為當(dāng)前丟失數(shù)據(jù)包的丟失位置。具體來說,當(dāng)前丟失數(shù)據(jù)包可以是第一丟失數(shù)據(jù)包,即丟失位置等于一(使得當(dāng)前丟失數(shù)據(jù)包之前直接就是上次接收的數(shù)據(jù)包),或當(dāng)前丟失數(shù)據(jù)包可以是第二丟失數(shù)據(jù)包,即丟失位置等于二 (使得當(dāng)前丟失數(shù)據(jù)包之前直接是丟失數(shù)據(jù)包自身)。[0008]該方法還可包括基于當(dāng)前數(shù)據(jù)包的丟失位置確定數(shù)據(jù)包丟失隱藏(PLC)方案。具體地,可根據(jù)一組預(yù)定的PLC方案來確定PLC方案。該預(yù)定的PLC方案組可以包括以下中的一個或更多個:所謂的時域PLC方案(包括其各種變形)或所謂的解相關(guān)PLC方案。舉例來說,該方法可對第一丟失位置(即,當(dāng)當(dāng)前丟失數(shù)據(jù)包是第一丟失數(shù)據(jù)包時)選擇與對第二丟失位置(即,當(dāng)當(dāng)前丟失數(shù)據(jù)包是第二丟失數(shù)據(jù)包時)不同的PLC方案。
[0009]另外,該方法可包括使用確定的PLC方案來確定音頻信號的當(dāng)前幀的估計。當(dāng)前幀一般對應(yīng)于當(dāng)前丟失數(shù)據(jù)包,即當(dāng)前幀一般是在已通過音頻解碼器接收到當(dāng)前丟失數(shù)據(jù)包的情形下基于當(dāng)前丟失數(shù)據(jù)包生成的時域音頻信號的幀。
[0010]為了確定當(dāng)前幀的估計,該方法可確定包括不同樣本組的多個緩沖區(qū)。具體地,該方法可包括確定含有上次接收的變換系數(shù)組的上次接收數(shù)據(jù)包。上次接收數(shù)據(jù)包一般是直接在一個或更多個丟失數(shù)據(jù)包之前的數(shù)據(jù)包。而且,該方法可包括基于時域音頻信號的上次接收的幀來確定第一緩沖區(qū),其中上次接收幀對應(yīng)于上次接收數(shù)據(jù)包,即其中已使用上次接收數(shù)據(jù)包的變換系數(shù)組(以及直接在上次接收數(shù)據(jù)包之前的數(shù)據(jù)包的變換系數(shù)組)生成了上次接收幀。一般說來,上次接收幀是已通過基于變換的音頻解碼器而正確解碼的上一幀。第一緩沖區(qū)可包括上次接收幀的N個樣本。在本文件中第一緩沖區(qū)也被稱為“在前解碼的緩沖區(qū)”。
[0011]該方法還可包括基于上次接收數(shù)據(jù)包的混淆中間幀的第二半來確定第二緩沖區(qū)。如上所述,音頻解碼器可被配置成從變換系數(shù)組生成包括2N個樣本的中間幀。該2N個樣本可被分成第一半(包括N個樣本,例如從n=0,……,N-1)以及隨后的第二半(包括N個樣
本,例如從n=N,......,2N-1)。這樣,混淆中間幀的第二半可包括范圍為n=N,......,2N_1的
N個樣本。第二緩沖區(qū)可包括上次接收數(shù)據(jù)包的混淆中間幀的第二半的N個樣本??煽吹交煜虚g幀的第二半包括與直接在上次接收幀之后的音頻信號幀有關(guān)的混淆信息。這樣,第二緩沖區(qū)包括與直接在上次接收幀之后的音頻信號幀有關(guān)的(混淆)信息。在本文中提議利用該最近期的信息來隱藏一個或更多個丟失數(shù)據(jù)包。在此第二緩沖區(qū)也被稱為“時間IMDCT緩沖區(qū)”。
[0012]該方法還可包括基于上次接收數(shù)據(jù)包的變換系數(shù)組來確定擴散的變換系數(shù)組。這可通過對上次接收數(shù)據(jù)包的變換系數(shù)組的絕對值進(jìn)行低通濾波和/或通過對上次接收數(shù)據(jù)包的變換系數(shù)組的符號中的一些或全部進(jìn)行隨機化來完成。一般說來,僅隨機化能量在能量閾值Te處或以下的變換系數(shù)的符號,而保持能量在能量閾值Te以上的變換系數(shù)的符號。而且,該方法可包括基于擴散的變換系數(shù)組確定擴散的混淆中間幀。這可通過對擴散的變換系數(shù)組施加逆變換(例如IMDCT)來實現(xiàn)。該方法可包括基于擴散的混淆中間幀確定第三緩沖區(qū)。具體地,第三緩沖區(qū)可包括擴散的混淆中間幀的第一半。第三緩沖區(qū)在此可被稱為“時間解相關(guān)頂DCT緩沖區(qū)”。這樣,第三緩沖區(qū)包括關(guān)于上次接收數(shù)據(jù)包的擴散或解相關(guān)信息。在本文件中提議利用該擴散信息,從而在隱藏一個或更多個丟失數(shù)據(jù)包時減小可聽偽影(例如“嗡嗡”或“機器人”偽影)。[0013]該方法可進(jìn)一步包括基于第一緩沖區(qū)和/或基于第二緩沖區(qū)確定基音周期W。基音周期W可基于第一緩沖區(qū)和/或基于第二緩沖區(qū)通過計算標(biāo)準(zhǔn)化交叉相關(guān)(或只是交叉相關(guān))函數(shù)NCC (滯后)來確定。在預(yù)定滯后間隔內(nèi)使標(biāo)準(zhǔn)化交叉相關(guān)函數(shù)NCC (滯后)最大化的滯后值(一般排除滯后=0)可以指示基音周期W。具體地,基音周期W可對應(yīng)于(或等于)使相關(guān)函數(shù)NCC (滯后)最大化的滯后值。在實施例中,基于第一緩沖區(qū)和第二緩沖區(qū)的級聯(lián)來確定相關(guān)函數(shù)NCC (滯后)。這樣,基于最近期可用信息(包括第二緩沖區(qū)中所包含的關(guān)于在上次接收幀之后的幀的信息)確定基音周期W,從而改進(jìn)了基音周期W的估計。這樣,本文也公開了用于基于第一緩沖區(qū)且基于第二緩沖區(qū)來估計基音周期W的方法。
[0014]而且,該方法可包括基于相關(guān)函數(shù)NCC (滯后)來確定置信測度(confidencemeasure, CVM)0置信測度CVM —般指示上次接收幀內(nèi)的周期性程度。置信測度CVM可基于相關(guān)函數(shù)NCC (滯后)的最大值和/或基于是否認(rèn)為丟失了直接在上次接收數(shù)據(jù)包之前的數(shù)據(jù)包來確定。
[0015]置信測度CVM可用來確定PLC方案,該PLC方案用于確定當(dāng)前幀的估計。具體地,該方法可包括確定置信測度CVM大于預(yù)定置信測度T。。在這種情況下,時域PLC方案的變體可被選為確定的PLC方案。以相似的方式,該方法可包括確定置信測度CVM等于或小于預(yù)定的置信測度T。。此外,可確定當(dāng)前數(shù)據(jù)包是上次接收數(shù)據(jù)包之后的第一丟失數(shù)據(jù)包。在這種情況下,可選擇解相關(guān)PLC方案作為確定的PLC方案。
[0016]使用解相關(guān)PLC方案確定當(dāng)前幀的估計可包括分別使用漸弱窗和漸強窗使(包括在第二緩沖區(qū)中的)混淆中間幀的第二半和(包括在第三緩沖區(qū)中的)擴散混淆中間幀的第一半交叉漸變(CToss-fading)。換句話說,可在交疊相加操作中組合(經(jīng)受漸弱窗)的混淆中間幀的第二半和(經(jīng)受漸強窗)的擴散混淆中間幀的第一半??苫谒玫?交疊相加)的幀確定當(dāng)前幀的估計。在上次接收幀具有相對低的周期性程度的情況下,作為將混淆中間幀的第二半與上次接收數(shù)據(jù)包的混淆中間幀的第一半的擴散版組合的結(jié)果,可得到當(dāng)前幀的良好估計。
[0017]使用時域PLC方案(的變體)確定當(dāng)前幀的估計可包括基于(存在第一緩沖區(qū)中的)一個或更多個上次接收幀的樣本和/或(存儲在第二緩沖區(qū)中的)混淆中間幀的樣本確定基音周期緩沖區(qū)。基音周期緩沖區(qū)一般具有與基音周期W相對應(yīng)的長度。而且,該方法可包括通過一個或更多個基音周期緩沖區(qū)的級聯(lián)來確定周期波形外插(periodicalwaveformextrapolation,PWE)分量。一般來說,通過級聯(lián)N/W基音周期緩沖區(qū)(即,可能也是基音周期緩沖區(qū)的一部分,在這種情況下,存儲偏移量且在隨后幀中進(jìn)行隱藏)獲得PWE分量,使得PWE分量包括N個樣本。在W > N的情況下,僅可使用基音周期緩沖區(qū)的一部分??苫赑WE分量確定當(dāng)前幀的估計。PWE分量的確定可根據(jù)ITU-T G.711標(biāo)準(zhǔn)中描述的隱藏方案。在上次接收幀包括相對高的周期性程度的情況下,PWE分量的確定可能是有益的,其中在PWE分量內(nèi)可反映周期性(由于多個基音周期緩沖區(qū)的級聯(lián))。
[0018]使用時域PLC方案確定當(dāng)前幀的估計可進(jìn)一步包括基于(存儲在第二緩沖器中的)混淆中間信號的第二半確定混淆分量。如上所述,第二緩沖器包括關(guān)于在上次接收幀之后的幀的最近期(混淆)信息。這樣,本文中提議也基于混淆分量確定當(dāng)前幀的估計,從而改進(jìn)當(dāng)前幀的估計的質(zhì)量。特別地,可分別使用第一和第二窗通過使混淆分量和PWE分量交叉漸變來確定當(dāng)前幀的估計。第一窗可以是漸弱窗(使混淆分量漸弱),且第二窗可以是漸強窗(使PWE分量漸強)。具體地,這在當(dāng)前丟失數(shù)據(jù)包是第一丟失數(shù)據(jù)包的情況下可以成立。在這種情況下,確保了混淆分量與上次接收幀相位一致。通過使混淆分量漸弱且同時使PWE分量漸強,可確保當(dāng)前幀的估計與(正好在前的)上次接收幀相位一致(由于PWE分量的漸強),且混淆對當(dāng)前幀的估計的影響減小(由于混淆分量的漸弱)。
[0019]因此,本文描述了一種用于基于第一緩沖區(qū)和基于第二緩沖區(qū)隱藏丟失數(shù)據(jù)包的方法。具體地,本文描述了一種用于基于PWE分量且基于混淆分量隱藏丟失的數(shù)據(jù)包的方法。
[0020]在當(dāng)前丟失數(shù)據(jù)包不是第一丟失數(shù)據(jù)包的情況下不能保證混淆分量與當(dāng)前幀之前的幀的相位一致。在這種情況下,在當(dāng)前幀之前的幀的相位一般由用來確定當(dāng)前幀之前的幀的估計的PWE分量給出。如果確保當(dāng)前幀的PWE分量與當(dāng)前幀之前的幀的PWE分量相位一致,則可通過確定當(dāng)前幀的PWE分量的相位位置且通過使混淆分量的相位與當(dāng)前幀的PWE分量的確定相位位置一致,可實現(xiàn)混淆分量的相位一致。可通過從混淆中間幀的第二半中省略一個或多個樣本來實現(xiàn)相位一致。一般說來,省略混淆中間幀的第二半開頭的一個或多個樣本,從而提供縮短的混淆中間幀??赏ㄟ^使用縮短的混淆中間幀來確定當(dāng)前幀的混淆分量,其中零附在最后以提供N個樣本。
[0021]這樣,基于各個多個PWE分量和多個混淆分量,可以隱藏多個丟失的數(shù)據(jù)包,即可確定與多個丟失數(shù)據(jù)包對應(yīng)的多個幀估計。隱藏幀的多個估計可能呈現(xiàn)超過實際丟失幀的周期性的相對高程度的周期性。這會導(dǎo)致不期望的偽影如“嗡嗡”或“機器人”偽影。在本文中,提議利用另外的擴散分量來減小該偽影。因此,本文描述了一種通過使用擴散分量在隱藏多個丟失數(shù)據(jù)包時減小可聽偽影的方法。
[0022]使用時域PLC方案確定當(dāng)前幀的估計可包括基于(存儲在第三緩沖區(qū)中的)擴散中間幀的第一半確定擴散的上次接收的幀。具體地,可基于施加到擴散中間幀的第一半和直接在上次接收幀之前的數(shù)據(jù)包的中間幀的第二半的交疊相加操作來確定擴散的上次接收幀??膳cPWE分量相似的方式確定擴散分量(其中上次接收幀的樣本被擴散的上次接收幀的樣本替代)。因此,該方法可包括基于擴散的上次接收幀的樣本確定擴散的基音周期緩沖區(qū)。一般地,擴散的基音周期緩沖區(qū)具有對應(yīng)于基因周期W的長度。擴散分量可通過一個或多個擴散的基音周期緩沖區(qū)的級聯(lián)來確定(以提供具有N個樣本的擴散分量)。在本文件中,提議也基于擴散分量確定當(dāng)前幀的估計,從而減小偽影,尤其在要隱藏數(shù)量相對較多的丟失數(shù)據(jù)包(例如2、3或更多的丟失數(shù)據(jù)包)的情況下。
[0023]具體地,使用時域PLC方案確定當(dāng)前幀的估計可包括對PWE分量應(yīng)用第三窗,對混淆分量應(yīng)用第四窗,以及對擴散分量施加第五窗??苫诖翱诨疨WE、窗口化混淆分量和窗口化擴散分量來確定當(dāng)前幀的估計。這對于丟失位置大于一的當(dāng)前幀、即當(dāng)前丟失數(shù)據(jù)包是第二或更靠后的丟失數(shù)據(jù)包的情況可以是成立的。
[0024]舉例來說,當(dāng)前丟失數(shù)據(jù)包之前可以直接是在前的丟失數(shù)據(jù)包。如果對于在前的丟失數(shù)據(jù)包第三窗是漸強窗,則對于當(dāng)前丟失數(shù)據(jù)包第三窗可以是漸弱窗,反之亦然。此夕卜,如果對于在前丟失的數(shù)據(jù)包第五窗是漸弱窗,則對于當(dāng)前丟失的數(shù)據(jù)包第五窗可以是漸強窗,反之亦然。另外,如果對于當(dāng)前丟失數(shù)據(jù)包第五窗是漸強窗,則第三窗可以是漸弱窗,反之亦然。具體地,用作第三窗的漸強窗可以是與用于第五窗的相同的漸強窗。以相似的方式,用作第三窗的漸弱窗可以是與用于第五窗的相同的漸弱窗。以上情況具體描述了PWE分量和擴散分量的交替使用。通過這樣做,可確保幀的隨后估計相位一致,且?guī)碾S后估計多樣化,從而減小“嗡嗡”和“機器人”偽影。(用于混淆分量的)第四窗可以是結(jié)合漸強/漸弱窗的凸面。
[0025]該方法可進(jìn)一步包括對當(dāng)前幀的估計施加長期減弱,其中長期減弱取決于丟失位置。一般地,長期減弱隨著增加的丟失位置而增強。這樣,長期減弱可使跨多個丟失數(shù)據(jù)包的幀(對應(yīng)于丟失的數(shù)據(jù)包)的估計漸弱,從而提供從隱藏到消聲的平滑過渡(在丟失數(shù)據(jù)包的數(shù)目超過了丟失數(shù)據(jù)包的最大允許數(shù)目的情形下)。
[0026]該方法可進(jìn)一步包括:如果當(dāng)前丟失數(shù)據(jù)包是第一丟失數(shù)據(jù)包,使利用特定PLC方案所得出的幀與混淆中間幀(存儲在第二緩沖區(qū)中)的第二半交叉漸變,從而得到當(dāng)前幀的估計,或者如果當(dāng)前數(shù)據(jù)包是數(shù)據(jù)包丟失之后的第一接收數(shù)據(jù)包,則使從確定的PLC方案得出的幀與通過該接收數(shù)據(jù)包變換的第二緩沖區(qū)的第一半交叉漸變。另一方面,如果當(dāng)前丟失數(shù)據(jù)包不是第一丟失數(shù)據(jù)包,則使用確定的PLC方案得出的幀可被視為當(dāng)前幀的估計。在本文中選擇性使用交叉漸變被稱為混合重構(gòu)。
[0027]根據(jù)另一方面,描述了被配置成隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的系統(tǒng)。丟失數(shù)據(jù)包可以是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包。一個或更多個丟失數(shù)據(jù)包中的每個可包括變換系數(shù)組,其中基于變換的音頻解碼器使用變換系數(shù)組來生成時域音頻信號的對應(yīng)幀。該系統(tǒng)可包括丟失位置檢測器,其被配置成針對一個或更多個丟失數(shù)據(jù)包中的當(dāng)前丟失數(shù)據(jù)包確定來自一個或更多個丟失數(shù)據(jù)包的在前丟失數(shù)據(jù)包的數(shù)目。所確定的數(shù)目可被視為丟失位置。此外,該系統(tǒng)可包括決定單元,其被配置成基于當(dāng)前數(shù)據(jù)包的丟失位置來確定數(shù)據(jù)包丟失隱藏(PLC)方案。另外,該系統(tǒng)可包括PLC單元,其被配置成使用所確定的PLC方案確定音頻信號的當(dāng)前幀的估計。當(dāng)前幀一般對應(yīng)于當(dāng)前丟失數(shù)據(jù)包。
[0028]根據(jù)另一方面,描述了一種隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法(及對應(yīng)的系統(tǒng))。丟失數(shù)據(jù)包一般是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包。一個或更多個丟失數(shù)據(jù)包中的每個一般包括變換系數(shù)組。基于變換的音頻解碼器可以使用變換系數(shù)組來生成時域音頻信號的對應(yīng)幀。基于變換的音頻解碼器可施加交疊變換。如果變換系數(shù)組包括N個變換系數(shù),其中N>1,對于每組變換系數(shù),交疊變換可生成具有2N個樣本的對應(yīng)混淆中間幀。對于每個接收數(shù)據(jù)包,交疊變換可基于對應(yīng)的混淆中間幀的第一半且基于在接收數(shù)據(jù)包之前的數(shù)據(jù)包的混淆中間幀的第二半來生成音頻信號的對應(yīng)幀。該方法可包括確定含有上次接收的變換系數(shù)組的上次接收數(shù)據(jù)包;其中上次接收數(shù)據(jù)包直接在一個或多個丟失數(shù)據(jù)包之前。此外,該方法可包括基于音頻信號的上次接收幀確定第一緩沖區(qū);其中上次接收幀對應(yīng)于上次接收數(shù)據(jù)包。另外,該方法可包括基于上次接收數(shù)據(jù)包的混淆中間幀的第二半來確定第二緩沖區(qū)??墒褂玫谝痪彌_區(qū)和第二緩沖區(qū)來確定音頻信號的當(dāng)前幀的估計,其中當(dāng)前幀對應(yīng)于當(dāng)前丟失數(shù)據(jù)包。
[0029]根據(jù)另一方面,描述了一種用于隱藏一個或多個連續(xù)丟失數(shù)據(jù)包的方法(以及對應(yīng)的系統(tǒng))。丟失數(shù)據(jù)包可以是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包。一個或更多個丟失數(shù)據(jù)包中的每個可包括變換系數(shù)組,其中基于變換的音頻解碼器使用變換系數(shù)組來生成時域音頻信號的對應(yīng)幀。該方法可包括基于上次接收的數(shù)據(jù)包的變換系數(shù)組確定擴散的變換系數(shù)組。而且,該方法可包括使用逆變換基于擴散的變換系數(shù)組確定擴散混淆中間幀。另外,該方法可包括基于擴散混淆中間幀確定第三緩沖區(qū)??墒褂玫谌彌_區(qū)確定音頻信號的當(dāng)前幀的估計。一般地,當(dāng)前幀對應(yīng)于當(dāng)前丟失數(shù)據(jù)包。
[0030]根據(jù)另一方面,描述了一種軟件程序。該軟件程序可用來在處理器上運行,且在處理器上運行時執(zhí)行本文中所所描述的方法步驟。
[0031]根據(jù)另一方面,描述了一種存儲介質(zhì)。存儲介質(zhì)可包括用于在處理器上運行且在處理器上運行時執(zhí)行本文中所描述的方法步驟的軟件程序。
[0032]根據(jù)另一方面,描述了一種計算機程序產(chǎn)品。該計算機程序可包括可執(zhí)行指令,該可執(zhí)行指令在計算機上運行時可執(zhí)行本文中所描述的方法步驟。
[0033]應(yīng)注意,本專利申請中描述的包括其優(yōu)選實施例的方法和系統(tǒng)可獨立地使用或結(jié)合本文中公開的其他方法和系統(tǒng)來使用。此外,本專利申請中所描述的方法和系統(tǒng)的所有方面可以任意組合。具體地,權(quán)利要求書的特征可以任意方式彼此組合。
【專利附圖】
【附圖說明】
[0034]以下參考附圖以示例方式描述本發(fā)明,其中:
[0035]圖1示出了示例數(shù)據(jù)包丟失隱藏系統(tǒng)的框圖;
[0036]圖2示出了數(shù)據(jù)包丟失隱藏的示例方法的流程圖;
[0037]圖3示出了交疊變換編碼器和解碼器的示例特征;
[0038]圖4示出了一個或更多個丟失數(shù)據(jù)包對時域信號的對應(yīng)幀的影響;
[0039]圖5示出了不同的示例幀類型;
[0040]圖6a_6d示出了時域PLC方案的示例方面;
[0041]圖7示出了示例PLC系統(tǒng)的組件的框圖;以及
[0042]圖8示出了混合重構(gòu)期間雙窗化的影響。
【具體實施方式】
[0043]如【背景技術(shù)】部分所概述,PLC方案趨于將偽影(artifact)插入隱藏音頻信號中,尤其對于數(shù)量增加的連續(xù)丟失數(shù)據(jù)包。本文中描述了用于改進(jìn)PLC的各種方法。這些方法以整體的PLC系統(tǒng)100 (參見圖1)為背景進(jìn)行描述。然而,應(yīng)該注意,這些方法可以單獨使用或者彼此任意組合地使用。
[0044]以諸如AAC (Advanced Audio Coder,高級音頻編碼器)等基于MDCT的音頻編碼器為背景對PLC系統(tǒng)100進(jìn)行描述。然而,應(yīng)該注意,PLC系統(tǒng)100也可以與其他基于變換的音頻編解碼器和/或其他時域至頻域變換(尤其是到其他交疊變換)相結(jié)合地使用。
[0045]下面,更詳細(xì)地描述AAC編碼器。AAC核心編碼器一般將音頻信號302 (參見圖3)分解成一系列被稱為幀的片段303。被稱為窗的時域濾波器通過修改這些幀中的數(shù)據(jù)來提供從幀到幀的平滑過渡。AAC編碼器可以使用不同的時域分辨率:如,第一分辨率,其被稱為長塊,對N=1028個樣本的整個幀進(jìn)行編碼;以及第二分辨率,其被稱為短塊,并且對幀的N=128個樣本的多個片段進(jìn)行編碼。如此,AAC編碼器可被適配成對在聲調(diào)的(穩(wěn)態(tài)、富有和聲的復(fù)雜頻譜信號)(使用長塊)與脈沖的(瞬態(tài)信號)(使用八個短塊系列)之間振蕩的音頻信號進(jìn)行編碼。
[0046]使用改進(jìn)的離散余弦變換(ModifiedDiscrete Cosine Transform,MDCT)將每個樣本塊(即,短塊或長塊)轉(zhuǎn)換成頻域。為了避開通常在基于塊(也被稱為基于幀)的時域變換的情形下所出現(xiàn)的頻譜泄露問題,MDCT使用交疊窗,即MDCT是所謂的交疊變換的示例。這示出在針對長塊情形、即針對整個幀被變換的情形的圖3中。圖3示出了包括一系列幀303的音頻信號302。在所示實例中,每個幀303包括音頻信號302的N個樣本。代替對僅僅一個幀施加變換,交疊MDCT以交疊的方式對兩個相鄰幀進(jìn)行變換,如系列304所示。為了進(jìn)一步平滑連續(xù)幀之間的過渡,另外施加長度為2N的窗函數(shù)w[k](或h[n])。應(yīng)該注意,由于窗w[k]被施加兩次,即在編碼器處進(jìn)行變換的情形和在解碼器處進(jìn)行逆變換的情況下,因此窗函數(shù)w[k]應(yīng)滿足普林森-布拉德利(Princen-Bradley)條件。作為窗口化和變換的結(jié)果,獲得長度為N的一系列頻率系數(shù)(也被稱為變換系數(shù))組。在相應(yīng)AAC解碼器處,將逆MDCT施加于該頻率系數(shù)組系列,從而產(chǎn)生具有長度為2N的時域樣本的一系列幀(這些2N個樣本的巾貞在本文中被稱為混淆中間巾貞(aliased intermediate frame))。使用如圖3所示的交疊和相加操作305 (考慮到窗函數(shù)w[k])來獲取長度為N的解碼樣本幀306。如此,使用包括頻率系數(shù)組312的數(shù)據(jù)包來生成時域音頻信號的對應(yīng)幀306。在本文中,幀306被稱為解碼時域音頻信號的幀,其對應(yīng)于頻率系數(shù)組312(或?qū)?yīng)于包括頻率系數(shù)組312的數(shù)據(jù)包)。
[0047]在解碼器上可能出現(xiàn)一個或更多個數(shù)據(jù)包丟失(或者視為丟失)。每個數(shù)據(jù)包通常包括頻率系數(shù)組(即,MDCT系數(shù)組)。為了生成解碼樣本的幀306,解碼器必須根據(jù)之前接收的數(shù)據(jù)來重構(gòu)丟失數(shù)據(jù)包(即,丟失的頻率系數(shù)組)。該工作被稱為數(shù)據(jù)包丟失隱藏(PLC)。
[0048]如上所述,本文描述系統(tǒng)100。具體而言,本文描述用于基于MDCT的語音編解碼器的位置相關(guān)混合PLC方案。應(yīng)該注意,PLC方案還可應(yīng)用于基于其他變換的音頻編解碼器。本文提議使PLC處理依賴于丟失數(shù)據(jù)包的位置,即依賴于在要隱藏的數(shù)據(jù)包之前的連續(xù)丟失數(shù)據(jù)包的數(shù)量。
[0049]可替代地,或另外,提議使用并保持通過不同信號處理技術(shù)所產(chǎn)生的若干個信號緩沖區(qū)。這些緩沖區(qū)(參見圖1)可以包括以下中的一個或更多個:
[0050](I)用于預(yù)先完全重構(gòu)信號的在前解碼緩沖區(qū)102。該緩沖區(qū)102還被稱為“第一緩沖區(qū)”。該緩沖區(qū)包括已基于完全接收的MDCT數(shù)據(jù)包而重構(gòu)的一個或更多個最近期的音頻幀306。
[0051](2)臨時MDCT緩沖區(qū)103。該緩沖區(qū)103還被稱為“第二緩沖區(qū)”。該緩沖區(qū)103包括在根據(jù)上次接收的數(shù)據(jù)包交疊相加解碼之前的時域信號322的一半。這示出在圖3中。如果假定數(shù)據(jù)包313 (B卩,MDCT系數(shù)組313)丟失,則數(shù)據(jù)包312為上次接收數(shù)據(jù)包。使用IMDCT變換將上次接收的數(shù)據(jù)包312變換成時域,由此(在交疊和相加之前)產(chǎn)生混淆中間信號(或幀)322?;煜虚g信號322的第一半用于生成解碼幀306 (其存儲在第一緩沖區(qū)102中)。另一方面,混淆中間信號322的第二半存儲在臨時MDCT緩沖區(qū)103中(B卩,在第二緩沖區(qū)103中)。
[0052](3)臨時解相關(guān)MDCT緩沖區(qū)109。該緩沖區(qū)109還被稱為“第三緩沖區(qū)”。該緩沖區(qū)109用于存儲從上次接收的數(shù)據(jù)包312解碼的解碼信號的一個或更多個幀,其中使用MDCT域解相關(guān)(將在后文中概述)來執(zhí)行解碼。
[0053]可以根據(jù)丟失位置和/或根據(jù)信號緩沖區(qū)的可靠性來選擇來自這些緩沖區(qū)的不同信號。舉例來說,對于第一丟失數(shù)據(jù)包,可以使用比基于常規(guī)基音的時域方案更有效且更穩(wěn)定的解相關(guān)MDCT信號。對于其他丟失位置,可以應(yīng)用基于基音的時域隱藏。然而,該時域隱藏可能因信號的低周期性(例如摩擦音、爆破音等)或者因特定丟失模式(即,隔包丟失)而失效并且產(chǎn)生可聽得見的畸變。因此,文中提議利用基于丟失位置的混合方案來構(gòu)建魯棒的基本音調(diào)緩沖區(qū)。舉例來說,對于第一丟失幀,可從在前解碼緩沖區(qū)102和/或臨時IMDCT緩沖區(qū)103中的信息得出發(fā)音置信測度(voicing confidence measure,CVM)0該置信測度CVM可以用來判定是否使用更穩(wěn)定的解相關(guān)IMDCT緩沖區(qū)109,而不是時域PLC,以隱藏第一丟失數(shù)據(jù)包。
[0054]在圖1示出的示例中,時域PLC單元107并非獨立地操作,而是根據(jù)特定丟失位置來充分地利用MDCT域輸出。此外,為了使“嗡嗡”發(fā)聲偽影最小化,描述了新的擴散算法(時域擴散單元110)。另外,提出了依賴于所選時域和/或依賴于丟失位置的混合重構(gòu)。
[0055]圖1示出了示例性PLC系統(tǒng)100。可以看出所提出的系統(tǒng)包括一個或更多個以下
要素:
[0056]DMDCT域解碼器101可以用于產(chǎn)生一個或更多個時域幀,該時域幀可以存儲在在前解碼緩沖區(qū)102中。緩沖區(qū)102中的幀為所消除的混淆并且可用來生成基本音調(diào)緩沖區(qū)和發(fā)音置信測度(CVM)。此外,MDCT域解碼器101可用于確定存儲在臨時MDCT緩沖區(qū)中的一個或更多個時域混淆中間信號(也被稱為混淆中間幀)。中間信號可以用來結(jié)合主PWE(Periodic Waveform Extrapolation,周期波形外插)流來外插隱藏語音。另外,解碼器101(或特定解碼器108)可以用來確定待存儲在臨時解相關(guān)MDCT緩沖區(qū)109中的時域信號。解相關(guān)頂DCT PLC單元106和時域擴散單元110可以使用存儲在緩沖區(qū)109中的信息;
[0057]2)丟失位置檢測器104可以配置成確定連續(xù)丟失幀(或數(shù)據(jù)包)的數(shù)量。如此,丟失位置檢測器104可以確定當(dāng)前幀(或數(shù)據(jù)包)的丟失位置。如果檢測到當(dāng)前幀為第一丟失幀(或者確定當(dāng)前數(shù)據(jù)包為第一丟失數(shù)據(jù)包),則可以使用在前解碼緩沖區(qū)102和/或臨時IMDCT緩沖區(qū)103來計算發(fā)音置信測度CVM105。如果CVM在預(yù)定置信閾值處或以下,則可以應(yīng)用解相關(guān)頂DCT PLC106,該解相關(guān)MDCT PLC106得自由并行MDCT域解碼器108解碼的臨時擴散頂DCT緩沖區(qū)109。這趨于產(chǎn)生可聽見偽影更少的輸出(音頻信號的發(fā)音置信較低的情形)。該輸出還可以用來填充基本音調(diào)緩沖區(qū)以便之后進(jìn)行隱藏(即,以生成擴散基本音調(diào)緩沖區(qū)和擴散分量以利用時域PLC進(jìn)行隱藏)。在預(yù)定置信閾值之上的CVM可以觸發(fā)時域PLC107。時域PLC107可以包括通過存儲在臨時MDCT緩沖區(qū)103中的信息,以及通過存儲在由在前解碼語音緩沖區(qū)102所存儲的信息所產(chǎn)生的基本音調(diào)緩沖區(qū)中的信息而對相位一致的外插進(jìn)行交叉漸變混合。在單元107中應(yīng)用的時域PLC方案通常依賴于當(dāng)前幀的丟失位置。此外,系統(tǒng)100包括也使用存儲在臨時解相關(guān)MDCT緩沖區(qū)109中的信息的嵌入式擴散模塊110。擴散模塊110可用于避免基音周期重復(fù)帶來的“嗡嗡”偽影;
[0058]3)在執(zhí)行隱藏之后,可以在混合重構(gòu)模塊111中使用考慮到所使用的域和/或丟失位置的混合重構(gòu)。
[0059]圖2示出了所提出的混合PLC系統(tǒng)100的示例性判定流程圖200。在步驟201中,可以關(guān)于當(dāng)前MDCT幀(或數(shù)據(jù)包)313是否丟失設(shè)定判定標(biāo)志。當(dāng)檢測到第一數(shù)據(jù)包丟失時,所提出的系統(tǒng)100開始估計歷史緩沖區(qū)(例如緩沖區(qū)102)的質(zhì)量,以判定是否應(yīng)當(dāng)使用更穩(wěn)定的解相關(guān)頂DCT PLC0換句說話,如果已經(jīng)檢測到丟失數(shù)據(jù)包,則對包含在基本音調(diào)緩沖區(qū)內(nèi)的信息的可靠性測度進(jìn)行確定(步驟202)。如果包含在基本音調(diào)緩沖區(qū)內(nèi)的基音信息可靠,則可以(在單元107中)應(yīng)用時域PLC204,否則,優(yōu)選地(在單元106中)使用解相關(guān)頂DCT PLC方案207。為此,可以檢查丟失數(shù)據(jù)包是否為第一丟失數(shù)據(jù)包(步驟205)。如果丟失數(shù)據(jù)包為第一丟失數(shù)據(jù)包,則可以使用解相關(guān)MDCT PLC方案207,否則可以使用時域PLC方案204??梢允褂弥貥?gòu)循環(huán)208來重構(gòu)時域音頻信號。如果沒有丟失數(shù)據(jù)包(步驟203),則可以應(yīng)用標(biāo)準(zhǔn)的逆變換209。在第一丟失數(shù)據(jù)包(步驟206)和上次丟失數(shù)據(jù)包的情形中,可以應(yīng)用交叉漸變處理211。否則,可以使用時域粘貼處理210。
[0060]下面,描述用于確定基本音調(diào)緩沖區(qū)的可靠性的方法?;疽粽{(diào)緩沖區(qū)對基于基音的時域PLC所需的在前解碼音頻信號進(jìn)行存儲。如此,基本音調(diào)緩沖區(qū)可以包括第一緩沖區(qū)102。該緩沖區(qū)的質(zhì)量對基于基音的PLC的性能具有直接影響。因此,所提出的混合系統(tǒng)100的第一步驟是估計基本音調(diào)緩沖區(qū)的可靠性。
[0061]當(dāng)存在丟失數(shù)據(jù)包313時,最近期的接收信息是存儲在緩沖區(qū)102中的上次正確重構(gòu)的幀306 (稱為x(p_d [η],0≤η≤N-1)和逆變換幀322的第二半(稱為
N < η < 2Ν-1,并且可存儲在緩沖區(qū)103中),以形成用于通過級聯(lián)(concatenate)來進(jìn)行基音估計的緩沖區(qū)xb_。如此,基音緩沖區(qū)包括全部最近期接收的信息,即完全重構(gòu)的信號幀306和混淆中間信號322的第二半。
[0062]基音緩沖區(qū)Xbase可用于執(zhí)行標(biāo)準(zhǔn)化交叉相關(guān)(Normalized Cross Correlation,NCC),同時考慮應(yīng)用于交疊相加操作305的合成窗w[k]的形狀。在從如5ms (lmin=80個樣本)至如15ms (lmax=240個樣本)的預(yù)定搜索范圍內(nèi),選擇產(chǎn)生最大相關(guān)性的滯后(lag)。該范圍(如,5ms至15ms)被選為人類語音的典型基音頻率范圍。該區(qū)間的整數(shù)乘法或除法可被外插,以模擬該范圍以外的基音。于是,Xbase[η]可以根據(jù)滯后值移位,以使χ[η]和X [n-lag]是與窗口化的NCC最大程度同步的基音,該窗口化NCC通過經(jīng)由抽取計數(shù)(tapcount)和窗形狀標(biāo)準(zhǔn)化基本相關(guān)來計算??梢詰?yīng)用十中抽一和/或微移位技術(shù),以便在準(zhǔn)確度有較小劣化的情形下加快NCC的計算速度。在抽取對齊處理中,窗口化NCC可以用作接收機信號的周期性的置信指示器,以便形成發(fā)音置信測度(CVM)。假定基本音調(diào)緩沖區(qū)的第一樣本指數(shù)為m,則NCC可以如下進(jìn)行計算:
[0063]
【權(quán)利要求】
1.一種用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包(412,413)的方法(200),其中丟失數(shù)據(jù)包(412)是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包;其中一個或更多個丟失數(shù)據(jù)包(412,413)中的每個都包括變換系數(shù)組(313);其中所述基于變換的音頻解碼器使用變換系數(shù)組(313)來生成時域音頻信號的對應(yīng)幀(412,413);所述方法(200)包括: -針對一個或更多個丟失數(shù)據(jù)包(412,413)的當(dāng)前丟失數(shù)據(jù)包(412)確定來自一個或多個丟失的數(shù)據(jù)包(313)的在前丟失數(shù)據(jù)包的數(shù)目(205);其中所確定的數(shù)目被視為丟失位置; -基于所述當(dāng)前數(shù)據(jù)包的丟失位置確定數(shù)據(jù)包丟失隱藏方案,數(shù)據(jù)包丟失隱藏被稱為PLC ;以及 -使用所確定的PLC方案(204,207,208 )確定音頻信號的當(dāng)前幀(422 )的估計(204,207,208);其中 所述當(dāng)前幀(422)對應(yīng)于當(dāng)前丟失數(shù)據(jù)包(412)。
2.根據(jù)權(quán)利要求1所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法(200),其中 -所述基于變換的音頻解碼器是基于音頻解碼器的改進(jìn)型離散余弦變換,也稱為MDCT ;以及 -所述變換系數(shù)組(313)是MDCT系數(shù)組。
3.根據(jù)權(quán)利要求1或2所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法(200),進(jìn)一步包括: -確定包括上次接收的變換系數(shù)組(312)的上次接收數(shù)據(jù)包(411);其中所述上次接收數(shù)據(jù)包(411)直接在所述一個或更多個丟失數(shù)據(jù)包(412,413)之前;以及 -基于所述音頻信號的上次接收幀(421)確定第一緩沖區(qū)(102);其中所述上次接收幀(421)對應(yīng)于上次接收數(shù)據(jù)包(411)。
4.根據(jù)權(quán)利要求3所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法(200),其中 -所述基于變換的音頻解碼器應(yīng)用交疊變換; -每個變換系數(shù)組包括N個變換系數(shù),其中N > I ; -對于每個變換系數(shù)組,所述交疊變換生成2N個樣本的對應(yīng)混淆中間幀; -對于每個接收數(shù)據(jù)包(411),所述交疊變換基于所述對應(yīng)混淆中間幀的第一半且基于在接收數(shù)據(jù)包(411)之前的數(shù)據(jù)包的混淆中間幀的第二半來生成所述音頻信號的對應(yīng)幀(421);以及 -所述方法還包括基于所述上次接收數(shù)據(jù)包(411)的混淆中間幀的第二半確定第二緩沖區(qū)(103)。
5.根據(jù)權(quán)利要求4所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中 -所述第一緩沖區(qū)(102)包括所述上次接收幀(421)的N個樣本;以及 -所述第二緩沖區(qū)(102)包括所述上次接收數(shù)據(jù)包(411)的混淆中間幀的第二半的N個樣本。
6.根據(jù)權(quán)利要求4或5所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,進(jìn)一步包括基于所述第一緩沖區(qū)(102)和所述第二緩沖區(qū)(103)確定基音周期W。
7.根據(jù)權(quán)利要求6所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中確定基音周期W包括: -基于所述第一緩沖區(qū)(102)和所述第二緩沖區(qū)(103)確定相關(guān)函數(shù)NCC (滯后);以及-在預(yù)定的滯后間隔內(nèi)確定使相關(guān)函數(shù)NCC (滯后)最大化的滯后值,排除滯后=0。
8.根據(jù)權(quán)利要求7所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中所述基音周期W對應(yīng)于使相關(guān)函數(shù)NCC (滯后)最大化的滯后值。
9.根據(jù)權(quán)利要求7或8所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中基于所述第一緩沖區(qū)(102)和所述第二緩沖區(qū)(103)的級聯(lián)確定相關(guān)函數(shù)NCC (滯后)。
10.根據(jù)權(quán)利要求7-9中的任一項所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,進(jìn)一步包括: -基于相關(guān)函數(shù)NCC (滯后)確定置信測度CVM ;其中所述置信測度CVM指示所述上次接收幀(421)內(nèi)的周期性程度。
11.根據(jù)權(quán)利要求10所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中所述置信測度CVM基于以下來確定: -所述相關(guān)函數(shù)NCC (滯后)的最大值;和/或 -在所述上次接收數(shù)據(jù)包(411)之前的數(shù)據(jù)包是否被視為丟失。
12.根據(jù)權(quán)利要求10或11所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中也基于所述置信測度CVM的值來確定用來確定所述當(dāng)前幀(422)的估計的PLC方案。
13.根據(jù)權(quán)利要求12所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,進(jìn)一步包 括: -確定所述置信測度CVM大于預(yù)定的可信度閾值Tc (202);以及 -選擇時域PLC方案作為所確定的PLC方案。
14.根據(jù)權(quán)利要求12或13所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,進(jìn)一步包括: -確定所述置信測度CVM等于或小于預(yù)定的可信度閾值Tc (202); -確定所述當(dāng)前數(shù)據(jù)包(412)是所述上次接收數(shù)據(jù)包(411)之后的第一丟失數(shù)據(jù)包(205);以及 -選擇解相關(guān)PLC方案作為所確定的PLC方案。
15.根據(jù)權(quán)利要求4-14中的任一項所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,進(jìn)一步包括: -基于所述上次接收數(shù)據(jù)包(411)的變換系數(shù)組(312)確定擴散的變換系數(shù)組; -基于所述擴散的變換系數(shù)組確定擴散的混淆中間幀;以及 -基于所述擴散的混淆中間幀確定第三緩沖區(qū)(109)。
16.根據(jù)權(quán)利要求15所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中確定擴散的變換系數(shù)組包括: -對所述上次接收數(shù)據(jù)包(411)的變換系數(shù)組的絕對值進(jìn)行低通濾波;以及 -對所述上次接收數(shù)據(jù)包(411)的變換系數(shù)組的符號中的一些或全部進(jìn)行隨機化。
17.根據(jù)權(quán)利要求15或16所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中所述第三緩沖區(qū)(109)包括所述擴散的混淆中間幀的第一半。
18.根據(jù)權(quán)利要求15至17中的任一項所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中: -根據(jù)預(yù)定PLC方案組確定PLC方案-所述預(yù)定PLC方案組包括以下中的一個或更多個: -時域PLC方案; -解相關(guān)PLC方案。
19.根據(jù)權(quán)利要求18所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述解相關(guān)PLC方案確定所述當(dāng)前幀(422)的估計包括: -分別使用漸弱窗和漸強窗對所述混淆中間幀的第二半和所述擴散的混淆中間幀的第一半進(jìn)行交叉漸變。
20.根據(jù)權(quán)利要求18所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -基于所述上次接收幀(411)的樣本確定基音周期緩沖區(qū);其中所述基音周期緩沖區(qū)具有對應(yīng)于所述基音周期W的長度; -通過一個或更多個基音周期緩沖區(qū)的級聯(lián)確定周期波形外插分量,其中周期波形外插被稱為PWE;以及 -基于所述PWE分量確定所述當(dāng) 前幀(422)的估計。
21.根據(jù)權(quán)利要求20所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -基于所述混淆中間信號的第二半確定混淆分量;以及 -也基于所述混淆分量確定所述當(dāng)前幀(422)的估計。
22.根據(jù)權(quán)利要求21所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -確定所述PWE分量的相位位置;以及 -通過從所述混淆中間幀的第二半中省略一個或更多個樣本,使所述混淆分量的相位與所確定的相位位置一致。
23.根據(jù)權(quán)利要求21或22所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -分別使用第一和第二窗對所述混淆分量和所述PWE分量進(jìn)行交叉漸變。
24.根據(jù)權(quán)利要求23所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中如果所述當(dāng)前丟失數(shù)據(jù)包(412)是所述第一丟失數(shù)據(jù)包,則所述第一窗是漸弱窗,且所述第二窗是漸強窗。
25.根據(jù)權(quán)利要求21-24中的任一項所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -基于所述擴散中間幀的第一半確定擴散的上次接收幀; -基于所述擴散的上次接收幀的樣本確定擴散的基音周期緩沖區(qū);其中所述擴散的基音周期緩沖區(qū)具有對應(yīng)于基音周期W的長度; -通過一個或更多個擴散的基音周期緩沖區(qū)的級聯(lián)確定擴散分量;以及 -也基于所述擴散分量確定所述當(dāng)前幀(422)的估計。
26.根據(jù)權(quán)利要求25所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述時域PLC方案確定所述當(dāng)前幀(422)的估計包括: -對所述PWE分量應(yīng)用第三窗;-對所述混淆分量應(yīng)用第四窗; -對所述擴散分量應(yīng)用第五窗; -基于所述窗口化PWE、混淆和擴散分量確定所述當(dāng)前幀(422)的估計。
27.根據(jù)權(quán)利要求26所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中: -所述當(dāng)前丟失數(shù)據(jù)包(412)之前直接是在前丟失數(shù)據(jù)包; -如果對在前丟失數(shù)據(jù)包來說所述第三窗是漸強窗,則對所述當(dāng)前丟失數(shù)據(jù)包(412)來說所述第三窗是漸弱窗,反之亦然; -如果對所述在前丟失數(shù)據(jù)包來說所述第五窗是漸弱窗,則對所述當(dāng)前丟失數(shù)據(jù)包(412)來說所述第五窗是漸強窗,且反之亦然;以及 -如果對所述當(dāng)前丟失數(shù)據(jù)包(412)來說所述第五窗是漸強窗,則所述第三窗是漸弱窗,且反之亦然。
28.根據(jù)權(quán)利要求27所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中 -所述第四窗是結(jié)合漸強/漸弱窗的凸面。
29.根據(jù)上述任一項權(quán)利要求所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所確定的PLC方案確定所述當(dāng)前幀(422)的估計包括: -對所述當(dāng)前幀(422)的估計應(yīng)用長期減弱;其中所述長期減弱取決于所述丟失位置。
30.根據(jù)權(quán)利要求4-30中的任一項所述的用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包的方法,其中使用所述確定的PLC方案確定所述當(dāng)前幀(422)的估計包括: -如果所述當(dāng)前丟失數(shù)據(jù)包(412)是第一丟失數(shù)據(jù)包,則使得利用所確定的PLC方案得出的幀與所述混淆中間幀的第二半進(jìn)行交叉漸變,以產(chǎn)生所述當(dāng)前幀(422)的估計;以及-如果所述當(dāng)前丟失數(shù)據(jù)包(412)不是所述第一丟失數(shù)據(jù)包,則將使用所確定的PLC方案得出的幀視為所述當(dāng)前幀(422)的估計。
31.一種被配置成隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包(412,413)的系統(tǒng)(100),其中丟失數(shù)據(jù)包(412)是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包,其中一個或更多個丟失的數(shù)據(jù)包(412,413)中的每個數(shù)據(jù)包包括變換系數(shù)組(313);其中所述基于變換的音頻解碼器使用變換系數(shù)組(313)來生成時域音頻信號的對應(yīng)幀(412,413);所述系統(tǒng)(100)包括: -丟失位置檢測器(104),所述丟失位置檢測器被配置成針對一個或更多個丟失數(shù)據(jù)包(412,413)中的當(dāng)前丟失數(shù)據(jù)包(412)確定來自一個或更多個丟失數(shù)據(jù)包(313)的在前丟失數(shù)據(jù)包的數(shù)目;其中所確定的數(shù)目被視為丟失位置; -決定單元(105),所述決定單元被配置成基于所述當(dāng)前數(shù)據(jù)包的丟失位置來確定數(shù)據(jù)包丟失隱藏方案,所述數(shù)據(jù)包丟失隱藏被稱為PLC ;以及 -PLC單元(107,106),所述PLC單元被配置成使用所確定的PLC方案(204,207,208)確定音頻信號的當(dāng)前幀(422)的估計(204,207,208),其中所述當(dāng)前幀對應(yīng)于當(dāng)前丟失數(shù)據(jù)包(412)。
32.一種隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包(412,413)的方法(200);其中丟失數(shù)據(jù)包(412)是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包;其中一個或更多個丟失的數(shù)據(jù)包(412,413)中的每個數(shù)據(jù)包包括變換系數(shù)組(313);其中基于變換的音頻解碼器使用變換系數(shù)組(313)來生成時域音頻 信號的對應(yīng)幀(412,413);其中基于變換的音頻解碼器應(yīng)用交疊變換;其中每個變換系數(shù)組包括N個變換系數(shù),N>1 ;其中對于每個變換系數(shù)組,所述交疊變換生成2N個樣本的對應(yīng)混淆中間幀;其中對于每個接收數(shù)據(jù)包(411),所述交疊變換基于對應(yīng)混淆中間幀的第一半且基于在接收數(shù)據(jù)包(411)之前的數(shù)據(jù)包的混淆中間幀的第二半來生成音頻信號的對應(yīng)幀(421);所述方法(200)包括: -確定包括上次接收的變換系數(shù)組(312)的上次接收數(shù)據(jù)包(411);其中上次接收數(shù)據(jù)包(411)直接在一個或更多個丟失數(shù)據(jù)包(412,413)之前;以及 -基于音頻信號的上次接收幀(421)確定第一緩沖區(qū)(102);其中上次接收幀(421)對應(yīng)于上次接收數(shù)據(jù)包(411); -基于上次接收數(shù)據(jù)包(411)的混淆中間幀的第二半確定第二緩沖區(qū)(103);以及 -使用所述第一緩沖區(qū)(102)和所述第二緩沖區(qū)(103)來確定所述音頻信號的當(dāng)前幀(422)的估計(204,207,208);其中所述當(dāng)前幀(422)對應(yīng)于所述當(dāng)前丟失數(shù)據(jù)包(412)。
33.一種用于隱藏一個或更多個連續(xù)丟失數(shù)據(jù)包(412,413)的方法(200);其中丟失數(shù)據(jù)包(412)是被基于變換的音頻解碼器視為丟失的數(shù)據(jù)包;其中一個或更多個丟失數(shù)據(jù)包(412,413)中的每個數(shù)據(jù)包包括變換系數(shù)組(313);其中基于變換的音頻解碼器使用變換系數(shù)組(313)來生成時域音頻信號的對應(yīng)幀(412,413);所述方法(200)包括: -基于上次接收數(shù)據(jù)包(411)的變換系數(shù)組(312)確定擴散的變換系數(shù)組; -使用反變換基于擴散的變換系數(shù)組確定擴散的混淆中間幀; -基于擴散的混淆中間幀確定第三緩沖區(qū)(109);以及 -使用所述第三緩沖區(qū)(109)確定音頻信號的當(dāng)前幀(422)的估計(204,207,208);其中所述當(dāng)前幀(422)對應(yīng)于當(dāng)前丟失數(shù)據(jù)包(412)。
【文檔編號】G10L19/018GK103714821SQ201210371433
【公開日】2014年4月9日 申請日期:2012年9月28日 優(yōu)先權(quán)日:2012年9月28日
【發(fā)明者】黃申, 孫學(xué)京 申請人:杜比實驗室特許公司