專利名稱:一種基于多描述格型矢量量化技術(shù)的語音編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,特別涉及多描述格型矢量量化技術(shù)的語音 編碼方法,屬于網(wǎng)絡(luò)通信領(lǐng)域。
背景技術(shù):
多描述編碼是1979年的香農(nóng)信息論會議上由Gersho、 0zarow等 人提出。它將單個信號編碼成兩個(或兩個以上)獨(dú)立的比特流,這 些獨(dú)立的比特流稱為描述。每個描述都可以單獨(dú)解碼,并得到質(zhì)量上 可接受的原始信號;而且多個描述之間存在互補(bǔ)的信息,隨著正確接 收到的描述的數(shù)量的增加,解碼出的信號質(zhì)量也在逐步提高。值得注 意的是,多描述編碼不同于常規(guī)的可分級編碼,常規(guī)的方法編碼出的 基本層是至關(guān)重要的,如果失去基本層,剩下的其他比特流將毫無用 處。而多描述編碼技術(shù)可以利用正確接收到的任何一個描述符重構(gòu)出 有用的原始信號,隨著接收到描述符數(shù)量的增加,編碼出來的語音質(zhì) 量也逐步提高。相比較分層編碼更適合存在分組丟失的網(wǎng)絡(luò)上提高系 統(tǒng)的性能。
Jayant最早在他的論文"分組丟失對波形編碼的影響以及通過奇 偶樣點(diǎn)內(nèi)插來提升質(zhì)量"("Effects of packet losses in waveform coded speech and improvements due to an odd-even sample-interpolation procedure" IEEE Trans. Co咖un. , vol. 29, pp. 101-109, Feb. 1981.)設(shè)計出一個簡單有效的多描述波形編碼 系統(tǒng)。該編碼系統(tǒng)將奇數(shù)樣點(diǎn)和偶數(shù)樣點(diǎn)分別放入兩個描述中,用 DPCM進(jìn)行編碼,并在兩條信道中傳輸。當(dāng)兩個描述同時收到時,它 就是一個普通的DPCM解碼器。而當(dāng)只收到一個描述時,采用自適應(yīng) 內(nèi)插法進(jìn)行恢復(fù),得到帶有頻譜混疊的信號。為了降低混疊的影響, 這類編碼器需要提高采樣率,從而使編碼速率比較高,而且當(dāng)有描述
丟失時,信號的混疊也會嚴(yán)重的影響恢復(fù)質(zhì)量。
Dong Lin在她的論文"基于LSP適用于實(shí)時低速率IP語音的多 描述編碼算法,,("LSP-based multiple-description coding for real-time low bit-rate voice over IP " Multimedia, IEEE Transactions on , vol. 7, no. 1pp. 167_ 178, Feb. 2005)中設(shè) 計出一個基于CELP結(jié)構(gòu)的多描述參數(shù)語音編碼系統(tǒng)。這類多描述參 數(shù)語音編碼算法相對于波形多描述編碼算法而言,具有較高的壓縮效 率。它根據(jù)參數(shù)的統(tǒng)計特性將參數(shù)分配到兩個描述中。因?yàn)閰?shù)之間 的依賴性,以及對誤差的敏感性,使得兩個描述中有大量重復(fù)的參數(shù) 才可以單獨(dú)解碼,降低了系統(tǒng)的壓縮率。而且參數(shù)在分解的過程中, 也不靈活,有諸多限制。
本發(fā)明就是為了解決上述這些不足,相對于波形多描述編碼方 法,本發(fā)明因采用格型矢量量化技術(shù),所以在保持較低的延時和算法 復(fù)雜度的情況下,還能保證足夠的壓縮率;相對于參數(shù)多描述編碼方 法,本發(fā)明直接對加權(quán)語音的頻譜進(jìn)行量化,不需要提取基音周期等 參數(shù),即使在噪聲環(huán)境下也不會發(fā)生誤判,抵抗噪聲的能力更強(qiáng)。
發(fā)明內(nèi)容
本發(fā)明要解決分組語音傳輸過程中,分組丟失影響系統(tǒng)性能的問 題,提供了一種基于多描述格型矢量量化的多描述語音編碼方法,涉 及到對加權(quán)語音信號進(jìn)行格型矢量量化,并對量化后的索引進(jìn)行多描 述標(biāo)注。
本發(fā)明的技術(shù)方案
首先對語音信號進(jìn)行LPC分析,并進(jìn)行感知加權(quán),再通過時頻變 換將加權(quán)語音信號變換到頻域;在頻域,經(jīng)過幅度調(diào)整之后的信號被 分解成矢量,用格型矢量量化法進(jìn)行量化,量化后的格點(diǎn)按照多描述 格型矢量量化的方法分解成兩個描述(相應(yīng)子格點(diǎn)的索引);兩個描 述分別在信道中傳輸;在接收端根據(jù)信道的傳輸狀態(tài)對參數(shù)進(jìn)行解 析,根據(jù)解析的結(jié)果重建矢量,從而重建感知加權(quán)語音信號的頻譜, 再通過時頻反變換變化到時域。最后通過感知去加權(quán)濾波器得到最終 的重建語音信號。
本發(fā)明用到的技術(shù)方案中涉及到對輸入信號進(jìn)行LPC分析。為提
5
高LPC分析的精度,若輸入信號為寬帶語音信號需進(jìn)行預(yù)加重處理, 若輸入信號為窄帶語音則直接進(jìn)行LPC分析;LPC分析的窗長大于 實(shí)際處理的語音信號的窗長;利用LPC分析之后的參數(shù)對輸入語音 進(jìn)行感知加權(quán)。
本發(fā)明用到的技術(shù)方案中涉及到通過時頻變換方法將加權(quán)語音 信號從時域變換到頻域;變換方法可以是離散傅里葉變換、離散余弦 變換等。
本發(fā)明用到的技術(shù)方案中涉及到在形成格型量化的碼本時,不同 的編碼速率對應(yīng)不同的碼本尺寸,需要根據(jù)實(shí)際的系統(tǒng)速率要求確定 格型量化的碼本尺寸。根據(jù)碼本尺寸所確定的量化范圍,對加權(quán)語音 信號的頻譜幅度進(jìn)行調(diào)整。使其充分利用量化器的動態(tài)范圍。
本發(fā)明用到的技術(shù)方案中涉及到根據(jù)格型量化的維數(shù),將加權(quán)語 音信號的頻譜的實(shí)部虛部分開,組成相應(yīng)維數(shù)的矢量,并進(jìn)行格型矢
本發(fā)明用到的技術(shù)方案中涉及到根據(jù)多描述格型矢量量化技術(shù) 的標(biāo)注方法,將量化索引映射成兩個子格的索引,該映射可以在一個 小范圍內(nèi)首先確立,然后根據(jù)格型本身的結(jié)構(gòu)特性和平移屬性將這種 格點(diǎn)到兩個子格點(diǎn)的映射關(guān)系擴(kuò)展到整個量化空間。
本發(fā)明用到的技術(shù)方案中涉及到解碼的過程依賴于每個描述的 傳輸狀態(tài),如果兩個描述(子格索引)都正確接收,就可以根據(jù)多描 述格型矢量量化的映射關(guān)系,找到中心描述。如果只有一個描述正確 接收,那么就用單個描述來恢復(fù)信號。如果所有的描述都丟失,則采 用靜音替代的方法進(jìn)行恢復(fù)。
本發(fā)明用到的技術(shù)方案中涉及到將恢復(fù)后的矢量重新組合成信 號的頻譜,并進(jìn)行能量調(diào)整,再利用與編碼端相同的時頻變換方法將 信號從頻域變換到時域。
本發(fā)明用到的技術(shù)方案中涉及到合成的時域信號通過感知去加 重后得到重建語音信號。
本發(fā)明有益的效果是編碼器采用了多描述的思想,這樣語音信 號在傳輸過程中,如果包含一個描述的分組丟失,仍然可以從另外正 確接收的分組中部分的恢復(fù)原始信號,從而提高了系統(tǒng)的穩(wěn)定性。而 且在對信號進(jìn)行編碼的過程中,采用了格型矢量量化的方法,該方法
算法復(fù)雜度低,所以編解碼時不會引入大量的算法時延,而且不需要 存儲量化碼本,節(jié)省了編解碼器中的存儲空間。
圖l一本發(fā)明的系統(tǒng)組成框圖2 —A2格中格點(diǎn)與索引為31的子格點(diǎn)的位置關(guān)系; 圖3 —A2格中格點(diǎn)與索引為31子格點(diǎn)對的對應(yīng)關(guān)系。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步介紹。本發(fā)明主要針對 如何提高語音信號在分組網(wǎng)絡(luò)上的傳輸質(zhì)量的問題。適合分組語音傳 輸。
如圖l所示,本發(fā)明方法包括對編碼端和解碼端的處理。編碼端 包括感知加權(quán)、時頻變換、能量調(diào)整與格型矢量量化以及多描述標(biāo)注; 而解碼端包括,參數(shù)解析、能量調(diào)整與頻譜矢量恢復(fù)、時頻反變換以 及去加權(quán)。各個部分的實(shí)現(xiàn)細(xì)節(jié)如下
如圖1所示,編碼端首先需要對語音信號進(jìn)行加權(quán),得到加權(quán)語
音信號,而在解碼端需要進(jìn)行相反的去加權(quán)過程。操作細(xì)節(jié)如下
a) 根據(jù)語音信號的短時特性,可以將語音信號分成20ms左右的 幀,對每幀語音進(jìn)行LPC分析,為了避免LPC分析的邊界效應(yīng),可 以將LPC的分析窗長大于實(shí)際處理的語音幀長。為了提高LPC的精 度而又不引入較大的計算量,可以將語音幀分成若干子幀,將LPC 系數(shù)對每個子幀進(jìn)行內(nèi)插。
b) 在子幀的基礎(chǔ)上進(jìn)行感知加權(quán),如果輸入信號是寬帶語音信號, 則加權(quán)濾波器為『(勻=—(小^=0.92,而&_— =1/(1-/ p一1) 為預(yù)加重濾波器,其中/ ,0.68;如果是窄帶語音信號,則采用 『0)=」0/^)作為加權(quán)濾波器。
c) LPC分析的系數(shù)需要傳輸?shù)浇獯a端,在兩個描述中重復(fù)。
d) 在解碼端對恢復(fù)出來的加權(quán)語音信號采用去加權(quán)濾波器l/r② 進(jìn)行處理,從而得到重建的語音信號。
如圖1所示,在編碼端需要將加權(quán)語音信號從時域變化到頻域, 而在解碼端需要將重建頻域的加權(quán)語音信號轉(zhuǎn)化到時域。
a) 在編碼端建議采,的方法為離散傅里葉變換。表達(dá)式為 綠)=——^
其中丄,ii3ff的樣點(diǎn)個數(shù)。
b) 在解碼端同樣建g采用離散反傅里葉變換。表達(dá)式為<formula>formula see original document page 8</formula>其中丄ror是l5,T的樣點(diǎn)個數(shù)。
如圖l所示,在編碼端需要對變換到頻域的加權(quán)語音信號組成矢 量并進(jìn)行能量調(diào)整,而在解碼端需要將量化的索引轉(zhuǎn)化為矢量并重新 組成加權(quán)語音信號的頻譜。
a) 建議將X(Q的每個復(fù)數(shù)的實(shí)部和虛部組成一個二維矢量,用A2 格進(jìn)行矢量量化。在量化之前需要根據(jù)預(yù)先設(shè)定的比特率確定量化器 的量化范圍,不同的比特率對應(yīng)不同的量化半徑,比特率越高量化的 半徑就越大。對矢量的能量進(jìn)行調(diào)整,使得能量最大的矢量距離原點(diǎn) 的距離與量化半徑相等。能量調(diào)整公式如下<formula>formula see original document page 8</formula>其中&為量化范圍,《M為幅度的最大值。幅度的最大值4皿采用標(biāo) 量量化傳送到接收端。而每個矢量的量化索引送入多描述標(biāo)注模塊。
b) 在接收端,從參數(shù)解析模塊得到A2格量化的索引,送入能量調(diào) 整與頻譜矢量恢復(fù)模塊。首先將A2格索引計算出實(shí)際的矢量,每個 矢量分解得到能量未調(diào)整的加權(quán)語音信號一個頻率樣點(diǎn)的實(shí)部和虛 部。這樣所有的矢量就構(gòu)成了能量未調(diào)整的加權(quán)語音信號的頻譜。能 量調(diào)整的過程與模塊的過程相反。首先得到解量化的幅度的最大值 A皿,然后通過<formula>formula see original document page 8</formula> 得到能量調(diào)整后的重建加權(quán)語音信號。其中帶波浪線的字母表示接量 化后的重建信號。
如圖1所示,在編碼端需要將格的量化索引映射成兩個子格索引, 子格索弓I在信道中傳輸。而在解碼端需要對輸入矢量進(jìn)行參數(shù)解析, 根據(jù)不同的傳輸狀態(tài)確定不同的恢復(fù)策略。
令A(yù)代表一個格,用A'cA表示與A幾何相似的子格。所謂相似是 指A'通過旋轉(zhuǎn)和尺度變換可以得到A。更確切的,如果G和G'分別表 示A和A'的生成矩陣。A'與A相似意味著G'"WM,其中c為非零標(biāo)
量,U為行列式為±1的整數(shù)矩陣,B為實(shí)數(shù)正交矩陣。子格的索引
iV = IA / A'l為A'和八基本體積的比值,也是A'的 一個Voronoi包腔中格 點(diǎn)的數(shù)量。以A2格為例說明格與子格的對應(yīng)關(guān)系。如圖2所示為A2 格中格點(diǎn)以及索引為31的子格點(diǎn)的結(jié)構(gòu)圖。 建議采用的方法仍然以A2格為例
a) 首先根據(jù)A2格與子格的關(guān)系,在較小的范圍內(nèi)R找到格點(diǎn)到子 格點(diǎn)的對應(yīng)關(guān)系。最終決定兩個描述之間冗余的大小。
在如圖2所示的范圍內(nèi)(格點(diǎn)位于坐標(biāo)原點(diǎn)的Voronoi域,其最 遠(yuǎn)端距離原點(diǎn)的半徑設(shè)為R格點(diǎn)到子格點(diǎn)對的對應(yīng)關(guān)系如圖3所示。 如果輸入矢量落在這個范圍內(nèi),當(dāng)它被量化到每一個格點(diǎn)時,就可以 根據(jù)圖3的對應(yīng)關(guān)系,找到與之對應(yīng)的兩個子格點(diǎn)。
b) 如果輸入矢量的能量超過了 R,那么就需要對輸入矢量進(jìn)行平 移運(yùn)算。首先將輸入矢量量化到離它最近的子格點(diǎn)上,然后做輸入矢 量與該子格點(diǎn)的矢量差,得到的差矢量的能量在范圍R之內(nèi),從而 找到差失量所對應(yīng)的兩個子格點(diǎn),再將這兩個子格點(diǎn)分別與距離輸入 矢量最近的子格點(diǎn)作矢量和就得到了最終需要在網(wǎng)絡(luò)上傳輸?shù)膬蓚€ 子格點(diǎn)。
c) 在解碼端,參數(shù)解析模塊根據(jù)傳輸狀態(tài)確定最終的恢復(fù)方案。
1、 如果只有一個描述(子格樣點(diǎn))正確接收,就用子格矢量來恢 復(fù)加權(quán)語音信號的頻率點(diǎn),此時的誤差較大。
2、 如果兩個描述都正確接收了,就采用兩個子格點(diǎn)到格點(diǎn)的映射 關(guān)系,通過兩個子格點(diǎn)的坐標(biāo)找到格點(diǎn)的坐標(biāo),從而恢復(fù)出格點(diǎn)。并 用格點(diǎn)矢量來恢復(fù)加權(quán)語音信號的頻率點(diǎn)。
權(quán)利要求
1.一種基于多描述格型矢量量化技術(shù)的語音編碼方法,其特征在于該方法首先對語音信號進(jìn)行LPC分析,并進(jìn)行感知加權(quán),再通過時頻變換將加權(quán)語音信號變換到頻域;在頻域,經(jīng)過幅度調(diào)整之后的信號被分解成矢量,用格型矢量量化法進(jìn)行量化,量化后的格點(diǎn)按照多描述格型矢量量化的方法分解成兩個描述(相應(yīng)子格點(diǎn)的索引);兩個描述分別在信道中傳輸;在接收端根據(jù)信道的傳輸狀態(tài)對參數(shù)進(jìn)行解析,根據(jù)解析的結(jié)果重建矢量,從而重建感知加權(quán)語音信號的頻譜,再通過時頻反變換變化到時域;最后通過感知去加權(quán)濾波器得到最終的重建語音信號。
2. 如權(quán)利要求1所述的基于多描述格型矢量量化技術(shù)的語音編 碼算法,其特征在于,該方法的主要步驟有-a) 對輸入語音信號進(jìn)行LPC分析,并進(jìn)行感知加權(quán);b) 通過時頻變換方法將加權(quán)后的語音信號轉(zhuǎn)換到頻域;c) 對信號的頻譜進(jìn)行能量調(diào)整,將信號頻譜參數(shù)的實(shí)部虛部組合 在一起形成矢量,并用格型矢量量化算法對信號矢量進(jìn)行量 化;d) 根據(jù)標(biāo)注方程,將量化后的索引映射到兩個描述;e) 根據(jù)傳輸狀態(tài)對傳輸參數(shù)進(jìn)行解析;f) 重建矢量,并進(jìn)行能量調(diào)整重新合成信號的頻譜;g) 并采用時頻變換將信號從頻域變化到時域;h) 感知去加權(quán)。
3. 如權(quán)利要求2要求所述的一種基于多描述格型矢量量化技術(shù) 的語音編碼方法,其特征在于對輸入語音信號進(jìn)行LPC分析;為 提高LPC分析的精度,若輸入信號為寬帶語音信號需進(jìn)行預(yù)加重處 理,若輸入信號為窄帶語音則直接進(jìn)行LPC分析;LPC分析的窗長 大于實(shí)際處理的語音信號的窗長;利用LPC分析之后的參數(shù)對輸入 語音進(jìn)行感知加權(quán)。
4. 如權(quán)利要求2所述的一種基于多描述格型矢量量化技術(shù)的語 音編碼方法,其特征在于通過時頻變換方法將加權(quán)語音信號從時域變換到頻域;變換方法可以是離散傅里葉變換、離散余弦變換等。
5. 如權(quán)利要求2所述一種基于多描述格型矢量量化技術(shù)的語音編碼方法,其特征在于在形成格型量化的碼本時,不同的編碼速率 對應(yīng)不同的碼本尺寸,需要根據(jù)實(shí)際的系統(tǒng)速率要求確定格型量化的碼本尺寸;根據(jù)碼本尺寸所確定的量化范圍,對加權(quán)語音信號的頻譜 幅度進(jìn)行調(diào)整,使其充分利用量化器的動態(tài)范圍;根據(jù)格型量化的維 數(shù),將加權(quán)語音信號的頻譜的實(shí)部虛部分開,組成相應(yīng)維數(shù)的矢量, 并進(jìn)行格型矢量量化。
6. 如權(quán)利要求2所述的一種基于多描述格型矢量量化技術(shù)的語 音編碼方法,其特征在于根據(jù)多描述格型矢量量化技術(shù)的標(biāo)注方法, 將量化索引映射成兩個子格的索引,在信道中傳輸;而且解碼的過程 依賴于每個描述的傳輸狀態(tài),如果兩個描述(子格索引)都正確接收, 就可以根據(jù)多描述格型矢量量化的映射關(guān)系,找到中心描述;如果只 有一個描述正確接收,那么就用單個描述來恢復(fù)信號;如果所有的描 述都丟失,則采用必要的差錯隱藏算法。
7. 根據(jù)權(quán)利要求2所述的一種基于多描述格型矢量量化技術(shù)的 語音編碼方法,其特征在于將恢復(fù)后的矢量重新組合成信號的頻譜, 并進(jìn)行能量調(diào)整,再利用與編碼端相同的時頻變換方法將信號從頻域 變換到時域。
8. 根據(jù)權(quán)利要求2所述的一種基于多描述格型矢量量化技術(shù)的 語音編碼方法,其特征在于合成的時域信號通過感知去加重得到重建語音信號。
全文摘要
本發(fā)明涉及一種基于多描述格型矢量量化的語音編碼方法,屬于通信領(lǐng)域。本發(fā)明主要用于分組語音傳輸。該算法首先對語音信號進(jìn)行LPC分析,并進(jìn)行感知加權(quán),再將加權(quán)語音信號變換到頻域。在頻域,信號被分解成矢量,采用格型矢量量化方法進(jìn)行量化,最后量化后的格點(diǎn)按照多描述格型矢量量化的標(biāo)注方法分解成兩個描述(相應(yīng)子格點(diǎn)的索引)在信道中傳輸,從而提高了系統(tǒng)的傳輸可靠性。因?yàn)樵撍惴ɑ诟裥土炕夹g(shù),算法復(fù)雜度和編碼延時較低。
文檔編號G10L19/02GK101110214SQ20071012014
公開日2008年1月23日 申請日期2007年8月10日 優(yōu)先權(quán)日2007年8月10日
發(fā)明者匡鏡明, 趙勝輝, 玥 郎 申請人:北京理工大學(xué)