基于單比特壓縮感知的語音壓縮方法

文檔序號：9454222閱讀：1780來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于單比特壓縮感知的語音壓縮方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語言信號壓縮領(lǐng)域，具體涉及一種基于單比特壓縮感知的語音壓縮方法。
【背景技術(shù)】
[0002] 為了更方便的存儲或者傳輸，必須對語音信號進(jìn)行壓縮。語音信號能夠進(jìn)行壓縮的基本依據(jù)是語音信號中存在的冗余和人類的聽覺感知系統(tǒng)的獨特性。語音信號存在多種多樣的冗余，可分別從時間域和頻率域描述。從時間域分析，幅度的非均勻分布，即語音中的小幅度樣本出現(xiàn)的概率高，信息主要集中在低功率上；采樣數(shù)據(jù)間的相關(guān)，相鄰的語音信號間有很強的相關(guān)性。從頻率域分析，非均勻的長時功率譜密度，從相當(dāng)長的時間內(nèi)統(tǒng)計平均，語音信號的功率譜呈現(xiàn)強烈的非平坦性，這說明語音信號對給定的頻段利用的不充分，存在固定的冗余度。語音壓縮的第二個依據(jù)是人的聽覺生理和心理特性對語音的感知，人的聽覺對低頻端比較敏感，而對高頻端不太敏感，這主要是因為濁音的周期和共振峰在這里。此外，人耳對語音信號的相位變化不敏感，人耳的聽覺不像人的視覺對感知的信號相位那樣敏感，一定程度的相位失真對聽覺來說是可以容忍的。人耳聽不到或感知極不靈敏的語音信號都可以認(rèn)為是冗余，可以利用這些特性進(jìn)行語音壓縮。
[0003] 傳統(tǒng)的信號采集以奈奎斯特采樣定理作為理論依據(jù)，即信號的采樣頻率必須高于信號最高頻率的兩倍。近年來，E. J. Candes，J. Romberg，T. Tao和D. L. Donoho等學(xué)者提出了壓縮感知理論（Compressed sensing, CS)，該理論指出，對于稀疏信號，米樣時可以以遠(yuǎn) 低于奈奎斯特采樣頻率進(jìn)行信號采樣，實現(xiàn)信號的壓縮。由于語音信號在頻域是可稀疏的，故可以通過壓縮感知理論對其進(jìn)行壓縮和重構(gòu)。
[0004] 現(xiàn)有技術(shù)的技術(shù)方案
[0005] ①對一段連續(xù)的語音信號采樣N個點，得到長度為N的離散語音信號；
[0006] ②對離散的語音信號進(jìn)行DCT變換，將時域信號變換到頻域，得到了長度為N的稀疏的語音信號；
[0007] ③利用高斯分布生成M行N列的矩陣，2K彡M〈〈N ;
[0008] ④觀測矩陣與頻域信號相乘，由矩陣乘法易知，最后得到了 M個語音信號，由于 M〈〈N，故實現(xiàn)了語音信號的壓縮。
[0009] 現(xiàn)有技術(shù)的缺點
[0010] 1、現(xiàn)有的基于壓縮感知的語音壓縮常見的為"非lbit壓縮"方式，單比特的語音壓縮還很少見；2、沒有巧妙的應(yīng)用基于壓縮感知方式的心理聲學(xué)模型，保存的數(shù)據(jù)存在冗余；3、重構(gòu)精度難以保證；4、觀測矩陣沒有針對性。
[0011] 縮略語和關(guān)鍵術(shù)語定義
[0012] 稀疏度K :一幀頻域語音信號中幅度不為0的個數(shù)；
[0013] AD:模數(shù)轉(zhuǎn)換器；
[0014] DCT :Discrete Cosine Transform，離散余弦變換，簡稱 DCT變換，由N.Ahmed 等人在1974年提出的正交變換方法，它常被認(rèn)為是對語音和圖像信號進(jìn)行變換的最佳方法；
[0015] IDCT變換：DCT變換的逆變換；
[0016] N:-幀離散語音信號的長度，因為語音是離散的，所以長度也即采樣點的個數(shù)；
[0017] M :壓縮后語音信號的長度，一般2K彡M〈〈N。

【發(fā)明內(nèi)容】

[0018] 本發(fā)明針對現(xiàn)有技術(shù)語音信號壓縮時為"非lbit"且重構(gòu)精度低而提出了一種基于單比特壓縮感知的語音壓縮方法。
[0019] 為解決以上問題，本發(fā)明的技術(shù)方法是提供一種基于單比特壓縮感知的語音壓縮方法，包括以下步驟：
[0020] S1.將已采樣的離散的N個語音信號從時域信號變換到頻域信號，得到長度為N的稀疏的語音信號；
[0021] S2.將低于靜音門限的信號幅度置0 ;
[0022] S3.查找幅度不為0的信號，記錄其個數(shù)和位置，總個數(shù)即為稀疏度K，位置信息的集合記為I，并根據(jù)構(gòu)造更優(yōu)的觀測矩陣；
[0023] S4.將S3生成的更優(yōu)的觀測矩陣與頻域信號相乘，再對乘積結(jié)果取符號即可得到壓縮語音信號，此時的信號長度由N變成了 M，且每個信號占用lbit存儲；
[0024] S5.將稀疏度K、位置信息的集合I與壓縮的語音信號中的"1"登記在一起，組幀為數(shù)據(jù)流；
[0025] S6.將S5得到的數(shù)據(jù)流進(jìn)行霍夫曼編碼，進(jìn)一步壓縮。
[0026] 作為優(yōu)選，S1所述的將語音信號從時域信號變換到頻域信號采用的方法為DCT變換、小波變換或者傅里葉變換。
[0027] 作為優(yōu)選，S3所述的記錄語音信號位置信息的方法如下：以一幀長為N = 2048語音信號為例，如果要直接記錄位置，那么記錄一個位置則使用l〇bit，假設(shè)最后一個非0信號的位置為P，通過〇, 1標(biāo)識則需要P個bit，記錄位置則需要10K個bit，若10K>P，則采用方式〇,反之采用方式1。
[0028] 作為優(yōu)選，S3所述的利用信號的位置信息，構(gòu)造更優(yōu)的觀測矩陣方法如下：
[0029] S31.輸入：稀疏基D，隨機矩陣的行M，隨機矩陣巾，位置集合I ;
[0030] S32.初始化：感知矩陣F =仰，迭代次數(shù)為n，i = 0
r , i 是用來記錄后續(xù)步驟中迭代次數(shù)的，大于n就結(jié)束迭代，否則繼續(xù)；FT是F的共輒轉(zhuǎn)置矩陣，實數(shù)范圍內(nèi)即為F的轉(zhuǎn)置矩陣；
[0031] S33.對F'每一列歸一化，并把F'的值賦給F，F(xiàn) = F' ；
[0032] S34?計算矩陣，G = FTF;
[0033]S35.在位置集合I中任取其中的兩個元素IJP Ij，令G(i，j) = 0,要求集合I中的所有元素取遍；
[0034] S36.約束G中對角線外的元素大?。?br>[0035] 如果G(i，j)的絕對值小于
則保持不變，否則， L/1N丄UD乙UU乙// A *1 * 〇/v
sign表示取符號，如果G(i，j)大于0,則 sign(G2(i, j)) = 1，如果 G(i, j)小于 0,則 sign(G2(i, j)) = -1，如果 G(i, j)等于 0,則 sign(G2(i, j)) = 0 ；
[0036] S37. SVD 分解，G = UQV ;
[0037] S38?更新 G，將 G的秩降為M :G = UQUt;
[0038] S39?計算 S = Q1/2Ut，
[0039]S310. F' = S'，更新多=F_DT，表示矩陣D的偽逆；
[0040] S311. i = i+1, i從0變?yōu)?，當(dāng)i>n，則進(jìn)入下一步，否則返回S33 ;
[0041] S312.迭代結(jié)束，輸出優(yōu)選之后的觀測矩陣巾。
[0042] 為解決以上問題，本發(fā)明還提出了一種基于單比特壓縮感知的語音壓縮方法的解壓方法，包括以下步驟：
[0043] S7.對壓縮的數(shù)據(jù)進(jìn)行霍夫曼解碼，得到0和1的數(shù)據(jù)流；
[0044] S8.根據(jù)壓縮時組幀數(shù)據(jù)流的方法從數(shù)據(jù)流中取出稀疏度K和位置信息，構(gòu)造觀測矩陣；
[0045] S9.將信號的位置信息加入重構(gòu)算法BITH，重構(gòu)出頻域的語音信號；
[0046] S10.將頻域的語音信號從頻域信號變換到時域信號。
[0047] 作為優(yōu)選，S9的具體步驟如下：
[0048] S91.輸入一個M行1列的元素只有0，1的觀測矩陣Y，即可得出更新步長a值，位置集合I和最大迭代次數(shù)t;
[0049] S92.初始化稀疏信號X，即X為一個N行1列的零矩陣；
[0050] S93?迭代更新X = X+ a (}> '（Y-sign (巾X))，巾'為巾的轉(zhuǎn)置矩陣；
[0051] S94. X中位置集合I位置以外的元素都置零；
[0052] S95.若n < t，則重復(fù)以上步驟，每迭代一次，n就加1，即n = n+1 ;
[0053] S96.當(dāng)n>t時，根據(jù)單位能量約束條件X = X/ | | X | 12，輸出X的最優(yōu)估計值。
[0054] 本發(fā)明的有益效果如下：
[0055] 1、語音信號的采樣速率要求并不高，用于語音采樣的AD并不是語音信號采樣的瓶頸問題。其他需要利用壓縮感知進(jìn)行采樣以降低AD采樣速率的場景為高速采樣場景，語音信號采樣不屬于高速采樣，故可以不改變系統(tǒng)原有的采樣器件與采樣結(jié)構(gòu)，只需要進(jìn)行軟件的修改，大大節(jié)約了系統(tǒng)改造的成本；
[0056] 2、目前流行的mp3技術(shù)，僅能壓縮10余倍，而利用本發(fā)明的方法，可輕易地將語音壓縮32倍以上，其音質(zhì)也能達(dá)到近似于mp3標(biāo)準(zhǔn)音質(zhì)。譬如電信領(lǐng)域的錄音系統(tǒng)，需要存儲海量的語音數(shù)據(jù)，如果利用本發(fā)明的壓縮方法將會十分有利。
【附圖說明】
[0057] 圖1為現(xiàn)有技術(shù)流程示意圖；
[0058] 圖2為壓縮流程示意圖；
[0059] 圖3為重構(gòu)流程示意圖；
[0060] 圖4為記錄語音信號位置的流程示意圖；
[0061] 圖5為改進(jìn)的BITH算法流程示意圖。
【具體實施方式】
[0062] 為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下參照附圖并舉實施例，對本發(fā)明做進(jìn)一步詳細(xì)說明。
[0063] 壓縮部分：如圖2所示
[0064] ①壓縮部分的處理對象是已采樣的離散語音信號，對離散的N個語音信號進(jìn)行 DCT變換，將時域信號變換到頻域，得到長度為N的稀疏的語音信號；
[0065] ②人的耳朵對聲音的感知能力是有限的，有許多聲音是人耳無法感知的。根據(jù)心理聲學(xué)模型中的靜音門檻曲線可知，低于靜音門限的聲音人耳是感知不到的，所以將低于靜音門限的信號幅度置零，這樣既不會影響音質(zhì)，也實現(xiàn)了信號的壓縮；
[0066] ③查找幅度不為0的信號，記錄其個數(shù)和位置，總個數(shù)即為稀疏度K，位置信息的集合I則是生成更優(yōu)的觀測矩陣的關(guān)鍵信息，也是高精度重構(gòu)的重要保障。
[0067] ④將生成的更優(yōu)的觀測矩陣與頻域信號相乘，再對乘積結(jié)果取符號即可得到壓縮語音信號，此時的信號不僅長度由N變成了 M，而且每個信號

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2