基于單比特壓縮感知的語音壓縮方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語言信號壓縮領(lǐng)域,具體涉及一種基于單比特壓縮感知的語音壓縮方 法。
【背景技術(shù)】
[0002] 為了更方便的存儲或者傳輸,必須對語音信號進(jìn)行壓縮。語音信號能夠進(jìn)行壓縮 的基本依據(jù)是語音信號中存在的冗余和人類的聽覺感知系統(tǒng)的獨特性。語音信號存在多種 多樣的冗余,可分別從時間域和頻率域描述。從時間域分析,幅度的非均勻分布,即語音中 的小幅度樣本出現(xiàn)的概率高,信息主要集中在低功率上;采樣數(shù)據(jù)間的相關(guān),相鄰的語音信 號間有很強的相關(guān)性。從頻率域分析,非均勻的長時功率譜密度,從相當(dāng)長的時間內(nèi)統(tǒng)計平 均,語音信號的功率譜呈現(xiàn)強烈的非平坦性,這說明語音信號對給定的頻段利用的不充分, 存在固定的冗余度。語音壓縮的第二個依據(jù)是人的聽覺生理和心理特性對語音的感知,人 的聽覺對低頻端比較敏感,而對高頻端不太敏感,這主要是因為濁音的周期和共振峰在這 里。此外,人耳對語音信號的相位變化不敏感,人耳的聽覺不像人的視覺對感知的信號相位 那樣敏感,一定程度的相位失真對聽覺來說是可以容忍的。人耳聽不到或感知極不靈敏的 語音信號都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語音壓縮。
[0003] 傳統(tǒng)的信號采集以奈奎斯特采樣定理作為理論依據(jù),即信號的采樣頻率必須高于 信號最高頻率的兩倍。近年來,E. J. Candes,J. Romberg,T. Tao和D. L. Donoho等學(xué)者提出 了壓縮感知理論(Compressed sensing, CS),該理論指出,對于稀疏信號,米樣時可以以遠(yuǎn) 低于奈奎斯特采樣頻率進(jìn)行信號采樣,實現(xiàn)信號的壓縮。由于語音信號在頻域是可稀疏的, 故可以通過壓縮感知理論對其進(jìn)行壓縮和重構(gòu)。
[0004] 現(xiàn)有技術(shù)的技術(shù)方案
[0005] ①對一段連續(xù)的語音信號采樣N個點,得到長度為N的離散語音信號;
[0006] ②對離散的語音信號進(jìn)行DCT變換,將時域信號變換到頻域,得到了長度為N的稀 疏的語音信號;
[0007] ③利用高斯分布生成M行N列的矩陣,2K彡M〈〈N ;
[0008] ④觀測矩陣與頻域信號相乘,由矩陣乘法易知,最后得到了 M個語音信號,由于 M〈〈N,故實現(xiàn)了語音信號的壓縮。
[0009] 現(xiàn)有技術(shù)的缺點
[0010] 1、現(xiàn)有的基于壓縮感知的語音壓縮常見的為"非lbit壓縮"方式,單比特的語音 壓縮還很少見;2、沒有巧妙的應(yīng)用基于壓縮感知方式的心理聲學(xué)模型,保存的數(shù)據(jù)存在冗 余;3、重構(gòu)精度難以保證;4、觀測矩陣沒有針對性。
[0011] 縮略語和關(guān)鍵術(shù)語定義
[0012] 稀疏度K :一幀頻域語音信號中幅度不為0的個數(shù);
[0013] AD:模數(shù)轉(zhuǎn)換器;
[0014] DCT :Discrete Cosine Transform,離散余弦變換,簡稱 DCT變換,由N.Ahmed 等人 在1974年提出的正交變換方法,它常被認(rèn)為是對語音和圖像信號進(jìn)行變換的最佳方法;
[0015] IDCT變換:DCT變換的逆變換;
[0016] N:-幀離散語音信號的長度,因為語音是離散的,所以長度也即采樣點的個數(shù);
[0017] M :壓縮后語音信號的長度,一般2K彡M〈〈N。
【發(fā)明內(nèi)容】
[0018] 本發(fā)明針對現(xiàn)有技術(shù)語音信號壓縮時為"非lbit"且重構(gòu)精度低而提出了一種基 于單比特壓縮感知的語音壓縮方法。
[0019] 為解決以上問題,本發(fā)明的技術(shù)方法是提供一種基于單比特壓縮感知的語音壓縮 方法,包括以下步驟:
[0020] S1.將已采樣的離散的N個語音信號從時域信號變換到頻域信號,得到長度為N的 稀疏的語音信號;
[0021] S2.將低于靜音門限的信號幅度置0 ;
[0022] S3.查找幅度不為0的信號,記錄其個數(shù)和位置,總個數(shù)即為稀疏度K,位置信息的 集合記為I,并根據(jù)構(gòu)造更優(yōu)的觀測矩陣;
[0023] S4.將S3生成的更優(yōu)的觀測矩陣與頻域信號相乘,再對乘積結(jié)果取符號即可得到 壓縮語音信號,此時的信號長度由N變成了 M,且每個信號占用lbit存儲;
[0024] S5.將稀疏度K、位置信息的集合I與壓縮的語音信號中的"1"登記在一起,組幀 為數(shù)據(jù)流;
[0025] S6.將S5得到的數(shù)據(jù)流進(jìn)行霍夫曼編碼,進(jìn)一步壓縮。
[0026] 作為優(yōu)選,S1所述的將語音信號從時域信號變換到頻域信號采用的方法為DCT變 換、小波變換或者傅里葉變換。
[0027] 作為優(yōu)選,S3所述的記錄語音信號位置信息的方法如下:以一幀長為N = 2048語 音信號為例,如果要直接記錄位置,那么記錄一個位置則使用l〇bit,假設(shè)最后一個非0信 號的位置為P,通過〇, 1標(biāo)識則需要P個bit,記錄位置則需要10K個bit,若10K>P,則采用 方式〇,反之采用方式1。
[0028] 作為優(yōu)選,S3所述的利用信號的位置信息,構(gòu)造更優(yōu)的觀測矩陣方法如下:
[0029] S31.輸入:稀疏基D,隨機矩陣的行M,隨機矩陣巾,位置集合I ;
[0030] S32.初始化:感知矩陣F =仰,迭代次數(shù)為n,i = 0
r , i 是用來記錄后續(xù)步驟中迭代次數(shù)的,大于n就結(jié)束迭代,否則繼續(xù);FT是F的共輒轉(zhuǎn)置矩陣, 實數(shù)范圍內(nèi)即為F的轉(zhuǎn)置矩陣;
[0031] S33.對F'每一列歸一化,并把F'的值賦給F,F(xiàn) = F' ;
[0032] S34?計算矩陣,G = FTF;
[0033]S35.在位置集合I中任取其中的兩個元素IJP Ij,令G(i,j) = 0,要求集合I中 的所有元素取遍;
[0034] S36.約束G中對角線外的元素大?。?br>[0035] 如果G(i,j)的絕對值小于
則保持不變,否則, L/1N丄UD乙UU乙// A *1 * 〇/v
sign表示取符號,如果G(i,j)大于0,則 sign(G2(i, j)) = 1,如果 G(i, j)小于 0,則 sign(G2(i, j)) = -1,如果 G(i, j)等于 0,則 sign(G2(i, j)) = 0 ;
[0036] S37. SVD 分解,G = UQV ;
[0037] S38?更新 G,將 G的秩降為M :G = UQUt;
[0038] S39?計算 S = Q1/2Ut,
[0039]S310. F' = S',更新多=F_DT,表示矩陣D的偽逆;
[0040] S311. i = i+1, i從0變?yōu)?,當(dāng)i>n,則進(jìn)入下一步,否則返回S33 ;
[0041] S312.迭代結(jié)束,輸出優(yōu)選之后的觀測矩陣巾。
[0042] 為解決以上問題,本發(fā)明還提出了一種基于單比特壓縮感知的語音壓縮方法的解 壓方法,包括以下步驟:
[0043] S7.對壓縮的數(shù)據(jù)進(jìn)行霍夫曼解碼,得到0和1的數(shù)據(jù)流;
[0044] S8.根據(jù)壓縮時組幀數(shù)據(jù)流的方法從數(shù)據(jù)流中取出稀疏度K和位置信息,構(gòu)造觀 測矩陣;
[0045] S9.將信號的位置信息加入重構(gòu)算法BITH,重構(gòu)出頻域的語音信號;
[0046] S10.將頻域的語音信號從頻域信號變換到時域信號。
[0047] 作為優(yōu)選,S9的具體步驟如下:
[0048] S91.輸入一個M行1列的元素只有0,1的觀測矩陣Y,即可得出更新步長a值, 位置集合I和最大迭代次數(shù)t;
[0049] S92.初始化稀疏信號X,即X為一個N行1列的零矩陣;
[0050] S93?迭代更新X = X+ a (}> '(Y-sign (巾X)),巾'為巾的轉(zhuǎn)置矩陣;
[0051] S94. X中位置集合I位置以外的元素都置零;
[0052] S95.若n < t,則重復(fù)以上步驟,每迭代一次,n就加1,即n = n+1 ;
[0053] S96.當(dāng)n>t時,根據(jù)單位能量約束條件X = X/ | | X | 12,輸出X的最優(yōu)估計值。
[0054] 本發(fā)明的有益效果如下:
[0055] 1、語音信號的采樣速率要求并不高,用于語音采樣的AD并不是語音信號采樣的 瓶頸問題。其他需要利用壓縮感知進(jìn)行采樣以降低AD采樣速率的場景為高速采樣場景,語 音信號采樣不屬于高速采樣,故可以不改變系統(tǒng)原有的采樣器件與采樣結(jié)構(gòu),只需要進(jìn)行 軟件的修改,大大節(jié)約了系統(tǒng)改造的成本;
[0056] 2、目前流行的mp3技術(shù),僅能壓縮10余倍,而利用本發(fā)明的方法,可輕易地將語音 壓縮32倍以上,其音質(zhì)也能達(dá)到近似于mp3標(biāo)準(zhǔn)音質(zhì)。譬如電信領(lǐng)域的錄音系統(tǒng),需要存 儲海量的語音數(shù)據(jù),如果利用本發(fā)明的壓縮方法將會十分有利。
【附圖說明】
[0057] 圖1為現(xiàn)有技術(shù)流程示意圖;
[0058] 圖2為壓縮流程示意圖;
[0059] 圖3為重構(gòu)流程示意圖;
[0060] 圖4為記錄語音信號位置的流程示意圖;
[0061] 圖5為改進(jìn)的BITH算法流程示意圖。
【具體實施方式】
[0062] 為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對 本發(fā)明做進(jìn)一步詳細(xì)說明。
[0063] 壓縮部分:如圖2所示
[0064] ①壓縮部分的處理對象是已采樣的離散語音信號,對離散的N個語音信號進(jìn)行 DCT變換,將時域信號變換到頻域,得到長度為N的稀疏的語音信號;
[0065] ②人的耳朵對聲音的感知能力是有限的,有許多聲音是人耳無法感知的。根據(jù)心 理聲學(xué)模型中的靜音門檻曲線可知,低于靜音門限的聲音人耳是感知不到的,所以將低于 靜音門限的信號幅度置零,這樣既不會影響音質(zhì),也實現(xiàn)了信號的壓縮;
[0066] ③查找幅度不為0的信號,記錄其個數(shù)和位置,總個數(shù)即為稀疏度K,位置信息的 集合I則是生成更優(yōu)的觀測矩陣的關(guān)鍵信息,也是高精度重構(gòu)的重要保障。
[0067] ④將生成的更優(yōu)的觀測矩陣與頻域信號相乘,再對乘積結(jié)果取符號即可得到壓縮 語音信號,此時的信號不僅長度由N變成了 M,而且每個信號