国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于單比特壓縮感知的語音壓縮方法

      文檔序號:9454222閱讀:1780來源:國知局
      基于單比特壓縮感知的語音壓縮方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于語言信號壓縮領(lǐng)域,具體涉及一種基于單比特壓縮感知的語音壓縮方 法。
      【背景技術(shù)】
      [0002] 為了更方便的存儲或者傳輸,必須對語音信號進(jìn)行壓縮。語音信號能夠進(jìn)行壓縮 的基本依據(jù)是語音信號中存在的冗余和人類的聽覺感知系統(tǒng)的獨特性。語音信號存在多種 多樣的冗余,可分別從時間域和頻率域描述。從時間域分析,幅度的非均勻分布,即語音中 的小幅度樣本出現(xiàn)的概率高,信息主要集中在低功率上;采樣數(shù)據(jù)間的相關(guān),相鄰的語音信 號間有很強的相關(guān)性。從頻率域分析,非均勻的長時功率譜密度,從相當(dāng)長的時間內(nèi)統(tǒng)計平 均,語音信號的功率譜呈現(xiàn)強烈的非平坦性,這說明語音信號對給定的頻段利用的不充分, 存在固定的冗余度。語音壓縮的第二個依據(jù)是人的聽覺生理和心理特性對語音的感知,人 的聽覺對低頻端比較敏感,而對高頻端不太敏感,這主要是因為濁音的周期和共振峰在這 里。此外,人耳對語音信號的相位變化不敏感,人耳的聽覺不像人的視覺對感知的信號相位 那樣敏感,一定程度的相位失真對聽覺來說是可以容忍的。人耳聽不到或感知極不靈敏的 語音信號都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語音壓縮。
      [0003] 傳統(tǒng)的信號采集以奈奎斯特采樣定理作為理論依據(jù),即信號的采樣頻率必須高于 信號最高頻率的兩倍。近年來,E. J. Candes,J. Romberg,T. Tao和D. L. Donoho等學(xué)者提出 了壓縮感知理論(Compressed sensing, CS),該理論指出,對于稀疏信號,米樣時可以以遠(yuǎn) 低于奈奎斯特采樣頻率進(jìn)行信號采樣,實現(xiàn)信號的壓縮。由于語音信號在頻域是可稀疏的, 故可以通過壓縮感知理論對其進(jìn)行壓縮和重構(gòu)。
      [0004] 現(xiàn)有技術(shù)的技術(shù)方案
      [0005] ①對一段連續(xù)的語音信號采樣N個點,得到長度為N的離散語音信號;
      [0006] ②對離散的語音信號進(jìn)行DCT變換,將時域信號變換到頻域,得到了長度為N的稀 疏的語音信號;
      [0007] ③利用高斯分布生成M行N列的矩陣,2K彡M〈〈N ;
      [0008] ④觀測矩陣與頻域信號相乘,由矩陣乘法易知,最后得到了 M個語音信號,由于 M〈〈N,故實現(xiàn)了語音信號的壓縮。
      [0009] 現(xiàn)有技術(shù)的缺點
      [0010] 1、現(xiàn)有的基于壓縮感知的語音壓縮常見的為"非lbit壓縮"方式,單比特的語音 壓縮還很少見;2、沒有巧妙的應(yīng)用基于壓縮感知方式的心理聲學(xué)模型,保存的數(shù)據(jù)存在冗 余;3、重構(gòu)精度難以保證;4、觀測矩陣沒有針對性。
      [0011] 縮略語和關(guān)鍵術(shù)語定義
      [0012] 稀疏度K :一幀頻域語音信號中幅度不為0的個數(shù);
      [0013] AD:模數(shù)轉(zhuǎn)換器;
      [0014] DCT :Discrete Cosine Transform,離散余弦變換,簡稱 DCT變換,由N.Ahmed 等人 在1974年提出的正交變換方法,它常被認(rèn)為是對語音和圖像信號進(jìn)行變換的最佳方法;
      [0015] IDCT變換:DCT變換的逆變換;
      [0016] N:-幀離散語音信號的長度,因為語音是離散的,所以長度也即采樣點的個數(shù);
      [0017] M :壓縮后語音信號的長度,一般2K彡M〈〈N。

      【發(fā)明內(nèi)容】

      [0018] 本發(fā)明針對現(xiàn)有技術(shù)語音信號壓縮時為"非lbit"且重構(gòu)精度低而提出了一種基 于單比特壓縮感知的語音壓縮方法。
      [0019] 為解決以上問題,本發(fā)明的技術(shù)方法是提供一種基于單比特壓縮感知的語音壓縮 方法,包括以下步驟:
      [0020] S1.將已采樣的離散的N個語音信號從時域信號變換到頻域信號,得到長度為N的 稀疏的語音信號;
      [0021] S2.將低于靜音門限的信號幅度置0 ;
      [0022] S3.查找幅度不為0的信號,記錄其個數(shù)和位置,總個數(shù)即為稀疏度K,位置信息的 集合記為I,并根據(jù)構(gòu)造更優(yōu)的觀測矩陣;
      [0023] S4.將S3生成的更優(yōu)的觀測矩陣與頻域信號相乘,再對乘積結(jié)果取符號即可得到 壓縮語音信號,此時的信號長度由N變成了 M,且每個信號占用lbit存儲;
      [0024] S5.將稀疏度K、位置信息的集合I與壓縮的語音信號中的"1"登記在一起,組幀 為數(shù)據(jù)流;
      [0025] S6.將S5得到的數(shù)據(jù)流進(jìn)行霍夫曼編碼,進(jìn)一步壓縮。
      [0026] 作為優(yōu)選,S1所述的將語音信號從時域信號變換到頻域信號采用的方法為DCT變 換、小波變換或者傅里葉變換。
      [0027] 作為優(yōu)選,S3所述的記錄語音信號位置信息的方法如下:以一幀長為N = 2048語 音信號為例,如果要直接記錄位置,那么記錄一個位置則使用l〇bit,假設(shè)最后一個非0信 號的位置為P,通過〇, 1標(biāo)識則需要P個bit,記錄位置則需要10K個bit,若10K>P,則采用 方式〇,反之采用方式1。
      [0028] 作為優(yōu)選,S3所述的利用信號的位置信息,構(gòu)造更優(yōu)的觀測矩陣方法如下:
      [0029] S31.輸入:稀疏基D,隨機矩陣的行M,隨機矩陣巾,位置集合I ;
      [0030] S32.初始化:感知矩陣F =仰,迭代次數(shù)為n,i = 0
      r , i 是用來記錄后續(xù)步驟中迭代次數(shù)的,大于n就結(jié)束迭代,否則繼續(xù);FT是F的共輒轉(zhuǎn)置矩陣, 實數(shù)范圍內(nèi)即為F的轉(zhuǎn)置矩陣;
      [0031] S33.對F'每一列歸一化,并把F'的值賦給F,F(xiàn) = F' ;
      [0032] S34?計算矩陣,G = FTF;
      [0033]S35.在位置集合I中任取其中的兩個元素IJP Ij,令G(i,j) = 0,要求集合I中 的所有元素取遍;
      [0034] S36.約束G中對角線外的元素大?。?br>[0035] 如果G(i,j)的絕對值小于
      則保持不變,否則, L/1N丄UD乙UU乙// A *1 * 〇/v
      sign表示取符號,如果G(i,j)大于0,則 sign(G2(i, j)) = 1,如果 G(i, j)小于 0,則 sign(G2(i, j)) = -1,如果 G(i, j)等于 0,則 sign(G2(i, j)) = 0 ;
      [0036] S37. SVD 分解,G = UQV ;
      [0037] S38?更新 G,將 G的秩降為M :G = UQUt;
      [0038] S39?計算 S = Q1/2Ut,
      [0039]S310. F' = S',更新多=F_DT,表示矩陣D的偽逆;
      [0040] S311. i = i+1, i從0變?yōu)?,當(dāng)i>n,則進(jìn)入下一步,否則返回S33 ;
      [0041] S312.迭代結(jié)束,輸出優(yōu)選之后的觀測矩陣巾。
      [0042] 為解決以上問題,本發(fā)明還提出了一種基于單比特壓縮感知的語音壓縮方法的解 壓方法,包括以下步驟:
      [0043] S7.對壓縮的數(shù)據(jù)進(jìn)行霍夫曼解碼,得到0和1的數(shù)據(jù)流;
      [0044] S8.根據(jù)壓縮時組幀數(shù)據(jù)流的方法從數(shù)據(jù)流中取出稀疏度K和位置信息,構(gòu)造觀 測矩陣;
      [0045] S9.將信號的位置信息加入重構(gòu)算法BITH,重構(gòu)出頻域的語音信號;
      [0046] S10.將頻域的語音信號從頻域信號變換到時域信號。
      [0047] 作為優(yōu)選,S9的具體步驟如下:
      [0048] S91.輸入一個M行1列的元素只有0,1的觀測矩陣Y,即可得出更新步長a值, 位置集合I和最大迭代次數(shù)t;
      [0049] S92.初始化稀疏信號X,即X為一個N行1列的零矩陣;
      [0050] S93?迭代更新X = X+ a (}> '(Y-sign (巾X)),巾'為巾的轉(zhuǎn)置矩陣;
      [0051] S94. X中位置集合I位置以外的元素都置零;
      [0052] S95.若n < t,則重復(fù)以上步驟,每迭代一次,n就加1,即n = n+1 ;
      [0053] S96.當(dāng)n>t時,根據(jù)單位能量約束條件X = X/ | | X | 12,輸出X的最優(yōu)估計值。
      [0054] 本發(fā)明的有益效果如下:
      [0055] 1、語音信號的采樣速率要求并不高,用于語音采樣的AD并不是語音信號采樣的 瓶頸問題。其他需要利用壓縮感知進(jìn)行采樣以降低AD采樣速率的場景為高速采樣場景,語 音信號采樣不屬于高速采樣,故可以不改變系統(tǒng)原有的采樣器件與采樣結(jié)構(gòu),只需要進(jìn)行 軟件的修改,大大節(jié)約了系統(tǒng)改造的成本;
      [0056] 2、目前流行的mp3技術(shù),僅能壓縮10余倍,而利用本發(fā)明的方法,可輕易地將語音 壓縮32倍以上,其音質(zhì)也能達(dá)到近似于mp3標(biāo)準(zhǔn)音質(zhì)。譬如電信領(lǐng)域的錄音系統(tǒng),需要存 儲海量的語音數(shù)據(jù),如果利用本發(fā)明的壓縮方法將會十分有利。
      【附圖說明】
      [0057] 圖1為現(xiàn)有技術(shù)流程示意圖;
      [0058] 圖2為壓縮流程示意圖;
      [0059] 圖3為重構(gòu)流程示意圖;
      [0060] 圖4為記錄語音信號位置的流程示意圖;
      [0061] 圖5為改進(jìn)的BITH算法流程示意圖。
      【具體實施方式】
      [0062] 為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對 本發(fā)明做進(jìn)一步詳細(xì)說明。
      [0063] 壓縮部分:如圖2所示
      [0064] ①壓縮部分的處理對象是已采樣的離散語音信號,對離散的N個語音信號進(jìn)行 DCT變換,將時域信號變換到頻域,得到長度為N的稀疏的語音信號;
      [0065] ②人的耳朵對聲音的感知能力是有限的,有許多聲音是人耳無法感知的。根據(jù)心 理聲學(xué)模型中的靜音門檻曲線可知,低于靜音門限的聲音人耳是感知不到的,所以將低于 靜音門限的信號幅度置零,這樣既不會影響音質(zhì),也實現(xiàn)了信號的壓縮;
      [0066] ③查找幅度不為0的信號,記錄其個數(shù)和位置,總個數(shù)即為稀疏度K,位置信息的 集合I則是生成更優(yōu)的觀測矩陣的關(guān)鍵信息,也是高精度重構(gòu)的重要保障。
      [0067] ④將生成的更優(yōu)的觀測矩陣與頻域信號相乘,再對乘積結(jié)果取符號即可得到壓縮 語音信號,此時的信號不僅長度由N變成了 M,而且每個信號
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1