專利名稱:語音處理中用于人工擴展帶寬的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及用于提高以電方式再現(xiàn)的語音信號的質(zhì)量的方法和設(shè)備,更具體地來說涉及通過擴展語音帶寬來提高語音質(zhì)量。
背景技術(shù):
常規(guī)技術(shù)下,語音信號在電信系統(tǒng)中以窄帶傳輸,根據(jù)奈奎斯特定理,包含在300Hz到3.4kHz范圍內(nèi)的頻率,采樣率為8kHz。但是,如果所傳送語音的帶寬更寬些(例如達到8kHz),則人所感覺到的語音會更自然。由于頻率范圍受限,所以如此傳送的語音的質(zhì)量不甚理想,因為聲音有些不自然。為此,新的寬帶傳輸標(biāo)準(zhǔn)如AMR(自適應(yīng)多速率)寬帶語音編解碼器可以傳送達7kHz的頻率。但是,如果語音源自窄帶網(wǎng)絡(luò)或具有窄帶語音編碼器的設(shè)備,則具有寬帶功能的終端或?qū)拵ЬW(wǎng)絡(luò)不會提供有關(guān)所傳輸?shù)恼Z音自然度的任何優(yōu)勢,因為較高頻率的內(nèi)容已經(jīng)在傳輸時丟失。因此,有利且希望的是擴展傳輸語音的帶寬,以便提高語音質(zhì)量。過去,已經(jīng)將多種方法用于此目的。例如,H.Yasukawa所著的“通過濾波和多速率技術(shù)提高帶寬受限語音的質(zhì)量”(″Quality Enhancement of BandLimited Speech by Filtering and Multirate Techniques″,Proc.Int.Conf.on Spoken Language Proc,.pp.1607-1610)中公開了一種擴展頻譜方法,將采樣率轉(zhuǎn)換中的混疊效應(yīng)和數(shù)字濾波用于在擴展的頻譜的較高頻帶中進行頻譜整形。EP10064648公開了一種語音帶寬擴展方法,其中在接收器上利用碼本(codebook)生成高頻帶(例如4kHz和8kHz之間)語音的丟失頻率分量。碼本包含不同頻譜特征的頻率矢量,全部涵蓋相同的高頻帶。擴展頻率范圍相當(dāng)于選擇最優(yōu)矢量,并將其添加到接收的低頻帶(例如0到4kHz)的頻譜分量中。
雖然現(xiàn)有技術(shù)的解決方案提高了語音信號的質(zhì)量,但它們通常實現(xiàn)起來成本高昂,或需要大量的訓(xùn)練才能合成寬帶語音。
因此,最好提供一種方法和設(shè)備,用于以低計算復(fù)雜性來提高語音信號質(zhì)量。
發(fā)明概述根據(jù)本發(fā)明的第一方面,提供一種改善多個具有時域語音信號的信號片段中的語音的方法,所述方法的特征在于對所述信號片段執(zhí)行向上采樣,以提供時域上的向上采樣片段;將向上采樣片段轉(zhuǎn)換成多個具有頻域上的語音頻譜的變換片段;基于所述語音信號的至少一個信號特征將所述語音信號劃分為多個類;基于所述這些類在頻域上修改所述語音頻譜,以提供修改變換片段;以及將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)。
最好,所述向上采樣通過在所述信號片段中的相鄰信號樣本之間插值來執(zhí)行,其中所述插值為零。
最好,所述語音信號包括在時間軸上有多個交叉點的時間波形,所述語音信號的所述至少一個特征表示信號片段中交叉點的數(shù)量。
最好,每個信號片段包含多個信號樣本,所述信號片段的所述至少一個特征表示所述信號片段中交叉點的數(shù)量與所述信號片段中信號樣本的數(shù)量的比率。
最好,所述語音信號的至少一個信號特征表示所述語音信號的二階導(dǎo)數(shù)的能量與所述語音信號中的能量的比率。
最好,所述多個類包括濁音和塞音,并且如果所述比率小于預(yù)定值,則將所述語音信號歸類為所述濁音;
如果所述比率大于所述預(yù)定值,則將所述語音信號歸類為所述塞音。
最好,所述多個類包括咝音類和非咝音類;并且如果所述比率大于預(yù)定值,則將所述語音信號歸類為所述咝音類;如果所述比率小于或等于所述預(yù)定值,則將所述語音信號歸類為所述非咝音類。
最好,所述語音信號的所述至少一個信號特征表示所述語音信號的二階導(dǎo)數(shù)的能量與所述語音信號中的能量的另一個比率,如果所述另一個比率也大于另一個預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。
最好,每個語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,在所述語音信號歸類為所述咝音類時,增強所述第二頻譜部分來提供所述修改變換片段;在所述語音信號歸類為所述非咝音類時,衰減所述第二頻譜部分來提供所述修改變換片段。
最好,每個語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,并且在將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)之前,通過執(zhí)行平均運算來平滑所述第二頻譜部分。
根據(jù)本發(fā)明的第二方面,提供一種電信網(wǎng)絡(luò)中的網(wǎng)絡(luò)設(shè)備,其中所述網(wǎng)絡(luò)設(shè)備可以接收表示語音的數(shù)據(jù),并將所述接收數(shù)據(jù)劃分成多個具有時域語音信號的信號片段。所述網(wǎng)絡(luò)設(shè)備的特征在于包括向上采樣模塊,用于對所述信號片段執(zhí)行向上采樣,以提供時域上的向上采樣片段;變換模塊,用于將向上采樣片段轉(zhuǎn)換成多個具有頻域上的語音頻譜的變換片段;
分類算法,用于基于所述語音信號的至少一個信號特征將所述語音信號劃分為多個類;調(diào)整算法,用于基于所述這些類在頻域上修改所述語音頻譜,以提供修改變換片段;以及逆變換模塊,用于將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)。
最好,每個信號片段包括對在時間軸上有多個交叉點的波形采樣得到的多個信號樣本,并且所述分類算法適于基于至少一個信號片段中交叉點的數(shù)量與信號樣本的數(shù)量的比率將所述語音信號分類。
最好,所述分類算法還適于基于所述語音信號的二階導(dǎo)數(shù)的能量與至少一個信號片段中的能量的比率來將所述語音信號分類。
最好,所述多個類包括咝音類和非咝音類;每個語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述設(shè)備的特征在于所述調(diào)整算法適于在所述語音信號歸類為所述咝音類時,增強所述第二頻譜部分,以及在所述語音信號歸類為所述非咝音類時,衰減所述第二頻譜部分。
最好,所述調(diào)整算法還適于通過平均運算平滑所述第二頻譜部分。
根據(jù)本發(fā)明的第三方面,提供一種用于語音解碼器的聲音分類算法,其中在所述語音解碼器中將語音數(shù)據(jù)劃分成多個具有時域語音信號的信號片段,且每個信號片段包括多個信號樣本,所述語音信號包括在時間軸上具有多個交叉點的時間波形。所述分類算法的特征在于基于至少一個信號片段中交叉點的數(shù)量與信號樣本的數(shù)量的比率將所述語音信號劃分為多個類。
最好,將所述語音信號劃分為咝音類和非咝音類;如果所述比率大于預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。
最好,所述分類還基于所述語音信號的二階導(dǎo)數(shù)的能量與至少一個信號片段中的能量的另一個比率來執(zhí)行。
最好,將所述語音信號劃分為咝音類和非咝音類;如果所述比率大于第一預(yù)定值且所述另一個比率大于第二預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。所述第一預(yù)定值可以基本等于0.6,而所述第二預(yù)定值可以基本等于8。
根據(jù)本發(fā)明的第四方面,提供一種用于語音解碼器的頻譜調(diào)整算法,它可以接收語音數(shù)據(jù);將語音數(shù)據(jù)劃分成多個具有時域語音信號的信號片段;對所述信號片段執(zhí)行向上采樣,以提供向上采樣片段;以及將所述向上采樣片段轉(zhuǎn)換成多個變換片段,每個變換片段具有在第一頻率范圍中的第一語音頻譜部分和在高于所述第一頻率范圍的第二頻率范圍中的第二語音頻譜部分。所述調(diào)整算法的特征在于在所述語音信號歸類為所述咝音類時,增強所述第二語音頻譜部分;在所述語音信號歸類為所述非咝音類時,衰減所述第二語音頻譜部分;以及通過平均運算平滑所述第二頻譜部分。
最好,當(dāng)至少兩個連續(xù)信號片段中的語音信號歸類為所述咝音類時,所述至少兩個連續(xù)的信號片段包括開始片段和至少一個后續(xù)片段,其中,按第一系數(shù)增強所述開始片段中的所述第二語音頻譜部分,按小于所述第一系數(shù)的第二系數(shù)增強所述至少一個后續(xù)片段中的所述第二語音頻譜部分。
下文將參考
圖1-12闡述本發(fā)明。
附圖簡介圖1以框圖形式說明根據(jù)本發(fā)明的語音解碼器。
圖2以圖表說明插零之后語音幀的增強FFT頻譜。
圖3a以圖表說明插零之后濁音幀的FFT頻譜。
圖3b以圖表說明用于修改濁音幀的FFT頻譜的衰減曲線。
圖3c以圖表說明按照圖3b所示的衰減曲線執(zhí)行衰減之后圖3a的FFT頻譜。
圖4a以圖表說明插零之后塞音幀的FFT頻譜。
圖4b以圖表說明用于修改塞音幀的FFT頻譜的衰減曲線。
圖4c以圖表說明按照圖4b所示的衰減曲線執(zhí)行衰減之后圖4a的FFT頻譜。
圖5a以圖表說明用于修改塞音幀的FFT頻譜的另一個衰減曲線。
圖5b以圖表說明按照圖5a所示的衰減曲線執(zhí)行衰減之后圖4a的FFT頻譜。
圖6以圖表說明用于增強第一咝音幀的振幅和隨后的咝音幀的振幅的兩個不同放大曲線。
圖7a以圖表說明插零之后咝音幀的FFT頻譜。
圖7b以圖表說明在按與圖6所示曲線相似的放大曲線放大之后圖6a的FFT頻譜。
圖8a以圖表說明執(zhí)行衰減之后非咝音幀的FFT頻譜。
圖8b以圖表說明通過移動平均運算修改之后圖8a的經(jīng)過衰減的FFT頻譜。
圖9a以示意圖說明通過幀級聯(lián)操作處理的三個加窗的幀。
圖9b以示意圖說明幀級聯(lián)操作得到的連續(xù)幀序列。
圖10以流程圖形式說明根據(jù)本發(fā)明的語音質(zhì)量改善方法。
圖11以框圖說明根據(jù)本發(fā)明具有語音信號修改模塊的移動終端。
圖12以框圖說明含有多個分別采用本發(fā)明的語音信號修改模塊的基站的電信網(wǎng)絡(luò)。
發(fā)明的最佳實施方式本發(fā)明利用接收器接收到的原始窄帶語音信號(0-4kHz),通過人工擴展接收語音的帶寬來生成新的語音信號,以基于該新語音信號提高語音的自然度。無需傳輸附加信息,本發(fā)明基于傳輸?shù)恼Z音信號的特征生成新的高頻分量。圖1顯示了根據(jù)本發(fā)明的語音解碼器10。如圖所示,輸入信號包括以典型采樣頻率8kHz采樣得到的連續(xù)樣本序列。通過成幀塊12將該輸入信號劃分成若干邊緣重疊的窗或幀。幀的缺省大小是20毫秒。采樣頻率為fs=8kHz時,每幀中有160個樣本。以30毫秒的漢明窗(240個樣本)對每個幀進行加窗處理,以便一幀的每一端與相鄰幀有5毫秒的重疊。在混疊塊14中,在樣本之間插零-通常為兩個樣本之間插入一個零。由此,采樣頻率從8kHz倍增到16kHz。在插零之后,在FFT模塊16中計算FFT(快速傅立葉變換)頻譜。該FFT的長度為1024。要注意的是,在插零之后,增強的FFT功率頻譜具有在0-4kHz范圍內(nèi)的原始窄帶分量以及相同頻譜在4kHz-8kHz頻率范圍內(nèi)的鏡像,如圖2所示。
增強的FFT頻譜由語音信號修改模塊20修改,此模塊包括聲音分類算法22和頻譜調(diào)整算法24。根據(jù)本發(fā)明,利用聲音分類算法22將所述語音信號劃分為多個類,隨后基于分類結(jié)果利用頻譜調(diào)整算法24修改上述經(jīng)過增強的FFT頻譜。具體而言,首先將幀中的語音信號劃分為兩種基本類型咝音和非咝音。咝音是摩擦音,如/s/、/sh/和/z/,它們包含較其它輔音高得多的頻率分量。摩擦音是呼出氣息磨擦通過聲道某點上狹窄處形成的輔音。非咝音還進一步劃分為濁音類和塞音類。一般而言,低頻帶(0-4kHz)上濁音的頻譜包絡(luò)隨頻率衰落,而在相同頻帶中咝音的頻譜包絡(luò)隨頻率提升。濁音如元音的頻譜與咝音的頻譜差異十分大,從而可以將咝音與非咝音區(qū)分開。但是,最好在時域而非頻域使用語音信號來進行語音信號分類。例如,可以將時域中過零點的數(shù)量和時域信號的能量及其二階導(dǎo)數(shù)用于區(qū)分咝音與非咝音。具體而言,基于兩個商數(shù)q1和q2來區(qū)分每個幀中的語音信號q1=NZ/NSq2=DE/ES其中NZ是時域中語音信號幀或窗的過零點數(shù)量;NS是幀中的樣本數(shù)量;DE是時域中語音信號二階導(dǎo)數(shù)的能量,以及ES是該語音信號的能量,它等于幀中信號的平方和。因此,q1是表示幀的頻率內(nèi)容的量度,q2是幀中能量相對于頻率的分布的相關(guān)量度。還應(yīng)該注意,存在也表示頻率內(nèi)容的其它量度,如FFT系數(shù)及能量分布,例如對幀執(zhí)行任何高通濾波之后的能量,這些量度均可用于聲音分類,但商數(shù)q1和q2易于計算。將這兩個商數(shù)與兩個不同的極限值c1和c2相比較來區(qū)分咝音與非咝音。如果q1>c1且q2>c2,則將所述幀視為屬于咝音。否則,將該幀視為屬于非咝音。例如,極限值c1和c2可以分別選擇為0.6和8。
一般而言,語音中摩擦音的持續(xù)時間比其它輔音的持續(xù)時間長。更精確地說,咝音的持續(xù)時間通常比非咝音的摩擦音(如/f/和/h/)的持續(xù)時間更長。因此,最好采用第三準(zhǔn)則來從語音信號中選出咝音,僅將具有至少兩個被視為摩擦音的連續(xù)幀的語音片段作為咝音處理。最后,當(dāng)一個幀滿足要求q1>c1和q2>c2時,聲音分類算法22還檢查至少一個后續(xù)幀,以判斷q1>c1和q2>c2的要求是否也得到滿足。
一旦將幀劃分為咝音和非咝音,則基于比值q1進一步將非咝音幀劃分成濁音幀和塞音幀。塞音是清音,如/k/、/p/和/t/。例如,如果q1大于0.4,則可以將該幀視為屬于塞音。否則,將該幀視為屬于濁音。
上述聲音分類準(zhǔn)則基于試驗事實,它們可以某種方式變化以改變所述方法的識別特征。例如,如果使q1和/或q2更小,例如為0.3和5,則本發(fā)明方法不太可能檢測出所有咝音,而同時誤檢測的咝音也會減少。如果使q1和/或q2更大,例如為0.9和12,則本發(fā)明方法更可能檢測出所有咝音,而同時誤檢測的咝音也會增加。持續(xù)時間D的閾值也可以類似方式變化而得到類似結(jié)果,例如,在30毫秒和90毫秒之間變化。
當(dāng)利用參數(shù)q1、q2和D來檢測咝音時,根據(jù)本發(fā)明,可以根據(jù)本方法檢測咝音和摩擦音的敏感度和特異性確定這些參數(shù)相對于每種實施方案的合理極限值。在某種極端條件下,如在非常嘈雜的環(huán)境中,這些參數(shù)的值甚至可以超過上述范圍。
在將這些幀劃分成不同的聲音類別之后,利用頻譜調(diào)整算法24來修改相應(yīng)插零幀中的增強FFT頻譜的振幅。如上所述,增強FFT頻譜涵蓋0到8kHz的頻率范圍。頻率范圍的半低頻范圍具有原窄帶FFT頻譜,而頻率范圍的半高頻范圍具有同一頻譜的鏡像。最好只修改高頻帶頻譜,而低頻帶保持不變。但是,也可以不同的處理操作來修改低頻帶,然后結(jié)合兩種處理操作來實現(xiàn)一種對整個頻譜進行修改而改善聲音質(zhì)量的方法。
濁音幀修改較高頻率范圍中的FFT頻譜,以使其振幅隨頻率升高而作更大的衰減?;趦蓚€參數(shù)attnlg和kx來衰減增強的濁音幀F(xiàn)FT頻譜的振幅,這兩個參數(shù)如下計算attnlg=Lmax-Lavekx=2.90-0.086*attnlg+0.0010*(attnlg)2其中Lmax是0-4kHz的最大頻譜級,Lave是2-3.4kHz的平均頻譜級。由這兩個參數(shù)可形成步階間隔為1kHz的階躍函數(shù),以便衰減4-8kHz的振幅頻譜,通過將衰減量逐漸增加到如下給出的最大衰減量來獲得每個步階p=kx*attnlg*w其中w是與最大頻譜分量的頻率成比例的加權(quán)系數(shù)。階躍函數(shù)在0-4kHz之間的振幅是0dB。為了顯示振幅衰減的結(jié)果,圖3a中顯示了一個濁音幀的典型振幅頻譜,而在圖3b中顯示了一個示范衰減階躍函數(shù)。圖3c中顯示的是按該階躍函數(shù)衰減之后的振幅頻譜。
塞音幀對于塞音幀,最好以類似方式衰減每個幀的振幅頻譜,不同之處在于attnlg=3(Lmax-Lave)圖4a中顯示了一個塞音幀的典型振幅頻譜。圖4b中顯示的是一個示范衰減階躍函數(shù)。圖4c中顯示的是按該階躍函數(shù)衰減之后的振幅頻譜。或者,如圖5a-5b所示,以更漸進的方式執(zhí)行衰減操作。如圖5a所示,對頻譜振幅的衰減始于4kHz,其衰減曲線呈對數(shù)函數(shù)的形狀。圖5b是按圖5a所示衰減曲線衰減之后圖4a的振幅頻譜。
咝音幀一般來說,在對咝音幀進行插零處理之后,其FFT頻譜的振幅包絡(luò)從0到4kHz遞增,而后從4kHz到8kHz遞減。希望對該頻譜進行修改,使得較高頻率范圍中頻譜的振幅隨頻率增加。如上所述,僅將具有至少兩個滿足要求q1>c1和q2>c2的連續(xù)幀的語音片段作為咝音處理,在咝音片段中,使0-4.8kHz之間的增強FFT頻譜的振幅保持不變,而按如下對數(shù)函數(shù)attslidelg增強4.8kHz-8kHz之間頻譜的振幅attslidelg=kUV*sqrt[f-4800)/3200]其中UV是頻率范圍0.3kHz-3kHz上振幅頻譜差的dB值(例如,該差值可以由頻率范圍兩端的若干樣本的均值計算得到),f是以Hz為單位的頻率,并且對于第一咝音幀,k=0.4,對于后續(xù)咝音幀,k=0.7。圖6中顯示了UV=15時咝音幀的放大曲線。要注意的是,在確定放大曲線之后,將其轉(zhuǎn)換為線性標(biāo)度(linear scale),然后再將其值與增強FFT頻譜的振幅相乘。圖7c中顯示了經(jīng)過放大的頻譜。圖7a中顯示的是原始頻譜,而圖7b中顯示的是所用放大曲線。
移動平均在較高頻帶(4kHz-8kHz)上采用移動平均運算的目的在于通過消除諧音結(jié)構(gòu)使語音更為自然。移動平均運算是對若干樣本求振幅頻譜平均,并且樣本數(shù)量隨頻率范圍的增加而增加。移動平均運算也由頻譜調(diào)整算法24執(zhí)行。例如,在4kHz-5kHz的頻率范圍上,不執(zhí)行任何平均運算。在5kHz-6kHz的頻率范圍上,對5個樣本求振幅頻譜平均。在6kHz-7kHz的頻率范圍上,對9個樣本求振幅頻譜平均。最后在7kHz-8kHz的頻率范圍上,對13個樣本求振幅頻譜平均。圖8a是執(zhí)行移動平均運算之前一幀的振幅頻譜。圖8b是執(zhí)行移動平均運算之后的振幅頻譜。
IFFT和能量調(diào)整在頻域?qū)︻l譜進行處理之后,使用逆快速傅立葉變換(IFFT)模塊30通過逆快速傅立葉變換(IFFT)將頻譜變換回時域。由每個幀計算長度為1024的IFFT。由變換結(jié)果,480個第一樣本(30毫秒)構(gòu)成了該幀的時域表示。在因新的頻譜分量添加到信號中而使頻率擴展之后,每個幀的能量發(fā)生改變。此外,能量的改變隨幀不同而不同。因此,最好利用能量調(diào)整模塊32將寬帶幀的能量調(diào)整到與原窄帶幀中相同的水平。
消窗在此階段,利用消窗(unwindowing)模塊34通過將所有處理的幀乘以逆漢明窗(inverse Hamming window)來補償計算FFT時執(zhí)行的加窗操作。逆窗的長度為30毫秒,480個樣本。
級聯(lián)幀為從處理的幀獲得連續(xù)信號,利用幀級聯(lián)模塊36通過重疊方式將幀放置在一起。應(yīng)該注意的是,此階段采樣頻率為16kHz,加窗幀長度為30毫秒,而實際幀為20毫秒。當(dāng)將加窗幀級聯(lián)時,最好結(jié)合相鄰幀中的樣本求加窗幀20毫秒中間部分的前50個樣本和最后50個樣本的平均,如圖9a所示。平均運算用于避免實際幀之間的突跳(sudden jump)。在平均過程中,采用線性斜率的單調(diào)函數(shù),以使一個幀的影響隨時間線性下降,而后續(xù)幀的影響隨時間線性增加。在將幀級聯(lián)之后,如圖9b所示,連續(xù)的幀序列包含采樣頻率為16kHz的連續(xù)樣本序列。
圖10中以流程圖100說明根據(jù)本發(fā)明的人工擴展接收語音信號帶寬的方法。如圖10所示,通過混疊模塊(參見圖1)對時域上的語音幀進行向上采樣之后,由FFT模塊(參見圖1)在步驟102將向上采樣幀轉(zhuǎn)換為頻域上的變換幀。在步驟104,由聲音分類模塊(參見圖1)利用時域上對應(yīng)語音幀中過零點數(shù)量、時長和能量信息判斷該變換幀表示的是咝音還是非咝音。如果變換幀屬于非咝音,則在步驟120判斷該幀屬于濁音還是塞音。如果該幀屬于濁音,則在步驟122根據(jù)衰減曲線對語音幀的FFT頻譜進行衰減。如果該幀屬于塞音,則在步驟124根據(jù)另一個衰減曲線對語音幀的FFT頻譜進行衰減。但是,如果步驟104判定與頻域上變換幀相關(guān)聯(lián)的語音片段是咝音,則在步驟112或114根據(jù)步驟110就該幀是否是第一幀的判斷結(jié)果來修改那些變換幀的FFT頻譜。在基于時域上對應(yīng)語音幀的特征修改頻域上的語音幀之后,在步驟130通過逆FFT模塊將修改后的語音幀轉(zhuǎn)換回時域上的多個語音幀,并在步驟140由能量調(diào)整模塊調(diào)整時域上這些語音幀的能量,以便進一步處理。
根據(jù)本發(fā)明的人工擴展接收語音信號帶寬的方法可以概括為如下三個主要步驟
在第一步驟,通過在原始信號的每兩個樣本之間插零來對時域上的語音幀進行向上采樣,從而使采樣頻率和數(shù)字語音信號帶寬加倍。因此,如果原采樣頻率是8kHz,則創(chuàng)建了4kHz和8kHz之間語音幀中的混疊頻率分量。
在第二步驟,基于語音片段的分類利用自適應(yīng)算法調(diào)整該混疊頻率分量的電平。由向上采樣語音信號的原始窄帶FFT頻譜計算混疊頻率分量的調(diào)整量。
在第三步驟,利用逆傅立葉變換將調(diào)整的頻譜變換到時域,以生成頻帶為300kHz-7.7kHz的新語音(如果所傳送的原始語音信號的頻率分量在300Hz和3.4kHz之間)。
圖11是根據(jù)本發(fā)明一個示范實施例的移動終端200的方框圖。移動終端200包括一些典型的終端部件,如麥克風(fēng)201、小鍵盤207、顯示器206、耳機214、發(fā)送/接收切換開關(guān)208、天線209和控制單元205。此外,圖11顯示移動終端的典型發(fā)送器和接收器塊204、211。發(fā)送器塊204包括用于對語音信號進行編碼的編碼器221。發(fā)送器塊204還包括信道編碼、解密和調(diào)制所需的操作以及RF功能,為簡明起見,這些部件未在圖11中示出。接收器塊211還包括根據(jù)本發(fā)明的解碼塊220。解碼塊220包括類似于圖1所示語音信號修改模塊20的語音信號修改模塊222。信號來自麥克風(fēng)201,在放大級202進行放大,并在A/D轉(zhuǎn)換器中數(shù)字化,然后傳送到發(fā)送器塊204,通常是傳送到發(fā)送塊所包括的語音編碼裝置。經(jīng)過發(fā)送塊處理、調(diào)制并放大的發(fā)送信號通過發(fā)送/接收切換開關(guān)208傳送到天線209。要接收的信號經(jīng)發(fā)送/接收切換開關(guān)208從天線傳送到接收器塊211,由其對接收信號解調(diào),并進行信道解密和解碼。語音信號修改模塊222對接收信號進行人工擴展來提高語音質(zhì)量。得到的語音信號通過D/A轉(zhuǎn)換器212傳送給放大器213,進而傳送給耳機214??刂茊卧?05控制移動終端200的操作,從小鍵盤207讀取用戶提供的控制命令,并通過顯示器206向用戶提供消息。
根據(jù)本發(fā)明的語音信號修改模塊20還可以用于電信網(wǎng)絡(luò)300如普通電話網(wǎng),或移動臺網(wǎng)絡(luò)如GSM網(wǎng)絡(luò)。圖12顯示此類電信網(wǎng)絡(luò)的一個框圖實例。例如,電信網(wǎng)絡(luò)300可以包括電話交換機或?qū)?yīng)的交換系統(tǒng)360,它們與普通電話370、基站340、基站控制器350和電信網(wǎng)絡(luò)的其它中央設(shè)備355連接。移動終端330可以通過基站340與電信網(wǎng)絡(luò)建立連接。含有類似于圖1所示修改模塊20的語音信號修改模塊322的解碼塊320最好可以設(shè)在例如基站340上。應(yīng)該注意的是,語音信號修改模塊322可以應(yīng)用于代碼轉(zhuǎn)換器,該代碼轉(zhuǎn)換器用于將來自PSTN(公眾交換電話網(wǎng))或PLMN(公眾陸地移動網(wǎng))如GSM或IS-95的語音轉(zhuǎn)換到3G移動網(wǎng)。代碼轉(zhuǎn)換通常是將PCM(脈沖碼調(diào)制)窄帶信號表示轉(zhuǎn)換為例如WB-AMR(寬帶自適應(yīng)多速率)表示,以使移動終端330無需進行語音信號修改。解碼塊320還可以設(shè)在例如基站控制器350或其它中央或交換設(shè)備355上。因此,可以利用語音信號修改模塊332通過人工擴展基站或基站控制器中接收的語音信號的帶寬來提高語音質(zhì)量。語音信號修改模塊332還可以用于個人計算機、IP電話等。
雖然已參考優(yōu)選實施例對本發(fā)明作了說明,但本技術(shù)領(lǐng)域人員會理解,在不背離本發(fā)明范圍的前提下可以在形式和細節(jié)上對所述實施例進行上述及各種其它變更、省略和調(diào)整。
權(quán)利要求
1.一種用于改善多個具有時域語音信號的信號片段中的語音的方法,所述方法的特征在于對所述信號片段執(zhí)行向上采樣,以提供時域上的向上采樣片段;將所述向上采樣片段轉(zhuǎn)換成具有頻域上語音頻譜的多個變換片段;基于所述語音信號的至少一個信號特征將所述語音信號劃分為多個類;基于所述這些類在頻域上修改所述語音頻譜,以提供經(jīng)過修改變換片段;以及將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其中每個信號片段包含多個信號樣本,所述方法的特征在于所述向上采樣通過在所述信號片段中的相鄰信號樣本之間插值來執(zhí)行。
3.如權(quán)利要求2所述的方法,其特征在于所述插入值是零值。
4.如權(quán)利要求1至3中任何一項所述的方法,其中所述語音信號包括在時間軸上具有多個交叉點的時間波形,所述方法的特征在于所述語音信號的所述至少一個特征表示信號片段中交叉點的數(shù)量。
5.如權(quán)利要求4所述的方法,其中每個所述信號片段包含多個信號樣本,所述方法的特征在于所述信號片段的所述至少一個特征表示所述信號片段中交叉點的數(shù)量與所述信號片段中信號樣本的數(shù)量的比率。
6.如權(quán)利要求1至5中任何一項所述的方法,其特征在于所述語音信號的所述至少一個特征表示信號片段中的能量。
7.如權(quán)利要求1所示的方法,其特征在于所述語音信號的所述至少一個信號特征表示所述語音信號的二階導(dǎo)數(shù)的能量與所述語音信號中的能量的比率。
8.如權(quán)利要求5所述的方法,其中所述多個類包括濁音和塞音,所述方法的特征在于如果所述比率小于預(yù)定值,則將所述語音信號規(guī)類為所述濁音;如果所述比率大于所述預(yù)定值,則將所述語音信號規(guī)類為所述閉塞輔音。
9.如權(quán)利要求5所述的方法,其中所述多個類包括咝音和非咝音;所述方法的特征在于如果所述比率大于預(yù)定值,則將所述語音信號規(guī)類為所述咝音類;如果所述比率小于或等于所述預(yù)定值,則將所述語音信號規(guī)類為所述非咝音類。
10.如權(quán)利要求9所述的方法,其中所述語音信號的所述至少一個信號特征表示所述語音信號的二階導(dǎo)數(shù)的能量與所述語音信號中的能量的另一個比率,所述方法的特征還在于如果所述另一個比率大于另一個預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。
11.如權(quán)利要求9所述的方法,其中每個所述語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述方法的特征在于在所述語音信號歸類為所述咝音類時,增強所述第二頻譜部分以提供所述修改變換片段。
12.如權(quán)利要求9所述的方法,其中每個語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述方法的特征在于在所述語音信號歸類為所述非咝音類時,衰減所述第二頻譜部分以提供所述修改變換片段。
13.如權(quán)利要求1至12中任何一項所述的方法,其中每個所述語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述方法的特征還在于在將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)之前,通過執(zhí)行平均運算平滑所述第二頻譜部分。
14.一種電信網(wǎng)絡(luò)中的網(wǎng)絡(luò)設(shè)備,其中所述網(wǎng)絡(luò)設(shè)備可以接收表示語音的數(shù)據(jù);以及將所述接收數(shù)據(jù)劃分成多個具有時域語音信號的信號片段,所述網(wǎng)絡(luò)設(shè)備的特征在于向上采樣模塊,用于對所述信號片段執(zhí)行向上采樣,以提供時域上的向上采樣片段;變換模塊,用于將所述向上采樣片段轉(zhuǎn)換成多個具有頻域上的語音頻譜的變換片段;分類算法,用于基于所述語音信號的至少一個信號特征將所述語音信號劃分為多個類;以及調(diào)整算法,用于基于所述這些類在頻域上修改所述語音頻譜,以提供修改變換片段。
15.如權(quán)利要求14所述的設(shè)備,其特征還在于逆變換模塊,用于將所述修改變換片段轉(zhuǎn)換成時域上的語音數(shù)據(jù)。
16.如權(quán)利要求14或15所述的設(shè)備,其中每個所述信號片段包含多個信號樣本,所述設(shè)備用于對在時間軸上具有多個交叉點的時間波形進行采樣,所述設(shè)備的特征在于所述分類算法適于基于至少一個信號片段中交叉點數(shù)量與信號樣本數(shù)量的比率將所述語音信號分類。
17.如權(quán)利要求14或15所述的設(shè)備,其特征在于所述分類算法適于基于所述語音信號的二階導(dǎo)數(shù)的能量與至少一個信號片段中的能量的比率來將所述語音信號分類。
18.如權(quán)利要求17所述的設(shè)備,其中每個所述信號片段包含多個信號樣本,所述設(shè)備用于對在時間軸上具有多個交叉點的時間波形進行采樣,所述設(shè)備的特征還在于所述分類算法適于基于所述至少一個信號片段中交叉點的數(shù)量與信號樣本的數(shù)量的另一個比率將所述語音信號分類。
19.如權(quán)利要求14至18中任何一項所述的設(shè)備,其中所述多個類包括咝音類和非咝音類;每個所述語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述設(shè)備的特征在于所述調(diào)整算法適于在所述語音信號歸類為所述咝音類時,增強所述第二頻譜部分;以及在所述語音信號歸類為所述非咝音類時,衰減所述第二頻譜部分。
20.如權(quán)利要求14至18中任何一項所述的設(shè)備,其中每個所述語音頻譜具有在較低頻率范圍中的第一頻譜部分和在較高頻率范圍中的第二頻譜部分,所述設(shè)備的特征還在于所述調(diào)整算法適于通過平均運算平滑所述第二頻譜部分。
21.如權(quán)利要求19所述的設(shè)備,其特征還在于所述調(diào)整算法適于通過平均運算平滑所述第二頻譜部分。
22.權(quán)利要求14至21中任何一項所述的設(shè)備,其特征在于包括所述電信網(wǎng)絡(luò)中的移動終端。
23.權(quán)利要求14至21中任何一項所述的設(shè)備,其特征在于包括所述電信網(wǎng)絡(luò)中的基站。
24.權(quán)利要求14至21中任何一項所述的設(shè)備,其特征在于包括所述電信網(wǎng)絡(luò)中的代碼轉(zhuǎn)換器。
25.一種用于語音解碼器的聲音分類算法,其中在所述語音解碼器中將語音數(shù)據(jù)劃分成多個具有時域語音信號的信號片段,且每個信號片段包括多個信號樣本,所述語音信號包括在時間軸上具有多個交叉點的時間波形,所述分類算法的特征在于基于至少一個信號片段中交叉點的數(shù)量與信號樣本的數(shù)量的比率將所述語音信號劃分為多個類。
26.如權(quán)利要求25所述的聲音分類算法,其中將所述語音信號劃分為咝音類和非咝音類;所述分類算法的特征在于如果所述比率大于預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。
27.如權(quán)利要求25或26所述的算法,其特征在于所述分類還基于所述語音信號的二階導(dǎo)數(shù)的能量與所述至少一個信號片段中的能量的另一個比率來執(zhí)行。
28.如權(quán)利要求27所述的聲音分類算法,其中將所述語音信號劃分為咝音類和非咝音類;所述分類算法的特征在于如果所述比率大于第一預(yù)定值且所述另一個比率大于第二預(yù)定值,則將所述語音信號規(guī)類為所述咝音類。
29.如權(quán)利要求28所述的聲音分類算法,其特征在于所述第一預(yù)定值基本等于0.6,以及而所述第二預(yù)定值基本等于8。
30.一種用于語音解碼器的頻譜調(diào)整算法,其能夠接收語音數(shù)據(jù);將語音數(shù)據(jù)劃分成多個具有時域語音信號的信號片段;對所述信號片段執(zhí)行向上采樣,以提供向上采樣片段;以及將所述向上采樣片段轉(zhuǎn)換成多個變換片段,每個變化片段具有在第一頻率范圍中的第一語音頻譜部分和在大于所述第一頻率范圍的第二頻率范圍中的第二語音頻譜部分,所述調(diào)整算法的特征在于在所述語音信號歸類為所述咝音類時,增強所述第二語音頻譜部分;以及在所述語音信號歸類為所述非咝音類時,衰減增強所述第二語音頻譜部分。
31.如權(quán)利要求30所述的頻譜調(diào)整算法,其特征還在于通過平均運算平滑所述第二頻譜部分。
32.如權(quán)利要求30或31所述的頻譜調(diào)整算法,其中,在將至少兩個連續(xù)信號片段中的所述語音信號歸類為所述咝音類時,所述至少兩個連續(xù)的信號片段包括開始片段和至少一個后續(xù)片段,所述調(diào)整算法的特征在于按第一系數(shù)增強所述開始片段中的所述第二語音頻譜部分,以及按大于所述第一系數(shù)的第二系數(shù)增強所述至少一個后續(xù)片段中的所述第二語音頻譜部分。
全文摘要
一種改善利用300Hz和3.4kHz之間的音頻帶寬傳輸?shù)恼Z音信號的質(zhì)量的方法和設(shè)備。在將接收語音信號劃分成幀之后,在樣本之間插零以使采樣頻率加倍。利用基于語音幀分類的自適應(yīng)算法調(diào)整這些混疊頻率分量的電平。可以將語音劃分為咝音和非咝音,可以再將非咝音劃分為濁音和塞音。所述調(diào)整基于一些參數(shù),例如由300Hz和3.4kHz之間的向上采樣語音信號頻譜計算的過零點數(shù)量和能量分布來執(zhí)行。通過對經(jīng)過調(diào)整的向上采樣語音頻譜執(zhí)行逆傅立葉變換而獲得帶寬在300Hz和7.7kHz之間的新語音。
文檔編號G10L11/06GK1735926SQ200480001978
公開日2006年2月15日 申請日期2004年1月9日 優(yōu)先權(quán)日2003年1月10日
發(fā)明者L·卡利奧, P·阿爾庫, K·凱克, M·卡亞拉, P·瓦爾韋 申請人:諾基亞有限公司