語音信號內(nèi)插的裝置、方法和程序的制作方法

文檔序號：2820989閱讀：213來源：國知局

專利名稱：語音信號內(nèi)插的裝置、方法和程序的制作方法
技術領域：
本發(fā)明涉及一種語音信號內(nèi)插的裝置、方法和程序。
背景技術：
如今音樂節(jié)目等通過有線或射頻廣播或通信廣泛地分布。如果頻帶太寬，為了廣播音樂等類似的節(jié)目，防止音樂數(shù)據(jù)量過大并拓寬所占頻帶是很重要的。為避免這個問題，音樂數(shù)據(jù)在利用結(jié)合在頻率掩蔽方法的語音壓縮格式進行壓縮后被分布，比如MP3(MPEG1音頻層3)格式和AAC(高級音頻編碼)格式。
頻率掩蔽方法是利用一種現(xiàn)象來壓縮語音的，該現(xiàn)象即人類很難聽到低級聲音信號的頻譜成分，所述低級聲音信號的頻率接近高級聲音信號的頻譜成分。
圖4(b)表示利用頻率掩蔽方法壓縮如圖4(a)所示的頻譜的原始聲音的結(jié)果圖，(圖4(a)表示獲得由以MP3格式壓縮人類產(chǎn)生的語音的頻譜的一個示例)。
如圖所示，如同由頻率掩蔽方法壓縮的語音，一般具有2KHz或者更高的頻率的成分大量丟失，甚至接近提供頻譜峰值的、低于2KHz的成分(語音的基頻成分和諧波成分的頻譜)也大量丟失。
在日本未決的公開號為2001-356788專利公開的方法中，內(nèi)插壓縮的語音頻譜來獲得原始語音頻譜。根據(jù)這個方法，內(nèi)插頻帶是從壓縮后的頻譜剩余中獲得，表示與在內(nèi)插頻帶中相同的分布的頻譜成分被插入到由于壓縮而丟失頻譜成分的頻帶，以使匹配整個頻譜的包絡線。
如果用日本未決的公開號為2001-356788專利所公開的方法內(nèi)插圖4(b)所示的頻譜，可獲得如圖4(c)所示的頻譜，其與原始語音的頻譜很不相同。即使具有這樣頻譜的語音被重放，只會獲得非常不自然的語音。這個問題一般與由人類產(chǎn)生的并用這個方法壓縮的語音有關。
本發(fā)明是在上述環(huán)境下產(chǎn)生的，且本發(fā)明的目的在于提供一種頻率內(nèi)插裝置和方法來從壓縮的語音中恢復人聲并保持高的音質(zhì)。

發(fā)明內(nèi)容
為實現(xiàn)上述目的，根據(jù)本發(fā)明第一方面，提供了一種語音信號內(nèi)插裝置，其包括基音波形信號產(chǎn)生裝置，用來獲取代表語音波形的輸入語音信號并且使與所述的輸入語音信號的單位基音對應的一段時長充分相同，以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；頻譜獲得裝置，用來根據(jù)基音波形信號產(chǎn)生代表所述輸入語音信號頻譜的數(shù)據(jù)；平均裝置，用來根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號的各個頻譜成分平均值分布的平均數(shù)據(jù)；和語音信號恢復裝置，用來產(chǎn)生輸出語音信號，其代表具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語音。
所述的基音波形信號產(chǎn)生裝置包括可變?yōu)V波器，它的頻率特征被控制為可變的，可變?yōu)V波器對所述輸入語音信號進行濾波以獲得輸入語音的基頻成分；濾波器特征確定裝置，用于根據(jù)所述可變?yōu)V波器獲得的基頻成分來識別輸入語音的基頻、并控制所述可變?yōu)V波器使得頻率特征截止除了在識別的基頻附近的頻率分量之外的頻率成分；
基音獲得裝置，用來根據(jù)由所述可變?yōu)V波器獲得的基頻成分值，分割所述輸入語音信號成在與單位基音相應的段內(nèi)的一語音信號；和音長固定裝置，用來通過以充分相同的采樣數(shù)目來采樣所述輸入語音信號的每段來產(chǎn)生基音波形信號，該基音波形信號具有在每段中充分相同的時長。
所述濾波器特征確定裝置可包括交叉檢測裝置，用來識別所述可變?yōu)V波器獲得的基頻成分達到預定值的定時周期，并根據(jù)所述識別的周期來識別基頻。
所述濾波器特征確定裝置可包括平均基音檢測裝置，用來根據(jù)所述輸入語音信號、在被濾波前檢測所述輸入語音信號代表的語音的基音的時長；和判斷裝置，判斷所述交叉檢測裝置識別的周期和所述平均基音檢測裝置識別的基音的時長是否彼此相差一個預定量或更多，如果判斷所述周期和所述時長相同，控制所述可變?yōu)V波器使得頻率特征截止除了由所述交叉檢測裝置識別的基頻附近的頻率分量之外的頻率成分，而如果判斷周期和時長是不同，控制所述可變?yōu)V波器使得頻率特征截止除了從由所述平均基音檢測裝置識別的基音時長中識別的基頻附近的頻率分量之外的頻率成分。
所述平均基音檢測裝置包括倒頻譜分析裝置，用來計算由所述可變?yōu)V波器濾波前的輸入語音信號的倒頻譜具有最大值處的頻率；自相關分析裝置，用來計算由所述可變?yōu)V波器濾波前的輸入語音信號的周期圖具有最大值處的頻率；平均計算裝置，用來根據(jù)所述倒頻譜分析裝置和所述自相關分析裝置計算的頻率，計算所述輸入語音信號表示的語音的基音平均值，并識別所述已計算的平均值作為語音的基音的時長。
根據(jù)本發(fā)明的第二方面，提供了一種語音信號內(nèi)插方法，其包括步驟獲取代表語音波形的輸入語音信號，并且使與所述的輸入語音信號的單位基音對應的一段的時長充分相同，以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；根據(jù)所述基音波形信號來產(chǎn)生代表所述輸入語音信號頻譜的數(shù)據(jù)；根據(jù)多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號各個的頻譜成分的平均值分布的頻譜的平均數(shù)據(jù)；和產(chǎn)生輸出語音信號，其具有由所述平均數(shù)據(jù)表征的頻譜的語音。
根據(jù)本發(fā)明的第三方面，提供一種用于使計算機進行如下操作的程序基音波形信號產(chǎn)生裝置，用來獲取代表語音波形的輸入語音信號，并且使與所述的輸入語音信號的單位基音對應的一段的時長充分相同，以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；頻譜獲得裝置，用來根據(jù)所述基音波形信號產(chǎn)生代表所述輸入語音信號的頻譜的數(shù)據(jù)；平均裝置，用來根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號的各個頻譜成分平均值分布的頻譜的平均數(shù)據(jù)；和語音信號恢復裝置，用來產(chǎn)生輸出語音信號，其具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語音。

圖1表示根據(jù)本發(fā)明一實施例的語音信號內(nèi)插裝置的結(jié)構圖；圖2表示基音獲得單元的結(jié)構框圖；圖3表示平均單元的結(jié)構框圖；圖4(a)表示原始語音頻譜一示例圖，圖4(b)表示利用頻率掩蔽方法壓縮圖4(a)所示頻譜獲得的頻譜圖，和圖4(c)表示利用傳統(tǒng)方法、通過內(nèi)插具有圖4(a)所示頻譜信號而獲得的頻譜圖；圖5表示利用圖1所示語音內(nèi)插裝置，內(nèi)插具有圖4(a)所示頻譜信號獲得的信號頻譜圖；圖6(a)表示具有圖4(a)所示頻譜的語音的基頻成分和諧波成分的強度的時間變化圖，圖6(b)表示具有圖4(b)所示頻譜的語音的基頻成分和諧波成分的強度的時間變化圖；圖7表示具有圖5所示頻譜的語音的基頻成分和諧波成分的強度的時間變化圖。
具體實施例方式
參照附圖，將描述本發(fā)明的實施例。
圖1是根據(jù)本發(fā)明一實施例的語音信號內(nèi)插裝置的結(jié)構圖。如圖所示，這個語音信號內(nèi)插裝置由語音數(shù)據(jù)輸入單元1，基音獲得單元2，音長固定單元3，子帶分割單元4，平均單元5，子帶合成單元6，基音恢復單元7和語音輸出單元8構成。
語音數(shù)據(jù)輸入單元1由記錄介質(zhì)驅(qū)動器組成，諸如軟盤驅(qū)動器，MO(磁光盤)驅(qū)動器和CD-R(可記錄密度盤)驅(qū)動器來讀取記錄在記錄介質(zhì)如軟盤，MO和CD-R上的數(shù)據(jù)。
語音數(shù)據(jù)輸入單元1獲得代表語音波形的語音數(shù)據(jù)并將其提供給基音固定單元3。
語音數(shù)據(jù)具有是以PCM(脈沖編碼調(diào)制)進行調(diào)制的數(shù)字信號格式，并假定語音數(shù)據(jù)代表以恒定周期抽樣的語音，所述恒定周期充分低于語音基音。
基音獲得單元2，音長固定單元3，子帶分割單元4，子帶合成單元6和基音恢復單元7每個由數(shù)據(jù)處理設備構成，如DSP(數(shù)字信號處理器)和CPU(中央處理單元)。
基音獲得單元2，音長固定單元3，子帶分割單元4，子帶合成單元6和基音恢復單元7的部分或整個功能可由單一數(shù)據(jù)處理設備實現(xiàn)。
如圖2所示，基音獲得單元2從功能上包括倒頻譜分析單元21，自相關分析單元22，權重計算單元23，BPF(帶通濾波器)系數(shù)計算單元24，BPF 25，過零點分析單元26，波形相關分析單元27和相位調(diào)整單元28。
倒頻譜分析單元21，自相關分析單元22，權重計算單元23，BPF(帶通濾波器)系數(shù)計算單元24，BPF 25，過零點分析單元26，波形相關分析單元27和相位調(diào)整單元28中的部分或整體可由單一數(shù)據(jù)處理設備實現(xiàn)。
倒頻譜分析單元21對從語音數(shù)據(jù)輸入單元1提供的語音數(shù)據(jù)進行倒頻譜分析，識別代表語音數(shù)據(jù)的語音的基頻，并產(chǎn)生代表識別基頻的數(shù)據(jù)來提供給權重計算單元23。
更具體地，當語音數(shù)據(jù)由語音數(shù)據(jù)輸入單元1提供時，倒頻譜分析單元21首先將語音數(shù)據(jù)的強度轉(zhuǎn)變成完全等于原始值對數(shù)的數(shù)值(對數(shù)的底是任意的，比如可用常用對數(shù))。
接下來，倒頻譜分析單元21通過快速傅立葉變換(或其他任意產(chǎn)生代表傅立葉變換離散變量數(shù)據(jù)的方法)計算轉(zhuǎn)換的語音數(shù)據(jù)的頻譜(即倒頻譜)。
在提供倒頻譜的最大值的頻率中的最低頻率被識別為基頻，并產(chǎn)生代表識別的基頻的數(shù)據(jù)且提供給權重計算單元23。
當語音數(shù)據(jù)從語音數(shù)據(jù)輸入單元1提供時，自相關分析單元22根據(jù)語音數(shù)據(jù)的波形的自相關函數(shù)來識別代表語音數(shù)據(jù)的語音基頻，產(chǎn)生代表識別的基頻的數(shù)據(jù)來提供給權重計算單元23。
更具體地，當語音數(shù)據(jù)從語音數(shù)據(jù)輸入單元1提供時，自相關分析單元22首先識別自相關函數(shù)r，其由方程(1)r(1)＝1/N{ê(t+1)·ê(t)的右項表示，其中N是抽樣語音數(shù)據(jù)的總和，ê(á)是從語音數(shù)據(jù)的第一抽樣起計數(shù)的第á個抽樣的數(shù)值。
其次，自相關分析單元22識別基頻，它是低于預定較低限頻率的最低頻率，在這些提供通過自相關函數(shù)r(1)傅立葉變換獲得的函數(shù)(周期圖)的最大值的頻率中，產(chǎn)生代表識別的基頻的數(shù)據(jù)來提供給重計算單元23。
當代表基頻的兩條數(shù)據(jù)被從倒頻譜分析單元21和自相關分析單元22提供時，權重計算單元23計算由兩條數(shù)據(jù)代表的基頻的倒數(shù)的平均絕對值。產(chǎn)生代表計算值(即平均基音長度)的數(shù)據(jù)，并將其提供給BPF系數(shù)計算單元24。
如將在下面描述的，從權重計算單元23將代表平均基音長度的數(shù)據(jù)和從過零點分析單元26將過零點信號供給BPF系數(shù)計算單元24，并且根據(jù)提供的數(shù)據(jù)和過零點信號，判斷平均基音長度，基音信號和過零點周期是否彼此相差一個預定量。如果判斷它們是相同的，BPF 25的頻率特征被控制，使得中心頻率(BPF25的通帶中心頻率)變?yōu)檫^零點周期的倒數(shù)。如果判斷它們是不同的，BPF25的頻率特征被控制使得中心頻率變?yōu)槠骄糸L的倒數(shù)。
BPF25具有FIR(有限脈沖響應)型濾波函數(shù)，其能變換它的中心頻率。
更具體地，BPF 25將自己的中心頻率設定為與BPF系數(shù)計算單元24控制的值相同。BPF 25對從語音數(shù)據(jù)輸入單元1提供的語音數(shù)據(jù)進行濾波，并將已濾波語音信號(基音信號)到過零點分析單元26和波形相關分析單元27。假定基音信號是具有與語音數(shù)據(jù)充分地相同的抽樣周期的數(shù)字數(shù)據(jù)。
BPF25的帶寬優(yōu)選地被設定為使得BPF25的通帶的上限落在語音數(shù)據(jù)代表的語音的兩倍基頻的范圍或者更低。
當從BPF 25提供的基音信號的瞬時值變?yōu)椤?”，過零點分析單元26檢測定時(過零點定時)，并且提供代表檢測定時的信號(過零點信號)到BPF系數(shù)計算單元24。
當基音信號的瞬時值取為一預定值時，過零點分析單元26檢測定時，且將其代替過零點信號提供給BPF系數(shù)計算單元24。
從語音數(shù)據(jù)輸入單元1將語音數(shù)據(jù)并且從波形相關分析單元27將基音信號提供波形相關分析單元27，波形相關分析單元在基音信號的單位周期(例如，一個周期)的時刻將語音數(shù)據(jù)分解。波形相關分析單元27計算在給出各種相位的語音數(shù)據(jù)和每一個劃分的段中的基音信號之間的相關性，并且確定具有最高相關的語音數(shù)據(jù)的相位作為那個段中的語音數(shù)據(jù)的相位。
更具體地，對每一段和每一個不同相位(是一個為0或者更大的整數(shù))，波形相關分析單元27計算諸如方程(2)右端的項表示的cor值。波形相關分析單元27識別與最大Cor值相對應的的數(shù)值Φ，產(chǎn)生代表值Φ的數(shù)據(jù)，并且把它提供給相位調(diào)節(jié)單元28，作為表示在每一段中的語音數(shù)據(jù)的相位的相位數(shù)據(jù)。
Cor＝{f(i-)·g(i)}
式中，n是一段中的抽樣總和，f(β)是這一段中從語音數(shù)據(jù)第一個樣本開始計數(shù)的第β個樣本的值。g( )是這一段中基音信號的第個樣本值。
每一段的時長優(yōu)選為大約一個基音。每一段越長，段內(nèi)的樣本數(shù)增加越多，使得基音波形信號的數(shù)據(jù)量增加，或者樣本周期變長，基音波形信號所代表的語音變得不正確。
從語音數(shù)據(jù)輸入單元1將語音數(shù)據(jù)和從波形相關分析單元27將代表在每段的語音數(shù)據(jù)的相位Ф的數(shù)據(jù)提供相位調(diào)節(jié)單元28，相位調(diào)節(jié)單元28將這一段的語音數(shù)據(jù)的相位設置為等于代表相位數(shù)據(jù)這一段中的相位Ф。移相的語音數(shù)據(jù)被提供給音長固定單元3。
從相位調(diào)節(jié)單元28將移相語音數(shù)據(jù)提供音長固定單元3，音長固定單元重新采樣這一段的語音數(shù)據(jù)，且將重新采樣的語音數(shù)據(jù)提供給子帶分割單元4。音長固定單元3以這樣的方式重新采樣每段的語音數(shù)據(jù)的樣本數(shù)基本上相等，并且以相等的基音來將樣本安排到這一段基音上。
音長固定單元3產(chǎn)生代表每一段中的原始樣本的數(shù)目的樣本數(shù)目的數(shù)據(jù)，并把它提供給語音輸出單元8。如果通過數(shù)據(jù)輸入單元1得到的語音數(shù)據(jù)的采樣周期為已知，樣本數(shù)目數(shù)據(jù)就是代表與單位基音相應的段內(nèi)語音數(shù)據(jù)的原始時間長度的信息。
子帶分割單元4對音長固定單元3提供的語音數(shù)據(jù)執(zhí)行正交變換，例如DCT(離散余弦變換)或者離散傅立葉變換(例如，快速傅立葉變換)以產(chǎn)生定常周期的子帶數(shù)據(jù)(例如，與單位基音對應的周期或與整數(shù)倍的單位基音對應的周期)。當每次子帶數(shù)據(jù)產(chǎn)生的時候，這個數(shù)據(jù)被提供給平均單元5。子帶數(shù)據(jù)5表示了由子帶分割單元4提供的語音數(shù)據(jù)所表示的語音頻譜分布。
根據(jù)子帶分割單元4多次提供的子帶數(shù)據(jù)，平均單元5產(chǎn)生子帶數(shù)據(jù)(此后稱為平均子帶數(shù)據(jù))，其是譜分量的平均值，并將其提供給子帶合成單元6。
從功能上說，平均單元5由圖3所示的子帶數(shù)據(jù)存儲部分5 1和平均部分52組成。
子帶數(shù)據(jù)存儲部分51是存儲器，如RAM(隨機存取存儲器)，存儲由子帶分割單元4提供最近的三條子帶數(shù)據(jù)，通過平均部分52存取。當通過平均部分52進行存取時，子帶數(shù)據(jù)存儲部分51將存儲的子帶數(shù)據(jù)的最先的兩條(最早的第三和第二條)到平均部分52。
平均部分52由DSP、CPU等構成，基音獲得單元2，音長固定單元3，子帶分割單元4，子帶合成單元6和基音恢復單元7的部分或整個功能可由在平均部分52中的單一數(shù)據(jù)處理設備實現(xiàn)。
每次子帶分割單元4提供一條子帶數(shù)據(jù)時，平均部分52對子帶數(shù)據(jù)存儲部分51進行存取。從子帶分割單元4提供的最新的子帶數(shù)據(jù)被存儲在子帶數(shù)據(jù)存儲部分51中。平均部分52從子帶數(shù)據(jù)存儲部分51中讀取最早的兩條子帶數(shù)據(jù)。
平均部分52計算在同一頻率下三條子帶數(shù)據(jù)頻譜分量強度的平均值(例如，算術平均)。這三條子帶數(shù)據(jù)包括由子帶分割單元4提供的一條子帶數(shù)據(jù)和從子帶數(shù)據(jù)存儲部分51中讀取的兩條子帶數(shù)據(jù)。平均部分52產(chǎn)生代表譜分量的強度的計算的平均值的頻率分布的數(shù)據(jù)(平均子帶數(shù)據(jù))，并將其提供給子帶合成單元6。
在代表用來產(chǎn)生平均子帶數(shù)據(jù)的三條子帶數(shù)據(jù)的譜分量中，在f頻率(f＞0)處的強度由i1，i2和i3(i1≥0，i2≥0，i3≥0)來表示。在平均子帶數(shù)據(jù)代表的譜分量的f頻率處的平均子帶數(shù)據(jù)的強度等于i1，i2和i3的平均值(例如，i1，i2和i3的算術平均)。
子帶合成單元6將從平均單元5提供的平均子帶數(shù)據(jù)變換為語音數(shù)據(jù)，它的每個頻率分量的強度由平均子帶數(shù)據(jù)表征。子帶合成單元6提供產(chǎn)生的語音數(shù)據(jù)到基音恢復單元7。由子帶合成單元6產(chǎn)生的語音數(shù)據(jù)可是PCM調(diào)制的數(shù)字信號。
子帶合成單元6對平均子帶數(shù)據(jù)進行的轉(zhuǎn)換本質(zhì)上是與子帶分割單元4為產(chǎn)生子帶數(shù)據(jù)所進行的轉(zhuǎn)換相對應的逆轉(zhuǎn)換。更具體地，例如，如果子帶數(shù)據(jù)是通過語音信號進行DCT產(chǎn)生的，子帶合成單元6通過平均子帶數(shù)據(jù)進行IDCT(逆DCT)來產(chǎn)生語音信號。
基音恢復單元7以音長固定單元3提供的采樣數(shù)目數(shù)據(jù)代表的采樣數(shù)目對從子帶合成單元6提供的語音數(shù)據(jù)中的每段進行重新采樣，以在被音長固定單元3改變之前來恢復每段的時長。帶有每段中的恢復時長的語音數(shù)據(jù)被提供給語音輸出單元8。
語音輸出單元8由PCM解碼器，D/A(數(shù)字到模擬)轉(zhuǎn)換器，AF(音頻)放大器，揚聲器等組成。
語音輸出單元8從基音恢復單元7接收帶有每段中的恢復時長的語音數(shù)據(jù)，解調(diào)該語音數(shù)據(jù)，對其進行數(shù)模轉(zhuǎn)換并且放大。獲得的模擬信號驅(qū)動揚聲器并重放語音。
參考附圖4，5至7，描述上述獲得語音的操作。
圖5是利用圖1所示語音內(nèi)插裝置內(nèi)插圖4(a)所示頻譜的信號而獲得的信號頻譜圖。
圖6(a)表示在具有圖4(a)所示頻譜的語音基頻分量和諧波分量強度的時間變化圖。
圖6(b)表示在具有圖4(b)所示頻譜的語音基頻分量和諧波分量強度的時間變化圖。
圖7表示在具有圖5所示頻譜的語音基頻分量和諧波分量強度的時間變化圖。
從圖4(a)，4(c)和圖5的頻譜范圍的比較可看出，對原始語音頻譜，用圖1所示的語音內(nèi)插裝置將頻譜分量內(nèi)插到被進行掩蔽的語音中而獲得的頻譜比用日本未決的專利公開號2001-35678中所公開的方法將頻譜分量內(nèi)插到被進行掩蔽的語音而獲得的頻譜更加累似于原始語音的頻譜。
如圖6(b)所示，示出了其頻譜分量被通過掩蔽而移去部分的語音的基頻分量和諧波分量強度的時間變化圖不比圖6(a)所示的原始語音的基頻分量和諧波分量的強度的時間變化圖更加平滑。(圖6(a)，圖6(b)，和圖7中，圖形“BND0”示出了語音的基頻分量的強度，“BNDK”(其中K是從1到8的整數(shù))表示語音的第k+1諧波分量的強度)。
如圖7所示，圖形示出了用圖1所示的語音內(nèi)插裝置將頻譜分量到被進行掩蔽的語音信號而獲得的信號的基頻分量和諧波分量強度的時間變化圖比圖6(b)所示的更加平滑，并且更加累似于圖6(a)所示的原始語音的基頻分量和諧波分量的強度的時間變化圖。
由圖1所示的語音內(nèi)插裝置再生的語音是自然語音，而且與通過由日本未決專利公開號2001-356788的方法進行內(nèi)插而再生的語音或者沒有進行對掩蔽的信號進行頻譜內(nèi)插而再生的語音相比，更近似于原始語音。
音長固定單元3對在輸入到語音信號內(nèi)插裝置的語音數(shù)據(jù)的單位基音部分的時長進行歸一化，消除基音的抖動。因此，由子帶分割單元4產(chǎn)生的子帶數(shù)據(jù)提供準確的在由語音數(shù)據(jù)表示的語音的每個頻率分量(基頻和諧波分量)的強度的時間變化。因此，由平均單元5產(chǎn)生的子帶數(shù)據(jù)提供準確的由語音數(shù)據(jù)表示的語音的每個頻率分量的強度的時間變化。
基音波形獲得系統(tǒng)的結(jié)構不僅限于上面的描述。
比如，語音輸入單元1可以通過電話線、專用線路、或者諸如衛(wèi)星頻道的通信線路從外部得到語音數(shù)據(jù)。在這種情形下，語音數(shù)據(jù)輸入單元1裝備有通信控制單元，諸如調(diào)制解調(diào)器，DSU(數(shù)據(jù)服務單元)和路由器。
語音數(shù)據(jù)輸入單元1可以具有包括麥克風，AF放大器，抽樣器，A/D(模擬到數(shù)字)轉(zhuǎn)換器，PCM編碼器等的語音收集裝置。語音收集裝置放大代表由麥克風收集的語音的語音信號，對其抽樣和A/D轉(zhuǎn)換，并對抽樣的語音信號進行PCM來獲得語音數(shù)據(jù)。由語音數(shù)據(jù)輸入單元1獲得的語音數(shù)據(jù)不限于PCM信號。
語音輸出單元8可以將從基音再生單元7提供的語音數(shù)據(jù)或者從解調(diào)語音數(shù)據(jù)獲得的數(shù)據(jù)通過通信線路提供給外部。在這種情形，語音輸出單元8裝配有由(比如)調(diào)制解調(diào)器，DSU等組成的通信控制單元。
語音輸出單元8可以將從基音再生單元7提供的語音數(shù)據(jù)或者經(jīng)解調(diào)語音數(shù)據(jù)獲得的數(shù)據(jù)寫到在外部記錄介質(zhì)或者諸如硬盤的外部存儲設備。在這種情形，語音輸出單元8裝配有由諸如記錄介質(zhì)驅(qū)動器的控制電路和硬盤控制器。
被平均單元5用來產(chǎn)生平均的子帶數(shù)據(jù)的子帶數(shù)據(jù)的數(shù)目不限于僅為三條數(shù)據(jù)，可以是每平均子帶數(shù)據(jù)有多個數(shù)據(jù)。不要求從子帶分割單元4連續(xù)提供用來產(chǎn)生平均子帶數(shù)據(jù)的多個子帶數(shù)據(jù)。比如，平均單元5可以從子帶分割單元4提供的兩個數(shù)據(jù)的間隔(或者在多個數(shù)據(jù)的間隔)獲得多個子帶數(shù)據(jù)，并且僅使用獲得的子帶數(shù)據(jù)來產(chǎn)生平均子帶數(shù)據(jù)。
當從子帶驅(qū)動單元4提供子帶數(shù)據(jù)的一個數(shù)據(jù)由時，平均單元52可以將其立刻存儲在子帶數(shù)據(jù)存儲部分51中，并讀取最新的三條子帶數(shù)據(jù)來產(chǎn)生平均子帶數(shù)據(jù)。
上面描述了本發(fā)明的實施例。本發(fā)明的語音信號內(nèi)插裝置不僅能由專用系統(tǒng)實現(xiàn)，而且能由一般計算機系統(tǒng)實現(xiàn)。
比如，可以將用于執(zhí)行語音數(shù)據(jù)輸入單元1，基音獲得單元2，音長固定單元3，子帶分割單元4，平均單元5，子帶合成單元6，基音再生單元7和語音輸出單元8的操作的程序存儲在介質(zhì)(CD-ROM，MO，軟盤等)上。該程序安裝在具有D/A轉(zhuǎn)換器，AF放大器，揚聲器等的個人計算機上，以執(zhí)行上述處理并利用個人計算機實現(xiàn)語音信號內(nèi)插裝置。
例如，可以通過通信線路將該程序上載到在通信線路上的電子公告系統(tǒng)上來分布該程序。用代表該程序的信號調(diào)制一載波，并且將調(diào)制波傳送到對該調(diào)制波進行解調(diào)以恢復該程序的接收器。
上述處理可通過啟動該程序，并且以與一般應用程序相似的方式在OS的控制下執(zhí)行該程序。
如果OS負責部分處理或者如果它構成本發(fā)明組元的一部分，可以將刪除對應于這部分的程序部分存儲在記錄介質(zhì)上。甚至在這種情形，在本發(fā)明中，假定記錄介質(zhì)存儲用于執(zhí)行將由計算機執(zhí)行的每個功能和步驟的程序。
發(fā)明效果到目前所述，根據(jù)本發(fā)明實現(xiàn)的語音信號內(nèi)插裝置和方法能從壓縮的語音中恢復原始語音，并保持高的音質(zhì)。
權利要求
1.一種語音信號內(nèi)插裝置，其包括基音波形信號產(chǎn)生裝置，用來獲取代表語音波形的輸入語音信號并且使與所述的輸入語音信號的單位基音對應的一段時長充分相同，以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；頻譜獲得裝置，用來根據(jù)基音波形信號產(chǎn)生代表所述輸入語音信號頻譜的數(shù)據(jù)；平均裝置，用來根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號的各個頻譜成分平均值分布的平均數(shù)據(jù)；和語音信號恢復裝置，用來產(chǎn)生輸出語音信號，其代表具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語音。
2.如權利要求1所述的語音信號內(nèi)插裝置，其中，所述的基音波形信號產(chǎn)生裝置包括可變?yōu)V波器，它的頻率特征被控制為可變的，可變?yōu)V波器對所述輸入語音信號進行濾波以獲得輸入語音的基頻成分；濾波器特征確定裝置，用于根據(jù)所述可變?yōu)V波器獲得的基頻成分來識別輸入語音的基頻、并控制所述可變?yōu)V波器使得頻率特征截止除了在識別的基頻附近的頻率分量之外的頻率成分；基音獲得裝置，用來根據(jù)由所述可變?yōu)V波器獲得的基頻成分值，分割所述輸入語音信號成在與單位基音相應的段內(nèi)的一語音信號；和音長固定裝置，用來通過以充分相同的采樣數(shù)目來采樣所述輸入語音信號的每段來產(chǎn)生基音波形信號，該基音波形信號具有在每段中充分相同的時長。
3.如權利要求2所述的語音信號內(nèi)插裝置，其中，所述濾波器特征確定裝置包括交叉檢測裝置，用來識別所述可變?yōu)V波器獲得的基頻成分達到預定值的定時周期，并根據(jù)所述識別的周期來識別基頻。
4.如權利要求3所述的語音信號內(nèi)插裝置，其中，所述濾波器特征確定裝置可包括平均基音檢測裝置，用來根據(jù)所述輸入語音信號、在被濾波前檢測所述輸入語音信號代表的語音的基音的時長；和判斷裝置，判斷所述交叉檢測裝置識別的周期和所述平均基音檢測裝置識別的基音的時長是否彼此相差一個預定量或更多，如果判斷所述周期和所述時長相同，控制所述可變?yōu)V波器使得頻率特征截止除了由所述交叉檢測裝置識別的基頻附近的頻率分量之外的頻率成分，而如果判斷周期和時長是不同，控制所述可變?yōu)V波器使得頻率特征截止除了從由所述平均基音檢測裝置識別的基音時長中識別的基頻附近的頻率分量之外的頻率成分。
5.如權利要求4所述的語音信號內(nèi)插裝置，其中，所述平均基音檢測裝置包括倒頻譜分析裝置，用來計算由所述可變?yōu)V波器濾波前的輸入語音信號的倒頻譜具有最大值處的頻率；自相關分析裝置，用來計算由所述可變?yōu)V波器濾波前的輸入語音信號的周期圖具有最大值處的頻率；平均計算裝置，用來根據(jù)所述倒頻譜分析裝置和所述自相關分析裝置計算的頻率，計算所述輸入語音信號表示的語音的基音平均值，并識別所述已計算的平均值作為語音的基音的時長。
6.一種語音信號內(nèi)插方法，其包括步驟獲取代表語音波形的輸入語音信號，并且使與所述的輸入語音信號的單位基音對應的一段的時長充分相同以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；根據(jù)所述基音波形信號來產(chǎn)生代表所述輸入語音信號頻譜的數(shù)據(jù)；根據(jù)多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號各個的頻譜成分的平均值分布的頻譜的平均數(shù)據(jù)；和產(chǎn)生輸出語音信號，其具有由所述平均數(shù)據(jù)表征的頻譜的語音。
7.一種用于使計算機進行如下操作的程序基音波形信號產(chǎn)生裝置，用來獲取代表語音波形的輸入語音信號，并且使與所述的輸入語音信號的單位基音對應的一段的時長充分相同，以將所述的輸入語音信號轉(zhuǎn)換為基音波形信號；頻譜獲得裝置，用來根據(jù)所述基音波形信號產(chǎn)生代表所述輸入語音信號的頻譜的數(shù)據(jù)；平均裝置，用來根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個數(shù)據(jù)，產(chǎn)生代表所述輸入語音信號的各個頻譜成分平均值分布的頻譜的平均數(shù)據(jù)；和語音信號恢復裝置，用來產(chǎn)生輸出語音信號，其具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語音。
全文摘要
本發(fā)明提供了一種語音信號內(nèi)插裝置，其能從語音壓縮狀態(tài)恢復自然人聲并保持高的音質(zhì)。當表征將被內(nèi)插的語音的語音信號由語音數(shù)據(jù)輸入單元1獲得時，基音獲得單元2對這個語音信號進行濾波以從濾波結(jié)果確定音長。音長固定單元3使語音信號具有對應單位基音的段的恒定時長，并產(chǎn)生基音波形數(shù)據(jù)。子帶分割單元4轉(zhuǎn)換基音波形數(shù)據(jù)為表征頻譜的子帶數(shù)據(jù)。多個子帶數(shù)據(jù)被平均單元5進行平均，然后，子帶合成單元6轉(zhuǎn)換子帶數(shù)據(jù)為表征子帶合成單元6的語音波形的信號。每段的時長由基音恢復單元7恢復，并且聲音輸出單元8重放信號表示的聲音。
文檔編號G10L11/04GK1514931SQ0380034
公開日2004年7月21日申請日期2003年5月28日優(yōu)先權日2002年6月7日
發(fā)明者佐藤寧申請人:株式會社建伍

完整全部詳細技術資料下載