国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語(yǔ)音帶寬擴(kuò)展的制作方法

      文檔序號(hào):2835062閱讀:423來(lái)源:國(guó)知局
      專利名稱:語(yǔ)音帶寬擴(kuò)展的制作方法
      背景接收語(yǔ)音信號(hào)的最常見(jiàn)方式是直接面對(duì)面,只不過(guò)耳朵聽(tīng)力的頻率下限為大約20Hz而頻率上限為大約20kHz。0.3-3.4kHz的普通電話窄帶語(yǔ)音信號(hào)帶寬比人們?cè)谂c某個(gè)音源面對(duì)面時(shí)所聽(tīng)到的要窄許多,但卻足以幫助進(jìn)行可靠的語(yǔ)音通信。但是,將這種窄帶語(yǔ)音信號(hào)擴(kuò)展到更寬帶寬將會(huì)是有益的,因?yàn)檫@會(huì)讓人覺(jué)得語(yǔ)音信號(hào)更自然。
      先前提出的帶寬擴(kuò)展方法包括碼本方法[參見(jiàn)例如Y.Yoshida、M Abe的“根據(jù)碼本映射從窄帶語(yǔ)音中重構(gòu)寬帶語(yǔ)音的算法”(Conf.Proc,ICSLP 94,pp.1591-1594,Yokohama,1994);以及J.Epps、W.H.Holmes的“采用基于STC的帶寬擴(kuò)展的語(yǔ)音增強(qiáng)”(Conf.Proc.ICSLP,1998) 和混疊/折疊方法(參見(jiàn)例如J.Makhoul、M.Berouti的“語(yǔ)音編碼系統(tǒng)中的高頻再生”(Conf.Proc.ICASSP,pp.428-431,Washington,USA,1979);以及H.Yasukawa的“采用濾波和多速率技術(shù)的頻帶受限語(yǔ)音的質(zhì)量增強(qiáng)”(Conf.Proc.ICSLP94,pp.1607-1610,Yokohama,1994))?;殳B方法在結(jié)構(gòu)上一般是簡(jiǎn)單的。在這種方法中,通過(guò)在窄帶信號(hào)樣本之間插入零值來(lái)對(duì)窄帶信號(hào)進(jìn)行上采樣。在利用這種上采樣時(shí),采用具有一半新采樣率的截止頻率的重建低通濾波器。當(dāng)整形濾波器取代這種濾波器時(shí),較高頻率范圍內(nèi)的混疊/折疊頻率內(nèi)容擴(kuò)展語(yǔ)音內(nèi)容。這種技術(shù)的缺陷在于語(yǔ)音諧波結(jié)構(gòu)在較高頻率范圍內(nèi)不是連續(xù)的,一般來(lái)說(shuō),不是對(duì)所有語(yǔ)聲都可取得較高頻帶的適當(dāng)振幅電平(amplitude level)。
      碼本方法是一種更先進(jìn)的解決方案,這種解決方案采用碼本查找方法來(lái)分析窄頻帶。碼本索引與適合于對(duì)激勵(lì)信號(hào)整形的濾波器是一一對(duì)應(yīng)的。例如,激勵(lì)信號(hào)可用混疊/折疊方法來(lái)創(chuàng)建。還針對(duì)較低頻帶測(cè)試了碼本方法(參見(jiàn)以上引用的Y.Yoshida和M Abe的參考資料)。
      語(yǔ)音信號(hào)一般用包含濾波器和信號(hào)激勵(lì)的短時(shí)段模型來(lái)描述。濾波器描述人的聲道以及激勵(lì)源和聲道之間的耦合。還可以在這種濾波器中包含口腔的聲輻射特性。一般來(lái)說(shuō),使用全極點(diǎn)濾波器來(lái)估計(jì)聲道、耦合以及輻射特性就足夠了。然后,這個(gè)濾波器模糊地逼近由例如鼻道或側(cè)輔音生成的零值。這種估計(jì)問(wèn)題可通過(guò)增加濾波器級(jí)數(shù)來(lái)減輕。
      語(yǔ)音信號(hào)在10-30ms段中被視為穩(wěn)定的。此段持續(xù)時(shí)間是由以下這一事實(shí)來(lái)確定的聲道中的組織從一個(gè)端部位置變化到另一個(gè)需要大約70ms。因此,在此間隔之后聲道和語(yǔ)聲完全不同,但在較短持續(xù)時(shí)間之后則幾乎沒(méi)有差別。
      在濁音段期間,濾波器的極點(diǎn)可描述為語(yǔ)音共振峰的估計(jì)以及共振峰和激勵(lì)源之間的耦合。共振峰是整個(gè)聲道或其部分的共振頻率。因此,假定存在聲帶源,則這些共振峰頻率上的振幅電平較相鄰頻率的大。
      在清音段期間,濾波器的極點(diǎn)不描述共振峰,雖然濾波器的極點(diǎn)描述聲道、更準(zhǔn)確地說(shuō)是口腔的共振頻率。幾乎不使用聲道的下部來(lái)產(chǎn)生清音語(yǔ)音。明顯共振的次數(shù)通常因腔室較短而在口腔中限制為一次或兩次。通常引起清音段的短共鳴腔的另一個(gè)方面是語(yǔ)音內(nèi)容的頻率很高,一般包含3.4kHz以上的顯著的、感覺(jué)重要的內(nèi)容。
      激勵(lì)濾波器的源可分為兩種類型準(zhǔn)周期和擾動(dòng)噪聲源。咽喉中的聲襞是濁音段期間的主要聲源。這種聲源屬于準(zhǔn)周期類型,通常具有在70-400Hz范圍內(nèi)的基本頻率。這個(gè)基本頻率又稱作基音頻率(pith frequency),與放松的狀態(tài)相比,人在說(shuō)話過(guò)程中基音頻率會(huì)提高大約100%。聲襞產(chǎn)生的信號(hào)象一個(gè)失真的半波整流正弦波,從而還產(chǎn)生諧波。諧波在感覺(jué)上重要是因?yàn)橐韵逻@個(gè)事實(shí)共振峰是根據(jù)其激勵(lì)的基本頻率來(lái)分組的;也就是說(shuō),具有相同基本頻率的共振峰將構(gòu)成語(yǔ)聲。已經(jīng)表明在并發(fā)的語(yǔ)音環(huán)境中,基頻甚至比聲音的方向更為重要。
      通過(guò)采用收縮將氣流導(dǎo)向障礙物或者僅產(chǎn)生擾動(dòng)氣流速率,來(lái)產(chǎn)生擾動(dòng)噪聲源。使用障礙物時(shí),所產(chǎn)生的噪聲振幅電平較高。噪聲源可在聲道中的多個(gè)位置上產(chǎn)生,但最顯著的噪聲源是在口腔中產(chǎn)生的。
      人的聽(tīng)覺(jué)機(jī)制感知語(yǔ)音具有一些重要功能。人的聽(tīng)覺(jué)通常描述為具有相對(duì)于頻率和振幅電平的對(duì)數(shù)靈敏度。因此,低頻在較小的頻帶中傳送更多信息。對(duì)此進(jìn)行描述的一種方法是采用Barkscale(巴氏刻度),其在較低頻率范圍中具有100Hz的頻帶,在較高頻率范圍中具有大約1kHz的頻帶。由于這個(gè)對(duì)數(shù)標(biāo)度完全符合人類聽(tīng)覺(jué)的振幅電平靈敏度或者響度知覺(jué),故振幅電平通常用分貝表示。
      概述應(yīng)當(dāng)強(qiáng)調(diào)的是,在本說(shuō)明中,術(shù)語(yǔ)“包括”用來(lái)說(shuō)明存在所述特征、整數(shù)、步驟或組件;但這些術(shù)語(yǔ)的使用并不排除存一個(gè)或多個(gè)其它特征、整數(shù)、步驟、組件或上述各項(xiàng)的組合的存在或的各種版本。
      希望有助于以感覺(jué)上可接受的方法將窄帶語(yǔ)音信號(hào)(300-3400Hz)擴(kuò)展成寬帶語(yǔ)音信號(hào)(300-7000Hz)。
      根據(jù)本發(fā)明的一個(gè)方面,從第一窄帶語(yǔ)音信號(hào)中生成寬帶語(yǔ)音信號(hào)。其實(shí)現(xiàn)包括以下步驟分析第一窄帶語(yǔ)音信號(hào)以生成一個(gè)或多個(gè)參數(shù);根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成第一較高頻帶信號(hào);通過(guò)將第一較高頻帶信號(hào)放大某個(gè)增益量,生成第二較高頻帶信號(hào),其中所述增益量至少部分基于第一窄帶語(yǔ)音信號(hào)中的一個(gè)或多個(gè)頻譜振幅峰值;以及將第二較高頻帶信號(hào)與從第一窄帶語(yǔ)音信號(hào)派生出來(lái)的第二窄帶語(yǔ)音信號(hào)相組合。在某些實(shí)施例中,第二窄帶語(yǔ)音信號(hào)采用包括對(duì)窄帶語(yǔ)音信號(hào)進(jìn)行上采樣的技術(shù)來(lái)生成。
      在本發(fā)明的另一方面,分析第一窄帶語(yǔ)音信號(hào)以生成一個(gè)或多個(gè)參數(shù)包括采用線性預(yù)測(cè)從第一窄帶語(yǔ)音信號(hào)中產(chǎn)生誤差信號(hào)。
      對(duì)于生成第一較高頻帶信號(hào),一個(gè)或多個(gè)參數(shù)可包含識(shí)別窄帶語(yǔ)音信號(hào)的諧音的信號(hào)頻譜信息。這允許第一較高頻帶信號(hào)由這種技術(shù)來(lái)生成這種技術(shù)包括生成頻譜復(fù)制信號(hào),該頻譜復(fù)制信號(hào)在較高頻率范圍內(nèi)具有在濁音段期間從窄帶語(yǔ)音信號(hào)的諧音復(fù)制的信號(hào)頻譜。
      在某些實(shí)施例中,生成第一較高頻帶信號(hào)還可包括通過(guò)對(duì)頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成帶通濾波信號(hào)。
      代替帶通濾波或除了帶通濾波之外,生成第一較高頻帶信號(hào)還可包括通過(guò)對(duì)帶通濾波信號(hào)進(jìn)行共振峰濾波。在某些實(shí)施例中,帶通濾波信號(hào)通過(guò)對(duì)頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成。然后,只要判決窄帶語(yǔ)音信號(hào)表示濁音,則將共振峰濾波應(yīng)用于帶通濾波信號(hào)。
      在本發(fā)明的另一個(gè)方面,一個(gè)或多個(gè)參數(shù)可包括一組振幅參數(shù),它們與第一窄帶語(yǔ)音信號(hào)的極點(diǎn)頻率分量的振幅成比例。如果判決第一窄帶語(yǔ)音信號(hào)表示濁音,則第一較高頻帶信號(hào)通過(guò)使用第一增益量來(lái)放大;如果判決第一窄帶語(yǔ)音信號(hào)表示摩擦音,則使用第二增益量。在某些實(shí)施例中,如果判決第一窄帶語(yǔ)音信號(hào)既不表示濁音也不表示摩擦音,則使用第三增益量。第三增益量最好是很低的常數(shù)增益量。
      在某些實(shí)施例中,振幅參數(shù)用對(duì)數(shù)標(biāo)度,并且使用第一增益量包括對(duì)振幅參數(shù)進(jìn)行第一線性組合;以及使用第二增益量包括對(duì)振幅參數(shù)進(jìn)行第二線性組合。
      在本發(fā)明的另一個(gè)方面,還能夠?qū)⒄瓗дZ(yǔ)音信號(hào)向下擴(kuò)展到比窄帶語(yǔ)音信號(hào)中所見(jiàn)的還要低的頻帶中。這可結(jié)合擴(kuò)展到較高頻帶中來(lái)進(jìn)行,但這不是本質(zhì)的僅擴(kuò)展到較低或者較高頻帶也是可行的。
      較低頻帶信號(hào)根據(jù)一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成。對(duì)于上述任何實(shí)施例,將第二較高頻帶信號(hào)與派生于第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)相組合包括組合第二較高頻帶信號(hào)、派生于第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)以及較低頻帶信號(hào)。
      為了便于合成較低頻帶信號(hào),在某些實(shí)施例中,一個(gè)或多個(gè)參數(shù)包括基音頻率參數(shù)。在這些情況下,根據(jù)一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成較低頻帶信號(hào)可包括生成基于基音頻率參數(shù)的連續(xù)正弦音。在某些實(shí)施例中,窄帶語(yǔ)音信號(hào)包含多個(gè)窄帶語(yǔ)音信號(hào)段。在這些情況下,可對(duì)各窄帶語(yǔ)音信號(hào)段估計(jì)基音頻率參數(shù);以及可在各語(yǔ)音信號(hào)段的第一部分逐步改變連續(xù)的正弦音。
      在另一個(gè)方面,根據(jù)一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成較低頻帶信號(hào)還可包括根據(jù)窄帶語(yǔ)音信號(hào)段中至少一個(gè)共振峰的振幅電平自適應(yīng)地改變連續(xù)正弦音的振幅電平。窄帶語(yǔ)音信號(hào)段中的至少一個(gè)共振峰最好是窄帶語(yǔ)音信號(hào)段中的第一共振峰。
      在另一個(gè)方面,根據(jù)一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成較低頻帶信號(hào)還可包括對(duì)連續(xù)的正弦音進(jìn)行低通濾波。對(duì)連續(xù)正弦音的這種低通濾波最好是采用基本上等于300Hz的上截止頻率來(lái)執(zhí)行。
      附圖簡(jiǎn)述通過(guò)結(jié)合附圖閱讀以下詳細(xì)說(shuō)明,將會(huì)了解本發(fā)明的目的和優(yōu)點(diǎn),附圖包括圖1是根據(jù)本發(fā)明用于擴(kuò)展語(yǔ)音信號(hào)帶寬的一種示范技術(shù)的方框圖;圖2是根據(jù)本發(fā)明的一個(gè)方面的高頻帶語(yǔ)音合成器的方框圖;圖3是根據(jù)本發(fā)明的一個(gè)方面的低頻帶語(yǔ)音合成器的方框圖;以及圖4是根據(jù)本發(fā)明的一個(gè)方面的窄帶語(yǔ)音分析器的方框圖。
      詳細(xì)說(shuō)明參照


      本發(fā)明的各種特點(diǎn),附圖中,相似部分采用相同的標(biāo)號(hào)來(lái)標(biāo)識(shí)。
      結(jié)合多個(gè)示范實(shí)施例對(duì)本發(fā)明的各個(gè)方面進(jìn)行說(shuō)明。為了便于理解本發(fā)明,根據(jù)計(jì)算機(jī)系統(tǒng)的部件所執(zhí)行的操作次序來(lái)說(shuō)明本發(fā)明的許多方面。大家知道,在各實(shí)施例中,各種操作可由專用電路(例如用于執(zhí)行專用功能的互連的離散邏輯門)、由一個(gè)或多個(gè)處理器執(zhí)行的程序指令或者甚至由它們的組合來(lái)執(zhí)行,本發(fā)明還可考慮完全在任何形式的計(jì)算機(jī)可讀載體,例如固態(tài)存儲(chǔ)器、磁盤、光盤或載波(例如射頻、音頻或光頻載波)中來(lái)實(shí)現(xiàn),這些載體中包含使處理器執(zhí)行本文所述技術(shù)的適當(dāng)?shù)挠?jì)算機(jī)指令集。因此,本發(fā)明的各個(gè)方面可以不同的形式來(lái)體現(xiàn),并且所有這些形式均視為屬于本發(fā)明的范圍。對(duì)于本發(fā)明的各個(gè)方面其中的每一個(gè)方面,任何這種形式的實(shí)施例在本文中可稱作用于執(zhí)行所述操作的“配置邏輯”,或者稱作執(zhí)行所述操作的“邏輯”。
      由于開(kāi)始時(shí)極少電話具有寬帶聲碼器裝置,故本文提供這樣一種技術(shù),用于僅采用接收電話中的設(shè)備將普通窄帶語(yǔ)音信號(hào)擴(kuò)展成寬帶語(yǔ)音信號(hào)。不管使用何種聲碼器,這都會(huì)造成寬帶語(yǔ)音信號(hào)的效果。本文所述的健壯技術(shù)基于語(yǔ)音聲學(xué)以及人的聽(tīng)覺(jué)原理。也就是說(shuō),在濁音段期間擴(kuò)展語(yǔ)音信號(hào)的諧音結(jié)構(gòu),引入相對(duì)普通窄頻帶能量正確的語(yǔ)音能量。在清音段期間,在高頻帶中引入摩擦噪聲。
      如圖1所示,帶寬擴(kuò)展方法可分為分析部分和合成部分。在圖1所示示范實(shí)施例中,分析部分包括窄帶語(yǔ)音分析器101,它把普通窄帶信號(hào)當(dāng)作其輸入,并產(chǎn)生控制合成部分的參數(shù)。合成部分可包括高頻帶語(yǔ)音合成器103或低頻帶語(yǔ)音合成器105,或者如圖1所示兩者都包括。合成部分生成擴(kuò)展帶寬語(yǔ)音信號(hào)yhigh(n)和/或ylow(i),它們具有較輸入信號(hào)x(n)高的采樣率(例如高出兩倍)。為了允許原始輸入信號(hào)與合成信號(hào)組合,由上采樣單元107對(duì)原始輸入信號(hào)進(jìn)行上采樣。然后組合單元109將上采樣單元107的輸出X2與擴(kuò)展帶寬語(yǔ)音信號(hào)yhigh(n)和ylow(n)組合,從而生成合成的激勵(lì)信號(hào)y(n)。
      如圖2所示,高頻帶語(yǔ)音合成器103包括激勵(lì)頻譜擴(kuò)展器和濾波器,由它們對(duì)高頻帶中的語(yǔ)音內(nèi)容進(jìn)行整形。激勵(lì)頻譜通過(guò)采用頻譜均衡器201來(lái)擴(kuò)展,以便均衡整個(gè)窄帶語(yǔ)音頻譜的振幅,然后由頻譜復(fù)制單元203來(lái)對(duì)其所選部分進(jìn)行復(fù)制。這就得到一個(gè)采樣率比輸入信號(hào)x(n)的更高的信號(hào),例如該信號(hào)的采樣率為輸入信號(hào)的兩倍,但在其它實(shí)施例中采樣率則有所不同。執(zhí)行復(fù)制以使諧波結(jié)構(gòu)連續(xù)。然后,由具有固定配置的帶通濾波器205對(duì)合成的激勵(lì)信號(hào)D進(jìn)行整形。帶通濾波器205的輸出是帶通濾波信號(hào)DHhigh。帶通濾波器205的作用是使較高頻率的振幅電平下降,以及使低于高頻帶的范圍內(nèi)的頻率截止。擴(kuò)展頻譜的增益由窄帶語(yǔ)音分析器101產(chǎn)生的信號(hào)(Ak,m和CTRL)來(lái)控制。合成的激勵(lì)信號(hào)D提供給各濁音增益單元207和清音增益單元209,由它們根據(jù)振幅控制信號(hào)Ak,m來(lái)生成相應(yīng)的增益信號(hào)gv和gu。還提供了第三增益信號(hào)g0。第三增益信號(hào)g0最好是很低的常數(shù)增益系數(shù),它在相應(yīng)的語(yǔ)音既不是濁音的也不是摩擦音時(shí)使用,也就是說(shuō),在語(yǔ)音信號(hào)中沒(méi)有有效語(yǔ)音時(shí),或者在語(yǔ)聲存在于語(yǔ)音信號(hào)中、但不像在閉塞輔音的閉合部分中那樣具有有效的高頻帶語(yǔ)音內(nèi)容時(shí)使用。CTRL信號(hào)的一個(gè)方面選擇三個(gè)增益信號(hào)(gv、gu以及g0)中的哪一個(gè)將用于調(diào)整帶通濾波信號(hào)DHhigh的振幅。
      在本發(fā)明的另一個(gè)方面,振幅譜整形還可用共振峰濾波器211來(lái)加以明確地控制,其傳遞函數(shù)與共振峰結(jié)構(gòu)相似。利用窄帶語(yǔ)音分析器101提供的共振峰濾波器(formant filter)控制信號(hào)Fu0所提供的濾波特性,共振峰濾波器211作用于帶通濾波信號(hào)DHhigh。共振峰濾波器211最好在高頻帶中具有若干峰值。這些共振峰值最好以相等頻率間隔設(shè)置,該間隔與窄頻帶中可見(jiàn)的兩個(gè)最高共振峰峰值之間的間隔相同。共振峰濾波器211的輸出是共振峰濾波信號(hào)DVHhigh。CTRL信號(hào)(由窄帶語(yǔ)音分析器101提供)的一個(gè)方面控制帶通濾波信號(hào)DHhigh或者共振峰濾波信號(hào)DVHhigh是否由三個(gè)增益信號(hào)(gv、gu及g0)其中之一來(lái)放大,以生成擴(kuò)展帶寬語(yǔ)音信號(hào)yhigh(n)。高頻帶語(yǔ)音合成器103的這些及其它方面稍后將在本說(shuō)明中結(jié)合本發(fā)明的一個(gè)示范實(shí)施例作更詳細(xì)的說(shuō)明。
      如前所述,結(jié)合(或代替)向上擴(kuò)展帶寬頻率,還可能向下擴(kuò)展帶寬頻率。圖3更詳細(xì)地說(shuō)明用于此目的低頻帶語(yǔ)音合成器105。傳統(tǒng)系統(tǒng)中提供的窄電話帶寬具有300Hz的較低截止頻率。人的聽(tīng)覺(jué)頻率分辨率是對(duì)數(shù)的。將帶寬轉(zhuǎn)換為Barkscale(傳統(tǒng)的對(duì)數(shù)頻率刻度),50-300Hz和3400-7000Hz范圍分別成為大約三個(gè)和四個(gè)Barkband寬。這意味著較低范圍也是感知上重要的。在此較低頻率范圍中的語(yǔ)音內(nèi)容在濁音段期間主要包含基音頻率及其諧波。在清音段期間,較低頻率范圍不是感知上重要的。根據(jù)本發(fā)明的這個(gè)方面,用于估計(jì)這個(gè)范圍中的語(yǔ)音內(nèi)容的技術(shù)在基音頻率和達(dá)到300Hz的諧波上引入正弦音。一般來(lái)說(shuō),音的數(shù)量為四或以下,因?yàn)榛纛l率高于70Hz。下面將對(duì)此作更詳細(xì)的說(shuō)明。
      如圖4所示,帶寬擴(kuò)展方法分析部分主要包括基音頻率估計(jì)器、基音活動(dòng)檢測(cè)器(PAD)403、摩擦音檢測(cè)器(摩擦音活動(dòng)檢測(cè)器FAD)405以及共振峰峰值振幅估計(jì)器(如下述方框407、409、411以及413所示)的使用?;纛l率檢測(cè)器403用來(lái)確定擴(kuò)展激勵(lì)頻譜上所用的增益量。窄帶語(yǔ)音分析器101的一般特性在于最好為摩擦音段提供較大的增益,因?yàn)槔缒Σ烈粽驾^高頻率范圍中語(yǔ)音能量的相當(dāng)大的部分?;纛l率估計(jì)器401用來(lái)計(jì)算引入較低頻率范圍的正弦音應(yīng)具有哪些頻率。
      共振峰峰值振幅估計(jì)通過(guò)估計(jì)線性預(yù)測(cè)濾波器407來(lái)實(shí)現(xiàn)。線性預(yù)測(cè)濾波器407的輸出還用來(lái)計(jì)算頻譜均衡器中的激勵(lì)信號(hào)。窄帶語(yǔ)音信號(hào)x由全極濾波器a和激勵(lì)信號(hào)e來(lái)建模。
      x(n)=e(n)a(0)+e(n-1)a(1)+...+e(n-p)a(p),(1)其中p是濾波器級(jí)數(shù)。等式(1)在穩(wěn)定信號(hào)期間是有效的,它接近各語(yǔ)音段的情況。然后針對(duì)各語(yǔ)音段改變模型。將濾波器系數(shù)a(n)提供給極點(diǎn)頻率計(jì)算單元409以及振幅計(jì)算單元411。振幅計(jì)算單元411采用濾波器系數(shù)a(n)和極點(diǎn)頻率值FN0來(lái)計(jì)算復(fù)共軛極點(diǎn)的頻率上的振幅值。然后再生成這些振幅值的不同比例版本。在一種版本中,振幅值與常數(shù)C1相乘以產(chǎn)生表示為g1(m)的值,用于低頻帶語(yǔ)音合成器105。在另一種版本中,由對(duì)數(shù)標(biāo)度單元413對(duì)振幅電平進(jìn)行標(biāo)度,以提供知覺(jué)上相對(duì)更正確的表示為Ak,m的振幅電平,其中k是估計(jì)共振峰頻率號(hào)(如1、2、3、4...)以及復(fù)共軛極點(diǎn)對(duì)索引(這些應(yīng)當(dāng)是相同的),m是分割M個(gè)段的索引而非連續(xù)段號(hào)。高頻帶語(yǔ)音合成器103中的濁音增益單元207和摩擦增益單元209通過(guò)線性組合對(duì)數(shù)振幅電平Ak,m來(lái)計(jì)算其相應(yīng)的增益值。將不同的組合算符用于濁音和摩擦音(清音)段。如上所述,增益用來(lái)放大激勵(lì)頻譜。在窄帶語(yǔ)音分析器101中,摩擦音活動(dòng)檢測(cè)器(FAD)使用對(duì)數(shù)振幅電平Ak,m的其它線性組合來(lái)檢測(cè)摩擦音。窄帶語(yǔ)音分析器101中還配備語(yǔ)音活動(dòng)檢測(cè)器415,以產(chǎn)生表示在輸入信號(hào)x(n)中存在或不存在語(yǔ)音的信號(hào)。將基音活動(dòng)檢測(cè)器403、語(yǔ)音活動(dòng)檢測(cè)器415以及摩擦音活動(dòng)檢測(cè)器405的輸出提供給控制邏輯417,由其產(chǎn)生提供給高頻帶語(yǔ)音合成器103的CTRL信號(hào)。
      極點(diǎn)頻率計(jì)算單元409還將其輸出頻率FN0提供給上共振峰合成器419,由其產(chǎn)生用于高頻帶頻率合成器103的合成共振峰FU0。合成上共振峰FN0的產(chǎn)生將在下面作更詳細(xì)的說(shuō)明。
      如上所述,將較低語(yǔ)音合成信號(hào)ylow(n)和較高語(yǔ)音合成信號(hào)yhigh(n)與上采樣窄帶信號(hào)x2(n)相組合(或相加),以生成最終的寬帶語(yǔ)音信號(hào)y(n)=y(tǒng)low(n)+yhigh(n)+x2(n) (2)
      高頻帶語(yǔ)音合成器103下面將結(jié)合一個(gè)示范實(shí)施例更詳細(xì)地說(shuō)明高頻帶語(yǔ)音合成器103。在本示范實(shí)施例中產(chǎn)生的高頻帶具有3.4-7kHz的頻率范圍,但這在其它實(shí)施例中可以有所不同。這個(gè)頻率范圍一般包括濁音段中的第四至第八共振峰,但最高的通常不是感知上重要的。包含例如摩擦或塞擦輔音的清音段在這個(gè)頻率范圍內(nèi)具有其語(yǔ)音能量的相當(dāng)大的部分。
      再參照?qǐng)D2,首先向上擴(kuò)展(由反線性預(yù)測(cè)濾波器對(duì)原始信號(hào)x(n)濾波而生成的)激勵(lì)信號(hào)的頻率。完成它的一種簡(jiǎn)單而穩(wěn)固的方法是將頻譜從較低頻率復(fù)制到較高頻率。在這種復(fù)制過(guò)程中,使任何諧波結(jié)構(gòu)連續(xù)是極為重要的。激勵(lì)的振幅頻譜E(f)分為三個(gè)區(qū)較低匹配區(qū)E(fl);中區(qū)E(fm);以及較高匹配區(qū)E(fu)。激勵(lì)的振幅譜|E(f)|將具有梳狀結(jié)構(gòu),其峰值間隔濁音段中的基音頻率一定距離。頻譜均衡器201采用快速傅立葉變換(FFT)來(lái)計(jì)算頻率格柵fI,i=0...I-1上的整個(gè)復(fù)頻譜,其中I表示格柵中采樣頻率帶(frequency bin)的數(shù)量。在各頻率范圍fi∈fl和fi∈fu內(nèi)檢查最大頻譜振幅|E(fi)|的頻率fi|E(fl,max)|=max|E(fi)|,fi∈fl,(3)|E(fu,max)|=max|E(fi)|,fi∈fu由于振幅譜中的最大值可能與基音頻率的諧音一致,故諧波結(jié)構(gòu)得以連續(xù)。當(dāng)語(yǔ)音段是清音時(shí),該方法以同樣的方式發(fā)揮作用,即使沒(méi)有需要加以連續(xù)化的諧波結(jié)構(gòu)。然后,為了將激勵(lì)頻譜擴(kuò)展到較高頻率中,頻譜復(fù)制單元203反復(fù)復(fù)制兩個(gè)找到的最大值之間的頻譜,直至達(dá)到fI-l
      根據(jù)下等式計(jì)算實(shí)值時(shí)間信號(hào)固有的頻譜的復(fù)共軛鏡像部分D(fI+i)=D*(fI-i),i=1,2,...,I-1(5)這使帶寬擴(kuò)展激勵(lì)頻譜D具有雙倍采樣率。頻譜D也能夠通過(guò)內(nèi)插、濾波以及置換的組合來(lái)加以構(gòu)造。
      然后,帶通濾波器205對(duì)帶寬擴(kuò)展激勵(lì)頻譜D濾波。這得到濾波擴(kuò)展激勵(lì)頻譜DhighDhigh=D·Hhigh(6)在示范實(shí)施例中,帶通濾波器205具有這樣的濾波特性即Hhigh(=時(shí)域中的hhigh)具有3400Hz的較低截止頻率,并且對(duì)各較高頻率具有連續(xù)的下降電平。
      在某些實(shí)施例中,為了增強(qiáng)感知的語(yǔ)音信號(hào),高頻帶語(yǔ)音合成器103還可包括共振峰濾波器211,它在高頻率范圍中估計(jì)共振峰頻率處提供頻譜峰值FU1,F(xiàn)U2,...。在示范實(shí)施例中,對(duì)于各合成共振峰頻率,共振峰濾波器211具有一個(gè)復(fù)共軛極對(duì)和一個(gè)復(fù)共軛零對(duì),其中極點(diǎn)具有較大的振幅V(f)=g(v0(1-rz(1)ej2&pi;FU1)(1-rz(1)e-j2&pi;FU1)(1-rp(1)ej2&pi;FU1)(1-rp(1)e-j2&pi;FU1)&CenterDot;(1-rz(2)ej2&pi;FU2)(1-rz(2)e-j2&pi;FU2)(1-rp(2)ej2&pi;FU2)(1-rp(2)e-j2&pi;FU2)&CenterDot;&CenterDot;&CenterDot;)---(7)]]>其中,rz是零值的恒定振幅,rp是極點(diǎn)的恒定振幅,以及vo是固定的規(guī)格化增益。與僅具有極點(diǎn)的濾波器相比,示范共振峰濾波器211的配置降低了極點(diǎn)間的干擾。對(duì)于共振峰頻率,極點(diǎn)和零值具有較低的振幅,以便對(duì)較高共振峰頻率產(chǎn)生增加的帶寬。共振峰之間的頻率間隔最好是相等的。其間隔之所以要相等,是因?yàn)槿缦率聦?shí)較高頻率范圍內(nèi)的共振峰通常是聲道腔或管最前端的共振,因此是最低諧振頻率的若干倍。在以下題為“窄帶語(yǔ)音分析器101”部分給出頻率間隔計(jì)算。
      因此,共振峰的輸出Dvhigh由下等式給出Dvhigh=V·Dhigh(8)在最佳實(shí)施例中,高頻帶語(yǔ)音合成器103也可基于帶通濾波信號(hào)Dhigh或者基于共振峰濾波信號(hào)Dvhigh。這種選擇由CTRL信號(hào)進(jìn)行。因此,提供第一快速傅立葉逆變換單元(IFFT)213,以便將帶通濾波信號(hào)轉(zhuǎn)換到時(shí)域中dhigh(n)=g-1(Dhigh).,---(9)]]>并提供第二IFFT 215以便將共振峰濾波信號(hào)轉(zhuǎn)換到時(shí)域中dvhigh(n)=g-1(Dvhigh)---(10)]]>高頻帶語(yǔ)音合成器103最好包括合適的放大器217,由其根據(jù)窄帶頻率范圍內(nèi)的電平將擴(kuò)展激勵(lì)頻譜放大量g。因此,取決于CTRL信號(hào)的值,高頻帶語(yǔ)音合成器103的輸出為yhigh(n)=g·dhigh(n)(11)或者yhigh(n)=g·dvhigh(n), (12)根據(jù)當(dāng)前語(yǔ)音段中的語(yǔ)音信號(hào)表示濁音還是清音,以不同方法來(lái)計(jì)算增益g。當(dāng)前段包含濁音時(shí),利用檢測(cè)到的基音頻率,濁音增益單元207生成濁音增益信號(hào)gv,它是根據(jù)線性預(yù)測(cè)濾波器中極點(diǎn)頻率FN1,F(xiàn)N2,...FNN處的對(duì)數(shù)定標(biāo)的振幅導(dǎo)出的
      Ak,m=log10&Sigma;l=0p&alpha;m(l)&CenterDot;&gamma;xx,m(l)|&Sigma;l=0p&alpha;m(l)&CenterDot;e-j2&pi;lfNk|2---(13)]]>g~v=&Sigma;k=1PAk,m&CenterDot;hv(k)---(14)]]>gv=10g~v1I&Sigma;l=0ID(fi)2,---(15)]]>其中,p是線性預(yù)測(cè)濾波器407的級(jí)數(shù);γxx,m是最后的M-1濁音段與當(dāng)前清音段上窄帶信號(hào)的自相關(guān);hv是對(duì)數(shù)振幅Ak,m的線性組合算符;am(1)是最后的M-1濁音段與當(dāng)前清音段上的線性預(yù)測(cè)值以及對(duì)于濁音段,m=1。使用振幅的對(duì)數(shù)值是因?yàn)檫@符合對(duì)振幅電平的感知,并且可能增益電平應(yīng)當(dāng)取決于對(duì)數(shù)振幅。
      在含摩擦音的清音段中,清音增益信號(hào)gu被確定為最后的M-1濁音段和當(dāng)前清音段上的對(duì)數(shù)振幅電平的函數(shù)g~u=&Sigma;m=1M&Sigma;k=1PAk,m&CenterDot;hu(k,m)---(16)]]>gu=10g~u1I&Sigma;l=0ID(fi)2,---(17)]]>其中,Ak,m是最后的M-1濁音段和當(dāng)前段的對(duì)數(shù)振幅。也就是說(shuō),給定濁音和清音段的混合,為了找出M-1個(gè)最近的濁音段,必須回溯M-1個(gè)以上的先前段。M的值最好憑經(jīng)驗(yàn)確定,值10通常足夠高。最后的增益g則由下等式給出
      其中g(shù)0是極低的常數(shù)增益系數(shù)。更具體地說(shuō),g0最好是比其它增益的長(zhǎng)期平均值至少低20dB,但更一般地來(lái)說(shuō),g0應(yīng)當(dāng)是取決于應(yīng)用的常數(shù)。例如,在某些應(yīng)用中最好還可能將背景聲復(fù)制到高頻帶,而在其它應(yīng)用中,最好可能完全消除高頻帶中的背景聲。在圖2所示的示范實(shí)施例中,等式(18)所表示的選擇由CTRL信號(hào)控制。
      低頻帶語(yǔ)音合成器105如圖3所示,將結(jié)合一個(gè)示范實(shí)施例更詳細(xì)地說(shuō)明低頻帶語(yǔ)音合成器105。在本示范實(shí)施例中產(chǎn)生的低頻帶具有50-300Hz的頻率范圍,但在其它實(shí)施例中可以有所不同。這個(gè)頻率范圍主要包含濁音。濁音的激勵(lì)頻譜是基音頻率及其諧波。諧波振幅隨頻率增加而降低。激勵(lì)頻譜由共振峰結(jié)構(gòu)來(lái)濾波,對(duì)于較低頻率范圍,第一共振峰是重要的。第一共振峰在濁音期間在大約250-850Hz的范圍內(nèi)。因此,頻率范圍50-300Hz中諧波的自然振幅電平近似相等或者隨頻率下降而下降。低頻音能夠在感知上基本上屏蔽較高頻率一這就是所說(shuō)的屏蔽的向上擴(kuò)展。這意味著將音引入低頻率范圍時(shí)必須小心。因此,最好取小于第一共振峰峰值的估計(jì)振幅的估計(jì)增益。所建議的頻率向下帶寬擴(kuò)展是通過(guò)引入連續(xù)正弦音的連續(xù)正弦音發(fā)生器301來(lái)完成的。所有正弦音的振幅電平均隨第一共振峰的部分振幅電平自適應(yīng)地變化g1(m)=C1&CenterDot;&Sigma;l=0p&alpha;(l)&CenterDot;&gamma;xx(l)|&Sigma;l=0p&alpha;(l)&CenterDot;e-j2&pi;lfNl|2,---(19)]]>其中,C1是常數(shù),m是連續(xù)段號(hào)。
      低頻連續(xù)正弦音發(fā)生器301基于基音頻率以及基音頻率的整數(shù)倍數(shù)。對(duì)各語(yǔ)音段估計(jì)基音頻率。為了避免正弦音中的不連續(xù)性,在各段的第一部分期間使這些音逐步變化。對(duì)于基音頻率的各整數(shù)倍數(shù)i,連續(xù)正弦音發(fā)生器301根據(jù)以下等式生成各正弦音信號(hào)si(n) 其中,φ(m)是保持段之間的連續(xù)正弦曲線所需的相位補(bǔ)償,ω(m)是當(dāng)前段m的基音頻率,L是段中的樣本個(gè)數(shù),以及L1是段中軟轉(zhuǎn)變(soft transition)的最后一個(gè)樣本值。于是,完整的合成低頻語(yǔ)音信號(hào)s(n)由下等式給出s(n)=&Sigma;i=14si(n),---(21)]]>信號(hào)s(n)也可由低通濾波器303可選地加以濾波,本例中,低通濾波器303具有300Hz的極限。在等式(21)中,i=1,...,4的求和范圍在此僅作為示例給出。實(shí)踐中,應(yīng)當(dāng)對(duì)這個(gè)范圍進(jìn)行選擇,以便將所有正弦音加在一起。所得到的輸出信號(hào)ylow(n)由下等式給出ylow(n)=g1(m)&CenterDot;&Sigma;k=0plows(n-k)hlow(k).---(22)]]>窄帶語(yǔ)音分析器101參照?qǐng)D4,采用線性預(yù)測(cè)濾波器(線性預(yù)測(cè)器407)和激勵(lì)信號(hào)的模型來(lái)估計(jì)窄帶語(yǔ)音(參見(jiàn)等式(1))。
      較高頻率范圍中的合成共振峰頻率(FU0)的設(shè)置基于窄帶語(yǔ)音信號(hào)中的估計(jì)共振峰頻率(FN0)。估計(jì)線性預(yù)測(cè)濾波器407在窄帶語(yǔ)音信號(hào)的共振峰頻率處具有極點(diǎn)。在最佳實(shí)施例中,兩個(gè)最高頻率FN(N-1)和FNN處的極點(diǎn)用于分析合成共振峰的設(shè)置。其原因在于這些估計(jì)共振峰頻率極可能是同一最前端管的共振頻率。如果認(rèn)為該最前端管是均勻的,即在前端張開(kāi),后端閉合,則共振出現(xiàn)于
      f=2n-14&CenterDot;cl,=1,2,3,...---(23)]]>其中,在體溫及1個(gè)大氣壓下c=354m/s,1是管道(tue)的長(zhǎng)度。等式(23)中的參數(shù)可通過(guò)計(jì)算平均值n來(lái)估計(jì),以及c/1可根據(jù)頻率間隔來(lái)計(jì)算nN(N-1)=round(FN(N-1)+FNN2(FNN-FN(N-1)))---(24)]]>cl=2(FNN-FN(N-1))---(25)]]>于是,分?jǐn)?shù)c/l也受到限制20cm的最大管道長(zhǎng)度是合理的物理限度,它提供0.9kHz的諧振頻率之間的較低間隔極限。對(duì)與FU1,F(xiàn)U2,...,相對(duì)應(yīng)的n=nN(N-1)+2,nN(N-1)+3,...,用等式(23)來(lái)計(jì)算合成共振峰頻率FU0。
      用于分析部分的檢測(cè)器為摩擦音活動(dòng)檢測(cè)器(FAD 405)、濁音/清音(基音頻率)判決器(PAD 403)以及一般語(yǔ)音活動(dòng)檢測(cè)器(VAD 415)。VAD 415是眾所周知的,無(wú)需在此進(jìn)行詳細(xì)說(shuō)明。一種可能的選擇是用于GSM AMR聲碼器規(guī)范(參見(jiàn)自適應(yīng)多速率(AMR)語(yǔ)音業(yè)務(wù)信道的語(yǔ)音活動(dòng)檢測(cè)器(VAD),GSM 06.94,Ver7.1.1,ETSI,1998)。濁音/清音判決是從基音頻率估計(jì)器中導(dǎo)出的?;纛l率估計(jì)器和檢測(cè)器也是眾所周知的,不需要在此進(jìn)行詳細(xì)說(shuō)明。例如,參見(jiàn)W.Hess的“語(yǔ)音信號(hào)的基音頻率確定”(Springer-Verlag,1983)。
      摩擦音活動(dòng)檢測(cè)器(FAD 405)用來(lái)檢測(cè)何時(shí)當(dāng)前語(yǔ)音段中包含摩擦或塞擦輔音。隨后可將檢測(cè)結(jié)果用于選擇合適的增益計(jì)算方法。摩擦音活動(dòng)檢測(cè)器在結(jié)構(gòu)上與線性增益估計(jì)方法相似。檢測(cè)器中的第一級(jí)計(jì)算含基音的當(dāng)前段和最后的M-1段中的估計(jì)共振峰振幅Ak,m的線性組合hf(k,m)o=&Sigma;m=1M&Sigma;k=1pAk,m&CenterDot;hf(k,m).---(26)]]>估計(jì)值o在當(dāng)前段包含摩擦音時(shí)為低。取含濁音的段上o的指數(shù)平均值,形成ō。當(dāng)估計(jì)值o低于平均值ō時(shí),則估計(jì)該段包含摩擦音。
      高頻帶語(yǔ)音合成器103采用不同的高頻帶增益,這取決于它是否正在合成濁音、摩擦音或者既非濁音也非摩擦音的語(yǔ)音的高頻帶信號(hào)。這些情況可利用上述檢測(cè)器和控制邏輯確定為 其中,“&amp;”表示邏輯“與”操作符,“|”表示邏輯“或”操作符,以及變量上的“橫劃線”表示邏輯“非”操作符。
      已經(jīng)結(jié)合特定實(shí)施例對(duì)本發(fā)明進(jìn)行了說(shuō)明。然而,本領(lǐng)域的技術(shù)人員非常清楚,能夠采用不同于上述最佳實(shí)施例的其它特定形式來(lái)實(shí)施本發(fā)明。這可以在不背離本發(fā)明的精神的前提下進(jìn)行。
      例如,高頻帶語(yǔ)音合成器103能夠以不同于結(jié)合圖2所述的示范實(shí)施例的方法來(lái)實(shí)現(xiàn)。在一種備選方案中將帶通濾波器205完全取消,而將頻譜復(fù)制單元203的輸出直接提供給共振峰濾波器211。這是一種可行的備選方案,因?yàn)榭衫霉舱穹鍨V波器211來(lái)減少3400Hz以下的頻率成分,并且在摩擦音期間中(即沒(méi)有選擇共振峰濾波器的輸出時(shí)),這種減少不是很重要的。
      在高頻帶語(yǔ)音合成器103的另一個(gè)備選方案中,用高通濾波器取代帶通濾波器205。
      在高頻帶語(yǔ)音合成器103的另一個(gè)備選方案中,頻譜復(fù)制單元203由頻譜搬移單元代替,頻譜搬移單元首先執(zhí)行復(fù)制功能、然后再使已經(jīng)復(fù)制的部分歸零。
      在高頻帶語(yǔ)音合成器103的另一個(gè)備選方案中,可以完全取消帶通濾波器205和共振峰濾波器211一如果高頻帶合成信號(hào)中不加衰減地保留3400Hz以下的內(nèi)容,則該內(nèi)容對(duì)聽(tīng)者的干擾將會(huì)很大,但可以使其語(yǔ)音質(zhì)量明顯下降從而保留該內(nèi)容。
      上述實(shí)施例所依賴的聲道的管道模型是一種簡(jiǎn)單模型。在其它備選實(shí)施例中,本領(lǐng)域的技術(shù)人員可以輕易地將上面提出的相同原理應(yīng)用于基于更高級(jí)的管道模型的應(yīng)用中。
      此外,在如上所述的FAD和增益的說(shuō)明中,使用了術(shù)語(yǔ)“比例”和“線性”。但是,在其它備選方案中,還可采用非線性處理。例如,這可通過(guò)配置在例如前饋后向傳播或星形網(wǎng)絡(luò)中的人工神經(jīng)網(wǎng)絡(luò)(ANN)來(lái)執(zhí)行。一個(gè)ANN將Ak,m作為輸入,并生成等式(16)中的 作為輸出。另一個(gè)ANN將Ak,m作為輸入,并生成等式(26)中的o作為輸出。
      最后,還要注意,在執(zhí)行低頻帶合成而沒(méi)有高頻帶合成的實(shí)施例中,不需要對(duì)窄帶信號(hào)進(jìn)行上采樣。
      因此,最佳實(shí)施例只是說(shuō)明性的,而絕不應(yīng)當(dāng)看作是限制性的。
      權(quán)利要求
      1.一種從第一窄帶語(yǔ)音信號(hào)中生成寬帶語(yǔ)音信號(hào)的方法,所述方法包括分析所述第一窄帶語(yǔ)音信號(hào),以生成一個(gè)或多個(gè)參數(shù);根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成第一較高頻帶信號(hào);通過(guò)將所述第一較高頻帶信號(hào)放大一定增益量來(lái)生成第二較高頻帶信號(hào),其中所述一定增益量至少部分基于所述第一窄帶語(yǔ)音信號(hào)中的一個(gè)或多個(gè)頻譜振幅峰值;以及將所述第二較高頻帶信號(hào)與派生于所述第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)相組合。
      2.如權(quán)利要求1所述的方法,其特征在于還包括采用包括對(duì)所述窄帶語(yǔ)音信號(hào)進(jìn)行上采樣的技術(shù)來(lái)生成所述第二窄帶語(yǔ)音信號(hào)。
      3.如權(quán)利要求1所述的方法,其特征在于對(duì)所述第一窄帶語(yǔ)音信號(hào)進(jìn)行分析以生成一個(gè)或多個(gè)參數(shù)包括采用線性預(yù)測(cè)從所述第一窄帶語(yǔ)音信號(hào)中產(chǎn)生誤差信號(hào)。
      4.如權(quán)利要求1所述的方法,其特征在于所述一個(gè)或多個(gè)參數(shù)包括識(shí)別所述窄帶語(yǔ)音信號(hào)的諧音的信號(hào)頻譜信息;以及根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一生成所述第一較高頻帶信號(hào)包括生成一個(gè)頻譜復(fù)制信號(hào),該復(fù)制信號(hào)在較高頻率范圍中具有復(fù)制濁音段中所述窄帶語(yǔ)音信號(hào)的諧音的信號(hào)頻譜。
      5.如權(quán)利要求4所述的方法,其特征在于生成所述第一較高頻帶信號(hào)還包括通過(guò)對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成帶通濾波信號(hào)。
      6.如權(quán)利要求5所述的方法,其特征在于生成所述第一較高頻帶信號(hào)還包括對(duì)所述帶通濾波信號(hào)進(jìn)行共振峰濾波。
      7.如權(quán)利要求4所述的方法,其特征在于生成所述第一較高頻帶信號(hào)還包括通過(guò)對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成帶通濾波信號(hào);以及只要判定所述窄帶語(yǔ)音信號(hào)表示濁音,則對(duì)所述帶通濾波信號(hào)進(jìn)行共振峰濾波。
      8.如權(quán)利要求4所述的方法,其特征在于生成所述第一較高頻帶信號(hào)還包括對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行共振峰濾波。
      9.如權(quán)利要求1所述的方法,其特征在于所述一個(gè)或多個(gè)參數(shù)包括一組振幅參數(shù),它們與所述第一窄帶語(yǔ)音信號(hào)的極點(diǎn)頻率分量的振幅成比例;以及放大所述第一較高頻帶信號(hào)包括如果判定所述第一窄帶語(yǔ)音信號(hào)表示濁音,則采用第一增益量;以及如果判定所述第一窄帶語(yǔ)音信號(hào)表示摩擦音,則采用第二增益量。
      10.如權(quán)利要求9所述的方法,其特征在于放大所述第一較高頻帶信號(hào)還包括如果判定所述第一窄帶語(yǔ)音信號(hào)既不表示濁音也不表示摩擦音,則采用第三增益量。
      11.如權(quán)利要求10所述的方法,其特征在于所述第三增益量是極低的常數(shù)增益量。
      12.如權(quán)利要求9所述的方法,其特征在于振幅參數(shù)用對(duì)數(shù)進(jìn)行標(biāo)度;使用所述第一增益量包括對(duì)所述振幅參數(shù)進(jìn)行第一線性組合;以及使用所述第二增益量包括對(duì)所述振幅參數(shù)進(jìn)行第二線性組合。
      13.如權(quán)利要求1所述的方法,其特征在于所述第二窄帶語(yǔ)音信號(hào)是所述第一窄帶語(yǔ)音信號(hào)。
      14.如權(quán)利要求1所述的方法,其特征在于還包括根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成較低頻帶信號(hào),以及其中,將所述第二較高頻帶信號(hào)與派生于所述第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)相組合包括將所述第二較高頻帶信號(hào)、派生于所述第一窄帶語(yǔ)音信號(hào)的所述第二窄帶語(yǔ)音信號(hào)和所述較低頻帶信號(hào)相組合。
      15.如權(quán)利要求14所述的方法,其特征在于所述一個(gè)或多個(gè)參數(shù)包括基音頻率參數(shù);以及根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)包括生成基于所述基音頻率參數(shù)的連續(xù)正弦音。
      16.如權(quán)利要求15所述的方法,其特征在于所述窄帶語(yǔ)音信號(hào)包括多個(gè)窄帶語(yǔ)音信號(hào)段;對(duì)各所述窄帶語(yǔ)音信號(hào)段估計(jì)所述基音頻率參數(shù);以及在各語(yǔ)音信號(hào)段的第一部分期間使所述連續(xù)正弦音逐漸變化。
      17.如權(quán)利要求16所述的方法,其特征在于根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)還包括根據(jù)所述窄帶語(yǔ)音信號(hào)段中至少一個(gè)共振峰的振幅電平來(lái)自適應(yīng)地改變所述連續(xù)正弦音的振幅電平。
      18.如權(quán)利要求17所述的方法,其特征在于所述窄帶語(yǔ)音信號(hào)段中的所述至少一個(gè)共振峰是所述窄帶語(yǔ)音信號(hào)段中的第一共振峰。
      19.如權(quán)利要求17所述的方法,其特征在于根據(jù)所述窄帶語(yǔ)音信號(hào)段中的至少一個(gè)共振峰的所述振幅電平來(lái)自適應(yīng)地改變所述連續(xù)正弦音的振幅電平包括使所述連續(xù)正弦音的振幅電平自適應(yīng)地改變由以下等式給出的一定量g1(m)g1(m)=C1&CenterDot;&Sigma;l=0p&CenterDot;&alpha;(l)&CenterDot;&gamma;xx(l)|&Sigma;l=0p&alpha;(l)&CenterDot;e-j2&pi;lfNl|2,]]>其中C1是常數(shù);m是段號(hào);γxx是所述窄帶語(yǔ)音信號(hào)x的自相關(guān)值;fN1是所述窄帶語(yǔ)音信號(hào)的第一共振峰的頻率;以及p是線性預(yù)測(cè)濾波器級(jí)數(shù)。
      20.如權(quán)利要求17所述的方法,其特征在于所述連續(xù)正弦音s(n)根據(jù)以下等式產(chǎn)生s(n)=&Sigma;i=1Nsi(n),]]>其中對(duì)求和范圍i=1至N進(jìn)行選擇,以使所有正弦音參與相加,以及 其中,φ(m)是保持段中的連續(xù)正弦曲線所需的相位補(bǔ)償,ω(m)是當(dāng)前語(yǔ)音信號(hào)段m的基音頻率,L1是各語(yǔ)音信號(hào)段中樣本個(gè)數(shù),以及L1是各語(yǔ)音信號(hào)段中軟轉(zhuǎn)變的最后樣本值。
      21.如權(quán)利要求15所述的方法,其特征在于根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)還包括對(duì)所述連續(xù)正弦音進(jìn)行低通濾波。
      22.如權(quán)利要求21所述的方法,其特征在于,用基本上等于300Hz的上截止頻率來(lái)對(duì)所述連續(xù)正弦音進(jìn)行低通濾波。
      23.一種從第一窄帶語(yǔ)音信號(hào)中生成寬帶語(yǔ)音信號(hào)的裝置,所述方法包括分析所述第一窄帶語(yǔ)音信號(hào)以生成一個(gè)或多個(gè)參數(shù)的邏輯;根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成第一較高頻帶信號(hào)的邏輯;通過(guò)將所述第一較高頻帶信號(hào)放大一定增益量來(lái)生成第二較高頻帶信號(hào)的邏輯,其中所述一定增益量至少部分基于所述第一窄帶語(yǔ)音信號(hào)中的一個(gè)或多個(gè)頻譜振幅峰值;以及把所述第二較高頻帶信號(hào)和派生于所述第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)相組合的邏輯。
      24.如權(quán)利要求23所述的裝置,其特征在于還包括采用包括對(duì)所述窄帶語(yǔ)音信號(hào)進(jìn)行上采樣的技術(shù)來(lái)生成所述第二窄帶語(yǔ)音信號(hào)的邏輯。
      25.如權(quán)利要求23所述的裝置,其特征在于分析所述第一窄帶語(yǔ)音信號(hào)以生成一個(gè)或多個(gè)參數(shù)的邏輯部件包括采用線性預(yù)測(cè)從所述第一窄帶語(yǔ)音信號(hào)中產(chǎn)生誤差信號(hào)的邏輯。
      26.如權(quán)利要求23所述的裝置,其特征在于所述一個(gè)或多個(gè)參數(shù)包括識(shí)別所述窄帶語(yǔ)音信號(hào)的諧音的信號(hào)頻譜信息;以及根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一生成所述第一較高頻帶信號(hào)的邏輯包括生成含較高頻率范圍中信號(hào)頻譜的頻譜復(fù)制信號(hào)的邏輯,其中,所述頻譜復(fù)制信號(hào)復(fù)制濁音段中所述窄帶語(yǔ)音信號(hào)的諧音。
      27.如權(quán)利要求26所述的裝置,其特征在于生成所述第一較高頻帶信號(hào)的所述邏輯還包括通過(guò)對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成帶通濾波信號(hào)的邏輯。
      28.如權(quán)利要求27所述的裝置,其特征在于生成所述第一較高頻帶信號(hào)的所述邏輯還包括對(duì)所述帶通濾波信號(hào)進(jìn)行共振峰濾波的共振峰濾波器。
      29.如權(quán)利要求26所述的裝置,其特征在于生成所述第一較高頻帶信號(hào)的所述邏輯還包括帶通濾波器,它通過(guò)對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行帶通濾波來(lái)生成帶通濾波信號(hào);以及共振峰濾波器,只要判定所述窄帶語(yǔ)音信號(hào)表示濁音,它就對(duì)所述帶通濾波信號(hào)進(jìn)行共振峰濾波。
      30.如權(quán)利要求26所述的方法,其特征在于生成所述第一較高頻帶信號(hào)的所述邏輯還包括對(duì)所述頻譜復(fù)制信號(hào)進(jìn)行共振峰濾波的共振峰濾波器。
      31.如權(quán)利要求23所述的裝置,其特征在于所述一個(gè)或多個(gè)參數(shù)包括一組振幅參數(shù),它們與所述第一窄帶語(yǔ)音信號(hào)的極點(diǎn)頻率分量的振幅成比例;以及放大所述第一較高頻帶信號(hào)的所述邏輯包括如果判定所述第一窄帶語(yǔ)音信號(hào)表示濁音時(shí)則采用第一增益量的邏輯;以及如果判定所述第一窄帶語(yǔ)音信號(hào)表示摩擦音時(shí)則采用第二增益量的邏輯。
      32.如權(quán)利要求31所述的裝置,其特征在于放大所述第一較高頻帶信號(hào)的所述邏輯還包括如果判定所述第一窄帶語(yǔ)音信號(hào)既不表示濁音也不表示摩擦音時(shí)則采用第三增益量的邏輯。
      33.如權(quán)利要求32所述的裝置,其特征在于所述第三增益量是極低的常數(shù)增益量。
      34.如權(quán)利要求31所述的裝置,其特征在于所述振幅參數(shù)用對(duì)數(shù)方法進(jìn)行標(biāo)度;使用所述第一增益量的所述邏輯包括對(duì)所述振幅參數(shù)進(jìn)行第一線性組合的邏輯;以及使用所述第二增益量的所述邏輯包括對(duì)所述振幅參數(shù)進(jìn)行第二線性組合的邏輯。
      35.如權(quán)利要求23所述的裝置,其特征在于所述第二窄帶語(yǔ)音信號(hào)是所述第一窄帶語(yǔ)音信號(hào)。
      36.如權(quán)利要求23所述的裝置,基特征在于還包括根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成較低頻帶信號(hào)的邏輯,以及其中,將所述第二較高頻帶信號(hào)與派生于所述第一窄帶語(yǔ)音信號(hào)的第二窄帶語(yǔ)音信號(hào)相組合的所述邏輯包括將所述第二較高頻帶信號(hào)、派生于所述第一窄帶語(yǔ)音信號(hào)的所述第二窄帶語(yǔ)音信號(hào)和所述較低頻帶信號(hào)相組合的邏輯。
      37.如權(quán)利要求36所述的裝置,其特征在于所述一個(gè)或多個(gè)參數(shù)包括基音頻率參數(shù);以及根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)的所述邏輯包括生成基于所述基音頻率參數(shù)的連續(xù)正弦音的邏輯。
      38.如權(quán)利要求37所述的裝置,其特征在于所述窄帶語(yǔ)音信號(hào)包括多個(gè)窄帶語(yǔ)音信號(hào)段;對(duì)各所述窄帶語(yǔ)音信號(hào)段估計(jì)所述基音頻率參數(shù);以及在各語(yǔ)音信號(hào)段的第一部分期間使所述連續(xù)正弦音逐步變化。
      39.如權(quán)利要求38所述的裝置,其特征在于根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)的所述邏輯還包括根據(jù)所述窄帶語(yǔ)音信號(hào)段中至少一個(gè)共振峰的振幅電平來(lái)自適應(yīng)地改變所述連續(xù)正弦音的振幅電平的邏輯。
      40.如權(quán)利要求39所述的裝置,其特征在于所述窄帶語(yǔ)音信號(hào)段中的所述至少一個(gè)共振峰是所述窄帶語(yǔ)音信號(hào)段中的第一共振峰。
      41.如權(quán)利要求39所述的裝置,其特征在于根據(jù)所述窄帶語(yǔ)音信號(hào)段中的至少一個(gè)共振峰的振幅電平來(lái)自適應(yīng)地改變所述連續(xù)正弦音的振幅電平的所述邏輯包括自適應(yīng)地使所述連續(xù)正弦音的振幅電平改變由如下等式給出的一定量g1(m)的邏輯g1(m)=C1&CenterDot;&Sigma;l=0p&CenterDot;&alpha;(l)&CenterDot;&gamma;xx(l)|&Sigma;l=0p&alpha;(l)&CenterDot;e-j2&pi;lfNl|2,]]>其中C1是常數(shù);m是段號(hào);γxx是所述窄帶語(yǔ)音信號(hào)x的自相關(guān)值;fN1是所述窄帶語(yǔ)音信號(hào)的第一共振峰的頻率;以及p是線性預(yù)測(cè)濾波器級(jí)數(shù)。
      42.如權(quán)利要求39所述的裝置,其特征在于根據(jù)下式產(chǎn)生所述連續(xù)正弦音s(n)s(n)=&Sigma;i=1Nsi(n),]]>其中對(duì)求和范圍i=1至N進(jìn)行選擇以使所有正弦音參與相加,以及 其中,φ(m)是保持段中的連續(xù)正弦曲線所需的相位補(bǔ)償,ω(m)是當(dāng)前語(yǔ)音信號(hào)段m的基音頻率,L是各語(yǔ)音信號(hào)段中的樣本個(gè)數(shù),以及L1是各語(yǔ)音信號(hào)段中所述軟轉(zhuǎn)變的最后樣本值。
      43.如權(quán)利要求37所述的裝置,其特征在于根據(jù)所述一個(gè)或多個(gè)參數(shù)至少其中之一來(lái)合成所述較低頻帶信號(hào)的所述邏輯還包括對(duì)所述連續(xù)正弦音進(jìn)行低通濾波的低通濾波器。
      44.如權(quán)利要求43所述的裝置,其特征在于所述低通濾波器具有基本上等于300Hz的上截止頻率。
      全文摘要
      將普通窄帶語(yǔ)音信號(hào)擴(kuò)展成寬帶語(yǔ)音信號(hào)。無(wú)論接收器中使用何種類型的聲碼器,所擴(kuò)展的信號(hào)均會(huì)提供寬帶語(yǔ)音信號(hào)的效果。本發(fā)明提出的穩(wěn)固的技術(shù)基于語(yǔ)音聲學(xué)和人類聽(tīng)覺(jué)的基本原理。那就是擴(kuò)展?jié)嵋舳沃姓Z(yǔ)音信號(hào)的諧波結(jié)構(gòu),在寬頻帶中引入線性估計(jì)的語(yǔ)音能量的技術(shù)。在清音段期間,在高頻帶中引入摩擦噪聲。
      文檔編號(hào)G10L19/08GK1496559SQ02806198
      公開(kāi)日2004年5月12日 申請(qǐng)日期2002年1月8日 優(yōu)先權(quán)日2001年1月12日
      發(fā)明者H·古斯塔夫森, U·林德格倫, H 古斯塔夫森, 賂衤 申請(qǐng)人:艾利森電話股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1