国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用分段線性逼近的連續(xù)值聲道共振跟蹤方法和裝置的制作方法

      文檔序號:2831300閱讀:390來源:國知局
      專利名稱:使用分段線性逼近的連續(xù)值聲道共振跟蹤方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語音識別系統(tǒng),尤其涉及利用語音中的聲道共振的語音識別系統(tǒng)。
      背景技術(shù)
      在人類語音中,大量的信息包含在語音信號的前三個(gè)或前四個(gè)共振頻率內(nèi)。特別地,當(dāng)說話者發(fā)出元音時(shí),這些共振的頻率(對較小的范圍,為帶寬)指示正在說出哪一元音。
      這一共振頻率和帶寬通常被總稱為共振峰(formant)。在通常為有聲的響音語音中,可發(fā)現(xiàn)共振峰為語音的頻率表示中的譜突起。然而,在非響音語音中,不能直接找到共振峰為譜突起。為此,術(shù)語“共振峰”有時(shí)被解釋為僅應(yīng)用于語音的響音部分。為避免混淆,某些研究人員使用詞組“聲道共振”來指出現(xiàn)在響音和非響應(yīng)語音中的共振峰。在兩種情況下,共振僅指聲道共振的口腔道部分。
      為檢測共振峰,現(xiàn)有技術(shù)的系統(tǒng)分析語音信號幀的頻譜內(nèi)容。由于共振峰可以是任何頻率,因此現(xiàn)有技術(shù)試圖在標(biāo)識最可能的共振峰值之前限制搜索空間。在某些現(xiàn)有技術(shù)系統(tǒng)中,可能的共振峰的搜索空間通過標(biāo)識幀的頻譜內(nèi)容中的峰值來減小。通常,這通過使用線性預(yù)測編碼(LPC)來完成,LPC試圖找出表示語音信號幀的頻譜內(nèi)容的多項(xiàng)式。該多項(xiàng)式的每一根值表示信號中的一個(gè)可能的共振頻率,并由此表示可能的公正共振峰。由此,使用LPC,搜索空間被減小至形成LPC多項(xiàng)式根的那些頻率。
      在現(xiàn)有技術(shù)的其它共振峰跟蹤系統(tǒng)中,通過將幀的頻譜內(nèi)容與一組在其中由專家標(biāo)識了共振峰的頻譜模板進(jìn)行比較來減小搜索空間。然后選擇最接近的“n”個(gè)模板,并將它們用于計(jì)算該幀的共振峰。由此,這些系統(tǒng)將搜索空間減小至與最接近的模板相關(guān)聯(lián)的那些共振峰。
      由本發(fā)明的相同的發(fā)明人開發(fā)的現(xiàn)有技術(shù)的一種系統(tǒng)使用了對輸入信號的每一幀都相同的一致搜索空間。搜索空間中的每一組共振峰被映射到一特征矢量。每一特征矢量然后被應(yīng)用到一模型以確定哪一組共振峰是最可能的。
      該系統(tǒng)能夠較好地工作,然而它需要很大的計(jì)算量,因?yàn)樗ǔJ褂妹窢栴l率(Mel-Frenquency)倒譜系數(shù)頻率矢量,這需要將一組頻率應(yīng)用到基于要映射的共振峰組中的所有共振峰的復(fù)雜濾波器,隨后執(zhí)行加窗步驟和離散余弦變換步驟,以將共振峰映射到特征矢量。這一計(jì)算在運(yùn)行時(shí)執(zhí)行太耗時(shí),由此所有共振峰組都必須在運(yùn)行之前映射,并且映射的特征矢量必須被儲存在一個(gè)大表中。這并不理想,因?yàn)樗枰渥愕拇鎯ζ鱽韮Υ嫠杏成涞奶卣魇噶俊?br> 在由本發(fā)明的發(fā)明人開發(fā)的另一系統(tǒng)中,一組離散聲道共振矢量被儲存在碼本中。每一離散矢量被轉(zhuǎn)化成一仿真特征矢量,將該仿真特征矢量與輸入特征矢量相比較,以確定哪一離散矢量能最好地表示輸入語音信號。該系統(tǒng)并不理想,因?yàn)樗淮_定聲道共振矢量的連續(xù)值,而是選擇離散的聲道共振碼字的其中之一。

      發(fā)明內(nèi)容
      一種方法和裝置跟蹤語音信號中的聲道共振分量。通過定義對過去的聲道共振矢量為線性、且預(yù)測當(dāng)前的聲道共振矢量的狀態(tài)方程式來跟蹤該分量。也定義對當(dāng)前聲道共振矢量為線性、且預(yù)測觀測矢量的至少一個(gè)分量的觀測方程式。狀態(tài)方程式、觀測方程式和一系列觀測矢量用于標(biāo)識一系列聲道共振矢量。在一個(gè)實(shí)施例中,基于對非線性函數(shù)的線性逼近來定義觀測方程式?;诼暤拦舱袷噶康墓浪銇磉x擇該線性逼近的參數(shù)。


      圖1是可在其中實(shí)踐本發(fā)明的實(shí)施例的通用計(jì)算環(huán)境的框圖。
      圖2是語音信號的幅度頻譜曲線圖。
      圖3所示是對指數(shù)函數(shù)的分段線性逼近的曲線圖。
      圖4所示是對正弦函數(shù)的分段線性逼近的曲線圖。
      圖5是本發(fā)明的方法的流程圖。
      圖6是用于訓(xùn)練余量模型的訓(xùn)練系統(tǒng)的框圖。
      圖7是本發(fā)明的一個(gè)實(shí)施例中共振峰跟蹤系統(tǒng)的框圖。
      具體實(shí)施例方式
      圖1示出了適合在其中實(shí)現(xiàn)本發(fā)明的計(jì)算系統(tǒng)環(huán)境100的一個(gè)示例。計(jì)算系統(tǒng)環(huán)境100僅為合適的計(jì)算環(huán)境的一個(gè)示例,并非暗示對本發(fā)明的使用范圍或功能的局限。也不應(yīng)將計(jì)算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合具有依賴或需求。
      本發(fā)明可以使用眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置來操作。適合使用本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的示例包括但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、電話系統(tǒng)、包括任一上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
      本發(fā)明可在諸如由計(jì)算機(jī)執(zhí)行的程序模塊等計(jì)算機(jī)可執(zhí)行指令的一般上下文環(huán)境中描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明被設(shè)計(jì)成在分布式計(jì)算環(huán)境中實(shí)踐,其中,任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程計(jì)算機(jī)存儲媒質(zhì)中,包括存儲器存儲設(shè)備。
      參考圖1,用于實(shí)現(xiàn)本發(fā)明的示例系統(tǒng)包括以計(jì)算機(jī)110形式的通用計(jì)算裝置。計(jì)算機(jī)110的組件可包括但不限于,處理單元120、系統(tǒng)存儲器130以及將包括系統(tǒng)存儲器的各類系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲器總線或存儲器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的局部總線。作為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線以及外圍部件互連(PCI)總線,也稱為Mezzanine總線。
      計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀媒質(zhì)。計(jì)算機(jī)可讀媒質(zhì)可以是可由計(jì)算機(jī)110訪問的任一可用媒質(zhì),包括易失和非易失媒質(zhì)、可移動(dòng)和不可移動(dòng)媒質(zhì)。作為示例而非局限,計(jì)算機(jī)可讀媒質(zhì)包括計(jì)算機(jī)存儲媒質(zhì)和通信媒質(zhì)。計(jì)算機(jī)存儲媒質(zhì)包括以用于儲存諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任一方法或技術(shù)實(shí)現(xiàn)的易失和非易失,可移動(dòng)和不可移動(dòng)媒質(zhì)。計(jì)算機(jī)存儲媒質(zhì)包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或其它磁存儲設(shè)備、或可以用來儲存所期望的信息并可由計(jì)算機(jī)110訪問的任一其它媒質(zhì)。通信媒質(zhì)通常在諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號中包含計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送媒質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指以對信號中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號。作為示例而非局限,通信媒質(zhì)包括有線媒質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無線媒質(zhì),如聲學(xué)、RF、紅外和其它無線媒質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀媒質(zhì)的范圍之內(nèi)。
      系統(tǒng)存儲器130包括以易失和/或非易失存儲器形式的計(jì)算機(jī)存儲媒質(zhì),如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132。基本輸入/輸出系統(tǒng)133(BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)110內(nèi)的元件之間傳輸信息的基本例程,通常儲存在ROM131中。RAM132通常包含處理單元120立即可訪問或者當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖1示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
      計(jì)算機(jī)110也可包括其它可移動(dòng)/不可移動(dòng)、易失/非易失計(jì)算機(jī)存儲媒質(zhì)。僅作示例,圖1示出了對不可移動(dòng)、非易失磁媒質(zhì)進(jìn)行讀寫的硬盤驅(qū)動(dòng)器141、對可移動(dòng)、非易失磁盤152進(jìn)行讀寫的磁盤驅(qū)動(dòng)器151以及對可移動(dòng)、非易失光盤156,如CD ROM或其它光媒質(zhì)進(jìn)行讀寫的光盤驅(qū)動(dòng)器155??梢栽谑纠圆僮鳝h(huán)境中使用的其它可移動(dòng)/不可移動(dòng)、易失/非易失計(jì)算機(jī)存儲媒質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141通常通過不可移動(dòng)存儲器接口,如接口140連接到系統(tǒng)總線121,磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155通常通過可移動(dòng)存儲器接口,如接口150連接到系統(tǒng)總線121。
      圖1討論并示出的驅(qū)動(dòng)器及其關(guān)聯(lián)的計(jì)算機(jī)存儲媒質(zhì)為計(jì)算機(jī)110提供了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,示出硬盤驅(qū)動(dòng)器141儲存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。這里對操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號來說明至少它們是不同的副本。
      用戶可以通過輸入設(shè)備,如鍵盤162、麥克風(fēng)163和定位設(shè)備161(如鼠標(biāo)、跟蹤球或觸摸板)向計(jì)算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但是也可以通過其它接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過接口,如視頻接口190連接至系統(tǒng)總線121。除監(jiān)視器之外,計(jì)算機(jī)也可包括其它外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī)196,通過輸出外圍接口195連接。
      計(jì)算機(jī)110可以在使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接的網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持式設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它公用網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括許多或所有上述與計(jì)算機(jī)110相關(guān)的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可包括其它網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
      當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)10通過網(wǎng)絡(luò)接口或適配器170連接至LAN171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或其它裝置,用于通過WAN173,如因特網(wǎng)建立通信。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,通過用戶輸入接口160或其它合適的機(jī)制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,描述的與計(jì)算機(jī)110相關(guān)的程序模塊或其部分可儲存在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例而非局限,圖1示出遠(yuǎn)程應(yīng)用程序185駐留在遠(yuǎn)程計(jì)算機(jī)180上。可以理解,示出的網(wǎng)絡(luò)連接是示例性的,也可以使用在計(jì)算機(jī)之間建立通信鏈路的其它裝置。
      圖2是人類語音的一個(gè)片段的頻譜曲線圖。在圖2中,頻率沿水平軸200示出,頻率分量的幅度沿垂直軸202示出。圖2的曲線圖示出了響音人類語音包含的共振或共振峰,如第一共振峰204、第二共振峰206、第三共振峰208和第四共振峰210。每一共振峰由其中心頻率F與其帶寬B描述。
      本發(fā)明提供了在響音和非響音語音中,跨共振峰頻率和帶寬的連續(xù)范圍標(biāo)識語音信號中的共振峰頻率和帶寬的方法。由此,本發(fā)明能夠跟蹤聲道共振頻率和帶寬。
      為完成這一過程,本發(fā)明將隱含的聲道共振頻率和帶寬模型化為一列隱含的狀態(tài),其每一個(gè)都產(chǎn)生一觀測。在一個(gè)具體的實(shí)施例中,隱含的聲道共振頻率和帶寬使用以下狀態(tài)方程式1和觀測方程式2來模型化xt=Φxt-1+(I-Φ)T+wt公式1ot=C(xt)+vt公式2
      其中,xt是t時(shí)刻的隱含聲道共振矢量,它由xt={f1,b1,f2,b2,f3,b3,f4,b4}構(gòu)成,xt-1是前一時(shí)刻t-1的隱含聲道共振矢量,Φ是系統(tǒng)矩陣,I是單位矩陣,T是聲道共振頻率和帶寬的目標(biāo)矢量,wt是狀態(tài)方程式中的噪聲,ot是已觀測矢量,C(xt)是從隱含聲道共振矢量到觀測矢量的映射方程,vt是觀測中的噪聲。在一個(gè)實(shí)施例中,Φ是對角矩陣,其每一元素具有根據(jù)經(jīng)驗(yàn)所確定的0.7和0.9之間的值,T是矢量,在一個(gè)實(shí)施例中,它的值為(500 1500 2500 3500 200 300 400 400)T在本實(shí)施例中,噪聲參數(shù)wt和vt的值由具有零平均值矢量和對角協(xié)方差矩陣的隨機(jī)高斯樣值來確定。本實(shí)施例中,這些矩陣的對角元素的值對wt在10和30,000之間,對vt在0.8和78之間。
      在一個(gè)實(shí)施例中,已觀測的矢量是線性預(yù)測編碼倒譜(LPC倒譜)矢量,該矢量的每一分量表示一LPC階。結(jié)果,可由解析非線性函數(shù)來精確地確定映射函數(shù)C(xt)。幀t的矢量值函數(shù)C(xt)的第n個(gè)分量為Cn(xt)=&Sigma;k=1K2ne-&pi;nbk(t)fscos(2&pi;nfk(t)fs)]]>公式3其中,Cn(xt)是第N階LPC倒譜特征矢量中的第n個(gè)元素,K是聲道共振(VTR)頻率的數(shù)量,fk(t)是幀t的第k個(gè)VTR頻率,bk(t)是幀t的第k個(gè)VTR帶寬,fs是采樣頻率,在許多實(shí)施例中為8kHz,在其它實(shí)施例中為16kHz。Co元素被設(shè)為等于logG,其中G是增益。
      為從一列觀測矢量標(biāo)識一列隱含聲道共振矢量,本發(fā)明使用卡爾曼(Kalman)濾波器??柭鼮V波器提供了一種遞歸技術(shù),它可確定由公式1和2表示的線性動(dòng)態(tài)系統(tǒng)中的連續(xù)值隱含聲道共振矢量的最佳估算。這一卡爾曼濾波器在本領(lǐng)域中是眾所周知的。
      卡爾曼濾波器需要公式1和2的右側(cè)對隱含聲道共振矢量為線性。然而,公式3的映射函數(shù)對聲道共振矢量是非線性的。為解決該問題,本發(fā)明使用了分段線性逼近來替代公式3中的指數(shù)和余弦項(xiàng)。在一個(gè)實(shí)施例中,指數(shù)項(xiàng)由5個(gè)線性段來表示,余弦項(xiàng)由10個(gè)線性段來表示。
      圖3示出了對公式3中的指數(shù)項(xiàng)的分段線性逼近。指數(shù)的值沿垂直軸300示出,第k個(gè)VTR帶寬的帶寬bk的值沿水平軸302示出。在圖3中,使用5個(gè)線段304、306、308、310和312來近似指數(shù)曲線314。下表提供了每一線段所覆蓋的指數(shù)值的范圍。

      表1圖4示出了對公式3中的余弦項(xiàng)的分段線性逼近的示例。余弦函數(shù)的值沿垂直軸400示出,第k個(gè)VTR頻率的頻率fk的值沿水平軸402示出。在圖4中,示出了余弦函數(shù)的單個(gè)周期,然而,本領(lǐng)域的技術(shù)人員將認(rèn)識到,可對余弦函數(shù)的每一周期使用同一分段線性逼近。在圖4的實(shí)施例中,余弦函數(shù)424由10個(gè)線段404、406、408、410、412、414、416、418、420和422來近似。下表2提供了由每一線段覆蓋的余弦值的不均勻范圍,假定完整的周期覆蓋了從0Hz到8000Hz的頻率范圍。

      表2使用這些線性逼近,公式3可重寫為Cn(xt)=&Sigma;k=1K2n(&alpha;kxxt+&beta;kx)(&gamma;kxxt+&delta;kx)]]>公式4其中,αkx是近似指數(shù)項(xiàng)的線段的斜率,βkx是其截矩,γkx是近似余弦項(xiàng)的線段的斜率,δkx是其截矩。注意,這四項(xiàng)都依賴于xt,因?yàn)橛糜诮品蔷€性函數(shù)的線段是基于由依照表1和2的xt的值來確定的區(qū)域上選擇的。
      公式4中的映射函數(shù)的形式在xt中仍非線性,這是由于二次項(xiàng)的存在。在本發(fā)明的一個(gè)實(shí)施例中,忽略該項(xiàng)的遞增部分,由此獲得從xt到Cn(xt)的線性方程式。
      在該形式中,只要參數(shù)基于表1和2中例示的范圍是固定的,則可直接應(yīng)用卡爾曼濾波器以從一列已觀測的LPC特征矢量o1:T來獲取一列連續(xù)值狀態(tài)x1:T。
      圖5提供了一種一般的方法的流程圖,該方法選擇線性逼近,并在卡爾曼濾波器中使用該近似以使用公式1、2和4來標(biāo)識一列連續(xù)值的狀態(tài),同時(shí)忽略公式4中二次項(xiàng)的遞增部分。圖6和7提供了圖5的方法中使用的組件的框圖。
      在圖5的步驟500,通過量化可能的聲道共振(VTR)頻率和帶寬形成一組量化值,然后對量化值的不同組合形成條目,來構(gòu)造儲存在一表中的VTR碼本。由此,所得的碼本包含作為VTR頻率和帶寬的條目。例如,如果碼本包含四個(gè)VTR的條目,碼本中第i個(gè)條目x[i]為矢量[F1i,B1i,F(xiàn)2i,B2i,F(xiàn)3i,B3i,F(xiàn)4i,B4i],其中,F(xiàn)1i、F2i、F3i和F4i是第一、第二、第三和第四VTR的頻率,B1i、B2i、B3i和B4i是第一、第二、第三和第四VTR的帶寬。在以下的討論中,碼本的索引i可與儲存在該索引上的值x[i]交換使用。當(dāng)下文單獨(dú)使用索引時(shí),它意味著表示儲存在該索引上的值。
      在一個(gè)實(shí)施例中,依照下表3中的條目量化共振峰和帶寬,其中Min(Hz)是以赫茲表示的頻率或帶寬的最小值,Max(Hz)是以赫茲表示的最大值,“Num.Quant.”是量化狀態(tài)數(shù)。對于頻率和帶寬,最小值和最大值之間的范圍由量化狀態(tài)數(shù)來劃分,以在每一量化狀態(tài)之間提供分隔。例如,對于表3中的帶寬B1,260Hz的范圍由5個(gè)量化狀態(tài)均勻地劃分,使得每一狀態(tài)按照65Hz與其它狀態(tài)分隔(即,40、105、170、235、300)。


      表3表3中的量化狀態(tài)數(shù)可生成總共1億個(gè)以上不同的VTR組。然而,由于約束F1<F2<F3<F4,實(shí)際上碼本中VTR的組較少。
      在形成了碼本之后,在步驟502,碼本中的條目用于訓(xùn)練描述剩余隨機(jī)變量的參數(shù)。剩余隨機(jī)變量是一組觀測訓(xùn)練特征矢量和一組仿真特征矢量之差。以公式表示vt=ot-S(xt[i])公式5其中,vt是余量,ot是t時(shí)刻的已觀測訓(xùn)練特征矢量,S(xt[i])是仿真特征矢量。
      如圖6所示,當(dāng)向LPC倒譜計(jì)算器602應(yīng)用VTR碼本600中的一組VTRxt[i]需要時(shí),構(gòu)造仿真矢量S(xt[i]),它執(zhí)行以下計(jì)算Sn(xt[i])=&Sigma;k=1K2ne-&pi;nbk[i]fscos(2&pi;nfk[i]fs)]]>公式6其中,Sn(xt[i])是n階LPC倒譜特征矢量中的第n個(gè)元素,K是VTR的數(shù)量,fk是第k個(gè)VTR頻率,bk是第k個(gè)VTR帶寬,fs是采樣頻率,在許多實(shí)施例中為8kHz。So元素被設(shè)為等于logG,其中,G是增益。
      為產(chǎn)生用于訓(xùn)練余量模型的已觀察訓(xùn)練特征矢量ot,人類說話者612生成由麥克風(fēng)616檢測的聲學(xué)信號,麥克風(fēng)616也檢測附加噪聲614。麥克風(fēng)616將聲學(xué)信號轉(zhuǎn)化成提供給模-數(shù)(A/D)轉(zhuǎn)化器618的模擬電信號。模擬信號由A/D轉(zhuǎn)化器618以采樣頻率fs來采樣,并將所得的樣值轉(zhuǎn)化成數(shù)字值。在一個(gè)實(shí)施例中,A/D轉(zhuǎn)化器618以8kHz和每樣值16比特對模擬信號進(jìn)行采樣,由此創(chuàng)建了每秒16千字節(jié)的語音數(shù)據(jù)。在其它實(shí)施例中,A/D轉(zhuǎn)化器618以16kHz對模擬信號進(jìn)行采樣。數(shù)字樣值被提供給幀構(gòu)造器620,它將樣值組合成幀。在一個(gè)實(shí)施例中,幀構(gòu)造器620每隔10毫秒創(chuàng)建包含25毫秒數(shù)據(jù)的新幀。
      數(shù)據(jù)幀被提供給LPC倒譜特征提取器622,它使用快速傅立葉變換(FFT)將信號變換到頻域,然后使用LPC系數(shù)系統(tǒng)626標(biāo)識表示語音信號幀的頻譜內(nèi)容的多項(xiàng)式。使用遞歸628將LPC系數(shù)轉(zhuǎn)化成LPC倒譜系數(shù)。遞歸628的輸出是表示訓(xùn)練語音信號的一組訓(xùn)練特征矢量630。仿真特征矢量610和訓(xùn)練特征矢量630被提供給余量訓(xùn)練器632,它訓(xùn)練余量vt的參數(shù)。
      在一個(gè)實(shí)施例中,vt是具有平均值h和精度D的單個(gè)高斯型,其中,h是對特征矢量的每一分量具有單獨(dú)的平均值的矢量,D是對特征矢量的每一分量具有單獨(dú)的值的對角精度矩陣。
      在本發(fā)明的一個(gè)實(shí)施例中,使用期望值最大化(EM)算法來訓(xùn)練這些參數(shù)。在該算法的E步驟,確定后驗(yàn)概率&gamma;t(i)=p(xt[i]|o1N).]]>在一個(gè)實(shí)施例中,該后驗(yàn)概率使用后向遞歸來確定,定義如下&gamma;t(i)=&rho;t(i)&sigma;t(i)&Sigma;i&rho;t(i)&sigma;t(i)]]>公式7其中,ρt(i)和σt(i)被遞歸地定義為&rho;t(i)=&Sigma;j&rho;t-1(j)p(xt[i]|xt-1[j])p(ot|xt[i]=x[i])]]>公式8&sigma;t(i)=&Sigma;j&sigma;t+1(j)p(xt[i]|xt+1[j])p(ot|xt[i]=x[i])]]>公式9在本發(fā)明的一個(gè)方面,使用上述公式1來確定轉(zhuǎn)移概率p(xt[i]|xt-1[j])和p(xt[i]|xt+1[j],此處為方便起見,使用碼本索引表示法來重復(fù)該公式xt[i]=Φxt-1[i]+(I-Φ)T+wt公式10其中,xt[i]是幀t的VTR的值,xt-1[j]是前一幀t-1的VTR的值,Φ是速率,T是與幀t相關(guān)聯(lián)的VTR的目標(biāo),wt是幀t的噪聲,在一個(gè)實(shí)施例中假定噪聲為具有精度矩陣B的零均值高斯型。
      使用這一動(dòng)態(tài)模型,轉(zhuǎn)移概率可被描述為高斯函數(shù)p(xt[i]|xt-1[j])=N(xt[i];Φxt-1[i]+(I-Φ)T,B) 公式11p(xt[i]|xt+1[j])=N(xt+1[i];Φxt[i]+(I-Φ)T,B) 公式12可選地,可通過令概率僅取決于當(dāng)前觀測矢量而非矢量序列來估算后驗(yàn)概率rt(i)=p(xt[i]|o1N),]]>使得后驗(yàn)概率變?yōu)棣胻(i)≈p(xt[i]|ot)公式13它可被計(jì)算如下p(xt[i]|ot)=N(ot;S(xt[i])+h^,D^)&Sigma;i-1IN(ot;S(xt[i])+h^,D^)]]>公式14其中, 是余量的平均值, 是余量的精度,余量是根據(jù)EM算法的前一次迭代確定的,或者如果是第一次迭代,則是最初設(shè)定的。在執(zhí)行了E步驟來標(biāo)識后驗(yàn)概率&gamma;t(i)=p(xt[i]|o1N)]]>之后,執(zhí)行M步驟,使用以下公式來確定余量的方差D-1(精度矩陣的逆)的平均值h和每一對角元素d-1h^=&Sigma;t=1N&Sigma;i-1I&gamma;t(i){ot-S(xt[i])}N]]>公式15
      d^-1=&Sigma;t=1N&Sigma;i-1I&gamma;t(i){ot-S(xt[i])-h^}2N]]>公式16其中,N是訓(xùn)練話語中的幀的數(shù)量,I是VTR的量化組合的數(shù)量,ot是t時(shí)刻的已觀測特征矢量,S(xt[i])是VTRxt[i]的仿真特征矢量。
      余量訓(xùn)練器632通過重復(fù)E步驟和M步驟來多次更新平均值和方差,每次都使用前一次迭代的平均值和方差。在平均值和方差達(dá)到穩(wěn)定值之后,它們被作為余量參數(shù)634儲存。
      一旦構(gòu)造了余量參數(shù)634,它們可在圖5的步驟504中用于標(biāo)識輸入的語音信號中的VTR矢量。圖7示出了用于標(biāo)識VTR矢量的系統(tǒng)的框圖。
      在圖7中,語音信號由說話者712生成。語音信號和附加噪聲714由麥克風(fēng)716、A/D轉(zhuǎn)化器718、幀構(gòu)造器720和特征提取器722轉(zhuǎn)化成特征矢量流710,特征提取器包括FFT 724、LPC系統(tǒng)716和遞歸728。注意,麥克風(fēng)716、A/D轉(zhuǎn)化器718、幀構(gòu)造器720和特征提取器722以與圖6的麥克風(fēng)616、A/D轉(zhuǎn)化器618、幀構(gòu)造器620和特征提取器622相同的方式操作。
      特征矢量流730連同余量參數(shù)634和仿真特征矢量610一起提供給VTR跟蹤器732。VTR跟蹤器732使用動(dòng)態(tài)編程來標(biāo)識一列最可能的VTR矢量734。特別地,它使用維特比(Viterbi)解碼算法,其中,網(wǎng)格圖中的每一節(jié)點(diǎn)具有下列公式的最優(yōu)部分得分&delta;t(i)=maxx[i]1j-1&Pi;&tau;=1t-1p(o&tau;|x&tau;[i])p(ot|xt[i]=x[i])]]>&times;p(x[i]1)&Pi;&tau;=2t-1p(x&tau;[i]|x&tau;-1[i])p(x&tau;[i]=x[i]|xt-1[i])]]>公式17基于最優(yōu)原理,t+1處理階段的最優(yōu)部分似然性可使用以下維特比遞歸來計(jì)算&delta;t+1(i)=maxi&prime;&delta;t(i&prime;)p(xt+1[i]=x[i]|xt[i]=x[i&prime;])p(ot+1|xt+1[i]=x[i])]]>公式18在公式18中,“轉(zhuǎn)移”概率p(xt+1[i]=x[i]|xt[i]=x[i′])使用上文的狀態(tài)方程式10來計(jì)算,以生成高斯分布p(xt+1[i]=x[i]|xt[i]=x[i′])=N(xt+1[i];Φxt[i′]+(I-Φ)T,B)公式19其中,Φxt[i]+(I-Φ)T是該分布的平均值,B是該分布的精度。
      公式18的觀測概率p(ot+1[i]=x[i])被作為高斯型處理,并根據(jù)觀測方程式5和余量參數(shù)h和D來計(jì)算,使得p(ot+1|xt+1[i]=x[i])=N(ot+1;S(xt+1[i]+h,D)公式20
      公式20中最優(yōu)量化索引i′的后向跟蹤提供了初始VTR序列734。
      為減少必須執(zhí)行的計(jì)算數(shù)量,可執(zhí)行修剪(pruning)束搜索來替代嚴(yán)格的維特比搜索。在一個(gè)實(shí)施例中,在對每一幀僅標(biāo)識一個(gè)索引時(shí),使用修剪的極端形式。
      在步驟504標(biāo)識了初始VTR序列734之后,將初始VTR序列提供給線性參數(shù)估算器736,它選擇用于上述步驟506處的公式4的線性逼近的參數(shù)。具體地,對于每一幀,該幀的初始VTR矢量用于確定對每一聲道共振索引k和每一LPC階n的線性參數(shù)αkx、βkx、γkx和δkx的值。
      在一個(gè)實(shí)施例中,通過向指數(shù)項(xiàng) 應(yīng)用初始VTR矢量的帶寬bk并計(jì)算該指數(shù)的值來對LPC階n確定線性參數(shù)αkx和βkx的值。然后選擇圖3中跨越該指數(shù)值的線段,由此選擇定義線段的線性參數(shù)αkx和βkx。注意,這些參數(shù)的每一個(gè)是對除與帶寬bk相關(guān)聯(lián)的矢量分量之外的每一矢量分量具有零值的矢量。
      在一個(gè)實(shí)施例中,通過向余弦項(xiàng) 應(yīng)用初始VTR矢量的頻率fk并計(jì)算該余弦的值來對LPC階n確定線性參數(shù)γkx和δkx的值。然后選擇圖4中跨越該余弦值的線段,由此選擇了定義線段的線性參數(shù)γkx和δkx。注意,這些參數(shù)的每一個(gè)是對除與頻率fk相關(guān)聯(lián)的矢量分量之外的每一矢量分量具有零值的矢量。
      在步驟508,將每一幀的線性參數(shù)應(yīng)用到公式4。忽略公式4中二次項(xiàng)的遞增部分,公式4在公式2中使用。然后將公式1和2提供給卡爾曼濾波器738,它對每一幀重新估算VTR矢量。在步驟510,過程確定是否存在更多迭代要執(zhí)行。如果存在更多迭代,則過程返回到步驟506,根據(jù)新VTR矢量重新估算線性參數(shù)。然后將新線性參數(shù)應(yīng)用到公式2到公式4,并且在步驟508在卡爾曼濾波器738中使用公式1和2來重新估算VTR矢量。重復(fù)步驟506、508和510,直到在步驟510確定不需要更多的迭代。在這一點(diǎn)上,過程在步驟512結(jié)束,VTR矢量734的最后一次估算用作輸入信號的聲道共振頻率和帶寬序列。
      注意,卡爾曼濾波器738提供了聲道共振矢量的連續(xù)值。由此,所得的聲道共振頻率和帶寬的序列不限于VTR碼本600中找到的離散值。
      盡管參考具體實(shí)施例描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認(rèn)識到,可在不脫離本發(fā)明的精神和范圍的情況下在形式和細(xì)節(jié)上作出改變。
      權(quán)利要求
      1.一種跟蹤語音信號中的聲道共振頻率的方法,其特征在于,它包括定義對過去的聲道共振矢量為線性的、且預(yù)測當(dāng)前聲道共振矢量的一狀態(tài)方程式;定義對當(dāng)前聲道共振矢量為線性的、且預(yù)測觀測矢量的至少一個(gè)分量的一觀測方程式;以及使用所述狀態(tài)方程式、所述觀測方程式和所述觀測矢量序列來標(biāo)識一聲道共振矢量序列,每一聲道共振矢量包括至少一個(gè)聲道共振頻率。
      2.如權(quán)利要求1所述的方法,其特征在于,使用所述狀態(tài)方程式、所述觀測方程式和所述觀測矢量序列來標(biāo)識聲道共振矢量序列包括向一卡爾曼濾波器應(yīng)用所述狀態(tài)方程式、所述觀測方程式和所述觀測矢量序列。
      3.如權(quán)利要求1所述的方法,其特征在于,標(biāo)識聲道共振矢量包括根據(jù)一組連續(xù)值標(biāo)識聲道共振矢量。
      4.如權(quán)利要求1所述的方法,其特征在于,定義所述觀測方程式包括定義對所述聲道共振矢量非線性的函數(shù)的線性逼近。
      5.如權(quán)利要求4所述的方法,其特征在于,定義所述觀測方程式還包括定義對兩個(gè)函數(shù)的乘積的線性逼近,該兩個(gè)函數(shù)的每一個(gè)對所述聲道共振矢量都為非線性。
      6.如權(quán)利要求5所述的方法,其特征在于,對所述聲道共振矢量非線性的所述函數(shù)的其中之一是一個(gè)對所述聲道共振矢量的帶寬分量非線性的指數(shù)函數(shù)。
      7.如權(quán)利要求5所述的方法,其特征在于,對所述聲道共振矢量非線性的所述函數(shù)的其中之一是對所述聲道共振矢量的頻率分量非線性的正弦函數(shù)。
      8.如權(quán)利要求4所述的方法,其特征在于,定義線性逼近包括從共同形成對所述非線性函數(shù)的分段線性逼近的一組線性逼近中選擇一線性逼近。
      9.如權(quán)利要求4所述的方法,其特征在于,定義線性逼近包括基于聲道共振矢量的估算來計(jì)算所述非線性函數(shù)的值以生成一非線性函數(shù)值,并使用所述非線性函數(shù)值來選擇所述線性逼近的參數(shù)。
      10.如權(quán)利要求9所述的方法,其特征在于,定義線性逼近還包括使用所述非線性函數(shù)值以從共同形成對所述非線性函數(shù)的分段線性逼近的一組線性逼近中選擇一線性逼近。
      11.如權(quán)利要求1所述的方法,其特征在于,它還包括使用所標(biāo)識的聲道共振矢量來重定義所述觀測方程式;以及使用所述重定義的觀測方程式、所述狀態(tài)方程式和所述觀測矢量來標(biāo)識一聲道共振矢量的新序列。
      12.如權(quán)利要求11所述的方法,其特征在于,重定義所述觀測方程式包括使用一已標(biāo)識的聲道共振矢量來選擇對聲道共振矢量非線性的函數(shù)的至少一個(gè)線性逼近的參數(shù)。
      13.如權(quán)利要求12所述的方法,其特征在于,使用已標(biāo)識的聲道共振矢量來選擇參數(shù)包括使用所述聲道共振矢量來計(jì)算所述非線性函數(shù)的值以生成一非線性函數(shù)值、及使用所述非線性函數(shù)值來選擇至少一個(gè)線性逼近的參數(shù)。
      14.一種具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述指令執(zhí)行以下步驟使用至少一個(gè)聲道共振分量的估算來選擇對所述聲道共振分量非線性的函數(shù)的線性逼近;使用所述線性逼近來定義一觀測方程式;以及使用所述觀測方程式和至少一個(gè)觀測矢量來重新估算所述聲道共振分量。
      15.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,選擇線性逼近包括從形成所述非線性函數(shù)的分段線性逼近的一組線性逼近中選擇一線性逼近。
      16.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,選擇線性逼近包括向所述非線性函數(shù)應(yīng)用所述聲道共振分量以形成一函數(shù)值、及基于所述函數(shù)值選擇所述線性逼近。
      17.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,重新估算所述聲道共振分量的值還包括使用對所述聲道共振分量線性的一狀態(tài)方程式。
      18.如權(quán)利要求17所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,重新估算所述聲道共振分量的值還包括向一卡爾曼濾波器應(yīng)用所述狀態(tài)方程式、所述觀測方程式和所述至少一個(gè)觀測矢量。
      19.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,它還包括選擇對所述聲道共振分量非線性的第二函數(shù)的第二線性逼近、及使用所述第二線性逼近來定義所述觀測方程式。
      20.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述非線性函數(shù)包括一指數(shù)函數(shù)。
      21.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述非線性函數(shù)包括一正弦函數(shù)。
      22.如權(quán)利要求14所述的計(jì)算機(jī)可讀媒質(zhì),其特征在于,所述聲道共振分量是連續(xù)值。
      全文摘要
      一種方法和裝置跟蹤語音信號中的共振分量,包括頻率和帶寬。通過定義對過去的聲道共振矢量線性、且預(yù)測當(dāng)前聲道共振矢量的狀態(tài)方程式來跟蹤這些分量。也定義對當(dāng)前聲道共振矢量為線性的、且預(yù)測觀測矢量的至少一個(gè)分量的觀測方程式。狀態(tài)方程式、觀測方程式和觀測矢量序列用于使用卡爾曼濾波器算法來標(biāo)識聲道共振矢量序列。在一個(gè)實(shí)施例中,基于對非線性函數(shù)的分段線性逼近來定義觀測方程式。基于預(yù)定義的區(qū)域來選擇線性逼近的參數(shù),這些區(qū)域根據(jù)聲道共振矢量的粗略估算來確定。
      文檔編號G10L15/02GK1624765SQ20041009565
      公開日2005年6月8日 申請日期2004年11月26日 優(yōu)先權(quán)日2003年11月26日
      發(fā)明者A·阿塞羅, H·阿蒂亞斯, L·J·李, 鄧立 申請人:微軟公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1