專(zhuān)利名稱(chēng):語(yǔ)音轉(zhuǎn)換方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲音處理方法和系統(tǒng),尤其涉及對(duì)人類(lèi)語(yǔ)音進(jìn)行轉(zhuǎn)換 的方法和系統(tǒng)。
背景技術(shù):
語(yǔ)音轉(zhuǎn)換是轉(zhuǎn)換源說(shuō)話(huà)者的語(yǔ)音以使其聽(tīng)起來(lái)類(lèi)似于目標(biāo)說(shuō)話(huà) 者的語(yǔ)音。當(dāng)前,語(yǔ)音轉(zhuǎn)換可具有多種用途。 一個(gè)重要的應(yīng)用是為 不同的公司構(gòu)建定制的文本至語(yǔ)音系統(tǒng),其中通過(guò)修改原始說(shuō)話(huà)者的語(yǔ)音語(yǔ)料可以快速且便宜地創(chuàng)建具有一個(gè)公司喜好的語(yǔ)音的TTS 系統(tǒng)。語(yǔ)音轉(zhuǎn)換也可以用于生成具體的角色語(yǔ)音并在語(yǔ)音到語(yǔ)音翻 譯時(shí)保持說(shuō)話(huà)者的 一致性,這種經(jīng)過(guò)轉(zhuǎn)換的語(yǔ)音可用于電影制作、 在線游戲、語(yǔ)言聊天、多媒體消息服務(wù)等各種應(yīng)用中。通常存在兩 個(gè)對(duì)于轉(zhuǎn)換的語(yǔ)音的標(biāo)準(zhǔn)來(lái)評(píng)估語(yǔ)音轉(zhuǎn)換系統(tǒng)的性能。轉(zhuǎn)換語(yǔ)音的 質(zhì)量以及與目標(biāo)說(shuō)話(huà)者的相似度。當(dāng)前技術(shù)水平下的語(yǔ)音轉(zhuǎn)換技術(shù), 通常在質(zhì)量和相似度之間找到一個(gè)較好的平衡點(diǎn)。同時(shí),不同的應(yīng) 用會(huì)對(duì)質(zhì)量和相似度有不同的側(cè)重。但通常而言,較好的語(yǔ)音質(zhì)量 是語(yǔ)音轉(zhuǎn)換技術(shù)被實(shí)際應(yīng)用的一個(gè)重要條件。頻譜轉(zhuǎn)換是語(yǔ)音轉(zhuǎn)換系統(tǒng)的關(guān)鍵組成部分。最流行的兩種頻譜轉(zhuǎn) 換方法是碼本映射(例如參見(jiàn)Abe, M.,S.Nakamura, K.Shikano, H.Kuwabara的 "Voice Conversion through Vector Quantization," Proc. ICASSP, Seattle, WA, U.S.A., 1998, pp. 655-658 )和高斯混合模型 (GMM)轉(zhuǎn)換算法(例如參見(jiàn)Stylianou, Y.等人的"Continuous Probabilistic Transform for Voice Conversion," IEEE Transactions on Speech and Audio Processing, v.6, no.2, March 1998, pp.131-142;以及 Kain, A.B.的 "High Resolution Voice Transformation," Ph.D. thesis, Oregon Health and Science University, October 2001 )。然而,盡管最 近已對(duì)這兩種方法進(jìn)行了改進(jìn),但其中引入的質(zhì)量下降卻仍然很?chē)?yán) 重(例如參見(jiàn)Shuang, Z.W., Z. X. Wang, Z. H. Ling, and R. H. Wang, "A Novel Voice Conversion System Based on Codebook Mapping with Phoneme-Tied Weighting," Proc. ICSLP, Jeju, Korea, 2004 )。相比專(zhuān)交 地,另 一 種頻譜轉(zhuǎn)換方法 一 一頻率彎曲可以帶來(lái)了較少的質(zhì)量下降(例如參見(jiàn)Eichner, M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP, Montreal, PQ, Canada, 2004 )。為了尋找良好的頻率彎曲函數(shù),已經(jīng) 進(jìn)行了4艮多工作。例如,由Eide, E.和H. Gish在"A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了一種方法,其中彎曲函數(shù)是基于每一個(gè)說(shuō)話(huà)者的 第三共振峰的中值。 一些研究者通過(guò)基于屬于相同音素的共振峰生 成彎曲函數(shù)擴(kuò)展了此方法。然而,共振峰頻率和其與聲道長(zhǎng)度(VTL) 的關(guān)系不僅依賴(lài)于說(shuō)話(huà)者的聲道形狀和其所發(fā)出的不同音素,而且 高度依賴(lài)于上下文,同一個(gè)說(shuō)話(huà)者的共振峰可能隨著上下文而發(fā)生 很大變化。同一申請(qǐng)人的中國(guó)專(zhuān)利申請(qǐng)公開(kāi)號(hào)CN101004911A公開(kāi) 了 一種通過(guò)映射源說(shuō)話(huà)者和目標(biāo)說(shuō)話(huà)者的共振峰參數(shù)生成頻率彎曲 函數(shù)的新方案,其中增加了對(duì)準(zhǔn)和選擇過(guò)程,以保證選擇的映射共 振峰可以很好地代表說(shuō)話(huà)者之間發(fā)音的不同之處。此方案僅需要非 常小量的生成彎曲函數(shù)的訓(xùn)練數(shù)據(jù),可以極大地方便其應(yīng)用,而且 可以獲得高質(zhì)量的轉(zhuǎn)換語(yǔ)音,同時(shí)成功地使轉(zhuǎn)換語(yǔ)音與目標(biāo)說(shuō)話(huà)者 相似。雖然如此,利用該方案進(jìn)行的語(yǔ)音轉(zhuǎn)換,聽(tīng)眾仍然能夠察覺(jué) 到轉(zhuǎn)換的語(yǔ)音和目標(biāo)說(shuō)話(huà)者之間的差別。這樣的差異是由具體的頻 鐠差異引起的,它不能通過(guò)純粹的頻譜彎曲解決。在聲音處理技術(shù)中,還存在其它的語(yǔ)音技術(shù),例如文本到語(yǔ)音(TTS)技術(shù)。最流行的TTS技術(shù)被稱(chēng)為拼接式TTS,在其中需要 首先記錄語(yǔ)料說(shuō)話(huà)者的語(yǔ)音數(shù)據(jù)庫(kù),然后通過(guò)單元選擇拼接說(shuō)話(huà)者 的語(yǔ)音數(shù)據(jù)段以合成新的語(yǔ)音數(shù)據(jù)。在很多商業(yè)的TTS系統(tǒng)中,語(yǔ)
音數(shù)據(jù)庫(kù)包含數(shù)小時(shí)的記錄。最小的拼接段,即單元,可以是音節(jié)、音素,甚至是10ms的語(yǔ)音數(shù)據(jù)幀。在典型的拼接式TTS系統(tǒng)中,與由估計(jì)模型生成的韻律目標(biāo)一 起列出的候選段序列驅(qū)動(dòng)對(duì)最小化代價(jià)函數(shù)的單元序列的Viterbi 束搜索。該搜索旨在從候選單元中選擇具有最小代價(jià)函數(shù)的單元序 列。目標(biāo)代價(jià)可以包括代價(jià)分量的集合,例如/。代價(jià),其衡量單元 的/。曲線與目標(biāo)的/。曲線之間的差距;持續(xù)時(shí)間代價(jià),其衡量單元 的持續(xù)時(shí)間與目標(biāo)的持續(xù)時(shí)間之間的差距;能量代價(jià),其衡量單元 的能量離與目標(biāo)的能量之間的差距(該分量在搜索時(shí)通常并不采 用)。過(guò)渡代價(jià)可以包括兩個(gè)分量,其中一個(gè)捕獲跨單元結(jié)合處的 頻語(yǔ)平滑度,另一個(gè)捕獲跨頻鐠結(jié)合處的音調(diào)平滑度。此過(guò)渡代價(jià) 的頻譜平滑度分量可以基于感知修改耳(Mel)倒譜系數(shù)之間的 Euclidian距離。目標(biāo)代價(jià)分量和過(guò)渡代價(jià)分量可以使用能夠手工調(diào) 節(jié)的權(quán)重相加在一起。由于合成的語(yǔ)音事實(shí)上是由語(yǔ)料說(shuō)話(huà)者的語(yǔ) 音單元拼接的,所以通常能被認(rèn)為是由語(yǔ)料說(shuō)話(huà)者所說(shuō)出的。然而, 由于很難模擬真人的語(yǔ)音生成過(guò)程,所以合成的語(yǔ)音通常被認(rèn)為是 不真實(shí)的和不自然的。因此,傳統(tǒng)的TTS系統(tǒng)雖然保持了說(shuō)話(huà)者的 一致性,但其由于不能提供完美的目標(biāo)估計(jì)而失去了人聲的自然度。可見(jiàn),現(xiàn)有技術(shù)中的語(yǔ)音技術(shù)都存在其自身的局限性。需要提供 一種即具有較高目標(biāo)語(yǔ)音逼真度又具有人聲的自然度的語(yǔ)音轉(zhuǎn)換系 統(tǒng)。發(fā)明內(nèi)容為了克服現(xiàn)有技術(shù)中存在的局限性,本發(fā)明提出 一種新穎的語(yǔ)音 轉(zhuǎn)換方案,既具有較高目標(biāo)語(yǔ)音相似度又體現(xiàn)了人聲的自然度。根據(jù)本發(fā)明的一方面,提供一種語(yǔ)音轉(zhuǎn)換方法。該方法包括語(yǔ) 音分析步驟,用于對(duì)源說(shuō)話(huà)者的語(yǔ)音執(zhí)行語(yǔ)音分析以獲得語(yǔ)音信息;頻譜轉(zhuǎn)換步驟,用于基于語(yǔ)音信息執(zhí)行頻譜轉(zhuǎn)換,至少獲得與目 標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第一頻譜;單元選擇步驟,用于至少使用第
一頻譜作為目標(biāo),基于目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;頻譜替換 步驟,用于以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的頻傳替代第一頻譜的 至少一部分;語(yǔ)音重建步驟,用于至少基于替換的頻譜執(zhí)行語(yǔ)音重建。根據(jù)本發(fā)明的另一方面,提供一種語(yǔ)音轉(zhuǎn)換系統(tǒng)。該系統(tǒng)包括 語(yǔ)音分析裝置,用于對(duì)源說(shuō)話(huà)者的語(yǔ)音執(zhí)行語(yǔ)音分析以獲得語(yǔ)音信 息;頻譜轉(zhuǎn)換裝置,用于基于語(yǔ)音信息執(zhí)行頻譜轉(zhuǎn)換,至少獲得與 目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第一頻語(yǔ);單元選擇裝置,用于至少使用 第一頻鐠作為目標(biāo),基于目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;頻譜替 換裝置,用于以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的頻譜替代第一頻譜 的至少一部分;語(yǔ)音重建裝置,用于至少基于替換的頻譜執(zhí)行語(yǔ)音 重建。根據(jù)本發(fā)明的另一方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括當(dāng)在 的程序代碼。根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換方案,將諸如頻率彎曲的頻譜轉(zhuǎn)換技術(shù)和 TTS系統(tǒng)內(nèi)的單元選擇進(jìn)行有機(jī)地結(jié)合,很大程度上克服了由說(shuō)話(huà) 者語(yǔ)音的具體頻譜差異引起的轉(zhuǎn)換的語(yǔ)音和目標(biāo)說(shuō)話(huà)者之間的差 別。而且,在本發(fā)明中由于采用轉(zhuǎn)換的源語(yǔ)音作為單元選擇的目標(biāo), 因此最終轉(zhuǎn)換語(yǔ)音不僅具有與目標(biāo)說(shuō)話(huà)者語(yǔ)音的良好相似度,而且 保持了人聲的自然度。結(jié)合附圖閱讀本發(fā)明實(shí)施方式的詳細(xì)描述后,本發(fā)明的其他特 點(diǎn)和優(yōu)點(diǎn)將變得更加清楚。
為了對(duì)本發(fā)明實(shí)施方式的特征和優(yōu)點(diǎn)進(jìn)行詳細(xì)說(shuō)明,將參照以 下附圖。如果可能的話(huà),在附圖和描述中使用相同或者類(lèi)似的參考 標(biāo)號(hào)以指代相同或者類(lèi)似的部分。附圖中圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換方法的流程圖;200710163066. 2說(shuō)明書(shū)第5/15頁(yè)圖2示意性地示出了根據(jù)本發(fā)明一種實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng) 的功能框圖;圖3示意性示出了可以實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施方式的計(jì)算設(shè)備。
具體實(shí)施方式
正如上文所述,即使應(yīng)用良好的頻率彎曲函數(shù)對(duì)源語(yǔ)音進(jìn)行頻率 彎曲,由于說(shuō)話(huà)者語(yǔ)音的具體頻語(yǔ)差異,聽(tīng)眾仍然能夠察覺(jué)到轉(zhuǎn)換 的語(yǔ)音和目標(biāo)說(shuō)話(huà)者之間的差別。鑒于純粹的諸如頻率彎曲的頻譜 轉(zhuǎn)換難以進(jìn)一步提高與目標(biāo)說(shuō)話(huà)者的相似度,本發(fā)明提出一種復(fù)合 式的語(yǔ)音轉(zhuǎn)換系統(tǒng),其中將諸如頻率彎曲的頻譜轉(zhuǎn)換技術(shù)和TTS系 統(tǒng)內(nèi)的單元選擇進(jìn)行有機(jī)地結(jié)合,以得到更好的語(yǔ)音轉(zhuǎn)換系統(tǒng)。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換方法的流程圖。如圖1所示,在步驟S100中,該方法的流程開(kāi)始。在步驟S102中,對(duì)源說(shuō)話(huà)者的語(yǔ)音進(jìn)行語(yǔ)音分析以獲得語(yǔ)音信 息。該語(yǔ)音信息諸如頻譜包絡(luò)和基頻曲線信息。在步驟S104中,根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換系統(tǒng)的原理,對(duì)源說(shuō)話(huà) 者的語(yǔ)音應(yīng)用諸如頻率彎曲的頻譜轉(zhuǎn)換,以獲得與目標(biāo)說(shuō)話(huà)者的語(yǔ) 音相似的第一頻i普。通過(guò)使用頻率彎曲函數(shù)轉(zhuǎn)換頻譜包絡(luò),本步驟是相當(dāng)直接的。 假設(shè)源說(shuō)話(huà)者的頻譜的一幀是5YW入從目標(biāo)頻率軸到源頻率軸的頻 率彎曲函數(shù)是FfW力則轉(zhuǎn)換頻譜Co肌fW)是C譜^)="在步驟S106中,對(duì)音調(diào)曲線(韻律)進(jìn)行韻律轉(zhuǎn)換,其中主要 包括對(duì)基音頻率(/。)曲線轉(zhuǎn)換。例如,可以利用訓(xùn)練的/。調(diào)域轉(zhuǎn)換 函數(shù)轉(zhuǎn)換厶的均值和方差。本領(lǐng)域的技術(shù)人員可以理解,利用頻率彎曲還可以在彎曲的頻譜 上應(yīng)用頻譜包絡(luò)均衡過(guò)濾來(lái)補(bǔ)償沿著頻率軸的不同能量分布。在步驟S104和S106之后,轉(zhuǎn)換后的第一頻譜將與目標(biāo)說(shuō)話(huà)者 的頻譜相似,以及優(yōu)選地轉(zhuǎn)換后的音調(diào)曲線將與目標(biāo)說(shuō)話(huà)者的音調(diào) 曲線更相似。在步驟S108中,至少使用第一頻譜作為估計(jì)的目標(biāo),基于目標(biāo) 說(shuō)話(huà)者語(yǔ)料庫(kù)進(jìn)行單元選擇。這里可以采用的最小單元為 一幀語(yǔ)音提取的頻鐠和基頻信息。 將其作為一個(gè)碼字,而將所有碼字的集合成為碼本。例如,所采用 的一幀語(yǔ)音的幀長(zhǎng)可以為5ms或10ms。當(dāng)然,本領(lǐng)域的^支術(shù)人員可 以很容易地使用其他尺度的語(yǔ)音長(zhǎng)度,這不對(duì)本發(fā)明構(gòu)成限制。優(yōu)選地,使用通過(guò)頻率彎曲轉(zhuǎn)換的第一頻譜和轉(zhuǎn)換的力曲線作 為估計(jì)的目標(biāo)來(lái)從目標(biāo)說(shuō)話(huà)者的碼本中選擇合適的碼字。該步驟與在拼接式文本到語(yǔ)音系統(tǒng)中的候選單元選擇相似。然 而,不同指出在于,本發(fā)明以轉(zhuǎn)換后的第一頻語(yǔ)和/0曲線作為單元 選擇的目標(biāo)。這樣的估計(jì)目標(biāo)的有點(diǎn)在于,其比TTS系統(tǒng)中的由韻 律模型或者其它模型估計(jì)出的更自然。可以從轉(zhuǎn)換的第一頻譜和/。曲線生成目標(biāo)碼字的集合。如果擁 有原始語(yǔ)音的切分信息,則目標(biāo)碼字可以同時(shí)提取語(yǔ)境信息。然后, 可以定義在目標(biāo)碼字和候選的碼字之間的目標(biāo)代價(jià)函數(shù)。優(yōu)選地, 此目標(biāo)代價(jià)可以由頻譜距離、韻律距離和語(yǔ)境距離加4又??梢酝ㄟ^(guò)各種頻譜特征之間的距離計(jì)算頻譜距離,諸如 Euclidean距離或者FFT (快速傅立葉變換)振幅頻譜、FFT倒易空 間振幅頻譜、MFCC (耳級(jí)頻率倒譜系數(shù))、LPC (線性預(yù)測(cè)編碼)、 LSF (線性頻譜頻率)等距離度量,也可以采用多個(gè)距離的加權(quán)和。韻律距離可以通過(guò)線性域或者對(duì)數(shù)域/。之間的差值計(jì)算。韻律 距離也可以通過(guò)預(yù)定義的特殊策略進(jìn)行計(jì)算。例如,如果兩個(gè)/0值 都非零或者都為零,他們的韻律距離為零。否則,他們的韻律距離是非常大的值。也可以使用許多其它策略來(lái)進(jìn)行韻律距離的計(jì)算, 例如,考慮/。導(dǎo)數(shù)之間的差值的策略等。如果在生成目標(biāo)碼字和訓(xùn)練備選碼字時(shí)均提取了語(yǔ)境信息,則 可以計(jì)算目標(biāo)碼字和備選碼字之間的語(yǔ)境距離。最重要的語(yǔ)境信息之一是碼字屬于哪個(gè)音素及它的鄰近音素是哪個(gè)音素。距離計(jì)算策 略可以是如果兩個(gè)碼字屬于相同音素并具有相同的鄰近音素,則 它們的距離是零。如果兩個(gè)碼字屬于相同音素但具有不同的鄰近音 素,則將它們的距離設(shè)為很小的值。然而,如果兩個(gè)碼字屬于不同 的音素,則將它們的距離設(shè)為大的值。除了目標(biāo)代價(jià)外,還需要定義在兩個(gè)候選碼字之間的過(guò)渡代價(jià)。與目標(biāo)代價(jià)類(lèi)似,過(guò)渡代價(jià)也可以是頻譜距離、韻律距離和語(yǔ)境距 離的力口斥又和。由此,通過(guò)上述選擇過(guò)程,可以確定目標(biāo)i兌話(huà)者語(yǔ)沖牛庫(kù)中與轉(zhuǎn) 換后的第 一頻譜和/。曲線最適合的碼字集合。在步驟S110中,以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的真實(shí)頻譜替 代第 一頻譜的至少 一部分。這樣做的這主要原因是,由于所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音的是諸 如幀的基本單元,因此如果直接利用所選擇的單元替換第一頻譜中 該單元所對(duì)應(yīng)的整個(gè)的頻譜,則可能在最終得到的語(yǔ)音中引起嚴(yán)重 的不連續(xù)問(wèn)題。鑒于頻語(yǔ)的低頻部分對(duì)于連續(xù)性是至關(guān)重要的,而 對(duì)改善與目標(biāo)的相似度不是很重要,因此根據(jù)本發(fā)明一種優(yōu)選的方 案,將第一頻譜中所選單元所對(duì)應(yīng)頻譜的低頻部分保持不變。也就 是說(shuō),在選擇完合適的碼字后,利用選擇的碼字的高于特定頻率的 頻譜替換第一頻譜中的相應(yīng)部分,而將第一頻譜中低于該特定頻率 的部分保持不變。根據(jù)本發(fā)明的一種優(yōu)選實(shí)施方案,該特定頻率在 500Hz到2000Hz之間進(jìn)行選擇。優(yōu)選地,在步驟S112中,可以利用現(xiàn)有技術(shù)中的任何已知方案 對(duì)替換所得的頻譜進(jìn)行平滑。在步驟S114中,利用平滑后的頻譜和轉(zhuǎn)換的/o曲線重建語(yǔ)音數(shù)據(jù)。在步驟S116中,該方法的流程結(jié)束。如上所述的根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換方法,在常規(guī) 的基于頻譜轉(zhuǎn)換的語(yǔ)音轉(zhuǎn)換方法的基礎(chǔ)上增加了單元選擇步驟以及 頻譜替換步驟,由此以經(jīng)過(guò)頻譜轉(zhuǎn)換的源說(shuō)話(huà)者語(yǔ)音頻譜作為估計(jì) 目標(biāo),來(lái)選擇目標(biāo)說(shuō)話(huà)者語(yǔ)料庫(kù)中的諸如語(yǔ)音幀的單元,并完成頻 譜相應(yīng)部分的替換。這樣,充分利用了源說(shuō)話(huà)者自然的頻譜特征, 并且相當(dāng)大程度上保留了目標(biāo)說(shuō)話(huà)者的發(fā)音特點(diǎn)。上述語(yǔ)音轉(zhuǎn)換方法的實(shí)施方式中,主要以頻率彎曲作為頻語(yǔ)轉(zhuǎn) 換的示例性技術(shù)方案。這是因?yàn)楝F(xiàn)有的頻率彎曲方案能夠提供轉(zhuǎn)換 語(yǔ)音與目標(biāo)說(shuō)話(huà)者語(yǔ)音的之間相對(duì)高的近似度。然而,這種舉例并不是限制性的,因?yàn)楸绢I(lǐng)域的技術(shù)人員可以理解,只要頻率轉(zhuǎn)換步 驟能夠?yàn)楹罄m(xù)的單元選擇步驟提供良好的估計(jì)目標(biāo),就能夠?qū)崿F(xiàn)根 據(jù)本發(fā)明的技術(shù)方案。類(lèi)似地,對(duì)于韻律轉(zhuǎn)換中對(duì)力曲線的轉(zhuǎn)換可 以利用除調(diào)域變換以外的其他任何已知的技術(shù)實(shí)現(xiàn)。圖2示意性地示出了根據(jù)本發(fā)明一種實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng) 的功能框圖。其中,參考標(biāo)號(hào)200表示根據(jù)本發(fā)明一個(gè)實(shí)施方式的 語(yǔ)音轉(zhuǎn)換系統(tǒng);參考標(biāo)號(hào)201表示對(duì)源語(yǔ)音進(jìn)行分析的語(yǔ)音分析裝 置;參考標(biāo)號(hào)202表示根據(jù)源語(yǔ)音的頻譜包絡(luò)進(jìn)行頻譜轉(zhuǎn)換的頻譜 轉(zhuǎn)換裝置,在本實(shí)施方式中頻譜轉(zhuǎn)換裝置202采用頻率彎曲技術(shù)實(shí) 現(xiàn)頻譜轉(zhuǎn)換;參考標(biāo)號(hào)203表示根據(jù)源語(yǔ)音的曲線進(jìn)行韻律轉(zhuǎn)換的 裝置;參考標(biāo)號(hào)204表示提供目標(biāo)說(shuō)話(huà)者語(yǔ)音碼本的目標(biāo)語(yǔ)音語(yǔ)料 庫(kù);參考標(biāo)號(hào)205表示從目標(biāo)語(yǔ)音語(yǔ)料中選擇適當(dāng)碼字單元的單元 選擇裝置;參考標(biāo)號(hào)206表示頻鐠替換裝置;參考標(biāo)號(hào)208表示用 于根據(jù)本發(fā)明一種優(yōu)選方案的頻譜平滑裝置;參考標(biāo)號(hào)209表示進(jìn) 行語(yǔ)音重建以獲得最終轉(zhuǎn)換語(yǔ)音的語(yǔ)音重建裝置。如圖2所示的語(yǔ)音轉(zhuǎn)換系統(tǒng)類(lèi)似于常規(guī)的語(yǔ)音轉(zhuǎn)換系統(tǒng),需要 在語(yǔ)音分析裝置201中對(duì)源語(yǔ)音進(jìn)行語(yǔ)音分析以將源語(yǔ)音分解成頻 譜包絡(luò)和激勵(lì)(例如,/。曲線),并且最終在語(yǔ)音重建裝置209中, 由轉(zhuǎn)換的頻譜包絡(luò)和激勵(lì)重建轉(zhuǎn)換的語(yǔ)音。例如,語(yǔ)音轉(zhuǎn)換系統(tǒng)200 可以使用由Chazan, D., R. Hoory, A. Sagi, S. Shechtman, A. Sorin, Z.W. Shuang和R. Bakis在"High Quality Sinusoidal Modeling of Wideband Speech for the Purpose of Speech Synthesis and Modification," ICASSP 2006中提出的語(yǔ)音分析/重建技術(shù),以得到加
強(qiáng)的復(fù)雜包絡(luò)模型和音調(diào)曲線。該技術(shù)基于合成過(guò)程中的頻率抖動(dòng) 噪音插入和有效線譜提取,并且能夠提供在分析和合成過(guò)程中的幀 對(duì)準(zhǔn)過(guò)程以在語(yǔ)音操作過(guò)程中允許振幅和相位操縱,例如,音調(diào)修 正、頻譜平滑、聲道轉(zhuǎn)換等。當(dāng)然,對(duì)于本發(fā)明而言,可以采用本領(lǐng)域中現(xiàn)有的任何語(yǔ)音分析/重建技術(shù)來(lái)實(shí)現(xiàn)語(yǔ)音分析裝置201和語(yǔ) 音重建裝置209,其對(duì)本發(fā)明的實(shí)現(xiàn)不夠成限制。語(yǔ)音轉(zhuǎn)換系統(tǒng)200的功能實(shí)現(xiàn)依賴(lài)于兩個(gè)操作階段,即訓(xùn)練階 段和轉(zhuǎn)換階段。訓(xùn)練階段為轉(zhuǎn)換階段的操作提供必要的準(zhǔn)備。雖然訓(xùn)練階段本身并不是本發(fā)明所關(guān)注的問(wèn)題所在,但是由于 本發(fā)明語(yǔ)音轉(zhuǎn)換系統(tǒng)的新穎配置,其訓(xùn)練階段也與常規(guī)系統(tǒng)有所不 同。以下對(duì)根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng)200的訓(xùn)練階 段進(jìn)行簡(jiǎn)要的示例性描述,以便本領(lǐng)域的技術(shù)人員更好的理解本發(fā) 明的實(shí)現(xiàn)方式。根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng)200的訓(xùn)練階段可以 分為三部分1.針對(duì)頻譜轉(zhuǎn)換裝置202所采用的頻率彎曲函數(shù)訓(xùn)練;2. 針對(duì)目標(biāo)語(yǔ)音語(yǔ)料庫(kù)204和單元選擇裝置205進(jìn)行的碼本訓(xùn)練;3. 除了這兩個(gè)主要部分外,還可以包括附加的其它訓(xùn)練韻律參數(shù) 訓(xùn)練、頻譜均衡過(guò)濾訓(xùn)練等。1.頻率彎曲函數(shù)訓(xùn)練如前所述,頻譜轉(zhuǎn)換裝置202可以采用頻率彎曲技術(shù)實(shí)現(xiàn)對(duì)源 語(yǔ)音頻謙包絡(luò)的頻譜轉(zhuǎn)換。頻率彎曲可以補(bǔ)償不同說(shuō)話(huà)者之間聲光譜的差值。給定一種聲 音的截面譜,可以通過(guò)應(yīng)用頻率彎曲函數(shù)創(chuàng)建新的截面譜。假設(shè)源 說(shuō)話(huà)者的頻譜的一幀是SfWj, ^v目標(biāo)頻率軸到源頻率軸的頻率彎曲 函數(shù)是FfW),則轉(zhuǎn)換頻譜ComY—是在現(xiàn)有技術(shù)中存在許多用于發(fā)現(xiàn)性能良好的頻率彎曲函數(shù)的自 動(dòng)訓(xùn)練方法。 一種方法是最大似然線性回歸法,參見(jiàn)L.F.Uebeland和 P.C. Woodland 的 "An investigation into vocal tract lengthnormalization," EUROSPEEECH, 99, Budapest, Hungary, 1999, pp.2527-2530。然而,這種方法需要大量的訓(xùn)練數(shù)據(jù)集,這限制了它 在很多場(chǎng)合中的使用。Eichner, M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP, Montreal, PQ, Canada, 2004建議從一些預(yù)定義的單參數(shù)函數(shù)族中選 擇頻率彎曲函數(shù),但是效率難以令人滿(mǎn)意。David Sunderman和 Hermann Ney的"VTLN-Based Voice Conversion", ICSLP, 2004, Jeju, Korea, 2004采用動(dòng)態(tài)編程以訓(xùn)練線性或者分段的線性彎曲函數(shù),其 中動(dòng)態(tài)編程使轉(zhuǎn)換源頻譜和目標(biāo)頻譜之間的距離最小化。然而,由 于輸入光譜中的噪音,此方法的性能可以被極大地降低。由Eide, E.和H. Gish在 "A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了 一 種方法,其中彎曲函數(shù)是基于每一個(gè)說(shuō)話(huà)者的第三共振峰的中值。 一些研究者通過(guò)基于屬于相同音素的共振峰生成彎曲函數(shù)擴(kuò)展了此 方法。然而,共振峰頻率和其與聲道長(zhǎng)度(VTL)的關(guān)系不僅依賴(lài) 于說(shuō)話(huà)者的聲道形狀和其所發(fā)出的不同音素,而且高度依賴(lài)于上下 文,同一個(gè)說(shuō)話(huà)者的共振峰可能隨著上下文而發(fā)生很大變化。同一 申請(qǐng)人:的中國(guó)專(zhuān)利申請(qǐng)/〉開(kāi)號(hào)CN101004911A 7>開(kāi)了一種通過(guò)映射 源說(shuō)話(huà)者和目標(biāo)說(shuō)話(huà)者的共振峰參數(shù)生成頻率彎曲函數(shù)的新方案, 在此通過(guò)參考將該申請(qǐng)全文引入本申請(qǐng)。在該技術(shù)方案中增加了對(duì) 準(zhǔn)和選擇過(guò)程,以保證選擇的映射共振峰可以很好地代表說(shuō)話(huà)者之 間發(fā)音的不同之處。然后,映射共振峰將成為定義從目標(biāo)頻率軸到 源頻率軸的分段線性頻率彎曲函數(shù)的關(guān)鍵位置。提出線性插值以生 成兩個(gè)鄰接關(guān)鍵位置之間的部分,其它插值機(jī)制也可以^吏用。此方 案僅需要非常小量的生成彎曲函數(shù)的訓(xùn)練數(shù)據(jù),可以極大地方便其 應(yīng)用,而且可以獲得高質(zhì)量的轉(zhuǎn)換語(yǔ)音,同時(shí)成功地使轉(zhuǎn)換語(yǔ)音與 目標(biāo)說(shuō)話(huà)者相似。 2.碼本訓(xùn)練目標(biāo)語(yǔ)料庫(kù)204是可以用于存儲(chǔ)并向單元選擇裝置205提供碼 本。碼本由多個(gè)碼字組成。通常一個(gè)碼字由一幀語(yǔ)音數(shù)據(jù)而生成,該一幀語(yǔ)音數(shù)據(jù)例如是10ms長(zhǎng)的語(yǔ)音數(shù)據(jù)。 一個(gè)碼字可以用于重建 一幀語(yǔ)音數(shù)據(jù)。基本上有兩種碼字。 一種沒(méi)有語(yǔ)境信息,其意味著每個(gè)碼字僅 包含諸如頻譜和基音頻率的聲音信息。另一種具有語(yǔ)音信息,-其意 味著除了聲音信息之外,每個(gè)碼字包含語(yǔ)音信息,諸如碼字屬于的 音素、鄰近音素等。生成不具有語(yǔ)音信息的碼本通常非常簡(jiǎn)單。僅需要逐幀對(duì)語(yǔ)音 數(shù)據(jù)作語(yǔ)音分析,并得到每幀的頻譜包絡(luò)和基音頻率。然后,從所 有分析的幀中選擇一些幀。可以簡(jiǎn)單地在固定間隔內(nèi)選擇一個(gè)幀來(lái) 執(zhí)行選擇。當(dāng)然,也可以使用一些更復(fù)雜的策略執(zhí)行選擇。例如, 可以在那些安靜或者低能段中選擇更少的幀?;蛘呖梢栽诟熳兓?段中選擇更多的幀,而在穩(wěn)定段中選擇更少的幀。為了生成具有目標(biāo)語(yǔ)音信息的碼本,通常需要對(duì)準(zhǔn)信息??梢?通過(guò)自動(dòng)語(yǔ)音識(shí)別引擎執(zhí)行對(duì)準(zhǔn),其將目標(biāo)語(yǔ)音語(yǔ)料庫(kù)204中語(yǔ)音 數(shù)據(jù)與諸如音節(jié)、音素等相應(yīng)的單元對(duì)準(zhǔn)。還可以通過(guò)聽(tīng)取目標(biāo)語(yǔ) 音語(yǔ)料庫(kù)204中的語(yǔ)音數(shù)據(jù)手動(dòng)地添加標(biāo)簽,從而執(zhí)行對(duì)準(zhǔn)。利用 對(duì)準(zhǔn)信息,可以得到一個(gè)碼字的多種語(yǔ)音信息,諸如其屬于的音 素、在音素中的位置和它的鄰近音素等。這樣的音素信息對(duì)于在轉(zhuǎn) 換階段中由單元選擇單元205所執(zhí)行的對(duì)碼本單元的選擇是很有用 的。3.其它訓(xùn)練除了上述兩部分外,還可以包括附加的訓(xùn)練,例如韻律參^:(音 調(diào)參數(shù))訓(xùn)練、頻譜均衡過(guò)濾訓(xùn)練等。韻律訓(xùn)練為韻律轉(zhuǎn)換裝置203提供了從源說(shuō)話(huà)者音調(diào)到目標(biāo)說(shuō) 話(huà)者音調(diào)的韻律轉(zhuǎn)換函數(shù)。其中基音頻率(/o)轉(zhuǎn)換對(duì)于韻律轉(zhuǎn)換是 至關(guān)重要的??梢酝ㄟ^(guò)使用應(yīng)用至1og/。的線性轉(zhuǎn)換對(duì)/。曲線進(jìn)行調(diào) 節(jié)。因此,如果A是源/w A是目標(biāo);則log^="+Z>/0<g/^。其中 選擇"和6以將源說(shuō)話(huà)者/og/^。的均值和方差轉(zhuǎn)換為目標(biāo)說(shuō)話(huà)者/og/o
的均值和方差。所以,我們可以通過(guò)計(jì)算源說(shuō)話(huà)者和目標(biāo)說(shuō)話(huà)者/ogy^ 的均值和方差生成/。轉(zhuǎn)換函數(shù)。可以將頻譜包絡(luò)均衡實(shí)現(xiàn)為對(duì)頻譜的濾波器(未示出),以補(bǔ) 償沿著頻率軸的不同能量分配。在訓(xùn)練完頻率彎曲函數(shù)后,由于在 頻率彎曲后計(jì)算源說(shuō)話(huà)者和目標(biāo)說(shuō)話(huà)者的平均功率謙之間的差異曲 線,需要訓(xùn)練頻譜均衡濾波器。然后,平滑差異曲線以得到更平滑 的作為頻譜包絡(luò)均衡濾波器使用的頻i普濾波器。當(dāng)然,本領(lǐng)域技術(shù)人員可以理解,為了獲得更加更佳的語(yǔ)音轉(zhuǎn) 換結(jié)果還可以在根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換系統(tǒng)200中增加這里雖未描述但依據(jù)現(xiàn)有技術(shù)可以獲知的任何其它處理裝置,因此還可以包括 針對(duì)這些附加裝置的其它附加的訓(xùn)練步驟。當(dāng)根據(jù)本發(fā)明一個(gè)實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng)200執(zhí)行源語(yǔ)音到 目標(biāo)語(yǔ)音的轉(zhuǎn)換時(shí),則系統(tǒng)進(jìn)入轉(zhuǎn)換階段。首先,由語(yǔ)音分析裝置201對(duì)源說(shuō)話(huà)者的語(yǔ)音進(jìn)行語(yǔ)音分析以獲 得頻譜包絡(luò)和音調(diào)曲線信息。頻譜轉(zhuǎn)換裝置202對(duì)源說(shuō)話(huà)者的語(yǔ)音頻譜包絡(luò)進(jìn)行頻譜轉(zhuǎn)換。如 前所述,在該實(shí)施方式中頻譜轉(zhuǎn)換裝置202將在訓(xùn)練階段所得到頻 率彎曲函數(shù)應(yīng)用于源說(shuō)話(huà)者語(yǔ)音的頻謙包絡(luò),以獲得與目標(biāo)說(shuō)話(huà)者 的語(yǔ)音相似的第一頻語(yǔ)。韻律轉(zhuǎn)換裝置203對(duì)音調(diào)曲線進(jìn)行韻律轉(zhuǎn)換,其中主要包括對(duì)基 音頻率(/Q)曲線轉(zhuǎn)換。例如,可以利用在訓(xùn)練階段訓(xùn)練的/。轉(zhuǎn)換函 數(shù)轉(zhuǎn)換/。曲線。之后,韻律轉(zhuǎn)換裝置203將轉(zhuǎn)換后的音調(diào)信息提供 給單元選擇裝置205和語(yǔ)音重建裝置209,以便后續(xù)的使用。此時(shí),通過(guò)頻譜轉(zhuǎn)換裝置202和韻律轉(zhuǎn)換裝置203的轉(zhuǎn)換,第 一頻譜將與目標(biāo)說(shuō)話(huà)者的頻語(yǔ)更相似,以及優(yōu)選地轉(zhuǎn)換后的音調(diào)曲 線將與目標(biāo)說(shuō)話(huà)者的音調(diào)曲線更相似。單元選擇裝置205至少使用第一頻語(yǔ)作為估計(jì)的目標(biāo),基于由 目標(biāo)語(yǔ)音語(yǔ)料庫(kù)204通過(guò)前述訓(xùn)練過(guò)程所獲得的碼本進(jìn)行單元選擇。 在本實(shí)施方式中,優(yōu)選地,單元選擇裝置205使用通過(guò)頻率彎曲轉(zhuǎn)
換的第一頻譜和轉(zhuǎn)換的/。曲線作為估計(jì)的目標(biāo)來(lái)由目標(biāo)語(yǔ)音語(yǔ)料庫(kù)204通過(guò)前述訓(xùn)練過(guò)程所獲得的碼本中選擇合適的碼字。單元選擇裝置205執(zhí)行與在拼接式文本到語(yǔ)音系統(tǒng)中的候選單 元選擇相似的處理過(guò)程。然而,不同指出在于,本發(fā)明以轉(zhuǎn)換后的 第一頻譜和/。輪廓曲線作為單元選擇的目標(biāo)。這樣的估計(jì)目標(biāo)的優(yōu) 點(diǎn)在于,其比TTS系統(tǒng)中的由韻律模型或者其它模型估計(jì)出的目標(biāo) 更自然。單元選擇裝置205可以從轉(zhuǎn)換的第一頻譜和/。輪廓曲線生 成目標(biāo)碼字的集合。然后,可以定義在目標(biāo)碼字和候選的碼字之間的目標(biāo)代價(jià)函數(shù)。優(yōu)選地,此目標(biāo)代價(jià)可以由頻譜距離、韻律距離 和語(yǔ)境距離加權(quán)。除了目標(biāo)代價(jià)外,單元選擇裝置205還需要定義 在兩個(gè)候選碼字之間的過(guò)渡代價(jià)。與目標(biāo)代價(jià)類(lèi)似,過(guò)渡代價(jià)也可 以是頻譜距離、韻律距離和語(yǔ)境距離的加權(quán)和。由此,單元選擇裝 置205確定目標(biāo)語(yǔ)音語(yǔ)料庫(kù)204中生成的碼本與轉(zhuǎn)換后的第一頻譜 和/。輪廓曲線最適合的碼字集合。接著,頻譜替換裝置206以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的真 實(shí)頻譜替代第一頻譜的至少一部分。由于所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音 的是諸如幀的基本單元,因此如果頻譜替換裝置206直接利用所選 擇的單元替換第一頻譜中該單元所對(duì)應(yīng)的整個(gè)的頻譜,則可能在最 終得到的語(yǔ)音中引起嚴(yán)重的中斷問(wèn)題。鑒于頻譜的低頻部分對(duì)于連 續(xù)性是至關(guān)重要的,而對(duì)改善與目標(biāo)的相似度不是很重要,因此根 據(jù)本發(fā)明一種優(yōu)選的方案,頻譜替換裝置206將第一頻譜中所選單 元所對(duì)應(yīng)頻譜的低頻部分保持不變。也就是說(shuō),在選擇完合適的碼 字后,頻譜替換裝置206利用選擇的碼字的高于特定頻率的頻譜替 換第一頻譜中的相應(yīng)部分,而將第一頻譜中低于該特定頻率的部分 保持不變。根據(jù)本發(fā)明的一種優(yōu)選實(shí)施方案,該特定頻率在500Hz 到2000Hz之間進(jìn)行選擇。優(yōu)選地,頻譜平滑裝置20 8可以利用現(xiàn)有技術(shù)中的任何已知方案 對(duì)替換所得的頻譜進(jìn)行平滑。語(yǔ)音重建裝置209利用平滑后的頻譜和轉(zhuǎn)換的力曲線重建語(yǔ)音 數(shù)據(jù),由此獲得最終轉(zhuǎn)換的語(yǔ)音。如圖2所示的根據(jù)本發(fā)明實(shí)施方式的語(yǔ)音轉(zhuǎn)換系統(tǒng)與使用頻率 彎曲的現(xiàn)有語(yǔ)音轉(zhuǎn)換系統(tǒng)相比較,在根據(jù)本發(fā)明實(shí)施方式的語(yǔ)音轉(zhuǎn) 換系統(tǒng)所獲得的最終轉(zhuǎn)換語(yǔ)音與目標(biāo)說(shuō)話(huà)者的相似度的得分上增加 了 20%,并在質(zhì)量上的降低是可以接受的。圖2所示的語(yǔ)音轉(zhuǎn)換系統(tǒng)的 一 些部件對(duì)于本發(fā)明來(lái)說(shuō)是可選的, 例如頻譜平滑裝置208,其作用是消除用于進(jìn)行語(yǔ)音重建的頻譜包絡(luò) 的細(xì)小毛刺和跳變,使其更加平滑,從而能夠獲得性能更加優(yōu)越的 最終轉(zhuǎn)換語(yǔ)音。雖然在圖2所示實(shí)施方式中沒(méi)有進(jìn)一步列舉,但是 本領(lǐng)域的技術(shù)人員可以在實(shí)現(xiàn)根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換系統(tǒng)時(shí)增加其 它的部件,以便進(jìn)一步改進(jìn)最終轉(zhuǎn)換語(yǔ)音的性能,例如消除附加噪 聲、獲得某種特殊音效等。圖3示意性示出了可以實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施方式的計(jì)算設(shè)備。圖3中所示的計(jì)算機(jī)系統(tǒng)包括CPU(中央處理單元)301、 RAM(隨 機(jī)存取存儲(chǔ)器)302、 ROM(只讀存儲(chǔ)器)303、系統(tǒng)總線304,硬盤(pán)控 制器305、鍵盤(pán)控制器306、串行接口控制器307、并行接口控制器 308、顯示器控制器309、硬盤(pán)310、鍵盤(pán)311、串行外部設(shè)備312、 并行外部設(shè)備313和顯示器314。在這些部件中,與系統(tǒng)總線304 相連的有CPU301、 RAM 302、 ROM 303、硬盤(pán)控制器305、鍵盤(pán)控 制器306,串行接口控制器307,并行接口控制器308和顯示器控制 器309。硬盤(pán)310與硬盤(pán)控制器305相連,鍵盤(pán)311與鍵盤(pán)控制器 306相連,串行外部設(shè)備312與串行接口控制器307相連,并行外部 設(shè)備313與并行接口控制器308相連,以及顯示器314與顯示器控 制器309相連。圖3中每個(gè)部件的功能在本技術(shù)領(lǐng)域內(nèi)都是眾所周知的,并且圖 3所示的結(jié)構(gòu)也是常規(guī)的。這種結(jié)構(gòu)不僅用于個(gè)人計(jì)算機(jī),而且用于 手持設(shè)備,如PalmPC、 PDA(個(gè)人數(shù)據(jù)助理)、移動(dòng)電話(huà)等等。在 不同的應(yīng)用中,可以向圖3中所示的結(jié)構(gòu)添加某些部件,或者圖6 中的某些部件可以被省略。圖3中所示的整個(gè)系統(tǒng)由通常作為軟件
存儲(chǔ)在硬盤(pán)310中、或者存儲(chǔ)在EPROM或者其它非易失性存儲(chǔ)器 中的計(jì)算機(jī)可讀指令控制。軟件也可從網(wǎng)絡(luò)(圖中未示出)下載。 或者存儲(chǔ)在硬盤(pán)310中,或者從網(wǎng)絡(luò)下載的軟件可被加載到RAM 302中,并由CPU301執(zhí)行,以便完成由軟件確定的功能。盡管圖3中描述的計(jì)算機(jī)系統(tǒng)能夠支持根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換 方案,但是該計(jì)算機(jī)系統(tǒng)只是計(jì)算機(jī)系統(tǒng)的一個(gè)例子。本領(lǐng)域的熟 練技術(shù)人員可以理解,許多其它計(jì)算機(jī)系統(tǒng)設(shè)計(jì)也能實(shí)現(xiàn)本發(fā)明的 實(shí)施方式。本發(fā)明還可以實(shí)現(xiàn)為例如由圖3所示計(jì)算機(jī)系統(tǒng)所使用的計(jì)算 機(jī)程序產(chǎn)品,其可以包含有用于實(shí)現(xiàn)根據(jù)本發(fā)明的語(yǔ)音轉(zhuǎn)換方法的 代碼。在使用之前,可以把代碼存儲(chǔ)在其它計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中, 例如,存儲(chǔ)在硬盤(pán)或諸如光盤(pán)或軟盤(pán)的可移動(dòng)的存儲(chǔ)器中,或者經(jīng) 由因特網(wǎng)或其它計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行下載。雖然結(jié)合附圖描述了本發(fā)明的實(shí)施方式,但是本領(lǐng)域技術(shù)人員可 以在所附權(quán)利要求的范圍內(nèi)做出各種變形或修改。
權(quán)利要求
1. 一種語(yǔ)音轉(zhuǎn)換方法,包括語(yǔ)音分析步驟,用于對(duì)源說(shuō)話(huà)者的語(yǔ)音執(zhí)行語(yǔ)音分析以獲得語(yǔ)音信息;頻譜轉(zhuǎn)換步驟,用于基于所述語(yǔ)音信息執(zhí)行頻譜轉(zhuǎn)換,至少獲得與目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第一頻譜;單元選擇步驟,用于至少使用所述第一頻譜作為目標(biāo),基于所述目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;頻譜替換步驟,用于以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的頻譜替代所述第一頻譜的至少一部分;語(yǔ)音重建步驟,用于至少基于替換的頻譜執(zhí)行語(yǔ)音重建。
2. 根據(jù)權(quán)利要求1所述的方法,其中 通過(guò)頻率彎曲執(zhí)行所述頻譜轉(zhuǎn)換步驟。
3. 根據(jù)權(quán)利要求1所述的方法,還包括韻律轉(zhuǎn)換步驟,用于基于所述語(yǔ)音信息執(zhí)行韻律轉(zhuǎn)換,至少獲得與所述目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第 一 音調(diào)曲線;其中在所述單元選擇步驟中,使用所述第一頻譜和所述第一音 調(diào)曲線作為目標(biāo),基于所述目標(biāo)說(shuō)話(huà)者的語(yǔ)音^丸行單元選擇;以及在所述語(yǔ)音重建步驟中,基于替換的頻譜和所述第一音調(diào)曲線執(zhí)行語(yǔ)音重建。
4. 根據(jù)權(quán)利要求1所述的方法,其中在所述頻譜替換步驟中,利用所選擇單元的高于特定頻率的頻 譜替換所述第一頻譜中的相應(yīng)部分,而將所述第一頻譜中低于所述 特定頻率的部分保持不變。
5. 根據(jù)權(quán)利要求4所述的方法,其中 所述特定頻率選擇在500Hz至2000Hz之間。
6. 根據(jù)權(quán)利要求1所述的方法,還包括頻鐠平滑步驟,用于對(duì)所述頻譜替換步驟中獲得的替換的頻傳 進(jìn)行頻譜平滑;其中在所述語(yǔ)音重建步驟中,基于平滑的頻譜和所述第一音調(diào)曲 線執(zhí)行語(yǔ)音重建。
7. 根據(jù)權(quán)利要求1 - 6中任一權(quán)利要求所述的方法,其中 所述語(yǔ)音信息包括頻譜包絡(luò)和音調(diào)曲線信息。
8. —種語(yǔ)音轉(zhuǎn)換系統(tǒng),包括語(yǔ)音分析裝置,用于對(duì)源說(shuō)話(huà)者的語(yǔ)音執(zhí)行語(yǔ)音分析以獲得語(yǔ)音 信息;頻鐠轉(zhuǎn)換裝置,用于基于所述語(yǔ)音信息執(zhí)行頻譜轉(zhuǎn)換,至少獲得 與目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第一頻譜;單元選擇裝置,用于至少使用所述第一頻譜作為目標(biāo),基于所 述目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;頻語(yǔ)替換裝置,用于以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的頻譜替代 所述第一頻譜的至少一部分;語(yǔ)音重建裝置,用于至少基于替換的頻譜執(zhí)行語(yǔ)音重建。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中 所述頻譜轉(zhuǎn)換裝置通過(guò)頻率彎曲執(zhí)行頻譜轉(zhuǎn)換。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),還包括韻律轉(zhuǎn)換裝置,用于基于所述語(yǔ)音信息執(zhí)行韻律轉(zhuǎn)換,至少獲得 與所述目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第 一音調(diào)曲線;其中所述單元選擇裝置使用所述第一頻譜和所述第一音調(diào)曲線 作為目標(biāo),基于所述目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;以及所述語(yǔ)音重建裝置基于替換的頻譜和所述第一音調(diào)曲線執(zhí)行語(yǔ) 音重建。
11. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述頻譜替換裝置利用所選擇單元的高于特定頻率的頻譜替換 所述第一頻譜中的相應(yīng)部分,而將所述第一頻譜中低于所述特定頻 率的部分保持不變。
12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中 所述特定頻率選擇在500Hz至2000Hz之間。
13. 根據(jù)權(quán)利要求8所述的系統(tǒng),還包括頻譜平滑裝置,用于對(duì)所述頻譜替換步驟中獲得的替換的頻譜 進(jìn)行頻i普平滑;其中所述語(yǔ)音重建裝置基于平滑的頻譜和所述第一音調(diào)曲線執(zhí) 行語(yǔ)音重建。
14. 根據(jù)權(quán)利要求8-13中任一權(quán)利要求所述的系統(tǒng),其中 所述語(yǔ)音信息包括頻譜包絡(luò)和音調(diào)曲線信息。
15. —種計(jì)算機(jī)程序產(chǎn)品,包括當(dāng)在計(jì)算機(jī)設(shè)備上對(duì)其進(jìn)行執(zhí)行 時(shí)用于執(zhí)行根據(jù)權(quán)利要求1-7任一權(quán)利要求的語(yǔ)音轉(zhuǎn)換方法的程序 代碼。
全文摘要
本發(fā)明提供一種語(yǔ)音轉(zhuǎn)換方法。該方法包括語(yǔ)音分析步驟,用于對(duì)源說(shuō)話(huà)者的語(yǔ)音執(zhí)行語(yǔ)音分析以獲得語(yǔ)音信息;頻譜轉(zhuǎn)換步驟,用于基于語(yǔ)音信息執(zhí)行頻譜轉(zhuǎn)換,至少獲得與目標(biāo)說(shuō)話(huà)者的語(yǔ)音相似的第一頻譜;單元選擇步驟,用于至少使用第一頻譜作為目標(biāo),基于目標(biāo)說(shuō)話(huà)者的語(yǔ)音執(zhí)行單元選擇;頻譜替換步驟,用于以所選擇的目標(biāo)說(shuō)話(huà)者語(yǔ)音單元的頻譜替代第一頻譜的至少一部分;語(yǔ)音重建步驟,用于至少基于替換的頻譜執(zhí)行語(yǔ)音重建。本發(fā)明還提供相應(yīng)的語(yǔ)音轉(zhuǎn)換系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。本發(fā)明的語(yǔ)音轉(zhuǎn)換方案將頻率彎曲技術(shù)和TTS系統(tǒng)內(nèi)的單元選擇進(jìn)行有機(jī)地結(jié)合,使得最終轉(zhuǎn)換語(yǔ)音不僅具有與目標(biāo)說(shuō)話(huà)者語(yǔ)音的良好相似度,而且體現(xiàn)了人聲的自然度。
文檔編號(hào)G10L13/08GK101399044SQ20071016306
公開(kāi)日2009年4月1日 申請(qǐng)日期2007年9月29日 優(yōu)先權(quán)日2007年9月29日
發(fā)明者雙志偉, 孟繁平, 勤 施, 勇 秦 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司