專利名稱:基于hmm的雙語(普通話-英語)tts技術(shù)的制作方法
基于HMM的雙語(普通話-英語)TTS技術(shù)本申請是國際申請?zhí)枮镻CT/US2008/073563,國際申請日為2008年8月19日,進(jìn)入中國國家階段的申請?zhí)枮?00880103469. 0,名稱為“基于HMM的雙語(普通話-英語) TTS技術(shù)”的發(fā)明專利申請的分案申請。背景雖然文本-語音(TTS)合成質(zhì)量近年來已極大地提高,但各種電信應(yīng)用程序(例如,信息詢問、預(yù)約和預(yù)定、以及電子郵件閱讀)要求比現(xiàn)有TTS系統(tǒng)所能夠提供的更高的合成質(zhì)量。具體而言,隨著全球化及其伴隨的語言混合,這些應(yīng)用程序能夠從其中一個(gè)引擎能夠合成多種語言或甚至混合語言的多語言TTS系統(tǒng)中受益。大多數(shù)常規(guī)TTS系統(tǒng)只能夠處理單一語言,其中語音數(shù)據(jù)庫中的句子由單個(gè)說母語的人來發(fā)音。盡管多語言文本可通過在每一種語言改變時(shí)切換語音或引擎來正確地閱讀,但其中語言改變在句子內(nèi)作為單詞或短語發(fā)生的代碼切換文本實(shí)際上是不可行的。此外,隨著移動(dòng)電話或嵌入式設(shè)備的廣泛使用,語音合成器的覆蓋區(qū)域成為基于這些設(shè)備的關(guān)于應(yīng)用程序的因素。對多語言TTS系統(tǒng)的研究表明音素覆蓋可通過收集多語言語音數(shù)據(jù)來實(shí)現(xiàn),但語言專用信息(例如,專用文本分析)也是必需的。已經(jīng)在多語言或語言無關(guān)語音識(shí)別和合成中嘗試了使用最小音素庫存來覆蓋受影響的語言的所有音素的全局音素集。這一方法采用按音素相似性的音素共享,該音素相似性通過數(shù)據(jù)驅(qū)動(dòng)聚類方法或者由國際音標(biāo)字母表 (IPA)定義的音節(jié)特征來測量。存在對TTS系統(tǒng)的小覆蓋區(qū)域方面的強(qiáng)烈興趣,注意基于隱馬爾可夫模型的語音合成往往更有希望。某些隱馬爾可夫模型(HMM)合成器可具有相對較小的覆蓋區(qū)域(例如,彡2MB),這使其適用于嵌入式系統(tǒng)。具體而言,這些HMM合成器已經(jīng)成功地應(yīng)用于許多單語的語音合成,例如,英語、日語和普通話。這一 HMM方法已經(jīng)出于多語言的目的而應(yīng)用,其中首先通過使用來自若干說不同語言的說話者的混合語音來訓(xùn)練平均語音并且然后使該平均語音對特定說話者自適應(yīng)。因此,該特定說話者能夠說包含在訓(xùn)練數(shù)據(jù)中的所有語言。通過全球化,嵌在普通話發(fā)言中的英語單詞或短語在中國的學(xué)生和受過教育的人中正在變得越來越普遍地使用。然而,普通話和英語屬于不同的語系;這些語言是高度無關(guān)的,這表現(xiàn)在基于對其IPA符號(hào)的檢查,能夠一起共享的音素很少。常規(guī)上,基于由雙語說話者說出的預(yù)先記錄的普通話和英語句子來構(gòu)建雙語(普通話-英語)TTS,其中該系統(tǒng)的單元選擇模塊是跨這兩種語言共享的,而來自這兩種不同語言的音素彼此不共享。這一方法具有某些缺點(diǎn)。這一系統(tǒng)的覆蓋區(qū)域太大,即,大約是單一語言系統(tǒng)的大小的兩倍。實(shí)際上,找到足夠數(shù)量的專業(yè)雙語說話者來為各種應(yīng)用程序構(gòu)建多個(gè)雙語音型也不容易。此處所討論的各種示例性技術(shù)涉及多語言TTS系統(tǒng)。與每一種語言需要單獨(dú)的 TTS系統(tǒng)的現(xiàn)有技術(shù)相比,這些技術(shù)能夠減小TTS系統(tǒng)的覆蓋區(qū)域。概述一種用于基于一種或多種語言的文本來生成語音的示例性方法,該方法包括提供兩種或更多語言的音素集、訓(xùn)練包括跨語言狀態(tài)級共享的多語言HMM、接收該多語言HMM的語言中的一種或多種語言的文本、以及至少部分地基于該多語言HMM來生成對應(yīng)于所接收到的文本的語音。其他示例性技術(shù)包括第一語言的決策樹和第二語言的決策樹之間的映射和可任選地反方向的映射、以及對多語言文本-語音系統(tǒng)的Kullkick-Leibler散度分析。附圖簡述參考附圖描述了非限制性的和非窮盡的實(shí)施例,其中除非另外指定,否則在各個(gè)視圖中相同的附圖標(biāo)記指示相同的部分。
圖1是包括語音-文本(STT)和文本-語音(TTS)的文本和語音方法的圖示。圖2是用于英語的TTS方法和系統(tǒng)以及用于普通話的TTS方法和系統(tǒng)的圖示。圖3是示例性多語言TTS方法和系統(tǒng)的圖示。圖4是確定英語和普通話的共享音素的示例性方法的圖示。圖5是使用KLD來確定共享在英語音素和普通話音素之間是否切實(shí)可行的示例性技術(shù)的圖示。圖6是用于確定共享在英語子音素和普通話子音素之間是否切實(shí)可行的示例性方法的圖示。圖7是用于確定共享在英語復(fù)雜音素和普通話音素對之間是否切實(shí)可行的示例性方法的圖示。圖8是用于上下文無關(guān)狀態(tài)共享的示例性技術(shù)的圖示。圖9是用于上下文相關(guān)狀態(tài)共享的示例性技術(shù)的圖示。圖10是用于語音合成的示例性技術(shù)的圖示。圖11是基線系統(tǒng)以及用于英語和普通話的兩個(gè)示例性系統(tǒng)的圖示。圖12是用于將示例性系統(tǒng)與圖11的基線系統(tǒng)進(jìn)行比較的一系列表格和圖表。圖13是將普通說話者的語音擴(kuò)展到“外國”語言的示例性技術(shù)的圖示。圖14是用于學(xué)習(xí)語言的示例性技術(shù)的圖示。圖15是可用于實(shí)現(xiàn)此處所討論的各種示例性方法中的部分或全部的示例性計(jì)算設(shè)備的各個(gè)組件的圖示。詳細(xì)描述此處描述了用于多語言TTS系統(tǒng)的技術(shù)。這些技術(shù)可適用于使用概率模型的多種 TTS方法中的任一種。雖然參考用于英語和普通話的基于HMM的方法來描述各個(gè)示例,但各示例性技術(shù)可廣泛地適用于其他語言和用于不止兩種語言的TTS系統(tǒng)。此處描述了用于聲音共享的若干示例性技術(shù)。一種使用基于IPA的音素檢查的方法適用于發(fā)現(xiàn)來自英語和普通話的某些音素是可共享的。另一種示例性方法展示在子音素產(chǎn)生級存在聲音相似性,這也是可共享的。另外,復(fù)雜音素可由兩個(gè)或三個(gè)簡單音素和眾多音位變體來呈現(xiàn),這些復(fù)雜音素在特定音素上下文中使用,提供更多的在普通話和英語之間共享音素的機(jī)會(huì)。參考上下文無關(guān)性和上下文相關(guān)性來討論各種示例性技術(shù)。一種特定的示例性技術(shù)包括雙語(普通話-英語)TTS系統(tǒng)中的上下文相關(guān)HMM狀態(tài)共享。另一種特定的示例性技術(shù)包括狀態(tài)級映射以便進(jìn)行新語言合成而不必依賴于特定說話者的新語言語音。更具體而言,說話者的另一種語言的語音映射到新語言的聲音以生成該新語言的語音。因此,這一方法可生成說話者的新語言語音而無需記錄該說話者的新語言語音。這一技術(shù)通過合成來擴(kuò)展用戶的言語能力。一種示例性方法以基于HMM的語音合成框架為基礎(chǔ)。在該框架中,譜包絡(luò)、基頻和狀態(tài)持續(xù)時(shí)間同時(shí)由對應(yīng)的HMM來建模。對于給定文本序列,然后在最大似然(ML)意義上從經(jīng)訓(xùn)練的HMM中生成語音參數(shù)跡線和對應(yīng)的信號(hào)。各種示例性技術(shù)可用于構(gòu)建基于HMM的雙語(普通話-英語)TTS系統(tǒng)。一種特定的示例性技術(shù)包括使用語言專用和語言無關(guān)問題,這些問題是為在一個(gè)單個(gè)決策樹中跨兩種語言聚類狀態(tài)而設(shè)計(jì)的。試驗(yàn)結(jié)果表明具有跨語言上下文相關(guān)HMM狀態(tài)共享的示例性 TTS系統(tǒng)勝過其中一起使用兩個(gè)單獨(dú)的語言相關(guān)HMM的簡單基線系統(tǒng)。另一種示例性技術(shù)包括基于Kullback-Leibler偏差(KLD)來進(jìn)行跨語言狀態(tài)映射以便使用英語決策樹中的模型參數(shù)來合成普通話語音。試驗(yàn)結(jié)果表明經(jīng)由這一方法合成的普通話語音是高度可理解的。一種示例性技術(shù)可通過允許學(xué)生使用該學(xué)生的母語語音來生成外語語音來增強(qiáng)學(xué)習(xí)。這一技術(shù)使用例如使用天才雙語說話者來建立的映射。根據(jù)這一技術(shù),雖然來自說話者母語,但在使用學(xué)生自己的語音來合成外語時(shí),該學(xué)生可以更容易地理解該外語。這一技術(shù)可任選地包括外語補(bǔ)充,例如,當(dāng)學(xué)生變得更精通時(shí),該學(xué)生可提供外語語音。圖1示出了文本和語音方法100,該方法包括語音-文本(STT)方法110和文本-語音(TTS)方法120。文本101可使用IPA 102來按音素表示。在說出或生成文本時(shí), 可將能量103呈現(xiàn)為相對于時(shí)間的振幅。能量波形103可使用各種技術(shù)中的任一種來分析, 例如,使用傅立葉技術(shù),可將能量變換到頻域。STT方法110接收能量(例如,至數(shù)字波形的模數(shù)轉(zhuǎn)換)或能量的已記錄版本(例如,數(shù)字波形文件),參數(shù)化能量波形112并識(shí)別對應(yīng)于能量波形的文本114。TTS方法120 接收文本,執(zhí)行文本分析122、韻律學(xué)分析124并且然后生成能量波形126。如上所述,此處所描述的示例性技術(shù)主要涉及TTS方法和系統(tǒng)并且尤其涉及多語言TTS方法和系統(tǒng)。圖2示出了英語方法和系統(tǒng)202以及普通話方法和系統(tǒng)204。這些是兩個(gè)單獨(dú)的常規(guī)系統(tǒng),并且需要TTS的英語和普通話能力的設(shè)備將需要用于英語方法和系統(tǒng)202以及普通話方法和系統(tǒng)204兩者的足夠的存儲(chǔ)器。同時(shí)描述英語方法和系統(tǒng)202以及普通話方法和系統(tǒng)204,因?yàn)楦鱾€(gè)步驟和組件相當(dāng)類似。英語方法和系統(tǒng)202接收英語文本203而普通話方法和系統(tǒng)204接收普通話文本205。TTS方法220和240執(zhí)行文本分析222、242、韻律分析224、244和波形生成226、246 以產(chǎn)生波形207、208。當(dāng)然,例如,英語和普通話的文本分析的細(xì)節(jié)是不同的。英語TTS系統(tǒng)230包括用于生成波形207的英語音素232和英語HMM234,而普通話TTS系統(tǒng)250包括用于生成波形208的普通話音素252和普通話HMM 254。如此處所描述的,一種示例性方法和系統(tǒng)允許多語言TTS。圖3示出了示例性多語言方法和系統(tǒng)300。示例性TTS方法320對英語文本(“Hello World”)和/或普通話文本305 ( “來”)執(zhí)行文本分析320,之后是韻律分析324和波形生成326。方法320使用示例性系統(tǒng)330,該系統(tǒng)包括一組音素332和對應(yīng)的HMM 334,它們用于取決于接收到的是英語文本303還是普通話文本305來生成波形307和308。如圖3所示,音素332包括英語音素(EP)和普通話音素(MP)。此外,可共享某些音素,其被指定為共享音素(SP)。
對于構(gòu)建諸如圖3的系統(tǒng)330的雙語(普通話和英語)TTS系統(tǒng),預(yù)備步驟是決定覆蓋兩種語言中的所有語音的音素集。另外,這一音素集應(yīng)當(dāng)足夠緊湊以便于跨語言音素共享并產(chǎn)生大小合理的TTS模型。此處描述了用于找出可能的聲音共享候選的若干示例性方法。如參考試驗(yàn)結(jié)果所討論的(參見例如,圖12),共享準(zhǔn)則可以是客觀的和/或主觀的。 有時(shí),術(shù)語“切實(shí)可行”用于共享(例如,音素、子音素、復(fù)雜音素等的共享),這意味著多語言系統(tǒng)能夠在可接受的出錯(cuò)水平下操作。一種示例性方法檢查第一語言的音素和第二語言的音素的IPA符號(hào)以便進(jìn)行音素共享。IPA是供在轉(zhuǎn)錄任何口語的語音時(shí)使用的國際標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)根據(jù)音素的語音-發(fā)音特征來對音素進(jìn)行分類。IPA相當(dāng)準(zhǔn)確地表示音素并且古典歌手經(jīng)常使用IPA來幫助演唱各種語言中的任一種的歌曲。在忽略語音感知的語言相關(guān)方面時(shí),由相同的IPA符號(hào)標(biāo)記的不同語言的音素應(yīng)當(dāng)被認(rèn)為是相同的音素。示例性IPA方法和示例性Kullback-Leibler散度(KLD)方法參考圖4來描述,注意,圖4主要涉及KLD方法(按照框408),但它示出了與IPA方法相關(guān)的英語音素(EP)410 和普通話音素(MP) 420。圖4示出了用于分析兩種語言的音素以便在這兩種語言之間進(jìn)行共享的示例性基于KLD的方法400。在圖4的示例中,提供框404提供英語(EP 410)和普通話(MP 420) 中的所有音素,其中英語音素集包括24個(gè)輔音、11個(gè)單元音和5個(gè)雙元音,而普通話音素集是更精細(xì)的集合,包括27個(gè)簡單輔音、具有滑音的30個(gè)輔音和36個(gè)聲調(diào)元音???04還包括上標(biāo)1-4,這些上標(biāo)如下1用作音節(jié)開始(聲母);2用作音節(jié)結(jié)尾;3用作滑音;而4 用作音節(jié)核或結(jié)尾。在檢查IPA符號(hào)的示例性IPA方法中,八個(gè)輔音/kh/、/ph/、/th/、/f/、/s/、/m/、/ n/和/1/以及兩個(gè)元音(忽略聲調(diào)信息)/ε/和/a/能夠在兩種語言之間共享。因此,該 IPA方法可確定共享音素集。在示例性基于KLD的方法中,判定框408通過檢查EP 410和MP 420以查找可共享音素(SP)430來執(zhí)行基于KLD的分析。該KLD技術(shù)提供對兩個(gè)概率分布之間的相似(異) 性的信息論度量。當(dāng)語言HMM的時(shí)間結(jié)構(gòu)通過動(dòng)態(tài)編程來對齊時(shí),可進(jìn)一步修改KLD以測量兩種進(jìn)化的語音的HMM之間的差異。圖5示出了示例性KLD技術(shù)440,該技術(shù)適用于英語音素集中的音素“i”的英語音素HMM(i)411和普通話音素集中的音素“j”的普通話音素HMM(j)421。根據(jù)該KLD技術(shù), 對于兩個(gè)給定的連續(xù)隨機(jī)變量的分布P和Q,P和Q之間的KLD的對稱型由圖5的等式KLD 444來表示。在該等式中,ρ和q表示P和Q的密度。對于兩個(gè)多元高斯分布,等式444具有閉型
權(quán)利要求
1.一種至少部分地由計(jì)算機(jī)實(shí)現(xiàn)的用于基于文本來生成語音的方法,所述方法包括構(gòu)建第一語言專用決策樹;構(gòu)建第二語言專用決策樹;將來自所述第一樹的葉節(jié)點(diǎn)映射到所述第二樹的葉節(jié)點(diǎn);接收所述第二語言的文本;以及至少部分地基于將來自所述第一樹的葉節(jié)點(diǎn)映射到所述第二樹的葉節(jié)點(diǎn)來生成對應(yīng)于所接收到的文本的所述第二語言的語音。
2.如權(quán)利要求1所述的方法,其特征在于,將來自所述第一樹的葉節(jié)點(diǎn)映射到所述第二樹的葉節(jié)點(diǎn)包括使用KLD技術(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,還包括將來自所述第二樹的葉節(jié)點(diǎn)映射到所述第一樹的葉節(jié)點(diǎn)。
4.如權(quán)利要求1所述的方法,其特征在于,一個(gè)決策樹的多個(gè)葉節(jié)點(diǎn)映射到另一決策樹的單個(gè)葉節(jié)點(diǎn)。
5.如權(quán)利要求1所述的方法,其特征在于,所述第一語言包括普通話。
6.如權(quán)利要求1所述的方法,其特征在于,所述第一語言和所述第二語言包括英語和普通話。
7.如權(quán)利要求1所述的方法,其特征在于,所述生成語音在不使用以所述第二語言所提供的語音的情況下發(fā)生。
8.—種至少部分地由計(jì)算機(jī)實(shí)現(xiàn)的用于多語言TTS系統(tǒng)的方法,所述方法包括提供用于第一語言中的聲音的HMM ;提供用于第二語言中的聲音的HMM ;確定所述第一語言中的聲音的線譜對;確定所述第二語言中的聲音的線譜對;基于所述第一語言中的聲音和所述第二語言中的聲音的線譜對來計(jì)算KLD得分,其中所述KLD得分指示所述第一語言中的聲音和所述第二語言中的聲音之間的相似性/相異性;以及構(gòu)建多語言基于HMM的TTS系統(tǒng),其中所述TTS系統(tǒng)包括基于KLD得分的共享聲音。
9.如權(quán)利要求8所述的方法,其特征在于,所述第一語言中的聲音包括音素并且其中, 所述第二語言中的聲音包括音素。
10.如權(quán)利要求8所述的方法,其特征在于,所述第一語言中的聲音包括子音素并且其中,所述第二語言中的聲音包括子音素。
11.如權(quán)利要求8所述的方法,其特征在于,所述第一語言中的聲音包括復(fù)雜音素并且其中,所述第二語言中的聲音包括兩個(gè)或更多音素。
12.如權(quán)利要求8所述的方法,其特征在于,所述第一語言中的聲音包括上下文相關(guān)聲
全文摘要
一種用于基于一種或多種語言的文本來生成語音的示例性方法,該方法包括提供兩種或更多語言的音素集、訓(xùn)練包括跨語言狀態(tài)級共享的多語言HMM、接收該多語言HMM的語言中的一種或多種語言的文本、以及至少部分地基于該多語言HMM來生成對應(yīng)于所接收到的文本的語音。其他示例性技術(shù)包括第一語言的決策樹和第二語言的決策樹之間的映射和可任選地反方向的映射、以及對多語言文本-語音系統(tǒng)的Kullback-Leibler散度分析。
文檔編號(hào)G10L13/06GK102360543SQ20111029121
公開日2012年2月22日 申請日期2008年8月19日 優(yōu)先權(quán)日2007年8月20日
發(fā)明者F·K-P·宋, Y·錢 申請人:微軟公司