語音合成裝置及其控制方法
【專利說明】
[0001]相關(guān)申請的交叉引用
[0002] 本申請要求于2014年11月17日提交的韓國專利申請No. 10-2014-0159995的優(yōu)先 權(quán),該公開內(nèi)容以全文引用的方式并入本文中。
技術(shù)領(lǐng)域
[0003] 根據(jù)本公開的各種實施例的裝置和方法涉及語音合成裝置及其控制方法,更具體 地,涉及用于將輸入文本轉(zhuǎn)換成語音的語音合成裝置及其控制方法。
【背景技術(shù)】
[0004] 近來,隨著語音合成技術(shù)的發(fā)展,在各種語音引導領(lǐng)域、教育領(lǐng)域等中,語音合成 技術(shù)得到了廣泛的使用。語音合成是用于產(chǎn)生與人類講話的聲音類似的聲音的技術(shù),并且 還常被稱為文本到語音(TTS)系統(tǒng)。語音合成技術(shù)向用戶發(fā)送作為語音信號的信息,而不是 文本或圖片,因此當用戶不能看見操作機器的屏幕時(如用戶正在駕駛或用戶是盲人的情 況),這將非常有用。近來,智能家庭中的家用智能設(shè)備(比如智能電視(TV)或智能冰箱)或 個人便攜設(shè)備(比如智能電話、電子書閱讀器或車輛導航設(shè)備)都非?;钴S地發(fā)展并且已經(jīng) 變得廣泛流行。從而,對語音合成技術(shù)和語音輸出裝置的需求激增。
[0005] 在這點上,需要一種用于加強合成語音的聲音質(zhì)量的方法,具體地,需要一種用于 生成具有極佳逼真度的合成語音的方法。
【發(fā)明內(nèi)容】
[0006] 本公開的示例實施例克服上述缺點和上面未描述的其它缺點。此外,不要求本公 開的實施例克服上述缺點,且本公開的示例實施例可以不克服上述任何問題。
[0007] 本公開的各種實施例提供了語音合成裝置及其控制方法,用于補償使用基于隱馬 爾科夫模型(HMM)語音合成方案所生成的語音中的各種韻律修改,以生成逼真的合成語音。
[0008] 根據(jù)本公開的各實施例的一個方案,一種用于將輸入文本轉(zhuǎn)換成語音的語音合成 裝置包括:語音參數(shù)數(shù)據(jù)庫,被配置為存儲與構(gòu)成語音文件的語音合成單元分別對應(yīng)的多 個參數(shù);輸入單元,被配置為接收包括多個語音合成單元在內(nèi)的文本;以及處理器,被配置 為從語音參數(shù)數(shù)據(jù)庫中選擇與構(gòu)成所述輸入文本的多個語音合成單元分別對應(yīng)的多個候 選單元參數(shù),以根據(jù)連續(xù)級聯(lián)候選單元參數(shù)之間的級聯(lián)概率來生成部分或全部所述文本的 參數(shù)單元序列,以及使用參數(shù)單元序列來執(zhí)行基于隱馬爾科夫模型(HMM)的合成操作,以生 成與所述文本相對應(yīng)的聲學信號。
[0009] 所述處理器可以順序組合候選單元參數(shù),根據(jù)候選單元參數(shù)之間的級聯(lián)概率來搜 索候選單元參數(shù)的級聯(lián)路徑,以及組合與所述級聯(lián)路徑相對應(yīng)的候選單元參數(shù),以生成部 分或全部所述文本的參數(shù)單元序列。
[0010] 語音合成裝置還可包括存儲裝置,所述存儲裝置被配置為存儲激勵信號模型,其 中,所述處理器可以將所述激勵信號模型應(yīng)用到所述文本,以生成與所述文本相對應(yīng)的HMM 語音參數(shù),以及將所述參數(shù)單元序列應(yīng)用到所生成的HMM語音參數(shù),以生成聲學信號。
[0011] 所述存儲裝置還可存儲為了執(zhí)行合成操作所需要的頻譜模型,以及所述處理器可 將所述激勵信號模型和所述頻譜模型應(yīng)用到所述文本,以生成與所述文本相對應(yīng)的HMM語 音參數(shù)。
[0012] 根據(jù)本公開的各實施例的另一方面,一種用于將輸入文本轉(zhuǎn)換為語音的語音合成 裝置的控制方法包括:接收包括多個語音合成單元在內(nèi)的文本;從用于存儲與構(gòu)成語音文 件的語音合成單元相對應(yīng)的多個參數(shù)的語音參數(shù)數(shù)據(jù)庫中選擇多個候選單元參數(shù),所述多 個候選單元參數(shù)與構(gòu)成所述輸入文本的多個語音合成單元分別對應(yīng);根據(jù)連續(xù)級聯(lián)候選單 元參數(shù)之間的級聯(lián)概率來生成部分或全部所述文本的參數(shù)單元序列;以及使用所述參數(shù)單 元序列來執(zhí)行基于隱馬爾科夫模型(HMM)的合成操作,以生成與所述文本相對應(yīng)的聲學信 號。
[0013] 生成參數(shù)單元序列可包括:順序組合與所述多個語音合成單元分別對應(yīng)的多個候 選單元參數(shù)并根據(jù)候選單元參數(shù)之間的級聯(lián)概率來搜索候選單元參數(shù)的級聯(lián)路徑,以及組 合與所述級聯(lián)路徑相對應(yīng)的候選單元參數(shù),以生成部分或全部所述文本的參數(shù)單元序列。
[0014] 生成聲學信號可包括:將激勵信號模型應(yīng)用到所述文本,以生成與所述文本相對 應(yīng)的HMM語音參數(shù),以及將所述參數(shù)單元序列應(yīng)用到所生成的HMM語音參數(shù),以生成聲學信 號。
[0015] 搜索候選單元參數(shù)的級聯(lián)路徑可使用借助Viterbi算法的搜索方法。
[0016] 生成HMM語音參數(shù)還可包括:將為了執(zhí)行合成操作所需要的頻譜模型應(yīng)用到所述 文本,以生成與所述文本相對應(yīng)的HMM語音參數(shù)。
[0017] 根據(jù)本公開的前述各實施例,可生成與經(jīng)由傳統(tǒng)HMM語音合成方法合成的語音相 比具有增強逼真度的合成語音,從而增強用戶便利性。
[0018] 本公開的各實施例的附加和/或其它方案和優(yōu)點將部分在以下【具體實施方式】中進 行闡述,且部分通過該【具體實施方式】將是明確的,或者可以通過實踐本發(fā)明而習知。
【附圖說明】
[0019]通過參考附圖來描述本公開的某些示例實施例,本公開的各實施例的上述和/或 其它方案將變得更為明確。
[0020] 圖1是用于解釋體現(xiàn)了語音合成裝置并將其用作智能電話的示例的圖;
[0021] 圖2是示出了根據(jù)本公開的示例實施例的語音合成裝置的配置的示意框圖;
[0022] 圖3是詳細示出了根據(jù)本公開的另一示例實施例的語音合成裝置的配置的框圖; [0023]圖4是用于解釋根據(jù)本公開的示例實施例的語音合成裝置的配置的圖;
[0024]圖5是用于解釋根據(jù)本公開的另一示例實施例的語音合成裝置的配置的圖;
[0025] 圖6和7是用于解釋根據(jù)本公開的示例實施例的用于生成參數(shù)單元序列的方法的 圖;
[0026] 圖8是用于解釋根據(jù)本公開的示例實施例的語音合成方法的流程圖。
【具體實施方式】
[0027] 現(xiàn)在將參照附圖來更詳細地描述本公開的某些示例實施例。
[0028] 本公開的示例實施例可以各種方式修改。相應(yīng)地,在附圖中示出了并在具體實施 方式中詳細描述了具體示例實施例。然而,將理解的是:本公開不限于具體示例實施例,而 是在不脫離本公開的范圍和精神的情況下包括所有修改、等價物和替換。同樣,沒有對熟知 的功能或構(gòu)造進行詳細描述,這是因為它們可能會用不必要的細節(jié)而使本公開不夠突出。
[0029] 圖1是用于解釋體現(xiàn)語音合成裝置并將其用作智能電話100的示例的圖。
[0030] 如圖1所示,響應(yīng)于向智能電話100輸入文本1"你好",智能電話100可通過機器將 文本1轉(zhuǎn)換為語音2并通過智能電話100的揚聲器來輸出語音2。將要轉(zhuǎn)換為語音的文本可由 用戶通過智能電話直接輸入,或可通過將諸如電子書之類的內(nèi)容下載到智能電話上來輸 入。智能電話可自動地將輸入文本轉(zhuǎn)換成語音并輸出語音,或可通過用戶按壓語音轉(zhuǎn)換按 鈕來輸出語音。為此,需要在智能電話等中使用嵌入式語音合成設(shè)備。
[0031] 關(guān)于嵌入式系統(tǒng),基于隱馬爾科夫模型(HMM)的語音合成方案已經(jīng)被用作針對語 音合成的方案?;贖MM的語音合成方案是基于參數(shù)的語音合成方案,并且該方案被提出以 生成具有各種屬性的合成語音。
[0032] 在使用語音編碼中使用的理論的基于HMM的語音合成方案中,可使用HMM來提取和 訓練與語音的頻譜、音調(diào)(pitch)和持續(xù)時間相對應(yīng)的參數(shù)。在合成操作中,可使用根據(jù)訓 練結(jié)果估計出的參數(shù)和語音編碼的音碼器(vocoder)方案來生成合成語音。由于基于HMM的 語音合成方案只需要從語音數(shù)據(jù)庫中提取的參數(shù),所以基于HMM的語音合成方案需要低容 量,并從而在嵌入式系統(tǒng)環(huán)境(比如移動系統(tǒng)或CE設(shè)備)中是有用的,但也存在缺點:所合成 的語音的逼真度下降。從而,本公開的各實施例用來克服基于HMM的語音合成方案中的這一 缺點。
[0033]圖2是示出了根據(jù)本公開的示例實施例的語音合成裝置100的配置的示意框圖。 [0034]參見圖2,根據(jù)本公開的示例實施例的語音合成裝置100可包括語音參數(shù)數(shù)據(jù)庫 110、處理器120和輸入單元130。
[0035] 語音參數(shù)數(shù)據(jù)庫110可以是用于存儲關(guān)于各語音合成單元和合成單元的各韻律修 改的參數(shù)的組件??赏ㄟ^各韻律修改的參數(shù)來最小化韻律調(diào)整,以生成逼真的合成語音。
[0036] 這里,語音合成單元可以是語音合成的基本單元