語音合成裝置及其控制方法

文檔序號：9845033閱讀：689來源：國知局

語音合成裝置及其控制方法
【專利說明】
[0001]相關(guān)申請的交叉引用
[0002] 本申請要求于2014年11月17日提交的韓國專利申請No. 10-2014-0159995的優(yōu)先權(quán)，該公開內(nèi)容以全文引用的方式并入本文中。
技術(shù)領(lǐng)域
[0003] 根據(jù)本公開的各種實施例的裝置和方法涉及語音合成裝置及其控制方法，更具體地，涉及用于將輸入文本轉(zhuǎn)換成語音的語音合成裝置及其控制方法。
【背景技術(shù)】
[0004] 近來，隨著語音合成技術(shù)的發(fā)展，在各種語音引導領(lǐng)域、教育領(lǐng)域等中，語音合成技術(shù)得到了廣泛的使用。語音合成是用于產(chǎn)生與人類講話的聲音類似的聲音的技術(shù)，并且還常被稱為文本到語音(TTS)系統(tǒng)。語音合成技術(shù)向用戶發(fā)送作為語音信號的信息，而不是文本或圖片，因此當用戶不能看見操作機器的屏幕時（如用戶正在駕駛或用戶是盲人的情況），這將非常有用。近來，智能家庭中的家用智能設(shè)備（比如智能電視(TV)或智能冰箱)或個人便攜設(shè)備（比如智能電話、電子書閱讀器或車輛導航設(shè)備)都非?；钴S地發(fā)展并且已經(jīng) 變得廣泛流行。從而，對語音合成技術(shù)和語音輸出裝置的需求激增。
[0005] 在這點上，需要一種用于加強合成語音的聲音質(zhì)量的方法，具體地，需要一種用于生成具有極佳逼真度的合成語音的方法。

【發(fā)明內(nèi)容】

[0006] 本公開的示例實施例克服上述缺點和上面未描述的其它缺點。此外，不要求本公開的實施例克服上述缺點，且本公開的示例實施例可以不克服上述任何問題。
[0007] 本公開的各種實施例提供了語音合成裝置及其控制方法，用于補償使用基于隱馬爾科夫模型(HMM)語音合成方案所生成的語音中的各種韻律修改，以生成逼真的合成語音。
[0008] 根據(jù)本公開的各實施例的一個方案，一種用于將輸入文本轉(zhuǎn)換成語音的語音合成裝置包括:語音參數(shù)數(shù)據(jù)庫，被配置為存儲與構(gòu)成語音文件的語音合成單元分別對應(yīng)的多個參數(shù);輸入單元，被配置為接收包括多個語音合成單元在內(nèi)的文本；以及處理器，被配置為從語音參數(shù)數(shù)據(jù)庫中選擇與構(gòu)成所述輸入文本的多個語音合成單元分別對應(yīng)的多個候選單元參數(shù)，以根據(jù)連續(xù)級聯(lián)候選單元參數(shù)之間的級聯(lián)概率來生成部分或全部所述文本的參數(shù)單元序列，以及使用參數(shù)單元序列來執(zhí)行基于隱馬爾科夫模型(HMM)的合成操作，以生成與所述文本相對應(yīng)的聲學信號。
[0009] 所述處理器可以順序組合候選單元參數(shù)，根據(jù)候選單元參數(shù)之間的級聯(lián)概率來搜索候選單元參數(shù)的級聯(lián)路徑，以及組合與所述級聯(lián)路徑相對應(yīng)的候選單元參數(shù)，以生成部分或全部所述文本的參數(shù)單元序列。
[0010] 語音合成裝置還可包括存儲裝置，所述存儲裝置被配置為存儲激勵信號模型，其中，所述處理器可以將所述激勵信號模型應(yīng)用到所述文本，以生成與所述文本相對應(yīng)的HMM 語音參數(shù)，以及將所述參數(shù)單元序列應(yīng)用到所生成的HMM語音參數(shù)，以生成聲學信號。
[0011] 所述存儲裝置還可存儲為了執(zhí)行合成操作所需要的頻譜模型，以及所述處理器可將所述激勵信號模型和所述頻譜模型應(yīng)用到所述文本，以生成與所述文本相對應(yīng)的HMM語音參數(shù)。
[0012] 根據(jù)本公開的各實施例的另一方面，一種用于將輸入文本轉(zhuǎn)換為語音的語音合成裝置的控制方法包括:接收包括多個語音合成單元在內(nèi)的文本;從用于存儲與構(gòu)成語音文件的語音合成單元相對應(yīng)的多個參數(shù)的語音參數(shù)數(shù)據(jù)庫中選擇多個候選單元參數(shù)，所述多個候選單元參數(shù)與構(gòu)成所述輸入文本的多個語音合成單元分別對應(yīng);根據(jù)連續(xù)級聯(lián)候選單元參數(shù)之間的級聯(lián)概率來生成部分或全部所述文本的參數(shù)單元序列；以及使用所述參數(shù)單元序列來執(zhí)行基于隱馬爾科夫模型(HMM)的合成操作，以生成與所述文本相對應(yīng)的聲學信號。
[0013] 生成參數(shù)單元序列可包括:順序組合與所述多個語音合成單元分別對應(yīng)的多個候選單元參數(shù)并根據(jù)候選單元參數(shù)之間的級聯(lián)概率來搜索候選單元參數(shù)的級聯(lián)路徑，以及組合與所述級聯(lián)路徑相對應(yīng)的候選單元參數(shù)，以生成部分或全部所述文本的參數(shù)單元序列。
[0014] 生成聲學信號可包括:將激勵信號模型應(yīng)用到所述文本，以生成與所述文本相對應(yīng)的HMM語音參數(shù)，以及將所述參數(shù)單元序列應(yīng)用到所生成的HMM語音參數(shù)，以生成聲學信號。
[0015] 搜索候選單元參數(shù)的級聯(lián)路徑可使用借助Viterbi算法的搜索方法。
[0016] 生成HMM語音參數(shù)還可包括:將為了執(zhí)行合成操作所需要的頻譜模型應(yīng)用到所述文本，以生成與所述文本相對應(yīng)的HMM語音參數(shù)。
[0017] 根據(jù)本公開的前述各實施例，可生成與經(jīng)由傳統(tǒng)HMM語音合成方法合成的語音相比具有增強逼真度的合成語音，從而增強用戶便利性。
[0018] 本公開的各實施例的附加和/或其它方案和優(yōu)點將部分在以下【具體實施方式】中進行闡述，且部分通過該【具體實施方式】將是明確的，或者可以通過實踐本發(fā)明而習知。
【附圖說明】
[0019]通過參考附圖來描述本公開的某些示例實施例，本公開的各實施例的上述和/或其它方案將變得更為明確。
[0020] 圖1是用于解釋體現(xiàn)了語音合成裝置并將其用作智能電話的示例的圖；
[0021] 圖2是示出了根據(jù)本公開的示例實施例的語音合成裝置的配置的示意框圖；
[0022] 圖3是詳細示出了根據(jù)本公開的另一示例實施例的語音合成裝置的配置的框圖； [0023]圖4是用于解釋根據(jù)本公開的示例實施例的語音合成裝置的配置的圖；
[0024]圖5是用于解釋根據(jù)本公開的另一示例實施例的語音合成裝置的配置的圖；
[0025] 圖6和7是用于解釋根據(jù)本公開的示例實施例的用于生成參數(shù)單元序列的方法的圖；
[0026] 圖8是用于解釋根據(jù)本公開的示例實施例的語音合成方法的流程圖。
【具體實施方式】
[0027] 現(xiàn)在將參照附圖來更詳細地描述本公開的某些示例實施例。
[0028] 本公開的示例實施例可以各種方式修改。相應(yīng)地，在附圖中示出了并在具體實施方式中詳細描述了具體示例實施例。然而，將理解的是:本公開不限于具體示例實施例，而是在不脫離本公開的范圍和精神的情況下包括所有修改、等價物和替換。同樣，沒有對熟知的功能或構(gòu)造進行詳細描述，這是因為它們可能會用不必要的細節(jié)而使本公開不夠突出。
[0029] 圖1是用于解釋體現(xiàn)語音合成裝置并將其用作智能電話100的示例的圖。
[0030] 如圖1所示，響應(yīng)于向智能電話100輸入文本1"你好"，智能電話100可通過機器將文本1轉(zhuǎn)換為語音2并通過智能電話100的揚聲器來輸出語音2。將要轉(zhuǎn)換為語音的文本可由用戶通過智能電話直接輸入，或可通過將諸如電子書之類的內(nèi)容下載到智能電話上來輸入。智能電話可自動地將輸入文本轉(zhuǎn)換成語音并輸出語音，或可通過用戶按壓語音轉(zhuǎn)換按鈕來輸出語音。為此，需要在智能電話等中使用嵌入式語音合成設(shè)備。
[0031] 關(guān)于嵌入式系統(tǒng)，基于隱馬爾科夫模型(HMM)的語音合成方案已經(jīng)被用作針對語音合成的方案?；贖MM的語音合成方案是基于參數(shù)的語音合成方案，并且該方案被提出以生成具有各種屬性的合成語音。
[0032] 在使用語音編碼中使用的理論的基于HMM的語音合成方案中，可使用HMM來提取和訓練與語音的頻譜、音調(diào)(pitch)和持續(xù)時間相對應(yīng)的參數(shù)。在合成操作中，可使用根據(jù)訓練結(jié)果估計出的參數(shù)和語音編碼的音碼器(vocoder)方案來生成合成語音。由于基于HMM的語音合成方案只需要從語音數(shù)據(jù)庫中提取的參數(shù)，所以基于HMM的語音合成方案需要低容量，并從而在嵌入式系統(tǒng)環(huán)境(比如移動系統(tǒng)或CE設(shè)備）中是有用的，但也存在缺點:所合成的語音的逼真度下降。從而，本公開的各實施例用來克服基于HMM的語音合成方案中的這一缺點。
[0033]圖2是示出了根據(jù)本公開的示例實施例的語音合成裝置100的配置的示意框圖。 [0034]參見圖2,根據(jù)本公開的示例實施例的語音合成裝置100可包括語音參數(shù)數(shù)據(jù)庫 110、處理器120和輸入單元130。
[0035] 語音參數(shù)數(shù)據(jù)庫110可以是用于存儲關(guān)于各語音合成單元和合成單元的各韻律修改的參數(shù)的組件?？赏ㄟ^各韻律修改的參數(shù)來最小化韻律調(diào)整，以生成逼真的合成語音。
[0036] 這里，語音合成單元可以是語音合成的基本單元

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4