語(yǔ)音庫(kù)生成設(shè)備及其方法、語(yǔ)音合成系統(tǒng)及其方法

文檔序號(hào)：6367421閱讀：322來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：語(yǔ)音庫(kù)生成設(shè)備及其方法、語(yǔ)音合成系統(tǒng)及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域，更具體地，涉及一種語(yǔ)音庫(kù)生成設(shè)備及其方法，以及一種語(yǔ)音合成系統(tǒng)及其方法，實(shí)現(xiàn)了自動(dòng)收集預(yù)定的語(yǔ)音數(shù)據(jù)，以及提供特定發(fā)音人的合成的語(yǔ)音。
背景技術(shù)：
實(shí)現(xiàn)人機(jī)之間人性化、智能化的有效交互，構(gòu)建高效自然的人機(jī)交流環(huán)境，已經(jīng)成為當(dāng)前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。作為語(yǔ)音技術(shù)中十分實(shí)用的一項(xiàng)重要技術(shù)，語(yǔ)音合成技術(shù)，或稱文語(yǔ)轉(zhuǎn)換技術(shù)TTSCText-To-Speech)，將文字信息轉(zhuǎn)化為自然的語(yǔ)音信號(hào)，實(shí)現(xiàn)任意文本的實(shí)時(shí)轉(zhuǎn)換。它賦予計(jì)算機(jī)像人一樣自如說(shuō)話的能力，改變了傳統(tǒng)通過錄音回放實(shí)現(xiàn)機(jī)器開口說(shuō)話的繁瑣操作，并節(jié)省了系統(tǒng)存儲(chǔ)空間，在信息交互日益增多的當(dāng)今特別是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢應(yīng)用方法中發(fā)揮了越來(lái)越重要的作用。計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展促成了語(yǔ)音合成技術(shù)的發(fā)展和實(shí)際應(yīng)用?；趩卧暨x的波形拼接語(yǔ)音合成方法由于計(jì)算機(jī)運(yùn)算能力和存儲(chǔ)容量的提高運(yùn)用了更大規(guī)模的音庫(kù)及引入更精細(xì)的單元挑選策略，在很大幅度上提高了合成語(yǔ)音的音質(zhì)，音色和自然度。而另一主流語(yǔ)音合成技術(shù)，基于隱馬爾可夫模型(hidden Markov model,HMM)的參數(shù)語(yǔ)音合成方法，也因其更好的魯棒性能和推廣性獲得很多研究人員的推崇。作為語(yǔ)音合成系統(tǒng)重要組成部分的音庫(kù)，其質(zhì)量如數(shù)據(jù)規(guī)模，精細(xì)度，自然度以及準(zhǔn)確度等對(duì)語(yǔ)音合成系統(tǒng)性能有著重要影響。在基于單元挑選的波形拼接語(yǔ)音合成方法中，系統(tǒng)根據(jù)輸入文本信息直接從標(biāo)注好的語(yǔ)音庫(kù)中挑選合適的單元(音節(jié)、音素、狀態(tài)、幀等)并拼接得到連續(xù)語(yǔ)音段。顯然當(dāng)語(yǔ)料庫(kù)中樣本單元數(shù)量過少或語(yǔ)境環(huán)境單一時(shí)，很可能出現(xiàn)挑選不到合適單元的情況，導(dǎo)致合成效果急劇下降；而在基于隱馬爾可夫模型(hidden Markov model,HMM)的參數(shù)語(yǔ)音合成方法中，系統(tǒng)首先對(duì)語(yǔ)音信號(hào)進(jìn)行參數(shù)化分解并建立各參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)模型，隨后在合成時(shí)利用訓(xùn)練得到的統(tǒng)計(jì)模型預(yù)測(cè)待合成文本的語(yǔ)音參數(shù)，并恢復(fù)最終的合成語(yǔ)音。當(dāng)標(biāo)注音庫(kù)規(guī)模過小或者沒有正確標(biāo)注時(shí)，其模型精確度將得不到有效保障，進(jìn)而造成合成效果的明顯下降。傳統(tǒng)合成系統(tǒng)音庫(kù)的構(gòu)建需要經(jīng)過設(shè)計(jì)、錄音、標(biāo)注等三個(gè)階段。首先在設(shè)計(jì)階段，研究人員在收集大量的語(yǔ)料文本后通過考察音素覆蓋率人工篩檢得到合適的錄音語(yǔ)料。隨后在錄音階段尋找嗓音良好、發(fā)音標(biāo)準(zhǔn)、具有一定播音功底的發(fā)音人，在專業(yè)錄音棚的錄制環(huán)境下完成所述錄音語(yǔ)料的音庫(kù)錄制。最后在標(biāo)注階段由專業(yè)標(biāo)注人員對(duì)錄制的音庫(kù)語(yǔ)音數(shù)據(jù)完成文本修訂、音段切分、韻律標(biāo)注等處理?？梢钥闯?，傳統(tǒng)語(yǔ)音合成系統(tǒng)中音庫(kù)構(gòu)建主要依賴人工操作，需要安排專業(yè)錄音人員選擇對(duì)韻律和音段進(jìn)行手工標(biāo)注，其構(gòu)建所需工作量較大，制作周期較長(zhǎng)，因而音庫(kù)規(guī)模往往受限。另一方面由于音庫(kù)的錄制標(biāo)注工作對(duì)技術(shù)專業(yè)要求較高，語(yǔ)音合成系統(tǒng)往往只能提供有限特定的若干發(fā)音人音色，難以響應(yīng)多樣化的應(yīng)用需求。總之，構(gòu)建傳統(tǒng)音庫(kù)需要大量的人力和工作量，且難以適應(yīng)網(wǎng)絡(luò)時(shí)代定制化和個(gè)性化需求的問題。

發(fā)明內(nèi)容
為了解決上述問題，提出了本發(fā)明。本發(fā)明的目的是提出一種語(yǔ)音庫(kù)生成設(shè)備及語(yǔ)音庫(kù)生成方法，以及一種語(yǔ)音合成系統(tǒng)和語(yǔ)音合成方法。根據(jù)本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備可以通過自動(dòng)收集特定發(fā)音人的語(yǔ)音數(shù)據(jù)生成語(yǔ)音庫(kù)。由于采用自動(dòng)收集的方式而無(wú)需人工收集特定發(fā)音人的語(yǔ)音，語(yǔ)音庫(kù)規(guī)模較大，從而語(yǔ)音合成系統(tǒng)通過采用所述語(yǔ)音庫(kù)可以提供適用于特定發(fā)音人的語(yǔ)音合成，且語(yǔ)音合成系統(tǒng)性能得到了提高。根據(jù)本發(fā)明第一方面，提供了一種語(yǔ)音庫(kù)生成設(shè)備，包括語(yǔ)音提取裝置，用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別裝置，用于將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注裝置，用于對(duì)所述文本進(jìn)行標(biāo)注。根據(jù)本發(fā)明第二方面，提供了一種語(yǔ)音庫(kù)生成方法，包括語(yǔ)音提取步驟，從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別步驟，將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注步驟，對(duì)所述文本進(jìn)行標(biāo)注。根據(jù)本發(fā)明第三方面，提供了一種語(yǔ)音合成系統(tǒng)，包括分詞裝置，用于對(duì)輸入的文本進(jìn)行分詞；查找裝置，用于根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語(yǔ)音庫(kù)中與文本對(duì)應(yīng)的至少一個(gè)預(yù)定發(fā)音人的語(yǔ)音片段；選擇裝置，用于從查找的預(yù)定發(fā)音人的語(yǔ)音片段中選擇最優(yōu)的語(yǔ)音片段；以及合成裝置，用于將挑選的語(yǔ)音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語(yǔ)音序列。根據(jù)本發(fā)明第四方面，提供了一種語(yǔ)音合成方法，包括分詞步驟，對(duì)輸入的文本進(jìn)行分詞；查找步驟，根據(jù)分詞結(jié)果查找語(yǔ)音庫(kù)中與文本對(duì)應(yīng)的至少一個(gè)預(yù)定發(fā)音人的語(yǔ)音片段；選擇步驟，從查找的預(yù)定發(fā)音人的語(yǔ)音片段中選擇最優(yōu)的語(yǔ)音片段；以及合成步驟，將挑選的語(yǔ)音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語(yǔ)音序列。由于本發(fā)明通過從網(wǎng)絡(luò)世界中海量非專業(yè)級(jí)語(yǔ)音數(shù)據(jù)中收集有效數(shù)據(jù)并通過自動(dòng)處理，生成了語(yǔ)音庫(kù)，節(jié)約了大量的人力成本，縮短語(yǔ)音合成系統(tǒng)的構(gòu)建周期以及方便對(duì) 其更新。

從下面結(jié)合附圖的詳細(xì)描述中，本發(fā)明的上述特征和優(yōu)點(diǎn)將更明顯，其中圖I是根據(jù)本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備的示意圖；圖2是預(yù)處理裝置的一個(gè)示例；圖3是根據(jù)本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備生成語(yǔ)音庫(kù)的流程圖；圖4是數(shù)據(jù)信號(hào)預(yù)處理方法的流程圖；圖5是根據(jù)本發(fā)明的語(yǔ)音提取方法的流程圖；圖6是根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法的流程圖；圖7是根據(jù)本發(fā)明語(yǔ)音合成系統(tǒng)的示意圖；圖8示出了根據(jù)本發(fā)明的語(yǔ)音合成方法的流程圖。
具體實(shí)施方式
下面，參考附圖詳細(xì)說(shuō)明本發(fā)明的優(yōu)選實(shí)施方式。在附圖中，雖然示于不同的附圖中，但相同的附圖標(biāo)記用于表示相同的或相似的組件。為了清楚和簡(jiǎn)明，包含在這里的已知的功能和結(jié)構(gòu)的詳細(xì)描述將被省略，否則它們將使本發(fā)明的主題不清楚。圖I示出了根據(jù)本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備的方框圖。語(yǔ)音庫(kù)生成設(shè)備包括用于對(duì)原始收集的數(shù)據(jù)進(jìn)行預(yù)處理的預(yù)處理裝置10 ;用于從預(yù)處理的語(yǔ)音數(shù)據(jù)中提取特定發(fā)音人的語(yǔ)音數(shù)據(jù)的語(yǔ)音提取裝置20 ;用于識(shí)別特定發(fā)音人的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)文本的語(yǔ)音識(shí)別裝置30 ;對(duì)獲取的文本分析獲得標(biāo)注信息以生成語(yǔ)音庫(kù)的文本標(biāo)注裝置40和用于存儲(chǔ)生成的語(yǔ)音庫(kù)的存儲(chǔ)裝置(未示出)。其中，生成的語(yǔ)音庫(kù)可以包括特定發(fā)音人的語(yǔ)音波形數(shù)據(jù)和其相關(guān)的標(biāo)注信息。語(yǔ)音提取裝置20包括用于提取輸入語(yǔ)音的語(yǔ)音聲紋特征序列的聲紋特征提取單元201 ;用于計(jì)算提取的語(yǔ)音聲紋特征序列與背景模型的第一似然度的第一計(jì)算單元202 ;用于計(jì)算提取的語(yǔ)音聲紋特征序列與特定發(fā)音人的說(shuō)話人聲紋模型的第二似然度的第二計(jì)算單元203以及比較第二似然度與第一似然度之比并將比值大于預(yù)定閾值的語(yǔ)音數(shù)據(jù)確定為特定發(fā)音人的語(yǔ)音數(shù)據(jù)的第一判別單元204。語(yǔ)音識(shí)別裝置30包括用于從特定發(fā)音人的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音聲學(xué)參數(shù)并解碼為文本的識(shí)別單元301 ;用于計(jì)算解碼的置信度的置信度計(jì)算單元302和將置信度大于預(yù)定閾值的數(shù)據(jù)判斷為有效文本的第二判別單元303。圖2示出了預(yù)處理裝置10的一個(gè)示例。由于輸入語(yǔ)音庫(kù)生成設(shè)備的語(yǔ)音數(shù)據(jù)是從各種信息渠道收集，其質(zhì)量參差不齊，因此需要對(duì)輸入的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理以獲取有效的語(yǔ)音數(shù)據(jù)。預(yù)處理裝置10包括規(guī)整單元101 ;信道均衡單元102 ;分句處理單元103和噪音去除單元104。預(yù)處理裝置10可以采用現(xiàn)有技術(shù)實(shí)現(xiàn)。此外，預(yù)處理裝置10可以包括音頻視頻分離單元(未示出)，用于對(duì)收集到的視頻文件進(jìn)行音頻視頻分離轉(zhuǎn)錄其中的音軌數(shù)據(jù)以獲得語(yǔ)音數(shù)據(jù)。下面將參考圖3-圖6具體描述本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備如何生成語(yǔ)音庫(kù)的處理流程。圖3示出了根據(jù)本發(fā)明的語(yǔ)音庫(kù)生成設(shè)備生成語(yǔ)音庫(kù)的示意處理流程。輸入語(yǔ)音庫(kù)生成設(shè)備的語(yǔ)音數(shù)據(jù)可以是從各種信息渠道海量非專業(yè)級(jí)語(yǔ)音數(shù)據(jù)中收集的數(shù)據(jù)，例如，從豐富的網(wǎng)絡(luò)資源或電視、廣播等渠道收集的各種音頻、視頻數(shù)據(jù)，如影視劇、有聲小說(shuō)、電話留言。由于原始收集的音視頻信號(hào)來(lái)源復(fù)雜，質(zhì)量也參差不齊，在步驟S60，預(yù)處理裝置10對(duì)收集的音視頻信號(hào)執(zhí)行預(yù)處理，以提取有效的語(yǔ)音數(shù)據(jù)。在步驟S61，語(yǔ)音提取裝置20從收集的多人的語(yǔ)音數(shù)據(jù)中提取特定發(fā)音人的語(yǔ)音數(shù)據(jù)。通常為了提高合成語(yǔ)音的可懂度及自然度，構(gòu)建語(yǔ)音庫(kù)時(shí)需要考慮對(duì)某些特定發(fā)音人的合成語(yǔ)音提供支持，本發(fā)明可以采用聲紋識(shí)別等技術(shù)對(duì)語(yǔ)音的發(fā)音人身份進(jìn)行判斷，獲得所述特定發(fā)音人的語(yǔ)音數(shù)據(jù)。在步驟S62，語(yǔ)音識(shí)別裝置30將特定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本。特別的，為了確保語(yǔ)音識(shí)別(轉(zhuǎn)寫)的準(zhǔn)確性，本發(fā)明提出一種基于置信度判別的算法，在對(duì)語(yǔ)音信號(hào)通過語(yǔ)音識(shí)別等技術(shù)進(jìn)行識(shí)別后進(jìn)一步計(jì)算該識(shí)別的置信度。只有當(dāng)該置信度高于預(yù)定閾值時(shí)該語(yǔ)音信號(hào)才被判定為有效語(yǔ)音數(shù)據(jù)。在步驟S63，文本標(biāo)注裝置40對(duì)有效語(yǔ)音數(shù)據(jù)通過文本分析，獲取上下文韻律等標(biāo)注信息作為文本的標(biāo)注。由于輸入語(yǔ)音庫(kù)生成設(shè)備的語(yǔ)音數(shù)據(jù)是從各種信息渠道收集，其質(zhì)量參差不齊，因此需要對(duì)輸入的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理以提高采集數(shù)據(jù)的質(zhì)量。圖4具體示出了數(shù)據(jù)信號(hào)預(yù)處理方法的流程圖。首先在步驟S70，規(guī)整單元101需要對(duì)收集的信號(hào)進(jìn)行格式和能量的規(guī)整。具體的，對(duì)收集到的各種語(yǔ)音數(shù)據(jù)做格式和能量的規(guī)整，比如轉(zhuǎn)成16k，16bit wav格式等?？蛇x地，音頻視頻分離單元可以收集視頻文件中的語(yǔ)音數(shù)據(jù)，對(duì)收集到的視頻文件進(jìn)行音視頻分離轉(zhuǎn)錄其中的音軌數(shù)據(jù)以獲得語(yǔ)音數(shù)據(jù)。之后，在步驟S71，信道均衡單元102對(duì)規(guī)整的數(shù)據(jù)執(zhí)行信道均衡等處理以減少噪音對(duì)語(yǔ)音信號(hào)的干擾，提高語(yǔ)音數(shù)據(jù)質(zhì)量。原始收集的數(shù)據(jù)由于來(lái)源信道不同或在不同環(huán)境下錄制，語(yǔ)音聽感差異往往較大。對(duì)此本發(fā)明采用信道均衡技術(shù)，將任意批次的數(shù)據(jù)信道均衡處理到預(yù)先指定的某個(gè)批次數(shù)據(jù)的聽感感覺上。在步驟S72，分句處理單元103利用端點(diǎn)檢測(cè)技術(shù)對(duì)收集到的語(yǔ)音數(shù)據(jù)分句處理?？梢酝ㄟ^對(duì)語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過零率等進(jìn)行分析，將連續(xù)的語(yǔ)音信號(hào)分割成獨(dú)立的語(yǔ)音片斷和非語(yǔ)音片斷，并標(biāo)定每一段人聲語(yǔ)音的起始位置。在步驟S73，噪音去除單元104刪除收集數(shù)據(jù)中無(wú)意義的噪音段。根據(jù)步驟S72的端點(diǎn)檢測(cè)結(jié)果，對(duì)界定為非純凈人聲的聲音標(biāo)定為噪聲或靜音段直接丟棄。在對(duì)收集的數(shù)據(jù)預(yù)處理之后，語(yǔ)音提取裝置提取語(yǔ)音數(shù)據(jù)。圖5示出了根據(jù)本發(fā)明的語(yǔ)音提取裝置提取語(yǔ)音數(shù)據(jù)的方法的流程圖。為了提高合成語(yǔ)音的可懂度及自然度，語(yǔ)音庫(kù)可以支持特定發(fā)音人的合成語(yǔ)音。例如，特定發(fā)音人可以是預(yù)定的，也可以由用戶指定。預(yù)定的特定發(fā)音人可以是名人，卡通人物等公眾人物，用戶指定的特定發(fā)音人可以是用戶喜愛的特定人物等。
語(yǔ)音提取裝置20采用了聲紋識(shí)別等技術(shù)對(duì)語(yǔ)音發(fā)音人的身份進(jìn)行判斷，通過分別計(jì)算作為收集的語(yǔ)音數(shù)據(jù)所對(duì)應(yīng)的語(yǔ)音段的聲紋特征序列和特定發(fā)音人聲紋模型的匹配得分以及該聲紋特征序列和背景模型的匹配得分的比值，確認(rèn)其和預(yù)定閾值的大小關(guān)系，以確定收集的語(yǔ)音數(shù)據(jù)的有效性。具體地，在步驟S80，聲紋特征提取單元201從預(yù)處理的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音聲紋特征序列。該聲紋特征序列包含一組聲紋特征，可以有效地區(qū)分不同的說(shuō)話人，且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定。所述聲紋特征主要有譜包絡(luò)參數(shù)語(yǔ)音特征，基音輪廓、共振峰頻率帶寬特征，線性預(yù)測(cè)系數(shù)，倒譜系數(shù)等?？紤]到上述聲紋特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)等問題，可以選用Mel頻率倒譜系數(shù)MFCC (Mel Frequency CepstrumCoefficient,)特征,對(duì)窗長(zhǎng)25ms巾貞移IOms的每巾貞語(yǔ)音數(shù)據(jù)做短時(shí)分析得到MFCC參數(shù)及其一階二階差分，共計(jì)39維。從而將每句語(yǔ)音信號(hào)量化為一個(gè)39維聲紋特征矢量序列X。在步驟S81，第一計(jì)算單元202計(jì)算所述聲紋特征序列與背景模型(UBM)(Universal Background Model)的似然度。具體的，本發(fā)明設(shè)定背景模型為GMM(GuassianMixture Model)模型并計(jì)算幀數(shù)為T的聲紋特征矢量序列X相應(yīng)于背景模型的似然度為P(XIUBM) = ^X ZcmN(Xt;//m,Em)
I t:l m:l( I )
其中，Cni是第m個(gè)高斯的加權(quán)系數(shù)，滿足
權(quán)利要求
1.ー種語(yǔ)音庫(kù)生成設(shè)備,包括語(yǔ)音提取裝置，用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別裝置，用于將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注裝置，用于對(duì)所述文本進(jìn)行標(biāo)注。
2.如權(quán)利要求I所述的語(yǔ)音庫(kù)生成設(shè)備，其中還包括預(yù)處理裝置，用于對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理。
3.如權(quán)利要求I或2所述的語(yǔ)音庫(kù)生成設(shè)備，其中所述語(yǔ)音提取裝置包括聲紋特征提取單元，用于提取收集的數(shù)據(jù)中的語(yǔ)音聲紋特征序列；第一計(jì)算單元，用于計(jì)算所述語(yǔ)音聲紋特征序列與背景模型的第一似然度；第二計(jì)算單元，用于計(jì)算所述語(yǔ)音聲紋特征序列與預(yù)定發(fā)音人的說(shuō)話人聲紋模型的第ニ似然度；第一判別單元，用于將所述第二似然度與所述第一似然度之比大于第一閾值的語(yǔ)音數(shù)據(jù)確定為預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)。
4.如權(quán)利要求I至3之一所述的語(yǔ)音庫(kù)生成設(shè)備，其中所述語(yǔ)音識(shí)別裝置包括識(shí)別單元，用于從預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音聲學(xué)參數(shù)，將所述語(yǔ)音聲學(xué)參數(shù)解碼以獲得第一識(shí)別文本；置信度計(jì)算單元，用于計(jì)算所述解碼的置信度；第二判別單元，用于將所述置信度大于第二閾值的所述第一識(shí)別文本確定為第二識(shí)別文本。
5.ー種語(yǔ)音庫(kù)生成方法，包括語(yǔ)音提取步驟，從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別步驟，將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注步驟，對(duì)所述文本進(jìn)行標(biāo)注。
6.如權(quán)利要求5所述的語(yǔ)音庫(kù)生成方法，其中還包括預(yù)處理步驟，對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理。
7.如權(quán)利要求5或6所述的語(yǔ)音庫(kù)生成方法，其中所述語(yǔ)音提取步驟包括聲紋特征提取步驟，提取收集的數(shù)據(jù)中的語(yǔ)音聲紋特征序列；第一計(jì)算步驟，計(jì)算所述語(yǔ)音聲紋特征序列與背景模型的第一似然度；第二計(jì)算步驟，計(jì)算所述語(yǔ)音聲紋特征序列與預(yù)定發(fā)音人的說(shuō)話人聲紋模型的第二似然度；第一判別步驟，將所述第二似然度與所述第一似然度之比大于第一閾值的語(yǔ)音數(shù)據(jù)確定為預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)。
8.如權(quán)利要求5至7之一所述的語(yǔ)音庫(kù)生成方法，其中所述語(yǔ)音識(shí)別步驟包括識(shí)別步驟，從預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音聲學(xué)參數(shù)，將所述語(yǔ)音聲學(xué)參數(shù)解碼以獲得第一識(shí)別文本；置信度計(jì)算步驟，計(jì)算所述解碼的置信度；第二判別步驟，將所述置信度大于第二閾值的所述第一識(shí)別文本確定為第二識(shí)別文本。
9.一種語(yǔ)音合成系統(tǒng),包括分詞裝置，用于對(duì)輸入的文本進(jìn)行分詞；查找裝置，用于根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語(yǔ)音庫(kù)中與文本對(duì)應(yīng)的至少ー個(gè)預(yù)定發(fā)音人的語(yǔ)音片段；選擇裝置，用于從查找的預(yù)定發(fā)音人的語(yǔ)音片段中選擇最優(yōu)的語(yǔ)音片段；以及合成裝置，用于將挑選的語(yǔ)音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語(yǔ)音序列。
10.如權(quán)利要求9所述的語(yǔ)音合成系統(tǒng)，其中還包括用于生成語(yǔ)音庫(kù)的語(yǔ)音庫(kù)生成設(shè)備，所述語(yǔ)音庫(kù)生成設(shè)備包括語(yǔ)音提取裝置，用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別裝置，用于將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注裝置，用于對(duì)所述文本進(jìn)行標(biāo)注。
11.如權(quán)利要求9或10所述的語(yǔ)音合成系統(tǒng)，其中還包括用于在滿足第一預(yù)定條件時(shí)更新預(yù)定發(fā)音人語(yǔ)音庫(kù)的第一更新裝置。
12.如權(quán)利要求9或10所述的語(yǔ)音合成系統(tǒng)，其中還包括用于在滿足第二預(yù)定條件時(shí)更新語(yǔ)音合成系統(tǒng)的第二更新裝置。
13.—種語(yǔ)音合成方法,包括分詞步驟，對(duì)輸入的文本進(jìn)行分詞；查找步驟，根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語(yǔ)音庫(kù)中與文本對(duì)應(yīng)的至少ー個(gè)預(yù)定發(fā)音人的語(yǔ)音片段；選擇步驟，從查找的預(yù)定發(fā)音人的語(yǔ)音片段中選擇最優(yōu)的語(yǔ)音片段；以及合成步驟，將挑選的語(yǔ)音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語(yǔ)音序列。
14.如權(quán)利要求13所述的語(yǔ)音合成方法，其中還包括生成語(yǔ)音庫(kù)的語(yǔ)音庫(kù)生成步驟，所述語(yǔ)音庫(kù)生成步驟包括語(yǔ)音提取步驟，從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別步驟，將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注步驟，對(duì)所述文本進(jìn)行標(biāo)注。
15.如權(quán)利要求13或14所述的語(yǔ)音合成方法，其中還包括用于在滿足第一預(yù)定條件時(shí)更新預(yù)定發(fā)音人語(yǔ)音庫(kù)的第一更新步驟。
16.如權(quán)利要求13或14所述的語(yǔ)音合成方法，其中還包括用于在滿足第二預(yù)定條件時(shí)采用自適應(yīng)算法的第二更新步驟。
全文摘要
本發(fā)明提供一種語(yǔ)音庫(kù)生成設(shè)備及其方法，所述語(yǔ)音庫(kù)生成設(shè)備包括語(yǔ)音提取裝置，用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)；語(yǔ)音識(shí)別裝置，用于將所述預(yù)定發(fā)音人的語(yǔ)音數(shù)據(jù)識(shí)別為文本；文本標(biāo)注裝置，用于對(duì)所述文本進(jìn)行標(biāo)注。以及本發(fā)明提供一種語(yǔ)音合成系統(tǒng)及其方法。由于本發(fā)明通過自動(dòng)收集數(shù)據(jù)并自動(dòng)處理，生成語(yǔ)音庫(kù)，節(jié)約了大量的人力成本。此外，縮短語(yǔ)音合成系統(tǒng)的構(gòu)建周期以及方便對(duì)其進(jìn)行更新，并實(shí)現(xiàn)個(gè)性化定制。
文檔編號(hào)G06F17/27GK102779508SQ201210091240
公開日2012年11月14日申請(qǐng)日期2012年3月31日優(yōu)先權(quán)日2012年3月31日
發(fā)明者凌震華, 劉慶峰, 江源, 胡國(guó)平, 胡郁申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江源;凌震華;胡國(guó)平;胡郁;劉慶峰
技術(shù)所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

科大訊飛語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

錄音員語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

在線語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

語(yǔ)音合成叫賣系統(tǒng)相關(guān)技術(shù)

文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

百度語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

訊飛語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語(yǔ)音庫(kù)生成設(shè)備及其方法、語(yǔ)音合成系統(tǒng)及其方法

語(yǔ)音庫(kù)生成設(shè)備及其方法、語(yǔ)音合成系統(tǒng)及其方法