[0039]可以理解的是,需要進(jìn)行語(yǔ)音合成的語(yǔ)段常常會(huì)有較大的長(zhǎng)度,而人物語(yǔ)音庫(kù)中通常不會(huì)存儲(chǔ)所述語(yǔ)段的完整語(yǔ)音。所以,優(yōu)選的,可以對(duì)所述語(yǔ)段進(jìn)行進(jìn)一步的劃分,對(duì)一個(gè)語(yǔ)段中不同的文本片段分別調(diào)取對(duì)應(yīng)的語(yǔ)音片段,再將調(diào)取到的語(yǔ)音片段依照先后順序進(jìn)行拼接而形成最終的人物語(yǔ)音。進(jìn)一步優(yōu)選的,可以根據(jù)基音同步疊加(Pitch-synchronous overlap and add, PSOLA)算法對(duì)調(diào)取到的語(yǔ)音片段進(jìn)行拼接。
[0040]需要說(shuō)明的是,針對(duì)同一個(gè)需要制作有聲讀物的語(yǔ)篇,不會(huì)出現(xiàn)兩個(gè)人物使用同一個(gè)說(shuō)話人的人物語(yǔ)音。如果在同一個(gè)語(yǔ)篇中出現(xiàn)了這樣的兩個(gè)或者兩個(gè)以上的人物,他們的基本屬性的取值都完全一致,則可以讓這些人物分別選用相同的基本屬性取值對(duì)應(yīng)的不同的語(yǔ)音樣本。這樣,能夠保證聽(tīng)眾收聽(tīng)到的語(yǔ)音中不同的人物的音質(zhì)、音色有所區(qū)別,也就是說(shuō)聽(tīng)眾能夠通過(guò)收聽(tīng)到的語(yǔ)音分別不同人物的聲音。
[0041]本實(shí)施例在所述屬性標(biāo)簽為說(shuō)話人的基本屬性標(biāo)簽時(shí),根據(jù)所述說(shuō)話人的基本屬性標(biāo)簽,從人物語(yǔ)音庫(kù)中調(diào)取對(duì)應(yīng)的聲音朗讀所述文本字段中的文字,形成所述有聲讀物的人物語(yǔ)音,從而完成了根據(jù)說(shuō)話人的基本屬性標(biāo)簽的語(yǔ)音合成,提高了自動(dòng)制作的有聲讀物的逼真度。
[0042]實(shí)施例三
[0043]本實(shí)施例以本發(fā)明上述實(shí)施例為基礎(chǔ),進(jìn)一步的提供了有聲讀物的語(yǔ)音合成方法中語(yǔ)音輸出的一種技術(shù)方案。在該技術(shù)方案中,根據(jù)所述屬性標(biāo)簽,從語(yǔ)音庫(kù)中調(diào)取與所述屬性標(biāo)簽對(duì)應(yīng)的聲音,形成所述有聲讀物的語(yǔ)音包括:如果所述屬性標(biāo)簽為說(shuō)話人的基本屬性標(biāo)簽,則根據(jù)所述說(shuō)話人的基本屬性標(biāo)簽,從人物語(yǔ)音庫(kù)中調(diào)取對(duì)應(yīng)的聲音朗讀所述文本字段中的文字,形成所述有聲讀物的人物語(yǔ)音;如果所述屬性標(biāo)簽為場(chǎng)景屬性標(biāo)簽,則從場(chǎng)景語(yǔ)音庫(kù)中調(diào)取場(chǎng)景背景音,將所述場(chǎng)景背景音疊加至所述人物語(yǔ)音;如果所述屬性標(biāo)簽為場(chǎng)景圖像屬性標(biāo)簽,則根據(jù)場(chǎng)景信息獲取圖像,并設(shè)置所述圖像的播放時(shí)間與所述人物語(yǔ)音的播放時(shí)間匹配。
[0044]參見(jiàn)圖2,根據(jù)所述屬性標(biāo)簽,從語(yǔ)音庫(kù)中調(diào)取與所述屬性標(biāo)簽對(duì)應(yīng)的聲音,形成所述有聲讀物的語(yǔ)音包括:
[0045]S21,如果所述屬性標(biāo)簽為說(shuō)話人的基本屬性標(biāo)簽,則根據(jù)所述說(shuō)話人的基本屬性標(biāo)簽,從人物語(yǔ)音庫(kù)中調(diào)取對(duì)應(yīng)的聲音朗讀所述文本字段中的文字,形成所述有聲讀物的人物語(yǔ)音。
[0046]S22,如果所述屬性標(biāo)簽為場(chǎng)景屬性標(biāo)簽,則從場(chǎng)景語(yǔ)音庫(kù)中調(diào)取場(chǎng)景背景音,將所述場(chǎng)景背景音疊加至所述人物語(yǔ)音。
[0047]若獲取到的屬性標(biāo)簽是場(chǎng)景屬性標(biāo)簽,說(shuō)明所述文本片段有其對(duì)應(yīng)的場(chǎng)景屬性標(biāo)簽與之關(guān)聯(lián)。此時(shí),可以從預(yù)置的場(chǎng)景語(yǔ)音庫(kù)中調(diào)取到所述場(chǎng)景屬性標(biāo)簽對(duì)應(yīng)的場(chǎng)景背景音,并將調(diào)取到的場(chǎng)景背景音與所述人物語(yǔ)音進(jìn)行疊加。
[0048]例如,提取到所述文本片段對(duì)應(yīng)的場(chǎng)景屬性標(biāo)簽的取值是冬季,則可以將狂風(fēng)的場(chǎng)景背景音疊加至所述人物語(yǔ)音。
[0049]并不是所有的文本片段都對(duì)應(yīng)有場(chǎng)景屬性標(biāo)簽,需要視所述文本片段的上下文的具體內(nèi)容來(lái)確定。因此,并不是所有人物語(yǔ)音都需要在其上疊加場(chǎng)景背景音。
[0050]S23,如果所述屬性標(biāo)簽為場(chǎng)景圖像屬性標(biāo)簽,則根據(jù)場(chǎng)景信息獲取圖像,并設(shè)置所述圖像的播放時(shí)間與所述人物語(yǔ)音的播放時(shí)間匹配。
[0051]所述場(chǎng)景圖像屬性標(biāo)簽的取值可以依照相同的文本片段的場(chǎng)景屬性標(biāo)簽來(lái)確定。例如,所述文本片段的場(chǎng)景屬性標(biāo)簽的取值是“冬季”時(shí),所述文本片段的場(chǎng)景圖像屬性標(biāo)簽的取值可以是若干幅內(nèi)容為雪景的圖像。
[0052]根據(jù)所述場(chǎng)景圖像屬性標(biāo)簽獲取到需要播放的圖像以后,根據(jù)該場(chǎng)景的起止時(shí)間設(shè)置所述圖像的播放時(shí)間,并根據(jù)所述播放時(shí)間將所述圖像與所述語(yǔ)音進(jìn)行同步的播放。
[0053]本實(shí)施例通過(guò)在獲取人物語(yǔ)音之后,當(dāng)所述屬性標(biāo)簽為場(chǎng)景屬性標(biāo)簽之時(shí),從場(chǎng)景語(yǔ)音庫(kù)中調(diào)取場(chǎng)景背景音,將所述場(chǎng)景背景音疊加至所述人物語(yǔ)音,而當(dāng)所述屬性標(biāo)簽為場(chǎng)景圖像屬性標(biāo)簽之時(shí),根據(jù)場(chǎng)景信息獲取圖像,并設(shè)置所述圖像的播放時(shí)間與所述人物語(yǔ)音的播放時(shí)間匹配,從而實(shí)現(xiàn)了場(chǎng)景背景音的疊加,以及場(chǎng)景圖像的同步播放,進(jìn)一步提升了有聲讀物的播放效果。
[0054]實(shí)施例四
[0055]本實(shí)施例以本發(fā)明的上述實(shí)施例為基礎(chǔ),進(jìn)一步的提供了有聲讀物的語(yǔ)音合成方法的一種技術(shù)方案。在該技術(shù)方案中,所述有聲讀物的語(yǔ)音合成方法還包括:對(duì)有聲讀物中文本進(jìn)行語(yǔ)義分析,獲取需要輸出有聲讀物的文本片段;識(shí)別所述文本片段的說(shuō)話人的屬性,為所述文本片段設(shè)置說(shuō)話人的基本屬性標(biāo)簽。
[0056]參見(jiàn)圖3,所述有聲讀物的語(yǔ)音合成方法包括:
[0057]S31,對(duì)有聲讀物中文本進(jìn)行語(yǔ)義分析,獲取需要輸出有聲讀物的文本片段。
[0058]可以理解的是,原始文本中并不是所有的部分都需要被制作成有聲讀物中的語(yǔ)音。比如,一些對(duì)故事背景進(jìn)行敘述的部分可能在最終制作的有聲讀物中并不需要有任何體現(xiàn)。因此,在真正制作有聲讀物時(shí),首先需要通過(guò)對(duì)原始文本的語(yǔ)義分析,獲取需要輸出有聲讀物的文本片段。
[0059]S32,識(shí)別所述文本片段的說(shuō)話人的屬性,為所述文本片段設(shè)置說(shuō)話人的基本屬性標(biāo)簽。
[0060]所述說(shuō)話人的屬性可以說(shuō)話人的性別、年齡段或者口音。因此,為說(shuō)話人設(shè)置的基本屬性標(biāo)簽包括:說(shuō)話人的性別標(biāo)簽、年齡段標(biāo)簽和/或口音標(biāo)簽。這些基本屬性標(biāo)簽在后續(xù)的語(yǔ)音合成階段可能被語(yǔ)音合成程序所提取。
[0061]S33,提取所述有聲讀物中文本片段的屬性標(biāo)簽。
[0062]S34,根據(jù)所述屬性標(biāo)簽,從語(yǔ)音庫(kù)中調(diào)取與所述屬性標(biāo)簽對(duì)應(yīng)的聲音,形成所述有聲讀物的語(yǔ)音。
[0063]本實(shí)施例通過(guò)在提取所述有聲讀物的文本片段的屬性標(biāo)簽之前,對(duì)有聲讀物中文本進(jìn)行語(yǔ)義分析,獲取需要輸出有聲讀物的文本片段,識(shí)別所述文本片段的說(shuō)話人的屬性,為所述文本片段設(shè)置說(shuō)話人的屬性標(biāo)簽,從而在原始文本的文本分析階段完成了對(duì)說(shuō)話人的基本屬性標(biāo)簽設(shè)置。
[0064]實(shí)施例五
[0065]本實(shí)施例以本發(fā)明的上述實(shí)施例為基礎(chǔ),進(jìn)一步的提供了有聲讀物的語(yǔ)音合成方法的一種技術(shù)方案。在該技術(shù)方案中,所述有聲讀物的語(yǔ)音合成方法還包括:識(shí)別所述文本片段的場(chǎng)景信息,為所述文本片段設(shè)置場(chǎng)景屬性標(biāo)簽和/或場(chǎng)景圖像屬性標(biāo)簽。
[0066]參見(jiàn)圖4,所述有聲讀物的語(yǔ)音合成方法包括:
[0067]S41,對(duì)有聲讀物中文本進(jìn)行語(yǔ)義分析,獲取需要輸出有聲讀物的文本片段。
[0068]S42,識(shí)別所述文本片段的說(shuō)話人的屬性,為所述文本片段設(shè)置說(shuō)話人的基本屬性標(biāo)簽。
[0069]S43,識(shí)別所述文本片段的場(chǎng)景信息,為所述文本片段設(shè)置場(chǎng)景屬性標(biāo)簽和/或場(chǎng)景圖像屬性標(biāo)簽。
[0070]優(yōu)選的,通過(guò)對(duì)原始文本中文本片段的上下文的語(yǔ)義分析識(shí)別所述文本片段的場(chǎng)景信息,并根據(jù)所述場(chǎng)景信息的識(shí)別結(jié)果,對(duì)所述文本片段設(shè)置場(chǎng)景屬性標(biāo)簽和/或場(chǎng)景圖像屬性標(biāo)簽。
[0071]S44,提取所述有聲讀物中文本片段的屬性標(biāo)簽。
[0072]S45,根據(jù)所述屬性標(biāo)簽,從語(yǔ)音庫(kù)中調(diào)取與所述屬性標(biāo)簽對(duì)應(yīng)的聲音,形成所述有聲讀物的語(yǔ)音。
[0073]本實(shí)施例通過(guò)在為文本片段設(shè)置說(shuō)話人的基本屬性標(biāo)簽之后,識(shí)別所述文本片段的場(chǎng)景信息,并為所述文本片段設(shè)置場(chǎng)景屬性標(biāo)簽和/或場(chǎng)景圖像屬性標(biāo)簽,,從而在原始文本的文本分析階段完成了對(duì)場(chǎng)景屬性標(biāo)簽和/或場(chǎng)景圖像屬性標(biāo)簽的設(shè)置。
[0074]實(shí)施例六
[0075]本實(shí)施例提供了有聲讀物的語(yǔ)音合成方法的一種技術(shù)方案。參見(jiàn)圖5,所述有聲讀物的語(yǔ)音合成方法包括:
[0076]S51,對(duì)待轉(zhuǎn)換小說(shuō)標(biāo)記小說(shuō)人物屬性。
[0077]在本實(shí)施例中,待轉(zhuǎn)換的原始文本是小說(shuō)。首先,從所述待轉(zhuǎn)換小說(shuō)中識(shí)別需要生成有聲讀物中的語(yǔ)音的語(yǔ)段,并依據(jù)不同語(yǔ)段的說(shuō)話人對(duì)不同的語(yǔ)段標(biāo)記小說(shuō)人物屬性。
[0078]所述小說(shuō)人物屬性可以是小說(shuō)中人物的性別、年齡段和/或口音特征。
[0079]S52,對(duì)待轉(zhuǎn)換小說(shuō)標(biāo)記小說(shuō)場(chǎng)景屬性。
[0080]不同的語(yǔ)段可能對(duì)應(yīng)于不同的場(chǎng)景信息,在對(duì)不同的語(yǔ)段標(biāo)記小說(shuō)人物屬性之后,再對(duì)不同的語(yǔ)段標(biāo)記小說(shuō)場(chǎng)景屬性。例如,所述小說(shuō)場(chǎng)景屬性可以是“戰(zhàn)場(chǎng)”,或者“音樂(lè)廳”。