有聲讀物的語音合成方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明實施例涉及語音合成技術領域,尤其涉及一種有聲讀物的語音合成方法和
目.0
【背景技術】
[0002]近年來,聽書成為一種時尚潮流,越來越多的人開始接觸有聲讀物,聽書成為在公交車上打發(fā)時間,在睡覺前放松心情,在做家務時添加情趣的全新娛樂方式。有調(diào)查顯示,在2008年的暑假中,排在大中學生的假期娛樂活動的前三甲是:看奧運、聽書、玩網(wǎng)游。聽書在我國作為一種新的娛樂方式,已經(jīng)開始嶄露頭角。
[0003]在聽書平臺上,有聲讀物是這些平臺上最為重要的數(shù)據(jù)資源。有聲讀物的制作方式可以分為人工方式和自動方式。人工的有聲讀物制作方式為不同的小說著作,單獨的錄制有聲讀物。顯然,這種制作方式的重復工作量較大。而現(xiàn)有的采用文本解析和語音合成的自動有聲讀物制作方式并不針對不同的人物,或者不同的場景輸出不同類型的語音,造成制作的有聲讀物的逼真度不高,難以受到聽眾的歡迎。
【發(fā)明內(nèi)容】
[0004]針對上述技術問題,本發(fā)明實施例提供了一種有聲讀物的語音合成方法和裝置,以提高自動合成的有聲讀物的逼真度。
[0005]第一方面,本發(fā)明實施例提供了一種有聲讀物的語音合成方法,所述方法包括:
[0006]提取所述有聲讀物中文本片段的屬性標簽;
[0007]根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音。
[0008]第二方面,本發(fā)明實施例還提供了一種有聲讀物的語音合成裝置,所述裝置包括:
[0009]標簽提取模塊,用于提取所述有聲讀物中文本片段的屬性標簽;
[0010]語音輸出模塊,用于根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音。
[0011]本發(fā)明實施例提供的有聲讀物的語音合成方法和裝置通過提取所述有聲讀物中文本片段的屬性標簽,根據(jù)所述屬性標簽,從所述語音庫中調(diào)取與屬性對應的聲音,形成所述有聲讀物的語音,從而使得制作的有聲讀物針對不同的人物輸出不同類型的語音,提高了自動制作的有聲讀物的逼真度。
【附圖說明】
[0012]圖1是本發(fā)明實施例一提供的有聲讀物的語音合成方法的流程圖;
[0013]圖2是本發(fā)明實施例三提供的有聲讀物的語音合成方法中語音輸出的流程圖;
[0014]圖3是本發(fā)明實施例四提供的有聲讀物的語音合成方法的流程圖;
[0015]圖4是本發(fā)明實施例五提供的有聲讀物的語音合成方法的流程圖;
[0016]圖5是本發(fā)明實施例六提供的有聲讀物的語音合成方法的流程圖;
[0017]圖6是本發(fā)明實施例七提供的有聲讀物的語音合成裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0018]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結(jié)構(gòu)。
[0019]實施例一
[0020]本實施例提供了有聲讀物的語音合成方法的一種技術方案。在該技術方案中,所述有聲讀物的語音合成方法包括:提取所述有聲讀物中文本片段的屬性標簽;根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音。
[0021]參見圖1,所述有聲讀物的語音合成方法包括:
[0022]S11,提取所述有聲讀物中文本片段的屬性標簽。
[0023]所述文本片段是通過對需要制作有聲讀物的文本進行分析而得到的文本的片段。所述文本片段是通過上述分析而劃分得到的。優(yōu)選的,所述分析是對原始文本的分段操作。進一步優(yōu)選的,所述分析是依據(jù)原始文本中的標點符號以及敏感詞語而執(zhí)行的分段操作。具體的,所述分析可以是依據(jù)原始文本中的雙引號而執(zhí)行的分段操作。并且,所述文本片段可以是語句或者語段。
[0024]通過對所述文本的語義分析,可以得到所述文本片段的不同的屬性標簽。所述屬性標簽可以是說話人的基本屬性標簽、場景屬性標簽或者場景圖像屬性標簽。
[0025]所述說話人的基本屬性標簽中記錄了所述文本片段對應的說話人的基本屬性。比如,所述說話人的基本屬性標簽可以是說話人的性別標簽、說話人的年齡段標簽和/或說話人的口音標簽。而不同類型的說話人的基本屬性標簽的取值,可以通過對原始文本的語義分析而獲得。比如,原始文本中出現(xiàn)小美這個小妮子很聰明”,則可以確定說話人“小美”的性別標簽的取值是女性,并且她的年齡段標簽的取值是15歲到25歲之間。
[0026]所述場景屬性標簽用來表示所述文本片段所屬的場景。具體的,所述場景可以是所述文本片段描述的故事情節(jié)所處的季節(jié)、當時的天氣和/或周圍的環(huán)境。所述場景屬性標簽可以通過對所述文本片段的上下文的語義分析而獲得。例如,如果所述文本片段的上下文中出現(xiàn)了這樣的文字天空中飄著鵝毛大雪”,則說明所述場景屬性標簽的取值應該是冬季。再比如,如果所述文本片段的上下文中出現(xiàn)了如下文字前面沖鋒的戰(zhàn)友一個接一個的倒下了”,則說明所述場景屬性標簽的取值是戰(zhàn)場。
[0027]可以理解的是,為了提高有聲讀物的逼真程度,可以根據(jù)所述文本片段的場景屬性標簽的取值,為合成的語音添加不同的背景音。比如,對于場景屬性標簽的取值是戰(zhàn)場的文本片段,可以為對應的語音添加槍炮聲的背景音。
[0028]所述場景圖像屬性標簽用于表示當需要為生成的語音配合顯示圖像時,應該顯示怎樣的圖像的屬性標簽。所述場景圖像屬性標簽的取值可以根據(jù)所述文本片段的場景屬性標簽的取值來確定。例如,可以確定所述文本片段對應的場景屬性標簽的取值是冬天時,應該向用戶顯示的一幅或者多幅圖像。
[0029]S12,根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音。
[0030]獲取到所述文本片段對應的說話人的基本屬性標簽、場景屬性標簽和/或場景圖像屬性標簽之后,根據(jù)上述獲取到的各種屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音。
[0031]所述語音庫包括人物語音庫以及場景語音庫。所述人物語音庫中存儲著具有不同的基本屬性標簽的說話人的語音片段。所述場景語音庫中存儲著不同場景對應的背景音。
[0032]優(yōu)選的,可以從所述人物語音庫中獲取到不同的文本片段對應的語音片段,再利用這些語音片段形成最終的聲音。進一步的,如果能夠從所述文本片段中提取到場景屬性標簽,還需要為所述聲音添加所述場景屬性標簽對應的背景音。更進一步的,如果能夠從所述文本片段中提取到場景圖像屬性標簽,則需要進一步的獲取到聲音對應的圖像,并進一步的將所述圖像與所述聲音同步的播放。
[0033]本實施例通過提取所述有聲讀物中文本片段的屬性標簽,以及根據(jù)所述屬性標簽,從所述語音庫中調(diào)取與屬性對應的聲音,以形成所述有聲讀物的語音,從而使得制作的有聲讀物針對不同的人物輸出不同類型的語音,提高了自動制作的有聲讀物的逼真度。
[0034]實施例二
[0035]本實施例以本發(fā)明上述實施例為基礎,進一步的提供了有聲讀物的語音合成方法中語音輸出的一種技術方案。在該技術方案中,根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音包括:如果所述屬性標簽為說話人的基本屬性標簽,則根據(jù)所述說話人的基本屬性標簽,從人物語音庫中調(diào)取對應的聲音朗讀所述文本字段中的文字,形成所述有聲讀物的人物語音。
[0036]具體的,根據(jù)所述屬性標簽,從語音庫中調(diào)取與所述屬性標簽對應的聲音,形成所述有聲讀物的語音包括:
[0037]S20,如果所述屬性標簽為說話人的基本屬性標簽,則根據(jù)所述說話人的基本屬性標簽,從人物語音庫中調(diào)取對應的聲音朗讀所述文本字段中的文字,形成所述有聲讀物的人物語音。
[0038]如果提取到的屬性標簽是說話人的基本屬性標簽,則可以根據(jù)所述說話人的基本屬性標簽到所述人物語音庫中調(diào)取對應的聲音。例如,所述說話人的基本屬性標簽是“中年”、“男性”,則可以在所述人物語音庫中調(diào)取說話人的基本屬性標簽的取值是“中年”及“男性”的聲音,從而形成所述有聲讀物的人物語音。