專利名稱:個性化語音閱讀方法、系統(tǒng)及具有該系統(tǒng)的終端的制作方法
技術領域:
本發(fā)明涉及語音識別技術領域,特別涉及ー種個性化語音閱讀方法、系統(tǒng)及具有該系統(tǒng)的終端。
背景技術:
語音轉(zhuǎn)換(VT,voice transform 或 VC, voice conversion)技術是指改變一個說話人(即源說話人source speaker)語音中的個性特征,使之具有另外ー個人(目標說話人target speaker)的個性信息,也就是轉(zhuǎn)換后的語音聽起來就像目標說話人的聲音一 祥,與此同時,保持語音中的語義信息不變。語音轉(zhuǎn)換系統(tǒng)在日常生活中有著廣泛的應用價值,能夠極大的方便人們的生活,具有重要的實際意義。語音閱讀(英文為TTS,Text to Speech),已經(jīng)越來越被用戶接納并且成為了ー個必不可少的功能。目前的語音閱讀,已經(jīng)實現(xiàn)了既可以用眼睛來閱讀又可以用耳朵去聽,不管是在等車、坐車、走路,還是在做飯、開車,使用者可隨心所欲的聽自己喜歡的書籍、雜志、報紙,收聽E-mail、短信和有聲賀卡等。但目前已有的閱讀方式都只能實現(xiàn)用系統(tǒng)中已有語音庫中的語音來進行閱讀,只實現(xiàn)文字識別和播放功能,相對單調(diào),不具娛樂性。例如,在電影配音中,尤其是用另外ー種語言進行配音時,往往配音演員不是演員本人,這樣常常使配音與原演員的個性特征相差很大,使配音效果不好。再如電腦游戲已經(jīng)越來越深入到日常生活,特別是網(wǎng)絡游戲出現(xiàn)后,然而現(xiàn)在的游戲都是有聲游戲,玩家在游戲中扮演某個角色,但是該角色的聲音都是游戲中預先設置好的,不具有個性化或者特點,不易吸引游戲玩家。
發(fā)明內(nèi)容
本發(fā)明g在至少解決上述技術問題之一。為此,本發(fā)明的ー個目的在于提出一種應用范圍廣、娛樂性強、個性化突出且能夠極大提升用戶體驗的個性化語音閱讀方法。本發(fā)明的另ー目的在于提出ー種個性化語音閱讀系統(tǒng)。本發(fā)明的再一目的在于提出ー種終端。為了實現(xiàn)上述目的,本發(fā)明第一方面的實施例提出了ー種個性化語音閱讀方法,包括以下步驟獲取目標說話人的個性化語音信息;提取所述個性化語音信息的語音特征信息;根據(jù)所述語音特征信息將所述個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫;以及向所述語音識別器中輸入源文件,井根據(jù)所述語音庫將所述源文件轉(zhuǎn)換為具有所述目標說話人的聲音的個性化目標語音信息以便通過所述目標說話人的聲音讀報、讀E-maiI、讀短消息或讀電子賀卡。根據(jù)本發(fā)明實施例的個性化語音閱讀方法,利用語音轉(zhuǎn)換技術,達到娛樂目的,更具個性化。實現(xiàn)個性化的明星語音或其他指定目標語音朗讀電子報紙、E-mail、短信、電子賀卡等,還可應用于配音、角色扮演、翻譯等多個領域,并可進行自動評分。本發(fā)明的技術方案實現(xiàn)簡單,現(xiàn)有的終端和服務器硬件不需要做變化。另外,根據(jù)本發(fā)明上述實施例的個性化語音閱讀方法還可以具有如下附加的技術特征在一些示例中,獲取所述目標說話人的個性化語音信息的方式包括錄入、導入或下載所述目標說話人的個性化語音信息。在一些示例中,獲取所述目標說話人的個性化語音信息,還包括通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為所述目標說話人的個性化語音信息。在一些示例中,所述源文件為圖片文件、文本文件或語音文件。 進ー步地,所述的個性化語音閱讀方法還包括對所述圖片文件進行文本識別。進ー步地,所述源文件為圖片文件或文本文件,則對所述源文件進行文語轉(zhuǎn)換,或者所述源文件為語音文件,則對所述源文件進行語音轉(zhuǎn)換。在一些示例中,所述個性化語音閱讀方法,還包括對所述個性化目標語音信息的轉(zhuǎn)換結果進行評價。在一些示例中,所述個性化語音閱讀方法,還包括將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和所述用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入目標說話人的個性化語音的內(nèi)容和時長。在一些示例中,所述個性化語音閱讀方法還包括將所述個性化目標語音信息上載、存儲至終端設備或服務器上。在一些示例中,所述個性化目標語音信息還用于對電影或電視劇進行角色的配音,或者,用于對游戲角色進行角色扮演。本發(fā)明第二方面的實施例提出了一種個性化語音閱讀系統(tǒng),包括存儲裝置,所述存儲裝置用于獲取目標說話人的個性化語音信息和源文件;語音識別器,所述語音識別器用于提取所述個性化語音信息的語音特征信息,以根據(jù)所述語音特征信息將所述個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫,井根據(jù)所述語音庫將所述源文件轉(zhuǎn)換為具有所述目標說話人的聲音的個性化目標語音信息;以及輸出模塊,所述輸出模塊用于根據(jù)所述個性化目標語音信息通過所述目標說話人的聲音讀報、讀E-mai I、讀短消息或讀電子賀卡。另外,根據(jù)本發(fā)明上述實施例的個性化語音閱讀系統(tǒng)還可以具有如下附加的技術特征在一些示例中,所述存儲裝置用于錄入、導入或下載所述目標說話人的個性化語
音信息。在一些示例中,所述存儲裝置還用于通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為所述目標說話人的個性化語音信息。在一些示例中,所述源文件為圖片文件、文本文件或語音文件。進ー步地,所述語音識別器包括文本識別模塊,用于對所述圖片文件進行文本識別。進ー步地,所述語音識別器還包括文語轉(zhuǎn)換単元和語音轉(zhuǎn)換單元,其中,所述文語轉(zhuǎn)換單元用于在所述源文件為圖片文件或文本文件時對所述源文件進行文語轉(zhuǎn)換,所述語音轉(zhuǎn)換單元用于在所述源文件為語音文件時對所述源文件進行語音轉(zhuǎn)換。在一些示例中,所述個性化語音閱讀系統(tǒng),還包括評價裝置,所述評價裝置用于對所述個性化目標語音信息的轉(zhuǎn)換結果進行評價。在一些示例中,所述評價裝置用于將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入的目標說話人的個性化語音的內(nèi)容和時長。在一些示例中,所述輸出模塊還用于將所述個性化目標語音信息上載或存儲到終端設備或服務器上。 在一些示例中,所述個性化目標語音信息用于對電影或電視劇進行角色的配音、或者對游戲角色進行角色扮演。 根據(jù)本發(fā)明實施例的個性化語音閱讀系統(tǒng),能夠提升娛樂性,更具個性化,且提升用戶體驗。且該系統(tǒng)結構簡單,易于實現(xiàn)。本發(fā)明第三方面實施例提出了ー種終端,包括上述第二方面實施例所述的個性化語音閱讀系統(tǒng)。本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中圖I為本發(fā)明一個實施例的個性化語音閱讀方法的流程圖;圖2為本發(fā)明另ー個實施例的個性化語音閱讀方法的流程圖;以及圖3為本發(fā)明實施例的個性化語音閱讀系統(tǒng)的結構圖。
具體實施例方式下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。在本發(fā)明的描述中,需要理解的是,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術語“安裝”、“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本發(fā)明中的具體含義。以下結合附圖I和2首先描述根據(jù)本發(fā)明實施例的個性化語音閱讀方法。參見圖1,根據(jù)本發(fā)明實施例的個性化語音閱讀方法,包括如下步驟步驟S101,獲取目標說話人的個性化語音信息。在一些示例中,獲取目標說話人的個性化語音信息的方式包括錄入、導入或下載目標說話人的個性化語音信息。例如,通過音頻設備錄入目標說話人的個性化語音信息,音頻設備如麥克風等;或通過導入接ロ導入目標說話人的個性化語音信息,導入接ロ如網(wǎng)絡接ロ、USB接ロ、存儲卡接ロ等;或者在互聯(lián)網(wǎng)上下載目標說話人的個性化語音信息。在另ー些示例中,還可通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為目標說話人的個性化語音信息。具體地,由于從目標說話人的個性化語音信息提取的語音特征信息對最終生成的目標語音信息的語音效果好壞的關鍵,因此,目標說話人的個性化語音信息的內(nèi)容是語音庫生成的基礎,是源文本轉(zhuǎn)換成特定的目標說話人的語音的效果好壞的關鍵,對于不同的語音轉(zhuǎn)換算法的語音庫提取的語音元素,即語音特征信息也存在較大差異,因此根據(jù)語音轉(zhuǎn)換算法提供預設的文本內(nèi)容,由目標說話人按照范本,即預設的文本內(nèi)容進行朗讀,再進行語音特征信息的提取,由此在后續(xù)的處理中,得到相對較好的轉(zhuǎn)換效果,提升向目標語音信息的轉(zhuǎn)換效果。
步驟S102,提取個性化語音信息的語音特征信息。步驟S103,根據(jù)語音特征信息將個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫。步驟S104,向語音識別器中輸入源文件,井根據(jù)語音庫將源文件轉(zhuǎn)換為具有目標說話人的聲音的個性化目標語音信息以便通過所述目標說話人的聲音讀報、讀E-mail、讀短消息或讀電子賀卡。在一些示例中,源文件可以為圖片文件、文本文件或語音文件。進ー步地,如果源文件為圖片文件,則在進行源文件轉(zhuǎn)換為具有目標說話人的聲音的目標語音信息之前,對圖片文件進行文本識別,以便將圖片文件轉(zhuǎn)換為文本文件。進ー步地,源文件為圖片文件或文本文件,則對源文件進行文語轉(zhuǎn)換,即文字至語音的轉(zhuǎn)換;源文件為語音文件,則對源文件進行語音轉(zhuǎn)換,即源語音文件至具有目標說話人的聲音的目標語音信息的轉(zhuǎn)換。換言之,語音轉(zhuǎn)換器根據(jù)語音庫將源文本,例如圖片文件、文本文件或語音文件轉(zhuǎn)換成的具有目標說話人的聲音的目標語音信息時可根據(jù)源文件是文本文件、圖片文件還是語音文件選擇文語轉(zhuǎn)換還是語音轉(zhuǎn)換。在一些示例中,源文本的可以通過音頻設備錄入,如麥克風等;或通過導入接ロ導入,如通過網(wǎng)絡接口下載,或通過USB接ロ或存儲卡接ロ等傳輸;或通過攝像頭的拍照功能或者攝影功能拍攝圖片文件;或通過網(wǎng)絡將源文本,如語音下載;或語音識別器中預先存入的源文本等。在本發(fā)明的一些實施例中,將個性化目標語音信息上載、存儲至終端設備或服務器上,終端設備包括但不限于手機、電腦等。例如上載、存儲或播放目標語音信息。作為ー個具體的例子,如通過揚聲器輸出目標語音信息,或以文件形式進行存儲以供應用程序調(diào)用,或通過導出接ロ或網(wǎng)絡上載到服務器中,以供用戶下載。由此,既可以實現(xiàn)個性化語音或明星語音,即以目標語音信息朗讀電子報紙、E-mail、短消息、電子賀卡等。在另ー些示例中,個性化目標語音信息還用于對電影或電視劇進行角色的配音,或者個性化目標語音信息還用于對游戲角色進行角色扮演。即個性化目標語音信息可以實現(xiàn)個性化翻譯功能、個性化配音、個性化角色扮演等功能。從而,改變已有閱讀方式只能實現(xiàn)利用現(xiàn)有的語音庫中的語音來進行閱讀,且只實現(xiàn)文字識別和播放功能,帶來的相對單調(diào),不具娛樂性的缺點,通過文本文件、圖片文件或語音文件到個性化的語音轉(zhuǎn)換,即轉(zhuǎn)換為任意目標說話人的聲音的目標語音信息,不僅提升了娛樂性和用戶體驗效果,且可對多種形式的源文件進行轉(zhuǎn)換,應用范圍廣、方便。 在本發(fā)明的一些示例中,個性化語音閱讀方法還包括對所述目標語音信息的轉(zhuǎn)換結果進行評價。具體而言,將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和所述用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入目標說話人的個性化語音的內(nèi)容和時長。參見圖2,包括如下步驟
步驟S105,判斷是否對語音轉(zhuǎn)換效果進行評價。步驟S106,如果用戶選擇評價,則可對個性化語音轉(zhuǎn)換效果進行評價,即根據(jù)目標語音信息的語音效果對個性化語音閱讀方法的轉(zhuǎn)換質(zhì)量進行評價。在該示例中,語音轉(zhuǎn)換質(zhì)量的評價方法可采用主觀評價方法,即根據(jù)播放的目標語音信息的效果、客觀評價方法,即根據(jù)語音轉(zhuǎn)換方法的好壞進行評價,或主客觀評價方法的結合。從而使用戶得以直觀的得知該語音識別器的轉(zhuǎn)換效果的好壞。例如評價結果以10分為最高分,則該評價結果例如包括如輸入目標說話人個性化語音朗讀預設文本內(nèi)容的時長為10分鐘,其評價結果為9分,如輸入目標說話人個性化語音朗讀預設文本內(nèi)容的時長為5分鐘,其評價結果為5分,而在輸入目標說話人個性化語音朗讀預設文本內(nèi)容的時長為7分鐘時,其評價結果為7分。則用戶可以根據(jù)期待的語音轉(zhuǎn)換效果范圍決定輸入目標說話人個性化語音的時長。再例如,評價結果以10分為最高分,則該評價結果例如包括如輸入目標說話人個性化語音朗讀預設文本內(nèi)容1,其評價結果為9分,如輸入目標說話人個性化語音朗讀預設文本內(nèi)容2,其評價結果為5分,而在輸入目標說話人個性化語音朗讀預設文本內(nèi)容3,其評價結果為7分。則用戶可以根據(jù)期待的語音轉(zhuǎn)換效果范圍決定輸入目標說話人個性化語音的內(nèi)容。由此,提升個本發(fā)明實施例的個性化語音閱讀方法在實際應用中的競爭力。參考圖3,本發(fā)明的進ー步實施例提出了一種個性化語音閱讀系統(tǒng)300,包括存儲裝置310、語音識別器320和輸出模塊330。其中存儲裝置310用于獲取目標說話人的個性化語音信息和源文件。語音識別器320用于提取所述個性化語音信息的語音特征信息,以根據(jù)所述語音特征信息將所述個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫,井根據(jù)所述語音庫將所述源文件轉(zhuǎn)換為具有所述目標說話人的聲音的個性化目標語音信息。輸出模塊330用于用于根據(jù)所述個性化目標語音信息通過所述目標說話人的聲音讀報、讀E-mail、讀短消息或讀電子賀卡。在一些示例中,輸出模塊330用于將個性化目標語音信息上載或存儲到終端設備(圖中未示出)或服務器(圖中未示出)上。作為ー個具體的例子,如通過揚聲器輸出目標語音信息,或以文件形式進行存儲以供應用程序調(diào)用,或通過導出接ロ或網(wǎng)絡上載到服務器中,以供用戶下載。由此,既可以實現(xiàn)個性化語音或明星語音,即以目標語音信息朗讀電子報紙、E-mail、短消息、電子賀卡等。在本發(fā)明的另ー些示例中,個性化目標語音信息用于對電影或電視劇進行角色的配音、或者對游戲角色進行角色扮演即可以實現(xiàn)個性化翻譯功能、個性化配音、個性化角色扮演等功能。從而,改變已有閱讀方式只能實現(xiàn)利用現(xiàn)有的語音庫中的語音來進行閱讀,且只實現(xiàn)文字識別和播放功能,帶來的相對單調(diào),不具娛樂性的缺點,通過文本文件、圖片文件或語音文件到個性化的語音轉(zhuǎn)換,即轉(zhuǎn)換為任意目標說話人的聲音的目標語音信息,不僅提升了娛樂性和用戶體驗效果,且可對多種形式的源文件進行轉(zhuǎn)換,應用范圍廣、方便。在一些示例中,存儲裝置310用于錄入、導入或下載目標說話人的個性化語音信息。或者,通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為所述目標說話人的個性化語音信息。例如,通過音頻設備錄入目標說話人的個性化語音信息到存儲設備310 ;或通過接ロ導入存儲設備310,接ロ如網(wǎng)絡接ロ、USB接ロ、存儲卡接ロ等;或通過網(wǎng)絡上傳到存儲設備310 ;或利用存儲設備310上已錄制好的個性化語音信息,如明星的語音文件。上述存儲設備310例如為內(nèi)存、硬盤、存儲卡等,存儲卡包括但不限于Mini-SD、SD、TF卡等。在其它示例中,存儲裝置310還可以存儲通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為目標說話人的個性化語音信息。具體地,由于從目標說話人的個性化語音信息提取的語音特征信息對最終生成的目標語音信息的語音效果好壞的關鍵,因此,目標說話人的個性化語音信息的內(nèi)容是語音庫生成的基礎,是源文本轉(zhuǎn)換成特定的目標說話人 的語音的效果好壞的關鍵,對于不同的語音轉(zhuǎn)換算法的語音庫提取的語音元素,即語音特 征信息也存在較大差異,因此根據(jù)語音轉(zhuǎn)換算法提供預設的文本內(nèi)容,由目標說話人按照范本,即預設的文本內(nèi)容進行朗讀,再進行語音特征信息的提取,由此在后續(xù)的處理中,得到相對較好的轉(zhuǎn)換效果,提升向目標語音信息的轉(zhuǎn)換效果。同樣地,對于源文件而言,也可通過上述方式進行存儲,例如錄入、導入或上載等方式。源文件為圖片文件、文本文件或語音文件。進ー步地,結合圖3,語音識別器320包括文本識別模塊321,用于對圖片文件進行文本識別。進ー步地,語音識別器320還包括文語轉(zhuǎn)換単元322和語音轉(zhuǎn)換單元323,其中,文語轉(zhuǎn)換単元322用于在源文件為圖片文件或文本文件時對源文件進行文語轉(zhuǎn)換,語音轉(zhuǎn)換單元323用于在源文件為語音文件時對源文件進行語音轉(zhuǎn)換。具體地說,如果源文件為圖片文件,則在進行源文件轉(zhuǎn)換為具有目標說話人的聲音的目標語音信息之前,對圖片文件進行文本識別,以便將圖片文件轉(zhuǎn)換為文本文件。進ー步地,源文件為圖片文件或文本文件,則對源文件進行文語轉(zhuǎn)換,即文字至語音的轉(zhuǎn)換;源文件為語音文件,則對源文件進行語音轉(zhuǎn)換,即源語音文件至具有目標說話人的聲音的目標語音信息的轉(zhuǎn)換。換言之,語音轉(zhuǎn)換器根據(jù)語音庫將源文本,例如圖片文件、文本文件或語音文件轉(zhuǎn)換成的具有目標說話人的聲音的目標語音信息時可根據(jù)源文件是文本文件、圖片文件還是語音文件選擇文語轉(zhuǎn)換還是語音轉(zhuǎn)換。再次結合圖3,在本發(fā)明的進ー步示例中,個性化語音閱讀系統(tǒng)300還包括評價裝置340,用于對目標語音信息的轉(zhuǎn)換結果進行評價。具體而言,評價裝置340用于將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入的目標說話人的個性化語音的內(nèi)容和時長。其評價方式與上述一個實施例的評價方式相同,為了減少冗余,不做贅述。根據(jù)本發(fā)明實施例的個性化語音閱讀方法和系統(tǒng),提升娛樂性,個性化、和用戶體驗。且應用領域廣。具體而言,例如可將源文件轉(zhuǎn)換為具有指定的個性特征,如明星的個性特征,或熟悉的家人、朋友或本人的個性特征等,由此增加娛樂范圍。也可在電影配音中,尤其是用另外ー種語言進行配音時,解決了傳統(tǒng)的配音與原演員的個性特征相差很大,配音效果不好的缺點。本發(fā)明的實施例將配音再進行語音轉(zhuǎn)換,使之重新具有演員本人的個性特征,由此,使配音效果相對更加理想。載入,在電腦游戲領域,特別是網(wǎng)絡游戲,可是玩家在現(xiàn)有游戲中扮演某個角色時,通過玩家喜歡的人或聲音或?qū)巧M行角色扮演或者配音,由此提升游戲的娛樂性,提升游戲的市場競爭力。在本發(fā)明的進ー步實施例中,提出了ー種終端,包括上述實施例所述的個性化語音閱讀系統(tǒng)300。在一些示例中,終端既可以為客戶端也可以為服務器。而客戶端包括但不限于PC機或手機等。實施例以下結合具體的例子,通過電子報紙進行個性化語音閱讀來具體說明如何通過本發(fā)明所述的個性化語音閱讀方法、系統(tǒng)進行個性化讀報。首先按照個性化語音閱讀系統(tǒng)中提供的范本文件,即預設的文本內(nèi)容,通過手機 的麥克風進行朗讀,錄入希望轉(zhuǎn)換成的目標說話者的語音,即目標說話人的個性化語音信息。從存儲設備的個性化語音信息中進行語音特征提取,生成語音轉(zhuǎn)換器中的語音庫。將手機中已從網(wǎng)絡下載的希望進行朗讀的電子報紙通過個性化語音閱讀系統(tǒng)進行語音轉(zhuǎn)換。將轉(zhuǎn)換后的目標語音,即目標語音信息通過手機的揚聲器輸出,實現(xiàn)個性化語音朗讀電子報紙。采用目標語音朗讀電子報紙結束后,在個性化閱讀系統(tǒng)中選擇是否對語音轉(zhuǎn)換效果進行評價,評價裝置340根據(jù)評判標準給出語音轉(zhuǎn)換效果的分數(shù),顯示在手機屏幕上,評判標準的方式包括但不限于根據(jù)語音轉(zhuǎn)換方法的好壞進行評價或者根據(jù)播放的目標語音信息的效果,或者兩者結合的方式進行評價。由此,提升個本發(fā)明實施例的個性化語音閱讀方法在實際應用中的競爭力。根據(jù)本發(fā)明的實施例的個性化語音閱讀方法、系統(tǒng)和終端,提升閱讀的效果,提升娛樂性,且更具個性化、提升用戶體驗。具體地,可實現(xiàn)個性化的明星語音或其他指定目標語音朗讀電子報紙、E-mail、短信、電子賀卡等,還可應用于配音、角色扮演、翻譯等多個領域,并可進行自動評價以提升個本發(fā)明實施例的個性化語音閱讀方法、系統(tǒng)和終端在實際應用中的競爭力。另外,該系統(tǒng)結構簡單、易于實現(xiàn)。在本說明書的描述中,參考術語“ー個實施例”、“一些實施例”、“示例”、“具體示例”、或“ー些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少ー個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解在不脫離本發(fā)明的原理和宗g的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權利要求及其等同限定。
權利要求
1.ー種個性化語音閱讀方法,其特征在于,包括以下步驟 獲取目標說話人的個性化語音信息; 提取所述個性化語音信息的語音特征信息; 根據(jù)所述語音特征信息將所述個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫;以及 向所述語音識別器中輸入源文件,井根據(jù)所述語音庫將所述源文件轉(zhuǎn)換為具有所述目標說話人的聲音的個性化目標語音信息以便通過所述目標說話人的聲音讀報、讀E-mail、讀短消息或讀電子賀卡。
2.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,獲取所述目標說話人的個性化語音信息的方式包括錄入、導入或下載所述目標說話人的個性化語音信息。
3.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,獲取所述目標說話人的個性化語音信息,還包括通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為所述目標說話人的個性化語音信息。
4.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,所述源文件為圖片文件、文本文件或語音文件。
5.根據(jù)權利要求4所述的個性化語音閱讀方法,其特征在于,還包括對所述圖片文件進行文本識別。
6.根據(jù)權利要求5所述的個性化語音閱讀方法,其特征在干, 所述源文件為圖片文件或文本文件,則對所述源文件進行文語轉(zhuǎn)換,或者所述源文件為語音文件,則對所述源文件進行語音轉(zhuǎn)換。
7.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,還包括 對所述個性化目標語音信息的轉(zhuǎn)換結果進行評價。
8.根據(jù)權利要求7所述的個性化語音閱讀方法,其特征在于,還包括 將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和所述用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入目標說話人的個性化語音的內(nèi)容和時長。
9.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,還包括 將所述個性化目標語音信息上載、存儲至終端設備或服務器上。
10.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,所述個性化目標語音信息還用于對電影或電視劇進行角色的配音。
11.根據(jù)權利要求I所述的個性化語音閱讀方法,其特征在于,所述個性化目標語音信息還用于對游戲角色進行角色扮演。
12.—種個性化語音閱讀系統(tǒng),其特征在于,包括 存儲裝置,所述存儲裝置用于獲取目標說話人的個性化語音信息和源文件; 語音識別器,所述語音識別器用于提取所述個性化語音信息的語音特征信息,以根據(jù)所述語音特征信息將所述個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫,井根據(jù)所述語音庫將所述源文件轉(zhuǎn)換為具有所述目標說話人的聲音的個性化目標語音信息;以及 輸出模塊,所述輸出模塊用于根據(jù)所述個性化目標語音信息通過所述目標說話人的聲音讀報、讀E-mai I、讀短消息或讀電子賀卡。
13.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述存儲裝置用于錄入、導入或下載所述目標說話人的個性化語音信息。
14.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述存儲裝置還用于通過目標說話人讀取預設的文本內(nèi)容并將讀取結果作為所述目標說話人的個性化語音信O
15.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述源文件為圖片文件、文本文件或語音文件。
16.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述語音識別器包括文本識別模塊,用于對所述圖片文件進行文本識別。
17.根據(jù)權利要求16所述的個性化語音閱讀系統(tǒng),其特征在于,所述語音識別器還包括文語轉(zhuǎn)換単元和語音轉(zhuǎn)換單元,其中, 所述文語轉(zhuǎn)換單元用于在所述源文件為圖片文件或文本文件時對所述源文件進行文語轉(zhuǎn)換, 所述語音轉(zhuǎn)換單元用于在所述源文件為語音文件時對所述源文件進行語音轉(zhuǎn)換。
18.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,還包括 評價裝置,所述評價裝置用于對所述個性化目標語音信息的轉(zhuǎn)換結果進行評價。
19.根據(jù)權利要求18所述的個性化語音閱讀系統(tǒng),其特征在于,所述評價裝置用于將目標說話人用個性化語音朗讀不同內(nèi)容的范本和對應的朗讀時長得到的評價結果反饋給用戶,以便所述用戶根據(jù)所述評價結果和用戶期望的語音轉(zhuǎn)換效果,判斷向所述語音識別器中輸入的目標說話人的個性化語音的內(nèi)容和時長。
20.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述輸出模塊還用于將所述個性化目標語音信息上載或存儲到終端設備或服務器上。
21.根據(jù)權利要求12所述的個性化語音閱讀系統(tǒng),其特征在于,所述個性化目標語音信息用于對電影或電視劇進行角色的配音、或者對游戲角色進行角色扮演。
22.—種終端,其特征在于,包括 如權利要求12-21任ー項所述的個性化語音閱讀系統(tǒng)。
全文摘要
本發(fā)明提出一種個性化語音閱讀方法,包括獲取目標說話人的個性化語音信息,并提取其語音特征信息;根據(jù)語音特征信息將個性化語音信息轉(zhuǎn)換為語音識別器中的具有目標說話人的語音特征的語音庫;向語音識別器中輸入源文件,根據(jù)語音庫將源文件轉(zhuǎn)換為具有目標說話人的聲音的個性化目標語音信息以便通過目標說話人的聲音讀報、讀E-mail、讀短消息或讀電子賀卡。本發(fā)明的實施例能夠?qū)崿F(xiàn)以個性化聲音閱讀電子報紙、E-mail、短信、電子賀卡,及個性化配音、角色扮演等??衫妹餍钦Z音或指定的其他個性化目標語音進行閱讀,既具娛樂性又可以解決閱讀困難場合或人群的閱讀需要。本發(fā)明還提出一種個性化語音閱讀系統(tǒng)和終端。
文檔編號G10L21/00GK102693729SQ20121015140
公開日2012年9月26日 申請日期2012年5月15日 優(yōu)先權日2012年5月15日
發(fā)明者吉朋松 申請人:北京奧信通科技發(fā)展有限公司