語音合成的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文語轉(zhuǎn)換技術(shù)領(lǐng)域,尤其涉及一種語音合成的方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語音并進行朗讀的技術(shù)。隨著科技的不斷進步,語音合成的應(yīng)用越來越廣泛,如新聞與信息的播報、有聲小說等。在日常生活中,也可通過語音合成,將短信、郵件等信息合成為語音,為用戶多提供一種獲取信息的方式。
[0003]目前,語音合成主要是將人工輸入或OCR掃描獲得的文字信息轉(zhuǎn)換為語音。
[0004]但是,在獲得文字信息時,可能會出現(xiàn)文字信息輸入錯誤的情況。例如:文字錄入人員在使用拼音輸入法輸入文字信息時,可能會產(chǎn)生拼寫錯誤,也可能因為相同的拼音對應(yīng)多個不同的漢字,造成文字信息選擇錯誤。再例如:通過OCR掃描獲得文字信息,由于漢字相似字過多,對文字進行識別時具有一定的誤差,可能使獲取的文字信息錯誤。進一步地,在語音合成時,對錯誤的文字信息直接進行轉(zhuǎn)換,會導致輸出的語音信息與應(yīng)該輸入的文字信息不一致,不易于理解,從而降低了語音信息接收用戶的使用體驗。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種語音合成的方法,該方法能夠?qū)斎胛谋具M行糾錯,進而在根據(jù)輸入文本進行語音合成時,更加準確,使生成的語音信息自然流暢,易于理解。
[0006]本發(fā)明的第二個目的在于提出一種語音合成的裝置。
[0007]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種語音合成的方法,包括:S1、獲取輸入文本,并獲取所述輸入文本對應(yīng)的輸入類型;S2、根據(jù)所述輸入類型確定糾錯模型,并根據(jù)所述糾錯模型對所述輸入文本進行糾錯處理;以及S3、將糾錯后的所述輸入文本合成為語音。
[0008]本發(fā)明實施例的語音合成的方法,通過獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進行糾錯處理,以及將糾錯后的輸入文本合成為語音,可利用糾錯模型對輸入文本進行糾錯,提升了文本輸入時的準確性,進而在語音合成時,生成的語音信息更加自然流暢,易于理解,符合語言習慣,最終提升用戶使用體驗。
[0009]本發(fā)明第二方面實施例提出了一種語音合成的裝置,包括:獲取模塊,用于獲取輸入文本,并獲取所述輸入文本對應(yīng)的輸入類型;糾錯模塊,用于根據(jù)所述輸入類型確定糾錯模型,并根據(jù)所述糾錯模型對所述輸入文本進行糾錯處理;以及合成模塊,用于將糾錯后的所述輸入文本合成為語音。
[0010]本發(fā)明實施例的語音合成的裝置,通過獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進行糾錯處理,以及將糾錯后的輸入文本合成為語音,可利用糾錯模型對輸入文本進行糾錯,提升了文本輸入時的準確性,進而在語音合成時,生成的語音信息更加自然流暢,易于理解,符合語言習慣,最終提升用戶使用體驗。
【附圖說明】
[0011]圖1是根據(jù)本發(fā)明一個實施例的語音合成的方法的流程圖。
[0012]圖2是根據(jù)本發(fā)明一個具體實施例的語音合成的方法的流程圖。
[0013]圖3是根據(jù)本發(fā)明一個實施例的語音合成的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0014]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0015]下面參考附圖描述本發(fā)明實施例的語音合成的方法和裝置。
[0016]圖1是根據(jù)本發(fā)明一個實施例的語音合成的方法的流程圖。
[0017]如圖1所示,語音合成的方法可包括:
[0018]SlOl,獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型。
[0019]其中,輸入類型可包括拼音輸入、五筆輸入、OCR輸入等。
[0020]舉例來說,輸入文本為“2015年3月全國平斤氣溫是5.8°C?!?,對應(yīng)的輸入類型為拼音輸入。
[0021]S102,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進行糾錯處理。
[0022]在本發(fā)明的實施例中,可根據(jù)輸入類型確定糾錯模型。當輸入類型為拼音輸入時,可根據(jù)第一糾錯模型對輸入文本進行糾錯處理,第一糾錯模型是基于拼音序列數(shù)據(jù)訓練得到的模型。當輸入類型為五筆輸入或OCR輸入時,可根據(jù)第二糾錯模型對輸入文本進行糾錯處理,第二糾錯模型是基于字根序列數(shù)據(jù)訓練得到的模型。其中,以上糾錯模型可包括N-GRAM模型、HMM模型、CRF模型、深度神經(jīng)網(wǎng)絡(luò)模型中的一種。
[0023]具體地,當輸入類型為拼音輸入時,可將輸入文本轉(zhuǎn)換為拼音序列,然后對輸入文本轉(zhuǎn)換而成的拼音序列進行分詞,生成多個拼音詞組,再根據(jù)第一糾錯模型獲得與拼音詞組對應(yīng)的漢字詞組及漢字詞組的得分,最后對得分小于第一預設(shè)閾值的漢字詞組進行糾錯。更具體地,可獲取得分小于第一預設(shè)閾值的漢字詞組中每個漢字對應(yīng)的聲母,然后根據(jù)聲母獲得對應(yīng)的多個待選漢字詞組,再根據(jù)第一糾錯模型獲取得分最高的待選漢字詞組,并將得分小于第一預設(shè)閾值的漢字詞組替換為得分最高的待選漢字詞組,從而完成對得分小于第一預設(shè)閾值的漢字詞組的糾錯。
[0024]舉例來說,當輸入類型為拼音輸入時,可將輸入文本為“2015年3月全國平斤氣溫是5.8°C?!鞭D(zhuǎn)換為拼音序列“ er ling yi wu nian san yue quan guo ping jin qi wenshi wu dian ba she shi du”,然后對該拼音序列進行分詞,生成拼音詞組“er ling yi wunian,,,san yue,,,quan guo,,,ping,,、ujin,,,qi wen,,,shi,,,wu dian ba,,,she shidu”。由于同一拼音可對應(yīng)多個漢字,同一拼音詞組可對應(yīng)多個漢字詞組,因此可獲得以上拼音詞組對應(yīng)的漢字詞組及漢字詞組的得分。其中,漢字詞組的得分可為拼音詞組轉(zhuǎn)換為漢字詞組的概率值?!癳r ling yi wu nian”對應(yīng)“二零一五年”且得分為0.95分,“sanyue”對應(yīng)“三月”且得分為0.9分,“quan guo”對應(yīng)“全國”且得分為0.99,“ping”對應(yīng)“平”且得分為0.3分,“jin”對應(yīng)“斤”且得分為0.15分,“qi wen”對應(yīng)“氣溫”且得分為0.88分,“shi”對應(yīng)“是”且得分為0.75分,“wu dian ba”對應(yīng)“五點八”且得分為0.67分,“she shi du”對應(yīng)“攝氏度”且得分為0.99分。其中,“平”和“斤”的得分均小于第一預設(shè)閾值0.5分,因此需要對“平”和“斤”進行糾錯。具體地,“平”的聲母為“P”,“斤”的聲母為“ j ”,根據(jù)“P”和“ j ”這兩個聲母,可獲得多個待選漢字詞組如“平均”、“評價”、“啤酒”等,此時可獲取得分最高的“平均”這一漢字詞組,替換掉“平”和“斤”。最后,獲得糾錯后的