国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種漢語(yǔ)韻律詞組詞方法及裝置的制作方法

      文檔序號(hào):2829749閱讀:309來(lái)源:國(guó)知局
      專利名稱:一種漢語(yǔ)韻律詞組詞方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及漢語(yǔ)語(yǔ)音合成技術(shù),特別涉及漢語(yǔ)語(yǔ)音合成系統(tǒng)中對(duì)漢語(yǔ)輸 入句子進(jìn)行韻律詞組詞的處理技術(shù),具體的講是一種漢語(yǔ)韻律詞組詞方法及 裝置。
      背景技術(shù)
      當(dāng)漢語(yǔ)中多個(gè)字組成詞或詞組而連續(xù)發(fā)音時(shí),它們之間將會(huì)相互影響, 形成較獨(dú)立、完整的韻律塊,這些韻律塊的韻律特征對(duì)語(yǔ)音的自然度起著非 常重要的作用,而不同韻律塊組合在一起,往往可以形成不同的語(yǔ)調(diào),使人 的發(fā)音具有不同的語(yǔ)氣。 一般來(lái)說,漢語(yǔ)語(yǔ)音中主要韻律單元有韻律詞、 韻律短語(yǔ)、語(yǔ)調(diào)短語(yǔ)。漢語(yǔ)的韻律是具有層次結(jié)構(gòu)的,這種層次性的韻律結(jié) 構(gòu)形成了漢語(yǔ)語(yǔ)音的節(jié)奏(韻律)。韻律單元的邊界往往對(duì)應(yīng)于語(yǔ)音中韻律 邊界音節(jié)的停頓、基頻變化或者音長(zhǎng)變化。韻律是影響合成語(yǔ)音自然度和可 懂度的一個(gè)重要因素。在語(yǔ)音合成系統(tǒng)中,韻律結(jié)構(gòu)為韻律參數(shù)預(yù)測(cè)模型提 供最重要的信息,通過對(duì)基頻、音長(zhǎng)、停頓等參數(shù)的預(yù)測(cè),來(lái)達(dá)到控制語(yǔ)音 合成系統(tǒng)發(fā)音方式的目的,從而在合成語(yǔ)音中實(shí)現(xiàn)各級(jí)韻律單元的相應(yīng)韻律 效果,使之發(fā)音自然、好聽。
      隨著言語(yǔ)處理的不斷深入,人們不但越來(lái)越需要了解自然話語(yǔ)的韻律結(jié) 構(gòu),而且力圖尋找從文本預(yù)測(cè)韻律結(jié)構(gòu)的方法,以便更加有效地提高合成語(yǔ) 音的自然度或語(yǔ)音識(shí)別的準(zhǔn)確率,同時(shí)加深自然語(yǔ)言理解的程度。
      韻律詞指語(yǔ)音流中連續(xù)發(fā)音的一組音節(jié),這些音節(jié)之間發(fā)音非常緊密且 其中沒有聽感上的停頓。韻律詞是韻律層次結(jié)構(gòu)中最低一級(jí)的要素, 一般來(lái) 說在韻律詞邊界有可感知的停頓。換句話說,在韻律詞內(nèi)部沒有可感知的停 頓,而停頓只能出現(xiàn)在韻律詞邊界處。在真實(shí)的語(yǔ)音中,不是所有的韻律詞
      邊界都有停頓。如果在韻律詞邊界有可感知的停頓是可接受的,但是,任何 韻律詞內(nèi)部的可感知的停頓會(huì)導(dǎo)致語(yǔ)音難以理解或者不自然。因此, 一個(gè)良 好的韻律詞組詞模塊對(duì)于增加合成語(yǔ)音的自然度具有極其重要的意義。
      在現(xiàn)有技術(shù)中,關(guān)于韻律詞組詞模塊及其增加合成語(yǔ)音自然度的研究存 在多篇公開的論文和專利,例如
      美國(guó)專利6,996,529 (Mimiis; Stephen; February 7, 2006, Speech synthesis with prosodic phrase boundary information);
      美國(guó)專利6,173,262 (Hirschberg; Julia; January 9, 2001, Text-to-speech system with automatically trained phrasing rules );
      美國(guó)專利6,003,005 (Hirschberg; Julia; December 14, 1999, Text-to-speech system and a method and apparatus for training the same based upon intonational feature annotations of input text );
      美國(guó)專利5,850,629(Holm; Frode; Pearson; Steve; December 15, 1998, User interface controller for text-to-speech synthesizer);
      美國(guó)專利6,978,239 (Chu; Min; Peng; Hu; December 20, 2005, Method and apparatus for speech synthesis without prosody modification );
      文獻(xiàn),Shih, C. L., "The Prosodic Domain of Tone Sandhi in Mandarin Chinese", PhD Dissertation, UC San Diego, 1986;
      文獻(xiàn),Chu M. and Qian Y., "Locating boundaries for prosodic constituents in unrestricted Mandarin texts", Journal of Computational Linguistics and Chinese Language Processing, 6(1), 61-82, 2001;
      文獻(xiàn),Dong H., Tao丄and Xu b., "Prosodic word prediction using the lexical information", International Conference on Natural Language Processing and Knowledge Engineering, Wuhan, 2005;
      文獻(xiàn),Shao Y., Han, J., Liu T. and Zhao Y., "Prosodic word boundaries prediction for Mandarin text-to-speech", International Symposium on Tonal
      Aspects of Languages with Emphasis on Tone Languages, 159-162, Beijing, 2004;
      文獻(xiàn),Dong M., Lua K.T. and Li H., "A probabilistic approach to prosodic word prediction for Mandarin Chinese TTS",她European Conference on Speech Communication and Technology, Lisbon, Portugal, 2005;
      文獻(xiàn),Qin Shi and XiJun Ma, 2002. "Statistic prosody structure prediction", International Conference of the IEEE 2002 Workshop on Speech Synthesis, Santa Monica, Ca., 2002;
      文獻(xiàn),Ying, Z., and Shi, X., "An RNN-based algorithm to detect prosodic phrase for Chinese TTS", International Conference on Acoustic, Speech and Signal Processing, 2001 。
      上述專利文件和文獻(xiàn)所公開的內(nèi)容特被合并于此,作為本發(fā)明申請(qǐng)的現(xiàn) 有技術(shù)文件。
      一般來(lái)說,漢語(yǔ)語(yǔ)音合成系統(tǒng)由三個(gè)模塊組成,它們是文本分析模塊、 韻律參數(shù)預(yù)測(cè)模塊、后端合成模塊。漢語(yǔ)文本分析模塊包括分詞、詞性標(biāo)注、 注音、韻律結(jié)構(gòu)預(yù)測(cè)等。其中第一步就是分詞。這是因?yàn)闈h語(yǔ)文本與英語(yǔ)等 文本不同,在詞與詞之間沒有空格作為分隔符來(lái)予以隔開。分詞一般是基于
      詞類分析,即或體現(xiàn)一定的句法結(jié)構(gòu),也與韻律結(jié)構(gòu)不完全相同。韻律結(jié)構(gòu) 預(yù)測(cè)就是要找到一種有效的辦法將文本內(nèi)容映射為韻律結(jié)構(gòu),是為了建立從 文本到韻律特征(如停頓和語(yǔ)調(diào))的預(yù)測(cè)模型以指導(dǎo)后續(xù)的韻律聲學(xué)參數(shù)的 生成。
      許多研究表明韻律詞與詞匯學(xué)中的詞有很大的不同。原因之一就是韻律 詞的形成不僅是基于詞義而且也是基于語(yǔ)音的韻律需要。 一個(gè)韻律詞可以包 含多于一個(gè)的詞匯學(xué)上的詞,也可以是相對(duì)比較長(zhǎng)的詞匯學(xué)上詞的其中一部
      分。分詞和詞性標(biāo)注模塊基于詞匯學(xué)的知識(shí)對(duì)自然語(yǔ)言文本進(jìn)行了分詞和相 應(yīng)的詞性標(biāo)注。
      下面針對(duì)一個(gè)例句描述了文本分析模塊的兩個(gè)處理步驟,分詞/詞性標(biāo)注 和韻律結(jié)構(gòu)預(yù)測(cè)。如圖1所示
      輸入文本"有一次,我們和外校搞聯(lián)誼爬香山,我們的學(xué)生沒有一個(gè) 掉隊(duì)的,噌噌噌就爬上了山頂"。
      分詞和詞性標(biāo)注"有/v —/m次/q , /w我們/r和/p夕卜/f校 /Ng 搞/v 聯(lián)誼/v 爬/v 香山/ns , /w 我們/r 的/u 學(xué)生/n 沒有/v 一個(gè)/m個(gè)/q掉隊(duì)/v 的/u , /w 噌噌噌/o 就/d爬/v 上/v 了/u 山頂 /n 。 /w "。
      韻律結(jié)構(gòu)"有/v —/m次/q III我們/r和/c |夕卜/f校/Ng ||搞/v聯(lián)誼/v | 爬/v香山/nslH我們/r的/ul學(xué)生/nll沒有/v —/m個(gè)/q |掉隊(duì)/v的/u |||噌噌 噌/0||就/d爬/v上/v 了/ul山頂/nlH"。
      其中,"l"表示韻律詞邊界,"II"表示韻律短語(yǔ)邊界,"Hi"表示語(yǔ)調(diào) 短語(yǔ)邊界。韻律短語(yǔ)邊界和語(yǔ)調(diào)短語(yǔ)邊界必然也是韻律詞邊界。韻律詞組詞 模塊就是要在分詞和詞性標(biāo)注的基礎(chǔ)上進(jìn)行韻律詞邊界的確定。另外,韻律 詞組詞也是更高層次韻律單元預(yù)測(cè)如韻律短語(yǔ)預(yù)測(cè)的基石。因此,韻律詞組 詞的好與壞對(duì)于合成語(yǔ)音的自然度有著極其重要的意義。
      現(xiàn)有技術(shù)中,在漢語(yǔ)韻律詞邊界預(yù)測(cè)上提出了許多方法,如classification and regression tree(CART)方法、基于規(guī)則的方法,基于統(tǒng)計(jì)的方法和基于自 回歸神經(jīng)網(wǎng)絡(luò)的方法等。在這些方法中,詞性(Part of Speech, POS)和詞長(zhǎng) 信息被廣泛采用。
      總體來(lái)說,現(xiàn)有技術(shù)的韻律詞邊界預(yù)測(cè)的準(zhǔn)確性不能說很高。邊界預(yù)測(cè) 的錯(cuò)誤類型通常分為兩種 一種是插入型錯(cuò)誤(insertion error),另外一種是 刪除型錯(cuò)誤(deletion error)。如前所說,在真實(shí)的語(yǔ)音中,不是所有的韻律 詞邊界都有停頓。如果在韻律詞邊界有可感知的停頓是可接受的,但是,任 何韻律詞內(nèi)部的可感知的停頓會(huì)導(dǎo)致語(yǔ)音難以理解或者不自然。因此,韻律 詞組詞模塊引起的插入型錯(cuò)誤會(huì)給合成語(yǔ)音帶來(lái)很大的傷害。相反,刪除型
      錯(cuò)誤給合成語(yǔ)音帶來(lái)的傷害就會(huì)小許多。譬如上面例句中的最后一部分"蹭 蹭蹭就爬上了"的分詞結(jié)果為"蹭蹭蹭就爬上了"(如圖1所示)。其 中,詞匯中的詞"就"、"爬"、"上"和"了"均是單字詞。它們應(yīng)該被 組在一起成為一個(gè)完整的韻律詞"就爬上了"。如果在韻律詞層次,它們沒 有被組在一起,那么合成語(yǔ)音中的這一段語(yǔ)音聽起來(lái)會(huì)非常的不自然。在合 成語(yǔ)音中,它們?cè)诼牳猩舷袷侵鹱种鹱值卦诎l(fā)音并且其中有聽感上的停頓。 這是因?yàn)轫嵚深A(yù)測(cè)模型(基頻預(yù)測(cè)和音長(zhǎng)預(yù)測(cè))對(duì)于當(dāng)前音節(jié)是處于韻律詞 邊界還是韻律詞內(nèi)部非常敏感。相反,如果"就爬上了"作為一個(gè)韻律詞, 它的基頻曲線聽起來(lái)就很自然,因?yàn)榛l預(yù)測(cè)模型將會(huì)考慮更多的協(xié)同發(fā) 音。另外,音長(zhǎng)模型也不會(huì)去拖長(zhǎng)前三個(gè)音節(jié)"就"、"爬"和"上"的音 長(zhǎng),因?yàn)楝F(xiàn)在這三個(gè)音節(jié)的邊界類型均屬于韻律詞內(nèi)部類型。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于,提供一種漢語(yǔ)韻律詞組詞方法及裝置,用以克服上 述的韻律詞插入型錯(cuò)誤會(huì)導(dǎo)致語(yǔ)音難以理解或者不自然的缺陷,減少韻律詞 邊界插入類型錯(cuò)誤的數(shù)目。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了 一種漢 語(yǔ)韻律詞組詞方法,所述方法包括以下步驟輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ) 文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在所述初始的韻 律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞 序列;根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根 據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵;刪除所述隔 柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的 詞進(jìn)行組詞,生成韻律詞。
      對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理生成分詞結(jié)果,根據(jù)所述的 分詞結(jié)果生成一初始的韻律詞序列。
      所述的根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵
      是指根據(jù)多個(gè)韻律詞組詞手段對(duì)同一個(gè)隔柵韻律詞序列中預(yù)備刪除的隔柵 進(jìn)行標(biāo)注。
      所述的根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵 是指根據(jù)多個(gè)韻律詞組詞手段綜合判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的 隔柵。
      所述的刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵包括根據(jù)多個(gè) 韻律詞組詞手段對(duì)當(dāng)前預(yù)備刪除的隔柵進(jìn)行綜合判斷,給出當(dāng)前預(yù)備刪除的 隔柵需要?jiǎng)h除的置信度;根據(jù)所述的置信度判斷當(dāng)前預(yù)備刪除的隔柵是否需
      要?jiǎng)h除,如果是則刪除當(dāng)前預(yù)備刪除的隔柵。
      本發(fā)明還提供了一種漢語(yǔ)韻律詞組詞裝置,所述裝置包括輸入部,用 于輸入漢語(yǔ)文本;分詞和詞性標(biāo)注部,用于對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞 性標(biāo)注處理,生成一初始的韻律詞序列;韻律詞隔柵插入部,用于在所述初 始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵 韻律詞序列;韻律詞隔柵刪除部,用于根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻
      律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí) 際需要?jiǎng)h除的隔柵,刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵;韻律 詞生成部,用于使所述隔柵韻律詞序列中剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞 進(jìn)行組詞,生成韻律詞。
      所述裝置還包括分詞結(jié)果存儲(chǔ)部,用于存儲(chǔ)漢語(yǔ)文本分詞和詞性標(biāo)注 處理后的分詞結(jié)果,根據(jù)所述的分詞結(jié)果生成一初始的韻律詞序列。
      所述的韻律詞隔柵刪除部包括多個(gè)韻律詞組詞手段單元,用于根據(jù)多個(gè) 韻律詞組詞手段對(duì)同一個(gè)隔柵韻律詞序列中預(yù)備刪除的隔柵進(jìn)行標(biāo)注。
      所述的根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵 是指根據(jù)多個(gè)韻律詞組詞手段綜合判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的 隔柵。
      所述的韻律詞隔柵刪除部進(jìn)一步包括隔柵刪除置信度評(píng)價(jià)單元,根據(jù)
      多個(gè)韻律詞組詞手段對(duì)當(dāng)前預(yù)備刪除的隔柵進(jìn)行綜合判斷,給出當(dāng)前預(yù)備刪
      除的隔柵需要?jiǎng)h除的置信度;隔柵刪除單元,根據(jù)所述的置信度判斷當(dāng)前預(yù)
      備刪除的隔柵是否需要?jiǎng)h除,如果是則刪除當(dāng)前預(yù)備刪除的隔柵。
      所述裝置還包括韻律詞組詞結(jié)果分析部,用于對(duì)所述韻律詞生成部生 成的韻律詞進(jìn)行分析處理,生成韻律詞組詞分析結(jié)果。
      本發(fā)明還提供一種漢語(yǔ)韻律詞組詞程序,所述程序包括輸入漢語(yǔ)文本; 對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在
      所述初始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成
      一隔柵韻律詞序列;根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪
      除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔 柵;刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每 兩個(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。
      本發(fā)明還提供一種存儲(chǔ)漢語(yǔ)韻律詞組詞程序的可讀存儲(chǔ)介質(zhì),所述可讀 存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞 性標(biāo)注處理,生成一初始的韻律詞序列;在所述初始的韻律詞序列中所有的 詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;根據(jù)韻律詞 組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段 判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵;刪除所述隔柵韻律詞序列中實(shí) 際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成 韻律詞。
      本發(fā)明的有益效果是,通過采用隔柵刪除策略,從而使得多個(gè)韻律詞組 詞手段能夠一起協(xié)同工作。對(duì)輸入自然語(yǔ)言文本的分詞結(jié)果被視為一個(gè)初始 的韻律詞序列,這里假設(shè)在所有的詞邊界上插入韻律詞的隔柵。在這個(gè)基礎(chǔ) 上,多個(gè)韻律詞組詞手段可以協(xié)同工作,因?yàn)槊總€(gè)韻律詞組詞方法均可以刪 除它們各自認(rèn)為在韻律詞層面上不需要的隔柵。換句話說,如果任意一個(gè)韻 律詞組詞方法認(rèn)為某個(gè)隔柵是不需要的,該隔柵即可被刪除。本發(fā)明克服了
      韻律詞插入型錯(cuò)誤而導(dǎo)致的語(yǔ)音難以理解或者不自然的缺陷,減少韻律詞邊 界插入類型錯(cuò)誤的數(shù)目。本發(fā)明采用隔柵刪除策略,從而使得多個(gè)韻律詞組 詞手段能夠一起協(xié)同工作。這種架構(gòu)使得一個(gè)新的韻律詞組詞方法很容易被 組合進(jìn)來(lái),利于系統(tǒng)的維護(hù)修改。


      圖1、為現(xiàn)有技術(shù)中文本的分詞和詞性標(biāo)注及韻律結(jié)構(gòu)示意圖; 圖2、為本發(fā)明裝置結(jié)構(gòu)框圖; 圖3、為本發(fā)明裝置實(shí)施例的流程框圖; 圖4、為本發(fā)明的韻律詞組詞處理流程框圖; 圖5、為本發(fā)明的一柵隔刪除處理流程框圖; 圖6、為本發(fā)明的另一柵隔刪除處理流程框圖。
      具體實(shí)施例方式
      下面結(jié)合

      本發(fā)明的具體實(shí)施方式
      。如圖2所示,本發(fā)明為一種 漢語(yǔ)韻律詞組詞裝置,所述裝置包括輸入部,用于輸入漢語(yǔ)文本;分詞和 詞性標(biāo)注部,用于對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始 的韻律詞序列;韻律詞隔柵插入部,用于在所述初始的韻律詞序列中所有的 詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;韻律詞隔柵 刪除部,用于根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔 柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵,刪除 所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵;韻律詞生成部,用于使所述隔 柵韻律詞序列中剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。
      所述裝置還包括分詞結(jié)果存儲(chǔ)部,用于存儲(chǔ)漢語(yǔ)文本分詞和詞性標(biāo)注 處理后的分詞結(jié)果,根據(jù)所述的分詞結(jié)果生成一初始的韻律詞序列。
      所述的韻律詞隔柵刪除部進(jìn)一步包括隔柵刪除置信度評(píng)價(jià)單元,根據(jù) 多個(gè)韻律詞組詞手段對(duì)當(dāng)前預(yù)備刪除的隔柵進(jìn)行綜合判斷,給出當(dāng)前預(yù)備刪
      除的隔柵需要?jiǎng)h除的置信度;隔柵刪除單元,根據(jù)所述的置信度判斷當(dāng)前預(yù)
      備刪除的隔柵是否需要?jiǎng)h除,如果是則刪除當(dāng)前預(yù)備刪除的隔柵。
      所述的韻律詞隔柵刪除部包括多個(gè)韻律詞組詞手段單元,用于根據(jù)多個(gè) 韻律詞組詞手段對(duì)同一個(gè)隔柵韻律詞序列中預(yù)備刪除的隔柵進(jìn)行標(biāo)注。所述 的根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵是指根 據(jù)多個(gè)韻律詞組詞手段綜合判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵。
      所述裝置還包括韻律詞組詞結(jié)果分析部,用于對(duì)所述韻律詞生成部生 成的韻律詞進(jìn)行分析處理,生成韻律詞組詞分析結(jié)果。
      本發(fā)明可以在計(jì)算機(jī)、服務(wù)器或者計(jì)算機(jī)網(wǎng)絡(luò)中實(shí)現(xiàn),其中輸入裝置可 以是鍵盤、鼠標(biāo)、通信接口等設(shè)備。
      實(shí)施例
      如圖3所示,模塊101為輸入的任意文本。
      分詞和詞性標(biāo)記部(模塊102)對(duì)輸入文本進(jìn)行分詞和詞性標(biāo)注處理。 該模塊是中文文本分析的基礎(chǔ),這是因?yàn)闈h語(yǔ)文本與英語(yǔ)等文本不同,在詞 與詞之間沒有空格作為分隔符來(lái)予以隔開。因此,首先需要對(duì)輸入的文本進(jìn) 行分詞和詞性標(biāo)注處理,獲得的結(jié)果寫入模塊103中,作為后續(xù)處理的基礎(chǔ)。 在具體實(shí)施中,可將韻律詞隔柵插入部、韻律詞隔柵刪除部和韻律詞生 成部統(tǒng)一為一個(gè)韻律詞組詞部(模塊104)即為本發(fā)明的主體部分。在其中, 該模塊采用隔柵消除策略,從而可支持多個(gè)韻律詞組詞手段一起協(xié)同工作。 對(duì)輸入文本的分詞結(jié)果被視為一個(gè)初始的韻律詞序列,這里假設(shè)在所有的詞 邊界上插入韻律詞的隔柵。在這個(gè)基礎(chǔ)上,多個(gè)韻律詞組詞手段協(xié)同工作, 對(duì)它們認(rèn)為在韻律詞層面上不需要的隔柵打上可消除標(biāo)記。最后,統(tǒng)一判斷 各個(gè)隔柵是否可以刪除并進(jìn)行實(shí)際的隔柵刪除。 模塊105為最終的韻律詞組詞分析結(jié)果。 圖4詳細(xì)描述了韻律詞組詞部(模塊104)的處理流程。 模塊201是韻律詞初始化部,它根據(jù)模塊103中存貯的分詞和詞性標(biāo)注 結(jié)果進(jìn)行韻律詞的初始化。具體說來(lái),就是把分詞結(jié)果視為一個(gè)初始的韻律
      詞序列,并在所有的詞邊界上插入代表韻律詞邊界的隔柵。
      模塊202是根據(jù)韻律詞組詞手段1進(jìn)行組詞處理的模塊。該模塊202應(yīng) 用韻律詞組詞手段1,以初始分詞結(jié)果中的各個(gè)詞為基本單元,進(jìn)行韻律詞 的組詞。與此同時(shí),在韻律詞組詞手段1中判定需要消除的隔柵將被模塊203 (隔柵可消除標(biāo)記部)打上可消除標(biāo)記。
      模塊204至模塊206為根據(jù)韻律詞組詞手段2至N進(jìn)行組詞處理的模 塊。它們分別應(yīng)用相應(yīng)的韻律詞組詞手段2至N進(jìn)行韻律詞的組詞。同時(shí)也 把在該韻律詞組詞歸則中判定需要消除的隔柵在隔柵可消除標(biāo)記部打上可消 除標(biāo)記。該韻律詞組詞手段1至N可作為所述的韻律詞隔柵刪除部的組成部 分,S卩韻律詞組詞手段部;以根據(jù)多個(gè)韻律詞組詞手段對(duì)同一個(gè)隔柵韻律 詞序列中預(yù)備刪除的隔柵進(jìn)行標(biāo)注。
      作為上述韻律詞組詞手段1至N的實(shí)施例,可采用
      (1) 基于二叉韻律樹的韻律詞組詞方法作為韻律詞組詞手段l:該韻律
      詞組詞手段基于從一個(gè)大規(guī)模標(biāo)注語(yǔ)料中訓(xùn)練得到的語(yǔ)言模型,對(duì)于一個(gè)輸 入句子,通過遞歸二叉搜索來(lái)尋找最可能的語(yǔ)音停頓插入點(diǎn),從而可以構(gòu)造 出該句子對(duì)應(yīng)的最優(yōu)語(yǔ)音停頓二叉樹。該二叉樹可以稱為韻律結(jié)構(gòu)二叉樹, 因?yàn)槠渲泻w了層次性的語(yǔ)音停頓插入點(diǎn)信息。這個(gè)韻律結(jié)構(gòu)二叉樹將被作 為一個(gè)韻律詞組詞方法應(yīng)用于基于隔柵刪除策略的韻律詞組詞。擁有同一個(gè) 父結(jié)點(diǎn)的任意兩個(gè)葉子結(jié)點(diǎn)之間的韻律詞隔柵將被打上可刪除標(biāo)記。
      (2) 基于統(tǒng)計(jì)概率的韻律詞組詞方法作為韻律詞組詞手段2,在該韻律 詞組詞手段中,詞性(Part-of-Speech, POS)和詞長(zhǎng)信息被用來(lái)預(yù)測(cè)韻律詞 的邊界。該方法假設(shè)在預(yù)測(cè)韻律詞的時(shí)候,詞性信息和詞長(zhǎng)信息是獨(dú)立無(wú)關(guān) 的。這樣,任意兩個(gè)語(yǔ)言學(xué)詞之間可以被組成一個(gè)韻律詞的概率由兩部分組 成,即基于這兩個(gè)詞的詞性考慮下被組韻律詞的概率和基于這兩個(gè)詞詞長(zhǎng) 考慮下被組韻律詞的概率。
      (3) 基于規(guī)則的韻律詞組詞方法作為韻律詞組詞手段N(此例中N=3),針對(duì)一些經(jīng)常使用的韻律詞附著詞等設(shè)計(jì)了相應(yīng)的韻律詞組詞規(guī)則。在漢語(yǔ) 中,后綴詞素"子、們、系、了"等,結(jié)構(gòu)輔助詞"的、得"、方位詞"左 右、以后、以前、以上、以下、以內(nèi)、以外、之后、之前、之上、之下、之 內(nèi)、之夕卜、之間,,等以及趨向動(dòng)詞詞組"起、至U、進(jìn)、上、下"頻繁出現(xiàn)在文 本中。這些詞通常具有固定的韻律詞組詞模式,或者是在一定的條件T具有 固定的韻律詞組詞模式。例如"家長(zhǎng)+們"、"走向+ 了世界"和"搗+—下" 等。如果這些詞沒有被正確地組詞到適當(dāng)?shù)捻嵚稍~中,合成語(yǔ)音聽起來(lái)會(huì)非 常的不自然。因此,可針對(duì)這些常用韻律附著詞設(shè)計(jì)了有針對(duì)性地韻律詞組 詞規(guī)則,確保這些常用韻律附著詞能夠被正確地進(jìn)行韻律詞組詞。
      另夕卜,在漢語(yǔ)中動(dòng)詞有多種重疊形式,如"v — v" , "v 了 v"和"v 了-一v"("談一談","想了想","讀了一讀")。在分詞處理中,它 們作為動(dòng)詞詞組被切分開來(lái),例如"談i 一 i談"。實(shí)際上,這些重疊形式 的動(dòng)詞詞組在自然韻律上應(yīng)該被視為一個(gè)完整的韻律詞。因此,本文對(duì)于這 些動(dòng)詞重疊形式也設(shè)計(jì)了相應(yīng)的韻律詞組詞規(guī)則以確保其被正確地組詞為一 個(gè)韻律詞。上述的多個(gè)韻律詞組詞手段共同作用于本發(fā)明的韻律詞組詞中。
      模塊207是隔柵去除部。該模塊根據(jù)前面N種韻律詞組詞手段標(biāo)記的隔 柵可消除標(biāo)記進(jìn)行綜合判斷,確定最終需要被刪除的韻律詞隔柵。最后,每 兩個(gè)隔柵之間的詞將被組詞在一起,成為韻律詞,分析結(jié)果存入模塊208韻 律詞組詞分析結(jié)果中。
      圖5是隔柵去除部(模塊207)的一個(gè)具體實(shí)現(xiàn)示例。
      模塊301負(fù)責(zé)遍歷所有初始隔柵。
      模塊302負(fù)責(zé)檢查有/無(wú)尚未被處理的隔柵。這里是個(gè)簡(jiǎn)單的順序處理。 如果有未被處理的隔柵,將其交給模塊303處理。如果全部處理完畢,結(jié)束。
      模塊303負(fù)責(zé)檢查當(dāng)前隔柵有沒有被打上可消除標(biāo)記,如發(fā)現(xiàn)當(dāng)前隔柵 至少被其中一種韻律詞組詞方法打上可消除標(biāo)記則轉(zhuǎn)模塊304。否則,轉(zhuǎn)模 塊301。
      模塊304是隔柵刪除部,進(jìn)行具體的隔柵刪除工作。 圖6是隔柵去除部(模塊207)的一個(gè)更一般化的實(shí)現(xiàn)示例。其中與圖5
      的相同部分不再贅述。
      模塊401是隔柵刪除置信度評(píng)價(jià)部。該模塊根據(jù)N種韻律詞組詞方法對(duì)
      當(dāng)前隔柵是否可刪除的標(biāo)記,綜合給出當(dāng)前隔柵可刪除的置信度。
      模塊402根據(jù)模塊401的置信度評(píng)價(jià)結(jié)果,判斷當(dāng)前隔柵是否可刪除。 如果可刪除轉(zhuǎn)模塊304處理。否則,轉(zhuǎn)模塊301。
      隔柵刪除置信度評(píng)價(jià)部可以采用投票的機(jī)制來(lái)進(jìn)行。 一個(gè)最簡(jiǎn)單的投票 機(jī)制可以是在N種韻律詞組詞手段中如果有一半以上的組詞手段認(rèn)為應(yīng)該 刪除當(dāng)前隔柵,那么隔柵刪除置信度評(píng)價(jià)部便認(rèn)為當(dāng)前隔柵應(yīng)該被刪除。
      本發(fā)明通過釆用隔柵刪除策略,從而使得多個(gè)韻律詞組詞手段能夠一起 協(xié)同工作。對(duì)輸入自然語(yǔ)言文本的分詞結(jié)果被視為一個(gè)初始的韻律詞序列, 這里假設(shè)在所有的詞邊界上插入韻律詞的隔柵。在這個(gè)基礎(chǔ)上,多個(gè)韻律詞 組詞手段可以協(xié)同工作,因?yàn)槊總€(gè)韻律詞組詞方法均可以刪除它們各自認(rèn)為 在韻律詞層面上不需要的隔柵。換句話說,如果任意一個(gè)韻律詞組詞方法認(rèn) 為某個(gè)隔柵是不需要的,該隔柵即可被刪除。本發(fā)明通過減少韻律詞邊界插 入型錯(cuò)誤的數(shù)目,盡量避免韻律詞組詞中插入型錯(cuò)誤而導(dǎo)致的語(yǔ)音難以理解 或者不自然的缺陷,減少韻律詞邊界插入類型錯(cuò)誤的數(shù)目。本發(fā)明采用隔柵 刪除策略,從而使得多個(gè)韻律詞組詞手段能夠一起協(xié)同工作。這種架構(gòu)使得 -個(gè)新的韻律詞組詞方法很容易被組合進(jìn)來(lái),利于系統(tǒng)的維護(hù)修改。
      以上具體實(shí)施方式
      僅用于說明本發(fā)明,而非用于限定本發(fā)明。
      權(quán)利要求
      1.一種漢語(yǔ)韻律詞組詞方法,其特征是,所述方法包括以下步驟輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在所述初始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵;刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。
      2.根據(jù)權(quán)利要求1所述的方法,其特征是,對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理生成分詞結(jié)果,根據(jù)所述的分詞結(jié)果生成一初始的韻律詞序列。
      3. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的根據(jù)韻律詞組詞手段 標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵是指根據(jù)多個(gè)韻律詞組詞手段 對(duì)同一個(gè)隔柵韻律詞序列中預(yù)備刪除的隔柵進(jìn)行標(biāo)注。
      4. 根據(jù)權(quán)利要求1或3所述的方法,其特征是,所述的根據(jù)韻律詞組詞 手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵是指根據(jù)多個(gè)韻律詞組詞 手段綜合判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵。
      5. 根據(jù)權(quán)利要求4所述的方法,其特征是,所述的刪除所述隔柵韻律詞 序列中實(shí)際需要?jiǎng)h除的隔柵包括根據(jù)多個(gè)韻律詞組詞手段對(duì)當(dāng)前預(yù)備刪除的隔柵進(jìn)行綜合判斷,給出當(dāng) 前預(yù)備刪除的隔柵需要?jiǎng)h除的置信度;根據(jù)所述的置信度判斷當(dāng)前預(yù)備刪除的隔柵是否需要?jiǎng)h除,如果是則刪 除當(dāng)前預(yù)備刪除的隔柵。
      6. —種漢語(yǔ)韻律詞組詞裝置,其特征是,所述裝置包括-輸入部,用于輸入漢語(yǔ)文本;分詞和詞性標(biāo)注部,用于對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理, 生成一初始的韻律詞序列;韻律詞隔柵插入部,用于在所述初始的韻律詞序列中所有的詞邊界上插 入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;韻律詞隔柵刪除部,用于根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h 除的隔柵,刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵;韻律詞生成部,用于使所述隔柵韻律詞序列中剩余隔柵中的每?jī)蓚€(gè)隔柵 之間的詞進(jìn)行組詞,生成韻律詞。
      7. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述裝置還包括 分詞結(jié)果存儲(chǔ)部,用于存儲(chǔ)漢語(yǔ)文本分詞和詞性標(biāo)注處理后的分詞結(jié)果,根據(jù)所述的分詞結(jié)果生成一初始的韻律詞序列。
      8. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述的韻律詞隔柵刪除部包 括多個(gè)韻律詞組詞手段單元,用于根據(jù)多個(gè)韻律詞組詞手段對(duì)同一個(gè)隔柵韻 律詞序列中預(yù)備刪除的隔柵進(jìn)行標(biāo)注。
      9. 根據(jù)權(quán)利要求6或8所述的裝置,其特征是,所述的根據(jù)韻律詞組詞 手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵是指根據(jù)多個(gè)韻律詞組詞 手段綜合判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵。
      10. 根據(jù)權(quán)利要求9所述的裝置,其特征是,所述的韻律詞隔柵刪除部 進(jìn)一步包括隔柵刪除置信度評(píng)價(jià)單元,根據(jù)多個(gè)韻律詞組詞手段對(duì)當(dāng)前預(yù)備刪除的 隔柵進(jìn)行綜合判斷,給出當(dāng)前預(yù)備刪除的隔柵需要?jiǎng)h除的置信度;隔柵刪除單元,根據(jù)所述的置信度判斷當(dāng)前預(yù)備刪除的隔柵是否需要?jiǎng)h 除,如果是則刪除當(dāng)前預(yù)備刪除的隔柵。
      11. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述裝置還包括韻律詞組詞結(jié)果分析部,用于對(duì)所述韻律詞生成部生成的韻律詞進(jìn)行分析處理,生成韻律詞組詞分析結(jié)果。
      12. —種漢語(yǔ)韻律詞組詞程序,其特征是,所述程序包括 輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在所述初始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵;刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。
      13. —種存儲(chǔ)漢語(yǔ)韻律詞組詞程序的可讀存儲(chǔ)介質(zhì),其特征是,所述可讀存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在所述初始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;根據(jù)韻律詞組詞手段標(biāo)注所述隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵; 刪除所述隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。
      全文摘要
      本發(fā)明為一種漢語(yǔ)韻律詞組詞方法及裝置,所述方法包括輸入漢語(yǔ)文本;對(duì)輸入的漢語(yǔ)文本進(jìn)行分詞和詞性標(biāo)注處理,生成一初始的韻律詞序列;在初始的韻律詞序列中所有的詞邊界上插入代表韻律詞邊界的隔柵,生成一隔柵韻律詞序列;根據(jù)韻律詞組詞手段標(biāo)注隔柵韻律詞序列中預(yù)備刪除的隔柵;根據(jù)韻律詞組詞手段判斷預(yù)備刪除的隔柵中實(shí)際需要?jiǎng)h除的隔柵;刪除隔柵韻律詞序列中實(shí)際需要?jiǎng)h除的隔柵,并使剩余隔柵中的每?jī)蓚€(gè)隔柵之間的詞進(jìn)行組詞,生成韻律詞。通過減少韻律詞邊界插入型錯(cuò)誤的數(shù)目,盡量避免韻律詞組詞中插入型錯(cuò)誤而導(dǎo)致的語(yǔ)音難以理解或者不自然的缺陷,減少韻律詞邊界插入類型錯(cuò)誤的數(shù)目。
      文檔編號(hào)G10L13/00GK101202041SQ200610167040
      公開日2008年6月18日 申請(qǐng)日期2006年12月13日 優(yōu)先權(quán)日2006年12月13日
      發(fā)明者片江伸之, 慶 郭 申請(qǐng)人:富士通株式會(huì)社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1