国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法

      文檔序號(hào):9490321閱讀:557來(lái)源:國(guó)知局
      韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及語(yǔ)音技術(shù)領(lǐng)域,尤其涉及一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方 法、使用該韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法以及裝置。
      【背景技術(shù)】
      [0002] 語(yǔ)音合成,又稱(chēng)文語(yǔ)轉(zhuǎn)換技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語(yǔ)音并進(jìn)行朗讀的 技術(shù)。在語(yǔ)音合成系統(tǒng)中,由于韻律層級(jí)預(yù)測(cè)是整個(gè)系統(tǒng)的基礎(chǔ),因此,如何提高語(yǔ)音合成 的效果關(guān)鍵在于如何提高韻律層級(jí)預(yù)測(cè)的準(zhǔn)確性。
      [0003] 相關(guān)技術(shù)中,韻律層級(jí)預(yù)測(cè)的方法主要有以下兩種:
      [0004] 第一種,韻律層級(jí)預(yù)測(cè)通常采用CRF(ConditionalRandomField,條件隨機(jī)場(chǎng))模 型進(jìn)行預(yù)測(cè),即基于CRF的韻律層級(jí)預(yù)測(cè)方法為了在模型中引入上下文信息,需要對(duì)訓(xùn)練 的特征進(jìn)行左右擴(kuò)展,并且引入人工編寫(xiě)的特征模板對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練。此外,由于 韻律層級(jí)結(jié)構(gòu)具有一定的包含關(guān)系,傳統(tǒng)基于CRF的韻律預(yù)測(cè)方法首先分別訓(xùn)練得到韻律 詞模型、韻律短語(yǔ)模型以及語(yǔ)調(diào)短語(yǔ)模型,然后采用逐級(jí)預(yù)測(cè)的方式對(duì)文本的韻律結(jié)構(gòu)進(jìn) 行預(yù)測(cè);
      [0005] 第二種,韻律層級(jí)預(yù)測(cè)使用的模型是基于詞粒度的基礎(chǔ)上進(jìn)行訓(xùn)練和預(yù)測(cè)的,通 過(guò)分詞系統(tǒng)獲得訓(xùn)練或者預(yù)測(cè)文本的分詞結(jié)果,并獲得詞性、詞長(zhǎng)等特征,通過(guò)人工編寫(xiě)的 特征模板生成對(duì)應(yīng)的文本特征來(lái)進(jìn)行訓(xùn)練和預(yù)測(cè)。
      [0006] 但是,上述兩種方法主要存在以下問(wèn)題:
      [0007] (1)采用特征左右擴(kuò)展的方式雖然能夠在一定程度上引入上下文關(guān)系,但是為了 減少模型的規(guī)模和訓(xùn)練的復(fù)雜度,擴(kuò)展的大小往往有限,因而無(wú)法構(gòu)建單詞之間較遠(yuǎn)距離 的上下文關(guān)系;
      [0008] (2)采用逐級(jí)訓(xùn)練的方式可能會(huì)導(dǎo)致錯(cuò)誤的逐級(jí)傳遞,一旦在前一級(jí)韻律預(yù)測(cè)中 出現(xiàn)錯(cuò)誤,這種錯(cuò)誤很容易向下傳遞,造成后續(xù)的預(yù)測(cè)錯(cuò)誤;
      [0009] (3)由于韻律預(yù)測(cè)模型的訓(xùn)練和預(yù)測(cè)是基于詞粒度的基礎(chǔ)上進(jìn)行的,韻律預(yù)測(cè)模 型的性能依賴(lài)于分詞系統(tǒng)的性能,離線語(yǔ)音合成中的分詞系統(tǒng)由于計(jì)算資源和存儲(chǔ)空間的 限制,性能低于在線語(yǔ)音合成系統(tǒng)中的分詞系統(tǒng),從而影響到最終的韻律預(yù)測(cè)性能;
      [0010] (4)對(duì)于離線合成系統(tǒng)來(lái)說(shuō),由于計(jì)算資源及存儲(chǔ)空間有限,對(duì)于模型和資源文件 大小要求嚴(yán)格,使用詞粒度的預(yù)測(cè)模型需要依賴(lài)的詞典文件詞條數(shù)達(dá)數(shù)十萬(wàn)級(jí)別,對(duì)于存 儲(chǔ)空間和計(jì)算資源占用較大。

      【發(fā)明內(nèi)容】

      [0011] 本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問(wèn)題之一。
      [0012] 為此,本發(fā)明的第一個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方 法。該方法基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比,有效地減小了條目規(guī)模,同 時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求,在提高韻律預(yù)測(cè)模型性能的同 時(shí),保證了在嵌入式智能設(shè)備中的可用性。
      [0013] 本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音合成方法。
      [0014] 本發(fā)明的第三個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置。
      [0015] 本發(fā)明的第四個(gè)目的在于提出一種語(yǔ)音合成裝置。
      [0016] 為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型 訓(xùn)練方法,包括:對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量;根據(jù)所述字向量以 及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,其中,所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述 韻律層級(jí)模型;以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特 征、所述標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
      [0017] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法,可先對(duì)海量無(wú)標(biāo)注語(yǔ)料 數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量,之后,可根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì) 應(yīng)的文本特征及標(biāo)注,以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)訓(xùn)練數(shù)據(jù)的文本 特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練,至少具有以下優(yōu)點(diǎn):1)利用雙向LSTM的長(zhǎng)短時(shí)記憶 功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè),有效解決了傳統(tǒng)采用人工指定特 征模板的方式引入上下文的局限性,提升了韻律預(yù)測(cè)模型的性能;2)采用一遍標(biāo)注的方式 對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè),避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間向下傳遞,同時(shí)不 同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示;3)使用基于字粒度的文本特征,降低了分 詞系統(tǒng)對(duì)于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比, 有效地減小了條目規(guī)模,同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求,在 提高韻律預(yù)測(cè)模型性能的同時(shí),保證了在嵌入式智能設(shè)備中的可用性。
      [0018] 為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種使用本發(fā)明第一方面實(shí)施例所 述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法,包括:獲取待預(yù)測(cè)文本,并提取所述待預(yù)測(cè)文本的 文本特征;將所述文本特征輸入所述韻律層級(jí)模型,并根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù) 測(cè)文本進(jìn)行韻律預(yù)測(cè);進(jìn)一步對(duì)所述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列;以 及根據(jù)所述聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果。
      [0019] 本發(fā)明實(shí)施例的語(yǔ)音合成方法,可從待預(yù)測(cè)文本中提取文本特征,并將文本特征 輸入韻律層級(jí)模型,根據(jù)韻律層級(jí)模型對(duì)待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè),進(jìn)一步對(duì)待預(yù)測(cè)文本 進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列,以及根據(jù)聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果,即通過(guò)使 用基于字粒度的文本特征以及雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練而成的韻律層級(jí)模型,提升了韻律 預(yù)測(cè)的準(zhǔn)確性,從而使得韻律停頓更加流暢自然,提升了用戶體驗(yàn)。
      [0020] 為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型 訓(xùn)練裝置,包括:獲取模塊,用于對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量;生成 模塊,用于根據(jù)所述字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,其中, 所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級(jí)模型;以及訓(xùn)練模塊,用于基于深度神經(jīng)網(wǎng)絡(luò)和雙向 LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
      [0021] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置,可通過(guò)獲取模塊對(duì)海量 無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量,生成模塊根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取 訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,訓(xùn)練模炔基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根 據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練,至少具有以下優(yōu)點(diǎn):1)利用雙向 LSTM的長(zhǎng)短時(shí)記憶功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè),有效解決了傳 統(tǒng)采用人工指定特征模板的方式引入上下文的局限性,提升了韻律預(yù)測(cè)模型的性能;2)采 用一遍標(biāo)注的方式對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè),避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間 向下傳遞,同時(shí)不同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示;3)使用基于字粒度的文 本特征,降低了分詞系統(tǒng)對(duì)于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞 粒度的詞典相比,有效地減小了條目規(guī)模,同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存 儲(chǔ)空間的要求,在提高韻律預(yù)測(cè)模型性能的同時(shí),保證了在嵌入式智能設(shè)備中的可用性。
      [0022] 為達(dá)上述目的,本發(fā)明第四方面實(shí)施例提出了一種使用本發(fā)明第三方面實(shí)施例所 述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的裝置,包括:提取模塊,用于獲取待預(yù)測(cè)文本,并提取所 述待預(yù)測(cè)文本的文本特征;第一預(yù)測(cè)模塊,用于將所述文本特征輸入所述韻律層級(jí)模型,并 根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè);第二預(yù)測(cè)模塊,用于進(jìn)一步對(duì)所 述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列;以及生成模塊,用于根據(jù)所述聲學(xué)參數(shù) 序列生成語(yǔ)音合成結(jié)果。
      [0023] 本發(fā)明實(shí)施例的語(yǔ)音合成裝置,可通過(guò)提取模塊從待預(yù)測(cè)文本中提取文本特征, 第一預(yù)測(cè)模塊將文本特征輸
      當(dāng)前第1頁(yè)1 2 3 4 5 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1