国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      確定文本語音單元的方法及系統(tǒng)與流程

      文檔序號(hào):11954761閱讀:370來源:國知局
      確定文本語音單元的方法及系統(tǒng)與流程
      本發(fā)明涉及語音信息處理
      技術(shù)領(lǐng)域
      ,具體涉及一種確定文本語音單元的方法及系統(tǒng)。
      背景技術(shù)
      :在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,智能語音應(yīng)用已經(jīng)成為人們生活中不可缺少的方向。語音識(shí)別、語音合成及語音搜索等技術(shù)的成熟,推動(dòng)了穿戴式設(shè)備、智能家居及車載設(shè)備的應(yīng)用。與此同時(shí),在研究一個(gè)語言的語音特性時(shí),需要從語音單元入手,語音單元描述的是一個(gè)語言語音系統(tǒng)的基本問題,如何確定語音單元也是研究各語音系統(tǒng)必不可少的語音基礎(chǔ),所述語音系統(tǒng)比如可以是語音合成系統(tǒng)、語音識(shí)別系統(tǒng)?,F(xiàn)有的語音單元的確定方法基本上可以分為兩種:即直接使用音素或聲韻母作為語音單元,比如,對(duì)于音素語言,如英語等西方語言,一般直接使用音素作為基本語音單元;對(duì)于音節(jié)語言,如中文,一般直接使用聲韻母作為基本語音單元?,F(xiàn)有的基本語音單元一般是建立在語音系統(tǒng)的基礎(chǔ)上的,而未考慮連續(xù)語音的實(shí)際聲學(xué)表現(xiàn),進(jìn)而會(huì)產(chǎn)生如下問題:(1)由于連續(xù)語音是由人的發(fā)音器官連續(xù)變化產(chǎn)生的,因此,在聲學(xué)層面上會(huì)存在一些結(jié)合緊密的語音單元很難分割。而現(xiàn)有方法直接使用音素或聲韻母作為基本語音單元時(shí),一般是強(qiáng)制將這些結(jié)合緊密的語音單元分開,造成語音系統(tǒng)效果的下降。如拼接語音合成時(shí),在語音單元拼接點(diǎn)處經(jīng)常會(huì)出現(xiàn)跳變的情況。(2)為了表現(xiàn)詞義或語義,連續(xù)語音在語法單元層面上存在不同的韻律表現(xiàn),如語音單元在前綴、中綴、后綴等不同語法單元位置時(shí)韻律表現(xiàn)是不同的?,F(xiàn)有方法未考慮語音單元在語法單元層面的韻律表現(xiàn),從而影響語音系統(tǒng)語義的表現(xiàn)或理解。如語音合成時(shí),將本來屬于前綴的語音單元在合成時(shí)放到了后綴上,造成合成語音在韻律上存在嚴(yán)重問題,導(dǎo)致合成的語音不自然,影 響合成語音所要表達(dá)的語義。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種確定文本語音單元的方法及系統(tǒng),以避免緊密結(jié)合的語音單元被強(qiáng)行拆分的問題。為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:一種確定文本語音單元的方法,包括:接收待處理文本;確定所述待處理文本的音素集合;根據(jù)所述音素集合對(duì)所述待處理文本進(jìn)行字音轉(zhuǎn)換,得到所述待處理文本的語音符號(hào)序列;確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu);在各音節(jié)結(jié)構(gòu)內(nèi),將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串;根據(jù)所述音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。優(yōu)選地,所述確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)包括:對(duì)基本音素進(jìn)行分類;確定基于所述分類的音素結(jié)構(gòu)表示形式;根據(jù)所述音素結(jié)構(gòu)的表示形式,確定音節(jié)結(jié)構(gòu)的表示形式;根據(jù)所述音節(jié)結(jié)構(gòu)的表示形式確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)。優(yōu)選地,所述基本音素的類型包括:輔音頭、介音、元音核、響輔音尾、輔音尾;所述音素串的類型包括:輔音群音素串,和/或依據(jù)音節(jié)結(jié)構(gòu)擴(kuò)充的音素串;所述將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串包括:將所述輔音頭Ci、響輔音尾Cs、輔音尾Ct擴(kuò)充為包含兩個(gè)或兩個(gè)以上基本音素的音素串;和/或?qū)⒁粋€(gè)音節(jié)結(jié)構(gòu)內(nèi)符合預(yù)先確定的音素串組成形式的連續(xù)音素組合為一個(gè)音素串。優(yōu)選地,所述方法還包括:根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,得到篩 選后的音素串;所述根據(jù)所述音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元包括:根據(jù)篩選后的音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。優(yōu)選地,所述根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,得到篩選后的音素串包括:獲取所述音素串所在音節(jié)在語法單元中的位置信息,并將內(nèi)容相同位置不同的音素串標(biāo)記為不同的音素串;統(tǒng)計(jì)各音素串在與待處理文本相同語種的大量文本數(shù)據(jù)中出現(xiàn)的頻率;根據(jù)所述音素串在大量文本數(shù)據(jù)中出現(xiàn)的頻率對(duì)音素串進(jìn)行篩選,得到篩選后的音素串。優(yōu)選地,所述方法還包括:在確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)之前,判斷所述待處理文本的語言類型;如果所述待處理文本為音節(jié)語言,則將所述語音符號(hào)序列中的聲韻母轉(zhuǎn)換為對(duì)應(yīng)的音素。一種確定文本語音單元的系統(tǒng),包括:接收模塊,用于接收待處理文本;音素集合獲取模塊,用于確定所述待處理文本的音素集合;字音轉(zhuǎn)換模塊,用于根據(jù)所述音素集合對(duì)所述待處理文本進(jìn)行字音轉(zhuǎn)換,得到所述待處理文本的語音符號(hào)序列;音節(jié)結(jié)構(gòu)劃分模塊,用于確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu);擴(kuò)充模塊,用于在各音節(jié)結(jié)構(gòu)內(nèi),將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串;語音單元提取模塊,用于根據(jù)所述音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。優(yōu)選地,所述音節(jié)結(jié)構(gòu)劃分模塊包括:分類單元,用于對(duì)基本音素進(jìn)行分類;表示形式確定單元,用于確定基于所述分類的音素結(jié)構(gòu)表示形式,并根據(jù)所述音素結(jié)構(gòu)的表示形式,確定音節(jié)結(jié)構(gòu)的表示形式;音節(jié)結(jié)構(gòu)確定單元,用于根據(jù)所述音節(jié)結(jié)構(gòu)的表示形式確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)。優(yōu)選地,所述基本音素的類型包括:輔音頭、介音、元音核、響輔音尾、輔音尾;所述音素串的類型包括:輔音群音素串,和/或依據(jù)音節(jié)結(jié)構(gòu)擴(kuò)充的音素串;所述擴(kuò)充模塊,具體用于將所述輔音頭Ci、響輔音尾Cs、輔音尾Ct擴(kuò)充為包含兩個(gè)或兩個(gè)以上基本音素的音素串;和/或?qū)⒁粋€(gè)音節(jié)結(jié)構(gòu)內(nèi)符合預(yù)先確定的音素串組成形式的連續(xù)音素組合為一個(gè)音素串。優(yōu)選地,所述系統(tǒng)還包括:篩選模塊,用于根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,得到篩選后的音素串;所述語音單元提取模塊根據(jù)所述篩選模塊篩選后的音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。優(yōu)選地,所述篩選模塊包括:位置信息獲取單元,用于獲取所述音素串所在音節(jié)在語法單元中的位置信息,并將內(nèi)容相同位置不同的音素串標(biāo)記為不同的音素串;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)各音素串在與待處理文本相同語種的大量文本數(shù)據(jù)中出現(xiàn)的頻率;篩選單元,用于根據(jù)所述音素串在大量文本數(shù)據(jù)中出現(xiàn)的頻率對(duì)音素串進(jìn)行篩選,得到篩選后的音素串。優(yōu)選地,所述系統(tǒng)還包括:判斷模塊,用于在所述音節(jié)結(jié)構(gòu)劃分模塊確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)之前,判斷所述待處理文本的語言類型;調(diào)整模塊,用于在所述判斷模塊判斷所述待處理文本為音節(jié)語言后,將所述語音符號(hào)序列中的聲韻母轉(zhuǎn)換為對(duì)應(yīng)的音素。本發(fā)明實(shí)施例提供的確定文本語音單元的方法及系統(tǒng),通過將音節(jié)結(jié)構(gòu)內(nèi)聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串,將音素串作為一個(gè)語音單 元,有效地避免了緊密結(jié)合的語音單元被強(qiáng)行拆分的情況。進(jìn)一地,根據(jù)音素串在大量文本中出現(xiàn)的頻率對(duì)擴(kuò)充后的音素串進(jìn)行篩選,并且將內(nèi)容相同位置不同的音素串作為不同的音素串,從而篩選出常用音素串,使得擴(kuò)充后的音素串表示的語音單元更有效,而且可以更準(zhǔn)確地體現(xiàn)語音單元在語法單元層面的韻律表現(xiàn)。附圖說明為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例確定文本語音單元的方法的流程圖;圖2是本發(fā)明實(shí)施例確定文本語音單元的系統(tǒng)的一種結(jié)構(gòu)示意圖;圖3是本發(fā)明實(shí)施例確定文本語音單元的系統(tǒng)的另一種結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例確定文本語音單元的系統(tǒng)的另一種結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本
      技術(shù)領(lǐng)域
      的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。語音單元通常是指構(gòu)成話語的、具有區(qū)別意義的最小語音單位,在現(xiàn)有技術(shù)中一般直接使用音素或聲韻母作為語音單元。一方面,這樣劃分的語音單元會(huì)導(dǎo)致連續(xù)語音中緊密結(jié)合的語音單元被強(qiáng)行拆分,進(jìn)而導(dǎo)致語音合成時(shí)語音單元的拼接點(diǎn)處存在跳變現(xiàn)象,影響語音合成效果;另一方面,這樣劃分的語音單元不能準(zhǔn)確體現(xiàn)語音單元在語音單元法層面的韻律表現(xiàn),會(huì)導(dǎo)致合成的語音不自然。針對(duì)上述問題,本發(fā)明實(shí)施例確定文本語音單元的方法及系統(tǒng),通過將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串,有效防止緊密結(jié)合的語音單元被強(qiáng)行拆分的情況,同時(shí)可以更好地體現(xiàn)語音單元的韻律表現(xiàn)。如圖1所示,是本發(fā)明實(shí)施例確定文本語音單元的方法的流程圖,包括以 下步驟:步驟101,接收待處理文本。步驟102,確定所述待處理文本的音素集合。步驟103,根據(jù)所述音素集合對(duì)所述待處理文本進(jìn)行字音轉(zhuǎn)換,得到所述待處理文本的語音符號(hào)序列。所述字音轉(zhuǎn)換是指將文本轉(zhuǎn)換成相應(yīng)的語音符號(hào)序列,如文本“語音合成”字音轉(zhuǎn)換后的語音符號(hào)序列為“y$u3-y$in1#h$e2-ch$eng2”。其中,符號(hào)“$”表示音素邊界,符號(hào)“-”表示音節(jié)邊界,符號(hào)“#”表示詞邊界,數(shù)字1、2、3、4表示音節(jié)聲調(diào)。所述轉(zhuǎn)換方法為現(xiàn)有技術(shù),此處不再贅述。步驟104,確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)。通常,音節(jié)是指最自然的語音單位,而音素是最小的語音單位,音素又分為元音音素和輔音音素。一個(gè)音節(jié)包含一個(gè)元音和多個(gè)輔音。為了更好地確定音素之間的緊密程度,在本發(fā)明實(shí)施例中,可以將基本音素劃分為以下五類,即輔音頭Ci、介音Cj、元音核Vc、響輔音尾Cs、輔音尾Ct,具體描述如表1所示。表1當(dāng)然,在實(shí)際應(yīng)用中,還可以有其它分類方式,對(duì)此本發(fā)明實(shí)施例不做限定。根據(jù)上述基本音素的分類,構(gòu)建的音素結(jié)構(gòu)表示形式為:Ci-Cj-Vc-Cs-Ct,其中,Ci、Cs、Ct可以缺省,如英文的一個(gè)音節(jié)中Ci、Cj、Cs、Ct均可能缺省,Vc不可能缺省。基于上述音素結(jié)構(gòu)表示形式,音節(jié)結(jié)構(gòu)的表示形式如表2所示。表2音節(jié)結(jié)構(gòu)實(shí)例(英語)實(shí)例音素序列CjVclenlaenCjVcCtlenslaensVcCsananVcCsCtyetyehtCiCjVcCstrialtrrilCiCjVcCsCttrialstrilsCjVcCsyoungyaongCjVcCsCtlonglaongCiVcteatiCiVcCttasttehstCiVcCsstarstarCiVcCsCtstartstaartCiCjVcCsswarmswaomCiCjVcCsCtswarmsswaoms在確定了音節(jié)結(jié)構(gòu)的表示形式后,即可根據(jù)該表示形式對(duì)待處理文本的語音符號(hào)序列進(jìn)行音節(jié)結(jié)構(gòu)劃分,得到其中的各音節(jié)結(jié)構(gòu)。步驟105,在各音節(jié)結(jié)構(gòu)內(nèi),將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串。為了更符合連續(xù)語音的實(shí)際聲學(xué)表現(xiàn),即緊密結(jié)合的語音單元不可分割性及更好地表達(dá)語音的語義信息,本發(fā)明實(shí)施例將音素?cái)U(kuò)充為音素串,擴(kuò)充后的音素串作為語音單元,如表3為擴(kuò)充后的不同類型的音素串組合形式。表3可以將上述音素串組合形式分為以下兩種類型:1)輔音群音素串,即根據(jù)輔音頭Ci、響輔音尾Cs、輔音尾Ct擴(kuò)充的音素串;2)依據(jù)音節(jié)結(jié)構(gòu)擴(kuò)充的音素串,這種類型的音素串的組合形式共六種,如表3中所示。上述各種類型的音素串的擴(kuò)充方法如下所述:(1)擴(kuò)充輔音頭Ci、響輔音尾Cs、輔音尾Ct為音素串由于基本音素類型輔音頭Ci、響輔音尾Cs、輔音尾Ct可以包含兩個(gè)或兩個(gè)以上的基本音素,因此,可以將Ci、Cs、Ct擴(kuò)充為包含兩個(gè)或兩個(gè)以上的基本音素,擴(kuò)充后的Ci、Cs、Ct稱為輔音群,所述輔音群中的音素在聲學(xué)層面結(jié)合較緊密。如英文“plan”的音素序列為:”plant”,其中,“p-l”構(gòu)成了輔音群,因此,將p-l作為Ci的整體。如英文“film”的音素序列為:“film”,其中,“l(fā)-m”構(gòu)成了輔音群,因此,將“l(fā)-m”作為Cs的整體。如英文“east”的音素序列為:“ist”,其中,“s-t”構(gòu)成了輔音群,因此,將“s-t”作為Ct的整體。(2)依據(jù)音節(jié)結(jié)構(gòu)擴(kuò)充音素串由于音節(jié)中結(jié)合緊密的音素之間的過渡段不易拆分,一般情況下,元音之間,元音和濁輔音之間,濁輔音之間結(jié)合比較緊密,強(qiáng)行拆分后容易造成應(yīng)用效果的下降。因此,為了避免將結(jié)合緊密的音素拆分開,可以對(duì)所述音素進(jìn)行 擴(kuò)充,擴(kuò)充后的單個(gè)音素串作為一個(gè)語音單元。比如擴(kuò)充后可以有以下六種音素串的組合形式:Cj-Vc、Vc-Cs、Cj-Vc-Cs、Ci-Vc、Ci-Vc-Cs、Ci-Cj-Vc-Cs。如英文“plan”中的音素串“l(fā)-a-n”、“star”中的音素串“t-a-r”、“beam”中的音素串“b-i-m”。步驟106,根據(jù)所述音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。具體地,將語音符號(hào)序列中的音素串、以及除去所述音素串的單個(gè)音素作為待處理文本的語音單元。進(jìn)一步地,為了使擴(kuò)充后的音素串更有效,還可以先對(duì)步驟105擴(kuò)充后的音素串進(jìn)行篩選,篩選出經(jīng)常使用的音素串,然后再根據(jù)篩選后的音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。音素串的篩選原則可以是根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,并且在篩選時(shí),將內(nèi)容相同位置不同的音素串作為不同的音素串。具體篩選過程如下:(1)獲取音素串所在音節(jié)在語法單元中的位置信息,并將內(nèi)容相同位置不同的音素串標(biāo)記為不同的音素串。所述位置信息主要體現(xiàn)在語法單元層面上,比如,可以將其分為四種,具體如下:位置1:音素串所在音節(jié)位于多音節(jié)語法單元的第一個(gè)音節(jié)中;位置2:音素串所在音節(jié)位于多音節(jié)語法單元的中音節(jié)中,所述中音節(jié)為除第一個(gè)音節(jié)和最后一個(gè)音節(jié)以外的音節(jié);位置3:音素串所在音節(jié)位于多音節(jié)語法單元的最后一個(gè)音節(jié)中;位置4:音素串所在音節(jié)位于單音節(jié)語法單元中。(2)收集與待處理文本相同語種的大量文本數(shù)據(jù),并統(tǒng)計(jì)待處理文本中的每個(gè)音素串在所述文本數(shù)據(jù)中出現(xiàn)的頻率,如下式所示:Qi=Σj=1Niqij]]>其中,Qi為第i個(gè)音素串出現(xiàn)的頻率,qij為第i個(gè)音素串出現(xiàn)的第j個(gè)語法 單元在所述文本數(shù)據(jù)中出現(xiàn)的頻率,Ni為第i個(gè)音素串出現(xiàn)的語法單元總數(shù)。具體地,可以根據(jù)所述大量文本數(shù)據(jù)構(gòu)建語法單元詞典,該語法單元詞典包含所述文本數(shù)據(jù)中的各語法單元及其在所述文本數(shù)據(jù)中出現(xiàn)的頻率,根據(jù)該語法單元詞典統(tǒng)計(jì)音素串在所述文本數(shù)據(jù)中出現(xiàn)的頻率。比如,英文音素串“ba4”(其中的數(shù)字表示的是音素串所在音節(jié)在語法單元中的位置信息,“4”即為前面所述的表示音素串出現(xiàn)在單音節(jié)語法單元中),所述語法單元詞典中有三個(gè)語法單元出現(xiàn)“ba4”,每個(gè)語法單元在所述文本數(shù)據(jù)中出現(xiàn)的頻率如下:bus(bas)頻率=500bug(bag)頻率=550but(bat)頻率=980則音素串“ba4”在所述文本數(shù)據(jù)中出現(xiàn)的頻率為:500+550+980=2030。在本發(fā)明實(shí)施例中,相同內(nèi)容的音素串帶有不同的位置信息時(shí),認(rèn)為是不同的音素串。如“ba4”和“ba1”為不同的音素串,需要分別統(tǒng)計(jì)各自出現(xiàn)的頻率。(3)根據(jù)所述音素串在大量數(shù)據(jù)中出現(xiàn)的頻率對(duì)音素串進(jìn)行篩選,得到篩選后的音素串。具體篩選方法可以按照預(yù)先設(shè)定的條件進(jìn)行篩選,以預(yù)先設(shè)定的刪除閾值比例為例進(jìn)行說明,所述刪除閾值比例如5%,具體如下:按照每個(gè)音素串的出現(xiàn)頻率對(duì)其進(jìn)行排序,根據(jù)預(yù)先設(shè)定的刪除閾值比例,將音素串出現(xiàn)頻率較低的刪除即可,直到達(dá)到刪除閾值比例。本發(fā)明實(shí)施例提供的確定文本語音單元的方法,通過將音節(jié)結(jié)構(gòu)內(nèi)聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串,將擴(kuò)充后的音素串作為一個(gè)語音單元,有效地避免了緊密結(jié)合的語音單元被強(qiáng)行拆分的情況。進(jìn)一地,根據(jù)音素串在大量文本中出現(xiàn)的頻率對(duì)擴(kuò)充后的音素串進(jìn)行篩選,并且將內(nèi)容相同位置不同的音素串作為不同的音素串,從而篩選出常用的音素串,使得擴(kuò)充后的音素串表示的語音單元更有效,而且可以更準(zhǔn)確地體現(xiàn)語音單元在語法單元層面的韻律表現(xiàn)。本發(fā)明實(shí)施例的方法可以應(yīng)用于語音合成、語音識(shí)別、語音搜索等領(lǐng)域。 可以應(yīng)用于單一音素語言(比如英語等西方語言)的處理,也可以應(yīng)用于多語種的處理。需要說明的是,在應(yīng)用于多語種的處理時(shí),如果其中包含有音節(jié)語言(比如中文),由于音節(jié)語言現(xiàn)有技術(shù)中使用聲韻母作為基本語音單元,因此,還需要將其中的聲韻母轉(zhuǎn)換成對(duì)應(yīng)的音素,以便統(tǒng)一處理。也就是說,在確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)之前,判斷所述待處理文本的語言類型,具體根據(jù)待處理文本的字符編碼或相應(yīng)詞典來判斷;如果所述待處理文本為音節(jié)語言,則將所述語音符號(hào)序列中的聲韻母轉(zhuǎn)換為對(duì)應(yīng)的音素。比如,中文“王”的聲母和韻母分別是“w”和“ang”,將聲母韻母轉(zhuǎn)換成對(duì)應(yīng)的音素為“w”、“a”、“ng”。相應(yīng)地,本發(fā)明實(shí)施例還提供一種確定文本語音單元的系統(tǒng),如圖2所示,是該系統(tǒng)的一種結(jié)構(gòu)示意圖。在該實(shí)施例中,所述系統(tǒng)包括:接收模塊201,用于接收待處理文本;音素集合獲取模塊202,用于確定所述待處理文本的音素集合;字音轉(zhuǎn)換模塊203,用于根據(jù)所述音素集合對(duì)所述待處理文本進(jìn)行字音轉(zhuǎn)換,得到所述待處理文本的語音符號(hào)序列;音節(jié)結(jié)構(gòu)劃分模塊204,用于確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu);擴(kuò)充模塊205,用于在各音節(jié)結(jié)構(gòu)內(nèi),將聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串;語音單元提取模塊206,用于根據(jù)所述音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元。上述音節(jié)結(jié)構(gòu)劃分模塊204具體可以根據(jù)對(duì)基本音素的分類確定各音節(jié)結(jié)構(gòu),其一種具體結(jié)構(gòu)可以包括以下各單元:分類單元,用于對(duì)基本音素進(jìn)行分類;表示形式確定單元,用于確定基于所述分類的音素結(jié)構(gòu)表示形式,并根據(jù)所述音素結(jié)構(gòu)的表示形式,確定音節(jié)結(jié)構(gòu)的表示形式;音節(jié)結(jié)構(gòu)確定單元,用于根據(jù)所述音節(jié)結(jié)構(gòu)的表示形式確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)。在本發(fā)明實(shí)施例中,所述基本音素的類型包括:輔音頭Ci、介音Cj、元音核Vc、響輔音尾Cs、輔音尾Ct;所述音素串的類型包括:輔音群音素串,和/或依據(jù)音節(jié)結(jié)構(gòu)擴(kuò)充的音素串?;谠摲诸惖囊羲亟Y(jié)構(gòu)表示形式、音節(jié)結(jié)構(gòu)的表示形式可參見前面本發(fā)明方法實(shí)施例中的描述,在此不再贅述。相應(yīng)地,上述擴(kuò)充模塊205可以將所述輔音頭Ci、響輔音尾Cs、輔音尾Ct擴(kuò)充為包含兩個(gè)或兩個(gè)以上基本音素的音素串;和/或?qū)⒁粋€(gè)音節(jié)結(jié)構(gòu)內(nèi)符合預(yù)先確定的音素串組成形式的連續(xù)音素組合為一個(gè)音素串。本發(fā)明實(shí)施例提供的確定文本語音單元的系統(tǒng),通過將音節(jié)結(jié)構(gòu)內(nèi)聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串,并將擴(kuò)充后的音素串作為一個(gè)語音單元,有效地避免了緊密結(jié)合的語音單元被強(qiáng)行拆分的情況。為了進(jìn)一步保證擴(kuò)充后的音素串在實(shí)際應(yīng)用中的有效性,在本發(fā)明系統(tǒng)另一實(shí)施例中,如圖3所示,還可包括:篩選模塊207,用于根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,得到篩選后的音素串。相應(yīng)地,語音單元提取模塊206需要根據(jù)所述篩選模塊篩選后的音素串及所述語音符號(hào)序列確定所述待處理文本的語音單元,也就是說,語音單元提取模塊206將語音符號(hào)序列中篩選后的音素串、以及除去所述篩選后的音素串的單個(gè)音素作為待處理文本的語音單元。所述篩選模塊207具體可以根據(jù)所述音素串在大量文本中出現(xiàn)的頻率對(duì)所述音素串進(jìn)行篩選,并且在篩選時(shí),將內(nèi)容相同位置不同的音素串作為不同的音素串。該篩選模塊207的一種具體結(jié)構(gòu)可以包括以下各單元:位置信息獲取單元,用于獲取所述音素串所在音節(jié)在語法單元中的位置信息,并將內(nèi)容相同位置不同的音素串標(biāo)記為不同的音素串;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)各音素串在與待處理文本相同語種的大量文本數(shù)據(jù)中出現(xiàn)的頻率;篩選單元,用于根據(jù)所述音素串在大量文本數(shù)據(jù)中出現(xiàn)的頻率對(duì)音素串進(jìn)行篩選,得到篩選后的音素串??梢姡景l(fā)明實(shí)施例的系統(tǒng),將音節(jié)結(jié)構(gòu)內(nèi)聲學(xué)層面緊密結(jié)合的音素組合在一起擴(kuò)充為音素串,并根據(jù)音素串在大量文本中出現(xiàn)的頻率對(duì)擴(kuò)充后的音素串進(jìn)行篩選,將內(nèi)容相同位置不同的音素串作為不同的音素串,從而使得以擴(kuò) 充后的音素串表示的語音單元更有效,而且可以更準(zhǔn)確地體現(xiàn)語音單元在語法單元層面的韻律表現(xiàn)。本發(fā)明實(shí)施例的方法可以應(yīng)用于語音合成、語音識(shí)別、語音搜索等領(lǐng)域??梢詰?yīng)用于單一音素語言(比如英語等西方語言)的處理,也可以應(yīng)用于多語種的處理。需要說明的是,在應(yīng)用于多語種的處理時(shí),如果其中包含有音節(jié)語言(比如中文),由于音節(jié)語言現(xiàn)有技術(shù)中使用聲韻母作為基本語音單元,因此,還需要將其中的聲韻母轉(zhuǎn)換成對(duì)應(yīng)的音素,以便統(tǒng)一處理。相應(yīng)地,如圖4所示,在本發(fā)明系統(tǒng)的另一實(shí)施例中還可進(jìn)一步包括:判斷模塊401,用于在所述音節(jié)結(jié)構(gòu)劃分模塊204確定所述語音符號(hào)序列中的各音節(jié)結(jié)構(gòu)之前,判斷所述待處理文本的語言類型,具體根據(jù)待處理文本的字符編碼或相應(yīng)詞典來判斷;調(diào)整模塊402,用于在所述判斷模塊401判斷所述待處理文本為音節(jié)語言后,將所述語音符號(hào)序列中的聲韻母轉(zhuǎn)換為對(duì)應(yīng)的音素。相應(yīng)地,在該實(shí)施例中,對(duì)于音節(jié)語言,音節(jié)結(jié)構(gòu)劃分模塊204需要確定經(jīng)調(diào)整模塊402轉(zhuǎn)換后的語音符號(hào)序列中的各音節(jié)結(jié)構(gòu),并獲取所述音節(jié)在語法單元中的位置。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施方式對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同 時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。當(dāng)前第1頁1 2 3 
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1