語音處理方法及裝置的制造方法

文檔序號：8529013閱讀：446來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請實施例涉及語音技術(shù)領(lǐng)域，尤其涉及一種語音處理方法及裝置。
【背景技術(shù)】
[0002] 音素（Phoneme)是構(gòu)成語音的基本單元，通過單個音素或多個音素的組合，如字、詞、短語、句子等，可以表達(dá)特定的含義。音素分割是語音信號處理的基礎(chǔ)，包括語音識別，聲紋識別，語音情感識別，語音合成，語音轉(zhuǎn)換等。
[0003] 無論漢語、英語還是其它語言，一個字的拼音通常包括：清音段、濁音段、靜音段，其中，清音段、濁音段分別由至少一個音素組成，因此，音素分割通常分為兩個步驟：（1)音段的分割，（2)音段內(nèi)部音素的分割。需要說明的是，有些情況下，清音段和靜音段可能不存在。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本申請實施例的一個目的在于提供一種分割音段的方案。
[0005] 為實現(xiàn)上述目的，根據(jù)本申請實施例的第一方面，提供一種語音處理方法，包括：
[0006] 獲取語音信號和與所述語音信號同步的電聲門圖EGG信號；
[0007] 至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。
[0008] 為實現(xiàn)上述目的，根據(jù)本申請實施例的第二方面，提供一種語音處理裝置，包括：
[0009] 獲取模塊，用于獲取語音信號和與所述語音信號同步的電聲門圖EGG信號；
[0010] 第一分割模塊，用于至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。
[0011] 以上多個技術(shù)方案中的至少一個技術(shù)方案具有如下有益效果：
[0012] 本申請實施例通過獲取語音信號和與所述語音信號同步的EGG信號，并至少根據(jù) 所述EGG信號將所述語音信號劃分為多個音段，提供了一種分割音段的方案。另外，由于各種干擾的存在，單純地對語音信號進(jìn)行音段分割的準(zhǔn)確率不高，特別是文本無關(guān)的音段分害J，即缺乏語音波形中包含的文本信息等先驗知識的情況下，分割準(zhǔn)確率更低；然而，由于清音段和靜音段中聲帶不振動，僅濁音段中聲帶振動，因此，EGG信號中各音段的區(qū)別較為明顯，因此，本實施例中利用同步的EGG信號輔助語音信號中音段的分割，能夠提高音段分割的準(zhǔn)確率。
【附圖說明】
[0013] 圖1為本申請?zhí)峁┑囊环N語音處理方法實施例的流程示意圖；
[0014] 圖2為一發(fā)音過程中語音信號和EGG信號的一種示意圖；
[0015] 圖3A為又一發(fā)音過程中語音信號和EGG信號的一種示意圖；
[0016] 圖3B為圖3A所示的語音信號和EGG信號的對數(shù)能量的一種示意圖；
[0017] 圖3C為圖3B所示的語音信號和EGG信號的對數(shù)能量組成的二維對數(shù)能量向量序列的二維正態(tài)分布聚類的結(jié)果示意圖；
[0018]圖3D為基于圖3C所示的聚類結(jié)果對語音信號進(jìn)行分段的示意圖；
[0019] 圖4為又一發(fā)音過程中EGG信號和語音信號的對數(shù)能量的分布直方圖；
[0020] 圖5為本申請?zhí)峁┑囊环N語音處理裝置實施例一的結(jié)構(gòu)示意圖；
[0021] 圖6A~6D分別為圖5所示實施例的一種可選的實現(xiàn)方式的結(jié)構(gòu)示意圖；
[0022] 圖7為本申請?zhí)峁┑囊环N語音處理裝置實施例二的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023] 下面結(jié)合附圖和實施例，對本申請的【具體實施方式】作進(jìn)一步詳細(xì)說明。以下實施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。
[0024] 圖1為本申請?zhí)峁┑囊环N語音處理方法實施例的流程示意圖。如圖1所示，本實施例包括：
[0025] 110、獲取語音信號和與所述語音信號同步的電聲門圖信號。
[0026] 舉例來說，本申請?zhí)峁┑囊环N語音處理裝置實施例一或?qū)嵤├龅恼Z音處理裝置作為本實施例的執(zhí)行主體，執(zhí)行110~120。
[0027] 本實施例中，所述語音信號可選地通過語音收集設(shè)備，如麥克風(fēng)等，收集得到。
[0028] 本實施例中，所述電聲門圖（Electroglottography，簡稱EGG)信號是一種生物電信號，反映聲門的開閉和聲帶的振動。所述EGG信號可選地通過電聲門圖儀在一用戶的聲帶附近采集到。
[0029] 本實施例中，所述EGG信號與所述語音信號同步是指，所述語音信號與所述EGG信號對應(yīng)同一用戶的同一發(fā)音過程。
[0030] 120、至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。
[0031] 本實施例中，所述多個音段包括但不限于：至少一個濁音段和至少一個清音段?？?選地，所述多個音段還包括：至少一個靜音段。
[0032] 圖2為一發(fā)音過程中語音信號和EGG信號的一種示意圖。圖2所示的發(fā)音過程為一男性用戶發(fā)出四聲hei的發(fā)音過程，豎軸的幅度為對應(yīng)信號歸一化后的電壓值，橫軸為以11025HZ為采樣率得到的采樣點。為清楚地示意，用豎線將圖中語音信號和EGG信號的清音段（Unvoice)、濁音段（Voice)、靜音段（Silence)隔開?？梢钥闯觯筮吳逡舳伪硎厩遢o 音h，此時聲帶尚未產(chǎn)生振動，因此EGG信號無周期波形，語音信號為典型的雜亂無章的清音波形；中間的濁音段對應(yīng)元音ei，此時聲帶振動，從EGG信號中可以看出聲帶振動的周期越來越長，對應(yīng)聲調(diào)第四聲的基頻下降趨勢，語音信號波形經(jīng)歷了從元音e到元音i的連續(xù) 變化過程；靜音段和濁音段的分界并不十分明顯，其劃分原則為靜音段聲帶不振動；另外，在靜音段和清音段，EGG信號中包含了反映喉部肌肉運動的低頻噪聲。
[0033] 本實施例通過獲取語音信號和與所述語音信號同步的EGG信號，并至少根據(jù)所述 EGG信號將所述語音信號劃分為多個音段，提供了一種分割音段的方案。另外，由于各種干擾的存在，單純地對語音信號進(jìn)行音段分割的準(zhǔn)確率不高，特別是文本無關(guān)的音段分割，即缺乏語音波形中包含的文本信息等先驗知識的情況下，分割準(zhǔn)確率更低；然而，由于清音段和靜音段中聲帶不振動，僅濁音段中聲帶振動，因此，EGG信號中各音段的區(qū)別較為明顯，因此，本實施例中利用同步的EGG信號輔助語音信號中音段的分割，能夠提高音段分割的準(zhǔn) 確率。
[0034] 以下通過一些可選的實現(xiàn)方式進(jìn)一步地描述本實施例的方法。
[0035] 本實施例中，120有多種實現(xiàn)方式。
[0036] 在一種可選的實現(xiàn)方式中，所述至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段，包括：
[0037] 確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對應(yīng)的所述 EGG信號的第二特征參數(shù)序列；
[0038] 至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段。
[0039] 其中，所述第一特征參數(shù)序列包括：所述語音信號中多個語音幀的特征參數(shù)，所述第二特征參數(shù)序列包括：所述EGG信號中多個EGG幀的所述特征參數(shù)，所述多個語音幀與所述多個EGG幀一一對應(yīng)相同的時間窗。舉例來說，所述語音信號中第一個語音幀和所述EGG 信號中第一個EGG幀對應(yīng)時間窗1，所述語音信號中第二個語音幀和所述EGG信號中第二個 EGG幀對應(yīng)時間窗2,以此類推。
[0040] 可選地，將所述語音信號分為所述多個語音幀的方式，與將所述EGG信號分為所述多個EGG幀的方式相同。舉例來說，采用相同的采樣率分別對所述語音信號和所述EGG進(jìn)行采樣，每個語音幀和與該語音幀對應(yīng)的EGG幀包含各自信號中相同數(shù)量和順序的采樣點。
[0041] 可選地，所述語音信號中前后語音幀在時間上可以有重疊，所述EGG信號也是類似的。舉例來說，以11025HZ的采樣率對所述語音信號進(jìn)行采樣，每個語音幀包括256個采樣點，前后語音幀之間的幀移為128個采樣點，S卩，前后語音幀對應(yīng)的時間窗有一半是重疊的；類似地，以11025HZ的采樣率對所述EGG信號進(jìn)行采樣，每個EGG幀包括256個采樣點，前后EGG幀之間的幀移為128個采樣點，S卩，前后EGG幀對應(yīng)的時間窗有一半是重疊的。
[0042] 可選地，所述特征參數(shù)包括但不限于以下任一種：對數(shù)能量、過零率、基頻。舉例來說，所述第一特征參數(shù)序列包括：所述語音信號中多個語音幀的對數(shù)能量，所述第二特征參數(shù)序列包括：所述EGG信號中多個EGG幀的對數(shù)能量。
[0043] 在此實現(xiàn)方式中，所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段有多種實現(xiàn)方式。
[0044] 可選地，所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段，包括：
[0045] 將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊，得到二維特征參數(shù)向量序列；
[0046] 對所述二維特征參數(shù)向量序列進(jìn)行聚類；
[0047] 根據(jù)所述聚類的結(jié)果，將所述語音信號劃分為多個音段。
[0048] 具體地，所述對齊是在時間上對齊，所述二維特征參數(shù)向量序列中的每個二維特征參數(shù)向量由所述第一特征參數(shù)序列和所述第二特征參數(shù)序列中分別對應(yīng)同一時間窗的特征參數(shù)組成

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2