語音處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請實施例涉及語音技術(shù)領(lǐng)域,尤其涉及一種語音處理方法及裝置。
【背景技術(shù)】
[0002] 音素(Phoneme)是構(gòu)成語音的基本單元,通過單個音素或多個音素的組合,如字、 詞、短語、句子等,可以表達(dá)特定的含義。音素分割是語音信號處理的基礎(chǔ),包括語音識別, 聲紋識別,語音情感識別,語音合成,語音轉(zhuǎn)換等。
[0003] 無論漢語、英語還是其它語言,一個字的拼音通常包括:清音段、濁音段、靜音段, 其中,清音段、濁音段分別由至少一個音素組成,因此,音素分割通常分為兩個步驟:(1)音 段的分割,(2)音段內(nèi)部音素的分割。需要說明的是,有些情況下,清音段和靜音段可能不 存在。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本申請實施例的一個目的在于提供一種分割音段的方案。
[0005] 為實現(xiàn)上述目的,根據(jù)本申請實施例的第一方面,提供一種語音處理方法,包括:
[0006] 獲取語音信號和與所述語音信號同步的電聲門圖EGG信號;
[0007] 至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。
[0008] 為實現(xiàn)上述目的,根據(jù)本申請實施例的第二方面,提供一種語音處理裝置,包括:
[0009] 獲取模塊,用于獲取語音信號和與所述語音信號同步的電聲門圖EGG信號;
[0010] 第一分割模塊,用于至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。
[0011] 以上多個技術(shù)方案中的至少一個技術(shù)方案具有如下有益效果:
[0012] 本申請實施例通過獲取語音信號和與所述語音信號同步的EGG信號,并至少根據(jù) 所述EGG信號將所述語音信號劃分為多個音段,提供了一種分割音段的方案。另外,由于各 種干擾的存在,單純地對語音信號進(jìn)行音段分割的準(zhǔn)確率不高,特別是文本無關(guān)的音段分 害J,即缺乏語音波形中包含的文本信息等先驗知識的情況下,分割準(zhǔn)確率更低;然而,由于 清音段和靜音段中聲帶不振動,僅濁音段中聲帶振動,因此,EGG信號中各音段的區(qū)別較為 明顯,因此,本實施例中利用同步的EGG信號輔助語音信號中音段的分割,能夠提高音段分 割的準(zhǔn)確率。
【附圖說明】
[0013] 圖1為本申請?zhí)峁┑囊环N語音處理方法實施例的流程示意圖;
[0014] 圖2為一發(fā)音過程中語音信號和EGG信號的一種示意圖;
[0015] 圖3A為又一發(fā)音過程中語音信號和EGG信號的一種示意圖;
[0016] 圖3B為圖3A所示的語音信號和EGG信號的對數(shù)能量的一種示意圖;
[0017] 圖3C為圖3B所示的語音信號和EGG信號的對數(shù)能量組成的二維對數(shù)能量向量序 列的二維正態(tài)分布聚類的結(jié)果示意圖;
[0018]圖3D為基于圖3C所示的聚類結(jié)果對語音信號進(jìn)行分段的示意圖;
[0019] 圖4為又一發(fā)音過程中EGG信號和語音信號的對數(shù)能量的分布直方圖;
[0020] 圖5為本申請?zhí)峁┑囊环N語音處理裝置實施例一的結(jié)構(gòu)示意圖;
[0021] 圖6A~6D分別為圖5所示實施例的一種可選的實現(xiàn)方式的結(jié)構(gòu)示意圖;
[0022] 圖7為本申請?zhí)峁┑囊环N語音處理裝置實施例二的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023] 下面結(jié)合附圖和實施例,對本申請的【具體實施方式】作進(jìn)一步詳細(xì)說明。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0024] 圖1為本申請?zhí)峁┑囊环N語音處理方法實施例的流程示意圖。如圖1所示,本實 施例包括:
[0025] 110、獲取語音信號和與所述語音信號同步的電聲門圖信號。
[0026] 舉例來說,本申請?zhí)峁┑囊环N語音處理裝置實施例一或?qū)嵤├龅恼Z音處理 裝置作為本實施例的執(zhí)行主體,執(zhí)行110~120。
[0027] 本實施例中,所述語音信號可選地通過語音收集設(shè)備,如麥克風(fēng)等,收集得到。
[0028] 本實施例中,所述電聲門圖(Electroglottography,簡稱EGG)信號是一種生物電 信號,反映聲門的開閉和聲帶的振動。所述EGG信號可選地通過電聲門圖儀在一用戶的聲 帶附近采集到。
[0029] 本實施例中,所述EGG信號與所述語音信號同步是指,所述語音信號與所述EGG信 號對應(yīng)同一用戶的同一發(fā)音過程。
[0030] 120、至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。
[0031] 本實施例中,所述多個音段包括但不限于:至少一個濁音段和至少一個清音段???選地,所述多個音段還包括:至少一個靜音段。
[0032] 圖2為一發(fā)音過程中語音信號和EGG信號的一種示意圖。圖2所示的發(fā)音過程為 一男性用戶發(fā)出四聲hei的發(fā)音過程,豎軸的幅度為對應(yīng)信號歸一化后的電壓值,橫軸為 以11025HZ為采樣率得到的采樣點。為清楚地示意,用豎線將圖中語音信號和EGG信號的清 音段(Unvoice)、濁音段(Voice)、靜音段(Silence)隔開??梢钥闯觯筮吳逡舳伪硎厩遢o 音h,此時聲帶尚未產(chǎn)生振動,因此EGG信號無周期波形,語音信號為典型的雜亂無章的清 音波形;中間的濁音段對應(yīng)元音ei,此時聲帶振動,從EGG信號中可以看出聲帶振動的周期 越來越長,對應(yīng)聲調(diào)第四聲的基頻下降趨勢,語音信號波形經(jīng)歷了從元音e到元音i的連續(xù) 變化過程;靜音段和濁音段的分界并不十分明顯,其劃分原則為靜音段聲帶不振動;另外, 在靜音段和清音段,EGG信號中包含了反映喉部肌肉運動的低頻噪聲。
[0033] 本實施例通過獲取語音信號和與所述語音信號同步的EGG信號,并至少根據(jù)所述 EGG信號將所述語音信號劃分為多個音段,提供了一種分割音段的方案。另外,由于各種干 擾的存在,單純地對語音信號進(jìn)行音段分割的準(zhǔn)確率不高,特別是文本無關(guān)的音段分割,即 缺乏語音波形中包含的文本信息等先驗知識的情況下,分割準(zhǔn)確率更低;然而,由于清音段 和靜音段中聲帶不振動,僅濁音段中聲帶振動,因此,EGG信號中各音段的區(qū)別較為明顯,因 此,本實施例中利用同步的EGG信號輔助語音信號中音段的分割,能夠提高音段分割的準(zhǔn) 確率。
[0034] 以下通過一些可選的實現(xiàn)方式進(jìn)一步地描述本實施例的方法。
[0035] 本實施例中,120有多種實現(xiàn)方式。
[0036] 在一種可選的實現(xiàn)方式中,所述至少根據(jù)所述EGG信號,將所述語音信號劃分為 多個音段,包括:
[0037] 確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對應(yīng)的所述 EGG信號的第二特征參數(shù)序列;
[0038] 至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所述語音信號劃分 為多個音段。
[0039] 其中,所述第一特征參數(shù)序列包括:所述語音信號中多個語音幀的特征參數(shù),所述 第二特征參數(shù)序列包括:所述EGG信號中多個EGG幀的所述特征參數(shù),所述多個語音幀與所 述多個EGG幀一一對應(yīng)相同的時間窗。舉例來說,所述語音信號中第一個語音幀和所述EGG 信號中第一個EGG幀對應(yīng)時間窗1,所述語音信號中第二個語音幀和所述EGG信號中第二個 EGG幀對應(yīng)時間窗2,以此類推。
[0040] 可選地,將所述語音信號分為所述多個語音幀的方式,與將所述EGG信號分為所 述多個EGG幀的方式相同。舉例來說,采用相同的采樣率分別對所述語音信號和所述EGG進(jìn)行采樣,每個語音幀和與該語音幀對應(yīng)的EGG幀包含各自信號中相同數(shù)量和順序的采樣 點。
[0041] 可選地,所述語音信號中前后語音幀在時間上可以有重疊,所述EGG信號也是類 似的。舉例來說,以11025HZ的采樣率對所述語音信號進(jìn)行采樣,每個語音幀包括256個采 樣點,前后語音幀之間的幀移為128個采樣點,S卩,前后語音幀對應(yīng)的時間窗有一半是重疊 的;類似地,以11025HZ的采樣率對所述EGG信號進(jìn)行采樣,每個EGG幀包括256個采樣點, 前后EGG幀之間的幀移為128個采樣點,S卩,前后EGG幀對應(yīng)的時間窗有一半是重疊的。
[0042] 可選地,所述特征參數(shù)包括但不限于以下任一種:對數(shù)能量、過零率、基頻。舉例來 說,所述第一特征參數(shù)序列包括:所述語音信號中多個語音幀的對數(shù)能量,所述第二特征參 數(shù)序列包括:所述EGG信號中多個EGG幀的對數(shù)能量。
[0043] 在此實現(xiàn)方式中,所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序 列,將所述語音信號劃分為多個音段有多種實現(xiàn)方式。
[0044] 可選地,所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所述 語音信號劃分為多個音段,包括:
[0045] 將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊,得到二維特征參數(shù)向量 序列;
[0046] 對所述二維特征參數(shù)向量序列進(jìn)行聚類;
[0047] 根據(jù)所述聚類的結(jié)果,將所述語音信號劃分為多個音段。
[0048] 具體地,所述對齊是在時間上對齊,所述二維特征參數(shù)向量序列中的每個二維特 征參數(shù)向量由所述第一特征參數(shù)序列和所述第二特征參數(shù)序列中分別對應(yīng)同一時間窗的 特征參數(shù)組成