,即,由一語音幀的特征參數(shù)和一EGG幀的所述特征參數(shù)組成,所述語音幀和 所述EGG幀對應(yīng)同一時間窗。
[0049] 舉例來說,所述第一特征參數(shù)序列為{al,a2,……,an},所述第二特征參數(shù)序列為 {bl,b2,......,bn},ai與bi對應(yīng)同一時間窗,i= 1, 2,......,n;相應(yīng)地,所述二維特征參數(shù) 向量序列為{(al,bl),(a2,b2),......,(an,bn)}。
[0050] 具體地,對所述二維特征參數(shù)向量序列進行聚類是對所述二維特征參數(shù)向量序列 中的多個二維特征參數(shù)向量進行聚類。由于語音信號通常包括清音段、濁音段、靜音段三種 音段,因此,所述聚類的類別數(shù)可選地設(shè)定為3。
[0051] 進一步地,所述聚類的方式可以有多種。為了聚類分析的簡便,可選地,所述對所 述二維特征參數(shù)向量序列進行聚類,包括:
[0052] 對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
[0053] 具體地,所述聚類的結(jié)果是將所述二維特征參數(shù)向量序列中的多個二維特征參數(shù) 向量劃分到多個類別,可選地劃分到3個類別,相應(yīng)地,根據(jù)劃分到同一類別的連續(xù)的二維 特征參數(shù)向量對應(yīng)的時間段,將所述語音信號劃分為多個音段。舉例來說,所述第一特征參 數(shù)序列為{al,a2,……,a9},所述第二特征參數(shù)序列為{bl,b2,……,b9},所述二維特征參 數(shù)向量序列為Kal,bl),(a2,b2),……,(a9,b9)},所述聚類的結(jié)果是:(al,bl)、(a5,b5) 屬于第一類別,(a2,b2)、(a3,b3)、(a6,b6)、(a7,b7)、(a8,b8)屬于第二類別,(a4,b4)、 (a9,b9)屬于第三類別,相應(yīng)地,將所述語音信號劃分為6個音段,第一個音段為所述語音 信號在al對應(yīng)的時間窗中的部分,第二個音段為所述語音信號在由a2對應(yīng)的時間窗和a3 對應(yīng)的時間窗組成的時間段中的部分,第三個音段為所述語音信號在a4對應(yīng)的時間窗中 的部分,第四個音段為所述語音信號在a5對應(yīng)的時間窗中的部分,第五個音段為所述語音 信號在由a6對應(yīng)的時間窗、a7對應(yīng)的時間窗和a8對應(yīng)的時間窗組成的時間段中的部分, 第六個音段為所述語音信號在a9對應(yīng)的時間窗中的部分。
[0054] 進一步地,基于清音段、濁音段、靜音段的特征參數(shù)的特性,可以確定所述聚類得 到的每個類別分別對應(yīng)哪個音段。以所述特征參數(shù)為對數(shù)能量為例,清音段的語音信號的 對數(shù)能量較高,清音段的EGG信號的對數(shù)能量較低,濁音段的語音信號和EGG信號的對數(shù)能 量均較高,靜音段的語音信號和EGG信號的對數(shù)能量均較低,相應(yīng)地,基于所述聚類的結(jié)果 可以確定:語音信號的對數(shù)能量較高、EGG信號的對數(shù)能量較低的類別為清音段,語音信號 和EGG信號的對數(shù)能量均較高的類別為濁音段,語音信號和EGG信號的對數(shù)能量均較低的 類別為靜音段。
[0055] 進一步地,基于所述聚類的結(jié)果,可以直接對所述語音信號的后續(xù)語音信號進行 音段分割。其中,所述后續(xù)語音信號與所述語音信號來自于同一語音信號源,如同一用戶。
[0056] 具體地,對所述二維特征參數(shù)向量序列進行聚類之后可以確定,每一類別對應(yīng)的 語音信號的特征參數(shù)的模型,即每一種音段對應(yīng)的語音信號的特征參數(shù)的模型,相應(yīng)地,可 以根據(jù)所述模型以及所述后續(xù)語音信號中每一幀的特征參數(shù)確定該一幀屬于哪種音段,相 當于可以實時地對所述后續(xù)語音信號進行音段分割。
[0057] 圖3A為又一發(fā)音過程中語音信號和EGG信號的一種示意圖,在語音信號和EGG信 號各自的示意圖中,豎軸的幅度均為對應(yīng)信號歸一化后的電壓值,橫軸均為以11025HZ為 米樣率得到的米樣點。
[0058] 圖3B為圖3A所示的語音信號和EGG信號的對數(shù)能量的一種示意圖。圖3B中的 語音信號和EGG信號的每一幀的幀長均為256個采樣點,且前后幀的幀移均為128個采樣 點。具體地,語音信號中每一幀的對數(shù)能量的計算公式如下:
【主權(quán)項】
1. 一種語音處理方法,其特征在于,所述方法包括: 獲取語音信號和與所述語音信號同步的電聲門圖EGG信號; 至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述至少根據(jù)所述EGG信號,將所述語音 信號劃分為多個音段,包括: 確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對應(yīng)的所述EGG 信號的第二特征參數(shù)序列; 至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所述語音信號劃分為多 個音段。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一特征參數(shù)序列包括:所述語音信 號中多個語音幀的特征參數(shù),所述第二特征參數(shù)序列包括:所述EGG信號中多個EGG幀的所 述特征參數(shù),所述多個語音幀與所述多個EGG幀一一對應(yīng)相同的時間窗。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述特征參數(shù)包括以下任一種:對數(shù)能 量、過零率、基頻。
5. 根據(jù)權(quán)利要求2~4中任一所述的方法,其特征在于,所述至少根據(jù)所述第一特征參 數(shù)序列和所述第二特征參數(shù)序列,將所述語音信號劃分為多個音段,包括: 將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊,得到二維特征參數(shù)向量序 列; 對所述二維特征參數(shù)向量序列進行聚類; 根據(jù)所述聚類的結(jié)果,將所述語音信號劃分為多個音段。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對所述二維特征參數(shù)向量序列進行 聚類,包括: 對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
7. 根據(jù)權(quán)利要求1~6中任一所述的方法,其特征在于,所述多個音段包括:至少一個 濁音段和至少一個清音段。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述多個音段還包括:至少一個靜音段。
9. 根據(jù)權(quán)利要求7或8所述的方法,其特征在于,所述方法還包括: 針對所述至少一個濁音段中每個濁音段,將所述濁音段分割為至少一個音素。
10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述針對所述至少一個濁音段中每個濁 音段,將所述濁音段分割為至少一個音素,包括: 針對所述至少一個濁音段中每個濁音段,計算所述濁音段的最佳狀態(tài)序列; 根據(jù)所述最佳狀態(tài)序列,將所述濁音段分割為至少一個音素。
11. 一種語音處理裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取語音信號和與所述語音信號同步的電聲門圖EGG信號; 第一分割模塊,用于至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一分割模塊包括: 確定單元,用于確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對 應(yīng)的所述EGG信號的第二特征參數(shù)序列; 第一分割單元,用于至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所 述語音信號劃分為多個音段。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一特征參數(shù)序列包括:所述語音 信號中多個語音幀的特征參數(shù),所述第二特征參數(shù)序列包括:所述EGG信號中多個EGG幀的 所述特征參數(shù),所述多個語音幀與所述多個EGG幀一一對應(yīng)相同的時間窗。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述特征參數(shù)包括以下任一種:對數(shù)能 量、過零率、基頻。
15. 根據(jù)權(quán)利要求12~14中任一所述的裝置,其特征在于,所述第一分割單元包括: 對齊子單元,用于將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊,得到二維 特征參數(shù)向量序列; 聚類子單元,用于對所述二維特征參數(shù)向量序列進行聚類; 分割子單元,用于根據(jù)所述聚類的結(jié)果,將所述語音信號劃分為多個音段。
16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述聚類子單元具體用于: 對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
17. 根據(jù)權(quán)利要求11~16中任一所述的裝置,其特征在于,所述多個音段包括:至少 一個濁音段和至少一個清音段。
18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述多個音段還包括:至少一個靜音 段。
19. 根據(jù)權(quán)利要求17或18所述的裝置,其特征在于,所述裝置還包括: 第二分割模塊,用于針對所述至少一個濁音段中每個濁音段,將所述濁音段分割為至 少一個音素。
20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述第二分割模塊包括: 計算單元,用于針對所述至少一個濁音段中每個濁音段,計算所述濁音段的最佳狀態(tài) 序列; 第二分割單元,用于根據(jù)所述最佳狀態(tài)序列,將所述濁音段分割為至少一個音素。
【專利摘要】本申請實施例提供了一種語音處理方法及裝置。方法包括:獲取語音信號和與所述語音信號同步的電聲門圖EGG信號;至少根據(jù)所述EGG信號,將所述語音信號劃分為多個音段。本實施例提供了一種分割音段的方案。
【IPC分類】G10L15-04, G10L25-93
【公開號】CN104851421
【申請?zhí)枴緾N201510169121
【發(fā)明人】陳立江, 毛峽, 景少玲
【申請人】北京航空航天大學
【公開日】2015年8月19日
【申請日】2015年4月10日