語音處理方法及裝置的制造方法_2

文檔序號：8529013閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)>語音處理方法及裝置的制造方法

，即，由一語音幀的特征參數(shù)和一EGG幀的所述特征參數(shù)組成，所述語音幀和所述EGG幀對應(yīng)同一時間窗。
[0049] 舉例來說，所述第一特征參數(shù)序列為{al，a2,……，an}，所述第二特征參數(shù)序列為 {bl,b2,......,bn}，ai與bi對應(yīng)同一時間窗，i= 1, 2,......,n;相應(yīng)地，所述二維特征參數(shù) 向量序列為{(al,bl)，（a2,b2)，......，（an,bn)}。
[0050] 具體地，對所述二維特征參數(shù)向量序列進行聚類是對所述二維特征參數(shù)向量序列中的多個二維特征參數(shù)向量進行聚類。由于語音信號通常包括清音段、濁音段、靜音段三種音段，因此，所述聚類的類別數(shù)可選地設(shè)定為3。
[0051] 進一步地，所述聚類的方式可以有多種。為了聚類分析的簡便，可選地，所述對所述二維特征參數(shù)向量序列進行聚類，包括：
[0052] 對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
[0053] 具體地，所述聚類的結(jié)果是將所述二維特征參數(shù)向量序列中的多個二維特征參數(shù) 向量劃分到多個類別，可選地劃分到3個類別，相應(yīng)地，根據(jù)劃分到同一類別的連續(xù)的二維特征參數(shù)向量對應(yīng)的時間段，將所述語音信號劃分為多個音段。舉例來說，所述第一特征參數(shù)序列為{al，a2,……，a9}，所述第二特征參數(shù)序列為{bl，b2,……，b9}，所述二維特征參數(shù)向量序列為Kal，bl)，（a2，b2)，……，（a9,b9)}，所述聚類的結(jié)果是：(al，bl)、（a5,b5) 屬于第一類別，（a2,b2)、（a3,b3)、（a6,b6)、（a7,b7)、（a8,b8)屬于第二類別，（a4,b4)、 (a9，b9)屬于第三類別，相應(yīng)地，將所述語音信號劃分為6個音段，第一個音段為所述語音信號在al對應(yīng)的時間窗中的部分，第二個音段為所述語音信號在由a2對應(yīng)的時間窗和a3 對應(yīng)的時間窗組成的時間段中的部分，第三個音段為所述語音信號在a4對應(yīng)的時間窗中的部分，第四個音段為所述語音信號在a5對應(yīng)的時間窗中的部分，第五個音段為所述語音信號在由a6對應(yīng)的時間窗、a7對應(yīng)的時間窗和a8對應(yīng)的時間窗組成的時間段中的部分，第六個音段為所述語音信號在a9對應(yīng)的時間窗中的部分。
[0054] 進一步地，基于清音段、濁音段、靜音段的特征參數(shù)的特性，可以確定所述聚類得到的每個類別分別對應(yīng)哪個音段。以所述特征參數(shù)為對數(shù)能量為例，清音段的語音信號的對數(shù)能量較高，清音段的EGG信號的對數(shù)能量較低，濁音段的語音信號和EGG信號的對數(shù)能量均較高，靜音段的語音信號和EGG信號的對數(shù)能量均較低，相應(yīng)地，基于所述聚類的結(jié)果可以確定：語音信號的對數(shù)能量較高、EGG信號的對數(shù)能量較低的類別為清音段，語音信號和EGG信號的對數(shù)能量均較高的類別為濁音段，語音信號和EGG信號的對數(shù)能量均較低的類別為靜音段。
[0055] 進一步地，基于所述聚類的結(jié)果，可以直接對所述語音信號的后續(xù)語音信號進行音段分割。其中，所述后續(xù)語音信號與所述語音信號來自于同一語音信號源，如同一用戶。
[0056] 具體地，對所述二維特征參數(shù)向量序列進行聚類之后可以確定，每一類別對應(yīng)的語音信號的特征參數(shù)的模型，即每一種音段對應(yīng)的語音信號的特征參數(shù)的模型，相應(yīng)地，可以根據(jù)所述模型以及所述后續(xù)語音信號中每一幀的特征參數(shù)確定該一幀屬于哪種音段，相當于可以實時地對所述后續(xù)語音信號進行音段分割。
[0057] 圖3A為又一發(fā)音過程中語音信號和EGG信號的一種示意圖，在語音信號和EGG信號各自的示意圖中，豎軸的幅度均為對應(yīng)信號歸一化后的電壓值，橫軸均為以11025HZ為米樣率得到的米樣點。
[0058] 圖3B為圖3A所示的語音信號和EGG信號的對數(shù)能量的一種示意圖。圖3B中的語音信號和EGG信號的每一幀的幀長均為256個采樣點，且前后幀的幀移均為128個采樣點。具體地，語音信號中每一幀的對數(shù)能量的計算公式如下：
【主權(quán)項】
1. 一種語音處理方法，其特征在于，所述方法包括：獲取語音信號和與所述語音信號同步的電聲門圖EGG信號；至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段，包括：確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對應(yīng)的所述EGG 信號的第二特征參數(shù)序列；至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述第一特征參數(shù)序列包括：所述語音信號中多個語音幀的特征參數(shù)，所述第二特征參數(shù)序列包括：所述EGG信號中多個EGG幀的所述特征參數(shù)，所述多個語音幀與所述多個EGG幀一一對應(yīng)相同的時間窗。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述特征參數(shù)包括以下任一種：對數(shù)能量、過零率、基頻。
5. 根據(jù)權(quán)利要求2~4中任一所述的方法，其特征在于，所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段，包括：將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊，得到二維特征參數(shù)向量序列；對所述二維特征參數(shù)向量序列進行聚類；根據(jù)所述聚類的結(jié)果，將所述語音信號劃分為多個音段。
6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，所述對所述二維特征參數(shù)向量序列進行聚類，包括：對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
7. 根據(jù)權(quán)利要求1~6中任一所述的方法，其特征在于，所述多個音段包括：至少一個濁音段和至少一個清音段。
8. 根據(jù)權(quán)利要求7所述的方法，其特征在于，所述多個音段還包括：至少一個靜音段。
9. 根據(jù)權(quán)利要求7或8所述的方法，其特征在于，所述方法還包括：針對所述至少一個濁音段中每個濁音段，將所述濁音段分割為至少一個音素。
10. 根據(jù)權(quán)利要求9所述的方法，其特征在于，所述針對所述至少一個濁音段中每個濁音段，將所述濁音段分割為至少一個音素，包括：針對所述至少一個濁音段中每個濁音段，計算所述濁音段的最佳狀態(tài)序列；根據(jù)所述最佳狀態(tài)序列，將所述濁音段分割為至少一個音素。
11. 一種語音處理裝置，其特征在于，所述裝置包括：獲取模塊，用于獲取語音信號和與所述語音信號同步的電聲門圖EGG信號；第一分割模塊，用于至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。
12. 根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述第一分割模塊包括：確定單元，用于確定所述語音信號的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對應(yīng)的所述EGG信號的第二特征參數(shù)序列；第一分割單元，用于至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列，將所述語音信號劃分為多個音段。
13. 根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述第一特征參數(shù)序列包括：所述語音信號中多個語音幀的特征參數(shù)，所述第二特征參數(shù)序列包括：所述EGG信號中多個EGG幀的所述特征參數(shù)，所述多個語音幀與所述多個EGG幀一一對應(yīng)相同的時間窗。
14. 根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述特征參數(shù)包括以下任一種：對數(shù)能量、過零率、基頻。
15. 根據(jù)權(quán)利要求12~14中任一所述的裝置，其特征在于，所述第一分割單元包括：對齊子單元，用于將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對齊，得到二維特征參數(shù)向量序列；聚類子單元，用于對所述二維特征參數(shù)向量序列進行聚類；分割子單元，用于根據(jù)所述聚類的結(jié)果，將所述語音信號劃分為多個音段。
16. 根據(jù)權(quán)利要求15所述的裝置，其特征在于，所述聚類子單元具體用于：對所述二維特征參數(shù)向量序列進行二維正態(tài)分布聚類。
17. 根據(jù)權(quán)利要求11~16中任一所述的裝置，其特征在于，所述多個音段包括：至少一個濁音段和至少一個清音段。
18. 根據(jù)權(quán)利要求17所述的裝置，其特征在于，所述多個音段還包括：至少一個靜音段。
19. 根據(jù)權(quán)利要求17或18所述的裝置，其特征在于，所述裝置還包括：第二分割模塊，用于針對所述至少一個濁音段中每個濁音段，將所述濁音段分割為至少一個音素。
20. 根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述第二分割模塊包括：計算單元，用于針對所述至少一個濁音段中每個濁音段，計算所述濁音段的最佳狀態(tài) 序列；第二分割單元，用于根據(jù)所述最佳狀態(tài)序列，將所述濁音段分割為至少一個音素。
【專利摘要】本申請實施例提供了一種語音處理方法及裝置。方法包括：獲取語音信號和與所述語音信號同步的電聲門圖EGG信號；至少根據(jù)所述EGG信號，將所述語音信號劃分為多個音段。本實施例提供了一種分割音段的方案。
【IPC分類】G10L15-04, G10L25-93
【公開號】CN104851421
【申請?zhí)枴緾N201510169121
【發(fā)明人】陳立江, 毛峽, 景少玲
【申請人】北京航空航天大學
【公開日】2015年8月19日
【申請日】2015年4月10日

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

檢查裝置氣密性的方法相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

檢驗裝置氣密性的方法相關(guān)技術(shù)

油氣回收裝置監(jiān)測方法相關(guān)技術(shù)

濕熱處理的方法和裝置相關(guān)技術(shù)

語音處理相關(guān)技術(shù)

matlab語音處理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音處理方法及裝置的制造方法_2