本申請涉及語音交互,特別是涉及一種語音分離方法、裝置、語音轉寫方法、裝置以及計算機設備和存儲介質。
背景技術:
1、隨著語音交互技術的發(fā)展,出現(xiàn)了遠場語音識別技術,遠場語音識別是語音交互領域的重要技術,主要面臨著回聲干擾、室內混響、多信號源干擾等問題,該技術在智能家居(智能音箱、智能電視等)、會議室、車載導航等場景中都有重要的應用前景。例如,會議場景包含了豐富的講話風格和復雜的聲學條件,需要考慮重疊語音、數量未知的說話人、大型會議室中的遠場信號、噪音和混響等。
2、傳統(tǒng)技術中,從諸如會議場景等遠場中識別語音的方法是,通過麥克風陣列獲取會議語音信號,然后通過空間語音角色分離模塊得到相應的多說話人分離的輸出語音信號,最后通過語音識別模塊對輸出語音信號進行轉寫以生成語音識別文本。但是,傳統(tǒng)的方法存在語音分離不夠準確的問題,因此,也會導致語音轉寫文本不夠準確。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種能夠提高語音分離準確性的語音分離方法、裝置、計算機設備和存儲介質,以及一種能夠提高語音轉寫準確性的語音轉寫方法、裝置、計算機設備和存儲介質。
2、一種語音分離方法,該方法包括:
3、獲取多通道混合語音數據;
4、從多通道混合語音數據中分離得到單路語音數據;
5、從單路語音數據中確定不同說話人的身份轉變的時間點,根據時間點將單路語音數據分割為多個不同說話人的語音短片段;
6、對多個不同說話人的語音短片段進行分類,得到屬于同一說話人的語音短片段;
7、對同一說話人的語音短片段進行說話人聚類處理,得到屬于同一說話人的分離后語音數據。
8、在一些實施例中,從多通道混合語音數據中分離得到單路語音數據,包括:
9、獲取多通道混合語音數據的目標通道的觀測信號的幅度譜;
10、提取多通道混合語音數據的各通道之間的相位差特征;
11、將幅度譜和相位差特征輸入基于循環(huán)神經網絡的掩蔽網絡中,得到掩蔽網絡輸出的掩蔽值;
12、根據掩蔽值計算觀測信號的協(xié)方差矩陣;
13、根據協(xié)方差矩陣推導基于最小均方無畸變響應的空間濾波系數;
14、根據空間濾波系數從多通道混合語音數據中分離目標通道對應的單路語音數據。
15、在一些實施例中,對多個不同說話人的語音短片段進行分類,得到屬于同一說話人的語音短片段,包括:
16、將多個不同說話人的語音短片段輸入說話人分割網絡,得到說話人分割網絡預測的各語音短片段的預測概率;
17、將預測概率相同的語音短片段作為同一說話人的語音短片段。
18、在一些實施例中,對同一說話人的語音短片段進行說話人聚類處理,得到屬于同一說話人的分離后語音數據,包括:
19、從同一說話人的各語音短片段中提取嵌入編碼特征;
20、利用限制增量聚類算法對各嵌入編碼特征進行聚類處理,得到屬于同一說話人的分離后語音數據。
21、在一些實施例中,從同一說話人的各語音短片段中提取嵌入編碼特征,包括:
22、將同一說話人的語音短片段輸入卷積濾波特征提取層,得到第一特征;
23、將第一特征輸入時延神經網絡,得到第二特征;
24、將第二特征輸入深度神經網絡,得到第三特征;
25、將第三特征輸入嵌入編碼網絡,得到嵌入編碼特征。
26、一種語音分離裝置,該裝置包括:
27、混合語音獲取模塊,用于獲取多通道混合語音數據;
28、單路語音分離模塊,用于從多通道混合語音數據中分離得到單路語音數據;
29、說話人分割模塊,用于從單路語音數據中確定不同說話人的身份轉變的時間點,根據時間點將單路語音數據分割為多個不同說話人的語音短片段,還用于利用說話人分割網絡對多個不同說話人的語音短片段進行分類,得到屬于同一說話人的語音短片段;
30、說話人聚類模塊,用于對同一說話人的語音短片段進行說話人聚類處理,得到屬于同一說話人的分離后語音數據。
31、一種語音轉寫方法,該方法包括:
32、獲取各通道對應的屬于同一說話人的分離后語音數據;其中,分離后語音數據根據上述任一項的語音分離方法得到;
33、將各分離后語音數據分別進行語音識別操作,得到各分離后語音數據對應的語音識別文本;
34、將多個通道的語音識別文本進行合并,按照分離后語音數據產生時間的先后順序將各分離后語音數據對應的語音識別文本輸出。
35、一種語音轉寫裝置,該裝置包括:
36、混合語音分離模塊,用于獲取各通道對應的屬于同一說話人的分離后語音數據;其中,分離后語音數據上述任一項的語音分離方法得到;
37、語音識別模塊,用于將各分離后語音數據分別進行語音識別操作,得到各分離后語音數據對應的語音識別結果;
38、轉寫輸出模塊,用于將多個通道的語音識別結果進行合并,按照分離后語音數據產生時間的先后順序將各分離后語音數據對應的語音識別結果轉換為文本進行輸出。
39、一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述任一項的語音分離方法的步驟,或實現(xiàn)上述任一項的語音轉寫方法的步驟。
40、一種計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項的語音分離方法的步驟,或實現(xiàn)上述任一項的語音轉寫方法的步驟。
41、上述的語音分離方法、裝置、計算機設備和存儲介質,通過從多通道混合語音數據中分離單路語音數據,并對分離的單路語音數據進行說話人分割處理和說話人聚類處理,從而得到屬于同一說話人的分離后語音數據,提高語音分離的準確性,即使在會議等復雜語音交互場景中,發(fā)生人員變動、說話人方向變更等也能夠很好的適應變化,提高語音分離的準確性和精度,進一步地,將分離后的語音數據通過語音識別轉寫為文本,并將多通道對應的分離后語音數據進行整合,按照時間發(fā)生的先后順序輸出語音識別文本,從而提高了語音轉寫的完整性、邏輯性和準確性。
1.一種語音分離方法,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述從所述多通道混合語音數據中分離得到單路語音數據,包括:
3.根據權利要求1所述的方法,其特征在于,所述對多個不同說話人的語音短片段進行分類,得到屬于同一說話人的語音短片段,包括:
4.根據權利要求1所述的方法,其特征在于,所述對同一說話人的語音短片段進行說話人聚類處理,得到屬于同一說話人的分離后語音數據,包括:
5.根據權利要求1所述的方法,其特征在于,所述從同一說話人的各語音短片段中提取嵌入編碼特征,包括:
6.一種語音分離裝置,其特征在于,所述裝置包括:
7.一種語音轉寫方法,所述方法包括:
8.一種語音轉寫裝置,其特征在于,所述裝置包括:
9.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至5中任一項所述的語音分離方法的步驟,或實現(xiàn)權利要求7所述的語音轉寫方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至5中任一項所述的語音分離方法的步驟,或實現(xiàn)權利要求7所述的語音轉寫方法的步驟。