本公開涉及計算機,尤其涉及語音表征模型預訓練方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著機器學習技術(shù)的發(fā)展,為了擺脫語音識別模型對大量語音標注數(shù)據(jù)的依賴,目前通常會采用無標注的語音數(shù)據(jù)預訓練語音表征模型,從而基于該預訓練的語音表征模型,結(jié)合少量的語音標注數(shù)據(jù)即可得到滿足下游任務(wù)的語音識別模型,且由于語音表征模型的預訓練過程與下游任務(wù)無關(guān),因此經(jīng)預訓練得到的語音表征模型可以快速適配多種不同的下游任務(wù),達到重復利用的效果。
2、然而,相關(guān)技術(shù)中對于語音表征模型的預訓練方式存在訓練速度慢、收斂困難以及穩(wěn)定性差的問題。
技術(shù)實現(xiàn)思路
1、本公開提供一種語音表征模型預訓練方法、裝置、電子設(shè)備及存儲介質(zhì),以至少解決相關(guān)技術(shù)中對于語音表征模型的預訓練方式存在訓練速度慢、收斂困難以及穩(wěn)定性差的問題。本公開的技術(shù)方案如下:
2、根據(jù)本公開實施例的第一方面,提供一種語音表征模型預訓練方法,包括:
3、通過隨機初始化方式生成映射矩陣和碼本集合;所述碼本集合表征碼本向量與索引之間的對應(yīng)關(guān)系;
4、基于所述映射矩陣,對樣本語音所對應(yīng)音頻幀序列中的各音頻幀分別進行向量映射處理,得到各所述音頻幀的映射向量;
5、從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量,將與各所述映射向量相匹配的目標碼本向量對應(yīng)的目標索引作為各所述映射向量所對應(yīng)音頻幀的參考離散化標簽;
6、將經(jīng)遮蔽的所述音頻幀序列輸入至待訓練語音表征模型進行語音表征處理,得到語音表征結(jié)果;經(jīng)遮蔽的所述音頻幀序列基于對所述音頻幀序列中的多個位置進行遮蔽處理得到;
7、對所述語音表征結(jié)果中,對應(yīng)各被遮蔽位置的表征結(jié)果分別進行離散化標簽預測,得到各所述被遮蔽位置對應(yīng)的預測離散化標簽;
8、基于各所述被遮蔽位置對應(yīng)的預測離散化標簽與所述被遮蔽位置的音頻幀的參考離散化標簽之間的差異,調(diào)整所述待訓練語音表征模型的模型參數(shù)直至滿足預設(shè)訓練結(jié)束條件,得到預訓練的語音表征模型。
9、在一些示例性的實施方式中,所述基于所述映射矩陣,對樣本語音所對應(yīng)音頻幀序列中的各音頻幀分別進行向量映射處理,得到各所述音頻幀的映射向量包括:
10、提取所述音頻幀序列中各音頻幀的頻域特征,得到所述音頻幀序列對應(yīng)的幀特征序列;
11、對所述幀特征序列進行全局標準化處理,得到標準化幀特征序列;
12、確定所述映射矩陣與所述標準化幀特征序列中各標準化幀特征之間的乘積,得到所述音頻幀序列中各音頻幀的映射向量。
13、在一些示例性的實施方式中,所述對所述幀特征序列進行全局標準化處理,得到標準化幀特征序列包括:
14、將所述幀特征序列中每連續(xù)預設(shè)數(shù)量的幀特征進行拼接,得到拼接幀特征序列;
15、對所述拼接幀特征序列進行全局標準化處理,得到標準化幀特征序列。
16、在一些示例性的實施方式中,所述將經(jīng)遮蔽的所述音頻幀序列輸入至待訓練語音表征模型進行語音表征處理,得到語音表征結(jié)果包括:
17、對所述幀特征序列進行預設(shè)次數(shù)的降采樣處理,得到降采樣幀特征序列;所述降采樣幀特征序列中各降采樣幀特征的時間長度與所述拼接幀特征序列中對應(yīng)位置的拼接幀特征的時間長度相同;
18、將所述降采樣幀特征序列中的多個降采樣幀特征替換為預設(shè)遮蔽標識,得到經(jīng)遮蔽的降采樣幀特征序列;
19、將所述經(jīng)遮蔽的降采樣幀特征序列輸入至待訓練語音表征模型進行語音表征處理,得到語音表征結(jié)果。
20、在一些示例性的實施方式中,所述對所述語音表征結(jié)果中,對應(yīng)各被遮蔽位置的表征結(jié)果分別進行離散化標簽預測,得到各所述被遮蔽位置對應(yīng)的預測離散化標簽包括:
21、獲取所述語音表征結(jié)果中,對應(yīng)各被遮蔽位置的表征結(jié)果;
22、對于每個對應(yīng)所述被遮蔽位置的表征結(jié)果,預測所述表征結(jié)果屬于各所述參考離散化標簽的概率,將最大概率對應(yīng)的參考離散化標簽確定為所述被遮蔽位置對應(yīng)的預測離散化標簽。
23、在一些示例性的實施方式中,所述將與各所述映射向量相匹配的目標碼本向量對應(yīng)的目標索引作為各所述映射向量所對應(yīng)音頻幀的參考離散化標簽,包括:
24、對目標索引序列進行信息熵計算,得到當前序列信息熵;所述目標索引序列由與各所述映射向量相匹配的目標碼本向量對應(yīng)的目標索引構(gòu)成;
25、在所述當前序列信息熵超過預設(shè)序列信息熵范圍的情況下,對所述碼本集合進行調(diào)整,得到調(diào)整后碼本集合;
26、將所述調(diào)整后碼本集合作為所述碼本集合,執(zhí)行所述從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量,對目標索引序列進行信息熵計算,得到當前序列信息熵的步驟,直至所述當前序列信息熵不超過所述預設(shè)序列信息熵范圍;
27、將不超過所述預設(shè)序列信息熵范圍的當前序列信息熵,所對應(yīng)目標索引序列中的各目標索引分別作為相應(yīng)音頻幀的參考離散化標簽。
28、在一些示例性的實施方式中,所述預設(shè)序列信息熵范圍包括預設(shè)序列信息熵上限和預設(shè)序列信息熵下限;所述對所述碼本集合進行調(diào)整,得到調(diào)整后碼本集合包括:
29、當所述當前序列信息熵小于所述預設(shè)序列信息熵下限時,增加所述碼本集合的規(guī)模,將規(guī)模增加后的碼本集合作為所述調(diào)整后碼本集合;
30、當所述當前序列信息熵大于所述預設(shè)序列信息熵上限時,減小所述碼本集合的規(guī)模,將規(guī)模減小后的碼本集合作為所述調(diào)整后碼本集合。
31、在一些示例性的實施方式中,所述通過隨機初始化方式生成映射矩陣和碼本集合,包括:
32、通過均勻分布隨機初始化權(quán)重,得到所述映射矩陣;
33、通過標準正態(tài)分布隨機初始化碼本向量,得到所述碼本集合。
34、在一些示例性的實施方式中,所述碼本集合包括多個子碼本集合;所述從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量,包括:
35、對于每個所述音頻幀,從各所述子碼本集合中分別搜索與所述音頻幀的映射向量最相似的目標子碼本向量;其中,各所述子碼本集合中的目標子碼本向量,構(gòu)成與所述音頻幀的映射向量相匹配的目標碼本向量。
36、根據(jù)本公開實施例的第二方面,提供一種語音表征模型預訓練裝置,包括:
37、隨機初始化單元,被配置為執(zhí)行通過隨機初始化方式生成映射矩陣和碼本集合;所述碼本集合表征碼本向量與索引之間的對應(yīng)關(guān)系;
38、音頻幀映射單元,被配置為執(zhí)行基于所述映射矩陣,對樣本語音所對應(yīng)音頻幀序列中的各音頻幀分別進行向量映射處理,得到各所述音頻幀的映射向量;
39、離散化標簽確定單元,被配置為執(zhí)行從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量,將與各所述映射向量相匹配的目標碼本向量對應(yīng)的目標索引作為各所述映射向量所對應(yīng)音頻幀的參考離散化標簽;
40、語音表征單元,被配置為執(zhí)行將經(jīng)遮蔽的所述音頻幀序列輸入至待訓練語音表征模型進行語音表征處理,得到語音表征結(jié)果;經(jīng)遮蔽的所述音頻幀序列基于對所述音頻幀序列中的多個位置進行遮蔽處理得到;
41、標簽預測單元,被配置為執(zhí)行對所述語音表征結(jié)果中,對應(yīng)各被遮蔽位置的表征結(jié)果分別進行離散化標簽預測,得到各所述被遮蔽位置對應(yīng)的預測離散化標簽;
42、模型參數(shù)調(diào)整單元,被配置為執(zhí)行基于各所述被遮蔽位置對應(yīng)的預測離散化標簽與所述被遮蔽位置的音頻幀的參考離散化標簽之間的差異,調(diào)整所述待訓練語音表征模型的模型參數(shù)直至滿足預設(shè)訓練結(jié)束條件,得到預訓練的語音表征模型。
43、在一些示例性的實施方式中,所述音頻幀映射單元包括:
44、頻域特征提取單元,被配置為執(zhí)行提取所述音頻幀序列中各音頻幀的頻域特征,得到所述音頻幀序列對應(yīng)的幀特征序列;
45、全局標準化單元,被配置為執(zhí)行對所述幀特征序列進行全局標準化處理,得到標準化幀特征序列;
46、映射單元,被配置為執(zhí)行確定所述映射矩陣與所述標準化幀特征序列中各標準化幀特征之間的乘積,得到所述音頻幀序列中各音頻幀的映射向量。
47、在一些示例性的實施方式中,全局標準化單元包括:
48、幀特征拼接單元,被配置為執(zhí)行將所述幀特征序列中每連續(xù)預設(shè)數(shù)量的幀特征進行拼接,得到拼接幀特征序列;
49、全局標準化子單元,被配置為執(zhí)行對所述拼接幀特征序列進行全局標準化處理,得到標準化幀特征序列。
50、在一些示例性的實施方式中,所述語音表征單元包括:
51、降采樣單元,被配置為執(zhí)行對所述幀特征序列進行預設(shè)次數(shù)的降采樣處理,得到降采樣幀特征序列;所述降采樣幀特征序列中各降采樣幀特征的時間長度與所述拼接幀特征序列中對應(yīng)位置的拼接幀特征的時間長度相同;
52、替換單元,被配置為執(zhí)行將所述降采樣幀特征序列中的多個降采樣幀特征替換為預設(shè)遮蔽標識,得到經(jīng)遮蔽的降采樣幀特征序列;
53、語音表征子單元,被配置為執(zhí)行將所述經(jīng)遮蔽的降采樣幀特征序列輸入至待訓練語音表征模型進行語音表征處理,得到語音表征結(jié)果。
54、在一些示例性的實施方式中,所述標簽預測單元包括:
55、表征結(jié)果獲取單元,被配置為執(zhí)行獲取所述語音表征結(jié)果中,對應(yīng)各被遮蔽位置的表征結(jié)果;
56、預測子單元,被配置為執(zhí)行對于每個對應(yīng)所述被遮蔽位置的表征結(jié)果,預測所述表征結(jié)果屬于各所述參考離散化標簽的概率,將最大概率對應(yīng)的參考離散化標簽確定為所述被遮蔽位置對應(yīng)的預測離散化標簽。
57、在一些示例性的實施方式中,所述離散化標簽確定單元包括:
58、信息熵計算單元,被配置為執(zhí)行對目標索引序列進行信息熵計算,得到當前序列信息熵;所述目標索引序列由與各所述映射向量相匹配的目標碼本向量對應(yīng)的目標索引構(gòu)成;
59、碼本集合調(diào)整單元,被配置為執(zhí)行在所述當前序列信息熵超過預設(shè)序列信息熵范圍的情況下,對所述碼本集合進行調(diào)整,得到調(diào)整后碼本集合;
60、重復執(zhí)行單元,被配置為執(zhí)行將所述調(diào)整后碼本集合作為所述碼本集合,執(zhí)行所述從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量,對目標索引序列進行信息熵計算,得到當前序列信息熵的步驟,直至所述當前序列信息熵不超過所述預設(shè)序列信息熵范圍;
61、確定子單元,被配置為執(zhí)行將不超過所述預設(shè)序列信息熵范圍的當前序列信息熵,所對應(yīng)目標索引序列中的各目標索引分別作為相應(yīng)音頻幀的參考離散化標簽。
62、在一些示例性的實施方式中,所述預設(shè)序列信息熵范圍包括預設(shè)序列信息熵上限和預設(shè)序列信息熵下限;所述碼本集合調(diào)整單元包括:
63、第一碼本調(diào)整單元,被配置為執(zhí)行當所述當前序列信息熵小于所述預設(shè)序列信息熵下限時,增加所述碼本集合的規(guī)模,將規(guī)模增加后的碼本集合作為所述調(diào)整后碼本集合;
64、第二碼本調(diào)整單元,被配置為執(zhí)行當所述當前序列信息熵大于所述預設(shè)序列信息熵上限時,減小所述碼本集合的規(guī)模,將規(guī)模減小后的碼本集合作為所述調(diào)整后碼本集合。
65、在一些示例性的實施方式中,所述隨機初始化單元包括:
66、第一隨機初始化單元,被配置為執(zhí)行通過均勻分布隨機初始化權(quán)重,得到所述映射矩陣;
67、第二隨機初始化單元,被配置為執(zhí)行通過標準正態(tài)分布隨機初始化碼本向量,得到所述碼本集合。
68、在一些示例性的實施方式中,所述碼本集合包括多個子碼本集合;所述離散化標簽確定單元在從所述碼本集合中搜索與各所述映射向量相匹配的目標碼本向量時,具體被配置為執(zhí)行對于每個所述音頻幀,從各所述子碼本集合中分別搜索與所述音頻幀的映射向量最相似的目標子碼本向量;其中,各所述子碼本集合中的目標子碼本向量,構(gòu)成與所述音頻幀的映射向量相匹配的目標碼本向量。
69、根據(jù)本公開實施例的第三方面,提供一種電子設(shè)備,包括:
70、處理器;
71、用于存儲所述處理器可執(zhí)行指令的存儲器;
72、其中,所述處理器被配置為執(zhí)行所述指令,以實現(xiàn)上述第一方面的語音表征模型預訓練方法。
73、根據(jù)本公開實施例的第四方面,提供一種計算機可讀存儲介質(zhì),當所述計算機可讀存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行上述第一方面的語音表征模型預訓練方法。
74、根據(jù)本公開實施例的第五方面,提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面的語音表征模型預訓練方法。
75、本公開實施例通過隨機初始化方式生成映射矩陣和碼本集合,進而基于該映射矩陣對樣本語音所對應(yīng)音頻幀序列中的各音頻幀分別進行向量映射處理得到各音頻幀的映射向量,基于各音頻幀的映射向量從碼本集合中搜索與各音頻幀相匹配的目標碼本向量,將與各音頻幀相匹配的目標碼本向量對應(yīng)的目標索引作為各音頻幀的參考離散化標簽,并將經(jīng)遮蔽的音頻幀序列輸入至待訓練語音表征模型進行語音表征處理得到語音表征結(jié)果,對該語音表征結(jié)果中對應(yīng)各遮蔽位置的表征結(jié)果分別進行離散化標簽預測得到各遮蔽位置對應(yīng)的預測離散化標簽,進而基于各遮蔽位置對應(yīng)的預測離散化標簽與該遮蔽位置的本音頻幀的參考離散化標簽之間的差異調(diào)整待訓練語音表征模型的模型參數(shù)直至滿足預設(shè)訓練結(jié)束條件得到預訓練的語音表征模型。在上述技術(shù)方案中,隨機初始化的映射矩陣和碼本集合在整個預訓練過程中固定,從而整個預訓練過程中相同的輸入音頻幀始終對應(yīng)唯一確定的離散化標簽,無需提前對樣本語音數(shù)據(jù)進行離散化處理,準備好樣本語音數(shù)據(jù)即可進行高效穩(wěn)定的語音預訓練,提高了語音表征模型的預訓練速度、收斂性和穩(wěn)定性。
76、應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。