所屬的技術(shù)人員能夠理解,本技術(shù)的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本技術(shù)的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。示例性電子設(shè)備在介紹了本技術(shù)示例性實(shí)施方式的針對(duì)數(shù)據(jù)倉(cāng)庫取數(shù)接口的開發(fā)方法、介質(zhì)和裝置之后,接下來,參考圖13對(duì)本技術(shù)示例性實(shí)施方式的電子設(shè)備進(jìn)行說明。圖13顯示的電子設(shè)備1300僅僅是一個(gè)示例,不應(yīng)對(duì)本技術(shù)實(shí)施例的功能和適用范圍帶來任何限制。如圖13所示,電子設(shè)備1300以通用電子設(shè)備的形式表現(xiàn)。電子設(shè)備1300的組件可以包括但不限于:至少一個(gè)處理單元1310、至少一個(gè)存儲(chǔ)單元1320、連接不同系統(tǒng)組件(包括存儲(chǔ)單元1320和處理單元1310)的總線1330。其中,存儲(chǔ)單元存儲(chǔ)有程序代碼,程序代碼可以被處理單元1310執(zhí)行,使得處理單元1310執(zhí)行本技術(shù)上述“示例性方法”部分中描述的根據(jù)本技術(shù)各種示例性實(shí)施方式的步驟。在一些實(shí)施例中,處理單元1310可以執(zhí)行上述實(shí)施例。存儲(chǔ)單元1320可以包括易失性存儲(chǔ)單元形式的可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)單元(ram)1321和/或高速緩存存儲(chǔ)單元1322,還可以進(jìn)一步包括只讀存儲(chǔ)單元(rom)1323。存儲(chǔ)單元1320還可以包括具有一組(至少一個(gè))程序模塊1325的程序/實(shí)用工具1324,這樣的程序模塊1325包括但不限于:操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。總線1330可以包括數(shù)據(jù)總線、地址總線和控制總線。電子設(shè)備1300也可以與一個(gè)或多個(gè)外部設(shè)備1340(例如鍵盤、指向設(shè)備、藍(lán)牙設(shè)備等)通信,這種通信可以通過輸入/輸出(i/o)接口1350進(jìn)行。并且,電子設(shè)備1300還可以通過網(wǎng)絡(luò)適配器1360與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖13所示,網(wǎng)絡(luò)適配器1360通過總線1330與電子設(shè)備1300的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合電子設(shè)備1300使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實(shí)施方式可以通過軟件實(shí)現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此,根據(jù)本技術(shù)實(shí)施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是cd-rom,u盤,移動(dòng)硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺(tái)電子設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、終端裝置、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本技術(shù)實(shí)施例的方法。應(yīng)當(dāng)注意,盡管在上文詳細(xì)描述中提及了針對(duì)數(shù)據(jù)倉(cāng)庫取數(shù)接口的開發(fā)裝置的若干單元/模塊或子單元/模塊,但是這種劃分僅僅是示例性的并非強(qiáng)制性的。實(shí)際上,根據(jù)本技術(shù)實(shí)施例,上文描述的兩個(gè)或更多單元/模塊的特征和功能可以在一個(gè)單元/模塊中具體化。反之,上文描述的一個(gè)單元/模塊的特征和功能可以進(jìn)一步劃分為由多個(gè)單元/模塊來具體化。此外,盡管在附圖中以特定順序描述了本技術(shù)方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。附加地或備選地,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,和/或?qū)⒁粋€(gè)步驟分解為多個(gè)步驟執(zhí)行。雖然已經(jīng)參考若干具體實(shí)施方式描述了本技術(shù)的精神和原理,但是應(yīng)該理解,本技術(shù)并不限于所公開的具體實(shí)施方式,對(duì)各方面的劃分也不意味著這些方面中的特征不能組合以進(jìn)行受益,這種劃分僅是為了表述的方便。本技術(shù)旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀代碼,或者承載有計(jì)算機(jī)可讀代碼的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)計(jì)算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時(shí),電子設(shè)備中的處理器上述任意實(shí)施方式的方法。
背景技術(shù):
1、本部分旨在為權(quán)利要求書中陳述的本技術(shù)的實(shí)施方式提供背景或上下文。此處的描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。
2、在語音識(shí)別場(chǎng)景中,服務(wù)端通常在接收到客戶端發(fā)送的語音數(shù)據(jù)時(shí),實(shí)時(shí)將接收的語音數(shù)據(jù)進(jìn)行語音識(shí)別,獲得語音識(shí)別結(jié)果。但是,采用這種方式進(jìn)行語音識(shí)別時(shí),圖形處理器(graphics?processing?unit,gpu)的利用率以及語音識(shí)別速率較低。
技術(shù)實(shí)現(xiàn)思路
1、相關(guān)技術(shù)在語音識(shí)別時(shí)gpu利用率以及語音識(shí)別速率較低。為此,在本上下文中,本技術(shù)的實(shí)施方式期望提供一種語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
2、一方面,本技術(shù)實(shí)施例中提供了一種語音識(shí)別方法,包括:
3、確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),緩存接收的音頻數(shù)據(jù);
4、統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度;
5、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則基于預(yù)先訓(xùn)練好的語音識(shí)別模型,對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別,獲得至少一個(gè)語音識(shí)別結(jié)果;
6、將至少一個(gè)語音識(shí)別結(jié)果,分別返回相應(yīng)的客戶端。
7、一種實(shí)施方式中,確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),緩存接收的音頻數(shù)據(jù),包括:
8、通過第一線程,執(zhí)行以下步驟:
9、確定監(jiān)聽到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),對(duì)音頻數(shù)據(jù)進(jìn)行脈沖編碼調(diào)制編碼,獲得編碼后的音頻數(shù)據(jù);
10、將編碼后的音頻數(shù)據(jù),緩存至輸入隊(duì)列。
11、一種實(shí)施方式中,統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度,包括:
12、通過第二線程,執(zhí)行以下步驟:
13、對(duì)輸入隊(duì)列進(jìn)行監(jiān)聽;
14、確定監(jiān)聽到輸入隊(duì)列中添加新的音頻數(shù)據(jù)時(shí),統(tǒng)計(jì)輸入隊(duì)列中的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度。
15、一種實(shí)施方式中,若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則基于預(yù)先訓(xùn)練好的語音識(shí)別模型,對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別,獲得至少一個(gè)語音識(shí)別結(jié)果,包括:
16、通過第二線程,執(zhí)行以下步驟:
17、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則從輸入隊(duì)列中取出緩存的音頻數(shù)據(jù);
18、從至少一個(gè)音頻數(shù)據(jù)中,篩選出包含語音片段的音頻數(shù)據(jù);
19、采用批處理的方式,對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣;
20、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型,獲得至少一個(gè)語音識(shí)別結(jié)果。
21、一種實(shí)施方式中,對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣,包括:
22、分別針對(duì)每一音頻數(shù)據(jù),執(zhí)行以下步驟:
23、對(duì)音頻數(shù)據(jù)進(jìn)行特征提取,獲得語音提取特征;
24、將語音提取特征,進(jìn)行數(shù)據(jù)填充,獲得音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù);
25、根據(jù)語音填充數(shù)據(jù)中分別包含的填充數(shù)據(jù),生成音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣。
26、一種實(shí)施方式中,從至少一個(gè)音頻數(shù)據(jù)中,篩選出包含語音片段的音頻數(shù)據(jù),包括:
27、對(duì)至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行語音活性檢測(cè);語音活性檢測(cè)用于識(shí)別音頻數(shù)據(jù)是否為包含語音片段;
28、從至少一個(gè)音頻數(shù)據(jù)中,篩選出語音活性檢測(cè)結(jié)果為包含語音片段的音頻數(shù)據(jù)。
29、一種實(shí)施方式中,在將至少一個(gè)語音識(shí)別結(jié)果,分別返回相應(yīng)的客戶端之前,方法還包括:
30、根據(jù)語音活性檢測(cè)結(jié)果,將未包含語音片段的音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果,設(shè)置為指定識(shí)別結(jié)果。
31、一種實(shí)施方式中,語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型;
32、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型,獲得至少一個(gè)語音識(shí)別結(jié)果,包括:
33、將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,輸入聲學(xué)引擎,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果;注意力分布結(jié)果用于表示音頻數(shù)據(jù)對(duì)應(yīng)的字符概率分布;
34、根據(jù)解碼器,對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼,分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本;
35、將至少一個(gè)初始識(shí)別文本,輸入標(biāo)點(diǎn)模型,分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果;語音識(shí)別結(jié)果用于表示相應(yīng)音頻數(shù)據(jù)對(duì)應(yīng)的包含標(biāo)點(diǎn)符號(hào)的文本。
36、一種實(shí)施方式中,將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,輸入聲學(xué)引擎,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果,包括:
37、對(duì)至少一個(gè)語音填充數(shù)據(jù)進(jìn)行下采樣,分別獲得每一語音填充數(shù)據(jù)的下采樣數(shù)據(jù);
38、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,進(jìn)行拼接處理,獲得二維輸入特征矩陣;
39、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,分別確定每一音頻數(shù)據(jù)對(duì)應(yīng)的語音長(zhǎng)度;
40、根據(jù)至少一個(gè)語音長(zhǎng)度,生成長(zhǎng)度矩陣;
41、采用分類函數(shù),根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣,進(jìn)行注意力分布計(jì)算,獲得至少一個(gè)注意力分布結(jié)果。
42、一種實(shí)施方式中,采用分類函數(shù),根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣,進(jìn)行注意力分布計(jì)算,獲得至少一個(gè)注意力分布結(jié)果,包括:
43、根據(jù)長(zhǎng)度矩陣,將二維輸入特征矩陣中的各元素進(jìn)行劃分,獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的向量集合;
44、分別針對(duì)每一音頻數(shù)據(jù)的向量集合,執(zhí)行以下步驟:
45、確定向量集合中各元素的最大元素值;
46、采用分類函數(shù),根據(jù)向量集合中各元素的元素值,以及最大元素值,分別確定每一元素對(duì)應(yīng)的字符分布值;
47、根據(jù)確定出的至少一個(gè)字符分布值,組成音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果。
48、一種實(shí)施方式中,根據(jù)解碼器,對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼,分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本,包括:
49、對(duì)至少一個(gè)音頻數(shù)據(jù)的注意力分布結(jié)果進(jìn)行填充,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布填充數(shù)據(jù);
50、對(duì)至少一個(gè)注意力分布填充數(shù)據(jù)進(jìn)行解碼處理,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的解碼數(shù)據(jù);
51、根據(jù)至少一個(gè)音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣,分別對(duì)每一解碼數(shù)據(jù)進(jìn)行反填充處理,獲得至少一個(gè)初始識(shí)別文本。
52、一種實(shí)施方式中,將至少一個(gè)初始識(shí)別文本,輸入標(biāo)點(diǎn)模型,分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果,包括:
53、采用分類函數(shù),對(duì)至少一個(gè)初始識(shí)別文本進(jìn)行注意力分布計(jì)算,獲得語義分布結(jié)果;
54、根據(jù)至少一個(gè)初始識(shí)別文本分別對(duì)應(yīng)的語義分布結(jié)果,對(duì)至少一個(gè)初始識(shí)別文本分別添加標(biāo)點(diǎn)符號(hào),獲得至少一個(gè)語音識(shí)別結(jié)果。
55、一種實(shí)施方式中,將至少一個(gè)語音識(shí)別結(jié)果,分別返回相應(yīng)的客戶端,包括:
56、通過第二線程,執(zhí)行以下步驟:
57、確定獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的語音識(shí)別結(jié)果時(shí),將至少一個(gè)語音識(shí)別結(jié)果發(fā)送至輸出隊(duì)列;
58、監(jiān)聽到輸出隊(duì)列中存在語音識(shí)別結(jié)果時(shí),將輸出隊(duì)列中的語音識(shí)別結(jié)果,分別發(fā)送至相應(yīng)的客戶端。
59、一方面,本技術(shù)實(shí)施例中提供了一種語音識(shí)別裝置,包括:
60、緩存單元,用于確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),緩存接收的音頻數(shù)據(jù);
61、統(tǒng)計(jì)單元,用于統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度;
62、識(shí)別單元,用于若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則基于預(yù)先訓(xùn)練好的語音識(shí)別模型,對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別,獲得至少一個(gè)語音識(shí)別結(jié)果;
63、返回單元,用于將至少一個(gè)語音識(shí)別結(jié)果,分別返回相應(yīng)的客戶端。
64、一種實(shí)施方式中,緩存單元用于:
65、通過第一線程,執(zhí)行以下步驟:
66、確定監(jiān)聽到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),對(duì)音頻數(shù)據(jù)進(jìn)行脈沖編碼調(diào)制編碼,獲得編碼后的音頻數(shù)據(jù);
67、將編碼后的音頻數(shù)據(jù),緩存至輸入隊(duì)列。
68、一種實(shí)施方式中,統(tǒng)計(jì)單元用于:
69、通過第二線程,執(zhí)行以下步驟:
70、對(duì)輸入隊(duì)列進(jìn)行監(jiān)聽;
71、確定監(jiān)聽到輸入隊(duì)列中添加新的音頻數(shù)據(jù)時(shí),統(tǒng)計(jì)輸入隊(duì)列中的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度。
72、一種實(shí)施方式中,識(shí)別單元用于:
73、通過第二線程,執(zhí)行以下步驟:
74、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則從輸入隊(duì)列中取出緩存的音頻數(shù)據(jù);
75、從至少一個(gè)音頻數(shù)據(jù)中,篩選出包含語音片段的音頻數(shù)據(jù);
76、采用批處理的方式,對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣;
77、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型,獲得至少一個(gè)語音識(shí)別結(jié)果。
78、一種實(shí)施方式中,識(shí)別單元用于:
79、分別針對(duì)每一音頻數(shù)據(jù),執(zhí)行以下步驟:
80、對(duì)音頻數(shù)據(jù)進(jìn)行特征提取,獲得語音提取特征;
81、將語音提取特征,進(jìn)行數(shù)據(jù)填充,獲得音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù);
82、根據(jù)語音填充數(shù)據(jù)中分別包含的填充數(shù)據(jù),生成音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣。
83、一種實(shí)施方式中,識(shí)別單元用于:
84、對(duì)至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行語音活性檢測(cè);語音活性檢測(cè)用于識(shí)別音頻數(shù)據(jù)是否為包含語音片段;
85、從至少一個(gè)音頻數(shù)據(jù)中,篩選出語音活性檢測(cè)結(jié)果為包含語音片段的音頻數(shù)據(jù)。
86、一種實(shí)施方式中,返回單元還用于:
87、根據(jù)語音活性檢測(cè)結(jié)果,將未包含語音片段的音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果,設(shè)置為指定識(shí)別結(jié)果。
88、一種實(shí)施方式中,語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型;
89、一種實(shí)施方式中,語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型;
90、識(shí)別單元用于:
91、將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,輸入聲學(xué)引擎,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果;注意力分布結(jié)果用于表示音頻數(shù)據(jù)對(duì)應(yīng)的字符概率分布;
92、根據(jù)解碼器,對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼,分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本;
93、將至少一個(gè)初始識(shí)別文本,輸入標(biāo)點(diǎn)模型,分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果;語音識(shí)別結(jié)果用于表示相應(yīng)音頻數(shù)據(jù)對(duì)應(yīng)的包含標(biāo)點(diǎn)符號(hào)的文本。
94、一種實(shí)施方式中,識(shí)別單元用于:
95、對(duì)至少一個(gè)語音填充數(shù)據(jù)進(jìn)行下采樣,分別獲得每一語音填充數(shù)據(jù)的下采樣數(shù)據(jù);
96、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,進(jìn)行拼接處理,獲得二維輸入特征矩陣;
97、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣,分別確定每一音頻數(shù)據(jù)對(duì)應(yīng)的語音長(zhǎng)度;
98、根據(jù)至少一個(gè)語音長(zhǎng)度,生成長(zhǎng)度矩陣;
99、采用分類函數(shù),根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣,進(jìn)行注意力分布計(jì)算,獲得至少一個(gè)注意力分布結(jié)果。
100、一種實(shí)施方式中,識(shí)別單元用于:
101、根據(jù)長(zhǎng)度矩陣,將二維輸入特征矩陣中的各元素進(jìn)行劃分,獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的向量集合;
102、分別針對(duì)每一音頻數(shù)據(jù)的向量集合,執(zhí)行以下步驟:
103、確定向量集合中各元素的最大元素值;
104、采用分類函數(shù),根據(jù)向量集合中各元素的元素值,以及最大元素值,分別確定每一元素對(duì)應(yīng)的字符分布值;
105、根據(jù)確定出的至少一個(gè)字符分布值,組成音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果。
106、一種實(shí)施方式中,識(shí)別單元用于:
107、對(duì)至少一個(gè)音頻數(shù)據(jù)的注意力分布結(jié)果進(jìn)行填充,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布填充數(shù)據(jù);
108、對(duì)至少一個(gè)注意力分布填充數(shù)據(jù)進(jìn)行解碼處理,分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的解碼數(shù)據(jù);
109、根據(jù)至少一個(gè)音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣,分別對(duì)每一解碼數(shù)據(jù)進(jìn)行反填充處理,獲得至少一個(gè)初始識(shí)別文本。
110、一種實(shí)施方式中,識(shí)別單元用于:
111、采用分類函數(shù),對(duì)至少一個(gè)初始識(shí)別文本進(jìn)行注意力分布計(jì)算,獲得語義分布結(jié)果;
112、根據(jù)至少一個(gè)初始識(shí)別文本分別對(duì)應(yīng)的語義分布結(jié)果,對(duì)至少一個(gè)初始識(shí)別文本分別添加標(biāo)點(diǎn)符號(hào),獲得至少一個(gè)語音識(shí)別結(jié)果。
113、一種實(shí)施方式中,返回單元用于:
114、通過第二線程,執(zhí)行以下步驟:
115、確定獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的語音識(shí)別結(jié)果時(shí),將至少一個(gè)語音識(shí)別結(jié)果發(fā)送至輸出隊(duì)列;
116、監(jiān)聽到輸出隊(duì)列中存在語音識(shí)別結(jié)果時(shí),將輸出隊(duì)列中的語音識(shí)別結(jié)果,分別發(fā)送至相應(yīng)的客戶端。
117、一方面,本技術(shù)實(shí)施例中提供了一種電子設(shè)備,包括:
118、處理器;以及
119、存儲(chǔ)器,存儲(chǔ)有計(jì)算機(jī)指令,計(jì)算機(jī)指令用于使處理器執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。
120、一方面,本技術(shù)實(shí)施例中提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)指令,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。
121、一方面,本技術(shù)實(shí)施例中提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀代碼,或者承載有計(jì)算機(jī)可讀代碼的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)計(jì)算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時(shí),電子設(shè)備中的處理器執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。
122、根據(jù)本技術(shù)實(shí)施例的方案,確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí),緩存接收的音頻數(shù)據(jù);統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度;若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度,則基于預(yù)先訓(xùn)練好的語音識(shí)別模型,對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別,獲得至少一個(gè)語音識(shí)別結(jié)果;將至少一個(gè)語音識(shí)別結(jié)果,分別返回相應(yīng)的客戶端。這樣,將按照設(shè)定音頻長(zhǎng)度,對(duì)客戶端的各音頻數(shù)據(jù)進(jìn)行批處理并行運(yùn)算,提高了gpu的利用率以及語音識(shí)別速率。