本公開涉及車輛,尤其涉及一種語音識別方法及裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著科技的發(fā)展,語音交互系統(tǒng)應(yīng)用于我們生活的方方面面,語音交互功能不斷完善,可以實現(xiàn)與用戶進(jìn)行聊天、操控智能設(shè)備等功能。
2、目前,語音交互系統(tǒng)僅支持使用標(biāo)準(zhǔn)語音進(jìn)行語音交互,若使用地方語言(方言)進(jìn)行交互,會導(dǎo)致語音識別準(zhǔn)確率低,無法正常使用語音交互功能。因此如何利用方言完成與用戶之間的互動就成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本公開提供了一種語音識別方法、裝置、電子設(shè)備和存儲介質(zhì)。其主要目的在于解決無法通過方言進(jìn)行語音交互的問題。
2、根據(jù)本公開的第一方面,提供了一種語音識別方法,其中,包括:
3、確定待識別音頻的第一方言類型;
4、根據(jù)所述待識別音頻及所述第一方言類型進(jìn)行語音識別得到語音識別結(jié)果;
5、獲取生成所述待識別音頻對應(yīng)方言回復(fù)語句的第二方言類型;
6、根據(jù)所述第二方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句。
7、可選的,所述根據(jù)所述待識別音頻及所述第一方言類型進(jìn)行語音識別得到語音識別結(jié)果包括:
8、確定與所述第一方言類型對應(yīng)的語音識別模型;其中,不同方言類型對應(yīng)不同語音識別模型;
9、基于確定出的語音識別模型對所述待識別音頻進(jìn)行語音識別得到語音識別結(jié)果。
10、可選的,所述確定待識別音頻的第一方言類型包括:
11、將用戶輸入的方言類型確定為所述待識別音頻的第一方言類型;
12、或者通過所述待識別音頻中的語音特征確定所述待識別音頻的第一方言類型。
13、可選的,所述根據(jù)所述第二方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句包括:
14、根據(jù)所述待識別音頻的第二方言類型及語音識別結(jié)果,進(jìn)行自然語言理解,得到自然語言理解結(jié)果;
15、根據(jù)所述自然語音理解結(jié)果及所述待識別音頻的第二方言類型,生成基于所述方言類型的答復(fù)語句。
16、可選的,所述獲取生成所述待識別音頻對應(yīng)方言回復(fù)語句的第二方言類型包括:
17、將所述第一方言類型確定為第二方言類型;
18、或者將用戶指定的除第一方言類型外的方言類型確定為所述第二方言類型。
19、可選的,在確定待識別音頻的第一方言類型之前,所述方法還包括:
20、獲取待識別音頻,并確定所述待識別音頻的發(fā)聲源的第一位置;
21、可選的,所述獲取生成所述待識別語音對應(yīng)方言回復(fù)語句的第二方言類型包括:
22、采集第二待識別音頻;
23、在確所述第二待識別音頻對應(yīng)的位置不為所述第一位置的情況下,確定所述第二待識別音頻的方言類型,以及確定所述第二待識別音頻的發(fā)聲源的第二位置;
24、將所述第二位置與對應(yīng)的方言類型進(jìn)行綁定;
25、將所述第二位置對應(yīng)的方言類型確定為所述第二方言類型。
26、可選的,所述獲取生成所述待識別語音對應(yīng)方言回復(fù)語句的第二方言類型還包括:
27、確定各乘客的身份信息,并根據(jù)各所述身份信息確定對應(yīng)的方言類型;其中,乘客的身份信息與方言類型的對應(yīng)關(guān)系通過預(yù)先配置得到;
28、將所述身份信息對應(yīng)的方言類型確定為第二方言類型。
29、可選的,所述根據(jù)所述第二方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句包括:
30、根據(jù)所述第一方言類型及所述語音識別結(jié)果生成第一方言回復(fù)語句;
31、根據(jù)所述第二方言類型及所述語音識別結(jié)果生成第二方言回復(fù)語句。
32、可選的,在根據(jù)所述方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句之后,所述方法還包括:
33、由所述第一位置關(guān)聯(lián)的揚聲器播放所述第一方言回復(fù)語句;及,
34、由所述第二位置關(guān)聯(lián)的揚聲器,播放所述第二位置綁定的方言類型的對應(yīng)的第二方言回復(fù)語句。
35、根據(jù)本公開的第二方面,提供了一種語音識別裝置,包括:
36、確定單元,用于確定待識別音頻的第一方言類型;
37、識別單元,用于根據(jù)所述待識別音頻及所述第一方言類型進(jìn)行語音識別得到語音識別結(jié)果;
38、第一獲取單元,用于獲取生成所述待識別音頻對應(yīng)方言回復(fù)語句的第二方言類型;
39、生成單元,用于根據(jù)所述第二方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句。
40、可選的,所述識別單元包括:
41、第一確定模塊,用于確定與所述第一方言類型對應(yīng)的語音識別模型;其中,不同方言類型對應(yīng)不同語音識別模型;
42、識別模塊,用于基于確定出的語音識別模型對所述待識別音頻進(jìn)行語音識別得到語音識別結(jié)果。
43、可選的,所述確定單元還用于:將用戶輸入的方言類型確定為所述待識別音頻的第一方言類型;
44、或者通過所述待識別音頻中的語音特征確定所述待識別音頻的第一方言類型。
45、可選的,所述生成單元包括:
46、理解模塊,用于根據(jù)所述待識別音頻的第二方言類型及語音識別結(jié)果,進(jìn)行自然語言理解,得到自然語言理解結(jié)果;
47、生成模塊,用于根據(jù)所述自然語音理解結(jié)果及所述待識別音頻的第二方言類型,生成基于所述方言類型的答復(fù)語句。
48、可選的,所述第一獲取單元還用于:
49、將所述第一方言類型確定為第二方言類型;
50、或者將用戶指定的除第一方言類型外的方言類型確定為所述第二方言類型。
51、可選的,所述裝置還包括:
52、第二獲取單元,用于在確定單元確定待識別音頻的第一方言類型之前,獲取待識別音頻,并確定所述待識別音頻的發(fā)聲源的第一位置;
53、可選的,所述第一獲取單元包括:
54、采集模塊,用于采集第二待識別音頻;
55、第二確定模塊,用于在確所述第二待識別音頻對應(yīng)的位置不為所述第一位置的情況下,確定所述第二待識別音頻的方言類型,以及確定所述第二待識別音頻的發(fā)聲源的第二位置;
56、綁定模塊,用于將所述第二位置與對應(yīng)的方言類型進(jìn)行綁定;
57、第三確定模塊,用于將所述第二位置對應(yīng)的方言類型與所述第一方言類型確定為所述第二方言類型。
58、可選的,所述第一獲取單元還包括:
59、第四確定模塊,用于確定各乘客的身份信息,并根據(jù)各所述身份信息確定對應(yīng)的方言類型;其中,乘客的身份信息與方言類型的對應(yīng)關(guān)系通過預(yù)先配置得到;
60、第五確定單元,用于將所述身份信息對應(yīng)的方言類型與所述第一方言類型確定為第二方言類型。
61、可選的,所述生成單元還用于:
62、根據(jù)所述第一方言類型及所述語音識別結(jié)果生成第一方言回復(fù)語句;
63、根據(jù)所述第二方言類型及所述語音識別結(jié)果生成第二方言回復(fù)語句。
64、可選的,所述裝置還包括:
65、播放單元,用于在生成單元根據(jù)所述方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句之后,由所述第一位置關(guān)聯(lián)的揚聲器播放所述第一方言回復(fù)語句;及,
66、由所述第二位置關(guān)聯(lián)的揚聲器,播放所述第二位置綁定的方言類型的對應(yīng)的第二方言回復(fù)語句。
67、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:
68、至少一個處理器;以及
69、與所述至少一個處理器通信連接的存儲器;其中,
70、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行前述第一方面所述的方法。
71、根據(jù)本公開的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行前述第一方面所述的方法。
72、根據(jù)本公開的第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如前述第一方面所述的方法。
73、本公開提供的語音識別方法、裝置、電子設(shè)備和存儲介質(zhì),主要技術(shù)方案包括:首先,確定待識別音頻的第一方言類型;根據(jù)所述待識別音頻及所述第一方言類型進(jìn)行語音識別得到語音識別結(jié)果;其次,獲取生成所述待識別音頻對應(yīng)方言回復(fù)語句的第二方言類型;最后,根據(jù)所述第二方言類型及所述語音識別結(jié)果生成所述待識別音頻對應(yīng)的方言回復(fù)語句。與相關(guān)技術(shù)相比,本技術(shù)實施例通過在語音識別之前,首先判斷音頻數(shù)據(jù)的方言類型,結(jié)合確定出的方言類型進(jìn)行語音識別,并且根據(jù)方言類型生成與方言類型對應(yīng)的方言回復(fù)語句;實現(xiàn)了對方言音頻的語音識別,并且可根據(jù)方言類型生成特定的方言回復(fù)語句,與用戶進(jìn)行交互,實現(xiàn)了通過方言進(jìn)行人機交互。
74、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。