一種交互系統(tǒng)的語音識別方法和裝置的制造方法
【技術(shù)領域】
[0001]本發(fā)明涉及語音識別技術(shù)領域,具體涉及一種交互式系統(tǒng)的語音識別方法和裝置。
【背景技術(shù)】
[0002]隨著多媒體技術(shù)的發(fā)展,各種交互式系統(tǒng)都采用了語音交互的方式,以提高與用戶的互動效率和提高趣味性。例如問答系統(tǒng),先通過語音或圖像顯示的方式向用戶拋出問題,然后用戶語音回答。再例如一些展示系統(tǒng),需要用戶發(fā)出語音指令來選擇展示哪些目錄中的內(nèi)容。在這些場景下都需要對用戶的語音進行準確識別,才能在問答系統(tǒng)下判斷用戶給出的語音答案是否正確,以及在展示系統(tǒng)下判斷用戶到底選擇了哪些目錄,以便展示相應目錄中的內(nèi)容。
[0003]因此在交互系統(tǒng)中對用戶的語音進行準確和快速的識別是亟需解決的問題。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種交互式系統(tǒng)的語音識別方法和裝置。
[0005]依據(jù)本發(fā)明的一個方面,提供了一種交互系統(tǒng)的語音識別方法,其中,該方法包括:
[0006]根據(jù)互動狀態(tài)及所述互動狀態(tài)下的預期答案,在語音識別樣本庫中預先確定與互動狀態(tài)及所述預期答案對應的多個預期樣本;
[0007]將所述預期答案對應的多個預期樣本劃分為至少兩個樣本組,每個樣本組中至少包含一個預期樣本;
[0008]采集所述互動狀態(tài)下的用戶的語音信號;
[0009]將所述語音信號與至少兩個樣本組中的一個樣本組中的預期樣本進行匹配。
[0010]可選地,該方法進一步包括:
[0011]若在所述樣本組中發(fā)現(xiàn)匹配的預期樣本,則確定用戶給出的答案為該預期答案。
[0012]可選地,該方法進一步包括:
[0013]若未在所述樣本組中發(fā)現(xiàn)匹配的預期樣本,則將所述語音信號與所述至少兩個樣本組中另一個樣本組中的預期樣本進行匹配。
[0014]可選地,該方法進一步包括:
[0015]若在所述另一個樣本組中發(fā)現(xiàn)匹配的預期樣本,則確定用戶給出的答案為該預期答案。
[0016]可選地,該方法進一步包括:
[0017]若未在所述另一個樣本組中發(fā)現(xiàn)匹配的預期樣本,則確定用戶未給出預期答案。
[0018]可選地,該方法進一步包括:
[0019]計算所述語音信號與預期樣本的匹配度值,如果匹配度值達到預設值,則確定所述語音信號與該預期樣本匹配,反之如果匹配度值未達到預設值,則確定所述語音信號與該預期樣本不匹配。
[0020]可選地,所述將所述預期答案對應的多個預期樣本劃分為至少兩個樣本組包括:
[0021]將所述預期答案對應的多個預期樣本,按照與所述預期答案的相似程度的不同劃分為至少兩個樣本組,或者按照用戶可能答復的預期答案的概率的不同劃分為至少兩個樣本組。
[0022]可選地,將所述語音信號與至少兩個樣本組中的一個樣本組中的預期樣本進行匹配包括:
[0023]將所述語音信號與至少兩個樣本組中的與所述預期答案的相似程度最高的一個樣本組中的預期樣本進行匹配,或者將所述語音信號與至少兩個樣本組中的包含用戶可能答復的概率最高的預期答案的一個樣本組進行匹配。
[0024]可選地,將所述語音信號與至少兩個樣本組中的一個樣本組中的預期樣本進行匹配包括:
[0025]將所述語音信號與至少兩個樣本組中的一個樣本組中優(yōu)先級最高的預期樣本進行匹配。
[0026]可選地,該方法進一步包括:
[0027]根據(jù)所采集的該互動狀態(tài)下的歷史語音信號,相應擴充所述預期答案對應的樣本組數(shù)量,或者,相應擴充所述預期答案對應的一個樣本組包含的預期樣本數(shù)量,或者相應擴充所述語音識別樣本庫中的樣本數(shù)量;
[0028]可選地,在采集所述互動狀態(tài)下的用戶的語音信號之前,該方法進一步包括:
[0029]通過結(jié)合語音、圖像和視頻中任一種或多種的形式,展現(xiàn)互動狀態(tài)。
[0030]依據(jù)本發(fā)明的另一個實施例,公開了一種交互系統(tǒng)的語音識別裝置,其中,該裝置包括:
[0031]預期樣本確定單元,適于根據(jù)互動狀態(tài)及所述互動狀態(tài)下的預期答案,在語音識別樣本庫中預先確定與互動狀態(tài)及所述預期答案對應的多個預期樣本;
[0032]分組單元,適于將所述預期答案對應的多個預期樣本劃分為至少兩個樣本組,每個樣本組中至少包含一個預期樣本;
[0033]采集單元,適于采集所述互動狀態(tài)下的用戶的語音信號;
[0034]匹配處理單元,適于將所述語音信號與至少兩個樣本組中的一個樣本組中的預期樣本進行匹配。
[0035]可選地,所述匹配處理單元,適于當在所述樣本組中發(fā)現(xiàn)匹配的預期樣本時,確定用戶給出的答案為該預期答案。
[0036]可選地,所述匹配處理單元,適于當未在所述樣本組中發(fā)現(xiàn)匹配的預期樣本時,將所述語音信號與所述至少兩個樣本組中另一個樣本組中的預期樣本進行匹配。
[0037]可選地,所述匹配處理單元,適于當在所述另一個樣本組中發(fā)現(xiàn)匹配的預期樣本時,確定用戶給出的答案為該預期答案。
[0038]可選地,該裝置進一步包括:
[0039]所述匹配處理單元,適于當未在所述另一個樣本組中發(fā)現(xiàn)匹配的預期樣本,則確定用戶未給出預期答案。
[0040]可選地,所述匹配處理單元,適于計算所述語音信號與預期樣本的匹配度值,如果匹配度值達到預設值,則確定所述語音信號與該預期樣本匹配,反之如果匹配度值未達到預設值,則確定所述語音信號與該預期樣本不匹配。
[0041]可選地,所述分組單元,適于將所述預期答案對應的多個預期樣本,按照與所述預期答案的相似程度的不同劃分為至少兩個樣本組,或者按照用戶可能答復的預期答案的概率的不同劃分為至少兩個樣本組。
[0042]可選地,所述匹配處理單元,適于將所述語音信號先與至少兩個樣本組中的與所述預期答案的相似程度最高的一個樣本組中的預期樣本進行匹配,或者將所述語音信號與至少兩個樣本組中的包含用戶可能答復的概率最高的預期答案的一個樣本組進行匹配。
[0043]可選地,所述匹配處理單元,適于先將所述語音信號先與至少兩個樣本組中的一個樣本組中優(yōu)先級最高的預期樣本進行匹配。
[0044]可選地,該裝置進一步包括:
[0045]擴充單元,適于根據(jù)所采集的該互動狀態(tài)下的歷史語音信號,相應擴充所述預期答案對應的樣本組數(shù)量,或者,相應擴充所述預期答案對應的一個樣本組包含的預期樣本數(shù)量,或者相應擴充所述語音識別樣本庫中的樣本數(shù)量;
[0046]可選地,該裝置進一步包括:
[0047]展現(xiàn)單元,適于通過結(jié)合語音、圖像和視頻中任一種或多種的形式,展現(xiàn)互動狀
??τ O
[0048]根據(jù)本發(fā)明的這種根據(jù)互動狀態(tài)及所述互動狀態(tài)下的預期答案,在語音識別樣本庫中預先確定與互動狀態(tài)及所述預期答案對應的多個預期樣本,將所述預期答案對應的多個預期樣本劃分為至少兩個樣本組,每個樣本組中至少包含一個預期樣本,采集所述互動狀態(tài)下的用戶的語音信號,將所述語音信號與至少兩個樣本組中的一個樣本組中的預期樣本進行匹配的技術(shù)方案,由于將預期答案對應的預期樣本預先找出來并分組,將用戶的語音信號直接與其中一組預期樣本進行匹配,因此使得匹配的范圍縮小到一個可預期的小范圍,不僅提高了交互系統(tǒng)的語音識別的速度,而且提高了語音識別的準確性。
[0049]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0050]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0051]圖1示出了根據(jù)本發(fā)明一個實施例的一種交互系統(tǒng)的語音識別方法的流程圖;
[0052]圖2示出了根據(jù)本發(fā)明一個實施例的一種交互系統(tǒng)的語音識別裝置的結(jié)構(gòu)圖;以及
[0053]圖3示出了根據(jù)本發(fā)明又一個實施例的一種交互系統(tǒng)的語音識別裝置的結(jié)構(gòu)圖。【具體實施方式】
[0054]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
[0055]圖1示出了根據(jù)本發(fā)明一個實施例的一種交互系統(tǒng)的語音識別方法的流程圖。如圖1所示,該方法包括:
[0056]