一種融合非確定性反饋的語音識別錯誤修正方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別涉及語音識別中融合用戶反饋結(jié)果提高語音輸入效率的領(lǐng)域。
【背景技術(shù)】
[0002]近年來,計算機自動語音識別技術(shù)取得了長足的進展,涌現(xiàn)出了一批代表性的應(yīng)用。但是,由于當(dāng)前語音識別技術(shù)自身的限制,識別錯誤仍然不可避免,而很多情況下少數(shù)幾個錯字就能改變整個句子的語義,因而大大影響了用戶的體驗和對語音識別技術(shù)的熱
*卜主1同O
[0003]為解決當(dāng)前語音識別技術(shù)與實際應(yīng)用需求之間的矛盾,一些研究者將語音識別和人機交互技術(shù)相結(jié)合,提出了融合用戶反饋的語音識別錯誤修正方法,其主要特點是提供便捷的交互界面輔助用戶對識別結(jié)果進行反饋和修正,以較高的效率得到高準(zhǔn)確率的識別結(jié)果。候選選擇方法作為其中常見的一種修正方法,對待識別的每句語音,不僅顯示語音識別結(jié)果,而且同時為識別結(jié)果中的每個字提供多個候選。當(dāng)?shù)谝缓蜻x(即語音識別結(jié)果)識別錯誤時,用戶可通過選擇其它候選字來糾正該錯誤,例如以點擊或觸摸的形式完成。
[0004]然而,由于系統(tǒng)性能的限制,候選選擇方法并不能修正所有識別錯誤,實際應(yīng)用中經(jīng)常出現(xiàn)正確的字不在候選列表中的情況。此時,需要用戶反饋正確的字來修正錯誤。反饋的方式主要有鍵盤輸入、手寫輸入以及語音重新輸入等。對于漢語來說,用戶的這種反饋在很多情況下是非確定性的,即反饋的結(jié)果并非對應(yīng)唯一的字,而是可能對應(yīng)多個字。非確定性反饋又分成兩種情況:第一種是反饋本質(zhì)上就是非確定性的,例如用鍵盤輸入拼音,該拼音可能對應(yīng)多個漢字(或簡稱為字),需要經(jīng)過用戶進一步的確認才能對應(yīng)到唯一的反饋結(jié)果;另一種是反饋主觀上是確定性的,但由于當(dāng)前技術(shù)的限制而變成非確定性的,例如手寫輸入某個字(因為對于用戶手寫輸入的字,當(dāng)前的手寫識別程序未必能直接給出正確的結(jié)果,有可能會給出幾個可能的結(jié)果)和語音重新輸入某個字。對于上述第一種情況,需要人工從可能大量的對應(yīng)漢字中進行確認和選擇,例如在拼音輸入法中選擇正確的字,效率較低。對于上述第二種情況的用戶反饋,現(xiàn)有方法中有些只采用手寫識別或語音識別結(jié)果的唯一結(jié)果,即可能性最大的結(jié)果,而這種處理有可能因為識別結(jié)果不正確而導(dǎo)致錯誤無法修正;有些方法則提供多個可能的結(jié)果由用戶從中進行確認和選擇,效率較低。
[0005]綜上,對于非確定性反饋,現(xiàn)有方法或者仍然需要額外低效的人工確認,或者可能導(dǎo)致錯誤無法修正。
【發(fā)明內(nèi)容】
[0006]為解決上述現(xiàn)有技術(shù)中存在的問題。根據(jù)本發(fā)明的一個實施例,提供一種融合非確定性反饋的語音識別錯誤修正方法,包括:
[0007]步驟I)、接收用戶的非確定性反饋,獲得所述非確定性反饋對應(yīng)的所有字;
[0008]步驟2)、計算所述非確定性反饋對應(yīng)的所有字在用戶已確認文字的約束下出現(xiàn)的概率;
[0009]步驟3)、根據(jù)計算的概率,將所述非確定性反饋對應(yīng)的所有字的全部或部分按順序顯示給用戶。
[0010]上述方法中,在步驟I)之前還包括:
[0011]步驟O)、接收用戶的確定性反饋,從而得到在非確定性反饋對應(yīng)的字之前的用戶已確認文字。
[0012]上述方法中,步驟I)包括:
[0013]對于用戶反饋的拼音,通過查詢拼音字典獲得所述非確定性反饋對應(yīng)的所有字;
[0014]對于用戶的語音反饋,通過語音識別獲得所述非確定性反饋對應(yīng)的所有字;
[0015]對于用戶通過手寫反饋的字,通過手寫識別獲得所述非確定性反饋對應(yīng)的所有字。
[0016]上述方法中,步驟2)包括:將所述非確定性反饋對應(yīng)的所有字中的每個字作為詞,基于η元語法模型,計算該詞在該詞之前的用戶已確認文字之后出現(xiàn)的第一概率P"可包括以下步驟:
[0017]步驟21)、對所述非確定性反饋對應(yīng)的字之前的用戶已確認文字進行分詞,得到詞序列〈S〉, W1, W2,...,Wk,其中,〈S〉表示句子的開始,W1, W2,...,W1^示分詞后得到的每個詞;
[0018]步驟22)、基于三元語法模型,對所述非確定性反饋對應(yīng)的所有字中的每個字Cl,通過下式計算該字(^對應(yīng)的第一概率P 1:
[0019]P1= P(c i Iwk !, wk) P (wk wk 2, wk i)...P (w21 <s>, W1) P (W1 <s>) 0
[0020]上述方法中,步驟2)還包括:
[0021]對于在所述非確定性反饋對應(yīng)的所有字中,能夠與其前面的用戶已確認文字組成詞的字,基于η元語法模型,計算該詞在該詞之前的用戶已確認文字之后出現(xiàn)的第二概率P3;如果第二概率大于第一概率,則將第二概率作為對應(yīng)的字的概率。包括以下步驟:
[0022]步驟23)、在所述非確定性反饋對應(yīng)的所有字中,對于能夠與詞序列Wk j, wk j+1,...,wjfi成新詞w的字c i,其中O < j〈k,基于三元語法模型,通過下式計算該字(^對應(yīng)的第二概率P3:
[0023]P2= P (w I w k j 2, wk j i)...P (w2 <s>, W1) P (W11 <s>)
[0024]P3= aP 2
[0025]其中,a大于等于I;
[0026]步驟24)、對于計算了第一概率P1和第二概率P 3的字c i,取PjP P 3中的較大值作為字C1的概率。
[0027]上述方法中,在計算字(^對應(yīng)的第二概率P 3時,如果字c i與其前面的一個詞w ,組成新詞W,則a = 2 ;如果字Ci與其前面的兩個詞w k:和w k共同組成新詞W,則a = 5 ;如果字(^與其前面的三個或更多的詞共同組成新詞W,則a = 10 ;其中,對于aP 2>1的情況,令P3=I。
[0028]上述方法中,步驟3)包括:
[0029]將所述非確定性反饋對應(yīng)的所有t個字按概率從大到小進行排序;取前P個字,其中P ( t,并且按概率從大到小的順序顯示給用戶。
[0030]上述方法中,在步驟O)之前還包括:
[0031]以候選列表的形式向用戶顯示待確認的語音識別結(jié)果,其中,所述候選列表融合了用戶反饋界面。
[0032]上述方法中,所述非確定性反饋可包括拼音輸入、語音輸入和手寫文字輸入。
[0033]根據(jù)本發(fā)明的一個實施例,還提供一種融合非確定性反饋的語音識別錯誤修正系統(tǒng),包括:
[0034]用于接收用戶的非確定性反饋,獲得所述非確定性反饋對應(yīng)的所有字的裝置;
[0035]用于計算所述非確定性反饋對應(yīng)的所有字在用戶已確認文字的約束下出現(xiàn)的概率的裝置;
[0036]用于根據(jù)計算的概率將所述非確定性反饋對應(yīng)的所有字的全部或部分按順序顯示給用戶的裝置。
[0037]本發(fā)明具備如下的有益效果:
[0038]1.利用已確認正確的文字作為上下文約束,調(diào)整非確定性反饋對應(yīng)的候選列(其中提高了正確的字出現(xiàn)的位置),從而解決了現(xiàn)有技術(shù)中錯誤可能無法修正的問題并提高了修正的準(zhǔn)確率,相應(yīng)減