專利名稱:語(yǔ)音識(shí)別方法和語(yǔ)音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于實(shí)現(xiàn)高精度語(yǔ)音識(shí)別的方法,在該高精度語(yǔ)音識(shí)別中,執(zhí)行包括按下按鈕等輸入開始發(fā)聲命令的語(yǔ)音識(shí)別,并且可以在按下按鈕前進(jìn)行發(fā)聲。
背景技術(shù):
當(dāng)執(zhí)行語(yǔ)音識(shí)別時(shí),為了防止環(huán)境噪聲所導(dǎo)致的錯(cuò)誤,需要適當(dāng)設(shè)置用戶的嘴與麥克風(fēng)之間的距離和輸入水平,以及適當(dāng)輸入開始發(fā)聲的命令(通常通過(guò)按下按鈕)。如果沒(méi)有適當(dāng)?shù)剡M(jìn)行該設(shè)置或輸入,則會(huì)在識(shí)別性能上出現(xiàn)大幅的降低。然而,用戶不總是適當(dāng)?shù)剡M(jìn)行該設(shè)置或輸入,因而有必要采取措施以防止這種情況下的性能降低。特別地,有時(shí)不正確地輸入開始發(fā)聲的命令,例如,在按下按鈕前進(jìn)行發(fā)聲。在這種情況下,由于在輸入開始發(fā)聲的命令后通過(guò)麥克風(fēng)導(dǎo)入語(yǔ)音,因此語(yǔ)音的開頭部分將被遺漏。當(dāng)基于所遺漏的語(yǔ)音執(zhí)行傳統(tǒng)的語(yǔ)音識(shí)別時(shí),與正確地輸入開始發(fā)聲的命令的情況相比,識(shí)別率將大大降低。
考慮到這樣的問(wèn)題,日本專利2829014號(hào)討論了這樣一種方法除了用于存儲(chǔ)在輸入開始識(shí)別處理的命令后導(dǎo)入的語(yǔ)音數(shù)據(jù)的數(shù)據(jù)緩沖器以外,該方法還提供一直導(dǎo)入恒定長(zhǎng)度的語(yǔ)音的環(huán)緩沖器。在輸入該命令后,使用由數(shù)據(jù)緩沖器所導(dǎo)入的語(yǔ)音來(lái)檢測(cè)該語(yǔ)音的頭。在未檢測(cè)到該語(yǔ)音的頭的情況下,通過(guò)另外使用在輸入該命令前存儲(chǔ)在環(huán)緩沖器中的語(yǔ)音來(lái)進(jìn)行該語(yǔ)音頭的檢測(cè)。在該方法中,由于環(huán)緩沖器必須不斷地執(zhí)行語(yǔ)音導(dǎo)入處理,因此與僅采用數(shù)據(jù)緩沖器的情況相比,需要額外的CPU負(fù)荷。即,在電池驅(qū)動(dòng)的裝置例如可移動(dòng)裝置中,使用該方法未必是合適的方法。
而且,日本專利3588929號(hào)討論了在單詞的開頭遺漏了半音節(jié)或單音節(jié)的單詞也是要識(shí)別目標(biāo)的方法。通過(guò)該方式,在嘈雜的環(huán)境中防止了語(yǔ)音識(shí)別率的下降。而且,日本專利3588929號(hào)討論了用于執(zhí)行控制以根據(jù)噪聲水平來(lái)判定遺漏了開頭部分的單詞是否應(yīng)該是要識(shí)別的目標(biāo)單詞。在該方法中,基于單詞的開頭處的半音節(jié)或單音節(jié)的類型或者噪聲水平,進(jìn)行關(guān)于是否遺漏單詞的開頭處的半音節(jié)或單音節(jié)的判定。如果判定有遺漏,則沒(méi)有遺漏的單詞不被指定為要識(shí)別的目標(biāo)單詞。另外,當(dāng)判定是否遺漏單詞的開頭時(shí),沒(méi)有考慮是否正在正確地執(zhí)行通過(guò)用戶操作輸入的開始發(fā)聲的命令或動(dòng)作。因此,在日本專利3588929號(hào)中,單詞開頭的遺漏達(dá)到一個(gè)音節(jié),并且在安靜的環(huán)境中,單詞的開頭沒(méi)有被遺漏。結(jié)果,在按下按鈕前進(jìn)行發(fā)聲,例如,在安靜的環(huán)境中遺漏語(yǔ)音中的兩個(gè)音節(jié)的情況下,不能避免識(shí)別性能的下降。
由于以上問(wèn)題,本發(fā)明的目的在于提供這樣一種方法在缺失或遺漏語(yǔ)音的開頭的情況下,通過(guò)簡(jiǎn)單和容易的處理來(lái)防止識(shí)別性能的下降。當(dāng)用戶不適當(dāng)?shù)剌斎腴_始發(fā)聲的命令時(shí),出現(xiàn)這種遺漏。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)方面是語(yǔ)音識(shí)別方法,其包括語(yǔ)音導(dǎo)入步驟,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定步驟,用于判定導(dǎo)入的語(yǔ)音的開頭是否有缺失;設(shè)置步驟,用于基于該判定步驟的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別步驟,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
本發(fā)明的另一方面是語(yǔ)音識(shí)別方法,其包括語(yǔ)音導(dǎo)入步驟,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定步驟,用于判定是否在由用戶發(fā)出語(yǔ)音的中間開始語(yǔ)音的導(dǎo)入;設(shè)置步驟,用于基于該判定步驟的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別步驟,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
本發(fā)明的又一方面是語(yǔ)音識(shí)別裝置,其包括語(yǔ)音導(dǎo)入單元,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定單元,用于判定所導(dǎo)入的語(yǔ)音的開頭是否有缺失;設(shè)置單元,用于基于該判定單元的結(jié)果,對(duì)要識(shí)別的目標(biāo)單詞設(shè)置發(fā)音信息;以及語(yǔ)音識(shí)別單元,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
本發(fā)明的又一方面是語(yǔ)音識(shí)別裝置,其包括語(yǔ)音導(dǎo)入單元,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定單元,用于判定是否在用戶語(yǔ)音的中間開始語(yǔ)音的導(dǎo)入;設(shè)置單元,用于基于該判定單元的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別單元,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
通過(guò)以下參考附圖對(duì)典型實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的其它特征將顯而易見(jiàn)。
包括在說(shuō)明書中并構(gòu)成說(shuō)明書的一部分的附圖,示出了本發(fā)明的典型實(shí)施例,并與說(shuō)明書一起用來(lái)解釋本發(fā)明的原理。
圖1是信息裝置的硬件結(jié)構(gòu)的框圖,在該信息裝置中安裝了根據(jù)本發(fā)明的第一典型實(shí)施例的語(yǔ)音識(shí)別方法;圖2是根據(jù)本發(fā)明的第一典型實(shí)施例的語(yǔ)音識(shí)別方法的模塊結(jié)構(gòu)的框圖;圖3是不需要登記型的語(yǔ)音識(shí)別方法的典型模塊結(jié)構(gòu)的框圖;圖4是需要登記型的語(yǔ)音識(shí)別方法的典型模塊結(jié)構(gòu)的框圖;
圖5是根據(jù)本發(fā)明的第一典型實(shí)施例的語(yǔ)音識(shí)別方法的整個(gè)處理的流程圖;圖6A和6B是由于輸入開始發(fā)聲的命令的定時(shí)的不同所導(dǎo)致的語(yǔ)音遺漏的示意圖;圖7是要識(shí)別的目標(biāo)單詞的例子;圖8是刪除了第一發(fā)音序列的圖7中要識(shí)別的目標(biāo)單詞的例子;圖9是刪除了第一和第二發(fā)音序列的圖7中要識(shí)別的目標(biāo)單詞的例子;圖10是刪除了第一到第四發(fā)音序列的圖7中要識(shí)別的目標(biāo)單詞的例子;圖11是刪除了第一到第四發(fā)音序列的圖7中要識(shí)別的目標(biāo)單詞的所有組合的例子;圖12是通過(guò)隱馬爾科夫模型(hidden Marcov model,HMM)的三種狀態(tài)對(duì)音素/t/進(jìn)行建模的例子;圖13是要識(shí)別的目標(biāo)單詞的例子。由HMM的狀態(tài)序列來(lái)表示圖7中要識(shí)別的單詞的發(fā)音信息;圖14是刪除了第一狀態(tài)序列的圖13中要識(shí)別的目標(biāo)單詞的例子;圖15A、15B和15C是示出刪除發(fā)音序列和刪除狀態(tài)序列之間的差異的示意圖;圖16A、圖16B和16C是示出如何通過(guò)刪除參考模式序列來(lái)設(shè)置發(fā)音信息的示意圖;圖17是語(yǔ)音識(shí)別方法的模塊結(jié)構(gòu)的框圖。該語(yǔ)音識(shí)別方法包括語(yǔ)音識(shí)別處理內(nèi)的所導(dǎo)入語(yǔ)音的判定和發(fā)音信息的設(shè)置。
具體實(shí)施例方式
下面參考附圖對(duì)本發(fā)明的典型實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
第一典型實(shí)施例圖1是根據(jù)本發(fā)明的第一典型實(shí)施例的語(yǔ)音識(shí)別裝置的框圖。CPU 101根據(jù)存儲(chǔ)在ROM 102中的或者從外部存儲(chǔ)裝置104載入RAM 103的控制程序,執(zhí)行該語(yǔ)音識(shí)別裝置中的各種控制功能。ROM 102存儲(chǔ)各種參數(shù)和由CPU 101執(zhí)行的控制程序。RAM 103提供CPU 101執(zhí)行各種控制功能時(shí)的工作區(qū),并且還存儲(chǔ)由CPU101執(zhí)行的控制程序。圖5的流程圖中所示的方法是優(yōu)選由CPU101執(zhí)行的、并且存儲(chǔ)在ROM 102、RAM 103或存儲(chǔ)裝置104中的程序。
附圖標(biāo)記104表示外部存儲(chǔ)裝置,例如硬盤、軟盤(floppy,注冊(cè)商標(biāo))、CD-ROM、DVD-ROM以及存儲(chǔ)卡。在外部存儲(chǔ)裝置104為硬盤的情況下,其存儲(chǔ)從CD-ROM或軟盤(floppy,注冊(cè)商標(biāo))安裝的各種程序。語(yǔ)音輸入裝置105例如麥克風(fēng)導(dǎo)入執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音。顯示裝置106例如CRT或LCD執(zhí)行處理內(nèi)容的設(shè)置、顯示輸入信息、以及輸出處理結(jié)果。輔助輸入裝置107例如按鈕、數(shù)字鍵、鍵盤、鼠標(biāo)或輸入筆,用于給出指令以開始導(dǎo)入由用戶發(fā)出的聲音。輔助輸出裝置108例如揚(yáng)聲器,用于通過(guò)聲音確認(rèn)語(yǔ)音識(shí)別結(jié)果??偩€109連接上面所有裝置。要識(shí)別的目標(biāo)語(yǔ)音可以通過(guò)語(yǔ)音輸入裝置105來(lái)輸入,或者可以通過(guò)其它裝置或單元來(lái)獲取。由其它裝置或單元獲取的目標(biāo)語(yǔ)音被保持在ROM 102、RAM103、外部存儲(chǔ)裝置104或通過(guò)網(wǎng)絡(luò)連接的外部裝置中。
圖2是語(yǔ)音識(shí)別方法的模塊結(jié)構(gòu)的框圖。語(yǔ)音導(dǎo)入單元201導(dǎo)入通過(guò)語(yǔ)音輸入裝置105的麥克風(fēng)輸入的語(yǔ)音。通過(guò)按下輔助輸入裝置107中的按鈕等的用戶的操作,給出開始導(dǎo)入語(yǔ)音的指令。導(dǎo)入語(yǔ)音判定單元202判定由語(yǔ)音導(dǎo)入單元所導(dǎo)入的語(yǔ)音的開頭或開頭部分是否有缺失或被遺漏。發(fā)音信息設(shè)置單元203基于導(dǎo)入語(yǔ)音判定單元202的結(jié)果來(lái)設(shè)置目標(biāo)單詞的發(fā)音信息。語(yǔ)音識(shí)別單元204使用由發(fā)音信息設(shè)置單元203設(shè)置的發(fā)音信息來(lái)識(shí)別由語(yǔ)音導(dǎo)入單元201導(dǎo)入的語(yǔ)音。
圖3是用于識(shí)別未登記的語(yǔ)音或獨(dú)立于說(shuō)話者的語(yǔ)音的典型語(yǔ)音識(shí)別方法的模塊的框圖。語(yǔ)音輸入單元301識(shí)別通過(guò)語(yǔ)音輸入裝置105輸入的語(yǔ)音。語(yǔ)音特征參數(shù)提取單元302對(duì)由語(yǔ)音輸入單元301輸入的語(yǔ)音執(zhí)行譜分析,并提取特征參數(shù)。發(fā)音字典305保持要識(shí)別的目標(biāo)單詞的發(fā)音信息。聲學(xué)模型306保持音素模型(或音節(jié)模型或單詞模型),并使用根據(jù)發(fā)音字典305的發(fā)音信息的聲學(xué)模型來(lái)構(gòu)建要識(shí)別的目標(biāo)單詞的參考模式。語(yǔ)言模型307保持單詞列表和單詞連接的概率值(或語(yǔ)法限制)。搜索單元303計(jì)算使用語(yǔ)言模型307從發(fā)音字典305配置的參考模式和由語(yǔ)音特征參數(shù)提取單元302獲得的語(yǔ)音的特征參數(shù)之間的距離。搜索單元303還計(jì)算可能性,或執(zhí)行搜索處理。結(jié)果輸出單元304將搜索單元303所獲得的結(jié)果顯示在顯示裝置106上,將該結(jié)果作為語(yǔ)音輸出到輔助輸出裝置108上,或?yàn)榱藞?zhí)行預(yù)定的操作輸出該識(shí)別結(jié)果。發(fā)音信息設(shè)置單元203的發(fā)音信息的設(shè)置對(duì)應(yīng)于發(fā)音字典305的設(shè)置。
圖5是語(yǔ)音識(shí)別方法的整個(gè)處理的流程圖。利用該流程圖對(duì)整個(gè)處理進(jìn)行詳細(xì)說(shuō)明。在步驟S501,等待開始發(fā)聲的命令的輸入。根據(jù)用戶的操作或動(dòng)作輸入該命令。該命令輸入可以采用允許該用戶給出開始發(fā)聲的指令的任何方法,例如,按下數(shù)字鍵、鍵盤或開關(guān)等按鈕;單擊鼠標(biāo);或在觸摸式面板上按壓。另外,如果使用傳感器,例如包括紅外線傳感器的光源傳感器、天線傳感器或超聲波傳感器,則可以檢測(cè)正靠近語(yǔ)音識(shí)別裝置的用戶的動(dòng)作。如果將用戶的這種動(dòng)作當(dāng)作為開始發(fā)聲的命令,則可以將傳感器的檢測(cè)用作開始發(fā)聲的命令。在步驟S502,步驟S501中的命令觸發(fā)通過(guò)麥克風(fēng)的語(yǔ)音導(dǎo)入。在步驟S504,判定是否遺漏了所導(dǎo)入的語(yǔ)音的開頭,并在步驟S503執(zhí)行該判定所需要的語(yǔ)音分析。
圖6A和6B是由于輸入開始發(fā)聲的命令的定時(shí)的差異所導(dǎo)致的語(yǔ)音遺漏的示意圖。水平軸為時(shí)間刻度,并在時(shí)刻S開始發(fā)聲。圖6A是在時(shí)刻P(P<S)輸入開始發(fā)聲的命令的情況。由于可以在時(shí)刻P(或緊接P后)開始語(yǔ)音導(dǎo)入,因此,不遺漏語(yǔ)音,并將其適當(dāng)導(dǎo)入。另一方面,圖6B是在時(shí)刻Q(S<Q)輸入開始發(fā)聲的命令的情況。由于在該情況下在時(shí)刻Q(或緊接Q后)開始語(yǔ)音導(dǎo)入,因此遺漏了語(yǔ)音的開頭部分。通過(guò)下面的方法進(jìn)行是否遺漏語(yǔ)音的開頭部分的語(yǔ)音分析和判定。
有各種方法用于執(zhí)行語(yǔ)音分析和判定。簡(jiǎn)單且容易的方法是使用所導(dǎo)入的語(yǔ)音波形的頭部分(例如,300個(gè)采樣)計(jì)算波形功率,并將結(jié)果與預(yù)定的閾值進(jìn)行比較。如果該結(jié)果超過(guò)該閾值,則可以判定遺漏了語(yǔ)音的開頭部分。還可以通過(guò)執(zhí)行其它分析,例如過(guò)零率(zero-crossing rate)分析、譜分析或基頻分析來(lái)進(jìn)行判定。
通過(guò)帶符號(hào)表示導(dǎo)入的語(yǔ)音數(shù)據(jù)(例如,在16位有符號(hào)的短整型的情況下,采用-32768與32767之間的值),并通過(guò)計(jì)數(shù)符號(hào)改變的次數(shù),可以獲得過(guò)零率。對(duì)于語(yǔ)音波形的頭部分獲得過(guò)零率,并將結(jié)果與上述作為波形功率的閾值相比較。因而,如果該結(jié)果大于該閾值,則可判定該語(yǔ)音的開頭部分被遺漏,如果該結(jié)果小于或等于該閾值,則可以判定該語(yǔ)音的開頭部分沒(méi)有被遺漏。
例如,可以以與語(yǔ)音識(shí)別特征參數(shù)提取單元302中語(yǔ)音識(shí)別的特征參數(shù)提取相同的方式執(zhí)行譜分析。接著,使用所提取的特征參數(shù)獲取語(yǔ)音模型和非語(yǔ)音模型的可能性(或概率),如果語(yǔ)音模型的可能性大于非語(yǔ)音模型的可能性,則判定該語(yǔ)音被遺漏。如果語(yǔ)音模型的可能性小于非語(yǔ)音模型的可能性,則判定該語(yǔ)音沒(méi)有被遺漏。預(yù)先根據(jù)語(yǔ)音部分的特征參數(shù)和非語(yǔ)音部分的特征參數(shù)準(zhǔn)備作為統(tǒng)計(jì)模型的語(yǔ)音模型和非語(yǔ)音模型。可以通過(guò)任何現(xiàn)有的方法,例如高斯混合模型(GMM),生成這些模型。還可采用使用表示通過(guò)與在語(yǔ)音特征參數(shù)提取單元302中的語(yǔ)音識(shí)別的特征參數(shù)提取不同的分析獲得的其它譜的特征參數(shù)的方法。
對(duì)于基頻分析,可以使用自相關(guān)技術(shù)和倒頻譜(cepstrum)技術(shù)等現(xiàn)有的分析。使用與周期相關(guān)的值,而不是直接使用基頻值,來(lái)判定遺漏。為了更準(zhǔn)確,在基于倒頻譜技術(shù)的基頻分析的情況下,可以使用逆頻(quefrency)(對(duì)數(shù)振幅譜的逆離散傅里葉變換)中的序列的預(yù)定范圍內(nèi)(人的聲音音調(diào)的范圍內(nèi))的最大值。對(duì)于語(yǔ)音波形的頭部分獲得該值,并與波形功率情況下相同將其與閾值相比較。如果該值大于該閾值,則判定該語(yǔ)音被遺漏,如果該值小于或等于該閾值,則判定該語(yǔ)音沒(méi)有被遺漏。此外,可以使用以下方法進(jìn)行分析以獲得諧波結(jié)構(gòu)而不是基頻,并將該結(jié)果用作特征參數(shù)。
如果在步驟S504判定語(yǔ)音被遺漏,則在步驟S505設(shè)置具有遺漏的語(yǔ)音的發(fā)音信息。然后,在步驟S506使用該發(fā)音信息執(zhí)行語(yǔ)音識(shí)別。如果在步驟S504判定語(yǔ)音沒(méi)有被遺漏,則在步驟S506執(zhí)行通常的語(yǔ)音識(shí)別。參考圖7至圖11對(duì)在S505中所執(zhí)行的處理進(jìn)行說(shuō)明。在S505的處理中,要識(shí)別的目標(biāo)單詞是“Tokyo”、“Hiroshima”、“Tokushima”和“Tu”。圖7示出要識(shí)別的目標(biāo)單詞的例子,并保持關(guān)于單詞ID、拼寫(transcription)和發(fā)音(音素)的信息。根據(jù)發(fā)音(音素)序列(在“Tokyo”情況下為7個(gè)音素/tookyoo/)通過(guò)連接到聲學(xué)模型306(例如,音素HMM)生成語(yǔ)音識(shí)別處理中的參考模式。圖8示出從圖7中的發(fā)音信息中刪除第一個(gè)音素的情況下的要識(shí)別的目標(biāo)單詞。例如,在“Tokyo”的情況下,刪除第一個(gè)音素/t/使得要識(shí)別的目標(biāo)單詞變?yōu)?ookyoo/。圖9和圖10示出刪除了到第二和第四個(gè)音素的情況下的要識(shí)別的目標(biāo)單詞。在“Tu”的情況下,發(fā)音序列是兩個(gè)音素,/tsu/。因此,如果刪除多于兩個(gè)的音素,則將沒(méi)有發(fā)音序列。在這種情況下,將靜音模型(SIL)分配為發(fā)音序列。另外,在圖10中的“Hiroshima”和“Tokushima”的情況下,如果刪除前四個(gè)音素,則獲得相同的發(fā)音序列(/shima/)。如果在步驟S504判定語(yǔ)音沒(méi)有被遺漏,則在步驟S506僅對(duì)圖7中的目標(biāo)單詞執(zhí)行語(yǔ)音識(shí)別。另一方面,如果在步驟S504判定語(yǔ)音被遺漏,則在步驟S506中,除了圖7中的目標(biāo)單詞外,還對(duì)圖8到圖10中的目標(biāo)單詞執(zhí)行語(yǔ)音識(shí)別。在圖8到圖10的目標(biāo)單詞中,已經(jīng)刪除了發(fā)音序列的頭部分。通過(guò)執(zhí)行S503中的語(yǔ)音分析和步驟S504中的語(yǔ)音遺漏判定,可以判定語(yǔ)音是否被遺漏。然而,不能估計(jì)遺漏的語(yǔ)音的長(zhǎng)度或音素的數(shù)量。因此,有必要預(yù)先確定將被添加的目標(biāo)單詞的刪除音素的適當(dāng)數(shù)量。該數(shù)量可以根據(jù)經(jīng)驗(yàn)來(lái)設(shè)置、或考慮到根據(jù)用戶的操作或動(dòng)作遺漏的語(yǔ)音的傾向來(lái)設(shè)置、或考慮到識(shí)別性能來(lái)設(shè)置。已刪除第一到第四個(gè)音素的發(fā)音序列的單詞的所有組合都可以是要識(shí)別的目標(biāo)。在這種情況下,圖11中所示的目標(biāo)單詞被設(shè)置為語(yǔ)音遺漏的發(fā)音信息。
步驟S503中的譜分析或基頻分析是與語(yǔ)音識(shí)別處理中的語(yǔ)音特征參數(shù)提取相同或相似的處理。因此,可以將這些處理包括在語(yǔ)音識(shí)別單元204中,并將其作為配置在語(yǔ)音識(shí)別單元204內(nèi)來(lái)執(zhí)行。圖17是語(yǔ)音識(shí)別方法的模塊結(jié)構(gòu)的框圖,該語(yǔ)音識(shí)別方法包括語(yǔ)音識(shí)別處理中的導(dǎo)入語(yǔ)音判定和發(fā)音信息設(shè)置。在圖3的處理中包括分別作為導(dǎo)入語(yǔ)音判定單元603和發(fā)音信息設(shè)置單元604的導(dǎo)入語(yǔ)音判定單元202和發(fā)音信息設(shè)置單元203。由于從語(yǔ)音輸入單元601到語(yǔ)言模型609的組件與圖2和圖3中的組件相同,因此省略其說(shuō)明。
而且,在步驟S503不必只使用第一幀語(yǔ)音進(jìn)行語(yǔ)音分析,也可以使用多幀(例如,從第一幀到第五幀)的信息。另外,如步驟S504中所示,為了判定語(yǔ)音是否被遺漏,當(dāng)與閾值進(jìn)行比較時(shí),本發(fā)明不局限于使用預(yù)定的值??梢詧?zhí)行其它處理,例如,比較第一幀和第十幀的波形功率。在這種情況下,如果第一幀的波形功率遠(yuǎn)小于第十幀的波形功率(例如,小10%),則判定沒(méi)有語(yǔ)音遺漏。
在步驟S504,給出判定語(yǔ)音是否被遺漏的例子。然而,本發(fā)明不局限于該例子,并且可將其配置成使得判定是否在用戶語(yǔ)音的中間開始語(yǔ)音導(dǎo)入。
根據(jù)上述典型實(shí)施例,即使用戶沒(méi)有在正確的時(shí)刻輸入開始發(fā)聲的命令,也可以防止識(shí)別性能的下降。結(jié)果,不習(xí)慣于操作語(yǔ)音識(shí)別裝置的用戶也可以在執(zhí)行該操作時(shí)感覺(jué)很容易。
第二典型實(shí)施例在第一典型實(shí)施例中,要識(shí)別的單詞的發(fā)音被用音素寫出(phonemicize),并刪除讀音的發(fā)音序列,以在步驟S505中設(shè)置被遺漏的語(yǔ)音的發(fā)音信息。然而,本發(fā)明不局限于該實(shí)施例??梢允褂门c音素相比更詳細(xì)的發(fā)音序列來(lái)表示要識(shí)別的目標(biāo)單詞的發(fā)音,并刪除該詳細(xì)的發(fā)音序列。為了更準(zhǔn)確,當(dāng)基于隱馬爾科夫模型(HMM)執(zhí)行語(yǔ)音識(shí)別時(shí),通常通過(guò)多個(gè)狀態(tài)對(duì)音素進(jìn)行建模。該狀態(tài)序列被視作詳細(xì)的發(fā)音序列,并在該狀態(tài)水平被刪除。這樣,與在音素水平的刪除相比,可以更準(zhǔn)確地設(shè)置發(fā)音信息。圖12是通過(guò)HMM的三個(gè)狀態(tài)(t1、t2、t3)對(duì)音素/t/進(jìn)行建模的例子。當(dāng)通過(guò)該狀態(tài)序列描述圖7中的發(fā)音時(shí),可能是圖13中所示的表達(dá)。在這種情況下,如果在圖13的狀態(tài)序列中刪除第一狀態(tài)序列,則可以獲得圖14。
圖15A、15B和15C是說(shuō)明發(fā)音(音素)序列的刪除和狀態(tài)序列的刪除之間的差異的示意圖。在通過(guò)HMM的三個(gè)狀態(tài)對(duì)所有音素進(jìn)行建模的情況下,通過(guò)如圖15A所示的HMM的鏈接來(lái)表示“Tokyo”/tookyoo/的發(fā)音序列。如果刪除第一音素(/t/),則如圖15B所示,刪除/t/的所有三個(gè)HMM狀態(tài)。然而,如果通過(guò)HMM的狀態(tài)序列來(lái)表示“Tokyo”的詳細(xì)發(fā)音序列,則如圖15C所示,有可能只刪除HMM的第一狀態(tài)t1。也就是說(shuō),可以通過(guò)在狀態(tài)水平而不是在音素水平的刪除來(lái)設(shè)置更詳細(xì)的發(fā)音信息。作為可選,還可以使用通用的狀態(tài)轉(zhuǎn)換模型而不是上述的HMM,來(lái)執(zhí)行相同的處理。
第三典型實(shí)施例在可將要識(shí)別的目標(biāo)單詞表示為發(fā)音序列或詳細(xì)的發(fā)音序列的情況下,設(shè)置根據(jù)上述典型實(shí)施例的發(fā)音信息。然而,上述設(shè)置還可被應(yīng)用于基于音素HMM的被廣泛使用的獨(dú)立于說(shuō)話者的語(yǔ)音識(shí)別(不需要登記型的語(yǔ)音識(shí)別方法)。更具體地,在依賴于說(shuō)話者的語(yǔ)音識(shí)別(需要登記型的語(yǔ)音識(shí)別方法)中,不能從參考模式中識(shí)別音素或狀態(tài)序列。在依賴于說(shuō)話者的語(yǔ)音識(shí)別中,在使用語(yǔ)音識(shí)別前通過(guò)語(yǔ)音來(lái)登記參考模式。因此,不能使用在以上典型實(shí)施例中所述的方法。然而,如果直接使用該參考模式的特征參數(shù)序列,則有可能對(duì)遺漏的語(yǔ)音設(shè)置發(fā)音信息。
圖4是示出需要登記型的語(yǔ)音識(shí)別方法的模塊結(jié)構(gòu)的框圖。由于從語(yǔ)音輸入單元401到結(jié)果輸出單元404的模塊與語(yǔ)音輸入單元301至到結(jié)果輸出單元304的相同,因此,省略對(duì)這些單元的說(shuō)明。通過(guò)語(yǔ)音預(yù)先登記要識(shí)別的目標(biāo)單詞。參考模式405被保持為登記的語(yǔ)音的特征參數(shù)序列。假定該特征參數(shù)序列被保存為第十二階倒頻譜和作為第十二階倒頻譜的基本回歸系數(shù)的差量倒頻譜(deltacepstrum)(c1-c12,Δc1-Δc12)。在這種情況下,單詞“Tokyo”的所登記的語(yǔ)音的特征參數(shù)序列被保持為如圖16A中所示的參考模式序列(24維的矢量序列)(T1是在分析所登記的語(yǔ)音中的幀數(shù))。如果在步驟S504判定語(yǔ)音被遺漏,則從該參考模式中刪除前幾幀,如圖16B(刪除第一幀)或圖16C(刪除第一和第二幀)所示。通過(guò)對(duì)包括刪除過(guò)的特征參數(shù)序列進(jìn)行語(yǔ)音識(shí)別,對(duì)于語(yǔ)音的開頭被遺漏的語(yǔ)音輸入,也能以較小的性能下降實(shí)現(xiàn)語(yǔ)音識(shí)別。
還可以通過(guò)將存儲(chǔ)實(shí)現(xiàn)上述典型實(shí)施例的功能的軟件的程序代碼的存儲(chǔ)介質(zhì)提供給系統(tǒng)和裝置,并由該系統(tǒng)或裝置的計(jì)算機(jī)(或CPU或MPU)讀取并執(zhí)行存儲(chǔ)在該存儲(chǔ)介質(zhì)中的程序代碼來(lái)實(shí)現(xiàn)本發(fā)明的目。
在這種情況下,從存儲(chǔ)介質(zhì)讀取的程序代碼本身實(shí)現(xiàn)上述典型實(shí)施例的功能,并且存儲(chǔ)該程序代碼的存儲(chǔ)介質(zhì)可構(gòu)成本發(fā)明。
用來(lái)提供該程序代碼的存儲(chǔ)介質(zhì)的例子包括軟盤、硬盤、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失性存儲(chǔ)卡以及ROM。
而且,除了通過(guò)由計(jì)算機(jī)執(zhí)行所讀取的程序代碼來(lái)實(shí)現(xiàn)上述典型實(shí)施例的功能外,本發(fā)明還包括以下情況運(yùn)行在計(jì)算機(jī)上的操作系統(tǒng)(OS)根據(jù)該程序代碼的指令執(zhí)行部分或全部實(shí)際處理,該處理實(shí)現(xiàn)上述典型實(shí)施例的功能。
而且,本發(fā)明還包括以下情況在從存儲(chǔ)介質(zhì)中讀取程序代碼并將該程序代碼加載到插入計(jì)算機(jī)中的功能擴(kuò)展板、或與計(jì)算機(jī)連接的功能擴(kuò)展單元中的存儲(chǔ)器之后,在該功能擴(kuò)展板或功能擴(kuò)展單元中的CPU根據(jù)該程序代碼的指令執(zhí)行部分或全部實(shí)際處理,該處理實(shí)現(xiàn)上述典型實(shí)施例的功能。
當(dāng)然,可以在硬件中或通過(guò)硬件和軟件的結(jié)合來(lái)實(shí)現(xiàn)本發(fā)明。
盡管參考典型實(shí)施例說(shuō)明了本發(fā)明,但應(yīng)當(dāng)理解,本發(fā)明不局限于所公開的實(shí)施例。下面的權(quán)利要求書的范圍符合最寬的解釋,以包含所有修改、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種語(yǔ)音識(shí)別方法,包括語(yǔ)音導(dǎo)入步驟,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定步驟,用于判定所導(dǎo)入的語(yǔ)音的開頭是否有缺失;設(shè)置步驟,用于基于該判定步驟的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別步驟,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
2.一種語(yǔ)音識(shí)別方法,包括語(yǔ)音導(dǎo)入步驟,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定步驟,用于判定是否在由用戶發(fā)出語(yǔ)音的中間開始語(yǔ)音的導(dǎo)入;設(shè)置步驟,用于基于該判定步驟的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別步驟,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
3.根據(jù)權(quán)利要求1或2所述的語(yǔ)音識(shí)別方法,其特征在于,使用關(guān)于語(yǔ)音波形功率、過(guò)零率、譜信息和表示諧波結(jié)構(gòu)的特征參數(shù)中的至少一個(gè)信息,進(jìn)行該判定步驟中的該判定。
4.根據(jù)權(quán)利要求1或2所述的語(yǔ)音識(shí)別方法,其特征在于,該發(fā)音信息是與要識(shí)別的目標(biāo)單詞的讀音有關(guān)的發(fā)音序列、與發(fā)音序列有關(guān)的詳細(xì)發(fā)音序列和與要識(shí)別的目標(biāo)單詞相關(guān)的參考模式序列中的至少一個(gè)。
5.根據(jù)權(quán)利要求4所述的語(yǔ)音識(shí)別方法,其特征在于,該詳細(xì)發(fā)音序列是已通過(guò)狀態(tài)轉(zhuǎn)換模型進(jìn)行了建模的發(fā)音序列的狀態(tài)序列。
6.根據(jù)權(quán)利要求4所述的語(yǔ)音識(shí)別方法,其特征在于,該參考模式序列是在需要登記型的語(yǔ)音識(shí)別裝置中的所登記的語(yǔ)音的特征參數(shù)序列。
7.根據(jù)權(quán)利要求1或2所述的語(yǔ)音識(shí)別方法,其特征在于,該語(yǔ)音導(dǎo)入步驟根據(jù)用戶的操作開始語(yǔ)音的導(dǎo)入。
8.根據(jù)權(quán)利要求1或2所述的語(yǔ)音識(shí)別方法,其特征在于,該語(yǔ)音導(dǎo)入步驟根據(jù)由傳感器檢測(cè)到的用戶的動(dòng)作開始語(yǔ)音的導(dǎo)入。
9.一種語(yǔ)音識(shí)別裝置,包括語(yǔ)音導(dǎo)入單元,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定單元,用于判定所導(dǎo)入的語(yǔ)音的開頭是否有缺失;設(shè)置單元,用于基于該判定單元的結(jié)果,對(duì)要識(shí)別的目標(biāo)單詞設(shè)置發(fā)音信息;以及語(yǔ)音識(shí)別單元,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
10.一種語(yǔ)音識(shí)別裝置,包括語(yǔ)音導(dǎo)入單元,用于根據(jù)用戶輸入開始導(dǎo)入由用戶發(fā)出的語(yǔ)音;判定單元,用于判定是否在用戶語(yǔ)音的中間開始語(yǔ)音的導(dǎo)入;設(shè)置單元,用于基于該判定單元的結(jié)果,設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息;以及語(yǔ)音識(shí)別單元,用于使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
11.根據(jù)權(quán)利要求9或10所述的語(yǔ)音識(shí)別裝置,其特征在于,使用關(guān)于語(yǔ)音波形功率、過(guò)零率、譜信息和表示諧波結(jié)構(gòu)的特征參數(shù)中的至少一個(gè)信息,進(jìn)行該判定單元中的該判定。
12.根據(jù)權(quán)利要求9或10所述的語(yǔ)音識(shí)別裝置,其特征在于,在該設(shè)置單元中的發(fā)音信息是與要識(shí)別的目標(biāo)單詞的讀音有關(guān)的發(fā)音序列、與發(fā)音序列有關(guān)的詳細(xì)發(fā)音序列和與要識(shí)別的目標(biāo)單詞有關(guān)的參考模式序列中的至少一個(gè)。
全文摘要
一種語(yǔ)音識(shí)別方法和語(yǔ)音識(shí)別裝置,包括由用戶發(fā)出的語(yǔ)音的導(dǎo)入。根據(jù)用戶的操作或動(dòng)作開始該導(dǎo)入。然后判定所導(dǎo)入的語(yǔ)音的開頭是存在的還是缺失的。基于語(yǔ)音判定單元的結(jié)果設(shè)置要識(shí)別的目標(biāo)單詞的發(fā)音信息,并使用所設(shè)置的發(fā)音信息識(shí)別所導(dǎo)入的語(yǔ)音。
文檔編號(hào)G10L15/20GK1831939SQ20061005722
公開日2006年9月13日 申請(qǐng)日期2006年3月9日 優(yōu)先權(quán)日2005年3月9日
發(fā)明者深田俊明 申請(qǐng)人:佳能株式會(huì)社