語音識別裝置、方法和記錄有語音識別軟件程序的記錄介質(zhì)的制作方法

文檔序號：2837506閱讀：374來源：國知局

專利名稱：語音識別裝置、方法和記錄有語音識別軟件程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別裝置、語音識別方法、以及其上記錄有語音識別軟件程序的記錄介質(zhì)，更具體地講，涉及一種語音識別裝置、語音識別方法、以及其上記錄有語音識別軟件程序的記錄介質(zhì)，其由于除了設(shè) 置有用于存儲識別詞匯單詞的識別單詞字典之外還設(shè)置有用于存儲可拋棄詞匯單詞的可拋棄單詞字典，從而能夠拋棄背景噪聲、背景語音或識別詞匯單詞以外的單詞的發(fā)聲，并且僅當對識別詞匯單詞發(fā)聲時才輸出識別結(jié)果。
背景技術(shù)：
在過去已知這樣的語音識別裝置，該語音識別裝置將語音識別引擎用作從用戶接收輸入以識別用戶發(fā)聲(語音)并且接受它們作為對系統(tǒng) 的輸入的裝置。例如，這種語音識別裝置已經(jīng)被實際用于包括語音門戶、汽車導航系統(tǒng)等的信息提供系統(tǒng)。
此外，這種語音識別裝置受制于如下問題例如，根據(jù)設(shè)置有這種語音識別裝置的信息提供系統(tǒng)的使用環(huán)境，背景噪聲、背景語音等可能被誤識別為識別詞匯單詞。此外，存在如下問題當用戶對識別詞匯單詞以外的單詞發(fā)聲時，這些單詞可能被誤識別為識別詞匯單詞。
為了消除這些問題，提出了一種語音識別裝置，該語音識別裝置除了用于存儲識別詞匯單詞的識別單詞字典以外，還設(shè)置有用于存儲可拋棄詞匯單詞的可拋棄單詞字典。具體地講，該語音識別裝置除了計算輸入語音與識別詞匯單詞之間的相似度以外，還計算輸入語音與可拋棄詞匯單詞之間的相似度。作為計算相似度的結(jié)果，當識別詞匯單詞的相似度高于可拋棄詞匯單詞的相似度時，將識別詞匯單詞輸出作為識別結(jié)果。另一方面，當識別詞匯單詞的相似度小于可拋棄詞匯單詞的相似度時，
拋棄輸入語音。因此，在可拋棄單詞字典中存儲背景噪聲、背景語音或識別單詞字典以外的單詞作為可拋棄詞匯單詞，使得可以防止將背景噪聲、背景語音或識別詞匯單詞以外的單詞誤識別為識別詞匯單詞(例如，
參見日本專利申請公報第2002-372988號或第H10-49190號)。
然而，如果這種語音識別裝置中的識別詞匯單詞和可拋棄詞匯單詞例如相同或相似，則盡管用戶對識別詞匯單詞發(fā)聲，但在可拋棄詞匯單詞的相似度高于識別詞匯單詞的相似度時，用戶發(fā)聲會被錯誤地拋棄。
因此，在日本專利申請公報第2002-372988號中公開的語音識別裝置中，可拋棄單詞去除單元從存儲有可拋棄單詞全集的可拋棄單詞數(shù)據(jù) 庫中去除與存儲在識別單詞字典中的識別詞匯單詞相同或相似的可拋棄詞匯單詞。可拋棄單詞去除單元通過將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲在可拋棄單詞字典中，來產(chǎn)生可拋棄單詞字典。這使得在用戶對識別詞匯單詞發(fā)聲時可以防止將用戶發(fā)聲錯誤地拋棄。
然而，在上述日本專利申請公報第2002-372988號中公開的結(jié)構(gòu)中存在下面的問題。
也就是說，在日本專利申請公報第2002-372988號的語音識別裝置中，每當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，必須通過從可拋棄單詞數(shù)據(jù)庫中去除與識別詞匯單詞相同或相似的可拋棄詞匯單詞并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲在可拋棄單詞字典中，來對可拋棄單詞字典進行更新。因此，當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，需要耗時的人工操作來更新可拋棄單詞字典。

發(fā)明內(nèi)容
考慮到上述問題作出本發(fā)明，并且本發(fā)明的目的是提供一種語音識別裝置、語音識別方法、以及其上記錄有語音識別軟件程序的記錄介質(zhì)，其能夠當用戶對識別詞匯單詞發(fā)聲時防止用戶發(fā)聲被錯誤地拋棄，并且同時，即使當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時也能夠減小更新可拋棄單詞字典所需的耗時的人工操作。
為了實現(xiàn)上述目的，本發(fā)明的語音識別裝置包括語音輸入單元，其將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)；語音分析單元，其將所述發(fā)聲語音
數(shù)據(jù)轉(zhuǎn)換成特征量；識別單詞字典，其存儲多個識別詞匯單詞；可拋棄單詞字典，其存儲多個可拋棄詞匯單詞；語音驗證單元，其利用通過所述語音分析單元進行的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過所述語音分析單元進行的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項；第一閾值存儲單元，其存儲用作拋棄所述輸入語音的量度的第一閾值；以及第二閾值存儲單元，其存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度。如果所述識別候選項的相似度大于所述第二閾值，則所述語音驗證單元輸出所述識別候選項作為識別結(jié)果，并且如果所述識別候選項的相似度小于所述第二閾值，則當所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，所述語音驗證單元輸出所述識別候選項作為識別結(jié)果。
此外，傳統(tǒng)的語音識別裝置受制于如下問題當存儲在可拋棄單詞字典中的可拋棄詞匯單詞與存儲在識別單詞字典中的識別詞匯單詞相同或相似時，在用戶發(fā)聲與拋棄候選項的相似度高于用戶發(fā)聲與識別候選項的相似度的情況下，盡管用戶是對識別候選項進行發(fā)聲，但是用戶發(fā) 聲也會被錯誤地拋棄。因此，在傳統(tǒng)語音識別裝置中，每當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，必須通過從可拋棄單詞數(shù)據(jù)庫中去除與識別詞匯單詞相同或相似的可拋棄詞匯單詞并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲在可拋棄單詞字典中，來對可拋棄單詞字典進行更新。因此，傳統(tǒng)的語音識別裝置受制于如下問題
當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，需要耗時的人工
操作來更新可拋棄單詞字典。
另一方面，在本發(fā)明的語音識別裝置中，當識別候選項的相似度大于第二閾值時，語音驗證單元輸出識別候選項作為識別結(jié)果，而不管拋棄候選項的相似度。應(yīng)該注意，第二閾值是用于輸出作為識別結(jié)果的識別候選項的量度。因此，只要識別候選項的相似度大于第二閾值，則即使在由于識別候選項和拋棄候選項相同或相似而使拋棄候選項的相似度變得高于識別候選項的相似度的情況下，也可輸出識別候選項作為識別結(jié)果。因此，在本發(fā)明的語音識別裝置中，例如，當用戶對識別候選項發(fā)聲時，即使在可拋棄單詞字典中存儲有與識別詞匯單詞相同或相似的可拋棄詞匯單詞，用戶發(fā)聲也不會被錯誤地拋棄。因此，不需要按照用于上述傳統(tǒng)語音識別裝置的方式(即，每當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，從可拋棄單詞數(shù)據(jù)庫中去除與識別詞匯單詞相同或相似的可拋棄詞匯單詞并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲在可拋棄單詞字典中)來更新可拋棄單詞字典。結(jié)果，即使當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時也能夠減小更新可拋棄單詞字典所需的耗時的人工操作，同時與用戶對識別詞匯單詞發(fā)聲這一事實無關(guān)，能夠防止用戶發(fā)聲被錯誤地拋棄。
在上述的本發(fā)明的語音識別裝置的優(yōu)選實施方式中，如果識別候選項的相似度大于第一閾值，則當識別候選項的相似度小于第二閾值并且同時識別候選項的相似度小于拋棄候選項的相似度時，語音驗證單元拋棄輸入語音，并且如果識別候選項的相似度小于第一閾值，則拋棄輸入語音。
根據(jù)上述配置，如果識別候選項的相似度大于第一閾值，則當識別候選項的相似度小于第二閾值并且同時識別候選項的相似度小于拋棄候選項的相似度時，語音驗證單元拋棄輸入語音。另一方面，如果識別候選項的相似度小于第一閾值，則語音驗證單元拋棄輸入語音。因此，將背景噪聲、背景語音或識別詞匯單詞之外的單詞作為可拋棄詞匯單詞存儲在可拋棄單詞字典中，這使得可以可靠地防止背景噪聲、背景語音或識別詞匯單詞之外的單詞被誤識別為識別詞匯單詞。
在上述的本發(fā)明的語音識別裝置的優(yōu)選實施方式中，該裝置還包括補償數(shù)據(jù)存儲單元，所述補償數(shù)據(jù)存儲單元存儲用于改變所述識別候選項的相似度和所述拋棄候選項的相似度中的至少一個相似度的補償數(shù) 據(jù)。所述語音驗證單元基于所述補償數(shù)據(jù)，改變所述識別候選項的相似度和所述拋棄候選項的相似度中的至少一個相似度。
根據(jù)上述配置，語音驗證單元基于補償數(shù)據(jù)改變識別候選項的相似度和拋棄候選項的相似度中的至少一個相似度。如果語音驗證單元減小識別候選項的相似度或者增大拋棄候選項的相似度，則該語音識別裝置的識別率降低。另一方面，如果語音驗證單元增大識別候選項的相似度或者減小拋棄候選項的相似度，則該語音識別裝置的識別率上升。這使得可以實現(xiàn)這樣的語音識別裝置，所述語音識別裝置適于設(shè)置有該語音識別裝置的系統(tǒng)的實際情況(使用條件等)。
在上述的本發(fā)明的語音識別裝置的優(yōu)選實施方式中，所述第二閾值存儲單元存儲分別對應(yīng)于各個所述識別詞匯單詞的多個第二閾值。
根據(jù)上述配置，在第二閾值存儲單元中存儲有分別對應(yīng)于各個所述識別詞匯單詞的第二閾值。這使得語音驗證單元可以響應(yīng)于識別詞匯單詞來改變輸出作為識別結(jié)果的識別候選項的量度。
在上述的語音識別裝置的優(yōu)選實施方式中，所述語音識別裝置還包括多個可拋棄單詞字典，其分別包含不同數(shù)目的可拋棄詞匯單詞；以及選擇單元，其基于存儲在所述識別單詞字典中的識別詞匯單詞的數(shù)目，從所述多個可拋棄單詞字典中選擇要由所述語音驗證單元進行相似度計算的可拋棄單詞字典。
根據(jù)上述配置，所述選擇單元基于存儲在識別單詞字典中的識別詞匯單詞的數(shù)目，從所述多個可拋棄單詞字典中選擇要由所述語音驗證單元進行相似度計算的可拋棄單詞字典。例如，隨著存儲在識別單詞字典中的識別詞匯單詞的數(shù)目的增加，該選擇單元選擇具有較小數(shù)目的可拋棄詞匯單詞的可拋棄單詞字典。這可以使該語音識別裝置的識別速度保持恒定，并且避免了使該語音識別裝置的識別速度降低。
為了實現(xiàn)上述目的，在本發(fā)明的語音識別方法中，設(shè)置有存儲有多
個識別詞匯單詞的識別單詞字典和存儲有多個可拋棄詞匯單詞的可拋棄單詞字典的計算機執(zhí)行如下步驟語音輸入步驟，將輸入語音轉(zhuǎn)換成發(fā) 聲語音數(shù)據(jù)；語音分析步驟，將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量；以及語音驗證步驟，利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項。所述計算機能夠訪問第一閾值存儲單元和第二閾值存儲單元，所述第一閾值存儲單元存儲用作拋棄所述輸入語音的量度的第一閾值，所述第二閾值存儲單元存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度，并且所述語音驗證步驟還包括如下步驟如果所述識別候選項的相似度大于所述第二閾值，則輸出所述識別候選項作為識別結(jié)果，以及如果所述識別候選項的相似度小于所述第二閾值，則當所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，輸出所述識別候選項作為識別結(jié)果。
為了實現(xiàn)上述目的，本發(fā)明的其上記錄有語音識別軟件程序的記錄介質(zhì)是一種其上記錄有如下語音識別程序的記錄介質(zhì)，所述語音識別程序使得設(shè)置有存儲有多個識別詞匯單詞的識別單詞字典和存儲有多個可拋棄詞匯單詞的可拋棄單詞字典的計算機執(zhí)行語音識別處理。使所述計算機執(zhí)行如下處理語音輸入處理，將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)；語音分析處理，將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量；以及語音驗證處理，
利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之
間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項。所述計算機能夠訪問第一閾值存儲單元和第二閾值存儲單元，所述第一閾值存儲單元存儲用作拋棄所述輸入語音的量度的第一閾值，所述第二閾值存儲單元存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度。所述語音驗證處理還包括使所述計算機執(zhí)行如下處理當所述識別候選項的相似度大于所述第二閾值時，輸出所述識別候選項作為識別結(jié)果，以及當所述識別候選項的相似度小于所述第二閾值時，如果所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，則輸出所述識別候選項作為識別結(jié)果。
應(yīng)該注意，本發(fā)明的語音識別方法和其上記錄有語音識別軟件程序的記錄介質(zhì)具有與上述語音識別裝置相同的效果。

圖1是示意性地示出了根據(jù)本發(fā)明第一實施方式的語音識別裝置的結(jié)構(gòu)的框圖2是示出了語音識別裝置中使用的識別單詞字典的示例性數(shù)據(jù)結(jié) 構(gòu)的圖3是示出了語音識別裝置中使用的可拋棄單詞字典的示例性數(shù)據(jù) 結(jié)構(gòu)的圖4是示出了語音識別裝置中使用的第一閾值存儲單元的示例性數(shù) 據(jù)結(jié)構(gòu)的圖5是示出了語音識別裝置中使用的第二閾值存儲單元的示例性數(shù) 據(jù)結(jié)構(gòu)的圖6是示出了用戶發(fā)聲與對識別候選項以及拋棄候選項的發(fā)聲的相似度之間的關(guān)系的概念圖7是示出了語音識別裝置的操作示例的流程圖8是示出了語音識別裝置中使用的語音驗證單元的操作示例的流
程圖9是示意性地示出了根據(jù)本發(fā)明第二實施方式的語音識別裝置的
結(jié)構(gòu)的框圖10是示出了語音識別裝置中使用的補償數(shù)據(jù)存儲單元的示例性數(shù)據(jù)結(jié)構(gòu)的圖ll是示出了語音識別裝置中使用的語音驗證單元的操作示例的流
程圖，-
圖12是示意性地示出了根據(jù)本發(fā)明第三實施方式的語音識別裝置的結(jié)構(gòu)的框圖13是示出了語音識別裝置中使用的第二閾值存儲單元的示例性數(shù)據(jù)結(jié)構(gòu)的圖14是示意性地示出了在將存儲在第二閾值存儲單元中的第二閾值存儲在語音識別裝置的識別單詞字典中的情況下的語音識別裝置的結(jié) 構(gòu)的框圖15是示出了識別單詞字典的示例性數(shù)據(jù)結(jié)構(gòu)的圖；以及圖16是示意性地示出了根據(jù)本發(fā)明第四實施方式的語音識別裝置的結(jié)構(gòu)的框圖。
具體實施例方式
下面，將參照附圖更加詳細地描述本發(fā)明的更具體的實施方式。 (實施方式1)
圖1是示意性地示出了根據(jù)本實施方式的語音識別裝置1的結(jié)構(gòu)的框圖。即，根據(jù)本實施方式的語音識別裝置1設(shè)置有語音輸入單元2、語音分析單元3、識別單詞字典4、可拋棄單詞字典5、聲學模型存儲單元6、語音驗證單元7、第一閾值存儲單元8、以及第二閾值存儲單元9。根據(jù)本實施方式的語音識別裝置1是具有如下能力的裝置接收從例如語音對話應(yīng)用等的較高級軟件程序傳遞的用戶語音，并且將識別結(jié)果返回到該較高級軟件程序等。語音輸入單元2將輸入語音(發(fā)聲)轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)。具體地講，在語音輸入期間，語音輸入單元2使用預定的語音區(qū)間確定標準來確定輸入語音中的語音區(qū)間。語音輸入單元2將確定的語音區(qū)間中的語
音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)。語音輸入單元2將通過轉(zhuǎn)換而獲得的發(fā)聲語音數(shù)據(jù)輸出到語音分析單元3。
語音分析單元3通過分析該發(fā)聲語音數(shù)據(jù)來計算特征量。通常，除了 MFCC、 LPC倒頻譜或冪以及一次和二次回歸系數(shù)以外，特征量還是多維矢量，該多維矢量包括但不限于通過利用主成分分析或判別分析對值進行維壓縮(dimensional compression)而獲得的矢量。語音分析單元 3將計算出的特征量輸出到語音驗證單元7。應(yīng)該注意，語音分析單元3 可以設(shè)置有用于存儲計算出的特征量的存儲器。
識別單詞字典4存儲多個識別詞匯單詞和關(guān)于該多個識別詞匯單詞的信息。如例如在圖2中所示出的，識別單詞字典4以識別單詞字典表 4a的形式，存儲多個識別詞匯單詞和關(guān)于該多個識別詞匯單詞的信息。在圖2所示的示例中，識別單詞字典表4a存儲有單詞ID、單詞拼寫、單詞讀音、以及音素序列。單詞ID表示與識別詞匯單詞惟一地關(guān)聯(lián)的信息。單詞拼寫表示描述書寫識別詞匯單詞的方式的信息。單詞讀音表示與反映在單詞拼寫中的識別詞匯單詞的讀音相關(guān)的信息。音素序列是要通過語音驗證單元7進行相似度計算的識別詞匯單詞。應(yīng)該注意，盡管有關(guān) 識別詞匯單詞的信息包括上述的單詞ID、單詞拼寫和單詞讀音，但是它還可以另外包括諸如與識別詞匯單詞之間的連接有關(guān)的規(guī)則(語法信息) 的其他任意信息。
在圖2所示的示例中，識別單詞字典表4a的第一行Rl存儲有單詞 ID "001"、單詞拼寫"Kyoto"、單詞讀音"kyouto"、以及因素序列
"/k/y/o/t/o/"。第二行R2存儲有單詞ID "002"、單詞拼寫"Shiga"、單詞讀音"shiga"、以及音素序列"/s/h/i/g/a/"。第三行R3存儲有單詞ID
"003"、單詞拼寫"Osaka"、單詞讀音"oosaka"、以及音素序列"/o/s/a/k/a/"。第四行R4存儲有單詞ID "004"、單詞拼寫"Nara"、單詞讀音"nam"、以及音素序列"/n/a/r/a/"。第五行R5存儲有單詞ID "005"、單詞拼寫
"Wakayama"、單詞讀音"wakayama"、以及音素序列"/w/a/k/a/y/a/m/a/"。第六行R6存儲有單詞ID"006"、單詞拼寫"Hyogo"、單詞讀音"hyougo"、以及音素序列"/h/y/o/g/o/"。第七行R7存儲有單詞ID "007"、單詞拼寫 "Mie"、單詞讀音"mie"、以及音素序列"/m/i/e/"。換言之，識別單詞字典表4a包含來自Kinki地區(qū)的地名，這僅是個示例。
可拋棄單詞字典5存儲有多個可拋棄詞匯單詞和關(guān)于該多個可拋棄詞匯單詞的信息。如例如在圖3中所示出的，可拋棄單詞字典5以可拋棄單詞字典表5a的形式，存儲有多個可拋棄詞匯單詞和關(guān)于該多個可拋棄詞匯單詞的信息。在圖3所示的示例中，可拋棄單詞字典表5a存儲有單詞ID、單詞拼寫、單詞讀音、以及音素序列。單詞ID表示與可拋棄詞匯單詞惟一地關(guān)聯(lián)的信息。單詞拼寫表示描述書寫可拋棄詞匯單詞的方式的信息。單詞讀音表示與反映在單詞拼寫中的可拋棄詞匯單詞的讀音有關(guān)的信息。音素序列是要通過語音驗證單元7進行相似度計算的可拋棄詞匯單詞。應(yīng)該注意，盡管有關(guān)可拋棄詞匯單詞的信息包括上述的單詞ID、單詞拼寫和單詞讀音，但是它還可以另外包括諸如與可拋棄詞匯單詞之間的連接有關(guān)的規(guī)則(語法信息)的其他任意信息。
在圖3所示的示例中，可拋棄單詞字典表5a的第一行Rl存儲有單詞ID "101"、單詞拼寫"Tokyo"、單詞讀音"toukyou"、以及音素序列 "/t/o/k/y/o/"。第二行R2存儲有單詞ID"102"、單詞拼寫"Saga"、單詞讀音"saga"、以及音素序列"/s/a/g/a/"。第三行R3存儲有單詞ID " 103"、單詞拼寫"Oita"、單詞讀音"ooita"、以及音素序列"/o/i/t/a/"。第四行 R4存儲有單詞ID "104"、單詞拼寫"Okayama"、單詞讀音"okayama"、以及音素序列"/o/k/a/y/a/m/a/"。第五行R5存儲有單詞ID " 105"、單詞拼寫"Toyama"、單詞讀音"toyama"、以及音素序列"/t/o/y/a/m/a/"。
聲學模型存儲單元6存儲通過對描述何種音素趨于產(chǎn)生何種特征量的信息進行統(tǒng)計建模而獲得的數(shù)據(jù)。建議用HMM (隱馬爾科夫模型)、 DP (動態(tài)規(guī)劃)等作為聲學模型的示例。
語音驗證單元7利用通過語音分析單元3進行的轉(zhuǎn)換而獲得的特征量，來計算輸入語音與存儲在識別單詞字典4中的識別詞匯單詞之間的
相似度。此外，語音驗證單元7利用通過語音分析單元3進行的轉(zhuǎn)換而獲得的特征量，來計算輸入語音與存儲在可拋棄單詞字典5中的可拋棄詞匯單詞之間的相似度。具體地講，語音驗證單元7通過比較通過語音
分析單元3進行的轉(zhuǎn)換而獲得的特征量與存儲在聲學模型存儲單元6中
的數(shù)據(jù)，來提取包含在語音區(qū)間內(nèi)的每幀(固定時段)的音素串。語音
驗證單元7通過比較所提取的音素串與存儲在識別單詞字典4中的音素序列，來計算識別詞匯單詞的相似度。此外，語音驗證單元7通過比較所提取的音素串與存儲在可拋棄單詞字典5中的音素序列，來計算可拋棄詞匯單詞的相似度。此外，計算相似度的處理利用在相似度計算中采用的先前已知的算法。
基于以上計算出的識別詞匯單詞的相似度，語音驗證單元7從識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項。此外，
基于以上計算出的可拋棄詞匯單詞的相似度，語音驗證單元7從可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項。
第一閾值存儲單元8存儲有第一閾值，該第一閾值被用作拋棄輸入語音的量度。如例如在圖4中所示出的，第一閾值存儲單元8以第一閾值存儲表8a的形式存儲第一閾值。在圖4所示的示例中，"0.5"被存儲為第一閾值。應(yīng)該注意，例如由設(shè)置有語音識別裝置1的信息提供系統(tǒng) 的系統(tǒng)管理員來預先設(shè)定存儲在第一閾值存儲單元8中的第一閾值。
第二閾值存儲單元9存儲有第二閾值，該第二閾值大于第一閾值并被用作輸出作為識別結(jié)果的識別候選項項的量度。如例如在圖5中所示出的，第二閾值存儲單元9以第二閾值存儲表9a的形式存儲第二閾值。在圖5所示的示例中，"0.8"被存儲為第二閾值。應(yīng)該注意，例如也由設(shè) 置有語音識別裝置1的信息提供系統(tǒng)的系統(tǒng)管理員來預先設(shè)定存儲在第二閾值存儲單元9中的第二閾值。
另外，盡管使用識別單詞字典4、可拋棄單詞字典5、第一閾值存儲單元8以及第二閾值存儲單元9以表的形式存儲數(shù)據(jù)的示例給出了以上解釋，但是存儲格式不限于此。換言之，存儲格式是任意的。
如果識別候選項的相似度大于第二閾值，則語音驗證單元7輸出該
識別候選項相作為識別結(jié)果。此外，如果識別候選項的相似度小于第二閾值，則當該識別候選項的相似度大于第一閾值并且同時該識別候選項的相似度大于拋棄候選項的相似度時，語音驗證單元7輸出該識別候選項。應(yīng)該注意，識別結(jié)果可以被傳遞到較高級軟件程序以及輸出到諸如顯示器、揚聲器和打印機等的輸出裝置。此外，識別結(jié)果可以作為命令輸出到未示出的CPU。
另一方面，如果識別候選項的相似度大于第一閾值，則當該識別候選項的相似度小于第二閾值并且同時該識別候選項的相似度小于拋棄候
選項的相似度時，語音驗證單元7拋棄輸入語音。此外，當識別候選項的相似度小于第一閾值時，語音驗證單元7拋棄輸入語音。
這里具體例示了由語音驗證單元7執(zhí)行的上述驗證處理。圖6是示
出了用戶發(fā)聲與對識別候選項以及拋棄候選項的發(fā)聲的相似度之間的關(guān) 系的概念圖。S"是示出識別候選項"wakayama"與用戶發(fā)聲的相似度的曲線。SL2是示出識別候選項"okayama"與用戶發(fā)聲的相似度的曲線。 SL3是示出識別候選項"toyama"與用戶發(fā)聲的相似度的曲線。T,表示第一閾值。丁2表示第二閾值。應(yīng)該注意，用戶發(fā)聲之中示出的發(fā)聲 "Akayama"(圖6中的P2)表示"okayama"(圖6中的P4)與"wakayama" (圖6中的P》之間的發(fā)聲狀態(tài)，所述發(fā)聲狀態(tài)更接近"okayama"。此外，用戶發(fā)聲之中示出的"O口yama"(圖6中的P3)表示"wakayama" (圖6中的P。與"toyama"(圖6中的P"之間的發(fā)聲狀態(tài)，所述發(fā)聲狀態(tài)更接近"toyama"。
在這種情況下，當用戶對單詞"wakayama"發(fā)聲(圖6中的P,)時， SL,超過第二閾值T2，結(jié)果，語音驗證單元7輸出識別候選項"wakayama" 作為識別結(jié)果。此外，當用戶對單詞"Akayama"發(fā)聲(圖6中的P2) 時，SL2超過SLp但是由于SL!超過第二閾值T2，所以語音驗證單元7 輸出識別候選項"wakayama"作為識別結(jié)果。換言之，在過去，當SL2 超過SL!時，語音驗證單元7拋棄用戶發(fā)音"A kayama",但是在本實施方式中，即使在SL2超過SL,的情況下，語音驗證單元7也輸出識別候選項"wakayama"作為識別結(jié)果，只要SL!超過第二閾值T2即可。此外，
當用戶對單詞"O口yama"發(fā)聲(圖6中的P3)時，SL,變得小于第二閾值了2，但是由于SI^超過第一閾值T,并且此外SL!超過SL3，所以語音驗證單元7輸出識別候選項"wakayama"作為識別結(jié)果。
另一方面，當用戶對單詞"okayama"發(fā)聲(圖6中的P4)時，SL, 變得小于第一閾值Tp結(jié)果，語音驗證單元7拋棄用戶發(fā)聲"okayama"。此外，當用戶對單詞"toyama"發(fā)聲(圖6中的P》時，SL,變得小于第一閾值T,，結(jié)果，語音驗證單元7拋棄用戶發(fā)聲"toyama"。
此外，通過在諸如個人計算機等的任何計算機上安裝軟件程序來實現(xiàn)上述語音識別裝置1。換言之，通過根據(jù)軟件程序(其包括上述語音輸入單元2、語音分析單元3、以及語音驗證單元7的功能)運行的計算機 CPU來實現(xiàn)上述語音輸入單元2、語音分析單元3以及語音驗證單元7。因此，包括語音輸入單元2、語音分析單元3以及語音驗證單元7的功能的軟件程序或者其上記錄有該程序的記錄介質(zhì)代表本發(fā)明的實施方式。此外，使用包括在計算機中的內(nèi)置存儲裝置或計算機可訪問的存儲裝置，來實現(xiàn)識別單詞字典4、可拋棄單詞字典5、聲學模型存儲單元6、第一閾值存儲單元8以及第二閾值存儲單元9。
接下來，將參照圖7解釋由具有上述結(jié)構(gòu)的語音識別裝置1執(zhí)行的處理。
圖7是概括示出了由語音識別裝置1執(zhí)行的處理的流程圖。即，如圖7所示，當用戶進行發(fā)聲時，語音輸入單元2利用預定的語音區(qū)間確定標準來確定輸入語音中的語音區(qū)間，并將所確定的語音區(qū)間內(nèi)的語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)(Opl)。語音分析單元3通過分析該發(fā)聲語音數(shù)據(jù) 來計算特征量(Op2)。語音驗證單元7然后執(zhí)行上述驗證處理(Op3)。即，語音驗證單元7利用所述特征量執(zhí)行處理(驗證處理)，以輸出識別候選項作為識別結(jié)果或者拋棄輸入語音。
接下來，將參照圖8描述圖7的驗證操作(Op3)。圖8是概括示出了由語音驗證單元7執(zhí)行的驗證處理的流程圖。艮P，如圖8所示，語音驗證單元7通過比較通過語音分析單元3進行的轉(zhuǎn)換而獲得的特征量與存儲在聲學模型存儲單元6中的數(shù)據(jù)，來提取包含在
語音區(qū)間中的每幀(固定時段)的音素串。語音驗證單元7通過比較所提取的音素串與存儲在識別單詞字典4中的音素序列，來計算識別詞匯
單詞的相似度(Op31)。此外，語音驗證單元7通過比較所提取的音素串與存儲在可拋棄單詞字典5中的音素序列，來計算可拋棄詞匯單詞的相似度(Op32)?；谠贠p31中計算出的識別詞匯單詞的相似度，語音驗證單元7從識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項(Op33)。此外，基于在Op32中計算出的可拋棄詞匯單詞的相似度，語音驗證單元7從可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(Op34)。
這里，當該識別候選項的相似度大于第二閾值時(Op35中為"是")，語音驗證單元7輸出該識別候選項作為識別結(jié)果(Op36)。另一方面，當該識別候選項的相似度小于第二閾值時(Op35中為"否")，控制前進至 Op37。
在Op37中，當該識別候選項的相似度大于第一閾值時(Op37中為 "是")，控制前進至Op38。另一方面，當該識別候選項的相似度小于第 —閾值時(Op37中為"否")，拋棄輸入語音(Op39)。
在Op38中，當該識別候選項的相似度大于所述拋棄候選項的相似度時(Op38中為"是")，語音驗證單元7輸出該識別候選項作為識別結(jié)果 (Op36)。另一方面，當該識別候選項的相似度小于所述拋棄候選項的相似度時(Op38中為"否")，則語音驗證單元7拋棄輸入語音(Op39)。
如上所述，在本實施方式的語音識別裝置1中，如果識別候選項的相似度大于第二閾值，則語音驗證單元7與拋棄候選項的相似度無關(guān)地輸出該識別候選項作為識別結(jié)果。應(yīng)該注意，第二閾值是輸出作為識別結(jié)果的識別候選項的量度。因此，只要識別候選項的相似度大于第二閾值，則即使在由于識別候選項和拋棄候選項相同或相似從而拋棄候選項的相似度變得高于識別候選項的相似度的情況下，也可以輸出該識別候選項作為識別結(jié)果。因此，在本實施方式的語音識別裝置1中，即使在可拋棄單詞字典5中存儲有與識別詞匯單詞相同或相似的可拋棄詞匯單詞，當例如用戶對識別候選項發(fā)聲時，用戶發(fā)聲也不會被錯誤地拋棄。
因此，不需要按照在上述的傳統(tǒng)語音識別裝置中采用的方式(即，每當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時，通過從可拋棄單詞數(shù)據(jù)庫中去除與識別詞匯單詞相同或相似的可拋棄詞匯單詞，并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲在可拋棄單詞字典中)，來更新可拋棄單詞字典。結(jié)果，即使當存儲在識別單詞字典4中的識別詞匯單詞發(fā)生改變時，也能夠減小更新可拋棄單詞字典5所需的耗時的人工操作，同時與用戶對識別詞匯單詞發(fā)聲這一事實無關(guān)，防止了用戶發(fā)聲被錯誤地拋棄。 (實施方式2)
實施方式1描述了一個示例，在該示例中，語音驗證單元輸出可拋棄詞匯單詞中具有最高相似度的可拋棄詞匯單詞作為拋棄候選項。與之相對照，實施方式2描述了如下示例，在該示例中，語音驗證單元從可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項，并且基于補償數(shù)據(jù)減小所提取的拋棄候選項的相似度。
圖9是示意性地示出了根據(jù)本實施方式的語音識別裝置20的結(jié)構(gòu)的框圖。S卩，根據(jù)本實施方式的語音識別裝置20是另外設(shè)置了補償數(shù)據(jù)存儲單元21的、圖1的語音識別裝置1。此外，根據(jù)本實施方式的語音識別裝置20設(shè)置有語音驗證單元22,而不是圖1所示的語音驗證單元7。在圖9中，具有與圖1中的功能相同功能的組成部件被分配相同的附圖標記，并且省略對它們的詳細解釋。
補償數(shù)據(jù)存儲單元21存儲用于減小拋棄候選項的相似度的補償數(shù) 據(jù)。如例如在圖IO中所示出的，補償數(shù)據(jù)存儲單元21以補償數(shù)據(jù)表21a 的形式存儲補償數(shù)據(jù)。在圖IO所示的示例中，"0.1"被存儲為補償數(shù)據(jù)。應(yīng)該注意，用于補償數(shù)據(jù)存儲單元21的補償數(shù)據(jù)的存儲格式是任意的。
除了圖1的語音驗證單元7的特征以外，語音驗證單元22還設(shè)置有這樣的特征，通過該特征可以減小拋棄候選項的相似度。具體地講，例如，基于來自操作設(shè)置有語音識別裝置20的系統(tǒng)的用戶的指令，將讀信號輸出到語音識別裝置20。通過檢測到該讀信號，語音驗證單元22讀取存儲在補償數(shù)據(jù)存儲單元21中的補償數(shù)據(jù)?；谒x取的補償數(shù)據(jù)，語
音驗證單元22減小拋棄候選項的相似度。
例如，讓我們假定語音驗證單元22已提取了諸如"okayama"的拋棄候選項。這里，如果拋棄候選項"okayama"的相似度是"0.85"，則語音驗證單元22利用存儲在補償數(shù)據(jù)存儲單元21中的補償數(shù)據(jù)"0.1"來減小拋棄候選項"okayama"的相似度，即"0.85"。結(jié)果，拋棄候選項的相似度被減小到"0.75"。語音驗證單元22執(zhí)行處理，其中，基于拋棄候選項"okay謹"的相似度(即"0.75")，語音驗證單元22輸出識別候選項作為識別結(jié)果或者拋棄輸入語音。即，當拋棄候選項的相似度降低時，語音識別裝置20的識別率上升。這使得用戶可以向語音驗證單元22發(fā) 出關(guān)于是否根據(jù)采用語音識別裝置20的系統(tǒng)的實際情況(使用條件等) 來減小拋棄候選項的相似度的指令。 —
此外，通過將軟件程序安裝在諸如個人計算機等的任何計算機上，來實現(xiàn)上述語音識別裝置20。換言之，通過根據(jù)包括這些功能的軟件程序而運行的計算機CPU，來實現(xiàn)上述語音驗證單元22。因此，包括了語音驗證單元22的功能的軟件程序或者其上記錄有該程序的記錄介質(zhì)代表本發(fā)明的實施方式。此外，使用包括在計算機中的內(nèi)置存儲裝置或計算機可訪問的存儲裝置來實現(xiàn)補償數(shù)據(jù)存儲單元21。
接下來，將參照圖11解釋由在具有上述結(jié)構(gòu)的語音識別裝置20中采用的語音驗證單元22執(zhí)行的驗證處理。在圖11中，示出與圖8中的處理相同的處理的部分被分配相同的附圖標記，并且省略對它們的詳細解釋。
圖11是概括示出了由語音驗證單元22執(zhí)行的驗證處理的流程圖。在圖11所示的處理中，Op51設(shè)置在Op34與Op35之間。即，在Op51 中，語音驗證單元22基于存儲在補償數(shù)據(jù)存儲單元21中的補償數(shù)據(jù)，減小拋棄候選項的相似度。當拋棄候選項的相似度減小時，在Op38中將識別候選項輸出作為識別結(jié)果變得更容易。即，當拋棄候選項的相似度降低時，語音識別裝置20的識別率上升。
應(yīng)該注意，盡管使用了語音驗證單元22基于補償數(shù)據(jù)減小拋棄候選項的相似度的示例給出以上解釋，但是本發(fā)明不限于此。語音驗證單元
22例如可以基于補償數(shù)據(jù)來增大拋棄候選項的相似度。當拋棄候選項的相似度增大時，在Op38中拋棄輸入語音變得更容易。即，當拋棄候選項
的相似度增大時，語音識別裝置20的識別率下降。
此外，盡管使用了語音驗證單元22基于補償數(shù)據(jù)增大或減小拋棄候選項的相似度的示例給出以上解釋，但是本發(fā)明不限于此。語音驗證單元22例如可以基于補償數(shù)據(jù)增大或減小識別候選項的相似度。當識別候選項的相似度增大時，在Op35、 Op37和Op38中將識別候選項輸出作為識別結(jié)果變得更容易。即，當識別候選項的相似度增大時，語音識別裝置20的識別率上升。另一方面，當識別候選項的相似度降低時，在Op35、 Op37和Op38中拋棄輸入語音變得更容易。即，當識別候選項的相似度減小時，語音識別裝置20的識別率下降。
此外，盡管使用了補償數(shù)據(jù)存儲單元21存儲針對所有識別詞匯單詞或所有可拋棄詞匯單詞同時有效的補償數(shù)據(jù)的示例給出以上解釋，但是本發(fā)明不限于此。補償數(shù)據(jù)存儲單元21例如可以存儲分別對應(yīng)于各個識別詞匯單詞或各個可拋棄詞匯單詞的補償數(shù)據(jù)。在這種情況下，語音驗證單元22基于分別對應(yīng)于各個識別詞匯單詞或各個可拋棄詞匯單詞的補償數(shù)據(jù)，增大或減小識別候選項的相似度或拋棄候選項的相似度。
如上所述，在根據(jù)本實施方式的語音識別裝置20中，語音驗證單元 22基于補償數(shù)據(jù)，增大或減小識別候選項的相似度和拋棄候選項的相似度中的至少一個相似度。如果語音驗證單元22減小識別候選項的相似度或者增大拋棄候選項的相似度，則語音識別裝置20的識別率下降。另一方面，如果語音驗證單元22增大識別候選項的相似度或者減小拋棄候選項的相似度，則語音識別裝置20的識別率上升。這使得可以實現(xiàn)如下的語音識別裝置20，該語音識別裝置20適于設(shè)置有該語音識別裝置20的系統(tǒng)的實際情況(使用條件等)。 (實施方式3)
基于第二閾值存儲單元9存儲針對所有識別詞匯單詞同時有效的第二閾值的示例解釋了實施方式1和實施方式2。與之相對照，將使用如下示例解釋實施方式3，在該示例中第二閾值存儲單元9存儲分別對應(yīng)于各
個識別詞匯單詞的第二閾值。
圖12是示意性地示出了根據(jù)本實施方式的語音識別裝置30的結(jié)構(gòu) 的框圖。根據(jù)本實施方式的語音識別裝置30設(shè)置有第二閾值存儲單元31，
而不是圖9所示的第二閾值存儲單元9。在圖12中，具有與圖9中的功能相同的功能的組成部件被分配相同的附圖標記，并且省略對它們的詳細解釋。
對于每個識別詞匯單詞，第二閾值存儲單元31存儲有一第二閾值，該第二閾值大于第一閾值并且用作輸出作為識別結(jié)果的識別候選項的量度。如例如在圖13中所示出的，第二閾值存儲單元31以第二閾值存儲表31 a的形式存儲第二閾值。在圖13所示的示例中，第二閾值存儲表31 a 存儲有單詞ID和第二閾值。單詞ID對應(yīng)于存儲在識別單詞字典4中的單詞ID。應(yīng)該注意，使用包括在計算機中的內(nèi)置存儲裝置或計算機可訪問的存儲裝置來實現(xiàn)第二閾值存儲單元31。此外，用于第二閾值存儲單元31的第二閾值的存儲格式是任意的。
在圖13所示的示例中，第二閾值存儲表31a的第一行R1存儲有單詞ID "001"和第二閾值"0.7"。第二行R2存儲有單詞ID "002"和第二閾值"0.8"。第三行R3存儲有單詞ID "003"和第二閾值"0.7"。第四行R4存儲有單詞ID "004"和第二閾值"0.8"。第五行R5存儲有單詞ID "005"和第二閾值"0.7"。第六行R6存儲有單詞ID "006"和第二閾值"0.7"。第七行R7存儲有單詞ID "007"和第二閾值"0.9"。換言之，在圖13所示的示例中，以如下方式設(shè)置第二閾值對于較短的識別詞匯單詞，使第二閾值較大，同時，對于較長的識別詞匯單詞，使第二閾值較小。
此外，盡管使用如下示例給出以上解釋，在該示例中，多個識別詞匯單詞和關(guān)于多個識別詞匯單詞的信息被存儲在識別單詞字典4中，并且分別對應(yīng)于各個識別詞匯單詞的第二閾值被存儲在第二閾值存儲單元 31中；但是本發(fā)明不限于此。例如可將存儲在第二閾值存儲單元31中的第二閾值設(shè)置在識別單詞字典4中。
圖14是示意性地示出了在將第二閾值存儲在識別單詞字典中的情
況下的語音識別裝置30a的結(jié)構(gòu)的框圖。S卩，圖14所示的語音識別裝置 30a沒有設(shè)置圖12所示的識別單詞字典4，而是設(shè)置了識別單詞字典32。在圖14中，具有與圖12的功能相同的功能的組成部件被分配相同的附圖標記。識別單詞字典32存儲多個識別詞匯單詞、關(guān)于該多個識別詞匯單詞的信息、以及第二閾值。如例如在圖15中所示出的，識別單詞字典32以識別單詞字典表32a的形式存儲這些信息項。在圖15所示的示例中，識別單詞字典表32a存儲有單詞ID、單詞拼寫、單詞讀音、音素序列、以及第二閾值。應(yīng)該注意，用于識別單詞字典32中的這些信息項的存儲格式是任意的。此外，在圖14所示的語音識別裝置30a中，識別單詞字典32對應(yīng)于在權(quán)利要求書中提到的識別單詞字典和第二閾值存儲單元。
如上所述，在根據(jù)本實施方式的語音識別裝置30和30a中，在第二閾值存儲單元31或識別單詞字典32中存儲分別對應(yīng)于各個識別詞匯單詞的第二閾值。這使語音驗證單元22可以響應(yīng)于識別詞匯單詞來改變用于輸出作為識別結(jié)果的識別候選項的量度。 (實施方式4)
使用設(shè)置有一個可拋棄單詞字典的示例解釋了實施方式1至3。與之相對照，將使用設(shè)置有具有不同數(shù)目的可拋棄詞匯單詞的多個可拋棄單詞字典的示例來解釋實施方式4。
圖16是示意性地示出了根據(jù)本實施方式的語音識別裝置40的結(jié)構(gòu) 的框圖。根據(jù)本實施方式的語音識別裝置40沒有設(shè)置圖12所示的可拋棄單詞字典5，而是設(shè)置了多個可拋棄單詞字典41a至41c。此外，根據(jù) 本實施方式的語音識別裝置40是另外設(shè)置了選擇單元42的、圖12所示的語音識別裝置30。應(yīng)該注意，盡管為了簡化說明圖16示出了三個可拋棄單詞字典41a至41c，但是構(gòu)成語音識別裝置40的一部分的可拋棄單詞字典的數(shù)目是任意的。
按照與圖12的可拋棄單詞字典5相同的方式，可拋棄單詞字典41a 至41c存儲多個可拋棄詞匯單詞和關(guān)于該多個可拋棄詞匯單詞的信息。可拋棄單詞字典41a至41c是具有不同數(shù)目的可拋棄詞匯單詞的多個可
拋棄單詞字典。在本實施方式中，作為示例，可拋棄單詞字典41a存儲有100個可拋棄詞匯單詞?？蓲仐墕卧~字典41b存儲有500個可拋棄詞匯單詞，包括存儲在可拋棄單詞字典41a中的所述100個可拋棄詞匯單詞。可拋棄單詞字典41c存儲有900個可拋棄詞匯單詞，包括存儲在可拋棄單詞字典41b中的所述500個可拋棄詞匯單詞。
選擇單元42基于存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目，從多個可拋棄單詞字典41a至41c之中選擇要由語音驗證單元22進行相似度計算的可拋棄單詞字典。在本實施方式中，選擇單元42按如下方式選擇可拋棄單詞字典使識別單詞字典4中的識別詞匯單詞的數(shù)目與可拋棄單詞字典中的可拋棄詞匯單詞的數(shù)目之和為約1000個單詞。例如，如果存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目是900個單詞，則選擇單元42選擇存儲有100個可拋棄詞匯單詞的可拋棄單詞字典41a。此外，例如，如果存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目是500 個單詞，則選擇單元42選擇存儲有500個可拋棄詞匯單詞的可拋棄單詞字典41b。此外，例如，如果存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目是100個單詞，則選擇單元42選擇存儲有900個可拋棄詞匯單詞的可拋棄單詞字典41c。換言之，隨著存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目增加，選擇單元42選擇具有較少數(shù)目的可拋棄詞匯單詞的可拋棄單詞字典。結(jié)果，可以使要由語音驗證單元22進行相似度計算的可拋棄詞匯單詞和識別詞匯單詞的數(shù)目保持恒定。
此外，通過將軟件程序安裝在諸如個人計算機等的任何計算機上，來實現(xiàn)上述語音識別裝置40。換言之，通過根據(jù)包括這些功能的軟件程序而運行的計算機CPU來實現(xiàn)上述選擇單元41。因此，包括選擇單元 41的功能的軟件程序或其上記錄有該程序的記錄介質(zhì)代表本發(fā)明的實施方式。此外，使用包括在計算機中的內(nèi)置存儲裝置或計算機可訪問的存儲裝置，來實現(xiàn)可拋棄單詞字典41a至41c。
如上所述，在根據(jù)本實施方式的語音識別裝置40中，選擇單元42 基于存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目，從多個可拋棄單詞字典41a至41c中選擇要由語音驗證單元22進行相似度計算的可拋棄
單詞字典。例如，隨著存儲在識別單詞字典4中的識別詞匯單詞的數(shù)目增加，選擇單元42選擇具有較少數(shù)目的可拋棄詞匯單詞的可拋棄單詞字
典。這可以使語音識別裝置40的識別速度保持恒定，并且避免導致語音識別裝置40的識別速度降低。
因此，本發(fā)明作為一種語音識別裝置、語音識別方法和其上記錄有語音識別軟件程序的記錄介質(zhì)是有用的，其在用戶對識別詞匯單詞發(fā)聲時能夠防止用戶發(fā)聲被錯誤地拋棄，并且同時即使當存儲在識別單詞字典中的識別詞匯單詞發(fā)生改變時也能夠減少更新可拋棄單詞字典所需的耗時的人工操作。
應(yīng)該注意，所有上述解釋的實施方式僅是本發(fā)明的說明性示例，并且不應(yīng)基于這些實施方式來限制性地解釋本發(fā)明。本發(fā)明的范圍在權(quán)利要求書而不是上述實施方式中指明，并且本發(fā)明的范圍旨在包括權(quán)利要求書的等同物的意義和范圍內(nèi)的所有變型。
權(quán)利要求
1、一種語音識別裝置，該語音識別裝置包括語音輸入單元，其將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)；語音分析單元，其將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量；識別單詞字典，其存儲多個識別詞匯單詞；可拋棄單詞字典，其存儲多個可拋棄詞匯單詞；語音驗證單元，其利用通過所述語音分析單元進行的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過所述語音分析單元進行的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項；第一閾值存儲單元，其存儲用作拋棄所述輸入語音的量度的第一閾值；以及第二閾值存儲單元，其存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度，其中，如果所述識別候選項的相似度大于所述第二閾值，則所述語音驗證單元輸出所述識別候選項作為識別結(jié)果，并且如果所述識別候選項的相似度小于所述第二閾值，則當所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，所述語音驗證單元輸出所述識別候選項作為識別結(jié)果。
2、如權(quán)利要求1所述的語音識別裝置，其中，如果所述識別候選項的相似度大于所述第一閾值，則當所述識別候選項的相似度小于所述第二閾值并且同時所述識別候選項的相似度小于所述拋棄候選項的相似度時，所述語音驗證單元拋棄所述輸入語音，并且如果所述識別候選項的相似度小于所述第一閾值，則所述語音驗證單元拋棄所述輸入語音。
3、如權(quán)利要求1所述的語音識別裝置，該語音識別裝置還包括補償數(shù)據(jù)存儲單元，所述補償數(shù)據(jù)存儲單元存儲用于改變所述識別候選項的相似度和所述拋棄候選項的相似度中的至少一個相似度的補償數(shù)據(jù)，其中，所述語音驗證單元基于所述補償數(shù)據(jù)，改變所述識別候選項的相似度和所述拋棄候選項的相似度中的至少一個相似度。
4、如權(quán)利要求1所述的語音識別裝置，其中，所述第二閾值存儲單元存儲分別對應(yīng)于各個所述識別詞匯單詞的多個第二閾值。
5、如權(quán)利要求1所述的語音識別裝置，該語音識別裝置還包括多個可拋棄單詞字典，其分別包含不同數(shù)目的可拋棄詞匯單詞；以及選擇單元，其基于存儲在所述識別單詞字典中的識別詞匯單詞的數(shù) 目，從所述多個可拋棄單詞字典中選擇要由所述語音驗證單元進行相似度計算的可拋棄單詞字典。
6、一種語音識別方法，其中，設(shè)置有存儲有多個識別詞匯單詞的識別單詞字典和存儲有多個可拋棄詞匯單詞的可拋棄單詞字典的計算機執(zhí)行如下步驟語音輸入步驟，將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)；語音分析步驟，將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量；以及語音驗證步驟，利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項；所述計算機能夠訪問第一閾值存儲單元和第二閾值存儲單元，所述第一閾值存儲單元存儲用作拋棄所述輸入語音的量度的第一閾值，所述第二閾值存儲單元存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度，并且所述語音驗證步驟還包括如下步驟如果所述識別候選項的相似度大于所述第二閾值，則輸出所述識別候選項作為識別結(jié)果，以及如果所述識別候選項的相似度小于所述第二閾值，則當所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，輸出所述識別候選項作為識別結(jié)果。
7、一種記錄介質(zhì)，其上記錄有語音識別軟件程序，該語音識別軟件程序使得設(shè)置有存儲有多個識別詞匯單詞的識別單詞字典和存儲有多個可拋棄詞匯單詞的可拋棄單詞字典的計算機執(zhí)行語音識別處理，其中，使所述計算機執(zhí)行如下處理語音輸入處理，將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)；語音分析處理，將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量；以及語音驗證處理，利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述識別單詞字典中的所述多個識別詞匯單詞之間的相似度，利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量，計算所述輸入語音與存儲在所述可拋棄單詞字典中的所述多個可拋棄詞匯單詞之間的相似度，并且，作為計算這些相似度的結(jié)果，從所述識別詞匯單詞中提取具有最高相似度的識別詞匯單詞作為識別候選項，并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項；并且所述計算機能夠訪問第一閾值存儲單元和第二閾值存儲單元，所述第一閾值存儲單元存儲用作拋棄所述輸入語音的量度的第一閾值，所述第二閾值存儲單元存儲第二閾值，所述第二閾值大于所述第一閾值并且用作輸出作為識別結(jié)果的所述識別候選項的量度，并且所述語音驗證處理還包括使所述計算機執(zhí)行如下處理- 如果所述識別候選項的相似度大于所述第二閾值，則輸出所述識別候選項作為識別結(jié)果，以及如果所述識別候選項的相似度小于所述第二閾值，則當所述識別候選項的相似度大于所述第一閾值并且同時所述識別候選項的相似度高于所述拋棄候選項的相似度時，輸出所述識別候選項作為識別結(jié)果。
全文摘要
本發(fā)明提供了語音識別裝置、方法和記錄有語音識別軟件程序的記錄介質(zhì)。當識別候選項的相似度大于第二閾值時，語音驗證單元輸出識別候選項作為識別結(jié)果，并且當識別候選項的相似度小于第二閾值時，如果該識別候選項的相似度大于第一閾值并且同時該識別候選項的相似度大于拋棄候選項的相似度，則語音驗證單元輸出識別候選項作為識別結(jié)果。應(yīng)該注意，第一閾值是用于拋棄輸入語音的量度。第二閾值大于第一閾值并且用作用于輸出作為識別結(jié)果的識別候選項的量度。
文檔編號G10L15/00GK101188109SQ20071018879
公開日2008年5月28日申請日期2007年11月20日優(yōu)先權(quán)日2006年11月20日
發(fā)明者原田將治申請人:富士通株式會社

完整全部詳細技術(shù)資料下載