專利名稱:語音識別裝置的制作方法
語音識別裝置
技術領域:
本發(fā)明涉及一種語音識別裝置,尤其涉及一種多聲學模型的語音識別裝置。
背景技術:
隨著科技和經(jīng)濟的不斷發(fā)展,語音識別以及相關聲控技術在許多領域得到
了廣泛的應用。語音識別過程主要包括輸入模擬語音信息;將模擬語音信息 轉換成數(shù)字語音信息;從數(shù)字語音信息中提取特征量;將特征量與預定聲學模 型進行匹配,由此產(chǎn)生識別結果。語音識別的準確率與聲學模型容量有直接關 系,因而需要聲學模型集成各種語音數(shù)據(jù),而語音識別的速度與該聲學模型的 大小有直接關系,聲學模型過大直接導致語音識別速度的降低。目前的語音識 別裝置往往僅設置一個復合聲學模型,通過該聲學模型對包括男聲、女聲、童 聲在內(nèi)的所有語音信息進行識別,會出現(xiàn)準確率低或者速度慢的技術問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術的語音識別裝置僅通過一個復合聲學模型對所有語音信 息進行識別,導致語音識別的準確率低或者速度慢的技術問題。本發(fā)明提出了 一種設置有多個備選聲學模型的語音識別裝置。
本發(fā)明解決現(xiàn)有技術的語音識別裝置僅通過一個復合聲學模型對所有語音 信息進行識別,導致語音識別的準確率低或者速度慢的技術問題所采用的技術 方案是提供一種語音識別裝置,該語音識別裝置包括用于接收模擬語音信 息的語音接收單元;用于將模擬語音信息轉換成數(shù)字語音信息的模數(shù)轉換單元; 用于存儲至少兩個聲學模型的存儲單元;用于輸入選擇指令的指令輸入單元; 用于基于與選擇指令對應的聲學模型識別數(shù)字語音信息的識別單元。
根據(jù)本發(fā)明一優(yōu)選實施例,該識別單元進一步包括從數(shù)字語音信息中提取 特征量的特征量提取單元以及將特征量與對應聲學^i型進行匹配的匹配單元。
才艮據(jù)本發(fā)明一優(yōu)選實施例,該指令輸入單元為選擇按鍵。
根據(jù)本發(fā)明 一優(yōu)選實施例,該選擇^l建與該至少兩個聲學模型相對應。 根據(jù)本發(fā)明 一優(yōu)選實施例,該指令輸入單元為具有選擇菜單或圖形按鈕的 輸入界面。
根據(jù)本發(fā)明一優(yōu)選實施例,該至少兩個聲學模型為針對非特定人的聲學模
型或針對特定人的聲學模型。
根據(jù)本發(fā)明 一優(yōu)選實施例,該至少兩個聲學模型包括男聲模型和女聲模型。 根據(jù)本發(fā)明 一優(yōu)選實施例,該至少兩個聲學模型包括方言聲學模型。 根據(jù)本發(fā)明一優(yōu)選實施例,該語音識別裝置進一步響應識別單元的識別結
果執(zhí)行預定動作的動作單元。
通過采用上述結構,在語音識別裝置中設置多個備選聲學模型,用戶可以
根據(jù)語言環(huán)境選擇適當?shù)穆晫W模型進行語音識別,提高了語音識別的準確性及
速度。
圖1是本發(fā)明的語音識別裝置一實施例的示意框圖; 圖2是本發(fā)明的語音識別裝置一實施例的控制面板的結構示意圖; 圖3是圖1所示的語音識別裝置的工作流程圖。具體實施方式
下面結合附圖和實施例對本發(fā)明進一步說明。
參見圖1和圖2,在本實施例中以聲控電話機為例對本發(fā)明的語音識別裝置 進行示范性描迷,但本領域技術人員應該理解,本發(fā)明同樣適用于其它語音識 別裝置。本發(fā)明的聲控電話機1包括用于接收模擬語音信息的語音接收單元 11;用于將模擬語音信息轉換成數(shù)字語音信息的模數(shù)轉換單元12;用于存儲至 少兩個聲學模型的存儲單元13;用于輸入選擇指令的指令輸入單元14;用于基 于與選擇指令對應的聲學模型識別數(shù)字語音信息的識別單元15。此外,聲控電 話機1進一步包括用于響應識別單元15的識別結果進行外呼的外呼單元16。
在本實施例中,識別單元15進一步包括從數(shù)字語音信息中提取特征量的特 征量提取單元l51以及將特征量與對應聲學模型進行匹配的匹配單元152。在本 實施例中,可以根據(jù)不同的聲音特質將復合聲學模型拆分成多個對應于不同聲 音特質的聲學模型。例如,存儲單元13中存儲的聲學模型包括男聲模型和女聲
模型。指令輸入單元14為分別與男聲模型和女聲模型對應的選擇按鍵"1和
142。當然,本領域技術人員通過閱讀本發(fā)明顯而易見,指令輸入單元14可以 采用多種適當形式,例如,在應用到手機、PDA等便攜設備時,指令輸入單元 14還可以是具有選擇菜單或圖形按鈕的輸入界面(未圖示)。存儲單元13中存 儲的聲學模型還可以存儲童聲、方言聲學模型或者其它適當聲學模型。
如圖3所示,圖3是圖1所示的聲控固定電話1的工作流程圖。在本發(fā)明的 聲控固定電話1的使用過程中,用戶首先按下選擇按鍵H1或1",選擇采用男 聲模型或女聲模型。隨后,聲控固定電話1優(yōu)選播放語音提示,指導用戶通過 語音接收單元ll(例如,麥克風)輸入語音信息。模數(shù)轉換單元12則將輸入的 模擬語音信息轉化成數(shù)字語音信息。特征量提取單元151從數(shù)字語音信息中提 取特征量,并由匹配單元152根據(jù)所選擇的聲學模型進行匹配,并輸出識別結 果。識別結果可以是操作指令或者電話號碼,聲控固定電話1的其它動作部件 可才艮據(jù)識別結果進行預定動作。例如,外呼單元16可以根據(jù)識別的電話號碼進 行撥號。
本發(fā)明電話的聲學模型可以包括針對特定人的聲學模型或針對非特定人的 聲學模型。在針對特定人的聲學模型中,用戶需要事先對每一個詞條進行訓練。 在訓練階段,用戶每個詞條依次說數(shù)遍,提取詞條的特征量,并將特征量按序 列存入存儲單元中。在識別階段,將輸入詞條的特征量依次與聲學模型中的每 一個特征量進行相似度比較,將相似度大于預定閾值的詞條作為識別結果輸出。 采用針對特定人聲學模型的識別單元識別的詞條數(shù)目一般在100條以下,識別 性能隨著詞條數(shù)目的增加會有明顯的下降,并且對于不同用戶、在不同的噪聲 環(huán)境中,以及不同的時間相同用戶的不同生理、心理狀態(tài)下,系統(tǒng)的性能都會 受到明顯的影響。在針對非特定人的聲學模型中,采用基于統(tǒng)計模型的算法, 系統(tǒng)開發(fā)者事先采集大量的語音數(shù)據(jù)進行訓練,得到聲學模型并存儲在存儲單 元中。在識別階段,將用戶的輸入詞條的特征量與通過聲學模型構建的識別網(wǎng) 絡進行匹配解碼,輸出該詞條。非特定人聲學模型對于用戶而言,不需要引入 繁瑣的訓練過程,方便了用戶的使用;同時它可以供不同的人使用,因此大大 拓寬了應用范圍。另一方面,由于采用了基于統(tǒng)計模型的算法,其穩(wěn)健性和識 別性能都比特定人識別單元大大的提高。采用非特定人聲學模型的識別單元識
別的詞條數(shù)目遠大于針對特定人的聲學模型,識別性能不會隨著識別詞條數(shù)目 的增加有明顯的下降,并且具有一定的抗噪能力。
通過采用上述結構,將復合聲學模型根據(jù)聲音特質拆分成多個對應不同聲 音特質的聲學模型并存儲在存儲單元中,用戶可以根據(jù)語言環(huán)境選擇適當?shù)穆?學模型進行語音識別,提高了語音識別的準確性及速度。
上述的詳細描述^f義是示范性描述,本領域技術人員在不脫離本發(fā)明所保護 的范圍和精神的情況下,可根據(jù)不同的實際需要設計出各種實施方式。
權利要求
1.一種語音識別裝置,其特征在于所述語音識別裝置包括用于接收模擬語音信息的語音接收單元;用于將所述模擬語音信息轉換成數(shù)字語音信息的模數(shù)轉換單元;用于存儲至少兩個聲學模型的存儲單元;用于輸入選擇指令的指令輸入單元;用于基于與所述選擇指令對應的聲學模型識別所述數(shù)字語音信息的識別單元。
2. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述識別單元進一 步包括從所述數(shù)字語音信息中提取特征量的特征量提取單元以及將所述特征量 與所述對應聲學模型進行匹配的匹配單元。
3. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述指令輸入單元 為選擇按鍵。
4. 根據(jù)權利要求3所述的語音識別裝置,其特征在于所述選擇按鍵與所 述至少兩個聲學模型相對應。
5. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述指令輸入單元 為具有選擇菜單或圖形按鈕的輸入界面。
6. 根據(jù)權利要求l所述的語音識別裝置,其特征在于所述至少兩個聲學 模型為針對非特定人的聲學模型或針對特定人的聲學模型。
7. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述至少兩個聲學 模型包括男聲模型和女聲模型。
8. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述至少兩個聲學 模型包括方言聲學模型。
9. 根據(jù)權利要求1所述的語音識別裝置,其特征在于所述語音識別裝置 進一步響應所述識別單元的識別結果執(zhí)行預定動作的動作單元。
全文摘要
本發(fā)明涉及一種語音識別裝置,包括用于接收模擬語音信息的語音接收單元;用于將模擬語音信息轉換成數(shù)字語音信息的模數(shù)轉換單元;用于存儲至少兩個聲學模型的存儲單元;用于輸入選擇指令的指令輸入單元;用于基于與選擇指令對應的聲學模型識別數(shù)字語音信息的識別單元。通過采用上述結構,在語音識別裝置中設置多個備選聲學模型,用戶可以根據(jù)語言環(huán)境選擇適當?shù)穆晫W模型進行語音識別,提高了語音識別的準確性及速度。
文檔編號G10L15/00GK101354886SQ20071007542
公開日2009年1月28日 申請日期2007年7月27日 優(yōu)先權日2007年7月27日
發(fā)明者陳修志 申請人:陳修志