語音識別方法和系統(tǒng)的制作方法

文檔序號：2828074閱讀：332來源：國知局

語音識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語音識別方法，在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；對接收到的語音信號進行識別，以得到語音信號識別結果；對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果。本發(fā)明還公開了一種語音識別系統(tǒng)。本發(fā)明提高了語音識別的準確性。
【專利說明】語音識別方法和系統(tǒng)

【技術領域】
[0001] 本發(fā)明涉及語音控制領域，尤其涉及語音識別方法和系統(tǒng)。

【背景技術】
[0002] 隨著語音交互的飛速發(fā)展，通過語音的方式控制終端（如電視以及空調器等），或者通過語音的方式進行數(shù)據輸入已成為應用非常廣泛的方式。目前，語音交互仍存在諸多問題，如語音識別不準確，易受環(huán)境影響較大，例如周圍有人聲嘈雜或者有背景音樂的話，語音采集裝置采集到的語音信號包括人發(fā)出的語音信號以及周圍的噪音信號，使得終端無法準確識別接受到的語音信號，導致語音識別不夠準確。

【發(fā)明內容】

[0003] 本發(fā)明的主要目的在于提出一種語音識別方法和系統(tǒng)，旨在解決語音識別不夠準確的技術問題。
[0004] 為實現(xiàn)上述目的，本發(fā)明提供的一種語音識別方法，所述語音識別方法包括以下步驟：
[0005] 在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；
[0006] 對接收到的語音信號進行識別，以得到語音信號識別結果；
[0007] 對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；
[0008] 計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果。
[0009] 優(yōu)選地，所述對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果的步驟包括：
[0010] 確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；
[0011] 根據每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0012] 基于每一幀所述有效圖像對應的字符組成唇語識別結果。
[0013] 優(yōu)選地，所述確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置的步驟包括：
[0014] 確定采集到的每幀圖像中臉部輪廓；
[0015] 將臉部輪廓內的各個像素點色度值與預存的人臉中各個像素點的色度值進行比對，以確定采集到的每幀圖像中臉部位置；
[0016] 確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對位置確定唇部區(qū)域；
[0017] 將唇部區(qū)域中各個像素點的RGB色度值進行比對；
[0018] 在唇部區(qū)域存在RGB色度值滿足預設條件的像素點時，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0019] 基于唇部區(qū)域中各個像素點的RGB色度值確定唇部的位置。
[0020] 優(yōu)選地，所述對接收到的語音信號進行識別，以得到語音信號識別結果的步驟包括：
[0021] 將接收到的語音信號轉換成字符串，并按照預設的關鍵詞庫，將所述字符串拆分為多個關鍵詞；
[0022] 標注各個所述關鍵詞的詞性，確定各個相鄰的關鍵詞之間的詞性是否匹配；
[0023] 在有相鄰的關鍵詞之間的詞性不匹配時，將所述不匹配關鍵詞作為第一關鍵詞，并確定預設的混淆音詞庫是否存在所述第一關鍵詞；
[0024] 在所述混淆音詞庫存在所述不匹配的關鍵詞時，確定所述混淆音詞庫中所述第一關鍵詞對應的第-關鍵詞；
[0025] 將所述第一關鍵詞替換為第二關鍵詞，并在替換后的第二關鍵詞與相鄰關鍵詞之間詞性匹配時，將替換后的第二關鍵詞以及其它關鍵詞重新組合成為語音信號識別結果，并將重新組合的唇語識別結果作為當前的語音信號識別結果。
[0026] 優(yōu)選地，所述計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果的步驟包括：
[0027] 將所述語音信號識別以及唇語識別結果拆分為多個關鍵詞；
[0028] 確定所述語音信號識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第一關聯(lián)度，并確定所述唇語識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第二關聯(lián) 度；
[0029] 對確定的第一關聯(lián)度求和，得到所述語音信號識別結果的準確度，并對確定的第二關聯(lián)度求和，得到所述語音信號識別結果的準確度；
[0030] 將準確度較高的識別結果作為當前的語音識別結果。
[0031] 此外，為實現(xiàn)上述目的，本發(fā)明還提出一種語音識別系統(tǒng)，其特征在于，所述語音識別系統(tǒng)包括：
[0032] 控制模塊，用于在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；
[0033] 語音信號識別模塊，用于對接收到的語音信號進行識別，以得到語音信號識別結果；
[0034] 唇語識別模塊，用于對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；
[0035] 處理模塊，用于計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果。
[0036] 優(yōu)選地，所述唇語識別模塊包括：
[0037] 唇部定位子模塊，用于確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置；
[0038] 確定子模塊，用于根據每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0039] 重組子模塊，用于基于每一幀所述有效圖像對應的字符組成唇語識別結果。
[0040] 優(yōu)選地，所述唇部定位子模塊包括：
[0041] 臉部輪廓確定單元，用于確定采集到的每幀圖像中臉部輪廓；
[0042] 臉部位置定位單元，用于將確定的臉部輪廓內的各個像素點色度值與預存的人臉中各個像素點的色度值進行比對，以確定采集到的每幀圖像中臉部位置；
[0043] 唇部區(qū)域定位單元，用于確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對位置確定唇部區(qū)域；
[0044] 比對單元，用于將唇部區(qū)域中各個像素點的RGB色度值進行比對；
[0045] 處理單元，用于在唇部區(qū)域存在RGB色度值滿足預設條件的像素點時，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0046] 唇部位置定位單元，用于基于唇部區(qū)域中各個像素點的RGB色度值確定唇部的位置。
[0047] 優(yōu)選地，所述語音信號識別模塊包括：
[0048] 轉換子模塊，用于將接收到的語音信號轉換成字符串；
[0049] 拆分子模塊，按照預設的關鍵詞庫，將所述字符串拆分為多個關鍵詞；
[0050] 詞性匹配子模塊，用于標注各個所述關鍵詞的詞性，，確定各個相鄰的關鍵詞之間的詞性是否匹配；
[0051] 確定子模塊，用于在有相鄰的關鍵詞之間的詞性不匹配時，將所述不匹配關鍵詞作為第一關鍵詞，并確定預設的混淆音詞庫是否存在所述第一關鍵詞，以及在所述混淆音詞庫存在所述不匹配的關鍵詞時，確定所述混淆音詞庫中所述第一關鍵詞對應的第二關鍵詞；
[0052] 處理子模塊，用于將所述第一關鍵詞替換為第二關鍵詞，并在替換后的第二關鍵詞與相鄰關鍵詞之間詞性匹配時，將替換后的第二關鍵詞以及其它關鍵詞重新組合成為語音信號識別結果，并將重新組合的唇語識別結果作為當前的語音信號識別結果。
[0053] 優(yōu)選地，所述處理模塊包括：
[0054] 拆分子模塊，用于將所述語音信號識別以及唇語識別結果拆分為多個關鍵詞；
[0055] 關聯(lián)度計算子模塊，用于確定所述語音信號識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第一關聯(lián)度，并確定所述唇語識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第二關聯(lián)度；
[0056] 準確度計算子模塊，用于對確定的第一關聯(lián)度求和，得到所述語音信號識別結果的準確度，并對確定的第二關聯(lián)度求和，得到所述語音信號識別結果的準確度；
[0057] 處理子模塊，用于將準確度較高的識別結果作為當前的語音識別結果。
[0058] 本發(fā)明提出的語音識別方法和系統(tǒng)，同時進行語音信號以及唇語的識別，并計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的識別結果，而不是僅僅單一識別語音信號，提高了語音識別的準確性。

【專利附圖】

【附圖說明】
[0059] 圖1為本發(fā)明語音識別方法較佳實施例的流程示意圖；
[0060] 圖2為圖1中步驟S20的細化流程示意圖；
[0061] 圖3為圖1中步驟S30的細化流程示意圖；
[0062] 圖4為圖3中步驟S31的細化流程示意圖；
[0063] 圖5為圖1中步驟S40的細化流程示意圖；
[0064] 圖6為本發(fā)明語音識別系統(tǒng)較佳實施例的功能模塊示意圖；
[0065] 圖7為圖6中語音信號識別模塊的細化功能模塊示意圖；
[0066] 圖8為圖6中唇語識別模塊的細化功能模塊示意圖；
[0067] 圖9為圖8中唇部定位子模塊的細化功能模塊示意圖；
[0068] 圖10為圖6中處理模塊的細化功能模塊示意圖。
[0069] 本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結合實施例，參照附圖做進一步說明。

【具體實施方式】
[0070] 應當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0071] 本發(fā)明提供一種語音識別方法。
[0072] 參照圖1，圖1為本發(fā)明語音識別方法較佳實施例的流程示意圖。
[0073] 本實施例提出的語音識別方法優(yōu)選運行于被控終端（如電視機以及空調器等）中，被控終端基于語音識別接收進行相應的操作；或者語音識別方法可運行于控制終端，控制終端將語音信號識別結果對應的代碼傳輸至相應的被控終端。
[0074] 本實施例提出一種語音識別方法，所述語音識別方法包括：
[0075] 步驟S10,在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；
[0076] 在本實施例中，僅在接收到語音信號時才控制圖像采集裝置進行圖像采集，而在未接受語音信號時處于休眠狀態(tài)，以減少能耗，例如，在預設時間間隔內未接受到語音信號時，控制所述圖像采集裝置進入休眠狀態(tài)。
[0077] 本領域技術人員可以理解的是，可控制圖像采集裝置實時或定時進行圖像采集，在接收到語音信號時，確定接收到的語音信號的第一時間點以及語音信號結束的第二時間點，獲取圖像采集裝置在該第一時間點以及第二時間點之間采集到的圖像。
[0078] 步驟S20,對接收到的語音信號進行識別，以得到語音信號識別結果；
[0079] 在本實施例中，可通過將語音信號轉換為字符信號得到語音信號識別結果。進一步地，為提高語音信號識別結果的準確性，可對語音信號轉換的字符串進行糾錯，具體糾錯過程參照圖2,所述步驟S20包括：
[0080] 步驟S21，將接收到的語音信號轉換成字符串，并按照預設的關鍵詞庫，將所述字符串拆分為多個關鍵詞；
[0081] 可預設包括多個關鍵詞的關鍵詞庫，將語音信號轉換得到的字符串與詞庫中存儲的關鍵詞進行比對，并確定預設的關鍵詞庫中與字符串匹配的關鍵詞，并將該字符串拆分為各個匹配的關鍵詞。本領域技術人員可以理解的是，關鍵詞庫中可不用設置數(shù)字類的關鍵詞，在確定與字符串匹配的關鍵詞后，可先提取字符串中匹配的關鍵詞，并將字符串中剩余的不匹配的部分作為一個關鍵詞。例如，語音信號轉換得到的字符串為"電視機，切換至 23頻道"，則該字符串與預設的關鍵詞庫中的關鍵詞匹配的為"電視機、切換、至以及頻道"，則由字符串中直接提取出"電視機、切換、至以及頻道"，然后將剩余的"23"作為一個關鍵 T^lJ〇
[0082] 步驟S22,標注各個所述關鍵詞的詞性，確定各個相鄰的關鍵詞之間的詞性是否匹配；
[0083] 該關鍵詞的詞性可為名詞、動詞、形容詞、副詞以及介詞等，可預約各類詞性的搭配，例如在相鄰的關鍵詞為動詞+形容詞時，則認為相鄰的關鍵詞之間詞性不匹配，可能存在識別錯誤。
[0084] 步驟S23,在有相鄰的關鍵詞之間的詞性不匹配時，將所述不匹配關鍵詞作為第一關鍵詞，并確定預設的混淆音詞庫是否存在所述第一關鍵詞；
[0085] 步驟S24,在所述混淆音詞庫存在所述不匹配的關鍵詞時，確定所述混淆音詞庫中所述第一關鍵詞對應的第二關鍵詞；
[0086] 在本實施例中，可預設混淆音詞庫，該混淆音詞庫中可設置在語音信號轉換為字符串時容易混渚的關鍵詞，各個易混渚的關鍵詞關聯(lián)保存。在相鄰的關鍵詞不匹配時，可將該不配的關鍵詞作為第一關鍵詞與混淆音詞庫中的關鍵詞進行比對，以對錯誤的關鍵詞進行糾錯。
[0087] 本領域技術人員可以理解的是，在所述混淆音詞庫中不存在所述不匹配的關鍵詞時，可將轉換得到的字符串作為當前的語音信號識別結果。
[0088] 步驟S25,將所述第一關鍵詞替換為第二關鍵詞，并在替換后的第二關鍵詞與相鄰關鍵詞之間詞性匹配時，將替換后的第二關鍵詞以及其它關鍵詞重新組合成為語音信號識別結果，并將重新組合的唇語識別結果作為當前的語音信號識別結果。
[0089] 本領域技術人員可以理解的是，在替換后的第二關鍵詞與相鄰關鍵詞之間詞性不匹配，且所述第二關鍵詞存在多個時，將所述第一關鍵詞替換為其它第二關鍵詞，并確定替換后的第二關鍵詞與相鄰關鍵詞之間詞性是否匹配，直至替換完所有的第二關鍵詞，將轉換得到的字符串作為當前的語音信號識別結果。
[0090] 步驟S30,對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；
[0091] 在本實施例中，唇語識別結果可根據每一幀圖像中的唇形以及與上一幀的圖像中的唇形確定得到，具體過程如圖3所示，所述步驟S30包括：
[0092] 步驟S31，確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；
[0093] 在本實施例中，確定采集到的每幀圖像中唇部的位置具體過程如圖4所示，具體過程如下：
[0094] 步驟S311，確定采集到的每幀圖像中臉部輪廓；
[0095] 由于采集到的圖像中的各個像素點對應的色度值不同，可直接根據每幀圖像中的像素點的色度值分布以及預設的臉部輪廓得到每幀圖像中臉部位置。
[0096] 本領域技術人員可以理解的是，在圖像采集裝置的圖像采集區(qū)域中有多個人存在時，可基于接收到語音信號對聲源方向進行定位，基于確定的聲源方向確定用戶在采集到的圖像中的位置，基于聲源方向確定用戶在采集到的圖像中的位置屬于現(xiàn)有技術，在此不再贅述。
[0097] 在采集到的圖像中沒有臉部輪廓時，直接將語音信號對應的語音信號識別結果作為當前的語音識別結果，或者可提示用戶重新輸入語音信號。
[0098] 步驟S312,將確定的臉部輪廓內的各個像素點色度值與預存的人臉中各個像素點的色度值進行比對，以確定采集到的每幀圖像中臉部位置；
[0099] 確定臉部輪廓內各個像素點的YUV色度值至與預存的人臉中各個像素點的YUV色度值之間的相似度，在相似度大于預設值時，認為該像素點為臉部像素點，還相似度的計算公式為現(xiàn)有技術，在此不再贅述。
[0100] 步驟S313,確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對位置確定唇部區(qū)域；
[0101] 在本實施例中，由于眼部的像素點的灰度值小于臉部其它位置的灰度值，可根據各個像素點之間的灰度值確定眼部位置，在眼部位置的下方以及臉部的下三分之一出，即可容易確定出唇部所在的區(qū)域。
[0102] 步驟S314,在唇部區(qū)域存在RGB色度值滿足預設條件的像素點時，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0103] 步驟S315,基于唇部區(qū)域中各個像素點的RGB色度值確定唇部的位置
[0104] 但由于當前確定的唇部區(qū)域僅僅為初步確定，該區(qū)域內有唇部的像素點以及臉部的像素點，則需要在該區(qū)域內確定唇部位置。由于唇部像素點的RGB色度值中，B(藍色）分量的遠遠大于G(綠色）分量，則預設的條件可設置為B(藍色）分量與G(綠色）分量之間的差值大于預設值，而臉部的像素點中B(藍色）分量的小于G(綠色）分量，則可通過對各個像素點的B分量以及G分量進行比對，以確定唇部位置。
[0105] 步驟S32,根據每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0106] 步驟S33,基于每一幀所述有效圖像對應的字符組成唇語識別結果。
[0107] 本領域技術人員可以理解的是，采集到的圖像中第一幀圖像的上一幀圖像的唇形默認為閉嘴唇形，用戶可基于上一幀圖像以及該幀圖像對應的唇形可得出用戶的唇部走勢，將得到的唇部走勢與預存的唇部走勢進行比對，以得到當前輸出的字符。按照每一幀圖像的采集順序，將每一幀圖像的文件組合成唇語識別結果
[0108] 步驟S40,計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的識別結果。
[0109] 在本實施例中，計算所述語音信號識別結果和唇語識別結果的準確度的具體過程如圖5所示，具體過程如下：
[0110] 步驟S41，將所述語音信號識別以及唇語識別結果拆分為多個關鍵詞；
[0111] 關鍵詞拆分的過程見上述語音信號關鍵詞拆分過程，在此不再贅述。
[0112] 步驟S42,確定所述語音信號識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第一關聯(lián)度，并確定所述唇語識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第二關聯(lián)度；
[0113] 在本實施例中，第一關聯(lián)度的計算公式為：

【權利要求】
1. 一種語音識別方法，其特征在于，所述語音識別方法包括以下步驟：在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；對接收到的語音信號進行識別，以得到語音信號識別結果；對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果。
2. 如權利要求1所述的語音識別方法，其特征在于，所述對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果的步驟包括：確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；根據每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；基于每一幀所述有效圖像對應的字符組成唇語識別結果。
3. 如權利要求2所述的語音識別方法，其特征在于，所述確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置的步驟包括：確定采集到的每幀圖像中臉部輪廓；將臉部輪廓內的各個像素點色度值與預存的人臉中各個像素點的色度值進行比對，以確定采集到的每幀圖像中臉部位置；確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對位置確定唇部區(qū) 域；將唇部區(qū)域中各個像素點的RGB色度值進行比對；在唇部區(qū)域存在RGB色度值滿足預設條件的像素點時，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；基于唇部區(qū)域中各個像素點的RGB色度值確定唇部的位置。
4. 如權利要求1-3任一項所述的語音識別方法，其特征在于，所述對接收到的語音信號進行識別，以得到語音信號識別結果的步驟包括：將接收到的語音信號轉換成字符串，并按照預設的關鍵詞庫，將所述字符串拆分為多個關鍵詞；標注各個所述關鍵詞的詞性，確定各個相鄰的關鍵詞之間的詞性是否匹配；在有相鄰的關鍵詞之間的詞性不匹配時，將所述不匹配關鍵詞作為第一關鍵詞，并確定預設的混淆音詞庫是否存在所述第一關鍵詞；在所述混淆音詞庫存在所述不匹配的關鍵詞時，確定所述混淆音詞庫中所述第一關鍵詞對應的第二關鍵詞；將所述第一關鍵詞替換為第二關鍵詞，并在替換后的第二關鍵詞與相鄰關鍵詞之間詞性匹配時，將替換后的第二關鍵詞以及其它關鍵詞重新組合成為語音信號識別結果，并將重新組合的唇語識別結果作為當前的語音信號識別結果。
5. 如權利要求1-3任一項所述的語音識別方法，其特征在于，所述計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果的步驟包括：將所述語音信號識別以及唇語識別結果拆分為多個關鍵詞；確定所述語音信號識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第一關聯(lián) 度，并確定所述唇語識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第二關聯(lián)度；對確定的第一關聯(lián)度求和，得到所述語音信號識別結果的準確度，并對確定的第二關聯(lián)度求和，得到所述語音信號識別結果的準確度；將準確度較高的識別結果作為當前的語音識別結果。
6. -種語音識別系統(tǒng)，其特征在于，所述語音識別系統(tǒng)包括：控制模塊，用于在接收到語音信號時，控制圖像采集裝置進行圖像采集，并在所述語音信號結束時，控制所述圖像采集裝置停止圖像采集；語音信號識別模塊，用于對接收到的語音信號進行識別，以得到語音信號識別結果；唇語識別模塊，用于對采集到的圖像中包含唇部的圖像進行唇語識別，以得到唇語識別結果；處理模塊，用于計算所述語音信號識別結果和唇語識別結果的準確度，將準確度較高的識別結果作為當前的語音識別結果。
7. 如權利要求6所述的語音識別系統(tǒng)，其特征在于，所述唇語識別模塊包括：唇部定位子模塊，用于確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置；確定子模塊，用于根據每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；重組子模塊，用于基于每一幀所述有效圖像對應的字符組成唇語識別結果。
8. 如權利要求7所述的語音識別系統(tǒng)，其特征在于，所述唇部定位子模塊包括：臉部輪廓確定單元，用于確定采集到的每幀圖像中臉部輪廓；臉部位置定位單元，用于將確定的臉部輪廓內的各個像素點色度值與預存的人臉中各個像素點的色度值進行比對，以確定采集到的每幀圖像中臉部位置；唇部區(qū)域定位單元，用于確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對位置確定唇部區(qū)域；比對單元，用于將唇部區(qū)域中各個像素點的RGB色度值進行比對；處理單元，用于在唇部區(qū)域存在RGB色度值滿足預設條件的像素點時，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；唇部位置定位單元，用于基于唇部區(qū)域中各個像素點的RGB色度值確定唇部的位置。
9. 如權利要求6-8所述的語音識別系統(tǒng)，其特征在于，所述語音信號識別模塊包括：轉換子模塊，用于將接收到的語音信號轉換成字符串；拆分子模塊，按照預設的關鍵詞庫，將所述字符串拆分為多個關鍵詞；詞性匹配子模塊，用于標注各個所述關鍵詞的詞性，，確定各個相鄰的關鍵詞之間的詞性是否匹配；確定子模塊，用于在有相鄰的關鍵詞之間的詞性不匹配時，將所述不匹配關鍵詞作為第一關鍵詞，并確定預設的混淆音詞庫是否存在所述第一關鍵詞，以及在所述混淆音詞庫存在所述不匹配的關鍵詞時，確定所述混淆音詞庫中所述第一關鍵詞對應的第二關鍵詞；處理子模塊，用于將所述第一關鍵詞替換為第二關鍵詞，并在替換后的第二關鍵詞與相鄰關鍵詞之間詞性匹配時，將替換后的第二關鍵詞以及其它關鍵詞重新組合成為語音信號識別結果，并將重新組合的唇語識別結果作為當前的語音信號識別結果。
10.如權利要求6-8任一項所述的語音識別系統(tǒng)，其特征在于，所述處理模塊包括：拆分子模塊，用于將所述語音信號識別以及唇語識別結果拆分為多個關鍵詞；關聯(lián)度計算子模塊，用于確定所述語音信號識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第一關聯(lián)度，并確定所述唇語識別結果拆分成的關鍵詞中，各個相鄰關鍵詞的之間的第二關聯(lián)度；準確度計算子模塊，用于對確定的第一關聯(lián)度求和，得到所述語音信號識別結果的準確度，并對確定的第二關聯(lián)度求和，得到所述語音信號識別結果的準確度；處理子模塊，用于將準確度較高的識別結果作為當前的語音識別結果。
【文檔編號】G10L15/26GK104409075SQ201410714386
【公開日】2015年3月11日申請日期:2014年11月28日優(yōu)先權日:2014年11月28日
【發(fā)明者】付春元申請人:深圳創(chuàng)維－Rgb電子有限公司

完整全部詳細技術資料下載