專利名稱:移動(dòng)終端語音密碼開機(jī)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種移動(dòng)終端開機(jī)方法,特別涉及一種移動(dòng)終端語音密碼開機(jī)的方法。
背景技術(shù):
近年來,隨著電子、計(jì)算機(jī)技術(shù)的飛速發(fā)展,移動(dòng)終端的種類越來越多,功能越來越強(qiáng)大,產(chǎn)品價(jià)格也越來越低,包括手機(jī)、PDA、 MP3/MP4等移動(dòng)終端產(chǎn)品成為了人們?nèi)粘I畋貍淦分?。移?dòng)終端產(chǎn)品的便攜性也使得它成為人們最容易失竊和偷盜的財(cái)產(chǎn)之一。
同時(shí),語音識(shí)別技術(shù)的發(fā)展,語音識(shí)別和語音合成相關(guān)的商業(yè)應(yīng)用越來越多。將其引入移動(dòng)終端,作為一種開機(jī)認(rèn)證方式,確保移動(dòng)終端的安全性。 人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官一舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。 聲紋識(shí)另U (Voic印rint Recognition, VPR), 也稱為說話人識(shí)別(SpeakerRecognition),有兩類,艮卩說i舌人辨認(rèn)(Speaker Identification)禾口說i舌人確認(rèn)(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個(gè)所說的,是"多選一"問題;而后者用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是"一對(duì)一判別"問題。不管是辨認(rèn)還是確認(rèn),都需要先對(duì)說話人的聲紋進(jìn)行建模,這就是所謂的"訓(xùn)練"或"學(xué)習(xí)"過程。 另 一 方面,聲紋識(shí)別有文本相關(guān)(Text-D印endent)和文本無關(guān)(Text-Ind印endent)的兩種類型。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識(shí)別該用戶。而與文本無關(guān)的識(shí)別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。
在說話人辨認(rèn)方面,根據(jù)待識(shí)別的說話人是否在注冊(cè)的說話人集合內(nèi),說話人辨認(rèn)可以分為開集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識(shí)別說話人可以在集合外,而后者假定待識(shí)別說話人在集合內(nèi)。顯然,開集辨認(rèn)需要有一個(gè)對(duì)集外說話人的"拒識(shí)問題",而且閉集辨認(rèn)的結(jié)果要好于開集辨認(rèn)結(jié)果。本質(zhì)上講,說話人確認(rèn)和開集說話人辨認(rèn)都需要用到拒識(shí)技術(shù),為了達(dá)到很好的拒識(shí)效果,通常需要訓(xùn)練一個(gè)假冒者模型或背景模型,以便拒識(shí)時(shí)有可資比較的對(duì)象,閾值容易選定。而建立背景模型的好壞直接影響到拒識(shí)甚至聲紋識(shí)別的性能。 一個(gè)好的背景模型,往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù),通過某種算法去建立。
聲紋識(shí)別可以說有兩個(gè)關(guān)鍵問題, 一是特征提取,二是模式匹配(模式識(shí)別)。
特征提取的任務(wù)是提取并選擇對(duì)說話人的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的 聲學(xué)或語言特征。與語音識(shí)別不同,聲紋識(shí)別的特征必須是"個(gè)性化"特征,而說話人識(shí)別 的特征對(duì)說話人來講必須是"共性特征"。雖然目前大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層 面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括(l)與人類的發(fā)音機(jī)制的解 剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸 音、沙啞音、笑聲等;(2)受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語義、修辭、發(fā)音、 言語習(xí)慣等;(3)個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語調(diào)、音量等特征。從利用數(shù)學(xué) 方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型目前可以使用的特征包括(l)聲學(xué)特征(倒頻 譜);(2)詞法特征(說話人相關(guān)的詞n-gram,音素n-gram) ;(3)韻律特征(利用n-gram描 述的基音和能量"姿勢(shì)");(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。
對(duì)于模式識(shí)別,有以下幾大類方法 (1)模板匹配方法利用動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用 于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù)); (2)最近鄰方法訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量 中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大; (3)神經(jīng)網(wǎng)絡(luò)方法有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)
練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,且模型的可推廣性不好; (4)隱式馬爾可夫模型(HMM)方法通常使用單狀態(tài)的HMM,或高斯混合模型
(G匪),是比較流行的方法,效果比較好; (5)VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來 更可以收到更好的效果; (6)多項(xiàng)式分類器方法有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;
(7)...... 聲紋識(shí)別需要解決的關(guān)鍵問題還有很多,諸如短話音問題,能否用很短的語音進(jìn) 行模型訓(xùn)練,而且用很短的時(shí)間進(jìn)行識(shí)別,這主要是聲音不易獲取的應(yīng)用所需求的;聲音模 仿(或放錄音)問題,要有效地區(qū)分開模仿聲音(錄音)和真正的聲音;多說話人情況下目 標(biāo)說話人的有效檢出;消除或減弱聲音變化(不同語言、內(nèi)容、方式、身體狀況、時(shí)間、年齡
等)帶來的影響;消除信道差異和背景噪音帶來的影響;......此時(shí)需要用到其他一些技
術(shù)來輔助完成,如去噪、自適應(yīng)等技術(shù)。 對(duì)說話人確認(rèn),還面臨一個(gè)兩難選擇問題。通常,表征說話人確認(rèn)系統(tǒng)性能的兩個(gè) 重要參數(shù)是錯(cuò)誤拒絕率和錯(cuò)誤接受率,前者是拒絕真正說話人而造成的錯(cuò)誤,后者是接受 集外說話人而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān)。在現(xiàn)有的技術(shù)水平下,兩者無法同時(shí)達(dá) 到最小,需要調(diào)整閾值來滿足不同應(yīng)用的需求,比如在需要"易用性"的情況下,可以讓錯(cuò)誤 拒絕率低一些,此時(shí)錯(cuò)誤接受率會(huì)增加,從而安全性降低;在對(duì)"安全性"要求高的情況下, 可以讓錯(cuò)誤接受率低一些,此時(shí)錯(cuò)誤拒絕率會(huì)增加,從而易用性降低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種移動(dòng)終端語音密碼開機(jī)的方法,以防止移動(dòng)終端被非法使用的方法,本發(fā)明利用三種語音要素來提高語音密碼開機(jī)的可靠性。 本發(fā)明所述的語音要素包括聲紋、發(fā)音內(nèi)容、發(fā)音節(jié)奏。其中所述聲紋是指與發(fā) 聲器官有關(guān)的聲學(xué)特征如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等。發(fā)音內(nèi)容是指規(guī)定的 發(fā)音內(nèi)容。發(fā)音節(jié)奏是指說話速度和/或節(jié)拍。 本發(fā)明的移動(dòng)通信終端內(nèi)存有預(yù)先建立移動(dòng)終端用戶的聲紋模型、發(fā)音內(nèi)容模型 和發(fā)音節(jié)奏模型,因此本發(fā)明的移動(dòng)終端語音密碼開機(jī)的方法包括以下步驟
從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征,形成待識(shí)別的聲紋特征矢量序列、發(fā) 音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列; 將所述待識(shí)別的發(fā)音內(nèi)容特征矢量序列與所述發(fā)音內(nèi)容模型逐一匹配比較,得到 發(fā)音內(nèi)容匹配得分A; 將所述待識(shí)別的聲紋特征矢量序列與所述聲紋模型逐一匹配比較,得到聲紋匹配 得分B ; 將所述待識(shí)別的發(fā)音節(jié)奏特征矢量序列與所述發(fā)音節(jié)奏模型逐一匹配比較,得到 發(fā)音節(jié)奏匹配得分C ; 對(duì)所述發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C進(jìn)行綜合匹配度運(yùn) 算,當(dāng)運(yùn)算得到的綜合匹配度Z等于或大于預(yù)定閾值時(shí),進(jìn)行開機(jī)操作。
其中,所述綜合匹配度可以為 Z = A a j+B a 2+C a 3
在式中,、是發(fā)音內(nèi)容匹配權(quán)重,^是聲紋匹配權(quán)重,。3是節(jié)奏匹配權(quán)重。 其中,所述綜合匹配度表示為
廣
=1;否則為0 |32、 |33分別是發(fā)音內(nèi)容匹配閾值,聲紋匹配閾值和發(fā)音節(jié)奏匹配閾值; 當(dāng)綜合匹配度Z = 1時(shí),判定綜合匹配度大于預(yù)定閾值;以及 當(dāng)綜合匹配度Z = 0時(shí),判定綜合匹配度小于預(yù)定閾值。 其中,從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征的步驟包括 移動(dòng)終端開機(jī)后,在顯示屏幕顯示等待密碼的提示信息; 用戶根據(jù)所述提示輸入語音口令; 把用戶輸入的語音口令轉(zhuǎn)換成語音數(shù)字信號(hào); 對(duì)所述語音數(shù)字信號(hào)進(jìn)行語音處理,從所述語音數(shù)字信號(hào)中提取語音特征參數(shù)。 其中,所述語音處理包括 對(duì)輸入的所述語音數(shù)字信號(hào)進(jìn)行語音濾波,以減少低頻噪聲干擾; 對(duì)經(jīng)過語音濾波的語音數(shù)字信號(hào)進(jìn)行語音壓縮,以便減少運(yùn)算數(shù)據(jù)量; 將壓縮后的語音數(shù)字信號(hào)進(jìn)行成幀處理,形成一幀一幀的語音數(shù)據(jù)序列;以及 然后從語音數(shù)據(jù)序列中提取有關(guān)聲紋、發(fā)音內(nèi)容和發(fā)音節(jié)奏的語音特征參數(shù),形 成待識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列。
其中,當(dāng)所述綜合匹配度Z小于或等于預(yù)定閾值時(shí),執(zhí)行鎖住鍵盤和/或通過射頻電路向控制中心發(fā)送報(bào)警數(shù)據(jù)的操作。 本發(fā)明同時(shí)使用三種特征矢量序列來進(jìn)行語音識(shí)別,而不是僅僅使用一種特征矢
量序列進(jìn)行語音識(shí)別,因此可以大大降低每一種特征矢量序列識(shí)別的難度,同時(shí)又可以利
用綜合匹配度來大大提高識(shí)別的安全性。 下面結(jié)合附圖以具體實(shí)例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
圖1是適用于本發(fā)明的移動(dòng)通信終端的示意 圖2是本發(fā)明的移動(dòng)終端中進(jìn)行密碼認(rèn)證的工作流程。
具體實(shí)施例方式
本發(fā)明的移動(dòng)終端語音密碼開機(jī)的方法用于各類移動(dòng)終端如2G手機(jī)、3G手機(jī)或PDA的開機(jī)。 移動(dòng)終端的用戶首先需要預(yù)先建立移動(dòng)終端用戶的聲紋模型、發(fā)音內(nèi)容模型和發(fā)音節(jié)奏模型,將其分別存儲(chǔ)在移動(dòng)終端的存儲(chǔ)器中,可以采用現(xiàn)有技術(shù)中的相應(yīng)方法建立上述三種模型。 本發(fā)明的移動(dòng)終端語音密碼開機(jī)的方法包括以下步驟 從移動(dòng)終端發(fā)話人語音聲波中提取聲學(xué)特征,形成待識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列,可以采用任何一種已知技術(shù)形成上述三種特征矢量序列中的每一種特征矢量序列; 將所述待識(shí)別的發(fā)音內(nèi)容特征矢量序列與所述發(fā)音內(nèi)容模型逐一匹配比較,得到發(fā)音內(nèi)容匹配得分A,即發(fā)音內(nèi)容匹配比例; 將所述待識(shí)別的聲紋特征矢量序列與所述聲紋模型逐一匹配比較,得到聲紋匹配得分B,即聲紋匹配比例; 將所述待識(shí)別的發(fā)音節(jié)奏特征矢量序列與所述發(fā)音節(jié)奏模型逐一匹配比較,得到發(fā)音節(jié)奏匹配得分C,即發(fā)音節(jié)奏匹配比例; 對(duì)所述發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C進(jìn)行綜合匹配度運(yùn)算,當(dāng)所述綜合匹配度Z等于或大于預(yù)定閾值時(shí),進(jìn)行開機(jī)操作。 本發(fā)明的特點(diǎn)在于同時(shí)使用三種特征矢量序列來進(jìn)行語音識(shí)別,而不是僅僅使用一種特征矢量序列進(jìn)行語音識(shí)別,因此可以大大降低每一種特征矢量序列識(shí)別的難度,同時(shí)又可以利用綜合匹配度來大大提高識(shí)別的安全性和可靠性(下面將詳細(xì)說明)。
在一個(gè)實(shí)例中,本發(fā)明的綜合匹配度可以設(shè)為
Z = A a 一B a 2+C a 3 其中,a工是發(fā)音內(nèi)容匹配權(quán)重,a 2是聲紋匹配權(quán)重,a 3是節(jié)奏匹配權(quán)重。
例如假定預(yù)定閾值為0. 95,并且假定a工=0. 8 ; a 2 = 0. 2 ; a 3 = 0. 2。那么,當(dāng)發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C分別等于0. 8分時(shí),即它們的匹配比例分別為0. 8時(shí),Z = 0. 8 0. 8+0. 8 0. 2+0. 8 0. 2 = 0. 96,大于預(yù)定閾值,可以判定移動(dòng)終端發(fā)話人是該移動(dòng)終端的用戶(或機(jī)主)。
7
由于本發(fā)明采用三個(gè)語音因素進(jìn)行語音識(shí)別,因而即時(shí)用戶聲音由于身體狀況、情緒等原因而異常,也可以進(jìn)行正確識(shí)別;例如在單一語音因素識(shí)別中,匹配得分為0.8的情況可能很多,即便不是他本人;而本發(fā)明同時(shí)考慮了三個(gè)不同因素的0. 8匹配得分,這樣則大大提高了識(shí)別的準(zhǔn)確性,因?yàn)槌霈F(xiàn)這種三個(gè)得分的概率遠(yuǎn)遠(yuǎn)低于單一語音因素的0. 8匹配得分。 在一個(gè)實(shí)例中,本發(fā)明的綜合匹配度可以表示為
<formula>formula see original document page 8</formula>
1;否則為0 在式中,|32、 |33分別是發(fā)音內(nèi)容匹配閾值,聲紋匹配閾值和發(fā)音節(jié)奏匹配閾值; 當(dāng)綜合匹配度Z = 1時(shí),判定綜合匹配度大于預(yù)定閾值;以及
當(dāng)綜合匹配度Z = 0時(shí),判定綜合匹配度小于預(yù)定閾值。 例如假定l^二0.8, |32 = 0.8, |33 = 0.8,那么,當(dāng)發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C分別等于0. 8分時(shí),即它們的匹配比例分別為0. 8時(shí),Z = 1,大于預(yù)定閾值,可以判定移動(dòng)終端發(fā)話人是該移動(dòng)終端的用戶(或機(jī)主)。否則判定移動(dòng)終端發(fā)話人不是該移動(dòng)終端的機(jī)主。 其中從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征的步驟包括
移動(dòng)終端開機(jī)后,在顯示屏幕顯示等待密碼的提示信息;
用戶根據(jù)所述提示輸入語音口令;
把用戶輸入的語音口令轉(zhuǎn)換成語音數(shù)字信號(hào); 對(duì)所述語音數(shù)字信號(hào)進(jìn)行語音處理,從所述語音數(shù)字信號(hào)中提取語音特征參數(shù)。
所述語音處理包括 對(duì)輸入的所述語音數(shù)字信號(hào)進(jìn)行語音濾波,以減少低頻噪聲干擾; 對(duì)經(jīng)過語音濾波的語音數(shù)字信號(hào)進(jìn)行語音壓縮,以便減少運(yùn)算數(shù)據(jù)量; 將壓縮后的語音數(shù)字信號(hào)進(jìn)行成幀處理,形成一幀一幀的語音數(shù)據(jù)序列;以及 然后從語音數(shù)據(jù)序列中提取有關(guān)聲紋、發(fā)音內(nèi)容和發(fā)音節(jié)奏的語音特征參數(shù),形
成待識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列。 其中,當(dāng)所述綜合匹配度Z小于或等于預(yù)定閾值時(shí),執(zhí)行鎖住鍵盤和/或通過射頻
電路向控制中心發(fā)送報(bào)警數(shù)據(jù)的操作。 本發(fā)明所提出的方法和裝置主要用于移動(dòng)終端上,它主要包括以下幾個(gè)方面的內(nèi)容 1)移動(dòng)終端中的密碼技術(shù)手機(jī)的開機(jī)密碼在出廠時(shí)為空,密碼設(shè)定有移動(dòng)終端擁有者完成。密碼的修改只能由自身擁有者完成;密碼在任何情況下不能被清空。
2)語音信號(hào)采集與處理負(fù)責(zé)采集輸入的聲音密碼信息,將其轉(zhuǎn)換成語音數(shù)據(jù)信號(hào),然后提取聲紋、內(nèi)容、節(jié)奏特征參數(shù),形成相應(yīng)的特征矢量序列; 3)語音識(shí)別將聲紋、內(nèi)容、節(jié)奏特征矢量序列與預(yù)存的聲紋、內(nèi)容、節(jié)奏模型匹配比較,從而判斷密碼的正確性。 圖1顯示了一種適用于本發(fā)明的移動(dòng)通信終端1,如圖所示,包括通信模塊11、處理器12、存儲(chǔ)器13、 GPS 14、圖像顯示模塊15、鍵盤模塊16、語音采集模塊17、語音提示模塊18、以及輸入/輸出模塊10。 其中,存儲(chǔ)器13中存有該移動(dòng)通信終端用戶預(yù)先建立的聲紋模型、發(fā)音內(nèi)容模型和發(fā)音節(jié)奏模型。語音采集模塊17采集用戶輸入的語音信號(hào),將其轉(zhuǎn)換成語音數(shù)字信號(hào)。處理器12包括語音處理模塊、語音訓(xùn)練模塊和語音識(shí)別模塊(未顯示),其中語音處理模塊用來實(shí)現(xiàn)本發(fā)明所述的語音處理功能;語音訓(xùn)練模塊用來建立聲紋模型、發(fā)音內(nèi)容模型和發(fā)音節(jié)奏模型;語音識(shí)別模塊用來實(shí)現(xiàn)聲紋、內(nèi)容、節(jié)奏特征矢量序列與預(yù)存的聲紋、內(nèi)容、節(jié)奏模型匹配比較,以及進(jìn)行綜合匹配運(yùn)算,從而判斷密碼的正確性。語音提示模塊18用來提示用戶輸入語音密碼;通信模塊11用來實(shí)現(xiàn)語音和/或數(shù)據(jù)通信;鍵盤模塊16用來輸入按鍵指令,并且當(dāng)用戶輸入密碼錯(cuò)誤超過預(yù)期后,該鍵盤模塊16被鎖死。GPS 14用來通過接收GPS衛(wèi)星信號(hào),以便得到定位信息。輸入/輸出模塊IO包括用于語音通話的麥克風(fēng)、揚(yáng)聲器或耳機(jī)、振鈴器、照相機(jī)等。圖像顯示模塊15用于顯示文本、符號(hào)或圖像信息。
本發(fā)明的流程如圖1所示。 系統(tǒng)上電后,自檢成功后,系統(tǒng)提示需要輸入密碼。獲取的聲音密碼與終端中存放的開機(jī)密碼進(jìn)行比對(duì),如相符則解鎖成功,移動(dòng)終端進(jìn)入正常待機(jī)狀態(tài);如不相符或讀不到解鎖密碼,手機(jī)則仍處于鎖死狀態(tài)。在鎖死狀態(tài)不允許操作系統(tǒng)的所有按鍵,而對(duì)于多次惡意試探或其它盜取密碼的方式,也可觸發(fā)系統(tǒng)向預(yù)先設(shè)置的控制中心自動(dòng)發(fā)出數(shù)據(jù)報(bào)警信號(hào)(如公安110報(bào)警臺(tái)等)。 本發(fā)明技術(shù)和方法如果運(yùn)用在具有自動(dòng)報(bào)警功能的手機(jī)上,則更加能夠發(fā)揮長(zhǎng)
處。當(dāng)非法獲得此種手機(jī)者在無法解鎖的情況下,觸發(fā)自動(dòng)報(bào)警功能,警方可以跟蹤和追
查,及時(shí)抓獲買贓人或銷贓者,繼而牽出盜搶手機(jī)的犯罪團(tuán)伙,更為可能的是,貪圖便宜的
人再也不敢購(gòu)買來歷不明的贓物手機(jī),從而徹底堵死了贓物手機(jī)的銷路。 盡管上文對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,但是本發(fā)明不限于此,本技術(shù)領(lǐng)域技術(shù)人員
可以根據(jù)本發(fā)明的原理進(jìn)行各種修改。因此,凡按照本發(fā)明原理所作的修改,都應(yīng)當(dāng)理解為
落入本發(fā)明的保護(hù)范圍。
9
權(quán)利要求
一種移動(dòng)終端語音密碼開機(jī)的方法,其中所述移動(dòng)通信終端根據(jù)用戶輸入的語音密碼開機(jī)。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述移動(dòng)通信終端具有用來采集用戶輸入的語音密碼的語音采集模塊。
3. 根據(jù)權(quán)利要求2所述的方法,其中所述移動(dòng)通信終端具有用來識(shí)別所述語音密碼真?zhèn)蔚恼Z音識(shí)別模塊。
4. 一種移動(dòng)終端語音密碼開機(jī)的方法,其中所述移動(dòng)通信終端存有預(yù)先建立的用戶聲紋模型、發(fā)音內(nèi)容模型和發(fā)音節(jié)奏模型,所述方法包括以下步驟從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征,形成待識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列;將所述待識(shí)別的發(fā)音內(nèi)容特征矢量序列與所述發(fā)音內(nèi)容模型逐一匹配比較,得到發(fā)音內(nèi)容匹配得分A;將所述待識(shí)別的聲紋特征矢量序列與所述聲紋模型逐一匹配比較,得到聲紋匹配得分B ;將所述待識(shí)別的發(fā)音節(jié)奏特征矢量序列與所述發(fā)音節(jié)奏模型逐一匹配比較,得到發(fā)音節(jié)奏匹配得分C ;對(duì)所述發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C進(jìn)行綜合匹配度運(yùn)算,當(dāng)運(yùn)算得到的綜合匹配度Z等于或大于預(yù)定閾值時(shí),進(jìn)行開機(jī)操作。
5. 根據(jù)權(quán)利要求4所述的方法,其中,所述綜合匹配度為Z = A a j+B a 2+C a 3在式中,、是發(fā)音內(nèi)容匹配權(quán)重,^是聲紋匹配權(quán)重,。3是節(jié)奏匹配權(quán)重。
6. 根據(jù)權(quán)利要求4所述的方法,其中,所述綜合匹配度表示為Z==々B2p2 =1;否則為0<formula>formula see original document page 2</formula>其中|32、 |33分別是發(fā)音內(nèi)容匹配閾值,聲紋匹配閾值和發(fā)音節(jié)奏匹配閾值;當(dāng)綜合匹配度Z = 1時(shí),判定綜合匹配度大于預(yù)定閾值;以及當(dāng)綜合匹配度Z = 0時(shí),判定綜合匹配度小于預(yù)定閾值。
7. 根據(jù)權(quán)利要求5或6所述的方法,其中從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征的步驟包括移動(dòng)終端開機(jī)后,在顯示屏幕顯示等待密碼的提示信息;用戶根據(jù)所述提示輸入語音口令;把用戶輸入的語音口令轉(zhuǎn)換成語音數(shù)字信號(hào);對(duì)所述語音數(shù)字信號(hào)進(jìn)行語音處理,從所述語音數(shù)字信號(hào)中提取語音特征參數(shù)。
8. 根據(jù)權(quán)利要求4所述的方法,其中所述語音處理包括對(duì)輸入的所述語音數(shù)字信號(hào)進(jìn)行語音濾波,以減少低頻噪聲干擾;對(duì)經(jīng)過語音濾波的語音數(shù)字信號(hào)進(jìn)行語音壓縮,以便減少運(yùn)算數(shù)據(jù)量;將壓縮后的語音數(shù)字信號(hào)進(jìn)行成幀處理,形成一幀一幀的語音數(shù)據(jù)序列;以及 然后從語音數(shù)據(jù)序列中提取有關(guān)聲紋、發(fā)音內(nèi)容和發(fā)音節(jié)奏的語音特征參數(shù),形成待 識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列。
9. 根據(jù)權(quán)利要求4所述的方法,其中,當(dāng)所述綜合匹配度Z小于或等于預(yù)定閾值時(shí),執(zhí) 行鎖住鍵盤和/或通過射頻電路向控制中心發(fā)送報(bào)警數(shù)據(jù)的操作。
10. 根據(jù)權(quán)利要求4所述的方法,其中 所述聲紋是指與發(fā)聲器官有關(guān)的聲學(xué)特征; 所述發(fā)音內(nèi)容是指規(guī)定的發(fā)音內(nèi)容; 所述發(fā)音節(jié)奏是指說話速度和/或節(jié)拍。
全文摘要
本發(fā)明公開了一種移動(dòng)終端語音密碼開機(jī)的方法,其中移動(dòng)通信終端存有預(yù)先建立的用戶聲紋模型、發(fā)音內(nèi)容模型和發(fā)音節(jié)奏模型,該方法包括從移動(dòng)終端用戶語音聲波中提取聲學(xué)特征,形成待識(shí)別的聲紋特征矢量序列、發(fā)音內(nèi)容特征矢量序列和節(jié)奏特征矢量序列;將待識(shí)別的發(fā)音內(nèi)容特征矢量序列與發(fā)音內(nèi)容模型逐一匹配比較,得到發(fā)音內(nèi)容匹配得分A;將待識(shí)別的聲紋特征矢量序列與聲紋模型逐一匹配比較,得到聲紋匹配得分B;將待識(shí)別的發(fā)音節(jié)奏特征矢量序列與發(fā)音節(jié)奏模型逐一匹配比較,得到發(fā)音節(jié)奏匹配得分C;對(duì)發(fā)音內(nèi)容匹配得分A、聲紋匹配得分B和節(jié)奏匹配得分C進(jìn)行綜合匹配度運(yùn)算,當(dāng)?shù)玫降木C合匹配度Z等于或大于預(yù)定閾值時(shí),進(jìn)行開機(jī)操作。
文檔編號(hào)H04W12/02GK101772015SQ20081024658
公開日2010年7月7日 申請(qǐng)日期2008年12月29日 優(yōu)先權(quán)日2008年12月29日
發(fā)明者盧中江, 曹道剛 申請(qǐng)人:盧中江