用于遠(yuǎn)程訪問自動語音/說話人識別的服務(wù)器的便攜式聲接口的制作方法

文檔序號：2820540閱讀：444來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于遠(yuǎn)程訪問自動語音/說話人識別的服務(wù)器的便攜式聲接口的制作方法
此申請涉及名為“使用非聲學(xué)與/或聲學(xué)模型和數(shù)據(jù)庫進(jìn)行說話人確認(rèn)/識別/分類的裝置和方法”的申請(08/871784)，它與本申請共同轉(zhuǎn)讓，并同時提出申請。
本發(fā)明涉及自動語音/說話人識別(ASSR)，特別是用一個便攜式聲學(xué)耦合器或接口，在諸如電話線的通訊信道上遠(yuǎn)程訪問一個ASSR服務(wù)器的一種ASSR技術(shù)。
2.相關(guān)的現(xiàn)有技術(shù)的討論在典型的客戶/服務(wù)器或用戶/提供服務(wù)方系統(tǒng)中，中心服務(wù)器或提供服務(wù)方中的資源可被多個客戶或用戶訪問，因此要采用某種形式的客戶/用戶鑒別技術(shù)以證實該客戶/用戶是系統(tǒng)的合法使用者。在許多這樣的系統(tǒng)中，諸如PIN，關(guān)鍵詞，或口令這樣的鑒別碼是通過鍵入鑒別碼或以文本方式傳送給操作者的的方式來傳送的。在某些系統(tǒng)中，鑒別碼以聲音的方式來傳送，即，鑒別碼是讀入服務(wù)器的。服務(wù)器(在此情況下是ASSR服務(wù)器)識別語音的發(fā)音，并與存儲的合法聲音鑒別碼相比較以鑒別使用者是合法的客戶。
在ASSR服務(wù)器/客戶系統(tǒng)中，如果一個客戶能夠通過聲音在諸如電話線這樣的通訊信道的傳輸來遠(yuǎn)程傳送其鑒別碼將會非常方便，使任何用戶在有電話線的地方就可以訪問服務(wù)器。電話線可以是有線電話線路或無線電話線路。在無線電話的情況下，訪問服務(wù)器是完全便攜的，也就是說，無論何時何地，只要有一部無線電話和無線連接就可以訪問。
與如上所述的電話傳送的ASSR系統(tǒng)有關(guān)的操作上的困難包括(1)當(dāng)聲音數(shù)據(jù)通過電話線傳送時，由于聲音數(shù)據(jù)的衰減而造成的精度的降低；(2)用戶端變化的背景噪聲特性，這種特性依賴于用戶呼叫時所用電話的位置，比如，當(dāng)呼叫者正使用街道上的電話或在駕駛的汽車上呼叫，等等。這些情況導(dǎo)致數(shù)據(jù)或信號的完整性的降低，并進(jìn)一步導(dǎo)致在語音/說話人識別中精度的嚴(yán)重下降。
如果在信號通過電話線被傳送到服務(wù)器之前在用戶端進(jìn)行語音信號預(yù)處理(SSP)，數(shù)據(jù)丟失與識別精度下降的問題可以被減弱或消除。SSP包括表征傳送裝置、環(huán)境、說話人以及通訊信道的聲學(xué)特征。SSP的信息被ASSR服務(wù)器處理以設(shè)置基準(zhǔn)，選擇適當(dāng)?shù)慕獯a模型和算法來識別說話人，或者通過對信道傳遞函數(shù)和背景噪聲的建模來對語音解碼，從而減少語音的誤識別率，或精確地完成說話人識別的任務(wù)。但是，為了在用戶端執(zhí)行SSP的任務(wù)，需要SSP設(shè)備，它包括配有SSP軟件的一臺計算機(jī)。在當(dāng)前的標(biāo)準(zhǔn)電話或網(wǎng)絡(luò)計算機(jī)(NC)中，都不具備這種SSP能力。
因此，需要有一種便攜式的SSP設(shè)備，這種設(shè)備體積小，重量輕便于攜帶，可以與任何電話或數(shù)據(jù)通訊裝置相連接，并且具有當(dāng)經(jīng)由通訊線路訪問ASSR服務(wù)器，以及與服務(wù)器交互的整個過程中，易于精確地識別說話人的能力，以及在便攜式SSP裝置和ASSR服務(wù)器之間進(jìn)行精確的語音識別通訊的能力。
發(fā)明概要本發(fā)明的示例性的實施方案包括一個便攜式SSP裝置，該SSP裝置包括一個用于把包括語音、無聲和背景噪聲的聲音信號轉(zhuǎn)換為模擬信號的麥克風(fēng)；一個用于把模擬信號轉(zhuǎn)換為數(shù)字信號的模數(shù)轉(zhuǎn)換器；一個數(shù)字信號處理器(DSP)，用于從數(shù)字信號產(chǎn)生表示語音的特征向量數(shù)據(jù)和表示無聲和背景噪聲信號的特征數(shù)據(jù)；一個耦合器，用于與一個聲學(xué)或數(shù)據(jù)通訊裝置相連接，以便在通訊信道上傳送表示特征向量數(shù)據(jù)的信號，從而通過遠(yuǎn)程的ASSR服務(wù)器對語音進(jìn)行識別。此耦合器最好是一種聲耦合器，可把特征向量數(shù)據(jù)轉(zhuǎn)換為聲信號，在此情況下，通訊信道也是聲學(xué)意義上的信道，如電話線。另一方面，耦合器還包括適當(dāng)?shù)慕涌?，例如，連接器、端口及協(xié)議，用于與數(shù)字化的傳送裝置相連接，以在數(shù)據(jù)通訊信道上傳送。
便攜式SSP裝置最好包括一個給特征向量數(shù)據(jù)加密的加密裝置，以及一個用于壓縮特征向量數(shù)據(jù)的壓縮裝置。便攜式SSP裝置最好包括一個用于接收和處理從ASSR服務(wù)器返回的信號的裝置，以及把返回的信號轉(zhuǎn)換為數(shù)字化的返回信號，以供DSP處理的裝置。在此優(yōu)選實施方案中，DSP還包括用于對數(shù)字化的返回信號進(jìn)行解壓的裝置以及對數(shù)字化的返回信號進(jìn)行解碼的裝置。
便攜式SSP裝置最好還包括一個使得易于對包括與說話人、無聲和背景噪聲有關(guān)的聲學(xué)特征的通訊信道的傳遞函數(shù)進(jìn)行估計的裝置；最好是它通過給連接在遠(yuǎn)程信道上的ASSR服務(wù)器發(fā)送一組估計值參考信號。便攜式SSP裝置包括用于存儲包括該裝置特有的加密密碼數(shù)據(jù)或鑒別數(shù)據(jù)的數(shù)據(jù)在內(nèi)的數(shù)據(jù)存儲器。
本發(fā)明的另一個示例性的實施方案包括一個ASSR系統(tǒng)，該系統(tǒng)具有一個便攜式SSP裝置，該SSP裝置包括一個數(shù)字信號處理器(DSP)，用于處理讀入麥克風(fēng)的數(shù)字化的語音并產(chǎn)生表示語音的特征向量數(shù)據(jù)；一個耦合器，用于與連接于諸如電話線或數(shù)字通訊網(wǎng)絡(luò)的連接端的通訊信道的通訊裝置相連接，并將特征向量數(shù)據(jù)變換為信號以便在通訊信道上傳送；以及一個連接于通訊信道的自動語音/說話人識別(ASSR)服務(wù)器，用以接收從便攜式SSP通過通訊信道傳送過來的信號，并處理接收到的信號，以便對語音進(jìn)行識別。
系統(tǒng)中的ASSR服務(wù)器包括預(yù)存儲的注冊或鑒別數(shù)據(jù)的模型。此模型是在用戶或客戶注冊時建立的。ASSR模型也存儲詞表和其他模型，例如語言模型與隱馬爾可夫模型(HMM)，以用于語音識別。ASSR服務(wù)器處理從便攜式SSP裝置接收到的信號，并將處理信號與存儲模型進(jìn)行比較。
更有利的是，由于具有遠(yuǎn)程說話人識別能力，按照本發(fā)明的示例性的實施方案的系統(tǒng)提供了遠(yuǎn)程智能卡或磁卡驅(qū)動/關(guān)閉或者口令或PIN碼修改與重新生效的能力。
另外，按照本發(fā)明的示例性的實施方案的遠(yuǎn)程語音識別系統(tǒng)為ASSR提供了甚至在不利的信號傳送或嚴(yán)重信號畸變的通訊環(huán)境中低錯誤率大詞匯量的語音識別能力。
附圖簡述本發(fā)明的優(yōu)選實施方案將參考附圖在下面詳細(xì)描述，其中

圖1示意了按照本發(fā)明的一個優(yōu)選實施方案的便攜式語音識別裝置；圖2是按照本發(fā)明的另一個示例性實施方案，帶有圖1所示裝置的系統(tǒng)的方框圖；圖3是按照本發(fā)明的另一個示例性實施方案，帶有圖1所示裝置的另一個系統(tǒng)的方框圖；圖4示意了按照本發(fā)明的示例性實施方案的系統(tǒng)在智能卡PIN鑒別/重置系統(tǒng)中的應(yīng)用。
優(yōu)選實施方案的詳細(xì)描述圖1所示是按照本發(fā)明的示例性實施方案的便攜式語音信號預(yù)處理(SSP)裝置99的一個方框圖。麥克風(fēng)100用于接收包括使用者所說的語音，無聲及背景噪聲在內(nèi)的聲音，并把聲音轉(zhuǎn)換為模擬電信號。麥克風(fēng)100與模數(shù)轉(zhuǎn)換器110相連，該模數(shù)轉(zhuǎn)換器把來自麥克風(fēng)100的模擬電信號轉(zhuǎn)換為數(shù)字信號以饋送給數(shù)字信號處理器(DSP)120來處理。DSP120最好包括一個處理器和相關(guān)的存儲器，以及預(yù)存的程序，用于處理數(shù)據(jù)并控制在便攜式SSP裝置99中的數(shù)據(jù)流。在本實施方案中，DSP120的功能包括把讀入麥克風(fēng)100的語音數(shù)據(jù)預(yù)處理為特征向量，處理無聲及背景噪聲數(shù)據(jù)以幫助建立或估計通訊信道的傳遞函數(shù)，并執(zhí)行其他的ASSR功能，包括協(xié)調(diào)便攜式SSP裝置的數(shù)據(jù)傳送與接收，加密/解密，如果必要的話還有數(shù)據(jù)的壓縮/解壓。這些功能與通訊信道傳遞函數(shù)的估計在下面將進(jìn)一步描述。注意，對于上述的DSP功能或技術(shù)，每個對技術(shù)有一般熟悉程度的人都是了解的，并且有多種市場上可以買到的DSP都可被用于執(zhí)行那些功能。例如，由德州儀器公司制造的TMS32010模塊，由日本電子公司制造的UPD77720都適用于上述應(yīng)用。
由DSP120處理后的數(shù)據(jù)被輸出到聲學(xué)耦合器150上，在其間數(shù)字信號被轉(zhuǎn)換為音頻信號。因此，從聲耦合器來的音頻信號可以被播放或讀入諸如一個標(biāo)準(zhǔn)電話聽筒這類音頻通訊裝置，用于在一個諸如電話線的音頻通訊信道上傳輸。按照這個優(yōu)選實施方案，聲耦合器150包括一個把數(shù)字信號轉(zhuǎn)換為音頻信號的變換器和一個適用于與接收器或標(biāo)準(zhǔn)電話聽筒的相連接的耦合器。例如，聲耦合器的連接部分最好用柔性材料制作，如橡膠，柔性材料可以使聲耦合器與標(biāo)準(zhǔn)電話配置的送話口牢固地相連或相配合，以便使便攜式SSP裝置99與標(biāo)準(zhǔn)電話設(shè)備可容易地連接或分離，無論用戶在哪里，都使得便攜裝置從一部電話到另一部電話的攜帶和移動更為容易。便攜式裝置最好用電池自行供電?？梢钥闯觯銛y裝置的基本組件包括麥克風(fēng)，模數(shù)轉(zhuǎn)換器，DSP，耦合器與電池，它體積小而重量輕。便攜裝置可以是手持式的，或者用戶可以像袋裝計算器或皮夾一樣把它裝在口袋里。
再參考圖1，加密裝置130和壓縮裝置140是便攜式ASSR裝置99的可選擇組件。加密裝置130，可以是連接于DSP120的分立式芯片或模塊，也可以是DSP120的一個組成程序，它用預(yù)先建立的密鑰對DSP120預(yù)處理后的數(shù)據(jù)加密，用以提供在電話線上信號的保密處理。密鑰可能是與用戶有關(guān)的密碼。DSP120最好在特征向量流中加入已知的信號，用于ASSR服務(wù)器200的處理。如果這個信號對于ASSR服務(wù)器200是已知的，而且是所期望的，附加信號就可被輕易地抽取出來，并且從服務(wù)器到客戶的逆過程更為簡單。例如，在無線通訊中，可使用信號的擴(kuò)展譜調(diào)制。多種其他已知的加密技術(shù)或算法都可被用于加密/解密過程。例如，參考1996年Wiley出版的Bruce Schenier的《應(yīng)用密碼學(xué)》第二版中描述的加密算法。
壓縮裝置140是DSP120的可選擇組件，它有可能是DSP120外部的組件或芯片，也有可能作為DSP120的一個預(yù)存儲程序功能被包含在DSP120中。壓縮裝置140對預(yù)處理后的數(shù)據(jù)進(jìn)行壓縮，無論這些數(shù)據(jù)是加密的，還是未加密的，壓縮完后再在電話線上的傳輸，其目的是在給定的電話線的低帶寬條件下，增加所傳輸?shù)挠梢纛l信號所攜帶的數(shù)據(jù)量。信號壓縮技術(shù)也是眾所周知的。壓縮裝置140最好執(zhí)行無損壓縮。
來自麥克風(fēng)100的數(shù)字化信號的預(yù)處理包括產(chǎn)生表征被讀入麥克風(fēng)100的語音模式的向量序列的已有技術(shù)。例如，專利號為5,544,277的美國專利就描述了這樣一類預(yù)處理技術(shù)。專利號為5,544,277的美國專利的公布在此包含作為參考。另外，DSP120處理無聲和背景噪聲數(shù)據(jù)以產(chǎn)生環(huán)境數(shù)據(jù)并通過電話線把這些數(shù)據(jù)饋送給一個ASSR服務(wù)器來處理。ASSR服務(wù)器最好被安排在一個中心位置，并與電話線或一個數(shù)字網(wǎng)絡(luò)相連接以便通過任意電話或聯(lián)網(wǎng)的工作站進(jìn)行方便的訪問。
按照本發(fā)明的另一個優(yōu)選實施方案，DSP120協(xié)調(diào)從ASSR服務(wù)器經(jīng)通訊線路到便攜式SSP裝置99的音頻數(shù)據(jù)的接收。從ASSR服務(wù)器過來的音頻數(shù)據(jù)包括詢問進(jìn)一步信息的提白或用戶指令。在這個示例性實施方案中，聲耦合器150包括一個接收器，這個接收器在形狀和大小上都非常像用于與電話機(jī)的聽筒相連的聲耦合器的發(fā)送器。另一個擴(kuò)音器可能與聽筒或耦合器接在一起來播放收到的消息。DSP120包括可選擇的預(yù)存儲程序功能，如果加密和壓縮過的數(shù)據(jù)從ASSR服務(wù)器傳過來的話，能夠?qū)邮盏降臄?shù)據(jù)解壓和解密。聲耦合器150的接收器部分把從電話的聽筒中接收過來的音頻信號轉(zhuǎn)換為數(shù)字信號用于DSP120的處理。
一個利用本發(fā)明的便攜式SSP裝置的系統(tǒng)在圖2中說明。ASSR服務(wù)器200最好位于遠(yuǎn)離便攜式SSP裝置99的中心的位置，并且是可通過電話線用電話訪問的。一旦建立了連接，即把便攜式SSP裝置99與ASSR服務(wù)器200連接起來了，一個語音/說話人識別系統(tǒng)就建立起來了。ASSR服務(wù)器與便攜式SSP裝置99進(jìn)行通訊從而通過讀取在用戶端的當(dāng)前無聲與背景噪聲，建立或估計通訊信道的傳遞函數(shù)。通訊信道的傳遞函數(shù)的估計技術(shù)也是眾所周知的。例如，請參閱Prentice Hall在1987年出版的B.C.Kuo的《自動控制系統(tǒng)》，以及Mc Graw Hill在1988年出版的J.V.Candy的《信號處理現(xiàn)代方法》。下面，將描述按照本發(fā)明的一個示例性過程。DSP120在傳輸或通訊開始時產(chǎn)生不同的數(shù)據(jù)。這些不同的信號是具有已知特性的上升或下降的線形調(diào)頻脈沖，一系列等間隔的帶符號的音調(diào)與一個白噪聲信號。序列寬度與信號之間的間隔被很好地建立起來。便攜裝置99一接收到從服務(wù)器200過來的輸入音調(diào)信號就會產(chǎn)生。信號被產(chǎn)生兩次。一次從DSP120產(chǎn)生，一次從麥克風(fēng)100產(chǎn)生。服務(wù)器200接收到的聲音信號與預(yù)先建立的參考信號進(jìn)行比較并且信道與背景的傳遞函數(shù)被推斷出來，產(chǎn)生信道的特征(signature)。這個特征用于對語音特征向量的解卷積。ASSR服務(wù)器最好包括用于語音或說話人識別的ASSR預(yù)存程序。例如，如果聲學(xué)特征處于相應(yīng)的狀態(tài)，代表lefemes的隱馬爾可夫模型(HMM)被用于描述觀察到的聲學(xué)特征的概率，并以最優(yōu)路徑來識別語音的發(fā)音。概率可以通過這樣的方式來被訓(xùn)練，即用錄制好的訓(xùn)練語音來與HMM匹配并由此更新概率。例如，專利號為5031217和5276766的美國專利描述了使用HMM和其他模型的語音識別技術(shù)。這里這些公開的專利被包括在內(nèi)作為參考。按照本發(fā)明的示例性實施方案的ASSR服務(wù)器刻畫了用戶端的無聲和背景噪聲的特性。在用戶無聲期間或在如上所述的DSP120發(fā)送參考信號期間，它最好能考慮在連接開始時的背景噪聲的存在。背景噪聲由麥克風(fēng)100所檢測，由DSP120處理并在參考信號的第二部分之后發(fā)送。ASSR服務(wù)器200用這些信息來推斷背景噪聲并由此修改對接收到的輸入向量的處理(例如，通過平均倒譜減法，解卷積，等)。另一方面，針對這種情況訓(xùn)練好的語音或說話人識別預(yù)存模型被啟用。類似地，無聲的時間段也被檢測，并且與句子之間和用戶說話之前的無聲部分相聯(lián)系的聲音特征優(yōu)選被用來估計背景噪聲。
更為有利的是，本發(fā)明的示例性實施方案中的ASSR系統(tǒng)同時完成說話人與語音識別的功能。說話人識別可被用于遠(yuǎn)程訪問ASSR服務(wù)器。最好，本發(fā)明的示例性ASSR系統(tǒng)以后臺任務(wù)方式基本上連續(xù)地處理通訊數(shù)據(jù)，以便確認(rèn)在一個對話過程中說話人的存在。
到目前為止，按照本發(fā)明的ASSR裝置和系統(tǒng)在圖示的說明中，通訊裝置為一部電話，通訊信道為一條電話線，并且ASSR服務(wù)器與電話線相連接。通訊信道由一條數(shù)字通訊信道組成，如因特網(wǎng)(Internet)，企業(yè)內(nèi)部網(wǎng)(Intranet)或局域網(wǎng)也在本發(fā)明的構(gòu)想內(nèi)。因而，ASSR服務(wù)器200可通過電話或數(shù)字網(wǎng)絡(luò)來訪問。圖3說明了帶有一臺多媒體計算機(jī)160的作為與服務(wù)器200接口的便攜裝置99。在這個實施方案中，電話的聽筒被包括一個麥克風(fēng)和一個揚(yáng)聲器的多媒體計算機(jī)160所替代。聲耦合器150的接收部分被安置在計算機(jī)揚(yáng)聲器的附近位置，聲耦合器150的傳送部分被安置在計算機(jī)麥克風(fēng)的相近位置。計算機(jī)160包括一個調(diào)制解調(diào)器，用于通過電話線傳輸數(shù)據(jù)或通過一個因特網(wǎng)服務(wù)器300與服務(wù)器200相連接。如果因特網(wǎng)服務(wù)器300像服務(wù)器200一樣包括ASSR能力，可以在計算機(jī)160和因特網(wǎng)服務(wù)器300之間建立一個ASSR系統(tǒng)或連接。在本實施方案中，多媒體計算機(jī)用作為音頻通訊裝置。
另一方面，便攜式SSP裝置99可以通過一個連接器連接到計算機(jī)上的一個或多個I/O端口。在這樣的實施方案中，聲耦合器150可以省去，因為從DSP120過來的數(shù)據(jù)可被直接送到計算機(jī)的處理器中。按照本發(fā)明的的另一個實施方案，多媒體計算機(jī)160可以是一臺將上述便攜式SSP裝置99的各組件內(nèi)置的便攜式膝上型多媒體計算機(jī)。因此便攜式膝上型多媒體計算機(jī)能夠執(zhí)行所有由便攜式SSP裝置99執(zhí)行的功能。便攜式膝上型計算機(jī)可以通過一個調(diào)制解調(diào)器或通過因特網(wǎng)服務(wù)器300與ASSR服務(wù)器直接相連，這種連接，例如，可通過諸如TCP/IP，NET BUI等協(xié)議來完成。
仍按照本發(fā)明的另一個實施方案，便攜式SSP裝置99的功能和組件可以內(nèi)置于一部便攜式電話。這樣，便攜式SSP電話包括DSP120，并且與ASSR服務(wù)器200的連接以及對它的訪問就可以通過便攜式電話的通訊信道來進(jìn)行，這種通訊信道可能是模擬的，也可能是數(shù)字的(比如說，碼分多址(CDMA)，全球通(GSM)，等等)。
更為有利的是，由于在便攜式裝置99中，具有前述的對從ASSR服務(wù)器而來的數(shù)據(jù)進(jìn)行接收，解密或解壓的能力，便攜式裝置99可以接收各種數(shù)據(jù)以執(zhí)行解密或鑒別的功能。例如，在本次與通訊期間，接收密鑰來對接收到的信號解密；接收曲奇(Cookies)用于確定密鑰的有效長度，密碼卡上的PIN的有效長度，等等；此前接收的數(shù)字檢驗碼或預(yù)先收到的鑒別檢驗碼，用于鑒別用戶直到它們過期為止；接收噪聲模式用于屏蔽或中斷屏蔽噪聲；以及接收智能卡上的PIN數(shù)字或碼，它們與表征PIN終止日期的曲奇一起，是用智能卡的嵌入芯片所編碼的內(nèi)容的一部分，或者是在信用卡類型卡的磁區(qū)域上編碼內(nèi)容的一部分。所接收的數(shù)據(jù)被存在DSP120的存儲器。通過已知的技術(shù)，一個與便攜式裝置200相連的接口可用于對DSP120的讀/寫/再編程。
因此，本發(fā)明的示例性裝置和技術(shù)可被用于鑒別，重設(shè)或取消用戶或客戶的口令，注冊，PIN，以及/或者加密/解密的密鑰。這些任務(wù)可在一個智能卡或者有磁區(qū)域的卡上遠(yuǎn)程執(zhí)行。
按照本發(fā)明的示例性實施方案的系統(tǒng)在智能卡鑒別/PIN重新設(shè)置系統(tǒng)中的一個應(yīng)用在圖4中說明。
智能卡的初始化在一個典型的智能卡系統(tǒng)中，一個智能卡是通過用一個機(jī)構(gòu)的認(rèn)證書與公共/個人密碼集來首次初始化，從而被激活，使之可以投入使用。在注冊服務(wù)器410中，系統(tǒng)管理員一般將一個新的智能卡與他自己的管理員智能卡同時插入，并敲入他的PIN號來授權(quán)一個新用戶的注冊。然后，管理員啟動用戶智能卡初始化程序，該程序一般將確認(rèn)信息，比如用戶的個人與公共密鑰集，用戶名，編號，智能卡編號等印在智能卡上。
注冊服務(wù)器410，它可以等同于圖3中的工作站220，生成用戶概況，產(chǎn)生請求的個人/公共密碼和認(rèn)證書，并將信息下載到智能卡。接著，注冊服務(wù)器410要求用戶對著工作站揚(yáng)聲器說話以便確認(rèn)。這些聲音消息被送至說話人鑒別服務(wù)器420，它等同于圖1至圖3的ASSR服務(wù)器200。聲音消息，認(rèn)證書和特有的智能卡編號被存入一個相關(guān)的數(shù)據(jù)庫或存入ASSR服務(wù)器200中備以后的確認(rèn)用或其他用途。
另一方面，一旦認(rèn)證書被公布以及建立了用戶概況，注冊服務(wù)器410把注冊數(shù)據(jù)上載給上級服務(wù)器430和路徑服務(wù)器440用于存儲。注冊數(shù)據(jù)也可以下載給工作站450和智能卡讀取器460。工作站450包括便攜式SSP99的組件和功能，或者一個便攜式SSP可能與工作站450相連接以便利與說話人鑒別服務(wù)器420的關(guān)于說話人/語音信息的通訊。對于每一個機(jī)構(gòu)的每個智能卡都產(chǎn)生一個RSA密碼對。個人的密碼被寫入智能卡用于以后的PIN重新設(shè)置。智能卡用一個特有的編號同時在內(nèi)部(寫入)和外部(打印在卡上)進(jìn)行初始化，以備后用。
在上述的安裝或初始化的情況下，如果用戶忘記了他的PIN或他的PIN的有效期已過并且沒有重新設(shè)置，他可以按照這種方式遠(yuǎn)程重設(shè)或重建他的PIN，即通過他的個人計算機(jī)或一個手持便攜式SSP裝置99和智能卡讀取器460(或者磁寫入器，如果用一個磁條卡代替了智能卡的話)連接ASSR服務(wù)器上，來申請PIN的重新設(shè)置，這種方式如下所述。
用戶用他的個人計算機(jī)與ASSR服務(wù)器建立連接(比如說通過SSL V2)，請求改變他的智能卡的PIN。對話框或語音提白會提示用戶敲入他的用戶ID，名字，智能卡編號，等等。ASSR服務(wù)器200根據(jù)敲入的信息訪問預(yù)存的認(rèn)證書和用戶概況。然后ASSR服務(wù)器會提示用戶對著個人計算機(jī)的傳聲器讀入預(yù)置的語音消息，用于確認(rèn)。
被訪問的數(shù)據(jù)庫中的用戶概況和聲音段與用戶輸入的聲音消息相比較，進(jìn)行確認(rèn)。用戶可能有幾次機(jī)會來確保鑒別程序的輸入正確。如果鑒別是正確的，并且用戶是當(dāng)前合法用戶，ASSR服務(wù)器200用智能卡認(rèn)證書和公共密碼對PIN重新設(shè)置命令進(jìn)行加密，并且把它送到用戶的個人計算機(jī)和相關(guān)的智能卡閱讀器。接著用戶的智能卡利用它的特有的個人密碼PIN重新設(shè)置命令進(jìn)行解密。
如果智能卡的個人密碼成功地為PIN重新設(shè)置命令進(jìn)行了解密，智能卡就會被激活。智能卡可能包括對寫入智能卡的特有編號和由ASSR服務(wù)器200提供的號碼進(jìn)行比較的電路。如果它們相同，則智能卡可解除鎖定狀態(tài)而進(jìn)行PIN重新設(shè)置的操作。
一旦智能卡被激活，并且PIN被重新設(shè)置，用戶可以對他的智能卡敲入一個新PIN。這種智能卡適用于任何保密事務(wù)。
用電話重新設(shè)置PIN如果計算機(jī)上沒有揚(yáng)聲器，用戶可以用電話呼叫ASSR服務(wù)器200，以便進(jìn)行智能卡PIN的重新設(shè)置。利用相同的說話人鑒別過程，他可命令服務(wù)器在一個電子信封中建立加密的PIN重新設(shè)置命令以備后用。
利用個人計算機(jī)和智能卡讀取器，用戶通過ASSR服務(wù)器200與智能卡管理服務(wù)器建立保密套接層(SSL)的對話(只能利用宿主認(rèn)證書)，并申請PIN的重新設(shè)置。接著ASSR服務(wù)器200把加密的信封發(fā)送到個人計算機(jī)智能卡讀取器。當(dāng)智能卡接收到電子信封后，就用智能卡的個人密碼對信封中的PIN重新設(shè)置命令進(jìn)行解密。只有個人密碼正確的智能卡能對PIN重新設(shè)置命令進(jìn)行解密。智能卡也對唯一智能卡編號和由智能卡管理服務(wù)器提供的號碼進(jìn)行比較。若數(shù)據(jù)匹配，智能卡就被重新設(shè)置，以便后面PIN的初始化和設(shè)置。
遠(yuǎn)程智能卡的失效
如果智能卡丟失或被盜，用戶必須盡快地讓他的智能卡失效。在這種情況下，他可以用電話通過ASSR服務(wù)器200連接到智能卡管理服務(wù)器，用同樣的鑒別過程使他的智能卡失效。
上述按照本發(fā)明的示例性實施方案的系統(tǒng)的示例性應(yīng)用可用于用聲音確認(rèn)的網(wǎng)絡(luò)訪問注冊或口令。
一個網(wǎng)絡(luò)用戶執(zhí)行一個初始化過程，為ASSR服務(wù)器數(shù)據(jù)庫中的記錄錄制一套預(yù)置的說話人消息。ASSR服務(wù)器200可作為一個管理服務(wù)器，用說話人確認(rèn)過程來執(zhí)行所有注冊ID和口令管理的任務(wù)，就像對智能卡用戶確認(rèn)中所描述的那樣。
類似于PIN重新設(shè)置過程，如果一個用戶忘記了他的注冊口令或他的口令已經(jīng)失效，他可以通過ASSR服務(wù)器200，經(jīng)過確認(rèn)，來申請改變口令或口令的重新生效，并且新口令或重新生效的口令會下載給用戶。其他應(yīng)用包括與電子錢卡或皮夾卡的交互，其中，一個IC芯片含有卡中有關(guān)錢的數(shù)量信息。當(dāng)用卡購物時，錢的數(shù)量減少。用類似于如上所述的智能卡交互方法的過程，按照本發(fā)明的示例性實施方案的系統(tǒng)可用來給卡上加錢。
盡管本發(fā)明的某些實施方案已詳細(xì)描述，但一個普通的技術(shù)人員就會實現(xiàn)數(shù)種變化或修改方案，而不偏離本發(fā)明精神。因此，應(yīng)參考后面所附的權(quán)利要求書，以確定本發(fā)明范圍。
權(quán)利要求
1.一個便攜式語音識別裝置，包括一個麥克風(fēng)，用于把包括語音，無聲，和背景噪聲信號的聲音轉(zhuǎn)換為模擬信號；一個模數(shù)轉(zhuǎn)換器，用于把該模擬信號轉(zhuǎn)換為數(shù)字信號；一個數(shù)字信號處理器，用于從該數(shù)字信號產(chǎn)生表示所述語音的特征向量數(shù)據(jù)；一個聲學(xué)耦合器，用于把該特征向量數(shù)據(jù)轉(zhuǎn)換為聲音信號，還用于與聲音通訊裝置相連接從而在通訊信道上傳送該語音，便于在遠(yuǎn)處識別該語音。
2.按照權(quán)利要求1的裝置，其特征是，還包括一個加密裝置用于對該特征向量數(shù)據(jù)加密。
3.按照權(quán)利要求1的裝置，其特征是，還包括一個數(shù)據(jù)壓縮裝置用于對該特征向量數(shù)據(jù)進(jìn)行壓縮。
4.按照權(quán)利要求1的裝置，其特征是，此聲學(xué)耦合器包括在通訊信道上接收從遠(yuǎn)處返回信號，并把此返回信號轉(zhuǎn)換為數(shù)字返回數(shù)據(jù)供該DSP處理的裝置。
5.按照權(quán)利要求4的裝置，其特征是，此DSP還包括用于對該數(shù)字返回數(shù)據(jù)進(jìn)行解壓的裝置。
6.按照權(quán)利要求4的裝置，其特征是，此DSP還包括用于對該數(shù)字返回數(shù)據(jù)進(jìn)行解密的裝置。
7.按照權(quán)利要求1的裝置，其特征是，還包括估計該通訊信道的傳遞函數(shù)的裝置。
8.按照權(quán)利要求1的裝置，其特征是，此DSP包括接收和處理從服務(wù)器而來的數(shù)據(jù)的裝置，這個服務(wù)器在遠(yuǎn)處連接于此信道。
9.按照權(quán)利要求1的裝置，其特征是，此DSP包括存儲器用于存儲包括該裝置特有的密碼數(shù)據(jù)的數(shù)據(jù)。
10.按照權(quán)利要求1的裝置，其特征是，還包括用于表征通訊信道特征的裝置，通訊信道的特征是與所述裝置周圍的無聲和背景噪聲相聯(lián)系的。
11.一個語音識別系統(tǒng)，包括一個便攜式語音信號預(yù)處理器，具有一個數(shù)字信號處理器(DSP)，用于處理讀入SSP的數(shù)字化語音并產(chǎn)生表示該語音的特征向量數(shù)據(jù)；而且一個耦合器，用于與通訊裝置相連接從而在通訊信道上傳送代表該特征向量數(shù)據(jù)的信號；以及一個自動語音/說話人識別(ASSR)服務(wù)器，遠(yuǎn)程連接于通訊信道，用于通過該通訊信道接收從這個便攜式SSP傳過來的代表特征向量數(shù)據(jù)的所述信號，并處理該信號以實現(xiàn)對語音或說話人的識別。
12.按照權(quán)利要求11的系統(tǒng)，其特征是，該ASSR服務(wù)器包括鑒別數(shù)據(jù)的預(yù)存模型，通過處理從便攜式SSP傳過來的信號并且把處理過的信號與鑒別數(shù)據(jù)的預(yù)存模型相比較，以實現(xiàn)對合法用戶的確認(rèn)。
13.按照權(quán)利要求11的系統(tǒng)，其特征是，ASSR服務(wù)器包括一個用于語音識別的詞表數(shù)據(jù)庫，識別是通過處理從便攜式SSP傳過來的信號并且把處理過的信號與該數(shù)據(jù)庫相比較而實現(xiàn)的。
14.按照權(quán)利要求11的系統(tǒng)，其特征是，ASSR服務(wù)器通過處理由便攜式SSP接收過來的信號來確認(rèn)用戶口令。
15.按照權(quán)利要求11的系統(tǒng)，其特征是，ASSR服務(wù)器通過處理由便攜式SSP接收過來的信號來辨識呼叫者，該信號源于呼叫者讀入便攜式SSP的語音。
16.按照權(quán)利要求11的系統(tǒng)，其特征是，便攜式SSP包括接收和處理從ASSR服務(wù)器返回信號的裝置。
17.按照權(quán)利要求16的系統(tǒng)，其特征是，該返回信號包括改變的確認(rèn)數(shù)據(jù)和提白之一。
18.按照權(quán)利要求11的系統(tǒng)，其特征是，該便攜式SSP包括相關(guān)的存儲器，用于存儲包括從該ASSR服務(wù)器接收來數(shù)據(jù)的數(shù)據(jù)。
19.按照權(quán)利要求11的系統(tǒng)，其特征是，還包括估計連接的傳遞函數(shù)的裝置，該連接是通過通訊信道在便攜式SSP和ASSR服務(wù)器之間的連接。
20.按照權(quán)利要求11的系統(tǒng)，其特征是，此耦合器是一種聲耦合器，它把特征向量數(shù)據(jù)轉(zhuǎn)換為聲信號，并且此通訊信道也是聲學(xué)意義上的信道。
21.按照權(quán)利要求11的系統(tǒng)，其特征是，該便攜式SSP和該ASSR服務(wù)器包括通過一個通訊對話定期地執(zhí)行說話人識別任務(wù)的裝置。
22.一種通過聲音來確認(rèn)客戶/服務(wù)器系統(tǒng)的合法客戶的方法，包括這些步驟在自動語音識別(ASSR)服務(wù)器的存儲器中，存儲注冊數(shù)據(jù)的多個模型；從相對于ASSR服務(wù)器遠(yuǎn)程分布的便攜式語音信號預(yù)處理(SSP)裝置，通過一個通訊信道連接到ASSR服務(wù)器上；把該注冊數(shù)據(jù)讀入便攜式SSP裝置；在該便攜式SSP裝置中，將該注冊數(shù)據(jù)預(yù)處理為特征向量；通過所述通訊信道，ASSR服務(wù)器接收表示該特征向量的信號；及處理ASSR服務(wù)器接收的信號，并將處理過的信號與預(yù)存模型相比較，用于鑒別合法用戶。
23.按照權(quán)利要求22的方法，其特征是，還包括一個改變用戶口令的步驟，該步驟通過從ASSR服務(wù)器把一個改變后的口令數(shù)據(jù)傳送給便攜式SSP裝置來實現(xiàn)。
24.按照權(quán)利要求22的方法，其特征是，還包括一個改變智能卡PIN的步驟，該步驟通過從ASSR服務(wù)器把一個改變后的智能卡數(shù)據(jù)饋送給便攜式SSP裝置來實現(xiàn)。
25.按照權(quán)利要求24的方法，其特征是，該改變后的智能卡數(shù)據(jù)被ASSR服務(wù)器加密，并由便攜式SSP裝置解密以改變該智能卡PIN。
26.按照權(quán)利要求22的方法，其特征是，還包括一個改變磁卡的PIN的步驟，該步驟通過從ASSR服務(wù)器把一個改變后的PIN數(shù)據(jù)饋送給磁卡寫入器和便攜式SSP裝置來實現(xiàn)。
全文摘要
便攜式語音信號預(yù)處理(SSP)裝置具有,用于接收語音和背景噪聲的麥克風(fēng),一個用于將接收到的噪聲處理為特征向量的數(shù)字信號處理器(DSP),一個與通訊裝置相連用于在通訊信道上傳輸?shù)鸟詈掀?。一個自動語音/說話人識別(ASSR)服務(wù)器在通訊信道上接收預(yù)處理過的語音數(shù)據(jù),并識別語音或說話人。一個帶有便攜式SSP裝置和ASSR服務(wù)器的系統(tǒng)可被用于對遠(yuǎn)程的智能卡,磁卡或電子錢卡進(jìn)行激活,重新設(shè)置,或改變PIN碼。
文檔編號G10L15/00GK1229229SQ98107970
公開日1999年9月22日申請日期1998年5月8日優(yōu)先權(quán)日1997年6月11日
發(fā)明者D·肯尼維斯基, S·H·米斯, C·普羅徹羅, P·S·普恩申請人:國際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載