專利名稱:計算機(jī)人聲識別方法和具有人聲識別功能的電話通訊系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種人聲識別方法, 尤其是一種借助計算機(jī)識別人聲的方法,本發(fā)明還涉及采用該方法的具有識別主叫方功能的電話通訊系統(tǒng),屬于通訊設(shè)備為了達(dá)到上述目的,本發(fā)明計算機(jī)人聲識別方法在包括CPU、音頻—數(shù)字信號轉(zhuǎn)換卡(例如聲卡)、存儲器的計算機(jī)中,采用以下步驟工作1).將可以從音頻數(shù)字信號中提取特征向量信號、建立數(shù)學(xué)分布模型的訓(xùn)練程序以及可以從音頻數(shù)字信號中提取特征向量信號、并與數(shù)學(xué)分布模型比較、算出概率結(jié)果的識別程序分別存入計算機(jī)的存儲器中,建立訓(xùn)練模塊和識別模塊;2).啟動計算機(jī)后,音頻—數(shù)字信號轉(zhuǎn)換卡將首次輸入的音頻信號轉(zhuǎn)換成數(shù)字信號;3).CPU讀取經(jīng)轉(zhuǎn)換的音頻數(shù)字信號,并調(diào)取存儲器訓(xùn)練模塊中的訓(xùn)練程序;4).CPU根據(jù)訓(xùn)練程序,提取上一步音頻數(shù)字信號中的特征向量信號;5).CPU根據(jù)上一步特征向量信號建立數(shù)學(xué)分布模型數(shù)據(jù);6).將數(shù)學(xué)分布模型數(shù)據(jù)及與之對應(yīng)的結(jié)果信息數(shù)據(jù)存入外部存儲器,形成數(shù)據(jù)庫;7).音頻—數(shù)字信號轉(zhuǎn)換卡將再次輸入的音頻信號轉(zhuǎn)換成數(shù)字信號;8).CPU讀取經(jīng)轉(zhuǎn)換的上一步音頻數(shù)字信號,并調(diào)取存儲器識別模塊中的識別程序;9).CPU根據(jù)識別程序,提取上一步音頻數(shù)字信號中的特征向量信號;10).CPU將上一步特征向量信號代入外部存儲器中的各數(shù)學(xué)分布模型,得出相應(yīng)的概率值;11).CPU比較各概率值,從外部存儲器數(shù)據(jù)庫中選出最大的N(N=1-10)個概率值所對應(yīng)的結(jié)果信息數(shù)據(jù),送顯示器顯示。
值得一提的是,本發(fā)明所說的計算機(jī)是廣義概念,包括個人計算機(jī)、工控機(jī)、以及其它有類似處理能力的設(shè)備。
本發(fā)明具有人聲識別功能的電話通訊系統(tǒng)包括現(xiàn)有技術(shù)中的自動呼叫分配器(ACD)、接線員終端話機(jī)和計算機(jī),還包括采用上述方法的計算機(jī)——在該系統(tǒng)中被稱為說話人識別服務(wù)器(SR Server)。其中自動呼叫分配器(ACD)的外通訊端直接或經(jīng)過網(wǎng)絡(luò)接入設(shè)備外接通訊網(wǎng)絡(luò),內(nèi)通訊端接接線員終端話機(jī)和計算機(jī),以及說話人識別服務(wù)器(SR Server)。
本發(fā)明具有人聲識別功能的電話通訊系統(tǒng)工作時,當(dāng)有用戶向系統(tǒng)撥打電話,自動呼叫分配器響應(yīng),將客戶的人聲應(yīng)答傳送到說話人識別服務(wù)器,該服務(wù)器中的音頻—數(shù)字信號轉(zhuǎn)換卡將首次輸入的音頻信號轉(zhuǎn)換成數(shù)字信號;CPU讀取經(jīng)轉(zhuǎn)換的音頻數(shù)字信號,并調(diào)取存儲器識別模塊中的識別程序,接著根據(jù)識別程序,提取音頻數(shù)字信號中的特征向量信號,代入外部存儲器中的各數(shù)學(xué)分布模型,得出相應(yīng)的概率值,再從外部存儲器數(shù)據(jù)庫中選出最大的N個概率值所對應(yīng)的結(jié)果信息數(shù)據(jù),送接線員終端話機(jī)和計算機(jī)顯示器顯示。這樣,便可迅速知曉打入電話者為何人。如果識別結(jié)果為空,即以前此呼叫從未打過本系統(tǒng)的電話,則說話人識別服務(wù)器的CPU經(jīng)讀取經(jīng)轉(zhuǎn)換的音頻數(shù)字信號、調(diào)取存儲器訓(xùn)練模塊中的訓(xùn)練程序、提取音頻數(shù)字信號中的特征向量信號、根據(jù)特征向量信號建立數(shù)學(xué)分布模型數(shù)據(jù)、將數(shù)學(xué)分布模型數(shù)據(jù)及與之對應(yīng)的結(jié)果信息數(shù)據(jù)存入外部存儲器,形成數(shù)據(jù)庫,以供今后識別對比。
由此可見,采用本發(fā)明后,可以根據(jù)聲音識別客戶來電,從而擺脫對原有來電顯示的依賴性,提供更加可靠的判斷用戶的方法,使得呼叫中心得以提供更加個性化的服務(wù),大大提高服務(wù)質(zhì)量。
圖1是現(xiàn)有技術(shù)呼叫中心的系統(tǒng)示意圖。
圖2是本發(fā)明實(shí)施例一的系統(tǒng)構(gòu)成示意圖。
圖3是本發(fā)明實(shí)施例二的系統(tǒng)構(gòu)成示意圖。
本實(shí)施例具有人聲識別功能的電話通訊系統(tǒng)工作時,當(dāng)有用戶向系統(tǒng)撥打電話,自動呼叫分配器(ACD)響應(yīng),將電話送到交互人聲應(yīng)答系統(tǒng)(IVR),詢問客戶需要幫助的類型,并將客戶的人聲傳送到說話人識別服務(wù)器(SR Server),該服務(wù)器按照上述計算機(jī)有關(guān)工作步驟(步驟7)-11)), 將識別結(jié)果傳送到接線員終端計算機(jī)上。如果識別結(jié)果為空,即以前此呼叫從未打過本系統(tǒng)的電話,則說話人識別服務(wù)器將按照有關(guān)步驟(步驟2)-6))將其記錄下來,以供今后識別對比。
本實(shí)施例可以在現(xiàn)有交互人聲應(yīng)答系統(tǒng)(IVR)上進(jìn)行簡單改裝實(shí)現(xiàn),因此便于普及推廣。
該實(shí)施例的特點(diǎn)是既可以通過媒體網(wǎng)關(guān)(IP Gateway)將共同電話網(wǎng)傳來的電話呼叫轉(zhuǎn)換成計算機(jī)呼叫,再通過客服服務(wù)器(Fine Support Server)協(xié)調(diào)自動呼叫分配器(ACD)以及說話人識別服務(wù)器(SR Server)的工作,從而完成呼叫者人聲的識別;也可以直接通過客服服務(wù)器(Fine Support Server)的協(xié)調(diào)識別來自互聯(lián)網(wǎng)的呼叫者的人聲識別,用途更為廣泛。
除上述實(shí)施例外,本發(fā)明還可以廣泛用于數(shù)字簽名、防盜門開啟、銀行信用卡支付等諸多領(lǐng)域,前景廣闊。
權(quán)利要求
1.一種計算機(jī)人聲識別方法,其特征在于在包括CPU、音頻—數(shù)字信號轉(zhuǎn)換卡、存儲器的計算機(jī)中,采用以下步驟工作1).將可以從音頻數(shù)字信號中提取特征向量信號、建立數(shù)學(xué)分布模型的訓(xùn)練程序以及可以從音頻數(shù)字信號中提取特征向量信號、并與數(shù)學(xué)分布模型比較、算出概率結(jié)果的識別程序分別存入計算機(jī)的存儲器中,建立訓(xùn)練模塊和識別模塊;2).啟動計算機(jī)后,音頻—數(shù)字信號轉(zhuǎn)換卡將首次輸入的音頻信號轉(zhuǎn)換成數(shù)字信號;3).CPU讀取經(jīng)轉(zhuǎn)換的音頻數(shù)字信號,并調(diào)取存儲器訓(xùn)練模塊中的訓(xùn)練程序;4).CPU根據(jù)訓(xùn)練程序,提取上一步音頻數(shù)字信號中的特征向量信號;5).CPU根據(jù)上一步特征向量信號建立數(shù)學(xué)分布模型數(shù)據(jù);6).將數(shù)學(xué)分布模型數(shù)據(jù)及與之對應(yīng)的結(jié)果信息數(shù)據(jù)存入外部存儲器,形成數(shù)據(jù)庫;7).音頻—數(shù)字信號轉(zhuǎn)換卡將再次輸入的音頻信號轉(zhuǎn)換成數(shù)字信號;8).CPU讀取經(jīng)轉(zhuǎn)換的上一步音頻數(shù)字信號,并調(diào)取存儲器識別模塊中的識別程序;9).CPU根據(jù)識別程序,提取上一步音頻數(shù)字信號中的特征向量信號;10).CPU將上一步特征向量信號代入外部存儲器中的各數(shù)學(xué)分布模型,得出相應(yīng)的概率值;11).CPU比較各概率值,從外部存儲器數(shù)據(jù)庫中選出最大的N(N=1-10)個概率值所對應(yīng)的結(jié)果信息數(shù)據(jù),送顯示器顯示。
2.根據(jù)權(quán)利要求1所述的計算機(jī)人聲識別方法,其特征在于所述步驟4)中CPU根據(jù)訓(xùn)練程序,用多頻譜系數(shù)、線性預(yù)測系數(shù)算法提取上一步音頻數(shù)字信號中的特征向量信號;所述步驟5)中CPU根據(jù)上一步特征向量信號用高斯混合模型建立混合高斯分布模型數(shù)據(jù)。
3.一種具有人聲識別功能的電話通訊系統(tǒng),包括自動呼叫分配器(ACD)、接線員終端話機(jī)和計算機(jī),其特征在于還包括按照權(quán)利要求1所述步驟工作的說話人識別服務(wù)器(SR Server),其中自動呼叫分配器(ACD)的外通訊端直接或經(jīng)過網(wǎng)絡(luò)接入設(shè)備外接通訊網(wǎng)絡(luò),內(nèi)通訊端接接線員終端話機(jī)和計算機(jī)以及說話人識別服務(wù)器(SR Server)。
4.根據(jù)權(quán)利要求3所述的具有人聲識別功能的電話通訊系統(tǒng),其特征在于含有交互人聲應(yīng)答裝置(IVR),所述自動呼叫分配器(ACD)的外通訊端外接共電話網(wǎng)(PSTN),內(nèi)通訊端接接線員終端話機(jī)和計算機(jī)、交互人聲應(yīng)答裝置(IVR),以及說話人識別服務(wù)器(SR Server)。
5.根據(jù)權(quán)利要求3所述的具有人聲識別功能的電話通訊系統(tǒng),其特征在于還含有媒體網(wǎng)關(guān)(IP Gateway)和客服服務(wù)器(Fine Support Server),所述自動呼叫分配器(ACD)的外通訊端經(jīng)過客服服務(wù)器(Fine Support Server)接互聯(lián)網(wǎng),同時再通過媒體網(wǎng)關(guān)(IP Gateway)接共電話網(wǎng)(PSTN),所述自動呼叫分配器(ACD)內(nèi)通訊端接接線員終端話機(jī)和計算機(jī)、 以及說話人識別服務(wù)器(SR Server)。
全文摘要
本發(fā)明公開了一種計算機(jī)人聲識別方法和具有人聲識別功能的電話通訊系統(tǒng)。該系統(tǒng)包括自動呼叫分配器、接線員終端話機(jī)和計算機(jī)、說話人識別服務(wù)器。其中說話人識別服務(wù)器的工作步驟為,通過讀取音頻數(shù)字信號、提取上一步音頻數(shù)字信號中的特征向量信號、代入存儲器中數(shù)學(xué)分布模型、比較概率值等操作,可以迅速識別來電客戶,并將其有關(guān)信息顯示出來。采用本發(fā)明后,呼叫中心可以根據(jù)聲音識別客戶來電,從而擺脫對原有來電顯示的依賴性,提供更加可靠的判斷用戶的方法,使得呼叫中心得以提供更加個性化的服務(wù),大大提高服務(wù)質(zhì)量。
文檔編號G06F15/00GK1405693SQ0112708
公開日2003年3月26日 申請日期2001年8月8日 優(yōu)先權(quán)日2001年8月8日
發(fā)明者馮南 申請人:南京北極星軟件有限公司