專利名稱:說話人識別裝置、程序及說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用聲波中包含的個人性信息來識別說話人的說話人識別裝置、程序以及說話人識別方法。
背景技術(shù):
作為說話人識別裝置,提出了一種通過既定內(nèi)容的語音進行說話人的識別(辨認)的文本依賴型的說話人識別裝置,特別提出了一種比較從語音中提取的特征參數(shù)時間序列從而識別說話人的說話人識別裝置。
在說話人識別裝置中,一般將識別所使用的聲波分割為每數(shù)毫秒的幀,對每個該幀求各種音響參數(shù),例如倒譜系數(shù)并作為特征參數(shù)(語音特征參數(shù)),使用將其在全部語音區(qū)間內(nèi)作為時間序列的數(shù)據(jù)來進行說話人識別(說話人辨認)。
特征參數(shù)一般在第一意義上包含音韻性信息,在第二意義上包含個人性信息。在對依賴于個人性信息的說話人識別使用這樣的特征參數(shù)的情況下,如果不從特征參數(shù)中消除音韻性信息則不能確保穩(wěn)定的識別性能。
因此,在現(xiàn)有的文本依賴型的說話人識別裝置中,為了消除音韻性信息,使用將要比較的特征參數(shù)時間序列的時間軸非線性縮小比例尺的時間標準化方法(DP匹配)來計算同一音韻之間的距離(參照非專利文獻1)。如圖6所示,進行DP匹配的DP匹配單元200求匹配模式(pattern)(DP路徑),以使進行比較的兩個特征參數(shù)時間序列A、B間的距離為最小。此時,在DP匹配的算法上,DP路徑被求出,同時最小化距離被計算出。辨認單元201基于該最小化距離進行說話人的辨認。
非專利文獻1古井貞熙著“音聲情報処理”森北出版株式會社P.91-93第一版發(fā)明內(nèi)容但是,由于現(xiàn)有的DP匹配進行要比較的兩個特征參數(shù)時間序列間的距離的最小化,因此作為以求說話人的語音的不同為目的的說話人識別的方法不適當。即,由于過剩的時間伸縮而破壞說話人所特有的單詞內(nèi)的時間構(gòu)造,作為結(jié)果,存在不能將說話人間的差異充分反映在距離上的問題。為了解決該問題,也進行對時間伸縮設(shè)置限制的方法(匹配窗),但在該方法中,反而存在發(fā)生在同一說話人間進行不同音韻間的對應(yīng)的危險性的問題。這些問題由于通過同一計算方法求DP路徑的最佳化所使用的距離和用于判別說話人的距離而引起,難以進行精度高的說話人識別。
本發(fā)明的目的在于實現(xiàn)精度高的說話人識別。
本發(fā)明是基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別的說話人識別裝置,其特征在于,所述說話人識別裝置包括設(shè)定將所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的部件;求最佳匹配序列以使所述第一距離的總和成為最小的部件;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的部件;以及基于求出的所述第二距離的總和進行說話人的辨認的部件。
從另一方面來看,本發(fā)明是執(zhí)行說話人識別功能的計算機可讀取的程序,該說話人識別功能基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別,其特征在于,所述程序使所述計算機執(zhí)行以下功能設(shè)定將所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的功能;求最佳匹配序列以使所述第一距離的總和成為最小的功能;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的功能;以及基于求出的所述第二距離的總和進行說話人的辨認的功能。
從另一方面來看,本發(fā)明是基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別的說話人識別方法,其特征在于,所述說話人識別裝置包括設(shè)定將所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的步驟;求最佳匹配序列以使所述第一距離的總和成為最小的步驟;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的步驟;以及基于求出的所述第二距離的總和進行說話人的辨認的步驟。
圖1是表示本發(fā)明的第一實施方式的說話人識別裝置的結(jié)構(gòu)的方框圖。
圖2是表示本發(fā)明的第一實施方式的說話人識別裝置具有的說話人辨認單元的結(jié)構(gòu)的方框圖。
圖3是表示本發(fā)明的第二實施方式的說話人識別裝置具有的說話人辨認單元的結(jié)構(gòu)的方框圖。
圖4是表示特征參數(shù)的結(jié)構(gòu)的示意圖。
圖5是表示由軟件實現(xiàn)本發(fā)明的情況下說話人識別裝置的結(jié)構(gòu)例的方框圖。
圖6是表示現(xiàn)有的說話人識別裝置的一部分的結(jié)構(gòu)的方框圖。
具體實施例方式
基于圖1以及圖2說明本發(fā)明的第一實施方式。圖1是表示本實施方式的說話人識別裝置的結(jié)構(gòu)的方框圖,圖2是表示說話人識別裝置具有的說話人辨認單元的結(jié)構(gòu)的方框圖。本實施方式的說話人識別裝置是文本依賴型的說話人識別裝置的一例。
如圖1所示,說話人識別裝置100包括麥克風(fēng)1、低通濾波器2、A/D轉(zhuǎn)換單元3、特征參數(shù)生成單元4、說話人辨認單元5、說話人模型生成單元6以及存儲單元7。
麥克風(fēng)1是將被輸入了的語音變換為電模擬信號的變換單元。低通濾波器2是從被輸入的模擬信號中截斷規(guī)定頻率以上的頻率并輸出的濾波器。A/D轉(zhuǎn)換單元3是將被輸入的模擬信號用規(guī)定的采樣頻率、量化位數(shù)變換為數(shù)字信號的變換單元。通過這些麥克風(fēng)1、低通濾波器2、A/D轉(zhuǎn)換單元3構(gòu)成用于輸入語音的語音輸入部件。
特征參數(shù)生成單元4是從被輸入了的數(shù)字信號中依次提取包含個人性信息的特征參數(shù),并生成特征參數(shù)時間序列(特征矢量列)后輸出的生成輸出單元。在本實施方式中,特征參數(shù)生成單元4對有聲區(qū)間的聲波進行幀分析,從而求Δ間距以及16次倒譜系數(shù),生成由Δ間距時間序列以及16次倒譜系數(shù)時間序列構(gòu)成的特征參數(shù)時間序列。另外,倒譜系數(shù)時間序列的次數(shù)不限定為16次。
說話人模型生成單元6是根據(jù)由特征參數(shù)生成單元4生成的特征參數(shù)時間序列和注冊說話人的ID來生成說話人模型的生成單元。存儲單元7是存儲(注冊)由說話人模型生成單元6生成的說話人模型的存儲單元。在本實施方式中,說話人模型被預(yù)先注冊在存儲單元7中。
說話人辨認單元5計算由特征參數(shù)生成單元4生成的特征參數(shù)時間序列和預(yù)先注冊在存儲單元7中的說話人模型的距離,基于該距離進行說話人的辨認,并將該辨認結(jié)果作為說話人識別結(jié)果輸出。
這樣的說話人辨認單元5如圖2所示,包括DP匹配單元11、說話人之間距離計算單元12以及辨認單元13。由這些各單元執(zhí)行各種部件(或步驟)。
對DP匹配單元11以及說話人之間距離計算單元12分別輸入特征參數(shù)時間序列A、B。特征參數(shù)時間序列A、B包含Δ間距時間序列。另外,在本實施方式中,特征參數(shù)時間序列A是根據(jù)從麥克風(fēng)1輸入的聲波而生成的特征數(shù)據(jù),特征參數(shù)時間序列B是注冊在存儲單元7中的說話人模型的特征數(shù)據(jù)。這里,特征參數(shù)時間序列A是第一語音特征參數(shù)時間序列,特征參數(shù)時間序列B是第二語音特征參數(shù)時間序列。下面表示這樣的特征參數(shù)時間序列A、B。
特征參數(shù)時間序列A=α1,α2,…,αi,…,αIB=β1,β2,…,βj,…,βJ特征數(shù)據(jù)αi=pi,αi1,αi2,…,αik,…,αi16βj=qj,βj1,βj2,…,βjk,…,βj16
特征參數(shù)αi,βj是對有聲區(qū)間的聲波進行幀分析而得到的Δ間距(pi,qj)和16次倒譜系數(shù)(αi1~αi16,βj1~βj16)構(gòu)成。從而,特征參數(shù)時間序列A、B由Δ間距時間序列和16次倒譜系數(shù)時間序列構(gòu)成。這里,相對地Δ間距包含較多的音韻性信息,倒譜系數(shù)包含較多的個人性信息。
DP匹配單元11進行DP匹配處理,以便兩個特征參數(shù)時間序列A、B的音韻之間對應(yīng)。此時,通過DP匹配算法進行最佳化,以便作為第一距離的音韻性距離d(i,j)的總和D(F)為最小,并求最佳匹配序列F。
這里,最佳匹配序列F作為時間對應(yīng)因子cn的序列如式(1)這樣被定義,各特征參數(shù)間的音韻性距離d(i,j)使用Δ間距如下述式(1)這樣被定義,總和D(F)如下述式(3)這樣被定義。即,最佳匹配序列F、音韻性距離d(i,j)及其總和D(F)分別通過下述式(1)、式(2)以及式(3)被求出。
F=c1,c2,---,cn,---,cN,cn=(in,jn) ····(1)[算式2]d(i,j)=|pi-qj| ····(2)[算式3]D(F)=11+JΣn=1Nd(cn)=11+JΣn=1Nd(in,jn)---(3)]]>如詳細敘述,DP匹配單元11使用兩個特征參數(shù)時間序列A、B的各自的Δ間距時間序列,通過式(2)來求音韻性距離d(i,j),并通過式(3)求其總和D(F)。此時,通過式(3)以及式(1)進行最佳化,以使總和D(F)為最小,從而求最佳匹配序列F。這里,Δ間距時間序列是第一語音特征參數(shù)組。
說話人之間距離計算單元12使用由DP匹配單元11求出的最佳匹配序列F,計算作為第二距離的個人性距離e(i,j)的總和E(F)。這里,個人性距離e(i,j)如下述式(4)這樣被定義,總和E(F)如下述式(5)這樣被定義。即,個人性距離e(i,j)及其總和E(F)分別通過下述式(4)以及式(5)被求出。
e(i,j)=[Σk=116(αik-βjk)2]12---(4)]]>[算式5]E(F)=11+JΣn=1Ne(cn)=11+JΣn=1Ne(in,jn)---(5)]]>如詳細敘述,說話人之間距離計算單元12使用兩個特征參數(shù)時間序列A、B的各自的倒譜系數(shù)時間序列,通過式(4)來求個人性距離e(i,j),并基于最佳匹配序列F,通過式(5)求其總和E(F)。在本實施方式中,作為倒譜系數(shù)時間序列,使用1~16次的倒譜系數(shù)時間序列。另外,倒譜系數(shù)時間序列是第二語音特征參數(shù)組。
辨認單元13基于由說話人之間距離計算單元12求出的個人性距離的總和E(F)進行說話人的辨認,并將其辨認結(jié)果作為說話人識別結(jié)果輸出。這里,例如將總和E(F)與閾值進行比較,進行說話人辨認的判定(說話人對照)。
這樣,根據(jù)本實施方式,使用兩個特征參數(shù)時間序列A、B的各自的Δ間距時間序列來求音韻性距離的總和D(F)為最小的最佳間距序列F,使用該最佳匹配序列和兩個特征參數(shù)時間序列A、B的各自的倒譜系數(shù)時間序列求個人性距離的總和E(F),基于該總和E(F)進行說話人的辨認。由此,將語音特征參數(shù)時間序列A、B匹配時的音韻分解性能和求語音特征參數(shù)時間序列間的距離時的說話人分解性能并存,可以確保穩(wěn)定的識別性能,因此可以實現(xiàn)精度高的說話人識別。此外,DP路徑的最佳化所使用的距離和用于判別說話人的距離用不同的方法被求出,因此可以將說話人間的差異充分地反映到距離上,此外由于可以在同一說話人間抑制不同音韻間的對應(yīng),所以可以實現(xiàn)精度高的說話人識別。
這里,在音韻性距離和個人性距離所使用的特征參數(shù)互相獨立的情況下,在特征參數(shù)的變化量多的部位發(fā)生匹配偏離(時間偏離)的可能性高。在該情況下,如下述式(6)所示這樣,將音韻性距離e(i,j)如下述式(6)這樣變形來施加稍微的“平均”作用,從而可以改善匹配偏離。
e(i,j)=min{[Σk=116(αik-β(j-1)k)2]12,[Σk=116(αik-βjk)2]12,[Σk=116(αik-β(j+1)k)2]12}]]>····(6)此外,通過相互進行上述“平均”作用,可以得到更穩(wěn)定的音韻性距離。在該情況下,將音韻性距離e(i,j)如下述式(7)這樣變形。
平均距離被定義為雙方的相加平均。
e(i,j)=12[min{Σk=116(αik-β(j-1)k)2]12,[Σk=116(αik-βjk)2]12,[Σk=116(αik-β(j+1)k)2]12}]]>+min{[Σk=116(α(i-1)k-βjk)2]12,[Σk=116(αik-βjk)2]12,[Σk=116(α(i+1)k-βjk)2]12}]]]>····(7)在本實施方式中,作為第一語音特征參數(shù)時間序列的特征參數(shù)時間序列A以及作為第二語音特征參數(shù)時間序列的特征參數(shù)時間序列B包括從語音的基本頻率得到的基本頻率信息時間序列,以及從聲道的共鳴信息得到的共鳴信息時間序列,第一語音特征參數(shù)組是基本頻率信息時間序列,第二語音特征參數(shù)組是共鳴信息時間序列,因此可以可靠地實現(xiàn)高精度的說話人識別。
在本實施方式中,特征參數(shù)時間序列A以及特征參數(shù)時間序列B包括從語音的抑揚信息得到的Δ間距時間序列,以及從聲道的共鳴信息得到的倒譜系數(shù)時間序列,作為第一距離的音韻性距離d以及作為第二距離的個人性距離e通過[算式8]d=|pk-qk|e=[Σk=k0k(ak-bk)2]12]]>k0≥1d,e第一距離、第二距離p第一語音特征參數(shù)時間序列的Δ間距q第二語音特征參數(shù)時間序列的Δ間距
ak第一語音特征參數(shù)時間序列的倒譜系數(shù)bk第二語音特征參數(shù)時間序列的倒譜系數(shù)k倒譜次數(shù)而被求出,因此可以更可靠地實現(xiàn)精度高的說話人識別。
在本實施方式中,特征參數(shù)時間序列A的第i個特征參數(shù)αi和特征參數(shù)時間序列B的第j個特征參數(shù)βj的個人性距離e(i,j)通過[算式9]e(i,j)=mindist(i,j-L)dist(i,j-L+1)Mdist(i,j)Mdist(i,j+L-1)dist(i,j+L)]]>dist(X,Y)語音特征參數(shù)X和Y的距離L平均寬度(>0)而被求出,因此可以改善匹配偏離。
此外,特征參數(shù)時間序列A的第i個特征參數(shù)αi和特征參數(shù)時間序列B的第j個特征參數(shù)βj的個人性距離e(i,j)通過[算式10]e(i,j)=12[mindist(i-L,j)dist(i-L+1,j)Mdist(i,j)Mdist(i+L-1,j)dist(i+L,j)+mindist(i,j-L)dist(i,j-L+1)Mdist(i,j)Mdist(i,j+L-1)dist(i,j+L)]]]>dist(X,Y)語音特征參數(shù)X和Y的距離L平均寬度(>0)而被求出時,可以得到更穩(wěn)定的音韻性距離。
基于圖3以及圖4說明本發(fā)明的第二實施方式。圖3是表示本實施方式的說話人識別裝置具有的說話人辨認單元的結(jié)構(gòu)的方框圖,圖4是表示特征參數(shù)的結(jié)構(gòu)的示意圖。
本實施方式是第一實施方式所示的說話人辨認單元5的變形例。另外,與所述第一實施方式相同的部分用相同符號表示,說話人辨認單元5以外的說明省略。此外,在本實施方式中,特征參數(shù)生成單元4對有聲區(qū)間的聲波進行幀分析來求16次倒譜系數(shù),生成由16次倒譜系數(shù)構(gòu)成的特征參數(shù)時間序列。另外,倒譜系數(shù)時間序列的次數(shù)不限定于16次。
如圖3所示,說話人辨認單元5基本上與第一實施方式同樣,包括DP匹配單元11、說話人之間距離計算單元12以及辨認單元13。由這些各單元執(zhí)行各種部件(或步驟)。
對DP匹配單元11以及說話人之間距離計算單元12分別輸入特征參數(shù)時間序列A、B。另外,在本實施方式中,特征參數(shù)時間序列A是根據(jù)從麥克風(fēng)1輸入的聲波而生成的特征數(shù)據(jù),特征參數(shù)時間序列B是注冊在存儲單元7中的說話人模型的特征數(shù)據(jù)。這里,特征參數(shù)時間序列A是第一語音特征參數(shù)時間序列,特征參數(shù)時間序列B是第二語音特征參數(shù)時間序列。下面表示這樣的特征參數(shù)時間序列A、B。
特征參數(shù)時間序列A=α1,α2,…,αi,…,αIB=β1,β2,…,βj,…,βJ特征數(shù)據(jù)αi=αi1,αi2,…,αik,…,αi16βj=βj1,βj2,…,βjk,…,βj16特征參數(shù)αi,βj是對有聲區(qū)間的聲波進行幀分析而得到的由16次倒譜系數(shù)(αi1~αi16,βj1~βj16)構(gòu)成。從而,特征參數(shù)時間序列A、B是16次倒譜系數(shù)的時間序列。另外,這里,1~8次的倒譜系數(shù)時間序列是低次的倒譜系數(shù)時間序列,m~16(m>8)次的倒譜系數(shù)時間序列是高次的倒譜系數(shù)時間序列。
DP匹配單元11進行DP匹配處理,以便兩個特征參數(shù)時間序列A、B的音韻之間對應(yīng)。此時,通過DP匹配算法進行最佳化,以便作為第一距離的音韻性距離d(i,j)的總和D(F)為最小,并求最佳匹配序列F。
這里,最佳匹配序列F作為時間對應(yīng)因子cn的序列如式(1)這樣被定義,各特征參數(shù)間的音韻性距離d(i,j)使用低次的倒譜系數(shù)如下述式(8)這樣被定義,總和D(F)如下述式(3)這樣被定義。即,最佳匹配序列F、音韻性距離d(i,j)及其總和D(F)分別通過下述式(1)、式(8)以及式(3)被求出。
F=c1,c2,---,cn,---,cN,cn=(in,jn)····(1)[算式12]d(i,j)=[Σk=18(αik-βjk)2]12---(8)]]>[算式13]D(F)=11+JΣn=1Nd(cn)=11+JΣn=1Nd(in,jn)---(3)]]>如詳細敘述,DP匹配單元11使用兩個特征參數(shù)時間序列A、B的各自的低次的倒譜系數(shù)時間序列(1~8的倒譜系數(shù)時間序列),通過式(8)來求音韻性距離d(i,j),并通過式(3)求其總和D(F)。此時,通過式(3)以及式(1)進行最佳化,以使總和D(F)為最小,從而求最佳匹配序列F。這里,低次的倒譜系數(shù)時間序列是第一語音特征參數(shù)組。
說話人之間距離計算單元12使用由DP匹配單元11求出的最佳匹配序列F,計算作為個人性距離e(i,j)的總和E(F)。這里,個人性距離e(i,j)如下述式(4)這樣被定義,總和E(F)如下述式(5)這樣被定義。即,個人性距離e(i,j)及其總和E(F)分別通過下述式(4)以及式(5)被求出。
e(i,j)=[Σk=116(αik-βjk)2]12---(4)]]>[算式15]E(F)=11+JΣn=1Ne(cn)=11+JΣn=1Ne(in,jn)---(5)]]>如詳細敘述,說話人之間距離計算單元12使用包含兩個特征參數(shù)時間序列A、B的各自的高次的倒譜系數(shù)時間序列(m~16(m>8)次的倒譜系數(shù)時間序列)的倒譜系數(shù)時間序列,通過式(4)來求個人性距離e(i,j),并基于最佳匹配序列F,通過式(5)求其總和E(F)。在本實施方式中,作為倒譜系數(shù)時間序列,使用1~16次的倒譜系數(shù)時間序列。這里,高次的倒譜系數(shù)一般比低次的倒譜系數(shù)包含更多的個人性信息。另外,倒譜系數(shù)時間序列是第二語音特征參數(shù)組。
這里,如圖4所示,在具有1~N次的倒譜系數(shù)的特征參數(shù)中,在將1~n次的倒譜系數(shù)作為低次的倒譜系數(shù)(圖4(a)中斜線部分)的情況下,高次的倒譜系數(shù)是m~N(m>n)次的倒譜系數(shù)。該高次的倒譜系數(shù)被時間序列化的序列是高次的倒譜系數(shù)時間序列。從而,包含高次的倒譜系數(shù)時間序列的倒譜系數(shù)時間序列也可以是僅由m~N(m>n)次的倒譜系數(shù)(圖4(b)中網(wǎng)線部分)構(gòu)成的時間序列,或者也可以是由m~N(m>n)次的倒譜系數(shù)以及低次的倒譜系數(shù)的一部分(圖4(c)中網(wǎng)線部分)構(gòu)成的時間序列,進而也可以是由1~N次的倒譜系數(shù)(圖4(d)中網(wǎng)線部分)構(gòu)成的時間序列。另外,在本實施方式中,設(shè)定為N=16以及n=8,但不限于此。
辨認單元13基于由說話人之間距離計算單元12求出的個人性距離的總和E(F)進行說話人的辨認,并將其辨認結(jié)果作為說話人識別結(jié)果輸出。這里,例如將總和E(F)與閾值進行比較,進行說話人辨認的判定(說話人對照)。
這樣,根據(jù)本實施方式,使用兩個特征參數(shù)時間序列A、B的各自的低次的倒譜系數(shù)時間序列來求音韻性距離的總和D(F)為最小的最佳間距序列F,使用該最佳匹配序列和包含兩個特征參數(shù)時間序列A、B的各自的高次的倒譜系數(shù)時間序列的倒譜系數(shù)時間序列求個人性距離的總和E(F),基于該總和E(F)進行說話人的辨認。由此,將語音特征參數(shù)時間序列A、B匹配時的音韻分辯性能和求語音特征參數(shù)時間序列間的距離時的說話人分辨性能并存,可以確保穩(wěn)定的識別性能,因此可以實現(xiàn)精度高的說話人識別。此外,DP路徑的最佳化所使用的距離和用于判別說話人的距離用不同的方法被求出,因此可以將說話人間的差異充分地反映到距離上,此外由于可以在同一說話人間抑制不同音韻間的對應(yīng),所以可以實現(xiàn)精度高的說話人識別。
在本實施方式中,作為第一語音特征參數(shù)時間序列的特征參數(shù)時間序列A以及作為第二語音特征參數(shù)時間序列的特征參數(shù)時間序列B是從聲道的共鳴信息得到的倒譜系數(shù)時間序列,第一語音特征參數(shù)組是倒譜系數(shù)時間序列中的低次的倒譜系數(shù)時間序列,第二語音特征參數(shù)組是包含倒譜系數(shù)時間序列中的高次的倒譜系數(shù)時間序列的倒譜系數(shù)時間序列,因此可以可靠地實現(xiàn)高精度的說話人識別。
在本實施方式中,作為第一語音特征參數(shù)時間序列的特征參數(shù)時間序列A以及作為第二語音特征參數(shù)時間序列的特征參數(shù)時間序列B是從聲道的共鳴信息得到的倒譜系數(shù)時間序列,作為第一距離的音韻性距離d以及作為第二距離的個人性距離e通過[算式16]d=[Σk=1N(ak-bk)2]12]]>e=[Σk=k0M(ak-bk)2]12]]>N<M,k0≥1d,e第一距離、第二距離ak第一語音特征參數(shù)時間序列的倒譜系數(shù)bk第二語音特征參數(shù)時間序列的倒譜系數(shù)k倒譜次數(shù)而被求出,因此可以可靠地實現(xiàn)高精度的說話人識別。
另外,本發(fā)明不限定于如前述的實施方式所示的特定的硬件結(jié)構(gòu),用軟件也可以實現(xiàn)。即,可用軟件實現(xiàn)說話人辨認單元5的功能(說話人識別功能)。圖5是表示由軟件實現(xiàn)本發(fā)明的情況下的說話人識別裝置100的結(jié)構(gòu)例的方框圖。
如圖5所示,說話人識別裝置100包括集中控制該說話人識別裝置100的各部分的CPU101,該CPU101上通過總線連接存儲了BIOS等的ROM或由可改寫地存儲各種數(shù)據(jù)的RAM構(gòu)成的存儲器102,構(gòu)成微型計算機。此外,CPU101上經(jīng)由未圖示的I/O總線連接有HDD(Hard Disk Drive,硬盤驅(qū)動器)103、對計算機可讀取的存儲介質(zhì)的CD(Compact Disc,光盤)-ROM104進行讀取的CD-ROM驅(qū)動器105、主管說話人識別裝置100和因特網(wǎng)等的通信的通信裝置106、鍵盤107、CRT或LCD等顯示裝置108、麥克風(fēng)1。
CD-ROM104等計算機可讀取的存儲介質(zhì)中存儲了實現(xiàn)本發(fā)明的說話人識別功能的程序,通過將該程序安裝在說話人識別裝置100中,可以使CPU101執(zhí)行本發(fā)明的說話人識別功能。此外,從麥克風(fēng)1輸入的語音臨時被存儲在HDD103等中。然后,程序被起動時,HDD103等中臨時保存的語音數(shù)據(jù)被讀入,執(zhí)行說話人識別處理。該說話人識別處理實現(xiàn)與特征參數(shù)生成單元4或說話人辨認單元5等各部分同樣的功能。由此,可以得到與所述實施方式的效果同樣的效果。
另外,作為存儲介質(zhì),不僅可以使用CD-ROM104,也可以使用DVD等各種光盤、各種光磁盤、軟盤等各種磁盤、半導(dǎo)體存儲器等各種方式的介質(zhì)。此外,也可以從因特網(wǎng)等網(wǎng)絡(luò)下載并安裝在HDD103中。在該情況下,作為發(fā)送端的服務(wù)器中存儲了程序的存儲裝置也成為本發(fā)明的存儲介質(zhì)。另外,程序可以是在規(guī)定的OS(Operating System,操作系統(tǒng))上動作的程序,在該情況下,也可以是將后述的各處理的一部分的執(zhí)行轉(zhuǎn)移到OS的程序,也可以是作為文字處理軟件等規(guī)定的應(yīng)用軟件或構(gòu)成OS等的一組程序文件的一部分而包含的程序。
權(quán)利要求
1.一種說話人識別裝置,基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別,其特征在于,所述說話人識別裝置包括設(shè)定使所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的部件;求最佳匹配序列以使所述第一距離的總和成為最小的部件;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的部件;以及基于求出的所述第二距離的總和進行說話人的辨認的部件。
2.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列包括從語音的基本頻率得到的基本頻率信息時間序列,以及從聲道的共鳴信息得到的共鳴信息時間序列,所述第一語音特征參數(shù)組是所述基本頻率信息時間序列,所述第二語音特征參數(shù)組是所述共鳴信息時間序列。
3.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列是從聲道的共鳴信息得到的倒譜系數(shù)時間序列,所述第一語音特征參數(shù)組是所述倒譜系數(shù)時間序列中的低次的倒譜系數(shù)時間序列,所述第二語音特征參數(shù)組是包含所述倒譜系數(shù)時間序列中的高次的倒譜系數(shù)時間序列的倒譜系數(shù)時間序列。
4.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列包括從語音的抑揚信息得到的Δ間距時間序列,以及從聲道的共鳴信息得到的倒譜系數(shù)時間序列,所述第一距離d以及所述第二距離e通過[算式1]d=|pk-qk|e=[Σk=k0k(ak-bk)2]12]]>k0≥1d,e第一距離、第二距離p第一語音特征參數(shù)時間序列的Δ間距q第二語音特征參數(shù)時間序列的Δ間距ak第一語音特征參數(shù)時間序列的倒譜系數(shù)bk第二語音特征參數(shù)時間序列的倒譜系數(shù)k倒譜次數(shù)而被求出。
5.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列的第i個語音特征參數(shù)和所述第二語音特征參數(shù)時間序列的第j個語音特征參數(shù)的所述第二距離e(i,j)通過[算式2]e(i,j)=mindist(i,j-L)dist(i,j-L+1)Mdist(i,j)Mdist(i,j+L-1)dist(i,j+L)]]>dist(X,Y)語音特征參數(shù)X和Y的距離L平均寬度(>0)而被求出。
6.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列的第i個語音特征參數(shù)和所述第二語音特征參數(shù)時間序列的第j個語音特征參數(shù)的所述第二距離e(i,j)通過[算式3]e(i,j)=12[mindist(i-L,j)dist(i-L+1,j)Mdist(i,j)Mdist(i+L-1,j)dist(i+L,j)+mindist(i,j-L)dist(i,j-L+1)Mdist(i,j)Mdist(i,j+L-1)dist(i,j+L)]]]>dist(X,Y)語音特征參數(shù)X和Y的距離L平均寬度(>0)而被求出。
7.如權(quán)利要求1所述的說話人識別裝置,其特征在于,所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列是從聲道的共鳴信息得到的倒譜系數(shù)時間序列,所述第一距離d以及所述第二距離通過[算式4]d=[Σk=1N(ak-bk)2]12]]>e=[Σk=k0M(ak-bk)2]12]]>N<M,k0≥1d,e第一距離、第二距離ak第一語音特征參數(shù)時間序列的倒譜系數(shù)bk第一語音特征參數(shù)時間序列的倒譜系數(shù)k倒譜次數(shù)而被求出。
8.一種程序,是執(zhí)行說話人識別功能的計算機可讀取的程序,該說話人識別功能基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別,其特征在于,所述程序使所述計算機執(zhí)行以下功能設(shè)定使所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的功能;求最佳匹配序列以使所述第一距離的總和成為最小的功能;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的功能;以及基于求出的所述第二距離的總和進行說話人的辨認的功能。
9.一種說話人識別方法,基于第一語音特征參數(shù)時間序列和第二語音特征參數(shù)時間序列的時間序列間的距離,進行說話人的識別,其特征在于,所述說話人識別裝置包括設(shè)定將所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列的各語音特征參數(shù)相互建立對應(yīng)的匹配序列,使用各自的第一語音特征參數(shù)組,按照所述匹配序列求各語音特征參數(shù)間的第一距離,并求該第一距離的總和的步驟;求最佳匹配序列以使所述第一距離的總和成為最小的步驟;使用所述第一語音特征參數(shù)時間序列以及所述第二語音特征參數(shù)時間序列各自的第二語音特征參數(shù)組,按照所述最佳匹配序列,求各語音特征參數(shù)間的第二距離,并求該第二距離的總和的步驟;以及基于求出的所述第二距離的總和進行說話人的辨認的步驟。
全文摘要
為了能夠?qū)崿F(xiàn)精度高的說話人識別,使用兩個特征參數(shù)時間序列A、B的各自的Δ間距時間序列,通過DP匹配單元(11)求音韻性距離的總和最小的最佳匹配序列F,使用該最佳匹配序列和兩個特征參數(shù)時間序列A、B的各自的倒譜系數(shù)時間序列,通過說話人之間距離計算單元求個人性距離的總和,基于該總和,通過辨認單元進行說話人的辨認。由此,兼顧音韻分解性能和說話人分解性能,可以確保穩(wěn)定的識別性能,因此可以實現(xiàn)精度高的說話人識別。
文檔編號G10L15/10GK1914667SQ20058000395
公開日2007年2月14日 申請日期2005年5月31日 優(yōu)先權(quán)日2004年6月1日
發(fā)明者柿野友成, 伊久美智則 申請人:東芝泰格有限公司