數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序的制作方法

文檔序號(hào)：2832311閱讀：790來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于關(guān)于非特指對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模式模型的產(chǎn)生。更具體地說，本發(fā)明涉及適合于在由諸如對(duì)象類型和預(yù)定數(shù)據(jù)的測(cè)量環(huán)境之類因素的組合構(gòu)成的特定條件下，考慮到多樣化的特征參數(shù)的分布，產(chǎn)生非特指對(duì)象的模式模型，并且適合于提供供非特指講話者用的、且適用于關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模式模型的數(shù)據(jù)處理單元、數(shù)據(jù)處理單元控制程序、模式模型搜索單元、模式模型搜索單元控制程序和特定模式模型提供系統(tǒng)；適合于利用關(guān) 于多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的模式模型，評(píng)估非特指講話者的語音數(shù)據(jù)的值的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)處理方法和數(shù)據(jù)處理單元控制程序；以及適合于從多個(gè)講話者中檢測(cè)出在語音上與目標(biāo)講話者類似的講話者，并且適合于提供為提高目標(biāo)講話者和檢測(cè)到的講話者之間的語音相似性而需要的信息的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)處理方法和數(shù)據(jù)處理單元控制程序。
背景技術(shù)：
存在一種稱為模式識(shí)別的信息處理技術(shù)，它涉及觀察或測(cè)量對(duì)象的一些性質(zhì)，并根據(jù)作為觀察或測(cè)量的結(jié)果而獲取的數(shù)據(jù)，識(shí)別對(duì)象和對(duì)對(duì)象分類。
一般來說，語音識(shí)別(它是模式識(shí)別的一種)包括聲音分析器，該聲音分析器將從講話者得到的語音樣本轉(zhuǎn)換成一系列的特征參數(shù)，以及語音匹配器，它匹配聲音分析器獲取的一系列特征參數(shù)與預(yù)先存儲(chǔ)在存儲(chǔ)單元，比如存儲(chǔ)器或硬盤中的詞匯表單詞的特征參數(shù)信息，并選擇具有最高相似性的詞匯表單詞作為識(shí)別結(jié)果。
已知的將語音樣本轉(zhuǎn)換成一系列的特征參數(shù)的聲音分析方法包括
在非專利文獻(xiàn)1中描述的倒頻i普分析和線性預(yù)測(cè)分析。
在語音識(shí)別中，識(shí)別非特指講話者的語音的技術(shù)一般被稱為非特定語者語音識(shí)別。由于詞匯表單詞的特征參數(shù)信息被預(yù)先存儲(chǔ)在存儲(chǔ) 單元中，因此不同于特定語者語音識(shí)別，非特定語者語音識(shí)別使用戶免除記錄希望要被識(shí)別的單詞的任務(wù)。
就準(zhǔn)備詞匯表單詞的特征參數(shù)信息，并將其與通過轉(zhuǎn)換輸入語音而獲取的一系列特征參數(shù)進(jìn)行匹配的方法來說，普遍使用基于隱含馬爾可夫模型(HMM)的方法。在基于HMM的方法中，利用HMM 模擬語音單元，比如音節(jié)、半音節(jié)、音位、雙音素和三音素。這種語音單元的模式模型一般被稱為聲學(xué)模型。
在非專利文獻(xiàn)l中詳細(xì)說明了創(chuàng)建聲學(xué)模型的方法。
另外，根據(jù)在非專利文獻(xiàn)l的第4章中描述的維特比算法，本領(lǐng) 域的技術(shù)人員能夠容易地構(gòu)成非特定語者語音識(shí)別單元。
按照慣例，通常根據(jù)性別(男/女)、年齡(兒童/成人/老年人)、和語音環(huán)境(它取決于噪聲)創(chuàng)建一個(gè)以上的聲學(xué)模型。
非專利文獻(xiàn)2公開一種利用聲學(xué)模型之間的距離，自動(dòng)使高維聲學(xué)模型形成群集的方法。群集方法涉及通過指定大量的群集條件，基于反復(fù)試驗(yàn)地重復(fù)進(jìn)行群集，直到獲取良好的群集結(jié)果為止。
(非專利文獻(xiàn) 1 ) L.Rabiner 等，"Fundamentals of Speech Recognition", Prentice Hall， Inc., 1993。
(非專利文獻(xiàn)1 ) T.Kosaka等，"Tree-Structured Speaker Clustering for Fast Speaker Adaptation", Proc.ICASSP， Vol.1 ， pp.I-245-248, Adelaide, Australia, 1994。
但是，如上所述，通常最多根據(jù)性別(男/女)、年齡(兒童/成人 /老年人)以及語音環(huán)境(它取決于噪聲)創(chuàng)建少量的聲學(xué)模型。從而為了劃分聲學(xué)模型，除了使用基于先驗(yàn)技術(shù)的試探法之外別無選擇。由此，可獲取的識(shí)別率有限。
就非專利文獻(xiàn)2而論，由于沒有以可視的方式等容易地掌握聲學(xué) 模型間的相互關(guān)系，例如聲學(xué)模型間的相對(duì)距離、或者聲學(xué)模型群的數(shù)量和大小，因此必須在大量的群集條件下重復(fù)計(jì)算許多次，直到獲取良好的群集結(jié)果為止。這需要大量的計(jì)算時(shí)間。
一般來說，為了實(shí)現(xiàn)高精度的語音識(shí)別，由于利用倒頻鐠(上面說明的)、MFCC (Mel頻標(biāo)倒頻系數(shù))或者其它高維(10~30維) 特征參數(shù)產(chǎn)生聲學(xué)模型，因此難以可視地表現(xiàn)多個(gè)聲學(xué)模型間的相互關(guān)系。
上述問題不僅適用于聲學(xué)模型，而且適用于圖像識(shí)別和其它領(lǐng)域中的模式模型。
鑒于常規(guī)技術(shù)的上述問題做出了本發(fā)明，本發(fā)明的目的是提供適合于在由各種因素的組合構(gòu)成的特定條件下，考慮到多樣化的特征參數(shù)的分布，產(chǎn)生非特指對(duì)象的模式模型，并且適合于提供供非特指講話者用的、且適用于關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模式模型的數(shù)據(jù)處理單元、數(shù)據(jù)處理單元控制程序、模式模型搜索單元、模式模型搜索單元控制程序和特定模式模型提供系統(tǒng)；適合于利用關(guān)于多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的模式模型，評(píng)估非特指講話者的語音數(shù)據(jù) 的值的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)處理方法和數(shù)據(jù)處理單元控制程序；以及適合于從多個(gè)講話者中檢測(cè)出在語音上與目標(biāo)講話者類似的講話者，并且適合于提供為提高目標(biāo)講話者和檢測(cè)到的講話者之間的語音相似性而需要的信息的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù) 據(jù)處理方法和數(shù)據(jù)處理單元控制程序。

發(fā)明內(nèi)容
為了實(shí)現(xiàn)上述目的，本發(fā)明的母案原權(quán)利要求1限定了一種數(shù)據(jù) 處理單元，包括
數(shù)據(jù)分類裝置，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中；
模式模型產(chǎn)生裝置，用于根據(jù)所述數(shù)據(jù)分類裝置所分類的預(yù)定數(shù) 據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；數(shù)學(xué)距離計(jì)算裝置，用于計(jì)算相應(yīng)各組的、由所迷模式模型產(chǎn)生
裝置產(chǎn)生的模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換裝置，用于根據(jù)所迷數(shù)學(xué)距離計(jì)算裝置所計(jì)算的數(shù) 學(xué)距離，將多個(gè)模式模型轉(zhuǎn)換成低維空間中的、與模式模型相對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持這些模式模型之間的距離關(guān)系；和
對(duì)應(yīng)于模式模型的低維向量顯示裝置，用于根據(jù)低維元素的值，
將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持這些距離關(guān)系。
就這種結(jié)構(gòu)來說，數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中，才莫式模型產(chǎn)生裝置能夠根據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或更高維元素的多個(gè)模式模型，數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離，模式模型轉(zhuǎn)換裝置能夠?qū)⒍鄠€(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng)的相同數(shù) 量的低維向量，同時(shí)根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離，保持模
式模型間的距離關(guān)系，對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù) 低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持距離關(guān) 系。
這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另夕卜，由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型，因此能夠更容易地進(jìn)行群集和各種其它處理。
就模式模型而論，當(dāng)預(yù)定數(shù)據(jù)是語音數(shù)據(jù)時(shí)，通過模擬與語音數(shù) 據(jù)相配的模式，獲取所述模式模型，并且所述模式模型被表述成統(tǒng)計(jì) 模型等。
預(yù)定數(shù)據(jù)可以是關(guān)于人話音、家庭噪聲、工廠噪聲、交通噪聲等的聲數(shù)據(jù)；野生動(dòng)物，比如野鳥、昆蟲、青蛙、蝙蝠或者其它動(dòng)物的動(dòng)物聲音數(shù)據(jù)；圖像數(shù)據(jù)；紅外傳感器數(shù)據(jù)，加速度傳感器數(shù)據(jù)，方位傳感器數(shù)據(jù)，壓力傳感器數(shù)據(jù)，來自壓電元件或者振動(dòng)計(jì)的振動(dòng)傳感器數(shù)據(jù)，或者任何其它傳感器數(shù)據(jù)；關(guān)于電池，比如鋰離子蓄電池或燃料電池的充電狀態(tài)的物理數(shù)據(jù)；生物醫(yī)學(xué)信號(hào)數(shù)據(jù)，比如心電圖，肌電圖，血壓或體重；基因分析用微陣列(microarray)數(shù)據(jù)；氣象數(shù)據(jù)，比如溫度、濕度或者氣壓；環(huán)境數(shù)據(jù)，比如氧濃度或者氧化氮濃度；經(jīng)濟(jì)趨勢(shì)數(shù)據(jù)，比如股票價(jià)格或物價(jià)，或者其它時(shí)序數(shù)據(jù)；等等。
如上所述模式模型包含4維或者更高維的元素。這是因?yàn)槔缭谥T如語音識(shí)別之類的模式識(shí)別中，高的識(shí)別性能需要4維或更高維的特征參數(shù)，以及因?yàn)椴淮嬖谀軌驅(qū)嶋H獲取有效的識(shí)別性能的已知3維或更低維的特征參數(shù)。
另外，所述預(yù)定數(shù)據(jù)由例如可從多個(gè)對(duì)象測(cè)得的數(shù)據(jù)本身，從數(shù)據(jù)抽取的特征值，根據(jù)特征值產(chǎn)生的模式模型，和描述它們的文本文件的組合組成。一個(gè)實(shí)例是關(guān)于多個(gè)講話者發(fā)出的語音的數(shù)據(jù)，從語音數(shù)據(jù)抽取的特征值，根據(jù)特征值產(chǎn)生的模式模型，和描述它們的文本文件的組合。
數(shù)學(xué)距離代表根據(jù)關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)產(chǎn)生的模式模型與多個(gè)對(duì)象的模式模型之間的相似性?？纱嬖诟鞣N各樣的數(shù)學(xué)距離，取決于相似性的量度。例如，這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距離，比如歐幾里得距離，或者不能用普通標(biāo)尺測(cè)量的距離，比如Mahalanobis廣義距離，Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距離表示成兩個(gè)向量的內(nèi)積，并將這兩個(gè)向量之間的角度用作相似性的量度。根據(jù)本發(fā)明，其它可能的數(shù)學(xué)距離包括Bhattacharrya距離，平方歐幾里得距離，余弦距離，Pearson相關(guān)性，Chebyshev距離，城市-街區(qū)(city-block)距離(或者M(jìn)anhattan距離)，Minkowski和，Kullback信息，和Chernov距離?？傊M管稱為距離，根據(jù)本發(fā)明的數(shù)學(xué)距離可以是任何事物，只要它代表相似性。
上迷模式模型轉(zhuǎn)換裝置將4維或更高維的信息轉(zhuǎn)換成適合于容易地處理，比如利用投射或類似處理的2維、3維或者其它低維信息。例如，按照這樣的方式將所有模式模型投射到低維空間(例如2維或3維空間)中，以致其間具有較小數(shù)學(xué)距離的兩個(gè)模式模型將被安置成相互接近，其間具有較大數(shù)學(xué)距離的兩個(gè)模式模型將被安置成相互遠(yuǎn)離。
例如，如果歐幾里得距離被用作數(shù)學(xué)距離，那么在模式模型被投射到的低維空間中，相互間具有較小歐幾里得距離的模式模型被認(rèn)為彼此相似。
將高維模式模型轉(zhuǎn)換成對(duì)應(yīng)于低維模式模型的低維向量，并將結(jié)
果顯示在低維空間中的已知技術(shù)包括Sammon方法(參見J.W.Sammon, "A nonlinear mapping for data structure analysis",IEEE Trans. Computer, Vol.C-18， No.5， pp.401-409, May 1969)，判別分析方法(參見R.A.Fisher，"The use of multiple measurements intaxonomic Problems", Ann.Eugenics， Vol.7， no.PartII， pp.179-188,1936) ， Aladjam方法(參見M.Aladjem， "Multiclass discriminantmappings", Signal Process., Vol.35, pp.l-18， 1994)，神經(jīng)網(wǎng)絡(luò)技術(shù)(參見J.Mao等,"Artificial neural networks for feature extractionand multivariate data projection", IEEE Trans. Neural Networks,Vol.6， No.2， pp.296-317, 1995 )，基于圖表的技術(shù)(參見Y.Mori等，"Comparison of low-dimensional mapping techniques based ondiscriminatory information" ，Proc. 2nd International ICSCSymposium on Advances in Intelligent Data Analysis ( AIDA'2001 )，CD-ROM Paper No.1724-166, Bangor, United Kingdom, 2001)，投射追蹤法(參見J.H.Freidman等,"A projection pursuit algorithmfor exploratory data analysis" ， IEEE Trans. Comput.， Vol.C-18, No.5，pp.401-409， 1969) , SOM法(參見T.Kohonen， "Self-OrganizingMaps", Springer Series in Information Sciences, Vol.30， Berlin,1995) o
本發(fā)明的母案原權(quán)利要求2限定了按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元，其中關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)、環(huán)境噪聲數(shù)據(jù)、動(dòng)物聲音數(shù)據(jù)、圖像數(shù)據(jù)、紅外數(shù)據(jù)和加速度數(shù)據(jù)的其中一個(gè)。
這樣，數(shù)據(jù)處理單元能夠根據(jù)出自人話音數(shù)據(jù)；環(huán)境噪聲數(shù)據(jù)，比如家庭噪聲；野生動(dòng)物，比如野鳥、昆蟲、青蛙、蝙蝠或者其它動(dòng)物的動(dòng)物聲音數(shù)據(jù)；圖像數(shù)據(jù)；紅外傳感器數(shù)據(jù)；并且加速度傳感器數(shù)據(jù)的一種數(shù)據(jù)產(chǎn)生模式模型。
本發(fā)明的母案原權(quán)利要求3限定了按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元，其中
關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是關(guān)于由多個(gè)講話者產(chǎn)生的多個(gè)語聲的數(shù)據(jù)；和
所述多個(gè)特定條件至少包括講話者的類型、口語語匯、說話風(fēng)格和說話環(huán)境。
這使得能夠至少考慮到講話者的類型，包括講話者的姓名、性別 (男/女)、年齡(兒童/成人/老人)；口語語匯，比如數(shù)字、句子和單詞；說話風(fēng)格，比如語速、講話的音量和方言特征；以及說話環(huán)境，比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境(位置分類)，產(chǎn)生語音數(shù)據(jù)的模式模型。
本發(fā)明的母案原權(quán)利要求4限定了按照母案原權(quán)利要求1-3任意之一所述的數(shù)據(jù)處理單元，其中按照從所述多個(gè)特定條件中任意選擇的多個(gè)特定條件的每種組合，所述數(shù)據(jù)分類裝置形成一組預(yù)定數(shù)據(jù)。
這樣，按照從多個(gè)特定條件中任意選擇的特定條件的每種組合，數(shù)據(jù)分類裝置能夠形成一組預(yù)定數(shù)據(jù)。
因此，例如如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)，那么可按照特定條件的所需組合，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)快速 (說話風(fēng)格)說出的單詞(口語語匯)，形成一組預(yù)定數(shù)據(jù)。當(dāng)然，數(shù)據(jù)可按照更寬的條件，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)說話來分組。
本發(fā)明的母案原權(quán)利要求5限定了按照母案原權(quán)利要求1-4任意之一所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型)產(chǎn) 生模式模型。
這樣，通過利用HMM (隱舍馬爾可夫模型)產(chǎn)生模式模型。例如，語音隨語速而在時(shí)間間隔方面發(fā)生變化，并且根據(jù)說話的
內(nèi)容，在頻域中具有特有的形狀(頻鐠包絡(luò))。該形狀隨特定的條件
而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)才莫型。
本發(fā)明的母案原權(quán)利要求6限定了按照母案原權(quán)利要求5所述的
數(shù)據(jù)處理單元，其中所述數(shù)學(xué)距離計(jì)算裝置利用下述之一計(jì)算數(shù)學(xué)距
離
利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離，
利用HMM產(chǎn)生，并根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一化的、模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離，和
利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布確定的 Bhattacharrya多巨離。
這樣，通過利用下述之一利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布的均值向量確定的歐幾里得距離，利用HMM產(chǎn)生，并根據(jù) 由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一化的模式模型的正態(tài)分布的均值向量確定的歐幾里得距離，以及利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布確定的Bhattacharrya距離，數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算數(shù)學(xué)距離。
從而，通過使用任意上述距離，能夠計(jì)算模式模型之間更適當(dāng)?shù)?數(shù)學(xué)距離。
本發(fā)明的母案原權(quán)利要求7限定了按照母案原權(quán)利要求1-6任意之一所述的數(shù)據(jù)處理單元，其中所述模式模型轉(zhuǎn)換裝置利用Saimnon 方法，將模式模型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
這樣，通過利用S證mcm方法，模式模型轉(zhuǎn)換裝置能夠?qū)⒛Ｊ侥?型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
從而，已知的Sammon方法的使用使得能夠?qū)⒛Ｊ侥Ｐ娃D(zhuǎn)換成對(duì) 應(yīng)于模式模型的相對(duì)數(shù)量的低維向量，同時(shí)保持模式模型間的距離關(guān) 系。
本發(fā)明的母案原權(quán)利要求8限定了按照母案原權(quán)利要求1-7任意之一所述的數(shù)據(jù)處理單元，包括區(qū)域劃分裝置，用于自動(dòng)地將對(duì)應(yīng)于這樣模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)劃分到低維空間中的多個(gè)區(qū) 域，即所述模式模型由對(duì)應(yīng)于所述模式模型顯示裝置的低維向量顯示在低維空間中。
借助這些結(jié)構(gòu)，區(qū)域劃分裝置能夠自動(dòng)地將對(duì)應(yīng)于這樣模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)劃分到低維空間中的多個(gè)區(qū)域，即所述模式
模型由對(duì)應(yīng)于所述模式模型顯示裝置的低維向量顯示在低維空間中。
從而，能夠容易地劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，使得易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。本發(fā)明的母案原權(quán)利要求9公開了按照母案原權(quán)利要求8所述的數(shù)據(jù)處理單元，其中所述區(qū)域劃分裝置借助一個(gè)外圓和n個(gè)內(nèi)圓劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量，其中n是等于或大于l的整數(shù)，并且
借助徑向延伸的線條，進(jìn)一步將由同心外圓和內(nèi)圓在它們之間形成的環(huán)狀區(qū)域分成多個(gè)區(qū)域，其中外圓以對(duì)應(yīng)于模式模型的所有低維向量的坐標(biāo)點(diǎn)的重心為中心，外圓的半徑等于所述重心與離所述重心最遠(yuǎn)的、對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)之間的距離，內(nèi)圓以所述重心為中心，內(nèi)圓的半徑小于外圃的半徑。
從而，由同心的外圓和內(nèi)圓形成的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。
本發(fā)明的母案原權(quán)利要求10限定了按照母案原權(quán)利要求8或9 所述的數(shù)據(jù)處理單元，包括劃分改變裝置，用于改變所述區(qū)域劃分裝置自動(dòng)產(chǎn)生的劃分結(jié)果。
就這種結(jié)構(gòu)來說，劃分改變裝置能夠改變區(qū)域劃分裝置自動(dòng)產(chǎn)生的劃分結(jié)果。
從而，如果劃分結(jié)果不適當(dāng)，或者增加了新的模式模型，那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外，由于模式模型的直觀劃分結(jié)果被改變，因此能夠容易地改變劃分的結(jié)果。
本發(fā)明的母案原權(quán)利要求11公開了按照母案原權(quán)利要求8-10任意之一所述的數(shù)據(jù)處理單元，包含區(qū)域選擇裝置，它能夠選擇所述區(qū)域劃分裝置產(chǎn)生的每個(gè)區(qū)域的、對(duì)應(yīng)于模式模型的多個(gè)低維向量；以及
區(qū)域模式模型產(chǎn)生裝置，用于根據(jù)與對(duì)應(yīng)于這樣的低維向量的模式模型相關(guān)的預(yù)定數(shù)據(jù)，產(chǎn)生才莫式才莫型，即所述低維向量對(duì)應(yīng)于位于所述區(qū)域選擇裝置選擇的區(qū)域中的模式模型。
就這種結(jié)構(gòu)來說，區(qū)域選擇裝置能夠選擇區(qū)域劃分裝置產(chǎn)生的每個(gè)區(qū)域的對(duì)應(yīng)于模式模型的多個(gè)低維向量，區(qū)域模式模型產(chǎn)生裝置能夠根據(jù)與對(duì)應(yīng)于這樣的低維向量的模式模型相關(guān)的預(yù)定數(shù)據(jù)，產(chǎn)生模
式模型，即所述低維向量對(duì)應(yīng)于位于所述區(qū)域選擇裝置選擇的區(qū)域中的模式模型。
22因此，例如通過利用與包含對(duì)應(yīng)于指定對(duì)象的模式模型的低維向量的區(qū)域?qū)?yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生模式模型，能夠?yàn)橹付▽?duì)象產(chǎn)生適當(dāng) 的模式模型。
另外，由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模式模型，因此能夠減小模式模型的規(guī)模，和模式模型的存儲(chǔ)器需求。
本發(fā)明的母案原權(quán)利要求12限定了一種數(shù)據(jù)處理單元控制程序，它是用于控制按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元的計(jì)算機(jī)可執(zhí)行程序，包括
數(shù)據(jù)分類步驟，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中；
模式模型產(chǎn)生步驟，用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；
數(shù)學(xué)距離計(jì)算步驟，用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生步驟中產(chǎn)生的多個(gè)模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換步驟，用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的數(shù)學(xué)距離，將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持模式模型之間的距離關(guān)系；和
對(duì)應(yīng)于模式模型的低維向量顯示步驟，用于根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持這些距離關(guān)系。
由于本發(fā)明是控制按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求13限定了按照母案原權(quán)利要求12所述的數(shù)據(jù)處理單元控制程序，包括
區(qū)域劃分步驟，用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量，劃分到低維空間中的多個(gè)區(qū)域，即所述模式模型在所述對(duì)應(yīng)于模式模型的低維向量顯示步驟中被顯示在低維空間中；
劃分改變步驟，用于改變?cè)谒鰠^(qū)域劃分步驟中自動(dòng)產(chǎn)生的劃分結(jié)果；
區(qū)域選擇步驟，它能夠選擇在所述區(qū)域劃分步驟產(chǎn)生的、每個(gè)區(qū) 域的對(duì)應(yīng)于模式模型的多個(gè)低維向量；和區(qū)域模式模型產(chǎn)生步驟，用于根據(jù)與對(duì)應(yīng)于這樣的低維向量的模式模型相關(guān)的預(yù)定數(shù)據(jù)，產(chǎn)生對(duì)應(yīng)于所選擇區(qū)域的模式模型，即所述低維向量對(duì)應(yīng)于位于所述區(qū)域選擇步驟選擇的區(qū)域中的模式模型。
由于本發(fā)明是控制按照母案原權(quán)利要求11所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求14限定了一種模式模型搜索單元，包
括
區(qū)域劃分裝置，用于自動(dòng)將由按照母案原權(quán)利要求1-7中任意一個(gè)所述的數(shù)據(jù)處理單元顯示在低維空間中的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域；
區(qū)域模式模型產(chǎn)生裝置，用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生每個(gè)區(qū)域的模式模型，即所述低維向量對(duì)應(yīng)于包含在分段區(qū)域中的模式模型；
預(yù)定數(shù)據(jù)獲取裝置，用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)；和區(qū)域模式模型搜索裝置，用于計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)所述計(jì)算的似然性，搜索具有適合于識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
就這種結(jié)構(gòu)來說，區(qū)域劃分裝置能夠自動(dòng)將低維空間中的坐標(biāo)點(diǎn) 分成低維空間中的多個(gè)區(qū)域，區(qū)域模式模型產(chǎn)生裝置能夠根據(jù)與包含在分段區(qū)域中的對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)對(duì)應(yīng)的預(yù)定數(shù) 據(jù)，產(chǎn)生每個(gè)區(qū)域的模式才莫型，預(yù)定數(shù)據(jù)獲取裝置能夠獲取關(guān)于新對(duì) 象的預(yù)定數(shù)據(jù)，區(qū)域模式模型搜索裝置能夠計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)計(jì)算的似然性，搜索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
從而，能夠根據(jù)對(duì)應(yīng)于各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于獲取的關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性，搜索區(qū)域模式模型，尋找適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式的區(qū)域模式模型。
本發(fā)明的母案原權(quán)利要求15公開了一種模式模型搜索單元控制程序，它是用于控制按照母案原權(quán)利要求14所述的模式模型搜索單元的計(jì)算機(jī)可執(zhí)行程序，包括
區(qū)域劃分步驟，用于自動(dòng)將由按照母案原權(quán)利要求1-7中任意一個(gè)所述的語音數(shù)據(jù)處理單元顯示在低維空間中的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域；
區(qū)域模式模型產(chǎn)生步驟，用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生每個(gè)區(qū)域的模式模型，即所述低維向量對(duì)應(yīng)于包含在分段區(qū)域中的模式模型；
預(yù)定數(shù)據(jù)獲取步驟，用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)；和
區(qū)域模式模型搜索步驟，用于計(jì)算對(duì)應(yīng)于各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)所述計(jì)算的似然性，搜索具有適合于識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
由于本發(fā)明是控制按照母案原權(quán)利要求14所述的模式模型搜索單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
另一方面，為了達(dá)到上述目的，本發(fā)明的母案原權(quán)利要求16公開了一種數(shù)據(jù)處理單元，包含
數(shù)據(jù)分類裝置，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中；
模式模型產(chǎn)生裝置，用于根據(jù)所述數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；
數(shù)學(xué)距離計(jì)算裝置，用于計(jì)算相應(yīng)各組的、由所述模式模型產(chǎn)生裝置產(chǎn)生的多個(gè)模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換裝置，用于根據(jù)所述數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué) 距離，將多個(gè)模式模型轉(zhuǎn)換成低維空間中的、與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持模式模型之間的距離關(guān)系；和
對(duì)應(yīng)于模式模型的低維向量顯示裝置，用于根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持這些距離關(guān)系，其中
當(dāng)計(jì)算這些數(shù)學(xué)距離時(shí)，所述數(shù)學(xué)距離計(jì)算裝置使用每個(gè)模式單元在關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。就這種結(jié)構(gòu)來說，數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中，模式模型產(chǎn)生裝置能夠根
據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或更高維元素的多個(gè)模式模型，數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離，模式模型轉(zhuǎn)換裝置能夠根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離，將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持模式模型間的距離關(guān)系，對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持距離關(guān)系，當(dāng)計(jì)算數(shù)學(xué) 距離時(shí)，數(shù)學(xué)距離計(jì)算裝置能夠使用每個(gè)模式單元在關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另夕卜，由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型，因此能夠更容易地進(jìn)行群集和各種其它處理。此外，由于每個(gè)模式單元的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離，因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán)，那么通過考慮到模式模型中的所有模式單元，能夠定義模式模型間的距離，從而更準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。
這里，如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)，那么諸如音節(jié)、音位、雙音素、三音素之類的語音單元被用作模式單元。
本發(fā)明的母案原權(quán)利要求17限定了按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元，其中所述模式單元的出現(xiàn)頻率是這樣的模式單元的出現(xiàn)頻率，即所述模式單元在使用模式模型的多個(gè)預(yù)定數(shù)據(jù)的模式識(shí) 別時(shí)，在與多個(gè)對(duì)象相關(guān)的多個(gè)預(yù)定數(shù)據(jù)之中，其識(shí)別性能低于預(yù)定閾值。
這樣，由于在數(shù)學(xué)距離的計(jì)算中，使用其識(shí)別性能低于預(yù)定閾值的模式單元的出現(xiàn)頻率，因此可在低維層次以準(zhǔn)確的距離關(guān)系，顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能的對(duì)象的模式模型。
所述預(yù)定閾值可以是在0% (包含)-100%范圍中的值。
另外，為了達(dá)到上述目的，本發(fā)明的母案原權(quán)利要求18限定了一種數(shù)據(jù)處理單元，包括
數(shù)據(jù)分類裝置，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中；
模式模型產(chǎn)生裝置，用于根據(jù)所述數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；
數(shù)學(xué)距離計(jì)算裝置，用于計(jì)算相應(yīng)各組的、由所述模式模型產(chǎn)生
裝置產(chǎn)生的模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換裝置，用于根據(jù)所述數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué) 距離，將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持模式模型之間的距離關(guān)系；
對(duì)應(yīng)于模式模型的低維向量顯示裝置，用于根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持這些距離關(guān)系；
區(qū)域劃分裝置，用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域，即所述模式模型由所述對(duì)應(yīng)于模式模型的低維向量顯示裝置顯示在低維空間中；
區(qū)域模式模型產(chǎn)生裝置，用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生每個(gè)區(qū)域的區(qū)域模式模型，即所述低維向量對(duì)應(yīng) 于包含在分段區(qū)域中的模式模型；
預(yù)定數(shù)據(jù)獲取裝置，用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)；和
區(qū)域模式模型搜索裝置，用于計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)所述計(jì)算的似然性，搜索由所述區(qū)域模式模型產(chǎn)生裝置產(chǎn)生的區(qū)域模式模型，尋找具有適合于識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
就這種結(jié)構(gòu)來說，數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中，模式模型產(chǎn)生裝置能夠根據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或更高維元素的多個(gè)模式模型，數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離，模式模型轉(zhuǎn)換裝置能夠根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離，將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量，同時(shí)保持模式模型間的距離關(guān)系，對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持這些距離關(guān)系，區(qū)域劃分裝置能夠自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域，即所述^^莫式模型由所述對(duì)應(yīng) 于模式模型的低維向量顯示裝置顯示在低維空間中，區(qū)域模式模型產(chǎn) 生裝置能夠根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì)應(yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生每個(gè)區(qū)域的區(qū)域模式模型，即所述低維向量對(duì)應(yīng)于包含在分段區(qū)域中的模式模型，預(yù)定數(shù)據(jù)獲取裝置能夠獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)，區(qū)域模式模型搜索裝置能夠計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)計(jì)算的似然性，搜索具有適合于識(shí)別關(guān) 于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
這使得易于直觀地掌握模式模型之間的距離關(guān)系(相似性)。另外，由于能夠容易地劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，因此易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。此外，能夠根據(jù) 各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性，搜索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
本發(fā)明的母案原權(quán)利要求19限定了按照母案原權(quán)利要求18所述的數(shù)據(jù)處理單元，當(dāng)計(jì)算數(shù)學(xué)距離時(shí)，所述數(shù)學(xué)距離計(jì)算裝置使用每個(gè)模式單元在關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
由于每個(gè)模式單元的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離，因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán)，那么通過考慮到;f莫式模型中的所有模式單元，能夠定義模式模型間的距離，從而更準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。
本發(fā)明的母案原權(quán)利要求20限定了按照母案原權(quán)利要求19所述的數(shù)據(jù)處理單元，其中所述模式單元的出現(xiàn)頻率是這樣的模式單元的出現(xiàn)頻率，即所述模式單元在使用模式模型的關(guān)于多個(gè)對(duì)象的多個(gè)預(yù) 定數(shù)據(jù)的模式識(shí)別時(shí)，在與所述多個(gè)對(duì)象相關(guān)的多個(gè)預(yù)定數(shù)據(jù)之中，其識(shí)別性能低于預(yù)定閾值。
這樣，由于在數(shù)學(xué)距離的計(jì)算中，使用其識(shí)別性能低于預(yù)定閾值的模式單元的出現(xiàn)頻率，因此可在低維層次以準(zhǔn)確的距離關(guān)系，顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能的對(duì)象的模式模型。
本發(fā)明的母案原權(quán)利要求21限定了按照母案原權(quán)利要求18-20任意之一所述的數(shù)據(jù)處理單元，其中所述區(qū)域劃分裝置借助一個(gè)外圓和 n個(gè)內(nèi)圓劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量，n是等于或大于1的整數(shù)，并且
借助徑向延伸的線條，進(jìn)一步將由同心外圓和內(nèi)圓在它們之間形成的環(huán)狀區(qū)域分成多個(gè)區(qū)域，外圓以對(duì)應(yīng)于模式模型的所有低維向量的坐標(biāo)點(diǎn)的重心為中心，外圓的半徑等于所述重心與離所述重心最遠(yuǎn) 的、對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)之間的距離，內(nèi)圓以所述重心為中心，內(nèi)圓的半徑小于外圓的半徑。
從而，由同心外圓和內(nèi)圓形成的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。
本發(fā)明的母案原權(quán)利要求22限定了按照母案原權(quán)利要求21所述的數(shù)據(jù)處理單元，其中隨著到最內(nèi)側(cè)圓的徑向距離不斷增大，所述區(qū) 域劃分裝置更細(xì)致地劃分對(duì)應(yīng)于模式模型的低維向量。
當(dāng)模式模型二維可視時(shí)，由于隨著離中心的徑向距離的增大，模式模型的識(shí)別性能(與其它模型的相似性)會(huì)降低，因此通過細(xì)微地劃分包含具有低識(shí)別性能的模式模型的區(qū)域，能夠更準(zhǔn)確地對(duì)數(shù)據(jù)分組。
本發(fā)明的母案原權(quán)利要求23限定了按照母案原權(quán)利要求21或22 所述的數(shù)據(jù)處理單元，其中所述區(qū)域劃分裝置按照這樣的方式劃分區(qū) 域，即使得在相鄰區(qū)域中的對(duì)應(yīng)于模式模型的低維向量之間存在部分重疊。
這使得能夠容易地處理當(dāng)產(chǎn)生指定對(duì)象的模式模型時(shí)，關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)位于分段區(qū)域間的邊界上的情況。
本發(fā)明的母案原權(quán)利要求24限定了按照母案原權(quán)利要求21-23任意之一所述的數(shù)據(jù)處理單元，其中所述區(qū)域模式模型搜索裝置能夠從最內(nèi)側(cè)圓開始，并移動(dòng)到最外側(cè)圓，計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)所述計(jì)算的似然性，搜索由所述區(qū)域模式模型產(chǎn)生裝置產(chǎn)生的區(qū)域模式模型，以尋找具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
這樣，由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圓，計(jì)算關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的區(qū)域模式模型的似然性，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。
本發(fā)明的母案原權(quán)利要求25限定了按照母案原權(quán)利要求24所述的數(shù)據(jù)處理單元，其中所述區(qū)域模式模型搜索裝置計(jì)算與最內(nèi)側(cè)圓內(nèi) 的區(qū)域?qū)?yīng)的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，
計(jì)算與正好在最內(nèi)側(cè)圓外的環(huán)狀區(qū)域中的分段區(qū)域相對(duì)應(yīng)的區(qū)域
才莫式^莫型的似然性，
計(jì)算對(duì)應(yīng)于正好在這樣區(qū)域之外的區(qū)域的區(qū)域模式模型的似然性，即所述區(qū)域在接下來的內(nèi)部區(qū)域之中包含具有最高似然性的區(qū)域
模式模型，
隨后順序向外移動(dòng)按此方式計(jì)算似然性。
這樣，由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圓，搜索包含具有最高似然性(識(shí)別性能)的區(qū)域模式模型的分段區(qū)域，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。
本發(fā)明的母案原權(quán)利要求26限定了按照母案原權(quán)利要求24所述的數(shù)據(jù)處理單元，其中所述區(qū)域模式模型搜索裝置計(jì)算與最內(nèi)側(cè)圓內(nèi) 的區(qū)域相對(duì)應(yīng)的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，
計(jì)算與正好在最內(nèi)側(cè)圓外的環(huán)狀區(qū)域中的分段區(qū)域相對(duì)應(yīng)的區(qū)域
模式模型的似然性，
計(jì)算對(duì)應(yīng)于正好在這樣區(qū)域之外的區(qū)域的區(qū)域模式模型的似然性，即所述區(qū)域在接下來的內(nèi)部區(qū)域之中包含具有前m個(gè)似然性的區(qū) 域模式模型，m是大于l的整數(shù)，
隨后順序向外移動(dòng)按此方式計(jì)算似然性。
這樣，由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圃，搜索包含具有前m個(gè)似然性的區(qū)域模式模型的分段區(qū)域，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。本發(fā)明的母案原權(quán)利要求27限定了按照母案原權(quán)利要求18-26任意之一所述的數(shù)據(jù)處理單元，其中
所述關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是關(guān)于由多個(gè)講話者產(chǎn)生的多個(gè)語聲的數(shù)據(jù)；和
所述多個(gè)特定條件至少包括講話者的類型、口語語匯、說話風(fēng)格和說話環(huán)境。
這使得能夠至少考慮到講話者的類型，包括講話者的姓名、性別 (男/女)、年齡(兒童/成人/老人)；口語語匯，比如數(shù)字、句子和單詞；說話風(fēng)格，比如語速、講話的音量和方言特征；以及說話環(huán)境，比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境(位置分類)，產(chǎn)生語音數(shù)據(jù)的模式模型。
本發(fā)明的母案原權(quán)利要求28限定了按照母案原權(quán)利要求18-27任意之一所述的數(shù)據(jù)處理單元，其中按照從所述多個(gè)特定條件中任意選擇的多個(gè)特定條件的每種組合，所述數(shù)據(jù)分類裝置形成一組預(yù)定數(shù)據(jù)。
從而，例如如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)，那么可按照特定條件的所需組合，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)快速 (說話風(fēng)格)說出的單詞(口語語匯)，形成一組預(yù)定數(shù)據(jù)。當(dāng)然，數(shù)據(jù)可按照更寬的條件，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)說話來分組。
本發(fā)明的母案原權(quán)利要求29限定了按照母案原權(quán)利要求18-28任意之一所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型) 產(chǎn)生模式模型。
這樣，通過利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。例如，語音隨語速而在時(shí)間間隔方面發(fā)生變化，并且根據(jù)說話的
內(nèi)容，在頻域中具有特有的形狀(頻鐠包絡(luò))。該形狀隨特定的條件
而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。
本發(fā)明的母案原權(quán)利要求30限定了按照母案原權(quán)利要求29所述
的數(shù)據(jù)處理單元，其中所述數(shù)學(xué)距離計(jì)算裝置利用下迷之一計(jì)算數(shù)學(xué)
距離利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離，
利用HMM產(chǎn)生，并根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一化的、模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離，以及
利用HMM產(chǎn)生，并根據(jù)模式模型的正態(tài)分布確定的 Bhattacharrya多巨離。
從而，通過使用任意上述距離，能夠計(jì)算模式模型之間更適當(dāng)?shù)?數(shù)學(xué)距離。
本發(fā)明的母案原權(quán)利要求31限定了按照母案原權(quán)利要求18-30任意之一所述的數(shù)據(jù)處理單元，其中所述模式模型轉(zhuǎn)換裝置利用 Sammoii方法，將模式模型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
這樣，通過利用Sammcm方法，模式模型轉(zhuǎn)換裝置能夠?qū)⒛Ｊ侥?型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
從而，已知的Sammon方法的使用使得能夠?qū)⒛Ｊ侥Ｐ娃D(zhuǎn)換成對(duì) 應(yīng)于模式模型的相對(duì)數(shù)量的低維向量，同時(shí)保持模式模型間的距離關(guān) 系。
本發(fā)明的母案原權(quán)利要求32限定了按照母案原權(quán)利要求18-31任意之一所述的數(shù)據(jù)處理單元，包括用于改變區(qū)域劃分裝置自動(dòng)產(chǎn)生的劃分結(jié)果的劃分改變裝置。
從而，如果劃分結(jié)果不適當(dāng)，或者增加了新的模式模型，那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外，由于模式模型的直觀劃分結(jié)果被改變，因此能夠容易地改變劃分的結(jié)果。
本發(fā)明的母案原權(quán)利要求33限定了按照母案原權(quán)利要求18-32任意之一所述的數(shù)據(jù)處理單元，包括根據(jù)所述關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)，使所述模式模型搜索裝置找到的區(qū)域模式模型適應(yīng)新對(duì)象的模式模型適應(yīng)裝置。
就這種結(jié)構(gòu)來說，模式模型適應(yīng)裝置能夠根據(jù)關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)，使模式模型搜索裝置找到的區(qū)域模式模型適應(yīng)新對(duì)象。
從而，能夠?yàn)樾聦?duì)象產(chǎn)生適當(dāng)?shù)哪Ｊ侥Ｐ?。另外，由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模式模型，因此能夠減小模式模型的規(guī)模，
和模式模型的存儲(chǔ)器需求。這里，MLLR講話者適應(yīng)技術(shù)可被用于所述適應(yīng)。
本發(fā)明的母案原權(quán)利要求34公開了按照母案原權(quán)利要求33所述的數(shù)據(jù)處理單元，其中
所述模式模型轉(zhuǎn)換裝置能夠?qū)?duì)應(yīng)于多個(gè)低維向量的高維模式模型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量，所述多個(gè)低維向量與包含在這樣區(qū)域中的模式模型相對(duì)應(yīng)，即所述區(qū)域?qū)?yīng)于所述模式模型搜索裝置找到的區(qū)域模式模型；
所述對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的值，將轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成和對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持距離關(guān)系；和
所述區(qū)域劃分裝置能夠自動(dòng)將對(duì)應(yīng)于在低維空間中顯示的模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域。
這樣，由于對(duì)應(yīng)于多個(gè)低維向量的高維模式模型被再次轉(zhuǎn)換成對(duì) 應(yīng)于模式模型的低維向量，所述多個(gè)低維向量與包含在這樣區(qū)域中的模式模型相對(duì)應(yīng)，即所述區(qū)域?qū)?yīng)于所述模式模型搜索裝置找到的區(qū) 域模式模型，隨后通過關(guān)于適合于新對(duì)象的區(qū)域模式模型搜索分段區(qū) 域，轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的低維向量被劃分，因此能夠產(chǎn)生更適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的特定模式模型。
本發(fā)明的母案原權(quán)利要求35限定了一種數(shù)據(jù)處理單元控制程序，它是控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元的計(jì)算機(jī)可執(zhí) 行程序，包括
它是用于控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元的計(jì) 算機(jī)可執(zhí)行程序，包括
數(shù)據(jù)分類步驟，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中；
模式模型產(chǎn)生步驟，用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；數(shù)學(xué)距離計(jì)算步驟，用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生
步驟中產(chǎn)生的模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換步驟，用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的
數(shù)學(xué)距離，將多個(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng)的相
同數(shù)量的低維向量，同時(shí)保持模式模型之間的距離關(guān)系；和
對(duì)應(yīng)于模式模型的低維向量顯示步驟，用于根據(jù)低維元素的值，
將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維
向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持距離關(guān)系，其中當(dāng)計(jì)算數(shù)學(xué)距離時(shí)，所述數(shù)學(xué)距離計(jì)算步驟使用每個(gè)模式單元在
關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
由于本發(fā)明是控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求36公開了一種數(shù)據(jù)處理單元控制程序，它是用于控制按照母案原權(quán)利要求18所迷的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序，包括
數(shù)據(jù)分類步驟，用于根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)劃分到多個(gè)組中；
模式模型產(chǎn)生步驟，用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定數(shù)據(jù)，為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型；
數(shù)學(xué)距離計(jì)算步驟，用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生步驟中產(chǎn)生的模式模型之間的數(shù)學(xué)距離；
模式模型轉(zhuǎn)換步驟，用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的數(shù)學(xué)距離，將所述多個(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng) 的相同數(shù)量的低維向量，同時(shí)保持模式模型之間的距離關(guān)系；
對(duì)應(yīng)于模式模型的低維向量顯示步驟，用于根據(jù)低維元素的值，將對(duì)應(yīng)于模式模型的多個(gè)低維向量，顯示成與對(duì)應(yīng)于模式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)保持距離關(guān)系；
區(qū)域劃分步驟，用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，劃分到低維空間中的多個(gè)區(qū)域，即所述模式模型在所
述對(duì)應(yīng)于模式模型的低維向量顯示步驟中被顯示在低維空間中；區(qū)域模式模型產(chǎn)生步驟，用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì)
應(yīng)的預(yù)定數(shù)據(jù)，產(chǎn)生每個(gè)區(qū)域的區(qū)域模式模型，即所述低維向量對(duì)應(yīng)
于包含在分段區(qū)域中的模式模型；
預(yù)定數(shù)據(jù)獲取步驟，用于獲得關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)；和區(qū)域模式模型搜索步驟，用于計(jì)算各個(gè)分段區(qū)域的、區(qū)域模式模
型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性，并根據(jù)所述計(jì)算的似然性，搜
索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
由于本發(fā)明是控制^^照母案原權(quán)利要求18所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求37限定了一種特定模式模型提供系統(tǒng)，包括
受到系統(tǒng)用戶控制的信息處理終端；和按照母案原權(quán)利要求18-34中任意一個(gè)所述的數(shù)據(jù)處理單元，其中所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連，在所述數(shù)據(jù)處理單元中，關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是由多個(gè)
講話者產(chǎn)生的多個(gè)語聲，
所述信息處理終端包括
語音數(shù)據(jù)發(fā)送裝置，用于獲取關(guān)于所i^系統(tǒng)用戶產(chǎn)生的語聲
的數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元，和
特定模式模型獲取裝置，用于從所述數(shù)據(jù)處理單元獲取這樣
的特定模式模型，即所述特定模式模型適合于所述系統(tǒng)用戶的語音數(shù)
據(jù)的模式識(shí)別，
所述數(shù)據(jù)處理單元^f吏所述預(yù)定數(shù)據(jù)獲取裝置從所述信息處理終端獲取語音數(shù)據(jù)，并且根據(jù)所述獲取的語音數(shù)據(jù)，產(chǎn)生所述系統(tǒng)用戶的特定模式模型，并且
所述數(shù)據(jù)處理單元還包括特定模式模型發(fā)送裝置，用于將所述產(chǎn)就這種結(jié)構(gòu)來說，信息處理終端能夠獲取關(guān)于講話者產(chǎn)生的語聲的數(shù)據(jù)，通過語音數(shù)據(jù)發(fā)送裝置將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元，并且能夠通過特定模式模型獲取裝置，從數(shù)據(jù)處理單元獲取適合于系統(tǒng)用戶的語音數(shù)據(jù)的模式識(shí)別的特定模式模型。另外，數(shù)據(jù)處理單元能夠通過預(yù)定數(shù)據(jù)獲取裝置，從信息處理終端獲取語音數(shù)據(jù)，根據(jù)獲取的語音數(shù)據(jù)產(chǎn)生系統(tǒng)用戶的特定模式模型，并通過特定模式模型發(fā)送裝置，將產(chǎn)生的特定模式模型發(fā)送給信息處理終端。從而，系統(tǒng)用戶能夠通過因特網(wǎng)等，使諸如PC、蜂窩電話機(jī)或 PDA之類的信息處理終端與數(shù)據(jù)處理單元連接，將他/她的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元，從而容易地獲取適合于他/她的語音數(shù)據(jù)的語音識(shí)別的特定模式模型。另一方面，為了達(dá)到上述目的，本發(fā)明的母案原權(quán)利要求38限定了一種數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算裝置，用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的目標(biāo)講話者的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算所述目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；語音數(shù)據(jù)評(píng)估裝置，用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置，評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù)的值；評(píng)估結(jié)果顯示裝置，用于顯示由所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果；和位置關(guān)系信息顯示裝置，用于根據(jù)所述計(jì)算的位置，顯示所述聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān) 系的信息。就這種結(jié)構(gòu)來說，語音數(shù)據(jù)獲取裝置能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，位置計(jì)算裝置能夠根據(jù)語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)，以及聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置，語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)位置計(jì)算裝置計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值，評(píng)估結(jié)果顯示裝置能夠顯示語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果，位置關(guān)系信息顯示裝置能夠根據(jù)計(jì)算的位置，顯示聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞該語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。從而，能夠根據(jù)聲學(xué)空間中，目標(biāo)講話者的語音數(shù)據(jù)與其它模式模型之間的位置關(guān)系，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值，顯示評(píng)估結(jié) 果以及顯示語音數(shù)據(jù)和其它模式模型之間的位置關(guān)系。即，該系統(tǒng)使得能夠直觀地確定目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)是否具有較高的值，并且使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置。對(duì)照語音數(shù)據(jù)匹配模式模型，并且模式模型被表示成統(tǒng)計(jì)模型或類似模型。另外，語音數(shù)據(jù)例如由多個(gè)講話者產(chǎn)生的語聲數(shù)據(jù)，從語音數(shù)據(jù) 抽取的特征值，根據(jù)特征值產(chǎn)生的模式模型以及描述說話的內(nèi)容的文本文件的組合組成。從而，語音數(shù)據(jù)獲取裝置包含通過麥克風(fēng)等獲取講話者產(chǎn)生的語聲，將獲取的語聲轉(zhuǎn)換成數(shù)據(jù)，并根據(jù)需要通過分析該數(shù)據(jù)，抽取特征值的各種處理裝置。本發(fā)明的母案原權(quán)利要求39限定了按照母案原權(quán)利要求38所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)這樣的模式模型的數(shù)量而評(píng)估語音數(shù)據(jù)的值，即所述模式模型存在于與所述位置計(jì)算裝置計(jì)算的目標(biāo)講話者的語音數(shù)據(jù)的位置相距預(yù)定距離之內(nèi)。這樣，語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)存在于離位置計(jì)算裝置計(jì)算的講話者的語音數(shù)據(jù)的位置預(yù)定距離內(nèi)的模式模型的數(shù)量，評(píng)估語音數(shù) 據(jù)的值。從而，如果在目標(biāo)講話者的語音數(shù)據(jù)周圍，不存在其它講話者的許多模式模型，那么能夠確定語音數(shù)據(jù)的值較高，如果在該語音數(shù)據(jù) 的周圍，存在許多模式模型，那么能夠確定該語音數(shù)據(jù)的值較低。本發(fā)明的母案原權(quán)利要求40限定了按照母案原權(quán)利要求38或39 所述的數(shù)據(jù)處理單元，其中所述預(yù)定距離被步進(jìn)地設(shè)置；和所述語音數(shù)據(jù)評(píng)估裝置根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模式模型的數(shù)量，評(píng)估語音數(shù)據(jù)的值。這樣，預(yù)定距離被按照語音數(shù)據(jù)的值步進(jìn)設(shè)置，并且語音數(shù)據(jù)評(píng) 估裝置能夠根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模式模型的數(shù) 量，評(píng)估語音數(shù)據(jù)的值。這使得能夠按照每個(gè)距離范圍中模式模型的數(shù)量，步進(jìn)地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。本發(fā)明的母案原權(quán)利要求41限定了按照母案原權(quán)利要求38-40任意之一所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)所述位置計(jì)算裝置計(jì)算的位置，將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的模式模型以便評(píng)估。這樣，語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)位置計(jì)算裝置計(jì)算的位置，將多個(gè)模式模型中，特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作目標(biāo)講話者的模式模型用于評(píng)估。由于代替產(chǎn)生目標(biāo)講話者產(chǎn)生的語聲的模式模型，本發(fā)明使用相似模式模型的位置作為目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)在聲學(xué)空間中的位置，因此，能夠減少計(jì)算工作量，并且能夠使用適合于實(shí)時(shí)處理等的配置。本發(fā)明的母案原權(quán)利要求42限定了按照母案原權(quán)利要求41所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型，用作目標(biāo)講話者的模式模型，以便進(jìn)行所述評(píng)估。這樣，語音數(shù)據(jù)評(píng)估裝置能夠?qū)⑻卣髋c目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型用作目標(biāo)講話者的模式模型，用于所述評(píng)估。從而，與當(dāng)選擇單一模式模型時(shí)相比，通過選擇按相似性降序排列的前幾個(gè)模式模型，并將這些模式模型的平均值用于評(píng)估，能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。本發(fā)明的母案原權(quán)利要求43限定了按照母案原權(quán)利要求41或42 所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，計(jì)算所述特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè)之間的匹配似然性，根據(jù)所述計(jì)算的似然性，從多個(gè)講話者的多個(gè)模式模型中選擇特定的模式模型，計(jì)算所述選擇的特定模式模型與其它模式模型之間的數(shù)學(xué)距離，并且根據(jù) 所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。這樣，通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然性，能夠確定相似性。這使得易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。這里，數(shù)學(xué)距離代表根據(jù)貝標(biāo)講話者的語音數(shù)據(jù)產(chǎn)生的聲學(xué)模型與多個(gè)講話者的聲學(xué)模型之間的相似性?？纱嬖诟鞣N各樣的數(shù)學(xué)距離，取決于相似性的量度。例如，這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距離，比如歐幾里得距離，或者不能用普通標(biāo)尺測(cè)量的距離，比如 Mahalanobis廣義距離，Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距離表示成兩個(gè)向量的內(nèi)積，并將這兩個(gè)向量之間的角度用作相似性的量度。根據(jù)本發(fā)明，其它可能的數(shù)學(xué)距離包括Bhattacharrya距離，平方歐幾里得距離，余弦距離，Pearson相關(guān)性，Chebyshev距離，城市國街區(qū)(city-block)距離(或者M(jìn)anhattan距離)，Minkowski 和，Kullback信息，和Chernov距離?？傊?，盡管稱為距離，根據(jù)本發(fā)明的數(shù)學(xué)距離可以是任何事物，只要它代表相似性。這也適用于后面的母案原權(quán)利要求。本發(fā)明的母案原權(quán)利要求44限定了按照母案原權(quán)利要求38-40任意之一所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù) 獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，根據(jù)所述特征數(shù)據(jù)產(chǎn) 生目標(biāo)講話者的模式模型，計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。這樣，位置計(jì)算裝置能夠?qū)⒄Z音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn) 換成高維特征數(shù)據(jù)，根據(jù)特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型，計(jì)算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并根據(jù)計(jì)算的數(shù)學(xué)距離計(jì)算獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。這使得能夠更準(zhǔn)確地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。本發(fā)明的母案原權(quán)利要求45限定了按照母案原權(quán)利要求43或44 所述的數(shù)據(jù)處理單元，其中所述模式模型由4維或者更高維的元素組成；和所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型，即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相對(duì)應(yīng)的多個(gè)模式模型，同時(shí)保持所述距離關(guān)系，并將所述轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)。這樣，評(píng)估結(jié)果顯示裝置能夠?qū)▽?duì)應(yīng)于目標(biāo)講話者的語音數(shù) 據(jù)的多個(gè)模式模型的聲學(xué)空間中的多個(gè)模式模型轉(zhuǎn)換成低維模式模型，同時(shí)保持位置關(guān)系，并將轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)。這使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置。這里，如果語音數(shù)據(jù)和模式模型包含多維(4維或者更高維)信息，那么關(guān)于它們的位置信息也是多維的。這種情況下，評(píng)估結(jié)果顯示裝置能夠例如通過利用投射等，將關(guān)于語音數(shù)據(jù)和模式模型的多維信息轉(zhuǎn)換成2維或者更低維的信息，并將它們顯示成低維空間中的坐標(biāo)點(diǎn)。已知的投射方法包括Sammon方法。本發(fā)明的母案原權(quán)利要求46限定了按照母案原權(quán)利要求38-45任意之一所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。這樣，利用HMM，一種已知技術(shù)產(chǎn)生模式模型。這里，語音隨語速而在時(shí)間間隔方面發(fā)生變化，并且根據(jù)說話的內(nèi)容，在頻域中具有特有的形狀(頻譜包絡(luò))。該形狀隨講話者、環(huán)境、內(nèi)容等而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。本發(fā)明的母案原權(quán)利要求47限定了按照母案原權(quán)利要求38-46任意之一所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值j 和所述評(píng)估結(jié)果顯示裝置逐個(gè)音素地顯示目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果。這樣，由于逐個(gè)音位地，而不是逐字地或者逐句地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)，并且評(píng)估結(jié)果被逐個(gè)音位地顯示，因此易于確定每個(gè)音位的值。本發(fā)明的母案原權(quán)利要求48限定了按照母案原權(quán)利要求38-47任意之一所述的數(shù)據(jù)處理單元，其中當(dāng)所述語音數(shù)據(jù)評(píng)估裝置將目標(biāo)講話者的語音數(shù)據(jù)評(píng)估為具有較低的值時(shí)，所述評(píng)估結(jié)果顯示裝置顯示語音數(shù)據(jù)的補(bǔ)充信息。這樣，通過顯示提示諸如發(fā)音方式、語速或者需要被評(píng)估的(或者獲取)的其它語音數(shù)據(jù)之類的信息的補(bǔ)充信息，能夠獲取和評(píng)估同一目標(biāo)講話者的各種語音數(shù)據(jù)。這考慮到相同講話者的語音數(shù)據(jù)可能隨發(fā)音方式等而升值的事實(shí)。本發(fā)明的母案原權(quán)利要求49限定了按照母案原權(quán)利要求38-48任意之一所述的數(shù)據(jù)處理單元，包括協(xié)商裝置，用于與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供；和語音數(shù)據(jù)存儲(chǔ)裝置，用于存儲(chǔ)被所述協(xié)商裝置成功完成的協(xié)商的語音數(shù)據(jù)。這樣，協(xié)商裝置能夠與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供，語音數(shù)據(jù)存儲(chǔ)裝置能夠存儲(chǔ)協(xié)商裝置成功完成協(xié)商的語音數(shù)據(jù)。這使得能夠與目標(biāo)講話者協(xié)商由目標(biāo)講話者產(chǎn)生，并且被評(píng)估為例如具有較高值的任意語音數(shù)據(jù)的獲取。本發(fā)明的母案原權(quán)利要求50限定了一種數(shù)據(jù)處理系統(tǒng)，包括 41受到目標(biāo)講話者控制的信息處理終端；和按照母案原權(quán)利要求38-49中任意一個(gè)所述的數(shù)據(jù)處理單元，其中所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連，所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元，和評(píng)估信息顯示裝置，用于顯示從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息，其中所述數(shù)據(jù)處理單元包括評(píng)估信息發(fā)送裝置，用于將所迷評(píng)估結(jié)果信息發(fā)送給所迷信息處理終端。這樣，信息處理終端能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，并通過語音數(shù)據(jù)發(fā)送裝置，將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元。另外，借助評(píng)估信息顯示裝置，它能夠顯示與從數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果相關(guān)的信息。另一方面，通過評(píng)估信息發(fā)送裝置，數(shù)據(jù)處理單元能夠?qū)⒂嘘P(guān)評(píng)估結(jié)果的信息發(fā)送給信息處理終端。從而，如果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接，那么能夠通過因特網(wǎng)評(píng)估許多目標(biāo)講話者的語音數(shù)據(jù)，從而使得易于獲取值較高的語音數(shù)據(jù)。本發(fā)明的母案原權(quán)利要求51限定了一種數(shù)據(jù)處理方法，包括下述步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；獲取目標(biāo)講話者的語音數(shù)據(jù)；根據(jù)所述獲取的語音數(shù)據(jù)和所迷聲學(xué)空間中的多個(gè)模式模型，計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在所述聲學(xué)空間中的位置；根據(jù)所述計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；和顯示評(píng)估結(jié)果。由于本發(fā)明由按照母案原權(quán)利要求38-50任意之一所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求52限定了一種數(shù)據(jù)處理單元控制程序，它是用于控制按照母案原權(quán)利要求38所述的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序，包括
聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；
語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；
位置計(jì)算步驟，用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音數(shù)據(jù)、以及在所述聲學(xué)空間存儲(chǔ)步驟中存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；
語音數(shù)據(jù)評(píng)估步驟，用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；和
評(píng)估結(jié)果顯示步驟，用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的評(píng)估結(jié)果。
由于本發(fā)明是控制按照母案原權(quán)利要求38所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求53限定了一種適用于按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)處理單元，包括
聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；
語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；
位置計(jì)算裝置，用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；
語音數(shù)據(jù)評(píng)估裝置，用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置，評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的值；
評(píng)估結(jié)果顯示裝置，用于顯示所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果；
位置關(guān)系信息顯示裝置，用于根據(jù)所述計(jì)算的位置，顯示所述聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位
置關(guān)系的信息；和
評(píng)估信息發(fā)送裝置，用于將所述評(píng)估結(jié)果信息發(fā)送給所述信息處理終端。
由于本發(fā)明提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng) 中的數(shù)據(jù)處理單元相同的效果，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求54限定了一種適用于按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)的信息處理終端，包括
語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并且將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元；和
評(píng)估信息顯示裝置，用于顯示從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息。
由于本發(fā)明提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng) 中的信息處理終端相同的效果，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求55限定了一種數(shù)據(jù)處理單元控制程序，它是用于控制按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序，
其中所述數(shù)據(jù)處理單元包括由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間，所述程序包括
語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算步驟，用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音
數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在
聲學(xué)空間中的位置；
語音數(shù)據(jù)評(píng)估步驟，用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；
評(píng)估結(jié)果顯示步驟，用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的
44評(píng)估結(jié)果；
位置關(guān)系信息顯示步驟，用于根據(jù)所述計(jì)算的位置，顯示聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的;f莫式;f莫型之間的位置關(guān) 系的信息；和
評(píng)估信息發(fā)送步驟，用于將評(píng)估結(jié)果信息發(fā)送給所述信息處理終
由于本發(fā)明是控制按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求56公開了一種信息處理終端控制程序，它是用于控制按照母案原權(quán)利要求54所述的信息處理終端的計(jì)算機(jī) 可執(zhí)行程序，包括
語音數(shù)據(jù)發(fā)送步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元；和
評(píng)估信息顯示步驟，用于顯示從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息。
由于本發(fā)明是控制按照母案原權(quán)利要求54所述的信息處理終端的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
另一方面，為了達(dá)到上述目的，本發(fā)明的母案原權(quán)利要求57限定了一種數(shù)據(jù)處理單元，包括
聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；
語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；
位置計(jì)算裝置，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；
相似講話者檢測(cè)裝置，用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型，檢測(cè)多個(gè)講話者中語音與目標(biāo)講話者類似的相似講話者；和
位置關(guān)系信息顯示裝置，用于根據(jù)語音數(shù)據(jù)的位置和相似講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講話者的模式模型之間的位置關(guān)系的信息。就這種結(jié)構(gòu)來說，聲學(xué)空間存儲(chǔ)裝置能夠存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間，語音數(shù)據(jù)獲取裝置能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，位置計(jì)算裝置能夠根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù) 據(jù)在聲學(xué)空間中的位置，相似講話者檢測(cè)裝置能夠根據(jù)語音數(shù)據(jù)的位置和多個(gè)模式模型，檢測(cè)多個(gè)講話者中語音與目標(biāo)講話者類似的相似講話者，位置關(guān)系信息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和相似講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講話者的模式模型之間的位置關(guān)系的信息。
這使得易于直觀地了解多個(gè)講話者中的哪一個(gè)在語音方面與目標(biāo) 講話者類似。
本發(fā)明的母案原權(quán)利要求58限定了按照母案原權(quán)利要求57所述的數(shù)據(jù)處理單元，包括
特定講話者指定裝置，用于指定多個(gè)講話者中的特定講話者；相似性評(píng)估裝置，用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定
講話者的模式模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似
性；和
評(píng)估結(jié)果顯示裝置，用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)
果，
其中所述位置關(guān)系信息顯示裝置根據(jù)語音數(shù)據(jù)的位置和特定講話者的才莫式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。
這樣，特定講話者指定裝置能夠指定多個(gè)講話者中的特定講話者，相似性評(píng)估裝置能夠根據(jù)聲學(xué)空間中，語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性，評(píng) 估結(jié)果顯示裝置能夠顯示相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果，位置關(guān)系信息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。這使得易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音上的相似性，以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
本發(fā)明的母案原權(quán)利要求59限定了一種數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生
的多個(gè)模式模型構(gòu)成的聲學(xué)空間；
特定講話者指定裝置，用于指定多個(gè)講話者中的特定講話者；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算裝置，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中
的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置；
相似性評(píng)估裝置，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式
模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性；
評(píng)估結(jié)果顯示裝置，用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)
果；和
位置關(guān)系信息顯示裝置，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。
就這種結(jié)構(gòu)來說，聲學(xué)空間存儲(chǔ)裝置能夠存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間，語音數(shù)據(jù)獲取裝置能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，位置計(jì)算裝置能夠根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù) 據(jù)的位置，相似性評(píng)估裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性，評(píng)估結(jié)果顯示裝置能夠顯示相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果，位置關(guān)系信息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。
這使得易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音上的相似性，以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
本發(fā)明的母案原權(quán)利要求60限定了按照母案原權(quán)利要求58或59 所述的數(shù)據(jù)處理單元，包括
校正信息產(chǎn)生裝置，用于根據(jù)所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果，產(chǎn)生校正信息，所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正，以便提高目標(biāo)講話者與特定講話者之間語音上的相似性；和
校正信息顯示裝置，用于顯示所述校正信息。
這樣，校正信息產(chǎn)生裝置能夠根據(jù)相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果，產(chǎn)生校正信息，所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正，以便提高目標(biāo)講話者與特定講話者之間語音上的相似性，校正信息顯示裝置能夠顯示校正信息。
這允許目標(biāo)講話者通過查看校正信息，糾正他/她的說話方式。
本發(fā)明的母案原權(quán)利要求61限定了按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元，其中
根據(jù)語音數(shù)據(jù)的位置，所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的才莫式才莫型；和
根據(jù)語音數(shù)據(jù)的位置，所述相似性評(píng)估裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的模式模型。
這樣，根據(jù)語音數(shù)據(jù)的位置，相似講話者檢測(cè)裝置能夠?qū)⒍鄠€(gè)模式模型中，特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作目標(biāo)講話者的模式模型，根據(jù)語音數(shù)據(jù)的位置，相似性評(píng)估裝置能夠?qū)⒍鄠€(gè) 模式模型中，特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作目標(biāo) 講話者的模式模型。
由于相似講話者檢測(cè)裝置將相似的模式模型的位置用作聲學(xué)空間中，目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)的位置，而不是產(chǎn)生由目標(biāo)講話者產(chǎn) 生的語聲的模式模型，因此本發(fā)明能夠降低計(jì)算工作量。另外，由于相似性評(píng)估裝置將相似的模式模型的位置用作聲學(xué)空間中，目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)的位置，而不是產(chǎn)生由目標(biāo)講話者產(chǎn)生的語聲的模式模型，因此本發(fā)明能夠進(jìn)一步降低計(jì)算工作量。從而，本發(fā)明適合于實(shí)時(shí)處理等。
本發(fā)明的母案原權(quán)利要求62限定了按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元，其中
根據(jù)語音數(shù)據(jù)的位置，所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型，用作目標(biāo) 講話者的模式模型；和
根據(jù)語音數(shù)據(jù)的位置，所述相似性評(píng)估裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型，用作目標(biāo)講話者的模式模型。
這樣，根據(jù)語音數(shù)據(jù)的位置，相似講話者檢測(cè)裝置能夠?qū)⒍鄠€(gè)模式模型中，特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型用作目標(biāo)講話者的模式模型，根據(jù)語音數(shù)據(jù)的位置，相似性評(píng)估裝置能夠將多個(gè)模式模型中，特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型用作目標(biāo)講話者的模式模型。
從而，與當(dāng)選擇單一模式模型時(shí)相比，通過選擇按相似性降序排列的前幾個(gè)模式模型，并將這些模式模型的平均值用于檢測(cè)處理，評(píng) 估處理等，能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。
本發(fā)明的母案原權(quán)利要求63限定了按照母案原權(quán)利要求61或62 所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，計(jì)算所述特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè)之間的似然性，根據(jù)所述計(jì)算的似然性，從多個(gè)講話者的模式模型中選擇特定的模式模型，計(jì)算所述選擇的特定模式模型和其它模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
這樣，通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然性，能夠確定相似性。這使得易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。
這里，數(shù)學(xué)距離代表根據(jù)目標(biāo)講話者的語音數(shù)據(jù)產(chǎn)生的聲學(xué)模型與多個(gè)講話者的聲學(xué)模型之間的相似性?？纱嬖诟鞣N各樣的數(shù)學(xué)距離，取決于相似性的量度。例如，這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距離，比如歐幾里得距離，或者不能用普通標(biāo)尺測(cè)量的距離，比如
Mahalanobis廣義距離，Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距離表示成兩個(gè)向量的內(nèi)積，并將這兩個(gè)向量之間的角度用作相似性的量度。根據(jù)本發(fā)明，其它可能的數(shù)學(xué)距離包括Bhattacharrya距離，平方歐幾里得距離，余弦距離，Pearson相關(guān)性，Chebyshev距離，城市國街區(qū)(city-block)距離(或者M(jìn)anhattan距離)，Minkowski 和，Kullback信息，和Chernov距離?？傊M管稱為距離，根據(jù)本發(fā)明的數(shù)學(xué)距離可以是任何事物，只要它代表相似性。
本發(fā)明的母案原權(quán)利要求64公開了按照母案原權(quán)利要求57-60任意之一所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù) 獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，根據(jù)所述特征數(shù)據(jù)產(chǎn) 生目標(biāo)講話者的模式模型，計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所迷獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
這樣，位置計(jì)算裝置能夠?qū)⒄Z音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn) 換成高維特征數(shù)據(jù)，根據(jù)該特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型，計(jì) 算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并根據(jù)計(jì)算的數(shù)學(xué)距離，計(jì)算獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
這使得能夠直接對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理或者評(píng)估處理。
本發(fā)明的母案原權(quán)利要求65限定了按照母案原權(quán)利要求63或64 所述的數(shù)據(jù)處理單元，其中
所述模式模型由4維或更高維的元素組成；和
所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型，即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相對(duì)應(yīng)的多個(gè)模式模型，同時(shí)保持所述距離關(guān)系，并將所述轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
這使得易于直觀地了解語音數(shù)據(jù)在聲學(xué)空間中的位置。
這里，如果語音數(shù)據(jù)和模式模型包含多維(4維或者更高維)信息，那么關(guān)于它們的位置信息也是多維的。這種情況下，評(píng)估結(jié)果顯示裝置能夠通過利用例如投射等，將關(guān)于語音數(shù)據(jù)和模式模型的多維信息轉(zhuǎn)換成2維或者更低維的信息，并將它們顯示成低維空間中的坐標(biāo)點(diǎn)。已知的投射方法包括Sammon方法。
本發(fā)明的母案原權(quán)利要求66限定了按照母案原權(quán)利要求58-65任意之一所述的數(shù)據(jù)處理單元，其中所述相似性評(píng)估裝置逐個(gè)音素地評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的相似性。
這樣，由于相似性評(píng)估裝置能夠逐個(gè)音位地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的相似性，因此目標(biāo)講話者的語音數(shù)據(jù)的相似性被逐個(gè)音位地評(píng)估，而不是被逐字或逐句地評(píng)估，并且評(píng)估結(jié)果被逐個(gè)音位地顯示。這使得易于逐個(gè)音位地了解相似性評(píng)估結(jié)果。
本發(fā)明的母案原權(quán)利要求67限定了按照母案原權(quán)利要求58-66任意之一所述的數(shù)據(jù)處理單元，其中
所述聲學(xué)空間由根據(jù)多種說話風(fēng)格的多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生
的多個(gè)模式模型構(gòu)成；和
所述相似性評(píng)估裝置評(píng)估就所迷多種說話風(fēng)格中的每一種而論的相似性。
這樣，聲學(xué)空間由根據(jù)采用多種說話風(fēng)格的多個(gè)講話者的語音數(shù) 據(jù)產(chǎn)生的多個(gè)模式模型組成，相似性評(píng)估裝置能夠按所述多種說話風(fēng) 格中的每一種評(píng)估相似性。
從而，能夠評(píng)估目標(biāo)講話者說出的語音與特定講話者以各種說話風(fēng)格，例如大聲、低聲、快速和慢速說出的語音的相似性。這允許目標(biāo)講話者以適合他/她的說話風(fēng)格模仿特定講話者說出的語音。
本發(fā)明的母案原權(quán)利要求68限定了按照母案原權(quán)利要求67所述的數(shù)據(jù)處理單元，所述位置關(guān)系信息顯示裝置根據(jù)多個(gè)模式模型的說話風(fēng)格，建立低維空間的坐標(biāo)軸。
具體地說，通過按照語速，聲高等確定低維空間的軸，能夠容易地掌握目標(biāo)講話者的語音數(shù)據(jù)的特征，以及他/她周圍的講話者或者特定講話者的語音數(shù)據(jù)的特征。
本發(fā)明的母案原權(quán)利要求69限定了按照母案原權(quán)利要求57-68任意之一所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型) 產(chǎn)生模式模型。
這樣，利用HMM，一種已知技術(shù)產(chǎn)生模式模型。
這里，語音隨語速而在時(shí)間間隔方面發(fā)生變化，并且根據(jù)說話的內(nèi)容，在頻域中具有特有的形狀(頻語包絡(luò))。該形狀隨講話者、環(huán) 境、內(nèi)容等而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。
本發(fā)明的母案原權(quán)利要求70限定了一種數(shù)據(jù)處理系統(tǒng)，包含
受到目標(biāo)講話者控制的信息處理終端；和
按照母案原權(quán)利要求57-69中任意一個(gè)所述的數(shù)據(jù)處理單元，其
中
所述信息處理終端和所述數(shù)據(jù)處理單元可通信地相互連接，
所述信息處理終端包括
語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元，和
信息顯示裝置，用于顯示從所述數(shù)據(jù)處理單元獲取的語音數(shù) 據(jù)的處理結(jié)果信息，和
所述數(shù)據(jù)處理單元包括信息發(fā)送裝置，用于將語音數(shù)據(jù)的處理結(jié) 果信息發(fā)送給所述信息處理終端。
這樣，通過語音數(shù)據(jù)發(fā)送裝置，信息處理終端能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，并將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元。另外，通過信息顯示裝置，它能夠顯示從數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的處理結(jié)果信息。
另一方面，通過信息發(fā)送裝置，數(shù)據(jù)處理單元能夠?qū)⒄Z音數(shù)據(jù)的處理結(jié)果信息發(fā)送給信息處理終端。從而，如果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接，那么能夠通過因特網(wǎng)對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理、評(píng)估處理等，使得目標(biāo)講話者易于在家里或者類似場(chǎng)所對(duì)他/她的語音進(jìn)行檢測(cè) 處理或者評(píng)估處理。
本發(fā)明的母案原權(quán)利要求71限定了一種數(shù)據(jù)處理方法，包括下述步驟
準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲
學(xué)空間；
獲取目標(biāo)講話者的語音數(shù)據(jù)；
根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；
根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型，檢測(cè)多個(gè)講話者中的語音類似于目標(biāo)講話者的相似講話者；和
根據(jù)語音數(shù)據(jù)的位置以及相似講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位置關(guān) 系的信息。
由于本發(fā)明由按照母案原權(quán)利要求57所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求72限定了按照母案原權(quán)利要求71所述的數(shù)據(jù)處理方法，包括下述步驟
指定多個(gè)講話者中的特定講話者；
根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng) 估特定講話者和目標(biāo)講話者之間語音上的相似性；和顯示評(píng)估結(jié)果。
由于本發(fā)明由按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求73限定了一種數(shù)據(jù)處理方法，包括下述步驟
準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；
指定多個(gè)講話者中的特定講話者；獲取目標(biāo)講話者的語音數(shù)據(jù)；
根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)的位置；
根據(jù)語音數(shù)據(jù)的位置以及特定講話者的模式模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性；
顯示評(píng)估結(jié)果；和
根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的信息。
由于本發(fā)明由按照母案原權(quán)利要求60所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求74限定了一種數(shù)據(jù)處理單元控制程序，包括
聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；
語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；
位置計(jì)算步驟，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；
相似講話者檢測(cè)步驟，用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型，檢測(cè)多個(gè)講話者中語音上類似于目標(biāo)講話者的相似講話者；
位置關(guān)系信息顯示步驟，用于根據(jù)語音數(shù)據(jù)的位置以及相似講話者的才莫式才莫型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位置關(guān)系的信息；
講話者指定步驟，用于指定特定的講話者；
相似性評(píng)估步驟，用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性;評(píng)估結(jié)果顯示步驟，用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié) 果，其中
所述位置關(guān)系信息顯示步驟根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的信息。
由于本發(fā)明是控制按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。
本發(fā)明的母案原權(quán)利要求75限定了一種數(shù)據(jù)處理單元控制程序，包括
聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；
特定講話者指定步驟，用于指定多個(gè)講話者中的特定講話者；語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算步驟，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的
多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置；
相似性評(píng)估步驟，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式
模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性；
評(píng)估結(jié)果顯示步驟，用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié)
果；
位置關(guān)系信息顯示步驟，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的信息。
由于本發(fā)明是控制按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元的程序，因此其效果的描述將被省略，以避免不必要的重復(fù)。

圖l是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元l的結(jié)構(gòu)的方框圖; 圖2是表示其中在二維空間中顯示兩維的聲學(xué)模型兼容低維向量的實(shí)例的圖；圖3是表示顯示的坐標(biāo)點(diǎn)如何被分成二維空間中的多個(gè)區(qū)域的實(shí) 例的圖4是表示第一分段區(qū)域的圖；圖5是表示笫二分段區(qū)域的圖；圖6是表示笫三分段區(qū)域的圖；圖7是表示第四分段區(qū)域的圖；圖8是表示笫五分段區(qū)域的圖9是表示圖3中所示的劃分的結(jié)果的改進(jìn)形式的圖；圖10是表示數(shù)據(jù)處理單元1執(zhí)行的操作和處理的流程圖；圖ll是表示數(shù)據(jù)處理單元l執(zhí)行的產(chǎn)生特定模式模型的處理的流程圖12是表示數(shù)據(jù)處理單元1執(zhí)行的改變劃分的結(jié)果的處理的流程
圖13是表示根據(jù)一個(gè)實(shí)例的聲學(xué)模型兼容低維向量的顯示的圖；圖14是表示關(guān)于不同分段區(qū)域產(chǎn)生的區(qū)域聲學(xué)模型和關(guān)于整個(gè) 區(qū)域產(chǎn)生的聲學(xué)模型的識(shí)別率的圖；圖15是表示說話風(fēng)格的圖16是表示其中關(guān)于圖15中所示的說話風(fēng)格的不同組合而創(chuàng)建的聲學(xué)模型被二維投射的實(shí)例的圖17是表示其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音的數(shù)據(jù)創(chuàng)建的聲學(xué)模型被二維投射的實(shí)例的圖18是表示其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖19是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖20是表示其中利用加速度傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖21是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的結(jié)構(gòu)的方框圖22是表示在區(qū)域劃分的方法方面，數(shù)據(jù)處理單元1和數(shù)據(jù)處理單元2之間的差別的圖23是表示在以二維坐標(biāo)的形式顯示高維聲學(xué)模型的情況下，用
高識(shí)別速率標(biāo)記的講話者和用低識(shí)別率標(biāo)記的講話者的分布的圖；圖24是表示不同的分段區(qū)域的結(jié)構(gòu)的圖；圖25是表示關(guān)于區(qū)域模式模型的第一搜索方法的圖；圖26是表示關(guān)于區(qū)域模式模型的第二搜索方法的圖；圖27是表示區(qū)域模式模型搜索部分21c利用第一搜索方法進(jìn)行的
搜索處理的流程圖28是表示區(qū)域模式模型搜索部分21c利用第二搜索方法進(jìn)行的
搜索處理的流程圖29A是表示用于產(chǎn)生聲學(xué)模型的說話風(fēng)格的類型的圖，圖29B 是表示由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21顯示在二維表面中的聲學(xué)模型兼容低維向量的圖30是利用由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的搜索方法選擇的聲學(xué)模型，和由常規(guī)的MLLR講話者適應(yīng)技術(shù)選擇的聲學(xué)模型，表示識(shí)別性能和講話者之間的關(guān)系的圖31是表示在對(duì)聲學(xué)模型的搜索期間產(chǎn)生的話語的數(shù)量與按照話語的數(shù)量選擇的聲學(xué)模型的識(shí)別性能之間的關(guān)系的圖32是利用由第一搜索方法搜索的聲學(xué)模型，和根據(jù)計(jì)算的與關(guān) 于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的似然性搜索的聲學(xué)模型，表示識(shí)別性能和講話者之間的關(guān)系的圖33是表示識(shí)別性能和講話者之間的關(guān)系的圖，其中兩種出現(xiàn)頻率被用作權(quán)重，標(biāo)準(zhǔn)出現(xiàn)頻率被用作權(quán)重，或者包含在詞匯表單詞中的其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率被用作權(quán)重；
圖34A表示利用簡單雙音素的出現(xiàn)頻率產(chǎn)生的聲學(xué)空間圖，圖 34B表示利用具有低識(shí)別性能的雙音素的出現(xiàn)頻率產(chǎn)生的聲學(xué)空間圖35是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖；圖36是表示信息處理終端350的詳細(xì)結(jié)構(gòu)的圖；圖37是表示數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)的方框圖；圖38是表示當(dāng)傳送適合于系統(tǒng)用戶的聲學(xué)模型時(shí)，顯示的信息的實(shí)例的圖39是表示當(dāng)評(píng)估系統(tǒng)用戶使用的聲學(xué)模型的性能，并傳送新的聲學(xué)模型時(shí)，顯示的信息的實(shí)例的圖40是表示由信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的流程圖；圖41是表示由數(shù)據(jù)處理單元37執(zhí)行的操作和處理的流程圖；圖42是表示當(dāng)接收顯示信息時(shí)，由信息處理終端350執(zhí)行的操作
和處理的流程圖43是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖44是表示信息處理終端2的詳細(xì)結(jié)構(gòu)的圖45是表示數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)的圖46A和46B是表示數(shù)據(jù)處理系統(tǒng)7上的初始數(shù)據(jù)庫構(gòu)成處理和
數(shù)據(jù)評(píng)估處理的流程的圖47是表示其中聲學(xué)空間被二維投射的實(shí)例的圖48是表示由信息處理終端2執(zhí)行的操作和處理的流程圖49是表示由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程圖50是表示由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐
標(biāo)信息的處理的流程圖51表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖52是表示信息處理終端9的詳細(xì)結(jié)構(gòu)的圖53是表示數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)的方框圖54A和54B是表示在數(shù)據(jù)處理系統(tǒng)8上的初始數(shù)據(jù)庫構(gòu)成處理
和數(shù)據(jù)評(píng)估處理的流程的圖55是表示其中聲學(xué)空間被二維投射的一個(gè)實(shí)例的圖，圖55A
表示當(dāng)逐字處理HMM時(shí)的HMM的坐標(biāo)點(diǎn)，圖55B表示當(dāng)逐個(gè)音位 (圖中"a"、 "i"、 "u"、 "e，，和"o")地處理HMM時(shí)的HMM的坐標(biāo)點(diǎn)；圖56是表示二維投射的一個(gè)實(shí)例的圖，軸代表說話風(fēng)格；圖57是表示由信息處理終端9執(zhí)行的操作和處理的流程圖；圖58是表示由數(shù)據(jù)處理單元IO執(zhí)行的操作和處理的流程圖；圖59是表示由第二信息顯示部分10g執(zhí)行的通過二維投射顯示坐標(biāo)信息的處理的流程圖。
具體實(shí)施方式
(第一實(shí)施例)
下面參考

本發(fā)明的第一實(shí)施例。圖l-14是表示根據(jù)本發(fā) 明的第一實(shí)施例的數(shù)據(jù)處理單元的圖。
首先，將參考圖1說明根據(jù)本發(fā)明的數(shù)據(jù)處理單元的結(jié)構(gòu)。圖1 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元1的結(jié)構(gòu)的方框圖。
數(shù)據(jù)處理單元1包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式模型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld、數(shù)學(xué)距離計(jì)算部分le、模式模型轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變部分li、區(qū)域選擇部分lj和特定模式模型產(chǎn)生部分lk。
數(shù)據(jù)分類部分la根據(jù)多個(gè)特定條件，將關(guān)于多個(gè)對(duì)象的未指定數(shù) 量的數(shù)據(jù)分成多個(gè)組。根據(jù)本實(shí)施例，它按照四個(gè)特定條件講話者的類型，包括講話者的姓名、性別(男/女)、年齡(兒童/成人/老人)；口語語匯，比如數(shù)字、句子和單詞；說話風(fēng)格，比如語速、講話的音量、和方言特征；和說話環(huán)境，比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境 (位置分類)，將從多個(gè)講話者獲取的未指定數(shù)量的語音數(shù)據(jù)分成多個(gè)組。所述特定條件可由用戶自由組合(通過組合特定條件的要素或者組合特定條件)。
數(shù)據(jù)存儲(chǔ)部分lb存儲(chǔ)關(guān)于多個(gè)對(duì)象的數(shù)據(jù)，以及與根據(jù)關(guān)于多個(gè) 對(duì)象的數(shù)據(jù)產(chǎn)生的模式模型等的數(shù)據(jù)處理相關(guān)的數(shù)據(jù)。根據(jù)本實(shí)施例，存儲(chǔ)的數(shù)據(jù)包括語音數(shù)據(jù)，根據(jù)語音數(shù)據(jù)產(chǎn)生的模式模型(下面稱為聲學(xué)模型)，和與語音數(shù)據(jù)處理相關(guān)的其它數(shù)據(jù)。
模式模型產(chǎn)生部分lc根據(jù)由數(shù)據(jù)分類部分la分類的數(shù)據(jù)，產(chǎn)生每個(gè)組的4維或更高維模式模型。根據(jù)本實(shí)施例，它根據(jù)由數(shù)據(jù)分類部分la分類的語音數(shù)據(jù)，產(chǎn)生每個(gè)組的4維或更高維的聲學(xué)模型(下面稱為高維聲學(xué)模型)。
數(shù)據(jù)控制部分ld控制數(shù)據(jù)處理單元1的組件間的數(shù)據(jù)的流動(dòng)，以及組件間的操作的流動(dòng)。
數(shù)學(xué)距離計(jì)算部分le計(jì)算模式模型產(chǎn)生部分lc產(chǎn)生的模式模型間的數(shù)學(xué)距離。根據(jù)本實(shí)施例，它計(jì)算高維聲學(xué)模型間的數(shù)學(xué)距離。
模式模型轉(zhuǎn)換部分lf根據(jù)數(shù)學(xué)距離計(jì)算部分le計(jì)算的數(shù)學(xué)距離，將模式模型產(chǎn)生部分1 c產(chǎn)生的模式模型轉(zhuǎn)換成低維模型(下面稱為對(duì) 應(yīng)于模式模型的低維向量)。根據(jù)本實(shí)施例，它根據(jù)數(shù)學(xué)距離計(jì)算部分le計(jì)算的數(shù)學(xué)距離，將模式模型產(chǎn)生部分lc產(chǎn)生的高維模式模型轉(zhuǎn)換成低維模型(下面稱為聲學(xué)模型兼容的低維向量)。
模式模型顯示部分lg將由模式模型轉(zhuǎn)換部分lf從模式模型轉(zhuǎn)換來的對(duì)應(yīng)于模式模型的低維向量顯示成和對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)。根據(jù)本實(shí)施例，它將由模式模型轉(zhuǎn) 換部分lf從聲學(xué)模型轉(zhuǎn)換來的聲學(xué)模型兼容低維向量顯示成和聲學(xué) 模型兼容低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)。
區(qū)域劃分部分lh自動(dòng)地將由模式模型顯示部分lg顯示成低維空間中的坐標(biāo)點(diǎn)的對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)劃分成低維空間中的多個(gè)區(qū)域。根據(jù)本實(shí)施例，它自動(dòng)將由模式模型顯示部分lg顯示成低維空間中的坐標(biāo)點(diǎn)的聲學(xué)模型兼容低維向量劃分成低維空間中的多個(gè)區(qū)域。另外，根據(jù)本實(shí)施例，由所述劃分產(chǎn)生的多個(gè)區(qū)域被稱為分段區(qū)域。
根據(jù)來自數(shù)據(jù)處理單元1的輸入裝置(未示出)的信息，劃分改變部分li改變區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果。
根據(jù)來自數(shù)據(jù)處理單元1的輸入裝置(未示出)的信息，區(qū)域選擇部分lj從區(qū)域劃分部分lh產(chǎn)生的多個(gè)分段區(qū)域中選擇一個(gè)特定的分段區(qū)域。
特定模式模型產(chǎn)生部分lk根據(jù)與模式模型相關(guān)的數(shù)據(jù)產(chǎn)生高維模式模型，所述模式模型與位于區(qū)域選擇部分lj選擇的特定區(qū)域中的對(duì)應(yīng)于模式模型的低維向量對(duì)應(yīng)。根據(jù)本實(shí)施例，它根據(jù)與高維聲學(xué)模型相關(guān)的數(shù)據(jù)產(chǎn)生高維聲學(xué)模型，所述高維聲學(xué)模型對(duì)應(yīng)于位于區(qū) 域選擇部分lj選擇的特定區(qū)域中的聲學(xué)模型兼容低維向量。另外，根據(jù)本實(shí)施例，特定模式模型產(chǎn)生部分lk產(chǎn)生的高維聲學(xué)模型被稱為特定模式模型(根據(jù)本實(shí)施例的特定聲學(xué)模型)。
順便提及，盡管未示出，但是數(shù)據(jù)處理單元配有處理器，RAM(隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器執(zhí)行所述專用程序時(shí)，上述組件實(shí)現(xiàn)它們的功能它們中的一些僅僅通過專用程序的執(zhí)行來實(shí)現(xiàn)它們的功能，另一些將它們的功能實(shí)現(xiàn)成專用程序控制硬件。
下面參考圖2-9說明數(shù)據(jù)處理單元1的具體操作。
圖2是表示其中在二維空間中顯示聲學(xué)模型兼容低維向量的實(shí)例的圖，圖3是表示顯示的坐標(biāo)點(diǎn)如何被分成二維空間中的多個(gè)區(qū)域的實(shí)例的圖，圖4-8是表示在圖3中產(chǎn)生的分段區(qū)域的圖，圖9是表示圖3中所示的劃分結(jié)果的改進(jìn)形式的圖。
首先，數(shù)據(jù)分類部分la根據(jù)上面描述的四種具體條件講話者的類型，口語語匯，說話風(fēng)格和說話環(huán)境，將存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb 中的多個(gè)講話者的語音數(shù)據(jù)分組。按照所有四種具體條件的組合組織各組例如，由講話者的姓名，單詞，急速說話，和室內(nèi)環(huán)境識(shí)別一組，由講話者的姓名，單詞，大聲說話，和室內(nèi)環(huán)境識(shí)別另一組，由講話者的姓名，單詞，急速說話，和室外環(huán)境識(shí)別又一組，等等。這里關(guān)于分組的信息被附到語音數(shù)據(jù)上。
隨后，模式模型產(chǎn)生部分lc產(chǎn)生每組語音數(shù)據(jù)的高維聲學(xué)模型。利用諸如HMM之類的已知技術(shù)產(chǎn)生聲學(xué)模型。產(chǎn)生的高維聲學(xué)模型與對(duì)應(yīng)的語音數(shù)據(jù)相關(guān)地被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
接著，數(shù)學(xué)距離計(jì)算部分le計(jì)算產(chǎn)生的高維聲學(xué)模型間的數(shù)學(xué)距離。一般來說，高維聲學(xué)模型由語音單元的一組HMM組成。高維聲學(xué)模型i和j之間的距離由下面的等式(1)定義。 (公式1)
"0 *=0 <formula>formula see original document page 61</formula>, j， k)是包含在高維聲學(xué)模型i中的語音單元k的模型與包含在
高維聲學(xué)模型j中的語音單元k的模型之間的距離，w (k)是語音單元k的出現(xiàn)頻率，可按照其應(yīng)用任意設(shè)置，K是用于計(jì)算數(shù)學(xué)距離的語音單元的數(shù)量。
至于用于計(jì)算數(shù)學(xué)距離的語音單元，可根據(jù)用途選擇所有語音單元，一組聲學(xué)上類似的語音單元，或者特殊的語音單元。
至于d(i， j， k),可以使用已知的距離量度，比如根據(jù)正態(tài)分布的均值向量確定的歐幾里德距離，Bhattacharrya距離或者Kullback 信息。但是，由于根據(jù)由正態(tài)分布的標(biāo)準(zhǔn)偏差的乘積歸一化的均值向量確定的歐幾里德距離已知對(duì)識(shí)別性能的效應(yīng)與Kullback信息相同，因此這里將使用所述歐幾里德距離。假定所有高維聲學(xué)模型的語音單元的HMM都遵守污染正態(tài)分布。另外假定聲學(xué)模型的狀態(tài)對(duì)準(zhǔn)為1: 1。那么，d (i， j， k)可由下面的等式(2) - (5)定義。
公式(2 )
4，M)s丄l'丄g，,"H
cW(/, y, A， & s 2 ^ / 0， ^，"附i). "9，乙附y(tǒng) ). c(!，乂， A， s，乙W ， wy
々，U,"附,，w乂J三~~j~、* /. ,~;-
J 外,&，s，/,/n,.廣cr、z,A;,
/ /7(,', _/ ， A:， & /) = J] J] P(Z,夂& "附').M,夂&乙
m, =0 /n j =0
(2) (3)
(5)
其中n (i, k， s， 1， m) 、 8 (i， k， s， 1， m)和p (i， k， s， 1， m)分別是第m個(gè)正態(tài)分布的平均值，標(biāo)準(zhǔn)偏差和權(quán)重，i表示高維聲學(xué)模型，k表示語音單元，s表示狀態(tài)，1表示維。另外，S(k)是語音單元k的狀態(tài)的數(shù)量，L是維數(shù)，Mi和Mj是高維聲學(xué)模型i和 j的正態(tài)分布的污染的數(shù)量。至于聲學(xué)參數(shù)，10維的mel頻標(biāo)倒頻系數(shù)(MFCC )，其一階差分(AMFCC )，和功率的一階差分(Alog-Power) 被用于例如總共21維。從模型規(guī)模的觀點(diǎn)來看，在假定高維聲學(xué)模型基于簡單正態(tài)分布的情況下，如果簡單正態(tài)分布之間的距離被用于距離計(jì)算，那么上面的等式(2) - (5)可被簡化成下面的等式(6) (公式3)
4,Mh丄If丄g4^力、—"/力力f ( 6 )
隨后，模式模型轉(zhuǎn)換部分lf利用計(jì)算的數(shù)學(xué)距離，將多個(gè)高維聲學(xué)模型轉(zhuǎn)換成相同數(shù)量的聲學(xué)模型兼容低維向量。它將所有高維聲學(xué) 模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量(二維或三維)，同時(shí)保持它們間的距離關(guān)系，以致其間數(shù)學(xué)距離較小的兩個(gè)高維聲學(xué)模型將被布置成彼此接近，其間數(shù)學(xué)距離較大的兩個(gè)高維聲學(xué)模型將被布置成彼此遠(yuǎn) 離。根據(jù)本實(shí)施例，假定模式模型轉(zhuǎn)換部分lf將高維聲學(xué)模型轉(zhuǎn)換成二維的聲學(xué)模型兼容低維向量。
本領(lǐng)域的技術(shù)人員已知的Sammon方法可用作將高維聲學(xué)模型轉(zhuǎn) 換成二維的聲學(xué)模型兼容低維向量，同時(shí)保持距離關(guān)系的轉(zhuǎn)換方法。
Sammon方法是一種非線性映射技術(shù)，它涉及利用最速下降法優(yōu) 化低維空間中的映射位置坐標(biāo)，以使高維空間中的高維信息間的距離的總和與低維空間中的映射位置坐標(biāo)間的歐幾里德距離的總和之間的差值最小化。所有高維信息被這樣投射到低維空間中，以致其間距離較小的兩條高維信息在低維空間中也被布置成彼此接近，其間數(shù)學(xué)距離較大的兩條高維信息在低維空間中也被布置成彼此遠(yuǎn)離。在 Sammon方法中將被最小化的誤差函數(shù)E (t)由下面的等式(7)給出。
(公式4 )
根據(jù)本實(shí)施例，模式模型轉(zhuǎn)換部分lf利用Samrnon方法，將高維聲學(xué)模型轉(zhuǎn)換成二維空間中的聲學(xué)模型兼容低維向量。從而，這里
該轉(zhuǎn)換過程涉及通過將低維空間中的坐標(biāo)分配給高維聲學(xué)模型，將多個(gè)高信聲學(xué)模型投射到低維空間。
從而，如果在與聲學(xué)模型兼容低維向量相同維數(shù)的低維空間中，
聲學(xué)模型兼容低維向量在數(shù)學(xué)距離(例如，歐幾里德距離)方面彼此接近，那么對(duì)應(yīng)的高維聲學(xué)模型被認(rèn)為彼此相似，于是它們的特定條件被認(rèn)為相似。另外，高維聲學(xué)模型離中心越近，那么對(duì)應(yīng)的特定條件被認(rèn)為越典型。
根據(jù)本實(shí)施例，坐標(biāo)信息構(gòu)成聲學(xué)模型兼容低維向量的元素的值。附加的坐標(biāo)信息與對(duì)應(yīng)的聲學(xué)模型兼容低維向量相聯(lián)系地被存儲(chǔ)在數(shù)
據(jù)存儲(chǔ)部分lb中。
隨后，根據(jù)多個(gè)聲學(xué)模型兼容低維向量的元素的值(坐標(biāo)信息)，模式模型顯示部分lg將多個(gè)聲學(xué)模型兼容低維向量顯示成二維空間中的坐標(biāo)點(diǎn)，所述二維空間的中心(原點(diǎn))位于坐標(biāo)信息的重心，如圖2中所示。下面將這樣產(chǎn)生的圖稱為聲學(xué)空間圖。
隨后，區(qū)域劃分部分lh將存在于二維空間中，并且包含坐標(biāo)點(diǎn)的區(qū)域分成五個(gè)分段區(qū)域-第一~第五個(gè)分段區(qū)域30-34—如圖3中所示。
具體地說，區(qū)域劃分部分lh用外圓和內(nèi)圓劃分存在于二維空間中，并且包含坐標(biāo)點(diǎn)的區(qū)域，并進(jìn)一步將由外圓和內(nèi)圓形成的環(huán)形區(qū) 域分成四個(gè)區(qū)域(第二第五分段區(qū)域31-34)，這里外圓的半徑等于圓心與離圓心最遠(yuǎn)的點(diǎn)之間的距離，而內(nèi)圓圍繞位于外圓內(nèi)的第一分段區(qū)域30。
從而，模式模型顯示部分lg將坐標(biāo)點(diǎn)顯示在由區(qū)域劃分部分lh 產(chǎn)生的劃分結(jié)果中，如圖3中所示。從而，位于外圓內(nèi)的多個(gè)聲學(xué)模型兼容低維向量被分成圖4-8中所示的第一~第五分段區(qū)域30-34中的組。
之后，區(qū)域選擇部分lj根據(jù)來自輸入裝置，比如鼠標(biāo)或鍵盤的輸入信息，選擇第一~第五分段區(qū)域30-34之一。一旦選擇了特定的分段區(qū)域，那么特定模式模型產(chǎn)生部分lk根據(jù)用于產(chǎn)生對(duì)應(yīng)于選擇的分段區(qū)域中的聲學(xué)模型兼容低維向量的高維聲學(xué)模型的語音數(shù)據(jù)，產(chǎn)生特定的聲學(xué)模型。和上面的關(guān)于高維聲學(xué)模型的情況一樣，利用已知的技術(shù)，比如HMM產(chǎn)生所述特定的聲學(xué)模型。產(chǎn)生的特定聲學(xué)模型被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
此外，根據(jù)本實(shí)施例，劃分改變部分li能夠改變區(qū)域劃分部分lh自動(dòng)產(chǎn)生的劃分結(jié)果。例如，可能的改變包括根據(jù)來自輸入裝置，比
如鼠標(biāo)或鍵盤的輸入信息，沿圖9中的箭頭方向旋轉(zhuǎn)整個(gè)區(qū)域，同時(shí) 保持區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果，增加新的內(nèi)圓35，或者形成新的分段區(qū)域30a-30d。劃分改變部分li對(duì)應(yīng)于在母案原權(quán)利要求10 中限定的劃分改變裝置。
現(xiàn)在，參考圖IO說明數(shù)據(jù)處理單元I進(jìn)行的操作和處理的流程。圖IO是表示數(shù)據(jù)處理單元l執(zhí)行的操作和處理的流程圖。順便提及，雖然在圖10中所示的流程圖中，被處理的數(shù)據(jù)是語音數(shù)據(jù)，產(chǎn)生的模式模型是根據(jù)本實(shí)施例的聲學(xué)模型，不過這不是限制性的，根據(jù)應(yīng)用，可使用各種數(shù)據(jù)和模式模型。
如圖10中所示，首先在步驟S100中，數(shù)據(jù)處理單元l使數(shù)據(jù)分類部分la通過數(shù)據(jù)控制部分ld，從數(shù)據(jù)存儲(chǔ)部分lb讀出多個(gè)講話者的語音數(shù)據(jù)。隨后，它進(jìn)入步驟S102。
在步驟S102中，數(shù)據(jù)處理單元1使數(shù)據(jù)分類部分la根據(jù)(上面說明的)特定條件的組合，將語音數(shù)據(jù)分組。隨后，它進(jìn)入步驟S104。
在步驟S104中，數(shù)據(jù)處理單元1使數(shù)據(jù)控制部分ld判斷數(shù)據(jù)分類部分la是否完成了分組處理。如果發(fā)現(xiàn)分組處理已完成(Yes), 那么數(shù)據(jù)處理單元1進(jìn)入步驟S106。否則(No)，它進(jìn)入步驟SIOO。
在步驟S106,數(shù)據(jù)處理單元1使模式模型產(chǎn)生部分lc讀出每組的語音數(shù)據(jù)，并產(chǎn)生每組的高維聲學(xué)模型。隨后，它進(jìn)入步驟S108。
在步驟S108中，數(shù)據(jù)處理單元l使數(shù)學(xué)距離計(jì)算部分le利用上面的等式(1)，計(jì)算各組的高維聲學(xué)模型間的數(shù)學(xué)距離。隨后，它進(jìn) 入步驟SllO。
在步驟S110中，數(shù)據(jù)處理單元1使模式模型轉(zhuǎn)換部分lf根據(jù)高維聲學(xué)模型間的數(shù)學(xué)距離，利用Sammoii方法，將高維聲學(xué)模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量。隨后，它進(jìn)入步驟S112。
在步驟S112中，數(shù)據(jù)處理單元1使數(shù)據(jù)控制部分ld判斷模式模型轉(zhuǎn)換部分lf是否已完成轉(zhuǎn)換處理。如果發(fā)現(xiàn)轉(zhuǎn)換處理已完成(Yes )，那么數(shù)據(jù)處理單元1進(jìn)入步驟S114。否則(No),它進(jìn)入步驟SllO，繼續(xù)所述轉(zhuǎn)換處理。
在步驟S114中，數(shù)據(jù)處理單元1使模式模型顯示部分lg將多個(gè) 聲學(xué)模型兼容低維向量顯示在低維空間中。隨后，它進(jìn)入步驟S116。
在步驟S116中，數(shù)據(jù)處理單元l使區(qū)域劃分部分lh將存在于低維空間中，并且包含聲學(xué)模型兼容低維向量的一個(gè)區(qū)域劃分成多個(gè)分段區(qū)域，隨后它結(jié)束處理。
現(xiàn)在，參考圖11說明數(shù)據(jù)處理單元1執(zhí)行的產(chǎn)生特定模式模型的處理的流程。圖11是表示數(shù)據(jù)處理單元1執(zhí)行的產(chǎn)生特定模式模型的處理的流程圖。順Y更提及，雖然在圖11中所示的流程圖中，被處理的數(shù)據(jù)是語音數(shù)據(jù)，產(chǎn)生的特定模式模型是根據(jù)本實(shí)施例的特定聲學(xué)模型，不過這不是限制性的，根據(jù)應(yīng)用，可使用各種數(shù)據(jù)和模式模型。
如圖11中所示，首先在步驟S200中，數(shù)據(jù)處理單元l使數(shù)據(jù)控制部分ld判斷區(qū)域選擇部分lj是否選擇了某一分段區(qū)域。如果發(fā)現(xiàn) 選擇了一個(gè)分段區(qū)域(Yes)，那么數(shù)據(jù)處理單元進(jìn)入步驟S202。否則(No)，它等待，直到選擇了一個(gè)分段區(qū)域?yàn)橹埂?br> 在步驟S202中，數(shù)據(jù)處理單元l使特定模式模型產(chǎn)生部分lk通過數(shù)據(jù)控制部分Id從數(shù)據(jù)存儲(chǔ)部分lb讀出和高維聲學(xué)模型相關(guān)的語音數(shù)據(jù)，所述高維聲學(xué)模型與位于區(qū)域選擇部分lj選擇的分段區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)。隨后，它進(jìn)入步驟S204。
在步驟S204中，數(shù)據(jù)處理單元1使特定模式模型產(chǎn)生部分lk根據(jù)上面讀出的語音數(shù)據(jù)，產(chǎn)生特定模式模型。隨后，它進(jìn)入步驟S206。
在步驟S206中，數(shù)據(jù)處理單元1使特定模式模型lk通過數(shù)據(jù)控制部分ld，將產(chǎn)生的特定模式模型存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中，隨后它結(jié)束處理。
下面參考圖12說明數(shù)據(jù)處理單元1執(zhí)行的改變劃分結(jié)果的處理的流程。圖12是表示數(shù)據(jù)處理單元1執(zhí)行的改變劃分的結(jié)果的處理的流程圖。
如圖12中所示，首先在步驟S300中，劃分改變部分li判斷是否選擇了改變模式。如果發(fā)現(xiàn)改變模式已被選擇(Yes)，那么劃分改變部分li進(jìn)入步驟S302。否則(No)，它等待，直到改變模式被選擇為止。根據(jù)本實(shí)施例，選擇改變模式能夠啟動(dòng)劃分結(jié)果改變處理。
在步驟S302中，劃分改變部分li判斷變化是否已被輸入。如果發(fā)現(xiàn)變化已被輸入(Yes)，那么劃分改變部分li進(jìn)入步驟S304。否則(No)，它等待，直到變化被輸入為止。
在步驟S304中，劃分改變部分li根據(jù)輸入的變化，改變劃分結(jié) 杲。隨后，它進(jìn)入步驟S306。
在步驟S306中，劃分改變部分li才艮據(jù)來自輸入裝置的輸入，判斷改變處理是否已完成。如果發(fā)現(xiàn)改變處理已結(jié)束(Yes)，那么劃分改變部分li進(jìn)入步驟S308。否則(No)，它進(jìn)入步驟S302。
在步驟S308中，劃分改變部分li通過數(shù)據(jù)控制部分ld，將和改變后的劃分結(jié)果相關(guān)的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。根據(jù)本實(shí)施例，如果從輸入裝置收到結(jié)束改變模式的命令，那么數(shù)據(jù)處理單元1 自己結(jié)束改變模式。
從而，數(shù)據(jù)分類部分la能夠根據(jù)特定的條件，將關(guān)于多個(gè)對(duì)象的預(yù)定數(shù)據(jù)(多個(gè)講話者的語音數(shù)據(jù))分成多個(gè)組。
模式模型產(chǎn)生部分lc能夠根據(jù)分組的預(yù)定數(shù)據(jù)(按照上面的實(shí)施例，語音數(shù)據(jù))，產(chǎn)生每組的模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)。
數(shù)學(xué)距離計(jì)算部分le能夠計(jì)算多個(gè)模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)間的數(shù)學(xué)距離。
模式模型轉(zhuǎn)換部分lf能夠根據(jù)多個(gè)模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)和模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)間的數(shù)學(xué)距離，將多個(gè)模式模型(按照上面的實(shí)施例，高維聲學(xué)模型) 轉(zhuǎn)換成相同數(shù)量的對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)。
模式模型顯示部分lg能夠?qū)⒍鄠€(gè)對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)顯示成和對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間(按照上面的實(shí)施例，二維空間)中的坐標(biāo)點(diǎn)。這樣產(chǎn)生的圖將被稱為聲學(xué)空間圖。
區(qū)域劃分部分lh能夠以這樣的方式自動(dòng)劃分存在地低維空間中，并且包含坐標(biāo)點(diǎn)的區(qū)域，以致隨著離最內(nèi)側(cè)圓的徑向距離的增大，更細(xì)致地劃分包含對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)的環(huán)形區(qū)域。
劃分改變部分li能夠根據(jù)輸入信息，改變由區(qū)域劃分部分lh自動(dòng)產(chǎn)生的劃分結(jié)果。
區(qū)域選擇部分lj能夠根據(jù)輸入信息，從顯示的分段區(qū)域中選擇一個(gè)分段區(qū)域。
特定模式模型產(chǎn)生部分lk能夠根據(jù)與模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)相關(guān)的數(shù)據(jù)(按照上面的實(shí)施例，語音數(shù)據(jù))，產(chǎn)生特定的模式模型(按照上面的實(shí)施例，特定的聲學(xué)模型)，所述模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)與位于區(qū)域選擇部分 li選擇的區(qū)域中的多個(gè)對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)對(duì)應(yīng)。 (第一實(shí)例)
現(xiàn)在，參考

數(shù)據(jù)處理單元1如何產(chǎn)生特定聲學(xué)模型的實(shí) 例。圖13和14是表示該實(shí)例的圖。圖13是表示根據(jù)該實(shí)例的聲學(xué)模型兼容低維向量的顯示的圖，而圖14是表示關(guān)于不同分段區(qū)域產(chǎn)生的
特定聲學(xué)模型和關(guān)于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的識(shí)別率的圖。
根據(jù)本例，多個(gè)講話者被提供五種說話風(fēng)格--"標(biāo)準(zhǔn)地"(用目標(biāo) 講話者的平常語調(diào))，"快速地"，"大聲地"，"清晰地"(清晰地發(fā)出每個(gè)假名的音)，和"小聲地"-并被要求說出相同的日語單詞。由于講話者未被強(qiáng)制準(zhǔn)確地按照提供的說話風(fēng)格發(fā)出單詞，因此實(shí)際的說話風(fēng)格不一定與提供的說話風(fēng)格一致。在這樣的情況下，如果根據(jù)預(yù) 期的信息，比如提供的說話風(fēng)格絕對(duì)正確的假設(shè)，只按照提供的說話
風(fēng)格產(chǎn)生聲學(xué)模型，那么不能保證能夠獲取最大的性能。從而，下面將說明其中以這樣的方式實(shí)現(xiàn)本發(fā)明，以便獲取最大性能的一個(gè)實(shí)例。
首先，多個(gè)講話者被提供五種說話風(fēng)格--"標(biāo)準(zhǔn)地"，"快速地"，"大聲地"，"清晰地"和"小聲地，，-并被要求說出相同的日語單詞。所得到的語音數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
數(shù)據(jù)分類部分la通過將提供的說話風(fēng)格與講話者(姓名等)的組合用作特定條件的組合，將語音數(shù)據(jù)分組。隨后，模式模型產(chǎn)生部分 lc產(chǎn)生每組的基于HMM的高維聲學(xué)模型，從而獲取大量的高維聲學(xué) 模型。
根據(jù)本實(shí)施例，使用的語音單元是雙音素，HMM狀態(tài)的數(shù)量為 3，每個(gè)狀態(tài)具有一個(gè)正態(tài)分布。
隨后，數(shù)學(xué)距離計(jì)算部分le利用上面的等式(1)，計(jì)算高維聲學(xué)模型之間的數(shù)學(xué)距離。根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一化的模式模型的正態(tài)分布的均值向量確定的歐幾里德距離被用作正態(tài) 分布之間的數(shù)學(xué)距離。雙音素中單詞中的出現(xiàn)頻率w ( k)也被用在基于上面的等式(1)的計(jì)算處理中。
隨后，模式模型轉(zhuǎn)換部分lf根據(jù)數(shù)學(xué)距離，利用Sammon方法將高維聲學(xué)模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量。模式模型顯示部分lg 將該結(jié)果顯示成二維空間中的坐標(biāo)點(diǎn)，如圖3中所示。這些點(diǎn)代表具有講話者和說話風(fēng)格的組合的高維聲學(xué)模型間的距離關(guān)系。
隨后，如圖13中所示，區(qū)域劃分部分lh將存在于該二維空間中，并且包含所述坐標(biāo)點(diǎn)的區(qū)域分成五個(gè)分段區(qū)域—第一~第五分段區(qū)域 30-34—和上面的實(shí)施例的情況一樣。
在本例中，對(duì)應(yīng)于圖13中的聲學(xué)模型兼容低維向量的相應(yīng)特定條件，產(chǎn)生四個(gè)特定聲學(xué)模型A-D。由于A-D存在于第三分段區(qū)域32 中，因此區(qū)域選擇部分lj選擇第三分段區(qū)域32。
一旦選擇了第三分段區(qū)域32,特定模式模型產(chǎn)生部分lk就根據(jù) 與對(duì)應(yīng)于位于第三分段區(qū)域32中的各個(gè)聲學(xué)模型兼容低維向量的高維聲學(xué)模型相關(guān)的語音數(shù)據(jù)，產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。
為了便于比較，利用與對(duì)應(yīng)于位于每個(gè)分段區(qū)域中的各個(gè)聲學(xué)模型兼容低維向量的高維聲學(xué)模型相關(guān)的語音數(shù)據(jù)，為第一、第二、第四和第五分段區(qū)域30、 31、 33和34分別產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。隨后，為了便于與常規(guī)的聲學(xué)模型比較，根據(jù)與對(duì)應(yīng)于位于整個(gè) 區(qū)域中的所有聲學(xué)模型兼容低維向量的高維聲學(xué)模型相關(guān)的語音數(shù) 據(jù)，產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。
隨后，利用所述六個(gè)區(qū)域聲學(xué)模型測(cè)量四個(gè)特定聲學(xué)模型A-D相對(duì)于所有語音數(shù)據(jù)的語音識(shí)別率，結(jié)果示于圖14中。詞典規(guī)模為176 個(gè)單詞。
從圖14中所示的測(cè)量結(jié)果可看到
(1) 在所有四種特定條件(A、 B、 C和D)下，屬于第三分段區(qū)域32的區(qū)域聲學(xué)模型給出最高的識(shí)別率。次高的識(shí)別率由整個(gè)區(qū)域的區(qū)域聲學(xué)模型提供。
(2) 就整個(gè)區(qū)域的區(qū)域聲學(xué)模型來說，當(dāng)在四種特定的聲學(xué)模型 A-D之間比較所有語音數(shù)據(jù)的識(shí)別率時(shí)，可看出識(shí)別率與圖13中(點(diǎn) A-D)離中心點(diǎn)的歐幾里德距離具有線性關(guān)系。即，離中心點(diǎn)的距離越遠(yuǎn)，識(shí)別率越〗氐。
根據(jù)上面的實(shí)例，本發(fā)明的效果總結(jié)如下。
(l)通過將包含坐標(biāo)點(diǎn)的區(qū)域分成多個(gè)分段區(qū)域，并為每個(gè)分段區(qū)域產(chǎn)生一個(gè)區(qū)域聲學(xué)模型，能夠產(chǎn)生比根據(jù)整個(gè)區(qū)域內(nèi)的所有語音數(shù)據(jù)產(chǎn)生的聲學(xué)模型更高的識(shí)別率。
(2 )離中心點(diǎn)的距離的使用使得能夠預(yù)測(cè)每種特定條件下的識(shí)別率。在每種特定條件下，遠(yuǎn)離中心的聲學(xué)模型兼容低維向量給出較低的識(shí)別率。相反，在每種特定條件下，接近中心的聲學(xué)模型兼容低維向量給出較高的識(shí)別率。
(第二實(shí)例)
現(xiàn)在參考圖15和16說明其中根據(jù)本發(fā)明，二維投射為說話風(fēng)格的每種組合產(chǎn)生的聲學(xué)模型的實(shí)例。圖15是表示說話風(fēng)格的圖，而圖 16是表示其中關(guān)于圖15中所示的說話風(fēng)格的每種組合而創(chuàng)建的聲學(xué) 模型被二維投射的實(shí)例的圖。
本例中，表1中所示的一些說話風(fēng)格被指定，145名男性講話者被要求說出5240個(gè)單詞中的176個(gè)單詞的列表。當(dāng)記錄語音數(shù)據(jù)時(shí)，使用圖15中所示的七種說話風(fēng)格，包括標(biāo)準(zhǔn) 地(以平常速度讀單詞表)，快速地(比平?？斓刈x單詞表)，高聲地(比平常聲音更高地讀單詞表)，小聲地(以附近的人們甚至聽不見的方式讀單詞表)，大聲地(大聲地讀單詞表，以致即使是很遠(yuǎn)的人也能夠聽到)，Lombard (在聽到汽車噪聲的時(shí)候讀單詞表)，和清晰地(通過清晰地發(fā)出每個(gè)假名的音，讀單詞表)。在記錄之前，將上面括號(hào)中的指示提供給講話者。
首先，利用所有的記錄數(shù)據(jù)，創(chuàng)建非特定男性講話者的聲學(xué)模型。隨后，利用該模型作為初始模型，通過聯(lián)系(connection)學(xué)習(xí)，為講話者和記錄前指定的說話風(fēng)格的每種組合創(chuàng)建一個(gè)聲學(xué)模型(下面，這樣的模型將被稱為講話者-說話風(fēng)格聲學(xué)模型)。利用Sammon方法，這樣創(chuàng)建的講話者-說話風(fēng)格聲學(xué)模型被二維投射，并顯示坐標(biāo)點(diǎn)，如圖15中所示。5240個(gè)單詞中語音單元的出現(xiàn)頻率被用作上面的等式(1)中的w (k)。接近中心的符號(hào)"A"代表用作初始模型的非特定男性講話者的聲學(xué)模型的坐標(biāo)點(diǎn)。
從圖16中可看出
1) 即使指定了相同的說話風(fēng)格，實(shí)際的說話風(fēng)格仍然隨講話者而變化。這指出通過毫無疑問地接受預(yù)定的說話風(fēng)格，為每種說話風(fēng)格創(chuàng)建非特定講話者的聲學(xué)模型的缺陷。
2) 在語速和音量方面相反的(例如清晰對(duì)快速，小聲對(duì)大聲 /Lombard)的+兌話風(fēng)格圍繞原點(diǎn)-陂對(duì)稱定位。
發(fā)現(xiàn)當(dāng)圖16中所示的坐標(biāo)點(diǎn) f皮區(qū)域劃分部分lh分成多個(gè)同心區(qū) 域，并且由特定模式模型產(chǎn)生部分lk為各個(gè)分段區(qū)域重建聲學(xué)模型時(shí)，與根據(jù)整個(gè)區(qū)域的數(shù)據(jù)創(chuàng)建的非特定講話者的聲學(xué)模型相比，就位于外圍的講話者來說，性能被顯著改進(jìn)。
順便提及，雖然在上面的第一實(shí)施例和第一及第二實(shí)例中列舉了人聲，不過本發(fā)明并不只適用于人聲。當(dāng)將本發(fā)明應(yīng)用于除人聲之外的數(shù)據(jù)時(shí)，本發(fā)明能夠解決類似的問題并提供類似的效果。
除人聲之外的數(shù)據(jù)例如包括音頻數(shù)據(jù)，比如家庭噪聲，工廠噪聲，交通噪聲等；野生動(dòng)物，比如野鳥、昆蟲、青蛙、蝙蝠和其它動(dòng)物的動(dòng)物聲音數(shù)據(jù)；圖像數(shù)據(jù)；紅外傳感器數(shù)據(jù)，加速度傳感器數(shù)據(jù)，方位傳感器數(shù)據(jù)，壓力傳感器數(shù)據(jù)，來自壓電元件或者振動(dòng)計(jì)的振動(dòng)傳感器數(shù)據(jù)，或者任何其它傳感器數(shù)據(jù)；關(guān)于電池，比如鋰離子蓄電池或燃料電池的充電狀態(tài)的物理數(shù)據(jù)；生物醫(yī)學(xué)信號(hào)，比如心電圖，肌電圖，血壓或體重；基因分析用微陣列(microarray)數(shù)據(jù)；氣象數(shù)據(jù)，比如溫度、濕度或者氣壓；環(huán)境數(shù)據(jù)，比如氧濃度或者氧化氮濃度；經(jīng)濟(jì)趨勢(shì)數(shù)據(jù)，比如股票價(jià)格或物價(jià)，或者其它時(shí)序數(shù)據(jù);等等。(第三實(shí)例)
現(xiàn)在參考圖17，說明其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音的數(shù)據(jù)創(chuàng)建聲學(xué)模型，并且利用數(shù)據(jù)處理單元1 二維投射創(chuàng)建的聲學(xué)模型的實(shí)例。圖17是表示其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音的數(shù)據(jù)創(chuàng)建的聲學(xué)模型被二維投射的實(shí)例的圖。
在本例中，根據(jù)33種家庭噪聲，包括拖鞋的聲音，外重門的聲音，和鋼筆落在木地板上的聲音；40種野烏，包括烏鴉、夜鶯和斑鳩的叫聲；日本人發(fā)出的25個(gè)日語音位(5個(gè)元音，2個(gè)半元音，和18個(gè)輔音)的頻譜數(shù)據(jù)，創(chuàng)建基于HMM的模式模型。產(chǎn)生的模式模型由模式模型轉(zhuǎn)換部分lf轉(zhuǎn)換成二維的對(duì)應(yīng)于模式模型的低維向量，所得到的向量被顯示成圖17中所示的二維空間中的坐標(biāo)點(diǎn)。
在圖17中，曰常生活噪聲的模式模型，野鳥的叫聲的模式模型，日本男人發(fā)出的日語音位的模式模型，日本女人發(fā)出的日語音位的模式模型分別由A、 x、 b和口表示。
從顯示結(jié)果可以看出日常生活噪聲、野鳥的叫聲和人類聲音被粗略分成三個(gè)區(qū)域，從而，易于區(qū)分日常生活噪聲、野烏的叫聲和人類聲音。
從而，當(dāng)確定各種聲音，比如音頻數(shù)據(jù)、野生動(dòng)物的叫聲和人類聲音是否可被識(shí)別時(shí)，如同本發(fā)明的情況那樣，在低維空間(這種情況下，二維空間)中顯示模式模型是非常有益的。(第四實(shí)例)現(xiàn)在參見圖18，說明其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建模式模型，并且利用數(shù)據(jù)處理單元l二維投射創(chuàng)建的模式;f莫型的實(shí)例。圖18是表示其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
本例中，按照說話產(chǎn)生的嘴唇的張開和閉合，將從九名男性的面部圖像抽取的嘴唇的運(yùn)動(dòng)圖像數(shù)據(jù)分成四個(gè)靜止圖像組閉合狀態(tài)，從閉合到張開的轉(zhuǎn)變狀態(tài)，張開狀態(tài)，和從張開到閉合的轉(zhuǎn)變狀態(tài)。通過將二維倒頻鐠和差分用作特征向量，創(chuàng)建基于HMM的模式模型。隨后，產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量，所得到的向量被顯示成圖18中所示的二維空間中的坐標(biāo)點(diǎn)。
圖18中，閉合狀態(tài)下的9種模式模型，從閉合到張開的轉(zhuǎn)變狀態(tài)下的9種模式模型，張開狀態(tài)下的9種模式模型，和從張開到閉合的轉(zhuǎn)變狀態(tài)下的9種模式模型分別用i A口和A表示。
從顯示結(jié)果可看出，閉合狀態(tài)、從閉合到張開的轉(zhuǎn)變狀態(tài)、張開狀態(tài)和從張開到閉合的轉(zhuǎn)變狀態(tài)下的四個(gè)靜止圖像組被彼此明顯分離地群集，從而易于區(qū)分嘴唇的四種狀態(tài)。
從而，當(dāng)確定表示嘴唇圖像的各種狀態(tài)，比如張開狀態(tài)和閉合狀態(tài)的圖像是否可被識(shí)別時(shí)，如同本發(fā)明的情況那樣，在低維空間(這種情況下，二維空間)中顯示模式模型是非常有益的。(第五實(shí)例)
現(xiàn)在參考圖19，說明其中利用紅外傳感器數(shù)據(jù)創(chuàng)建模式模型，并且創(chuàng)建的模式模型被二維投射的實(shí)例。圖19是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
本例中，在安裝在2.4米高的天花板上的模擬輸出紅外傳感器(本例中，熱電傳感器)下方，人行走3144次，狗行走632次，紅外傳感器的輸出數(shù)據(jù)經(jīng)歷FFT (快速傅里葉變換)，根據(jù)FFT結(jié)果創(chuàng)建基于HMM的模式模型。隨后，產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量，所得到的向量被顯示成圖19中所示的二維空間中的坐標(biāo)點(diǎn)。
圖19中，人的模式模型和狗的模式模型分別由x和A表示。從顯示結(jié)果可看出，狗和人形成不同的群集，從而易于利用紅外傳感器區(qū)分人和狗。
從而，當(dāng)確定是否可利用來自紅外傳感器的關(guān)于對(duì)象的條件(例如工作條件等)的輸出數(shù)據(jù)，比如來自紅外傳感器的關(guān)于人和狗的行為的輸出數(shù)據(jù)識(shí)別對(duì)象時(shí)，如同本發(fā)明的情況那樣，在低維空間(這種情況下，二維空間)中顯示模式模型是非常有益的。(第六實(shí)例)
現(xiàn)在參考圖20，說明其中利用加速度傳感器的輸出數(shù)據(jù)創(chuàng)建模式模型，并且二維投射創(chuàng)建的模式模型的實(shí)例。圖20是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
本例中，一位男性對(duì)象被要求帶著在其褲包中的加速度傳感器走下樓梯，走上樓梯，和沿著走廊直行。對(duì)加速度傳感器的三個(gè)軸(X軸、Y軸和Z軸)的時(shí)序數(shù)據(jù)進(jìn)行FFT處理，根據(jù)FFT結(jié)果創(chuàng)建基于HMM的模式模型。當(dāng)所述男性對(duì)象走下樓梯，走上樓梯，和沿著走廊直行時(shí)，產(chǎn)生的模式模型的數(shù)量分別為29、 28和24。隨后，產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量，所得到的向量被顯示成圖20中所示的二維空間中的坐標(biāo)點(diǎn)。
圖20中，當(dāng)男性對(duì)象走下樓梯時(shí)創(chuàng)建的模式模型，當(dāng)男性對(duì)象走上樓梯時(shí)創(chuàng)建的模式模型，和當(dāng)男性對(duì)象沿著走廊直行時(shí)創(chuàng)建的模式模型分別由i A和x表示。
從顯示結(jié)果可看出，當(dāng)男性對(duì)象走下樓梯時(shí)創(chuàng)建的多數(shù)模式模型被群集在由位于坐標(biāo)點(diǎn)的顯示區(qū)的頂部的橢圓圍繞的區(qū)域中，但是它們中的一些分散在由位于所述顯示區(qū)的底部的橢圓圍繞的區(qū)域中。這指出走下樓梯的男性對(duì)象到達(dá)樓梯平臺(tái)，引起三個(gè)軸的加速度模式的變化，導(dǎo)致接近于直走的行走狀況。
從而，當(dāng)確定利用來自加速度傳感器的關(guān)于人的行為的輸出數(shù)據(jù)，比如來自紅外傳感器的關(guān)于人的行走方式的輸出數(shù)據(jù)，是否可識(shí)別對(duì)象的行為時(shí)，如同本發(fā)明的情況那樣，在低維空間(這種情況下，二維空間)中顯示模式模型是非常有益的。
圖1中，數(shù)據(jù)分類部分la對(duì)應(yīng)于在母案原權(quán)利要求1、 4和12任意之一中限定的數(shù)據(jù)分類裝置；模式模型產(chǎn)生部分lc對(duì)應(yīng)于在母案原權(quán)利要求1、 11和12任意之一中限定的模式模型產(chǎn)生裝置；數(shù)學(xué)距離計(jì)算部分le對(duì)應(yīng)于在母案原權(quán)利要求1、 6和12任意之一中限定的數(shù)學(xué)距離計(jì)算裝置；模式模型轉(zhuǎn)換部分lf對(duì)應(yīng)于在母案原權(quán)利要求1或7中限定的模式模型轉(zhuǎn)換裝置；模式模型顯示部分lg對(duì)應(yīng)于在母案原權(quán)利要求1或8中限定的對(duì)應(yīng)于模式模型的低維向量顯示裝置；區(qū)域劃分部分lh對(duì)應(yīng)于在母案原權(quán)利要求8-11任意之一中限定的區(qū)域劃分裝置；劃分改變部分li對(duì)應(yīng)于在母案原權(quán)利要求10中限定的劃分改變裝置；區(qū)域選擇部分lj對(duì)應(yīng)于在母案原權(quán)利要求11中限定的區(qū)域選擇裝置；特定模式模型產(chǎn)生部分lk對(duì)應(yīng)于在母案原權(quán)利要求11中限定的特定模式模型產(chǎn)生裝置。
順便提及，雖然在上述第一實(shí)施例中說明由模式模型轉(zhuǎn)換部分lf產(chǎn)生的聲學(xué)模型兼容低維向量是二維的，不過這不是限制性的，也可使用一維或者三維向量。
另外，雖然在上面的實(shí)施例中，區(qū)域劃分部分lh以這樣的方式劃分區(qū)域，以致在不同分段區(qū)域中的聲學(xué)模型兼容低維向量之間不存在任何重疊，不過這不是限制性的，在不同的分段區(qū)域間，聲學(xué)模型兼容低維向量可重疊。
此外，在上面的第一實(shí)施例中，不言而喻，通過本發(fā)明的應(yīng)用，通過只將對(duì)應(yīng)于聲學(xué)模型兼容低維向量的高維聲學(xué)才莫型轉(zhuǎn)換成新的聲學(xué)模型兼容低維向量，再次在新的低維空間中顯示它們，并利用更小的分段區(qū)域產(chǎn)生區(qū)域聲學(xué)模型，能夠獲取更高的識(shí)別性能。(第二實(shí)施例)
下面將參考附圖，說明本發(fā)明的第二實(shí)施例。圖21-39是表示根據(jù)本發(fā)明的第二實(shí)施例的數(shù)據(jù)處理單元的圖。
首先，參考圖21說明根據(jù)本發(fā)明的數(shù)據(jù)處理單元的結(jié)構(gòu)。圖21是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的結(jié)構(gòu)的方框圖。順便提及，與第一實(shí)施例中的數(shù)據(jù)處理單元1的功能組件類似的那些功能組件將用與第一實(shí)施例中相同的附圖標(biāo)記表示，與數(shù)據(jù)處理單元1的功能相同的功能的說明將被省略。
數(shù)據(jù)處理單元21包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式模型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld、數(shù)學(xué)距離計(jì)算部分le'、模式模型轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變部分li、區(qū)域選擇部分lj、特定模式模型產(chǎn)生部分lk、區(qū)域模式模型產(chǎn)生部分21a、數(shù)據(jù)獲取部分21b和區(qū)域模式模型搜索部分21c。
數(shù)學(xué)距離計(jì)算部分le'計(jì)算模式模型產(chǎn)生部分lc產(chǎn)生的模式模型間的數(shù)學(xué)距離。根據(jù)本實(shí)施例，它計(jì)算高維聲學(xué)模型間的數(shù)學(xué)距離。它與根據(jù)第一實(shí)施例的數(shù)學(xué)距離計(jì)算部分le的不同在于在數(shù)學(xué)距離
的計(jì)算中使用的等式(1)中的語音單元k的出現(xiàn)頻率w (k)是相對(duì) 于模式模型產(chǎn)生部分lc產(chǎn)生的模式模型，其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率。根據(jù)第一實(shí)施例，簡單的出現(xiàn)頻率(例如語音數(shù)據(jù)中音位"a"的出現(xiàn)頻率)被用作w (k)。
區(qū)域模式模型產(chǎn)生部分21a具有根據(jù)與模式模型(該模式模型和區(qū)域劃分部分lh自動(dòng)產(chǎn)生的分段區(qū)域的對(duì)應(yīng)于模式模型的低維向量對(duì)應(yīng))的產(chǎn)生相關(guān)的數(shù)據(jù)，產(chǎn)生區(qū)域模式模型(它們是各個(gè)分段區(qū)域的模式模型)的功能。根據(jù)本實(shí)施例，它根據(jù)與對(duì)應(yīng)于區(qū)域劃分部分 lh自動(dòng)產(chǎn)生的分段區(qū)域的聲學(xué)模型兼容低維向量的高維聲學(xué)模型的產(chǎn)生相關(guān)的數(shù)據(jù)，產(chǎn)生區(qū)域模式模型(它們是各個(gè)分段區(qū)域的高維聲學(xué)模型)。
數(shù)據(jù)獲取部分21b具有獲取關(guān)于將為其產(chǎn)生模式模型的對(duì)象的預(yù) 定數(shù)據(jù)的功能。這使得能夠獲取關(guān)于新對(duì)象(未知對(duì)象)的預(yù)定數(shù)據(jù)。根據(jù)本實(shí)施例，數(shù)據(jù)獲取部分21b包括獲取講話者發(fā)出的語音(模擬數(shù)據(jù))的裝置，比如麥克風(fēng)，和將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù) 的裝置，比如A/D轉(zhuǎn)換器。
區(qū)域模式模型搜索部分21c具有計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于數(shù)據(jù)獲取部分21b獲取的關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性，并根據(jù)計(jì)算的似然性，搜索識(shí)別性能適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)
據(jù)的區(qū)域模式模型的功能。根據(jù)本實(shí)施例，它計(jì)算對(duì)應(yīng)于各個(gè)分段區(qū) 域的區(qū)域聲學(xué)模型相對(duì)于數(shù)據(jù)獲取部分21b獲取的新講話者的語音數(shù) 據(jù)的似然性，并根據(jù)計(jì)算的似然性，搜索具有適合于識(shí)別關(guān)于新講話者的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域聲學(xué)模型。
現(xiàn)在，參考圖22-26說明數(shù)據(jù)處理單元21的具體操作。圖22是表示在區(qū)域劃分的方法方面，數(shù)據(jù)處理單元1和數(shù)據(jù)處理單元2間的差別的圖。圖23是表示在以二維坐標(biāo)的形式顯示高維聲學(xué) 模型的情況下，用高識(shí)別速率標(biāo)記的講話者和用低識(shí)別率標(biāo)記的講話者的分布的圖。圖24是表示不同的分段區(qū)域的結(jié)構(gòu)的圖。圖25是表示關(guān)于區(qū)域模式模型的第一搜索方法的圖，而圖26是表示關(guān)于區(qū)域模式模型的第二搜索方法的圖。
首先，數(shù)據(jù)分類部分la根據(jù)四種特定條件講話者的類型，口語語匯，說話風(fēng)格和說話環(huán)境，將存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中的多個(gè)講話者的語音數(shù)據(jù)分組。按照所有四種特定條件的組合組織各組例如，由講話者的姓名，單詞，急速說話，和室內(nèi)環(huán)境識(shí)別一組，由講話者的姓名，單詞，大聲iJL話，和室內(nèi)環(huán)境識(shí)別另一組，由講話者的姓名，單詞，急速說話，和室外環(huán)境識(shí)別又一組，等等。這里關(guān)于分組的信息被附到語音數(shù)據(jù)上。
隨后，如前所述，模式模型產(chǎn)生部分lc產(chǎn)生每組語音數(shù)據(jù)的高維
聲學(xué)模型。利用諸如HMM之類的已知技術(shù)產(chǎn)生聲學(xué)模型。產(chǎn)生的高維聲學(xué)模型與對(duì)應(yīng)的語音數(shù)據(jù)相關(guān)地被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
隨后，數(shù)學(xué)距離計(jì)算部分le'利用例如上面的等式(1)，計(jì)算產(chǎn) 生的高維聲學(xué)模型間的數(shù)學(xué)距離。
在上面的等式(l)中，通過計(jì)算由模式模型產(chǎn)生部分lc產(chǎn)生高維聲學(xué)模型與存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分ib中的多個(gè)講話者的語音數(shù)據(jù)之間的似然性，其似然性(識(shí)別性能)低于預(yù)定閾值的語音單元的出現(xiàn) 頻率被用作語音單元k的出現(xiàn)頻率w ( k)。通常，講話者間的聲學(xué)距離隨音位而變化。如果逐個(gè)音位地確定距離，那么不存在任何問題，但是當(dāng)通過考慮到所有音位來定義講話者之間的距離時(shí)，某種類型的加權(quán)是必需的。重要的是采用對(duì)識(shí)別性能有貢獻(xiàn)的權(quán)重。在第一實(shí)施例中，語音單元(音位等)的出現(xiàn)頻率被用作權(quán)重。這是因?yàn)榫哂懈叱霈F(xiàn)頻率的語音單元被認(rèn)為對(duì)識(shí)別來說
是重要的，從而出現(xiàn)頻率為"o"的音位不是識(shí)別所必需的，并且被認(rèn)為
對(duì)于距離計(jì)算來說也是不必要的。
本實(shí)施例使用其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率。這是因?yàn)榧词咕哂懈叱霈F(xiàn)頻率的語音單元也不需要特殊考慮，并且如果當(dāng)它們被任何講話者說出時(shí)，以較高的概率被識(shí)別，那么它們被認(rèn) 為對(duì)于距離計(jì)算來說是不必要的，以及因?yàn)楸緦?shí)施例意圖通過在距離計(jì)算中采用具有低識(shí)別性能的語音單元，從而考慮到誤識(shí)別趨勢(shì)和聲學(xué)特性，著重于由低識(shí)別性能標(biāo)記的講話者進(jìn)4亍群集。
至于用于計(jì)算數(shù)學(xué)距離的語音單元，可根據(jù)用途選擇所有語音單元，一組聲學(xué)上類似的語音單元，或者特定的語音單元。
隨后，模式模型轉(zhuǎn)換部分lf利用計(jì)算的數(shù)學(xué)距離，將多個(gè)高維聲學(xué)模型轉(zhuǎn)換成相同數(shù)量的聲學(xué)模型兼容低維向量。它將所有高維聲學(xué) 模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量(二維或三維)，同時(shí)保持它們間的距離關(guān)系，以致其間數(shù)學(xué)距離較小的兩個(gè)高維聲學(xué)模型將被布置成彼此接近，其間數(shù)學(xué)距離較大的兩個(gè)高維聲學(xué)模型將被布置成彼此遠(yuǎn) 離。根據(jù)本實(shí)施例，假定模式模型轉(zhuǎn)換部分lf將高維聲學(xué)模型轉(zhuǎn)換成二維的聲學(xué)模型兼容低維向量。如同第一實(shí)施例中一樣，本領(lǐng)域的技
術(shù)人員已知的Sammon方法可用作將高維聲學(xué)模型轉(zhuǎn)換成二維的聲學(xué) 模型兼容低維向量，同時(shí)保持距離關(guān)系的轉(zhuǎn)換方法。
也就是說，如同第一實(shí)施例中一樣，模式模型轉(zhuǎn)換部分lf利用 Sammon方法，將高維聲學(xué)模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量。從而，這里的轉(zhuǎn)換處理涉及通過將低維空間中的坐標(biāo)分配給高維聲學(xué)模型，
將多個(gè)高維聲學(xué)模型投射到低維空間。
如同第一實(shí)施例中一樣，如果在和聲學(xué)模型兼容低維向量相同維數(shù)的低維空間中，聲學(xué)模型兼容低維向量在數(shù)學(xué)距離(例如歐幾里德距離)方面相互接近，那么對(duì)應(yīng)的高維聲學(xué)模型被認(rèn)為彼此相似，至于它們的特定條件也是如此。另外，高維聲學(xué)模型離中心越近，那么對(duì)應(yīng)的特定條件被認(rèn)為越典型。
根據(jù)本實(shí)施例，坐標(biāo)信息構(gòu)成聲學(xué)模型兼容低維向量的元素的值。附加的坐標(biāo)信息與對(duì)應(yīng)的聲學(xué)模型兼容低維向量相聯(lián)系地被存儲(chǔ)在數(shù) 據(jù)存儲(chǔ)部分lb中。
隨后，根據(jù)多個(gè)聲學(xué)模型兼容低維向量的元素的值(坐標(biāo)信息)，模式模型顯示部分lg將多個(gè)聲學(xué)模型兼容低維向量顯示成二維空間
中的坐標(biāo)點(diǎn)，所述二維空間的中心(原點(diǎn))位于重心，如圖2中所示。隨后，區(qū)域劃分部分lh將存在于二維空間中，并且包含坐標(biāo)點(diǎn)的區(qū)域分成多分段區(qū)域。不同于根據(jù)第一實(shí)施例的數(shù)據(jù)處理單元使用的方法(參見圖22A)，根據(jù)本實(shí)施例的區(qū)域劃分方法隨著離最內(nèi)側(cè)圓 220的徑向距離的增大，更細(xì)致地劃分由外圓和內(nèi)圓形成的環(huán)形區(qū)域，如圖22B中所示。在所謂的極坐標(biāo)系中，包含在某一區(qū)域中的坐標(biāo)點(diǎn) 的半徑r越大，那么該區(qū)域被更加細(xì)分，在所述極坐標(biāo)系中，在由水平軸x和垂直軸y形成的，并且其原點(diǎn)O位于最內(nèi)側(cè)圓220的中心的二維空間中的坐標(biāo)點(diǎn)P (x， y)由代表半徑的r和代表x軸與P形成
的角度的e來表示。
下面將參考圖23說明隨著離中心的距離不斷增大，更細(xì)致地劃分坐標(biāo)點(diǎn)分布的優(yōu)點(diǎn)。圖23表示通過利用根據(jù)^w多個(gè)講話者獲取的所有語音數(shù)據(jù)創(chuàng)建的與講話者無關(guān)聲學(xué)模型，對(duì)包括評(píng)估講話者在內(nèi)的多個(gè)講話者進(jìn)行的語音識(shí)別的結(jié)果。在二維顯示的高維聲學(xué)模型中，由 80。/?；蚋偷淖R(shí)別性能標(biāo)記的講話者的坐標(biāo)點(diǎn)由"x"表示，其它講話者的坐標(biāo)點(diǎn)由"o"表示。
如圖23中所示，在坐標(biāo)點(diǎn)分布的邊緣附近，由低識(shí)別性能標(biāo)記的講話者(圖23中由"x，，表示)變得越來越顯著。從而，為了提高聲學(xué) 模型相對(duì)于位于外圍的講話者的識(shí)別性能，必須創(chuàng)建更準(zhǔn)確(專用的) 聲學(xué)模型。具體地說，通過隨著到由低識(shí)別性能標(biāo)記的講話者所位于的外圍的距離的降低，更細(xì)致地劃分區(qū)域，能夠降低不同分段區(qū)域間，聲學(xué)模型的特性的變化，通過根據(jù)包含在分段區(qū)域中的語音數(shù)據(jù)創(chuàng)建講話者無關(guān)聲學(xué)模型，能夠提高識(shí)別性能。
區(qū)域劃分部分lh以這樣的方式劃分區(qū)域，以致每個(gè)分段區(qū)域?qū)⒉?br> 分重疊相鄰的分段區(qū)域，如圖24中的虛線，而不是分段區(qū)域的初始劃分線條所示。這使得能夠處理位于分段區(qū)域的邊界的坐標(biāo)點(diǎn)，否則當(dāng) 創(chuàng)建區(qū)域聲學(xué)模型時(shí)，位于分段區(qū)域的邊界的坐標(biāo)點(diǎn)會(huì)引起問題。
一旦區(qū)域被如上所述那樣劃分，那么模式模型顯示部分lg將坐標(biāo) 點(diǎn)顯示在區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果中，如圖22B中所示。從而，區(qū)域中的多個(gè)聲學(xué)模型兼容低維向量被分為不同分段區(qū)域中的聲學(xué)模型兼容低維向量。
之后，區(qū)域選擇部分lj根據(jù)來自輸入裝置，比如鼠標(biāo)或鍵盤的輸入信息，選擇分段區(qū)域中的一個(gè)特定分段區(qū)域。隨后，特定模式模型產(chǎn)生部分lk根據(jù)用于產(chǎn)生對(duì)應(yīng)于選擇的分段區(qū)域中的聲學(xué)模型兼容低維向量的高維聲學(xué)模型的語音數(shù)據(jù)，產(chǎn)生區(qū)域聲學(xué)模型。和關(guān)于高維聲學(xué)模型的情況一樣，利用已知技術(shù)，比如HMM產(chǎn)生所述區(qū)域聲學(xué)模型。產(chǎn)生的特定聲學(xué)模型被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
一旦區(qū)域選擇部分lj選擇了分段區(qū)域中的一個(gè)特定分段區(qū)域，那么通過利用Sammoii方法，模式模型轉(zhuǎn)換部分lf能夠?qū)⑴c選擇的分段區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的多個(gè)高維聲學(xué)模型再次轉(zhuǎn)換成二維的聲學(xué)模型兼容低維向量。由于這樣再次進(jìn)行變換，坐標(biāo)點(diǎn)的分布被改變，如果區(qū)域劃分部分lh再次劃分所述分布，那么能夠產(chǎn)生更專用的講話者無關(guān)聲學(xué)模型。
順便提及，該數(shù)據(jù)處理單元的用戶可以自由選擇產(chǎn)生所選分段區(qū) 域的區(qū)域聲學(xué)模型的處理，或者將高維聲學(xué)模型再次轉(zhuǎn)換成聲學(xué)模型兼容低維向量的處理。
此外，根據(jù)本實(shí)施例，劃分改變部分li能夠改變區(qū)域劃分部分lh 自動(dòng)產(chǎn)生的劃分結(jié)果。例如，像上面的第一實(shí)施例中一樣，可能的改變包括根據(jù)來自輸入裝置，比如鼠標(biāo)或鍵盤的輸入信息，旋轉(zhuǎn)所有劃分線，同時(shí)保持區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果，增加內(nèi)圓35，形成新的分段區(qū)域30a-30d，或者改變劃分的結(jié)果的數(shù)量。
現(xiàn)在參考圖25和26，說明由區(qū)域模式模型產(chǎn)生部分21a，數(shù)據(jù)獲取部分21b和區(qū)域模式模型搜索部分21c執(zhí)行的搜索適合于識(shí)別關(guān)于新的講話者(和評(píng)估講話者相同)的語音數(shù)據(jù)的區(qū)域模式模型(按照本實(shí)施例，區(qū)域聲學(xué)模型)的處理。
根據(jù)本實(shí)施例，關(guān)于是否搜索區(qū)域模式模型的方式設(shè)置可留給數(shù) 據(jù)處理單元21的用戶決定。如果啟動(dòng)區(qū)域模式模型的搜索方式，那么區(qū)域劃分處理由區(qū)域劃分部分lh執(zhí)行，區(qū)域模式模型產(chǎn)生部分21a 利用與包含在每個(gè)區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的語音數(shù)據(jù)，產(chǎn)生每個(gè)分段區(qū)域的區(qū)域聲學(xué)模型。隨后，當(dāng)數(shù)據(jù)獲取部分21b獲取新講話者的語音數(shù)據(jù)時(shí)，區(qū)域模式模型搜索部分21c根據(jù)獲取的語音數(shù)據(jù)和每個(gè)分段區(qū)域的區(qū)域聲學(xué)模型，搜索適合于新講話者的語音數(shù) 據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。根據(jù)本實(shí)施例，存在第一種和第二種搜索方法，選擇使用哪種方法由數(shù)據(jù)處理單元21的用戶決定(也可同時(shí)使用這兩種方法)。
首先，參考圖25說明借助第一種搜索方法的搜索處理。如圖25 (1)中所示，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于最內(nèi)側(cè)圓250 中的區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)間的匹配似然性，并通過使計(jì)算的似然性與區(qū)域聲學(xué)模型相聯(lián)系，將其存儲(chǔ)在RAM中。
隨后，如圖25 (2)中所示，相對(duì)于由最內(nèi)側(cè)圓250和下一外圓形成的環(huán)形區(qū)中的四個(gè)分段區(qū)域，區(qū)域模式模型搜索部分21c計(jì)算對(duì) 應(yīng)于這四個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然性，比較四個(gè)計(jì)算的似然性，并通過使計(jì)算的似然性中的最高者與區(qū)域聲學(xué)模型相聯(lián)系，將其存儲(chǔ)在RAM中。另外，區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向。
具體地說，根據(jù)本實(shí)施例，與圖25(3)所示的環(huán)形區(qū)域中的四個(gè)扇形分段區(qū)域中的右上方分段區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型具有最高似
81然性，與該分段區(qū)域相鄰并且在其外面的兩個(gè)分段區(qū)域被選擇，以確
定接下來的搜索方向。隨后，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然性。隨后，像上面的圖25(2)的情況一樣，區(qū)域模式模型搜索部分21c比較這兩個(gè)似然性，并通過使計(jì)算的似然性中的較高者與區(qū)域聲學(xué)模型相聯(lián)系，將其存儲(chǔ)在RAM中。另外，區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向。
具體地說，才艮據(jù)本實(shí)施例，對(duì)應(yīng)于圖25 (4)中所示的兩個(gè)扇形分段區(qū)域中左邊一個(gè)扇形分段區(qū)域的區(qū)域聲學(xué)模型具有較高的似然性，與該分段區(qū)域相鄰并且在其外面的兩個(gè)分段區(qū)域被選擇，以確定接下來的搜索方向。隨后，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然性。隨后，像上面的圖25(3)的情況一樣，區(qū)域模式模型搜索部分 21c比較這兩個(gè)似然性，并通過使計(jì)算的似然性中的較高者與區(qū)域聲學(xué)模型相聯(lián)系，將其存儲(chǔ)在RAM中。另外，區(qū)域模式模型搜索部分 21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向。
具體地說，根據(jù)本實(shí)施例，如圖25 (5)中所示，與在圖25 (4) 中選擇的確定搜索方向的兩個(gè)扇形分段區(qū)域中右邊一個(gè)對(duì)應(yīng)的區(qū)域聲學(xué)模型具有較高的似然性，與該分段區(qū)域相鄰并且在其外面的兩個(gè)分段區(qū)域被選擇，以確定接下來的搜索方向。隨后，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然性。隨后，區(qū)域模式模型搜索部分21c比較這兩個(gè)似然性，并通過使計(jì)算的似然性中的較高者與區(qū)域聲學(xué)模型相聯(lián) 系，將其存儲(chǔ)在RAM中。根據(jù)本實(shí)施例，圖25 (6)中所示的分段區(qū)域具有較高似然性。另外，由于此時(shí)搜索已到達(dá)最外側(cè)的環(huán)形區(qū)域，因此結(jié)束搜索處理。
最后，區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的似然性，并將具有最高似然性的區(qū)域聲學(xué)模型選為適合于新講話者的語音數(shù)據(jù) 的語音識(shí)別的聲學(xué)模型。
這樣，當(dāng)從最內(nèi)側(cè)圓到外側(cè)圓計(jì)算似然性時(shí)，區(qū)域模式模型搜索
部分21c通過選擇與具有最高似然性的分段區(qū)域相鄰的分段區(qū)域，確定接下來的搜索方向，相互比較每個(gè)環(huán)形區(qū)域中的分段區(qū)域的計(jì)算似然性，并根據(jù)比較的結(jié)果存儲(chǔ)最高的似然性。重復(fù)該處理，直到到達(dá) 最外側(cè)的環(huán)形區(qū)為止，最后，從存儲(chǔ)的似然性中，選擇具有最大似然性的區(qū)域聲學(xué)模型作為適合于新講話者的聲學(xué)模型。
順便提及，盡管第一搜索方法順序計(jì)算似然性，直到到達(dá)最外側(cè) 的環(huán)形區(qū)域?yàn)橹?，隨后從已被搜索的分段區(qū)域的最大似然性中選擇最高的似然性，從而選擇適合于新講話者的區(qū)域聲學(xué)模型，不過這不是限制性的。還可比較指定分段區(qū)域的似然性與下一內(nèi)部分段區(qū)域的似然性，如果任意指定分段區(qū)域的最大似然性大于下一內(nèi)部分段區(qū)域的最大似然性，那么如同第一搜索方法一樣，沿向外的方向繼續(xù)搜索，或者如果下一內(nèi)部分段區(qū)域的任意似然性較大，那么停止所迷搜索，
并將下一內(nèi)部分段區(qū)域的最大似然性選為適合于新講話者的區(qū)域聲學(xué) 模型的似然性。
下面參考圖26說明借助第二種搜索方法的搜索處理。如圖26( 1) 中所示，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于最內(nèi)側(cè)圓250中的區(qū) 域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)間的匹配似然性，并通過使計(jì)算的似然性與區(qū)域模式才莫型相聯(lián)系，將計(jì)算的似然性存儲(chǔ)在RAM 中。隨后，如圖26 (2)中所示，關(guān)于由最內(nèi)側(cè)圓250和下一外圓形成的環(huán)形區(qū)域中的四個(gè)分段區(qū)域，區(qū)域模式模型搜索部分21c計(jì)算與這四個(gè)分段區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然性，并通過使計(jì)算的似然性中的最高者與區(qū)域聲學(xué)模型相聯(lián)系，將其存儲(chǔ)在RAM中。另外，區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰，并且在其外面的分段區(qū)域，確定接下來的搜索方向。
具體地說，根據(jù)本實(shí)施例，與圖26 (3)中所示的環(huán)形區(qū)域中的部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū)域的區(qū)域聲學(xué)模型和新講話者的語音數(shù)據(jù)間的匹配似然性。隨后，像上面圖26 (2)的情況一樣，區(qū)域模式模型搜索部分21c比較這四個(gè)似然性，并通過使計(jì)算的似然性中的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相聯(lián)系，將它們存儲(chǔ)在RAM 中。另外，區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向。具體地說，根據(jù)本實(shí)施例，與圖26(4)中所示右上方兩個(gè)扇形分段區(qū)域中的右側(cè)分段區(qū)域，以及右下方兩個(gè)分段區(qū)域中的左側(cè)分段區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型具有最高和次高的似然性，選擇與這兩個(gè)分段區(qū)域相鄰并且在其外面的四個(gè)分段區(qū)域，以確定接下來的搜索方向。
隨后，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū)域的區(qū)域聲學(xué)模型和新講話者的語音數(shù)據(jù)間的匹配似然性。隨后，像上面的圖
26 (3)的情況一樣，區(qū)域模式模型搜索部分21c比較這四個(gè)似然性，并通過使計(jì)算的似然性中的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相聯(lián)系，將它們存儲(chǔ)在RAM中。另外，區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū) 域，確定接下來的搜索方向。
具體地說，根據(jù)本實(shí)施例，如圖26 (5)中所示，與包含在圖26 (4)中選擇的以確定搜索方向的四個(gè)分段區(qū)域的兩個(gè)扇形區(qū)域中的下面一個(gè)對(duì)應(yīng)的兩個(gè)區(qū)域聲學(xué)模型具有最高和次高的似然性，選擇與這兩個(gè)分段區(qū)域相鄰并且在其外面的四個(gè)分段區(qū)域，以確定接下來的搜索方向。隨后，區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū) 域的區(qū)域聲學(xué)模型和新講話者的語音數(shù)據(jù)間的匹配似然性。隨后，區(qū) 域模式模型搜索部分21c比較這四個(gè)似然性，并通過使計(jì)算的似然性中的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相聯(lián)系，將它們存儲(chǔ)在 RAM中。根據(jù)本實(shí)施例，圖26(6)中所示的分段區(qū)域具有最高和次高的似然性。另外，由于此時(shí)搜索已到達(dá)最外側(cè)的環(huán)形區(qū)域，因此結(jié) 束搜索處理。
最后，區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的似然性，并將具有最高似然性的區(qū)域聲學(xué)模型選為適合于新講話者的語音數(shù)據(jù) 的語音識(shí)別的聲學(xué)模型。
這樣，當(dāng)從最內(nèi)側(cè)圓到外圓計(jì)算似然性時(shí)，區(qū)域模式模型搜索部分21c通過選擇與具有最高或次高似然性的分段區(qū)域相鄰的分段區(qū) 域，確定接下來的搜索方向，相互比較每個(gè)環(huán)形區(qū)域中的分段區(qū)域的計(jì)算似然性，并根據(jù)計(jì)算結(jié)果存儲(chǔ)最高和次高的似然性。重復(fù)該處理，
直到到達(dá)最外側(cè)的環(huán)形區(qū)域?yàn)橹?，最后，從存?chǔ)的似然性中，選擇具有最大似然性的區(qū)域聲學(xué)模型作為適合于新講話者的聲學(xué)模型。
順便提及，盡管第二種搜索方法通過選擇與對(duì)應(yīng)于前兩個(gè)似然性的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向，并按分段區(qū)域存儲(chǔ)前兩個(gè)似然性，不過這不是限制性的。還可通過選擇與對(duì)應(yīng)于前n個(gè)(n是小于指定環(huán)形區(qū)域的劃分結(jié)果的數(shù)量的整數(shù)) 似然性的分段區(qū)域相鄰并且在其外面的分段區(qū)域，確定接下來的搜索方向，并按分段區(qū)域存儲(chǔ)前n個(gè)似然性。
另外，用第一和第二搜索方法選擇的聲學(xué)模型可通過電纜等，被傳送給新講話者的信息處理終端，比如蜂窩電話機(jī)或者PDA。
另外，盡管對(duì)通過利用其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率作為w(k) ，二維投射的搜索空間進(jìn)行按照第一和第二搜索方法的區(qū)域聲學(xué)模型搜索，不過這不是限制性的。還可利用其識(shí)別性能低于預(yù)定闊值的語音單元的出現(xiàn)頻率和簡單的出現(xiàn)頻率，產(chǎn)生獨(dú)立的搜索空間，利用第一或第二搜索每個(gè)搜索空間中的區(qū)域聲學(xué)模型，比較搜索空間之間區(qū)域聲學(xué)模型的似然性，并選擇具有更高似然性的搜索空間中的區(qū)域模式模型。
現(xiàn)在參考圖27，說明數(shù)據(jù)處理單元21的區(qū)域模式模型搜索部分 21c利用第一搜索方法執(zhí)行的搜索處理。圖27是表示區(qū)域模式模型搜索部分21c利用笫一搜索方法進(jìn)行的搜索處理的流程圖。說明書第73/130頁
如圖27中所示，當(dāng)在步驟S400中，數(shù)據(jù)處理單元21的用戶利用輸入裝置選擇笫一搜索方法時(shí)，區(qū)域模式模型搜索部分21c進(jìn)入步驟
在步驟S402中，區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)獲取部分 21b是否獲取了新數(shù)據(jù)。如果發(fā)現(xiàn)已獲取新數(shù)據(jù)(Yes)，那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S404。否則(No)，它繼續(xù)所述判斷處理，直到新數(shù)據(jù)被獲取為止。這里，新數(shù)據(jù)意味著關(guān)于新對(duì)象，比如新的講話者的數(shù)據(jù)。這樣的數(shù)據(jù)可以是，例如新講話者的語音數(shù)據(jù)。
在步驟S404中，區(qū)域模式模型搜索部分21c將獲取的新數(shù)據(jù)存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分lb中。隨后，它進(jìn)入步驟S406。
在步驟S406中，區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)控制部分 ld是否已通過輸入裝置，接受來自數(shù)據(jù)處理單元21的用戶的搜索開始命令。如果發(fā)現(xiàn)已獲取搜索開始命令(Yes)，那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S408。否則(No)，它繼續(xù)所述判斷處理，直到接受搜索開始命令為止。
在步驟S408中，區(qū)域模式模型搜索部分21c從數(shù)據(jù)存儲(chǔ)部分lb 讀出存儲(chǔ)的新數(shù)據(jù)，并計(jì)算新數(shù)據(jù)和與對(duì)應(yīng)于區(qū)域劃分部分lh產(chǎn)生的區(qū)域之中，最內(nèi)側(cè)圓中的區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。隨后，它進(jìn)入步驟S410。
在步驟S410,區(qū)域模式模型搜索部分21c將在步驟S408中計(jì)算的似然性存儲(chǔ)在RAM中。隨后，它進(jìn)入步驟S412。
在步驟S412中，區(qū)域模式模型搜索部分21c計(jì)算新數(shù)據(jù)和與鄰近最內(nèi)側(cè)圓的環(huán)形區(qū)域中的分段區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。隨后，它進(jìn)入步驟S414。
在步驟S414中，區(qū)域模式模型搜索部分21c比較計(jì)算的分段區(qū)域的似然性。隨后，它進(jìn)入步驟S416。
在步驟S416中，區(qū)域模式模型搜索部分21c根據(jù)在步驟S414中的比較結(jié)果，通過使最高的似然性與區(qū)域模式模型相聯(lián)系，將所述最高的似然性存儲(chǔ)在RAM中。隨后，它進(jìn)入步驟S418。在步驟S418中，區(qū)域模式模型搜索部分21c判斷似然性計(jì)算是否已到達(dá)最外側(cè)的環(huán)形區(qū)域。如果發(fā)現(xiàn)已到達(dá)最外側(cè)的環(huán)形區(qū)域(Yes )，那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S420。否則(No)，它進(jìn)入步驟S424。
在步驟S420中，區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的所有似然性。隨后，它進(jìn)入步驟S422。
在步驟S422中，區(qū)域模式模型搜索部分21c根據(jù)步驟S420中的比較結(jié)果，選擇對(duì)應(yīng)于最高似然性的區(qū)域模式模型，隨后它結(jié)束處理。
另一方面，如果由于在步驟S418中，發(fā)現(xiàn)還未到達(dá)最外側(cè)的環(huán)形區(qū)域，因此區(qū)域模式模型搜索部分21c進(jìn)入步驟S424,那么它根據(jù)步驟S414中的比較結(jié)果，計(jì)算和與包含具有最高似然性的區(qū)域模式模型的區(qū)域鄰近且在其外面的區(qū)域?qū)?yīng)的區(qū)域模式模型的似然性。隨后，它進(jìn)入步驟S414。
現(xiàn)在，參考圖28說明數(shù)據(jù)處理單元21的區(qū)域模式模型搜索部分 21c利用第二搜索方法進(jìn)行的搜索處理的流程。圖28是表示區(qū)域模式模型搜索部分21c利用第二搜索方法進(jìn)行的搜索處理的流程圖。
如圖28中所示，當(dāng)在步驟S500中，數(shù)據(jù)處理單元21的用戶利用輸入裝置選擇第二搜索方法時(shí)，區(qū)域模式模型搜索部分21c進(jìn)入步驟 S502。
在步驟S502中，區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)獲取部分 21b是否獲取了新數(shù)據(jù)。如果發(fā)現(xiàn)已獲取新數(shù)據(jù)(Yes)，那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S504。否則(No)，它繼續(xù)所述判斷處理，直到新數(shù)據(jù)被獲取為止。這里，新數(shù)據(jù)意味著關(guān)于新對(duì)象，比如新的講話者的數(shù)據(jù)。這樣的數(shù)據(jù)可以是，例如新講話者的語音數(shù)據(jù)。
在步驟S504中，區(qū)域模式模型搜索部分21c將獲取的新數(shù)據(jù)存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分lb中。隨后，它進(jìn)入步驟S506。
在步驟S506中，區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)控制部分 ld是否已通過輸入裝置，接受來自數(shù)據(jù)處理單元21的用戶的搜索開始命令。如果發(fā)現(xiàn)已獲取搜索開始命令(Yes),那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S508。否則(No),它繼續(xù)所述判斷處理，直到接受搜索開始命令為止。
在步驟S508中，區(qū)域模式模型搜索部分21c從數(shù)據(jù)存儲(chǔ)部分lb 讀出存儲(chǔ)的新數(shù)據(jù)，并計(jì)算新數(shù)據(jù)和與對(duì)應(yīng)于區(qū)域劃分部分lh產(chǎn)生的區(qū)域之中，最內(nèi)側(cè)圓中的區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。隨后，它進(jìn)入步驟S510。
在步驟S510,區(qū)域模式模型搜索部分21c將在步驟S508中計(jì)算的似然性存儲(chǔ)在RAM中。隨后，它進(jìn)入步驟S412。
在步驟S512中，區(qū)域模式模型搜索部分21c計(jì)算新數(shù)據(jù)和與鄰近最內(nèi)側(cè)圓的環(huán)形區(qū)域中的分段區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。隨后，它進(jìn)入步驟S514。
在步驟S514中，區(qū)域模式模型搜索部分21c比較計(jì)算的分段區(qū)域的似然性。隨后，它進(jìn)入步驟S516。
在步驟S516中，區(qū)域模式模型搜索部分21c根據(jù)在步驟S514中的比較結(jié)果，通過使前ii個(gè)似然性與區(qū)域模式模型相聯(lián)系，將所述前 n個(gè)似然性存儲(chǔ)在RAM中。隨后，它進(jìn)入步驟S518。
在步驟S518中，區(qū)域模式模型搜索部分21c判斷似然性計(jì)算是否已到達(dá)最外側(cè)的環(huán)形區(qū)域。如果發(fā)現(xiàn)已到達(dá)最外側(cè)的環(huán)形區(qū)域(Yes)，那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S520。否則(No)，它進(jìn)入步驟S524。
在步驟S520中，區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的所有似然性。隨后，它進(jìn)入步驟S522。
在步驟S522中，區(qū)域模式模型搜索部分21c根據(jù)步驟S520中的比較結(jié)果，選擇對(duì)應(yīng)于最高似然性的區(qū)域模式模型，隨后它結(jié)束處理。
另一方面，如果由于在步驟S518中，發(fā)現(xiàn)還未到達(dá)最外側(cè)的環(huán)形區(qū)域，因此區(qū)域模式模型搜索部分21c進(jìn)入步驟S524，那么它根據(jù)步驟S514中的比較結(jié)果，計(jì)算和與包含對(duì)應(yīng)于前n個(gè)似然性的區(qū)域模式模型的區(qū)域鄰近且在其外面的區(qū)域?qū)?yīng)的區(qū)域模式模型的似然性。隨后，它進(jìn)入步驟S514。
88數(shù)據(jù)分類部分la能夠根據(jù)特定的條件，將關(guān)于多個(gè)預(yù)定對(duì)象的預(yù) 定數(shù)據(jù)(多個(gè)講話者的語音數(shù)據(jù))分組。
模式模型產(chǎn)生部分lc能夠根據(jù)分組的預(yù)定數(shù)據(jù)(按照上面的實(shí)施例，語音數(shù)據(jù))，產(chǎn)生每組的模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)。
通過將其識(shí)別性能低于預(yù)定閾值的模式單元(按照上面的實(shí)施例，語音單元)的出現(xiàn)頻率用作上面的等式(1)中的w (k)，數(shù)學(xué)距離計(jì)算部分le'能夠計(jì)算多個(gè)模式模型(按照上面的實(shí)施例，高維聲學(xué)模
型)間的數(shù)學(xué)距離。
模式模型轉(zhuǎn)換部分lf能夠根據(jù)模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)'間的數(shù)學(xué)距離，將多個(gè)模式模型(按照上面的實(shí)施例，
高維聲學(xué)模型)轉(zhuǎn)換成相同數(shù)量的對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)。
模式模型顯示部分lg能夠?qū)?duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)顯示成和對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間(按照上面的實(shí)施例，二維空間)中的坐標(biāo)點(diǎn)。
區(qū)域劃分部分lh能夠以這樣的方式自動(dòng)劃分存在于低維空間中，并且包含坐標(biāo)點(diǎn)的區(qū)域，以致隨著離最內(nèi)側(cè)圓的徑向距離的增大，更細(xì)致地劃分包含對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)的環(huán)形區(qū)域。
劃分改變部分li能夠根據(jù)輸入信息，改變區(qū)域劃分部分lh自動(dòng) 產(chǎn)生的劃分的結(jié)果。
區(qū)域選擇部分lj能夠根據(jù)輸入信息，從顯示的分段區(qū)域中選擇一個(gè)分段區(qū)域。
特定模式模型產(chǎn)生部分lk能夠根據(jù)和模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)相關(guān)的數(shù)據(jù)(按照上面的實(shí)施例，語音數(shù)據(jù))，產(chǎn)生特定的模式模型(按照上面的實(shí)施例，特定聲學(xué)模型)，所述模式模型(按照上面的實(shí)施例，高維聲學(xué)模型)和位于區(qū)域選擇部分li選擇的區(qū)域中的多個(gè)對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例，聲學(xué)模型兼容低維向量)相對(duì)應(yīng)。
區(qū)域模式模型產(chǎn)生部分21a能夠產(chǎn)生由區(qū)域劃分部分lh產(chǎn)生的每個(gè)分段區(qū)域的區(qū)域模式模型(按照上面的實(shí)施例，區(qū)域聲學(xué)模型)。
數(shù)據(jù)獲取部分21b能夠獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)(按照上面的實(shí)施例，新的講話者的語音數(shù)據(jù))。
利用第一或第二搜索方法，區(qū)域模式模型搜索部分21c能夠搜索與區(qū)域劃分部分lh產(chǎn)生的分段區(qū)域?qū)?yīng)的區(qū)域模式模型(按照上面的實(shí)施例，區(qū)域聲學(xué)模型)，尋找適合于識(shí)別數(shù)據(jù)獲取部分21b獲取的預(yù)定數(shù)據(jù)(按照上面的實(shí)施例，語音數(shù)據(jù))的區(qū)域模式模型。 (第七實(shí)例)
參考圖29-31,說明一個(gè)實(shí)例，其中根據(jù)第二實(shí)施例的數(shù)據(jù)處理單元21 二維投射每種說話風(fēng)格的多個(gè)高維聲學(xué)模型(下面稱為聲學(xué)模型庫)，將它們分成多個(gè)分段區(qū)域，產(chǎn)生各個(gè)分段區(qū)域的多個(gè)區(qū)域聲學(xué)模型，利用第一搜索方法從多個(gè)區(qū)域聲學(xué)模型中選擇一個(gè)區(qū)域聲學(xué) 模型，并比較這樣獲取的區(qū)域聲學(xué)模型與常規(guī)的MLLR (最大似然線性回歸)獲取的聲學(xué)模型間的性能。
圖29A是表示用于產(chǎn)生聲學(xué)模型的說話風(fēng)格的類型的圖，而圖 29B是表示由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21顯示在二維表面中的聲學(xué) 模型兼容低維向量的圖。圖30是利用由根據(jù)本發(fā)明的數(shù)據(jù)處理單元 21的搜索方法選擇的聲學(xué)模型，和由常規(guī)的MLLR講話者適應(yīng)技術(shù) 選擇的聲學(xué)模型，表示識(shí)別性能和講話者之間的關(guān)系的圖。圖31是表
示在對(duì)聲學(xué)模型的搜索期間產(chǎn)生的話語的數(shù)量與按照話語的數(shù)量選擇的聲學(xué)模型的識(shí)別性能之間的關(guān)系的圖。
對(duì)于性能比較來說，5240個(gè)音位均衡的單詞被分成均由175個(gè)單詞組成的單詞表，145名男性講話者4皮要求以多種說話風(fēng)格說話，所得到的語音數(shù)據(jù)被^^用。參與的講話者總共561名，其中533名講話者是學(xué)習(xí)數(shù)據(jù)講話者，28名講話者是評(píng)估數(shù)據(jù)講話者。有關(guān)評(píng)估講話者的選擇的細(xì)節(jié)將在后面說明。以20dB的S/N比將在展覽會(huì)錄制的背景噪聲重疊在語音數(shù)據(jù)上。采樣頻率為11.025 kHz。使用了七種說話風(fēng)格，如圖29A中所示正常地(以正常速度說話)，快速地(比正常更快地說話)，高聲地(比平常聲音更高地說話)，小聲地(以附近的人們甚至聽不見的方式說話)，大聲地(大聲地說話，以致即使是很遠(yuǎn)的人也能聽到)，Lombard (在聽到汽車噪聲的時(shí)候說話)，和清晰地(清晰地發(fā)出每個(gè)假名的音)。利用簡單正態(tài)分布，通過雙音素的基于HMM的建模，創(chuàng)建聲學(xué)模型。
圖29B表示當(dāng)數(shù)據(jù)處理單元21將533名男性學(xué)習(xí)數(shù)據(jù)講話者的講話者聲學(xué)模型顯示成二維平面中的坐標(biāo)點(diǎn)時(shí)得到的聲學(xué)空間圖。學(xué) 習(xí)數(shù)據(jù)中的雙音素的出現(xiàn)頻率被用作等式(1)中的語音單元k的出現(xiàn) 頻率w (k)。本例中，在數(shù)據(jù)處理單元21上，兩種出現(xiàn)頻率—即，簡單雙音素的出現(xiàn)頻率和其識(shí)別性能低于預(yù)定閾值的雙音素的出現(xiàn)頻率—被用作上面的等式(1)中的出現(xiàn)頻率w (k)，在對(duì)區(qū)域聲學(xué)模
型的搜索期間，比較包含在利用相應(yīng)的出現(xiàn)頻率產(chǎn)生的兩種聲學(xué)空間圖中的搜索結(jié)果，并選擇產(chǎn)生較高似然性的區(qū)域聲學(xué)模型。所使用的坐標(biāo)點(diǎn)的符號(hào)示于圖29A中。
從圖29B可看出，坐標(biāo)點(diǎn)按照說話風(fēng)格形成多個(gè)組。這被認(rèn)為指出聲學(xué)特性隨著說話風(fēng)格而變化。由于"正常，，說話風(fēng)格的坐標(biāo)點(diǎn)集中于分布的中心，因此認(rèn)為當(dāng)被數(shù)據(jù)處理單元21映射到二維平面時(shí)，具有更平均的特性的說話風(fēng)格出現(xiàn)在中心。虛線箭頭表示同一講話者在不同說話風(fēng)格間的差異。這指出如果在聲學(xué)分析后再次進(jìn)行統(tǒng)計(jì)處理，那么與隨著講話者而變化相比，聲學(xué)特性隨著說話風(fēng)格而更大地變化。
從圖29B的(總共28名評(píng)估講話者)的分布的內(nèi)緣和外緣中，選擇每種說話風(fēng)格的兩個(gè)講話者作為評(píng)估講話者。HTK (Hidden Markov Model Toolkit)被用于評(píng)估(參見http:Vhtk.eng.cam.ac.uk/， 2004/7/12)，并且并行的一套175個(gè)記錄單詞的列表被提供給評(píng)估講話者。作為一種評(píng)估量度，除了單詞準(zhǔn)確度(下面簡單稱為識(shí)別性能) 之外，還使用識(shí)別性能低于XV。的評(píng)估講話者的比例(下面稱為 Population)。這是語音識(shí)別廠家需要嵌入式設(shè)備制造商作出的性能保證指標(biāo)之一。
利用評(píng)估數(shù)據(jù)評(píng)估聲學(xué)模型庫?；谏倭康恼Z音樣本，由笫一搜索方法從聲學(xué)模型庫選擇的聲學(xué)模型被稱為定制聲學(xué)模型。首先，在定制聲學(xué)模型和講話者無關(guān)聲學(xué)模型之間比較性能，以確定基線性能，
另外在定制聲學(xué)模型和由常規(guī)的MLLR講話者適應(yīng)技術(shù)獲取的講話者適應(yīng)聲學(xué)模型之間比較性能。隨后，利用模型選擇所需的語音樣本
的數(shù)量比較性能，并檢查對(duì)于足夠的性能改進(jìn)來說所需的語音樣本的數(shù)量。至少用于模型選擇或者基于MLLR的講話者適應(yīng)的語音樣本，由于認(rèn)為在任務(wù)中使用單詞是通例，因此使用從每個(gè)評(píng)估講話者的評(píng) 估數(shù)據(jù)中任意選擇的語音樣本。
圖30表示相對(duì)于不同的講話者，在講話者無關(guān)聲學(xué)模型，講話者適應(yīng)聲學(xué)模型(適應(yīng)的話語的數(shù)量為10 (由圖30中的MLLR_N10表示))，講話者適應(yīng)聲學(xué)模型(適應(yīng)的話語的數(shù)量為30 (由圖30中的MLLIN30表示))，和定制聲學(xué)模型(用于模型選擇的話語的數(shù)量為5 (由圖30中的Custon^N5表示))間的識(shí)別性能的比較。
在圖30中，水平軸代表講話者數(shù)量，而垂直軸代表依據(jù)講話者標(biāo)繪的每個(gè)聲學(xué)模型的識(shí)別率。另外，假定講話者適應(yīng)聲學(xué)模型已適合于利
用提供最高性能的學(xué)習(xí)會(huì)話的數(shù)量的講話者。適應(yīng)話語的數(shù)量加上和于模型選擇的話語的數(shù)量等于模型選擇所需的每個(gè)講話者的語音樣本的數(shù)量。
從圖30可看出，定制聲學(xué)模型(圖30中的"翻")顯示出遠(yuǎn)高于講話者無關(guān)聲學(xué)模型(圖30中的"x")的性能，尤其是就講話者1-11來說更是如此，并提供與具有30個(gè)適應(yīng)話語的基于MLLR的講話者適應(yīng)聲學(xué)模型(圖30中的"O，，)相等或更高的性能。與常規(guī)方法相比，這減少了搜索所需的語音樣本的(即，和常規(guī)的方法相比，需要的計(jì) 算量較少)，使得能夠比常規(guī)方法更快地搜索適合于每個(gè)講話者的定制聲學(xué)模型。定制聲學(xué)模型向在講話者無關(guān)聲學(xué)模型和基于MLLR的
講話者適應(yīng)聲學(xué)模型的情況下，特定在于識(shí)別性能差的講話者(圖30 中的講話者1-4)提供80%或者更高的高性能。從而，它還可用于在利用聲學(xué)模型間的距離創(chuàng)建的聲學(xué)空間圖中有選擇地搜索區(qū)域聲學(xué)模型，所述聲學(xué)模型間的距離又是通過將兩種出現(xiàn)頻率-即，簡單雙音素的出現(xiàn)頻率和其識(shí)別性能氏于預(yù)定閾值的雙音素的出現(xiàn)頻率-用作上面的等式(1)中的出現(xiàn)頻率W (k)計(jì)算的。
圖31表示話語的數(shù)量和平均識(shí)別性能間的關(guān)系(圖31中的"b")，以及話語的數(shù)量和具有為80%或更低的識(shí)別率的總體(population) 之間的關(guān)系(圖31中的"參")，以舉例說明在根據(jù)本發(fā)明的數(shù)據(jù)處理單元21進(jìn)行的對(duì)定制聲學(xué)模型的搜索期間，定制聲學(xué)模型的識(shí)別性能與語音樣本的數(shù)量之間的關(guān)系。在圖31中，當(dāng)N-O時(shí)獲取的結(jié)果可歸因于講話者無關(guān)聲學(xué)模型(Base一Line)。另外，水平軸代表話語的數(shù) 量，第一垂直軸(左側(cè))代表(講話者的平均)識(shí)別率，第二垂直軸 (右側(cè))代表具有為80%或更低的識(shí)別率的比例。
在圖31中，話語的數(shù)量與平均識(shí)別性能(水平軸和第一垂直軸) 之間的關(guān)系指出只在三五個(gè)單詞內(nèi)識(shí)別性能被提高，話語的數(shù)量與具有為80。/?；蚋偷淖R(shí)別率的總體(水平軸和第二垂直軸)之間的關(guān)系指出只在三個(gè)單詞內(nèi)，具有為80%或更低的識(shí)別率的總體的比例被減小到0。從而，可認(rèn)為即使只說出三五個(gè)單詞，根據(jù)本發(fā)明的數(shù)據(jù)處理單元21也能夠搜索相對(duì)于講話者，具有足夠的識(shí)別性能的聲學(xué)模型。
(第八實(shí)例)
參見圖32，說明一個(gè)實(shí)例，其中根據(jù)本發(fā)明的數(shù)據(jù)處理單元21 比較適合于新講話者的兩種區(qū)域聲學(xué)模型間的識(shí)別性能，所述兩種區(qū) 域聲學(xué)模型是第一搜索方法搜索的區(qū)域聲學(xué)模型，和根據(jù)計(jì)算的與關(guān)于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的匹配似然性搜索的區(qū)域聲學(xué)模型。本例中使用的說話風(fēng)格、評(píng)估講話者等和上面的第七實(shí)例中相同。
圖32是利用由第一搜索方法搜索的聲學(xué)模型，和根據(jù)計(jì)算的與關(guān) 于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的匹配似然性搜索的聲學(xué)模型，表示識(shí)別性能和講話者之間的關(guān)系的圖。
在圖32中，和上面的第七實(shí)例的情況一樣，任意選擇每個(gè)講話者200910166394.7
說的五個(gè)語音樣本供搜索之用。從圖32可看出，當(dāng)比較兩個(gè)條件，即按其計(jì)算語音樣本和所有區(qū)域聲學(xué)模型間的匹配似然性，并通過計(jì)算的
似然性的比較，選擇具有最大似然性的區(qū)域聲學(xué)模型的條件(圖32 中A)，和按其使用上面的第一方法的條件(圖32中的"*")時(shí)，總體上，在這兩個(gè)條件間不存在識(shí)別率方面的較大差異，不過局部上，一個(gè)條件的識(shí)別率優(yōu)于或劣于另一條件的識(shí)別率。從而，可看出通過利用上面的第一方法，能夠在不計(jì)算與所有區(qū)域聲學(xué)模型的匹配似然
性的情況下，搜索適合于每個(gè)講話者的區(qū)域聲學(xué)模型。從而，在對(duì)區(qū) 域聲學(xué)模型的搜索中使用所述第一或第二搜索方法是有益的，使得能
夠快速地搜索適合于每個(gè)講話者的區(qū)域聲學(xué)模型。 (第九實(shí)例)
參考圖33-34，說明一個(gè)實(shí)例，其中通過改變上面的等式(1)中的出現(xiàn)頻率w(k),比較識(shí)別性能。本例中使用的說話風(fēng)格、評(píng)估講話者等和上面的第七實(shí)例中相同。
圖33是表示識(shí)別性能和講話者之間的關(guān)系的圖，其中兩種出現(xiàn)頻率被用作權(quán)重，標(biāo)準(zhǔn)出現(xiàn)頻率被用作權(quán)重，或者其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率被用作權(quán)重。圖34A表示將簡單雙音素的出現(xiàn)頻率用作距離的權(quán)重而產(chǎn)生的聲學(xué)空間圖，圖34B表示將其識(shí)別性能低于預(yù)定閾值的雙音素的出現(xiàn)頻率用作距離的權(quán)重而產(chǎn)生的聲學(xué) 空間圖。
在圖33中，Base一Line ( "x")代表按其利用整個(gè)區(qū)域的聲學(xué)模型產(chǎn)生講話者無關(guān)聲學(xué)模型的條件，Custom_N5 ("■")代表按其在利用和上面的笫七實(shí)例一樣的兩種出現(xiàn)頻率—即，簡單雙音素的出現(xiàn)頻率和其識(shí)別性能最低的雙音素的出現(xiàn)頻率--作為上面的等式(1)中的出現(xiàn)頻率w(k)而產(chǎn)生的聲學(xué)空間圖中，有選擇地搜索區(qū)域聲學(xué)模型的條件，F(xiàn)requency ( "o")代表按其在利用簡單雙音素的出現(xiàn)頻率而創(chuàng)建的聲學(xué)空間圖中搜索區(qū)域聲學(xué)模型的條件，Badphoneme Frequency ("O")代表按其在利用其識(shí)別性能最低的雙音素的出現(xiàn)頻率而產(chǎn)生的聲學(xué)空間圖中搜索區(qū)域聲學(xué)模型的條件。從圖33中可看出，就講話者1來說，F(xiàn)requency條件表示識(shí)別率低于75%的低識(shí)別性能，Badphoneme Frequency條件表示識(shí)別率高于80%的高識(shí)別性能。另一方面，就講話者2來說，F(xiàn)requency條件表示識(shí)別率高于80%的高識(shí)別性能，Badphoneme Frequency條件表示識(shí)別率低于70%的低識(shí)別性能。這樣，盡管使用了少量的樣本，可看出根據(jù)講話者，識(shí)別性能隨著用作權(quán)重的出現(xiàn)頻率而顯著變化。從而，可認(rèn)為Custom—N5條件適合于各種各樣的講話者，在Custom—N5 條件下,通過從屬于Frequency條件和Badphoneme Frequency條件的那些區(qū)域聲學(xué)模型中選擇具有高似然性的區(qū)域聲學(xué)模型，F(xiàn)requency 條件和Badphoneme Frequency條件彌補(bǔ)彼此的缺陷(對(duì)付處理時(shí)另一方較差的講話者1)
在圖34A中，存在彼此接近的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)。另一方面，與圖34A中的坐標(biāo)點(diǎn)相比，圖34B中的被環(huán)繞的坐標(biāo)點(diǎn)更分散。這里，圖34A中的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)和圖34B中的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)對(duì) 應(yīng)于相同的聲學(xué)模型。從而，可看出聲學(xué)模型的分布隨使用的出現(xiàn)頻率的類型而顯著變化。如前所述，講話者間的聲學(xué)距離隨語音單元(音位)而變化。即使使用出現(xiàn)頻率也沒有完全解決該問題。依據(jù)一種出現(xiàn)頻率確定的聲學(xué)距離并不適用于所有語音單元。一些語音單元并不給出準(zhǔn)確的聲學(xué)距離，即使它們對(duì)識(shí)別來說較重要。從而，和按其利用兩種出現(xiàn)頻率計(jì)算距離的Custom一N5條件的情況一樣，通過利用多種出現(xiàn)頻率計(jì)算聲學(xué)模型間的距離，為每種出現(xiàn)頻率產(chǎn)生多個(gè)聲學(xué)空間圖，并以這樣的方式利用聲學(xué)空間圖，以致當(dāng)搜索區(qū)域聲學(xué)模型時(shí)，彌補(bǔ)彼此的缺陷，可減輕上述問題。
在上面的笫二實(shí)施例中，數(shù)據(jù)分類部分la對(duì)應(yīng)于在母案原權(quán)利要求16、 18和28任意之一中限定的數(shù)據(jù)分類裝置；模式模型產(chǎn)生部分 lc對(duì)應(yīng)于在母案原權(quán)利要求16、 18、 24、 33和37任意之一中限定的模式模型產(chǎn)生裝置數(shù)學(xué)距離計(jì)算部分le，對(duì)應(yīng)于在母案原權(quán)利要求16、 19和30任意之一中限定的數(shù)學(xué)距離計(jì)算裝置。模式模型轉(zhuǎn)換部分lf 95對(duì)應(yīng)于在母案原權(quán)利要求16、 18和31任意之一中限定的模式模型轉(zhuǎn) 換裝置；模式模型顯示部分lg對(duì)應(yīng)于在母案原權(quán)利要求16、 18和34 任意之一中限定的對(duì)應(yīng)于模式模型的低維向量顯示裝置；區(qū)域劃分部分lh對(duì)應(yīng)于在母案原權(quán)利要求18、 21-23、 32、 34和37任意之一中所述的區(qū)域劃分裝置；區(qū)域模式模型產(chǎn)生部分21a對(duì)應(yīng)于在母案原權(quán) 利要求18、 24和37任意之一中限定的區(qū)域模式模型產(chǎn)生裝置；數(shù)據(jù) 獲取部分21b對(duì)應(yīng)于在母案原權(quán)利要求18或37中限定的預(yù)定數(shù)據(jù)荻取裝置；區(qū)域模式模型搜索部分21c對(duì)應(yīng)于在母案原權(quán)利要求18、 24-26、 33、 34和37任意之一中限定的區(qū)域模式模型搜索裝置；劃分改變部分li對(duì)應(yīng)于在母案原權(quán)利要求32中限定的劃分改變裝置；模式模型適應(yīng)部分lk對(duì)應(yīng)于在母案原權(quán)利要求33中限定的模式模型適應(yīng)裝置。
順便提及，雖然在上面描述的第二實(shí)施例中列舉了人類聲音，不過本發(fā)明并不僅僅適用于人類聲音。當(dāng)被應(yīng)用于除人類聲音之外的數(shù) 據(jù)時(shí)，本發(fā)明能夠解決類似的問題和提供類似的效果。
另外，雖然在上述第二實(shí)施例中說明由模式模型轉(zhuǎn)換部分lf產(chǎn)生的聲學(xué)模型兼容低維向量是二維的，不過這不是限制性的，也可使用一維或者三維向量。 (第三實(shí)施例)
下面參考

本發(fā)明的第三實(shí)施例。圖35-42是表示根據(jù)本發(fā)明的第三實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
首先，參考圖35說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖35 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。
如圖35中所示，數(shù)據(jù)處理系統(tǒng)5包括信息處理終端350A、 350B 和350C…，數(shù)據(jù)處理單元37和網(wǎng)絡(luò)6。
信息處理終端350A-350C受系統(tǒng)用戶A-C控制。它們具有獲取相應(yīng)系統(tǒng)用戶的語音數(shù)據(jù)，和通過網(wǎng)絡(luò)6將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元37的功能，以及顯示從數(shù)據(jù)處理單元37獲取的信息的功能。根據(jù) 本實(shí)施例，硬件和軟件被安裝在信息處理單元，比如蜂窩電話機(jī)、PDA、PC和WS上，以實(shí)現(xiàn)上述功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
數(shù)據(jù)處理單元37包含根據(jù)通過網(wǎng)絡(luò)6，從信息處理終端 350A-350C獲取的語音數(shù)據(jù)，從分成多個(gè)區(qū)域的聲學(xué)空間圖搜索適合于獲取的語音數(shù)據(jù)的講話者的區(qū)域聲學(xué)模型的功能；顯示關(guān)于獲取的語音數(shù)據(jù)在由多個(gè)講話者的聲學(xué)模型構(gòu)成的聲學(xué)空間圖中的位置信息以及搜索結(jié)果的功能；和將取回的聲學(xué)模型發(fā)送給系統(tǒng)用戶的功能。詳細(xì)的結(jié)構(gòu)將在后面描迷。
網(wǎng)絡(luò)6是連接多個(gè)信息處理設(shè)備，以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信的LAN或WAN。本實(shí)施例使用因特網(wǎng)。
現(xiàn)在參考圖36，說明信息處理終端350A-350C的詳細(xì)結(jié)構(gòu)。圖 36是表示信息處理終端350的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例，信息處理終端350A-350C (可存在其它信息處理終端)具有相同的結(jié)構(gòu)，它們將被統(tǒng)稱為信息處理終端350。下面，信息處理終端350A-350C所共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端350。另外，如圖35中所示，信息處理終端并不局限于這三個(gè)信息處理終端350A-350C，并且可連接受其它系統(tǒng)用戶控制的其它信息處理終端。
如圖36中所示，信息處理終端350包括語音數(shù)據(jù)獲取部分350a，第一數(shù)據(jù)控制部分350b，第一數(shù)據(jù)通信部分350c,信息顯示部分350d 和操作部分350e。
語音數(shù)據(jù)獲取部分350a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置，比如麥克風(fēng)，以及將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù) 的裝置，比如A/D轉(zhuǎn)換器。
第一數(shù)據(jù)控制部分350b包括控制各個(gè)組件的處理的功能，包括控制通過第一數(shù)據(jù)通信部分350c，將語音數(shù)據(jù)獲取部分350a獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元37的處理的功能，和控制信息顯示部分 350d中，顯示從數(shù)據(jù)處理單元37獲取的信息的處理的功能。
第一數(shù)據(jù)通信部分350c具有在第一數(shù)據(jù)控制部分350b的控制下，通過網(wǎng)絡(luò)6與數(shù)據(jù)處理單元37進(jìn)行各種數(shù)據(jù)通信的功能。
信息顯示部分350d具有在第一數(shù)據(jù)控制部分350b的控制下，顯示信息，包括從數(shù)據(jù)處理單元37獲取的各種信息的功能。
操作部分350e允許系統(tǒng)用戶輸入信息，以指定特定的講話者，或者完成對(duì)語音數(shù)據(jù)處理控制程序的設(shè)置。
根據(jù)本實(shí)施例，盡管未示出，但是信息處理終端350配有處理器、 RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器執(zhí)行專用程序時(shí)，信息處理終端350控制上述組件。
下面將參考圖37，說明數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)。圖37是表示數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)的方框圖。順便提及，和第二實(shí)施例中的數(shù)據(jù)處理單元21的功能組件類似的那些功能組件將用和第二實(shí)施例中相同的附圖標(biāo)記表示，和數(shù)據(jù)處理單元21相同的功能的描述將被省略。
數(shù)據(jù)處理單元37包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式模型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld'、數(shù)學(xué)距離計(jì)算部分le'、模式模型轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變部分li、區(qū)域選擇部分lj、特定模式模型產(chǎn)生部分lk、區(qū)域模式模型產(chǎn)生部分21a、第二數(shù)據(jù)通信部分37a和區(qū)域模式模型搜索部分21c。
也就是說，不同于數(shù)據(jù)處理單元21的數(shù)據(jù)獲取部分21b，數(shù)據(jù)處理單元37包括第二數(shù)據(jù)通信部分37a。
除了根據(jù)第二實(shí)施例的數(shù)據(jù)控制部分ld的功能之外，數(shù)據(jù)控制部分ld'還具有控制從信息處理終端350接收系統(tǒng)用戶的語音數(shù)據(jù)，計(jì) 算語音數(shù)據(jù)在預(yù)先產(chǎn)生的聲學(xué)空間圖上的位置，計(jì)算恰當(dāng)區(qū)域的值，和將計(jì)算結(jié)果及關(guān)于它們的注釋數(shù)據(jù)發(fā)送給信息處理終端350的處理
的功能。另外，它具有控制根據(jù)新獲取的系統(tǒng)用戶的語音數(shù)據(jù)，評(píng)估系統(tǒng)用戶當(dāng)前使用的聲學(xué)模型的性能，并將評(píng)估結(jié)果以及關(guān)于它們的注釋數(shù)據(jù)發(fā)送給信息處理終端350的處理的功能。
第二數(shù)據(jù)通信部分37a具有在第二數(shù)據(jù)控制部分ld，的控制下，通過網(wǎng)絡(luò)6，與信息處理終端350進(jìn)行各種數(shù)據(jù)通信的功能。
下面將參考圖38和39說明數(shù)據(jù)處理系統(tǒng)5的更具體操作。圖38 是表示當(dāng)傳送適合于系統(tǒng)用戶的聲學(xué)模型時(shí)，顯示的信息的實(shí)例的圖。圖39是表示當(dāng)評(píng)估系統(tǒng)用戶使用的聲學(xué)模型的性能，并傳送新的聲學(xué) 模型時(shí)，顯示的信息的實(shí)例的圖。
首先，數(shù)據(jù)處理單元37按照和上述第二實(shí)施例相同的程序，根據(jù) 多個(gè)講話者的語音數(shù)據(jù)，產(chǎn)生高維聲學(xué)模型，將它們轉(zhuǎn)化成聲學(xué)模型兼容低維向量，并將向量顯示成二維平面中的坐標(biāo)點(diǎn)。隨后，它劃分其中聲學(xué)模型兼容低維向量被顯示成坐標(biāo)點(diǎn)的聲學(xué)空間，并根據(jù)與指定分段區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的語音數(shù)據(jù)，產(chǎn)生每個(gè)分段區(qū)域的區(qū)域聲學(xué)模型。一旦產(chǎn)生了區(qū)域聲學(xué)模型，數(shù)據(jù)處理單元37 等待來自信息處理終端350的傳送適合于系統(tǒng)用戶的聲學(xué)模型的請(qǐng) 求，或者評(píng)估聲學(xué)模型的請(qǐng)求。
另一方面，為了獲取適合于識(shí)別他/她自己的語音的聲學(xué)模型，系統(tǒng)用戶通過操縱信息處理終端350的操作部分350e，指令第一數(shù)據(jù)控制部分350b啟動(dòng)語音數(shù)據(jù)獲取程序。系統(tǒng)用戶通過語音數(shù)據(jù)獲取部分 350a,獲取他/她自己的語音。隨后，通過操縱操作部分350e，系統(tǒng)用戶指令第一數(shù)據(jù)控制部分350b將獲取的語音數(shù)據(jù)和傳送請(qǐng)求信息及評(píng)估請(qǐng)求信息一起發(fā)送給數(shù)據(jù)處理單元37。
當(dāng)從信息處理終端350收到語音數(shù)據(jù)、傳送請(qǐng)求信息和評(píng)估請(qǐng)求信息時(shí)，數(shù)據(jù)處理單元37利用根據(jù)上述第二實(shí)施例的第一搜索方法，搜索適合于獲取的語音數(shù)據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。語音數(shù)據(jù)還提供關(guān)于系統(tǒng)用戶的語音數(shù)據(jù)具有何種說話風(fēng)格的信息。關(guān)于這樣獲取的系統(tǒng)用戶的語音數(shù)據(jù)的信息連同預(yù)先準(zhǔn)備的注釋數(shù)據(jù)一起作為顯示信息被發(fā)送給信息處理終端350。根據(jù)本實(shí)施例，數(shù)據(jù)處理單元37 存儲(chǔ)過去傳送給系統(tǒng)用戶的聲學(xué)模型的歷史，根據(jù)歷史評(píng)估過去的聲學(xué)模型相對(duì)于當(dāng)前語音數(shù)據(jù)的性能，比較所述性能與此時(shí)新發(fā)現(xiàn)的聲學(xué)模型的性能。這樣做的原因在于由于新講話者的語音數(shù)據(jù)的添加等，在數(shù)據(jù)處理單元37中累積的語音數(shù)據(jù)被逐日更新，從而聲學(xué)空間圖被更新。性能比較使得能夠判斷在新的聲學(xué)空間圖中找到的聲學(xué)模型是否提供高于過去的聲學(xué)模型的識(shí)別性能，從而獲取具有高識(shí)別性能的聲學(xué)模型。從而，根據(jù)本實(shí)施例，評(píng)估結(jié)果信息也作為顯示信息被發(fā)送給信息處理終端350。另外，傳送請(qǐng)求信息包含用于識(shí)別系統(tǒng)用戶的標(biāo)識(shí)信息。
當(dāng)信息處理終端350從數(shù)據(jù)處理單元37收到顯示信息時(shí)，第一數(shù) 據(jù)控制部分350b在信息顯示部分350d的控制下，根據(jù)接收的顯示信息顯示信息。顯示的信息包括，例如如圖38中所示，每種說話風(fēng)格的聲學(xué)空間，系統(tǒng)用戶的語音數(shù)據(jù)在聲學(xué)空間中，以及在通過利用根據(jù) 上述第二實(shí)施例的技術(shù)，將包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間分成多個(gè)區(qū)域而獲取的分段區(qū)域中的相對(duì)位置，關(guān)于每種說話風(fēng)格的大分區(qū)中的聲學(xué)模型的值計(jì)算公式，劃分成多個(gè)區(qū)域的每個(gè)環(huán)形區(qū)域(這里稱為BAND)中的聲學(xué)模型的值計(jì)算公式，適合于系統(tǒng)用戶的聲學(xué) 模型的說明文本，供系統(tǒng)用戶決定是否購買的菜單，或者供系統(tǒng)用戶選擇所需的聲學(xué)模型的菜單，和與選擇的聲學(xué)模型的數(shù)量及累積量相關(guān)的信息。
通過閱讀圖38中所示的說明文本，系統(tǒng)用戶知道與目前使用的聲學(xué)模型相比，這次新找到的聲學(xué)模型提供更高的識(shí)別性能。通過查看新的聲學(xué)模型的價(jià)格，系統(tǒng)用戶自己決定是否購買新的聲學(xué)模型，或者是否選擇新的聲學(xué)模型。隨后，系統(tǒng)用戶通過操縱操作部分350e，選擇并應(yīng)用所需的菜單項(xiàng)。如果他/她選擇并應(yīng)用"我想購買聲學(xué)模型 Yes"，那么該信息被發(fā)送給數(shù)據(jù)處理單元37。當(dāng)收到該信息時(shí)，數(shù)據(jù) 處理單元37將選擇的聲學(xué)模型傳送給信息處理終端350。另一方面，如果系統(tǒng)用戶選擇并應(yīng)用"我想選擇要購買的聲學(xué)模型"，那么他/她被允許通過將光標(biāo)放在所需說話風(fēng)格的聲學(xué)空間上,以及》支在通過用根據(jù)上述第二實(shí)施例的技術(shù)劃分包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間而獲取的分段區(qū)域中的所需分段區(qū)域上，選擇所需的聲學(xué)模型。從而，關(guān)于所選聲學(xué)模型的信息被發(fā)送給數(shù)據(jù)處理單元37,數(shù)據(jù)處理單元37 隨后將選擇的聲學(xué)模型發(fā)送給信息處理終端350。
現(xiàn)在將說明數(shù)據(jù)處理系統(tǒng)5被用于評(píng)估和替換系統(tǒng)用戶目前使用的聲學(xué)模型的另一種形式。
為了評(píng)估他/她目前使用的聲學(xué)模型，系統(tǒng)用戶通過操縱信息處理終端350的操作部分350e,指令第一數(shù)據(jù)控制部分350b啟動(dòng)語音數(shù) 據(jù)獲取程序。系統(tǒng)用戶通過語音數(shù)據(jù)獲取部分350a獲取他/她自己的語音。隨后，通過操縱操作部分350e，系統(tǒng)用戶指令第一數(shù)據(jù)控制部分350b將獲取的語音數(shù)據(jù)連同評(píng)估請(qǐng)求信息一起發(fā)送給數(shù)據(jù)處理單元37。評(píng)估請(qǐng)求信息包括關(guān)于系統(tǒng)用戶的標(biāo)識(shí)信息。
當(dāng)從信息處理終端50收到語音數(shù)據(jù)和評(píng)估請(qǐng)求信息時(shí)，數(shù)據(jù)處理單元37利用按照上述第二實(shí)施例的笫一搜索方法，搜索適合于獲取的語音數(shù)據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。語音數(shù)據(jù)還提供關(guān)于系統(tǒng)用戶的語音數(shù)據(jù)具有哪種說話風(fēng)格的信息。根據(jù)包含在評(píng)估請(qǐng)求信息中的標(biāo)識(shí)信息，數(shù)據(jù)處理單元37獲取和過去傳送的聲學(xué)^=莫型相關(guān)的信息，相對(duì)于獲取的語音數(shù)據(jù)，計(jì)算過去的聲學(xué)模型的當(dāng)前識(shí)別率和取回的聲學(xué)模型的識(shí)別率，并根據(jù)計(jì)算結(jié)果產(chǎn)生注釋。關(guān)于這樣獲取的系統(tǒng) 用戶的語音數(shù)據(jù)的信息和預(yù)先準(zhǔn)備的注釋數(shù)據(jù)一起作為顯示信息被發(fā) 送給信息處理終端350。
當(dāng)信息處理終端350從數(shù)據(jù)處理單元37收到顯示信息時(shí)，在第一數(shù)據(jù)控制部分350b的控制下，信息顯示部分350d根據(jù)接收的顯示信息顯示信息。顯示的信息包括，例如如圖39中所示，每種說話風(fēng)格的聲學(xué)空間，系統(tǒng)用戶的語音數(shù)據(jù)在聲學(xué)空間中，以及在通過利用根據(jù) 上述第二實(shí)施例的技術(shù)，將包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間分成多個(gè)區(qū)域而獲取的分段區(qū)域中的相對(duì)位置，系統(tǒng)用戶使用的當(dāng)前聲學(xué) 模型的評(píng)估細(xì)節(jié)，供系統(tǒng)用戶決定是否替換當(dāng)前的聲學(xué)模型的菜單，或者供系統(tǒng)用戶選擇所需的聲學(xué)模型的菜單，和與選擇的聲學(xué)模型的數(shù)量相關(guān)的信息。
通過閱讀圖39中所示的評(píng)估細(xì)節(jié)，系統(tǒng)用戶知道與目前使用的聲學(xué)模型相比，這次新找到的聲學(xué)模型提供更高的識(shí)別性能。系統(tǒng)用戶自己決定是否用新找到的聲學(xué)模型替換當(dāng)前的聲學(xué)模型，或者是否選擇新的聲學(xué)模型。隨后，系統(tǒng)用戶通過操縱操作部分350e，選擇并應(yīng) 用所需的菜單項(xiàng)。如果他/她選擇并應(yīng)用"我希望聲學(xué)模型被替換 Yes"，那么該信息被發(fā)送給數(shù)據(jù)處理單元37。當(dāng)收到該信息時(shí)，數(shù)據(jù)處理單元37將選擇的聲學(xué)模型傳送給信息處理終端350。另一方面，如果系統(tǒng)用戶選擇并應(yīng)用"我要選擇供替換的新的聲學(xué)模型"，那么他/ 她被允許通過將光標(biāo)放在所需說話風(fēng)格的聲學(xué)空間上，以及放在通過用根據(jù)上迷第二實(shí)施例的技術(shù)劃分包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間而獲取的分段區(qū)域中的所需分段區(qū)域上，選擇所需的聲學(xué)模型。從而，關(guān)于所選聲學(xué)模型的信息被發(fā)送給數(shù)據(jù)處理單元37，數(shù)據(jù)處理單元37隨后將選擇的聲學(xué)模型發(fā)送給信息處理終端350。由于聲學(xué)模型的性能隨著例如目標(biāo)講話者的說話方式，目標(biāo)講話者發(fā)出的單詞的類型，說話的時(shí)間選擇，說話的環(huán)境，目標(biāo)講話者的身體狀況等而變化，因此如果目標(biāo)講話者身體狀況較差或者說話的環(huán)境急劇變化，那么當(dāng) 前的聲學(xué)模型可能不能提供足夠的識(shí)別性能。這種情況下，通過評(píng)估當(dāng)前使用的聲學(xué)模型，并根據(jù)評(píng)估結(jié)果用新的聲學(xué)模型替換它們，能夠提高識(shí)別性能。
現(xiàn)在將參考圖40,說明信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的流程。圖40是表示由信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的流程圖。
如圖40中所示，首先在步驟S600中，第一數(shù)據(jù)控制部分350b 判斷語音獲取模式是否有效。如果發(fā)現(xiàn)語音獲取模式有效(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S602。否則(No)，它等到語音
獲取模式被激活為止。
在步驟S602中，第一數(shù)據(jù)控制部分350b判斷是否已通過語音數(shù) 據(jù)獲取部分350a獲取語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取語音數(shù)據(jù)(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S604。否則(No)，它等到獲取語音數(shù)據(jù)為止。
在步驟S604中，第一數(shù)據(jù)控制部分350b將獲取的語音數(shù)據(jù)(模擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后，它進(jìn)入步驟S606。
在步驟S606中，第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否通過操縱操作部分350e，表示他/她的購買聲學(xué)模型的意圖。如果發(fā)現(xiàn)系統(tǒng) 用戶想購買聲學(xué)模型(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟 S608。否則(No)，它進(jìn)入步驟S610。在步驟608中，第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)通信部分 350c，將數(shù)字語音數(shù)據(jù)連同傳送請(qǐng)求信息(包含標(biāo)識(shí)信息)和評(píng)估請(qǐng) 求信息一起發(fā)送給數(shù)據(jù)處理單元37，隨后它結(jié)束處理。
另一方面，在步驟S610中，第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否通過操縱操作部分350e,產(chǎn)生了評(píng)估請(qǐng)求。如果發(fā)現(xiàn)系統(tǒng)用戶產(chǎn)生了評(píng)估請(qǐng)求(Yes )，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S612。否則(No)，它進(jìn)入步驟S614。
—在步驟S612中，第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)處理部分 350c，將數(shù)字語音數(shù)據(jù)連同包含標(biāo)識(shí)信息的評(píng)估請(qǐng)求信息一起發(fā)送給數(shù)據(jù)處理單元37，隨后它結(jié)束處理。
另一方面，在步驟S614中，第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否已通過操作部分350e，指定結(jié)束處理。如果發(fā)現(xiàn)已指定要結(jié)束處理(Yes),那么第一數(shù)據(jù)控制部分350b結(jié)束處理。否則(No)，它進(jìn)入步驟S606。
現(xiàn)在參考圖41,說明在產(chǎn)生區(qū)域模式模型之后，數(shù)據(jù)處理單元37 進(jìn)行的操作和處理的流程。圖41是表示由數(shù)據(jù)處理單元37進(jìn)行的操作和處理的流程圖。
如圖41中所示，首先在步驟S700中，第二數(shù)據(jù)控制部分ld'判斷是否已從信息處理終端350收到了信息。如果發(fā)現(xiàn)收到了信息 (Yes)，那么第二數(shù)據(jù)控制部分ld，進(jìn)入步驟S702。否則(No)，它等到收到信息為止。
在步驟S702中，第二數(shù)據(jù)控制部分ld'判斷收到的信息是否包含傳送請(qǐng)求信息和評(píng)估請(qǐng)求信息。如果發(fā)現(xiàn)包含傳送請(qǐng)求信息和評(píng)估請(qǐng) 求信息(Yes )，那么第二數(shù)據(jù)控制部分ld'進(jìn)入步驟S704。否則(No )，它進(jìn)入步驟S710。
在步驟S704中，第二數(shù)據(jù)控制部分ld'進(jìn)行語音數(shù)據(jù)處理，包括搜索聲學(xué)模型和聲學(xué)模型的評(píng)估。隨后，它進(jìn)入步驟S706。
在步驟S706中，第二數(shù)據(jù)控制部分ld，根據(jù)步驟S704中的語音數(shù)據(jù)處理的結(jié)果，產(chǎn)生顯示信息。隨后，它進(jìn)入步驟S708。在步驟S708中，第二數(shù)據(jù)控制部分ld'通過第二數(shù)據(jù)通信部分 37a，將在步驟S706中產(chǎn)生的顯示信息發(fā)送給適當(dāng)?shù)男畔⑻幚斫K端 350。隨后，它進(jìn)入步驟S700。
另一方面，如果在步驟S702中發(fā)現(xiàn)接收的信息不包含傳送請(qǐng)求信息，那么在步驟S710中，第二數(shù)據(jù)控制部分ld'判斷接收的信息是否包含評(píng)估請(qǐng)求信息。如果發(fā)現(xiàn)包含評(píng)估請(qǐng)求信息(Yes),那么第二數(shù) 據(jù)控制部分ld'進(jìn)入步驟S712。否則(No),它進(jìn)入步驟S718。
在步驟S712中，第二數(shù)據(jù)控制部分ld'進(jìn)行語音數(shù)據(jù)處理，包括搜索區(qū)域聲學(xué)模型和聲學(xué)模型的評(píng)估。隨后，它進(jìn)入步驟S714。
在步驟S714，第二數(shù)據(jù)控制部分ld'根據(jù)步驟S712中的語音數(shù)據(jù) 處理的結(jié)果，產(chǎn)生顯示信息。隨后，它進(jìn)入步驟S716。
在步驟S716中，第二數(shù)據(jù)控制部分ld，通過第二數(shù)據(jù)通信部分 37a,將在步驟S714中產(chǎn)生的顯示信息發(fā)送給信息處理終端350。隨后，它進(jìn)入步驟S700。
另一方面，如果在步驟S710中，發(fā)現(xiàn)收到的信息也不包含評(píng)估請(qǐng) 求信息，那么第二數(shù)據(jù)控制部分ld'在步驟S718中丟棄接收的信息。隨后，它進(jìn)入步驟S700。
現(xiàn)在參考圖42，說明當(dāng)收到顯示信息時(shí)，信息處理終端350執(zhí)行的操作和處理的流程。圖42是表示當(dāng)接收顯示信息時(shí)，由信息處理終端350執(zhí)行的操作和處理的流程圖。
如圖42中所示，首先在步驟S800中，第一數(shù)據(jù)控制部分350b 判斷是否已從數(shù)據(jù)處理單元37收到顯示信息。如果發(fā)現(xiàn)收到了顯示信息(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S802。否則(No)，它等到收到顯示信息為止。
在步驟S802中，第一數(shù)據(jù)控制部分350b根據(jù)接收的顯示信息，使信息顯示部分350d顯示信息。隨后，它進(jìn)入步驟S804。
在步驟S804中，第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否通過操縱操作部分350e，從顯示的菜單中選擇了一個(gè)聲學(xué):t莫型。如果發(fā)現(xiàn) 選擇了一個(gè)聲學(xué)模型(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S806。否則(No)，它進(jìn)入步驟S812。
在步驟S806中，第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)通信部分 350c，將在于所選模式模型的信息發(fā)送給數(shù)據(jù)處理單元37。隨后，它進(jìn)入步驟S808。
在步驟S808中，第一數(shù)據(jù)控制部分350b判斷是否從數(shù)據(jù)處理單元37收到了選擇的聲學(xué)模型。如果發(fā)現(xiàn)已收到選擇的聲學(xué)模型(Yes )，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S810。否則(No)，它等到收到了選擇的聲學(xué)模型為止。
在步驟S810中，第一數(shù)據(jù)控制部分350b將收到的聲學(xué)模型存儲(chǔ) 在存儲(chǔ)器部分(未示出)中，隨后它結(jié)束處理。
另一方面，如果在步驟S804中發(fā)現(xiàn)沒有選擇任何聲學(xué)模型，那么第一數(shù)據(jù)控制部分350b在步驟S812中判斷系統(tǒng)用戶是否通過操縱操作部分350e,從顯示的菜單中選擇聲學(xué)模型的替換。如果發(fā)現(xiàn)系統(tǒng)用戶已選擇聲學(xué)模型替換(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S814。否則(No)，它進(jìn)入步驟S804。
在步驟S814中，第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)通信部分 350c，將關(guān)于聲學(xué)模型替換的選擇的信息發(fā)送給數(shù)據(jù)處理單元37。隨后，它進(jìn)入步驟S816。
在步驟S816中，第一數(shù)據(jù)控制部分350b判斷是否從數(shù)據(jù)處理單元37收到選擇的聲學(xué)模型。如果發(fā)現(xiàn)收到了選擇的聲學(xué)模型(Yes)，那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S818。否則(No),它等到收到選擇的聲學(xué)模型為止。
在步驟S818中，第一數(shù)據(jù)控制部分350b用收到的聲學(xué)模型更新當(dāng)前的聲學(xué)模型，隨后它結(jié)束處理。
在上述第三實(shí)施例中，由第一數(shù)據(jù)控制部分350b和第一數(shù)據(jù)通信部分350c執(zhí)行的語音數(shù)據(jù)發(fā)送處理對(duì)應(yīng)于在母案原權(quán)利要求37中限定的語音數(shù)據(jù)發(fā)送裝置，由第一數(shù)據(jù)控制部分350b和第一數(shù)據(jù)通信部分350c執(zhí)行的聲學(xué)模型接收處理對(duì)應(yīng)于在母案原權(quán)利要求37中限定的特定模式模型獲取裝置，由第二數(shù)據(jù)控制部分ld'和第二數(shù)據(jù)通信部分37a執(zhí)行的聲學(xué)模型傳送處理對(duì)應(yīng)于在母案原權(quán)利要求37中限定的特定模式模型發(fā)送裝置。 (第四實(shí)施例)
下面參考

本發(fā)明的第四實(shí)施例。圖43-50是表示根據(jù)本發(fā)明的笫四實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
首先，參考圖43，說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖43 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。
如圖43中所示，數(shù)據(jù)處理系統(tǒng)7包含信息處理終端2A-2C，數(shù)據(jù) 處理單元3和網(wǎng)絡(luò)4。
信息處理終端2A-2C受系統(tǒng)用戶A-C控制。它們具有獲取相應(yīng)系統(tǒng)用戶的語音數(shù)據(jù)，和通過網(wǎng)絡(luò)4將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元3 的功能，顯示從數(shù)據(jù)處理單元3獲取的信息的功能，和與數(shù)據(jù)處理單元3協(xié)商語音數(shù)據(jù)是否可^皮提供的功能。根據(jù)本實(shí)施例，硬件和軟件被安裝在信息處理單元，比如PC和WS上，以實(shí)現(xiàn)上述功能。詳細(xì) 的結(jié)構(gòu)將在后面描述。
數(shù)據(jù)處理單元3包括用于評(píng)估通過網(wǎng)絡(luò)4而從信息處理終端 2A-2C獲取的語音數(shù)據(jù)的值的功能，顯示獲取的語音數(shù)據(jù)在由多個(gè)講話者的模式模型構(gòu)成的聲學(xué)空間中的位置信息以及評(píng)估結(jié)果的功能，和與信息處理終端2A-2C協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功能。詳細(xì)的結(jié)構(gòu)將在后面描迷。
網(wǎng)絡(luò)4是連接多個(gè)信息處理設(shè)備，以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信的LAN或WAN。本實(shí)施例4吏用因特網(wǎng)，這是一種WAN。
現(xiàn)在參考圖44，說明信息處理終端2A-2C的詳細(xì)結(jié)構(gòu)。圖44是表示信息處理終端2的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例，信息處理終端 2A-2C具有相同的結(jié)構(gòu)，它們將被統(tǒng)稱為信息處理終端2。下面，信息處理終端2A-2C所共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端2。另外，如圖43中所示，信息處理終端并不局限于這三個(gè)信息處理終端 2A-2C，可連接受其它系統(tǒng)用戶控制的其它信息處理終端。
如圖44中所示，信息處理終端2包括第一數(shù)據(jù)獲取部分2a，第一數(shù)據(jù)控制部分2b，第一數(shù)據(jù)通信部分2c，第一信息顯示部分2d和第一協(xié)商部分2e。
第一數(shù)據(jù)獲取部分2a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置，比如麥克風(fēng)，和將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)的裝置，比如A/D轉(zhuǎn)換器。
第一數(shù)據(jù)控制部分2b包括控制各個(gè)組件的處理的功能，包括控制通過第一數(shù)據(jù)通信部分2c，將第一數(shù)據(jù)獲取部分2a獲取的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元3的處理的功能，控制第一信息顯示部分2d中，顯示從數(shù)據(jù)處理單元3獲取的信息的處理的功能，和控制第一協(xié)商部分2e與數(shù)據(jù)處理單元3之間的協(xié)商處理的功能。
第一數(shù)據(jù)通信部分2c具有在第一數(shù)據(jù)控制部分2b的控制下，通過網(wǎng)絡(luò)4與數(shù)據(jù)處理單元3進(jìn)行各種數(shù)據(jù)通信的功能。
第一信息顯示部分2d具有在第一數(shù)據(jù)控制部分2b的控制下，顯示信息，包括從數(shù)據(jù)處理單元3獲取的各種信息的功能。
第一協(xié)商部分2e具有在第一數(shù)據(jù)控制部分2b的控制下，與數(shù)據(jù) 處理單元3協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功能。這里進(jìn)行所述協(xié)商，以便系統(tǒng)用戶利用具有聊天能力的軟件與數(shù)據(jù)處理單元3 的操作員交換信息，或者以便數(shù)據(jù)處理單元3自動(dòng)將預(yù)先關(guān)于有價(jià)值的語音數(shù)據(jù)準(zhǔn)備的信息(評(píng)估結(jié)果、消息等)發(fā)送給信息處理終端2, 和以便查看所述信息的系統(tǒng)用戶返回響應(yīng)?？傊?，為了使系統(tǒng)用戶判斷他/她的語音數(shù)據(jù)是否可被提供和向數(shù)據(jù)處理單元3返回判斷結(jié)果，進(jìn)行所述協(xié)商。
現(xiàn)在參考圖45，說明數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)。圖45是表示數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)的圖。
如圖45中所示，數(shù)據(jù)處理單元3包括第二數(shù)據(jù)通信部分3a、第二數(shù)據(jù)獲取部分3b、第二數(shù)據(jù)控制部分3c、位置計(jì)算部分3d、數(shù)據(jù) 評(píng)估部分3e、第二信息顯示部分3f、第二協(xié)商部分3g、操作部分3h 和數(shù)據(jù)存儲(chǔ)部分3i。
第二數(shù)據(jù)通信部分3a具有在第二數(shù)據(jù)控制部分3c的控制下，通過網(wǎng)絡(luò)4，與信息處理終端2進(jìn)行各種數(shù)據(jù)通信的功能。
第二數(shù)據(jù)獲取部分3b具有通過第二數(shù)據(jù)通信部分3a從信息處理終端2獲取語音數(shù)據(jù)的功能，還具有分析獲取的語音數(shù)據(jù)并抽取為語音數(shù)據(jù)的特有部分的特征數(shù)據(jù)的裝置。它還具有通過^L據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM，產(chǎn)生目標(biāo)講話者的模式模型的裝置。順便提及，根據(jù)本實(shí)施例，特征數(shù)據(jù)和目標(biāo)講話者的模式模型都被稱為語音數(shù)據(jù)。
第二數(shù)據(jù)控制部分3c具有控制數(shù)據(jù)處理單元3的各個(gè)組件之間的數(shù)據(jù)交換，以及控制處理的流程的功能。
位置計(jì)算部分3d具有計(jì)算獲取的語音數(shù)據(jù)和多個(gè)講話者的模式模型之間的位置關(guān)系的功能。
具體地說，如果特征數(shù)據(jù)是語音數(shù)據(jù)，那么計(jì)算語音數(shù)據(jù)和存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分3i (后面說明)中的多個(gè)講話者的模式模型之間的匹配似然性，根據(jù)計(jì)算結(jié)果從多個(gè)講話者的模式模型中選擇具有最高似然性的模式模型，該模式模型被看作與目標(biāo)講話者的語音數(shù)據(jù)等同。根據(jù)本實(shí)施例，多個(gè)講話者的模式模型由HMM組成，根據(jù)從它們中選擇的特定模式模型(或者可能根據(jù)對(duì)應(yīng)于目標(biāo)講話者的語音數(shù)據(jù)的模式模型)，確定它們的相對(duì)位置。隨后，由具有關(guān)于它們的相對(duì)位置的信息的模式模型形成聲學(xué)空間。
從而，在這種情況下，關(guān)于所選模式模型的相對(duì)位置的信息被用作關(guān)于目標(biāo)講話者的語音數(shù)據(jù)的位置信息。
另一方面，如果通過根據(jù)特征數(shù)據(jù)構(gòu)成HMM而產(chǎn)生的模式模型是語音數(shù)據(jù)，那么計(jì)算語音數(shù)據(jù)和模式模型間的相對(duì)位置，計(jì)算結(jié)果被用作關(guān)于語音數(shù)據(jù)的位置信息。
如果特征數(shù)據(jù)是語音數(shù)據(jù)，那么數(shù)據(jù)評(píng)估部分3e計(jì)算選擇的模式模型與多個(gè)講話者的其它模式模型間的數(shù)學(xué)距離，比較計(jì)算的距離與數(shù)學(xué)距離的預(yù)定閾值Th，根據(jù)比較結(jié)果評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。例如，如果存在于閾值Th內(nèi)的模式模型的數(shù)量較小，那么目標(biāo) 講話者的語音數(shù)據(jù)存在于非密集空間中，其中不存在具有相似特征的大量語音數(shù)據(jù)，稀缺值被認(rèn)為較高。另一方面，如果存在于閾值Th內(nèi)的模式模型的數(shù)量較大，那么目標(biāo)講話者的語音數(shù)據(jù)存在于密集空間中，其中存在具有相似特征的大量語音數(shù)據(jù)，稀缺值^皮認(rèn)為較低。
根據(jù)本實(shí)施例，由下面的等式(8)給出的歐幾里德距離或由下面的等式(9)給出的Bhattacharrya距離被用作數(shù)學(xué)距離。(公式5)
其中J是維數(shù)，L是狀態(tài)的數(shù)量HMM, n是平均HMM輸出概率，S是HMM輸出概率的方差。
這里，可逐個(gè)音位地計(jì)算數(shù)學(xué)距離，同樣可逐個(gè)音位地評(píng)估語音數(shù)據(jù)的值。本實(shí)施例允許系統(tǒng)用戶自由地啟用和禁用這樣的設(shè)置。
第二信息顯示部分3f具有顯示信息，比如數(shù)據(jù)評(píng)估部分3e產(chǎn)生的評(píng)估結(jié)果的功能。這里，顯示的信息包括通過評(píng)估結(jié)果的量化而獲取的信息，通過根據(jù)計(jì)算的模式模型間的數(shù)學(xué)距離，利用Sammon方法二維地投射基于HMM的模式模型間的距離關(guān)系而獲取的信息，以及其它信息。
第二協(xié)商部分3g具有在第二數(shù)據(jù)控制部分3c的控制下，與信息處理終端2協(xié)商是否可通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功能。
當(dāng)確定是否與系統(tǒng)用戶協(xié)商或者與系統(tǒng)用戶交換消息時(shí)，操作部分3h由查看在第二信息顯示部分3f中顯示的信息的操作者用于輸入輸入數(shù)據(jù)。
數(shù)據(jù)存儲(chǔ)部分3i存儲(chǔ)多個(gè)講話者的模式模型，對(duì)其成功完成協(xié)商的語音數(shù)據(jù)，和其它必要的數(shù)據(jù)。
根據(jù)本實(shí)施例，盡管未示出，但是數(shù)據(jù)處理單元3配有處理器、RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器執(zhí)行專用程序時(shí)，上述組件被控制。
下面將參考圖46和47，說明數(shù)據(jù)處理單元系統(tǒng)7的更具體操作。
1 |fe々,xEgJ/2|圖46A和46B是表示數(shù)據(jù)處理系統(tǒng)7執(zhí)行的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估處理的流程的圖。圖47是表示其中聲學(xué)空間被二維投射的實(shí)例的圖。
參見圖46A和47，下面說明在特征數(shù)據(jù)由語音數(shù)據(jù)構(gòu)成的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估處理的第一結(jié)構(gòu)。
首先，說明評(píng)估處理所需的初始數(shù)據(jù)庫構(gòu)成處理的流程-示于圖46A中的(1)-(4)中。如果初始數(shù)據(jù)庫已存在，那么步驟(l)-(4)不是必需的。
(1) 第二數(shù)據(jù)獲取部分3b獲取N個(gè)(N為整數(shù))注冊(cè)講話者的語音。
(2) 第二數(shù)據(jù)獲取部分3b分析獲取的語音并抽取特征值。
(3) 第二數(shù)據(jù)獲取部分3b根據(jù)抽取的特征值產(chǎn)生特定講話者和非特定講話者的HMM，并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)，以產(chǎn)生每個(gè)特定講話者的一個(gè)模式模型和非特定講話者的一個(gè)模式模型。
(4) 第二數(shù)據(jù)獲取部分3b將N個(gè)特定講話者的多個(gè)模式模型(HMM)和非特定講話者的一個(gè)模式模型(HMM)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)
部分3i中。
下面，說明在圖46A的(5) - (10)中表示的語音數(shù)據(jù)評(píng)估處理的流程。
(5 )第二數(shù)據(jù)獲取部分3b從信息處理終端2獲取系統(tǒng)用戶的語音數(shù)據(jù)。
(6)第二數(shù)據(jù)獲取部分3b分析獲取的語音數(shù)據(jù)，并抽取特征值。(7 )位置計(jì)算部分3d計(jì)算抽取的特征數(shù)據(jù)和多個(gè)特定講話者的
模式模型間的匹配似然性。這里假定說話的內(nèi)容已知(在說話時(shí)被輸入)。
(8)位置計(jì)算部分3d根據(jù)計(jì)算的似然性，選擇具有最高似然性的模式模型，并計(jì)算該模式模型與其它特定講話者的模式模型間的數(shù)學(xué)距離。前M個(gè)模式模型可被使用(M是小于N的整數(shù))。這種情況下，為選擇的M個(gè)模式模型中的每一個(gè)計(jì)算到其它特定講話者的模
110式模型的數(shù)學(xué)距離。根據(jù)本實(shí)施例，當(dāng)計(jì)算了數(shù)學(xué)距離時(shí)，可根據(jù)計(jì)
算的數(shù)學(xué)距離，通過后面說明的步驟(11)和(12)，利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖47中所示)，以致操作者能夠直觀地了解語音數(shù)據(jù)的位置關(guān)系。
(9 )數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離，評(píng)估語音數(shù)據(jù)的值。具體地說，如果存在其介于閾值Th和目標(biāo)講話者的模式模型間的數(shù)學(xué)距離低于閾值Th的許多模式模型，那么數(shù)據(jù)評(píng)估部分3e確定在目標(biāo)講話者的模式模型周圍，存在許多具有類似聲學(xué)特性的模式模型。另一方面，如果存在其數(shù)學(xué)距離低于闊值Th的少量模式模型，那么數(shù)據(jù)評(píng)估部分3e確定在指定的模式模型周圍，存在少量聲學(xué)上類似的
模式模型。
從而，周圍存在大量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有低的稀缺值，周圍存在少量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有高的稀缺值。
通過第二數(shù)據(jù)通信部分3a,評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端2A，如果目標(biāo)講話者是系統(tǒng)用戶A的話。
根據(jù)本實(shí)施例，如果稀缺值被認(rèn)為較高，那么評(píng)估結(jié)果信息包含關(guān)于二維投射的位置關(guān)系的信息，指示評(píng)估結(jié)果的信息(數(shù)字、稀缺值的度數(shù)等)，和關(guān)于獲取語音數(shù)據(jù)的意圖的信息，如果稀缺值被認(rèn)為較低，那么評(píng)估結(jié)果信息包含關(guān)于二維投射的位置關(guān)系的信息，指示評(píng)估結(jié)果的信息(數(shù)字、稀缺值的度數(shù)等)，關(guān)于不獲取語音數(shù)據(jù)的意圖的信息，和希望獲取的語音數(shù)據(jù)的特性信息。希望獲取的語音數(shù)據(jù)的特性信息包括關(guān)于說話方式的信息，比如私語，臥位發(fā)出的語音等。
使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤。關(guān)于所述M個(gè)模式模型中的每一個(gè)確定在闊值Th內(nèi)的其它講話者的數(shù)量，平均值被用于上面所述的評(píng)估。
順便提及，盡管4艮據(jù)本實(shí)施例，所述評(píng)估由數(shù)據(jù)評(píng)估部分3e自動(dòng)進(jìn)行，不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息，自己進(jìn)行評(píng)估。
如果語音數(shù)據(jù)被認(rèn)為具有高的稀缺值，那么數(shù)據(jù)處理系統(tǒng)7進(jìn)入圖46A的步驟(10)。
(10 )第二協(xié)商部分3g與信息處理終端2協(xié)商誰是希望獲取的語音數(shù)據(jù)的發(fā)送者。根據(jù)本實(shí)施例，數(shù)據(jù)處理單元3通過網(wǎng)絡(luò)4向信息處理終端2發(fā)送預(yù)定消息，并通過網(wǎng)絡(luò)4從系統(tǒng)用戶接收對(duì)所述消息的響應(yīng)。假如系統(tǒng)用戶無論如何拒絕提供希望獲取的語音數(shù)據(jù)，那么通過經(jīng)網(wǎng)絡(luò)4，在數(shù)據(jù)處理單元3和信息處理終端2之間交換消息，允許操作者和系統(tǒng)用戶進(jìn)行基于消息的協(xié)商。
(11)第二信息顯示部分3f根據(jù)計(jì)算的數(shù)學(xué)距離，利用Samrnon方法(一種已知方法)二維投射所有模式模型(HMM)間的距離關(guān)系。
(12 )第二信息顯示部分3f將關(guān)于HMM的二維投射的坐標(biāo)信息顯示成平面上的點(diǎn)，如圖55A和55B中所示。圖55A表示當(dāng)逐個(gè)單詞(或者逐句)處理HMM時(shí)的HMM坐標(biāo)點(diǎn)。即，每個(gè)點(diǎn)代表每個(gè)講話者的模式模型，兩點(diǎn)之間的距離代表它們的相似性。
在圖55A中，在點(diǎn)40周圍可存在多個(gè)點(diǎn)，意味著存在具有相似聲學(xué)特性的大量模式模型，從而可直觀地了解稀缺值較低。
另一方面，點(diǎn)41位于聲學(xué)空間的邊緣，其周圍存在很少的點(diǎn)，從而可直觀地了解稀缺值較高。
圖55B表示當(dāng)逐個(gè)音位(圖中的"a"、 "i"、 "u"、 "e"和"o")地處理HMM時(shí)的HMM坐標(biāo)點(diǎn)。這^f吏得能夠逐個(gè)音位地直觀評(píng)估語音數(shù)據(jù)的值。
此外，如上所述，模式模型的密度或評(píng)估結(jié)果被量化，所得到的數(shù)字被原樣顯示或者被顯示成圖。如果系統(tǒng)用戶A的語音數(shù)據(jù)位于位置女52，如圖55A中所示，那么該語音數(shù)據(jù)的值由示于該圖右下角的數(shù)字70表示。如果該值的平均值為57，那么易于看出該語音數(shù)據(jù)的值高于平均值。
(13)如果在(10)中成功完成與系統(tǒng)用戶的協(xié)商，那么第二數(shù)據(jù)控制部分3c將目標(biāo)的語音數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。根據(jù)本實(shí)施例，在被轉(zhuǎn)換成基于HMM的模式模型之后，語音數(shù)據(jù)被加入，從而被存儲(chǔ)在(上面產(chǎn)生的)初始數(shù)據(jù)庫中。
現(xiàn)在參考圖46B和55，說明在根據(jù)特征數(shù)據(jù)產(chǎn)生的模式模型由語音數(shù)據(jù)構(gòu)成的情況下，初始數(shù)據(jù)庫構(gòu)成處理和核實(shí)性能檢測(cè)處理的第二結(jié)構(gòu)。
首先，講話者核實(shí)所需的示于圖46B中的(1) - (4)中的初始數(shù)據(jù)庫構(gòu)成處理和圖46A的(1) - (4)中的第一結(jié)構(gòu)相同，從而其說明將被省略。
下面，說明在圖46B中的(5) - (11)中所示的語音數(shù)據(jù)評(píng)估處理的流程。
(5) 第二數(shù)據(jù)獲取部分3b從信息處理終端2獲取系統(tǒng)用戶的語音數(shù)據(jù)。
(6) 第二數(shù)據(jù)獲取部分3b分析獲取的語音數(shù)據(jù)并抽取特征值。
(7) 第二數(shù)據(jù)獲取部分3b根據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM，并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)。
(8 )第二數(shù)據(jù)獲取部分3b通過HMM學(xué)習(xí)產(chǎn)生目標(biāo)講話者的模式模型，并將其存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。
(9 )位置計(jì)算部分3d計(jì)算產(chǎn)生的目標(biāo)講話者的模式模型與其它特定講話者的模式模型之間的數(shù)學(xué)距離。根據(jù)本實(shí)施例，當(dāng)數(shù)學(xué)距離被計(jì)算時(shí)，根據(jù)計(jì)算的數(shù)學(xué)距離，通過后面說明的步驟(12)和(13)，可利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖47中所示)，從而操作者能夠直觀地了解語音數(shù)據(jù)的位置關(guān)系。
(10 )數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離，評(píng)估語音數(shù)據(jù)的值。具體地說，如果存在其介于閾值Th和目標(biāo)講話者的模式模型間的數(shù)學(xué)距離低于閾值Th的許多模式模型，那么數(shù)據(jù)評(píng)估部分3e確定在目標(biāo)講話者的模式模型周圍，存在許多具有類似聲學(xué)特性的模式模型。另一方面，如果存在其數(shù)學(xué)距離低于閾值Th的少量模式模型，那么數(shù)據(jù)評(píng)估部分3e確定在指定的模式模型周圍，存在少量聲學(xué)上類似的模式模型。
從而，周圍存在大量具有相似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有低的稀缺值，周圍存在少量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有高的稀缺值。
通過第二數(shù)據(jù)通信部分3a，評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端2B，如果目標(biāo)講話者是系統(tǒng)用戶B的話。
使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤。關(guān)于所述M個(gè)模式模型中的每一個(gè)確定在閾值Th內(nèi)的其它講話者的數(shù)量，平均值被用于上面所述的評(píng)估。
順便提及，盡管根據(jù)本實(shí)施例，所述評(píng)估由數(shù)據(jù)評(píng)估部分3e自動(dòng)進(jìn)行，不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息，自己進(jìn)行評(píng)估。
如果語音數(shù)據(jù)被認(rèn)為具有高的稀缺值，那么數(shù)據(jù)處理系統(tǒng)7進(jìn)入圖46B的步驟(11)。
(11 )第二協(xié)商部分3g與信息處理終端2協(xié)商誰是希望獲取的語音數(shù)據(jù)的發(fā)送者。根據(jù)本實(shí)施例，數(shù)據(jù)處理單元3通過網(wǎng)絡(luò)4向信息處理終端2發(fā)送預(yù)定消息，并通過網(wǎng)絡(luò)4從系統(tǒng)用戶接收對(duì)所述消息的響應(yīng)。假如系統(tǒng)用戶無論如何拒絕提供希望獲取的語音數(shù)據(jù)，那么通過經(jīng)網(wǎng)絡(luò)4，在數(shù)據(jù)處理單元3和信息處理終端2之間交換消息，允許操作者和系統(tǒng)用戶進(jìn)行基于消息的協(xié)商(例如關(guān)于金額的協(xié)商)。
利用二維投射在聲學(xué)空間中顯示數(shù)據(jù)的處理和顯示評(píng)估結(jié)果的處理(示于圖46B中的(12)和(13)中)與按照上述第一結(jié)構(gòu)的圖46A中的(11)和(12)相同，從而其說明將被省略。
現(xiàn)在參考圖48，說明信息處理終端2執(zhí)行的操作和處理的流程。圖48是表示由信息處理終端2執(zhí)行的操作和處理的流程圖。
如圖48中所示，首先在步驟S900中，信息處理終端2使第一數(shù)據(jù)控制部分2b判斷語音數(shù)據(jù)的獲取是否已開始。如果發(fā)現(xiàn)所述獲取已開始(Yes)，那么信息處理終端2進(jìn)入步驟S902。否則(No),它使第一數(shù)據(jù)控制部分2b繼續(xù)所述判斷處理，直到開始所述獲取為止。
114一數(shù)據(jù)獲取部分2a獲取目標(biāo)講話者(按照本實(shí)施例，系統(tǒng)用戶A-C中的任意一個(gè))發(fā)出的語音(模擬數(shù)據(jù))。隨后，它進(jìn)入步驟S904。
在步驟S卯4中，信息處理終端2使第一數(shù)據(jù)獲取部分2a將獲取的語音(模擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后，它進(jìn)入步驟S906。
在步驟S906中，信息處理終端2使第一數(shù)據(jù)控制部分2b通過第一數(shù)據(jù)通信部分2c將數(shù)字語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元3。隨后它進(jìn)入步驟S908。
在步驟S908中，信息處理終端2使第一數(shù)據(jù)控制部分2b判斷是否通過第一數(shù)據(jù)通信部分2c，從數(shù)據(jù)處理單元3收到了語音數(shù)據(jù)的評(píng)估結(jié)果。如果發(fā)現(xiàn)收到了所述評(píng)估結(jié)果(Yes)，那么信息處理終端2進(jìn)入步驟S910，否則(No)，它使第一數(shù)據(jù)控制部分2b繼續(xù)所述判斷處理，直到收到評(píng)估結(jié)果為止。
在步驟S910中，信息處理終端2使第一信息顯示部分2d在第一數(shù)據(jù)控制部分2b的控制下顯示接收的評(píng)估結(jié)果。隨后，它進(jìn)入步驟S912。
在步驟S912中，信息處理終端2使第一數(shù)據(jù)控制部分2b判斷是否存在關(guān)于接收的評(píng)估結(jié)果的協(xié)商請(qǐng)求。如果發(fā)現(xiàn)存在協(xié)商請(qǐng)求(Yes)，那么信息處理終端2進(jìn)入步驟S914。否則(No)，它進(jìn)入步驟S918。
在步驟S914中，信息處理終端2使第一數(shù)據(jù)控制部分2b，第一協(xié)商部分2e和第一數(shù)據(jù)通信部分2c開始協(xié)商處理，與數(shù)據(jù)處理單元3協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)。隨后，它進(jìn)入步驟S916。
在步驟S916中，信息處理終端2使第一數(shù)據(jù)控制部分2b，第一協(xié)商部分2e和第一數(shù)據(jù)通信部分2c根據(jù)來自目標(biāo)講話者的輸入信息，向數(shù)據(jù)處理單元3發(fā)送關(guān)于語音數(shù)據(jù)是否可被提供的決定。隨后，它進(jìn)入步驟S918。
在步驟S918中，信息處理終端2使第一數(shù)據(jù)控制部分2b判斷語音數(shù)據(jù)獲取處理是否應(yīng)被結(jié)束。如果發(fā)現(xiàn)所述處理應(yīng)被結(jié)束(Yes)，那么信息處理終端2進(jìn)入步驟S900。否則(No),它進(jìn)入步驟S卯2。這里，根據(jù)經(jīng)由諸如鼠標(biāo)或鍵盤(未示出)之類的輸入裝置，來
自系統(tǒng)用戶的輸入信息，判斷所述處理是否應(yīng)被結(jié)束。
現(xiàn)在參考圖49，說明由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程。
圖49是表示由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程圖。
如圖49中所示，首先在步驟SIOOO中，數(shù)據(jù)處理單元3使第二數(shù)
據(jù)控制部分3c判斷是否已通過第二數(shù)據(jù)通信部分3a從信息處理終端
2獲取了語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取所述語音數(shù)據(jù)(Yes)，那么數(shù)據(jù)
處理單元3進(jìn)入步驟S1002。否則(No),它使第二數(shù)據(jù)控制部分3c
繼續(xù)所述判斷處理，直到獲取語音數(shù)據(jù)為止。
在步驟S1002中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)獲取部分3b從獲取的語音數(shù)據(jù)抽取特征值。隨后，它進(jìn)入步驟S1004。順便提及，按照第一種結(jié)構(gòu)，根據(jù)似然性計(jì)算，從多個(gè)講話者的模式模型中選擇具有最相似的聲學(xué)特性的模式，并將其指定為獲取的語音數(shù)據(jù)的模式模型。另一方面，按照第二種結(jié)構(gòu)，根據(jù)抽取的特征值產(chǎn)生獲取的語音的模式模型。
在步驟S1004中，數(shù)據(jù)處理單元3使位置計(jì)算部分3d計(jì)算獲取的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后，它進(jìn)入步驟S1006。
在步驟S1006中，數(shù)據(jù)處理單元3使數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離，評(píng)估獲取的語音數(shù)據(jù)的值。隨后，它進(jìn)入步驟S1008。
在步驟S1008中，數(shù)據(jù)處理單元3使第二信息顯示部分3f顯示評(píng)估結(jié)果。隨后，它進(jìn)入步驟S1010。
在步驟S1010中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c通過第二數(shù)據(jù)通信部分3a，將評(píng)估結(jié)果發(fā)送給指定的信息處理終端2。隨后，它進(jìn)入步驟S1012。
在步驟S1012中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c根據(jù)評(píng)估結(jié)果，判斷是否進(jìn)行關(guān)于語音數(shù)據(jù)的供給的協(xié)商。如果發(fā)現(xiàn)應(yīng)進(jìn)行所述協(xié)商(Yes)，那么數(shù)據(jù)處理單元3進(jìn)入步驟S1014。否則(No)，它進(jìn)入步驟SIOOO。
在步驟S1014中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c、第二協(xié)商部分3g和第二數(shù)據(jù)通信部分3a通過網(wǎng)絡(luò)4與信息處理終端2進(jìn)入所述協(xié)商。隨后，它進(jìn)入步驟S1016。
在步驟S1016中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c判斷是否從指定的信息處理終端2獲取了協(xié)商結(jié)果。如果發(fā)現(xiàn)獲取了協(xié)商結(jié)果(Yes)，那么數(shù)據(jù)處理單元3進(jìn)入步驟S1018。否則(No)，它使第二數(shù)據(jù)控制部分3c繼續(xù)所述判斷處理，直到獲取協(xié)商結(jié)果為止。
在步驟S1018中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c根據(jù)協(xié)商結(jié)果，判斷協(xié)商是否已成功完成。如果發(fā)現(xiàn)協(xié)商已成功完成(Yes)，那么數(shù)據(jù)處理單元3進(jìn)入步驟S1020。否則(No)，它進(jìn)入步驟S1022。
在步驟S1020中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分將關(guān)于其的協(xié)商已成功完成的語音數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。隨后，它進(jìn)入步驟SIOOO。
另一方面，在步驟S1022中，數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c丟棄關(guān)于其的協(xié)商不成功的語音數(shù)據(jù)。隨后，它進(jìn)入步驟SIOOO。
現(xiàn)在參見圖50，說明由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐標(biāo)信息的顯示處理的流程。圖50是表示由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐標(biāo)信息的處理的流程圖。
如圖50中所示，首先在步驟S1100中，第二信息顯示部分3f判斷位置計(jì)算部分3d是否計(jì)算了數(shù)學(xué)距離。如果發(fā)現(xiàn)數(shù)學(xué)距離已被計(jì)算(Yes)，那么第二信息顯示部分3f進(jìn)入步驟S1102。否則(No ),它等到數(shù)學(xué)距離被計(jì)算為止。
在步驟S1102中，第二信息顯示部分3f利用Sammon方法(一種已知方法)，二維投射目標(biāo)講話者的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后，它進(jìn)入步驟S1104。
在步驟S1104中，第二信息顯示部分3f根據(jù)數(shù)學(xué)距離(現(xiàn)在它是由二維投射產(chǎn)生的二維信息)，將關(guān)于模式模型的坐標(biāo)信息顯示成平面上的點(diǎn)。隨后，它結(jié)束處理。這樣，第二數(shù)據(jù)獲取部分3b能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，位置計(jì)算部分3d和數(shù)據(jù)評(píng)估部分3e能夠評(píng)估語音數(shù)據(jù)的值，第二信息顯示部分3f能夠顯示評(píng)估結(jié)構(gòu)，以及將目標(biāo)講話者的語音的模式模型與其它講話者的模式模型之間的位置關(guān)系顯示成二維坐標(biāo)。
另外，數(shù)據(jù)處理單元3的第二協(xié)商部分3g能夠與信息處理終端2 的第一協(xié)商部分2e協(xié)商是否能夠提供語音數(shù)據(jù)。
另外，數(shù)據(jù)處理單元3能夠?qū)㈥P(guān)于其已成功完成協(xié)商的語音數(shù)據(jù) 存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。
在圖44中，由第一數(shù)據(jù)獲取部分2a、第一數(shù)據(jù)控制部分2b和第一數(shù)據(jù)通信部分2c執(zhí)行的語音數(shù)據(jù)獲取處理和傳輸處理對(duì)應(yīng)于在母案原權(quán)利要求50或54中限定的語音數(shù)據(jù)發(fā)送裝置；由第一數(shù)據(jù)控制部分2b和第一信息顯示部分2d執(zhí)行的顯示評(píng)估結(jié)果信息的信息處理對(duì)應(yīng)于在母案原權(quán)利要求50或54中限定的評(píng)估結(jié)果顯示裝置。
在圖45中，由第二數(shù)據(jù)通信部分3a和第二數(shù)據(jù)獲取部分3b執(zhí)行的語音數(shù)據(jù)獲取處理對(duì)應(yīng)于在母案原權(quán)利要求38、 43、 44和53任意之一中限定的語音數(shù)據(jù)獲取裝置；位置計(jì)算部分3d對(duì)應(yīng)于在母案原權(quán) 利要求3、 39、 41、 43、 44和53任意之一中限定的位置計(jì)算裝置；數(shù) 據(jù)評(píng)估部分3e對(duì)應(yīng)于在母案原權(quán)利要求38-42、 47、 48和53任意之一中限定的語音數(shù)據(jù)評(píng)估裝置；第二信息顯示部分3f對(duì)應(yīng)于在母案原權(quán)利要求38、 47、 48和53任意之一中限定的評(píng)估結(jié)果顯示裝置，和在母案原權(quán)利要求38、 45和53任意之一中限定的位置關(guān)系信息顯示裝置；第二協(xié)商部分3g對(duì)應(yīng)于在母案原權(quán)利要求49中限定的協(xié)商裝置；數(shù)據(jù)存儲(chǔ)部分3i對(duì)應(yīng)于在母案原權(quán)利要求49中限定的語音數(shù)據(jù) 存儲(chǔ)裝置。
(第五實(shí)施例)
下面參考

本發(fā)明的第五實(shí)施例。圖51-59是表示根據(jù)本發(fā)明的第五實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
首先，參考圖51說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖51表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。如圖51中所示，數(shù)據(jù)處理系統(tǒng)8包括信息處理終端9A-9C、數(shù)據(jù) 處理單元lO和網(wǎng)絡(luò)ll。
信息處理終端9A-9C受系統(tǒng)用戶A-C控制。它們具有獲取相應(yīng)系統(tǒng)用戶的語音數(shù)據(jù)，和通過網(wǎng)絡(luò)11將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元 10的功能，和顯示從數(shù)據(jù)處理單元10獲取的信息的功能。根據(jù)本實(shí) 施例，硬件和軟件被安裝在信息處理單元，比如PC和WS上，以實(shí) 現(xiàn)上述功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
數(shù)據(jù)處理單元10包含評(píng)估通過網(wǎng)絡(luò)11，從信息處理終端9A-9C 獲取的語音數(shù)據(jù)與其它講話者的語音數(shù)據(jù)之間的相似性的功能，和顯示獲取的語音數(shù)據(jù)在由多個(gè)講話者的模式模型構(gòu)成的聲學(xué)空間中的位置信息以及評(píng)估結(jié)果的功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
網(wǎng)絡(luò)11是連接多個(gè)信息處理設(shè)備，以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信的LAN或WAN。本實(shí)施例使用因特網(wǎng)，這是一種WAN。
現(xiàn)在參考圖52，說明信息處理終端9A-9C的詳細(xì)結(jié)構(gòu)。圖52是表示信息處理終端9的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例，信息處理終端 9A-9C具有相同的結(jié)構(gòu)，它們將被統(tǒng)稱為信息處理終端9。下面，信息處理終端9A-9C所共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端9。另外，如圖51中所示，信息處理終端并不局限于這三個(gè)信息處理終端 2A-2C，可連接受其它系統(tǒng)用戶控制的其它信息處理終端。
如圖52中所示，信息處理終端9包含第一數(shù)據(jù)獲取部分9a、第一數(shù)據(jù)控制部分9b、第一數(shù)據(jù)通信部分9c、第一信息顯示部分9d和操作部分9e。
第一數(shù)據(jù)獲取部分9a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置，比如麥克風(fēng)，和將^=莫擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)的裝置，比如A/D轉(zhuǎn)換器。
第一數(shù)據(jù)控制部分9b包括控制各個(gè)組件的處理的功能，包括控制通過第一數(shù)據(jù)通信部分9c,將第一數(shù)據(jù)獲取部分9a獲取的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元10的處理的功能，和控制在第一信息顯示部分 9d中顯示從數(shù)據(jù)處理單元10獲取的信息的處理的功能。第一數(shù)據(jù)通信部分9c具有在第一數(shù)據(jù)控制部分9b的控制下，通過網(wǎng)絡(luò)11與數(shù)據(jù)處理單元10進(jìn)行各種數(shù)據(jù)通信的功能。
第一信息顯示部分9d具有在第一數(shù)據(jù)控制部分9b的控制下，顯示信息，包括從數(shù)據(jù)處理單元10獲取的各種信息的功能。
操作部分9e允許系統(tǒng)用戶輸入指定特定講話者的信息，或者完成對(duì)語音數(shù)據(jù)處理控制程序的設(shè)置。
現(xiàn)在參考圖53，說明數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)。圖53是表示數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)的方框圖。
如圖53中所示，數(shù)據(jù)處理單元10包括第二數(shù)據(jù)通信部分10a、第二數(shù)據(jù)獲取部分10b、第二數(shù)據(jù)控制部分10c、位置計(jì)算部分10d、相似講話者檢測(cè)部分10e、相似性評(píng)估部分10f、第二信息顯示部分 10g、校正信息產(chǎn)生部分10h和數(shù)據(jù)存儲(chǔ)部分10i。
第二數(shù)據(jù)通信部分10a具有在第二數(shù)據(jù)控制部分10c的控制下，通過網(wǎng)絡(luò)ll，與信息處理終端9進(jìn)行各種數(shù)據(jù)通信的功能。
第二數(shù)據(jù)獲取部分10b具有通過第二數(shù)據(jù)通信部分10a從信息處理終端9獲取語音數(shù)據(jù)的功能，還具有分析獲取的語音數(shù)據(jù)并抽取為語音數(shù)據(jù)的特有部分的特征數(shù)據(jù)的裝置。它還具有通過根據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM，產(chǎn)生目標(biāo)講話者的模式模型的裝置。順便提及，根據(jù)本實(shí)施例，特征數(shù)據(jù)和目標(biāo)講話者的模式模型都被稱為語音數(shù)據(jù)。
第二數(shù)據(jù)控制部分10c具有控制數(shù)據(jù)處理單元10的各個(gè)組件之間的數(shù)據(jù)交換，以及控制處理的流程的功能。
位置計(jì)算部分10d具有計(jì)算獲取的語音數(shù)據(jù)和多個(gè)講話者的模式模型之間的位置關(guān)系的功能。
具體地說，如果特征數(shù)據(jù)是語音數(shù)據(jù)，那么計(jì)算語音數(shù)據(jù)和存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分10i(后面說明)中的多個(gè)講話者的模式模型之間的匹配似然性，根據(jù)計(jì)算結(jié)果從多個(gè)講話者的模式模型中選擇具有最高似然性的模式模型，該模式模型被看作與目標(biāo)講話者的語音數(shù)據(jù)等同。根據(jù)本實(shí)施例，多個(gè)講話者的模式模型由HMM組成，根據(jù)從它們中選擇的特定模式模型(或者可能根據(jù)對(duì)應(yīng)于目標(biāo)講話者的語音數(shù)據(jù)的模式模型)，確定它們的相對(duì)位置。隨后，由具有關(guān)于它們的相對(duì)位置的信息的模式模型形成聲學(xué)空間。
從而，在這種情況下，關(guān)于所選模式模型的相對(duì)位置的信息被用作關(guān)于目標(biāo)講話者的語音數(shù)據(jù)的位置信息。
另一方面，如果通過根據(jù)特征數(shù)據(jù)構(gòu)成HMM而產(chǎn)生的模式模型是語音數(shù)據(jù)，那么計(jì)算語音數(shù)據(jù)和特定模式模型間的相對(duì)位置，計(jì)算結(jié)果被用作關(guān)于該語音數(shù)據(jù)的位置信息。
如果特征數(shù)據(jù)是語音數(shù)據(jù)，那么相似講話者檢測(cè)部分10e計(jì)算選擇的模式模型與多個(gè)講話者的其它模式模型間的數(shù)學(xué)距離，比較計(jì)算的距離與數(shù)學(xué)距離的預(yù)定閾值Th,根據(jù)比較結(jié)果檢測(cè)在目標(biāo)講話者的語音數(shù)據(jù)的閾值Th距離內(nèi)的語音數(shù)據(jù)，并將其語音數(shù)據(jù)在閾值Th距離內(nèi)的講話者指定為相似講話者。
例如，在其模式模型存在于閾值Th內(nèi)的講話者中，其語音數(shù)據(jù) 最接近于目標(biāo)講話者的語音數(shù)據(jù)的講話者可被指定為相似講話者，或
定為;:講話者另一方面，如果在閾值Th內(nèi)不存在任何模式;莫型，那么可在改變閾值之后再次進(jìn)行比較，或者可確定沒有相似講話者。根據(jù)本實(shí)施例，由上面的等式(8)給出的歐幾里德距離或由上面的等式(9)給出的Bhattacharrya距離4皮用作數(shù)學(xué)距離。
這里，可逐個(gè)音位地計(jì)算數(shù)學(xué)距離，同樣可逐個(gè)音位地評(píng)估語音數(shù)據(jù)的值。本實(shí)施例允許系統(tǒng)用戶自由地啟用和禁用這樣的設(shè)置。
相似性評(píng)估部分10f計(jì)算通過操作部分3h指定的特定講話者的模式模型與目標(biāo)講話者的語音數(shù)據(jù)間的數(shù)學(xué)距離，根據(jù)計(jì)算的距離，評(píng)
估特定講話者和目標(biāo)講話者在語音上的相似性。
當(dāng)建立聲學(xué)空間時(shí)，根據(jù)以各種說話風(fēng)格，例如高聲地、低聲地、
快速地和慢速地產(chǎn)生的語音數(shù)據(jù)構(gòu)成模式模型。
從而，相對(duì)于以多種說話風(fēng)格產(chǎn)生的模式模型，進(jìn)行相似性評(píng)估。第二信息顯示部分10g具有顯示信息，比如相似講話者檢測(cè)部分
10e產(chǎn)生的檢測(cè)結(jié)果和相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果的功能。這里，顯示的信息包括通過評(píng)估結(jié)果的量化而獲取的信息，通過根據(jù)計(jì)
算的模式模型間的數(shù)學(xué)距離，利用Sammon方法二維地投射基于 HMM的模式模型間的距離關(guān)系而獲取的信息，以及其它信息。
校正信息產(chǎn)生部分10h根據(jù)相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果，產(chǎn)生校正信息，所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正，以便提高目標(biāo)講話者和特定講話者之間語音上的相似性。產(chǎn)生的校正信息由笫一數(shù)據(jù)控制部分9b和第二數(shù)據(jù)通信部分10a發(fā)送給適當(dāng)?shù)男?息處理終端9。這里校正信息基于預(yù)先從目標(biāo)講話者的話語獲取的特征數(shù)據(jù)，以及基于評(píng)估結(jié)果而產(chǎn)生，并且包含指示當(dāng)形成單詞時(shí)嘴的形狀，重音的位置等的信息，以便提高目標(biāo)講話者與特定講話者之間語音上的相似性。
數(shù)據(jù)存儲(chǔ)部分10i存儲(chǔ)多個(gè)講話者的模式模型和其它必要的數(shù)據(jù)。
根據(jù)本實(shí)施例，盡管未示出，但是數(shù)據(jù)處理單元10配有處理器、 RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器執(zhí)行專用程序時(shí)，上述組件被控制。
現(xiàn)在參考圖54-56說明數(shù)據(jù)處理系統(tǒng)8的更具體操作。圖54A和 54B是表示由數(shù)據(jù)處理系統(tǒng)8執(zhí)行的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估處理的流程的圖。圖55是表示其中聲學(xué)空間被二維投射的一個(gè)實(shí)例的圖，其中圖55A表示當(dāng)逐字(或者逐句)處理HMM時(shí)的HMM的坐標(biāo)點(diǎn)，圖55B表示當(dāng)逐個(gè)音位(圖中"a"、 "i"、 "u"、 "e"和"o")地處理HMM時(shí)的HMM的坐標(biāo)點(diǎn)。圖56是表示二維投射的一個(gè)實(shí)例的圖，軸代表說話風(fēng)格。
參見圖54A和55 ，下面說明在特征數(shù)據(jù)由語音數(shù)據(jù)構(gòu)成的情況下，初始數(shù)據(jù)庫構(gòu)成處理，相似講話者檢測(cè)處理和相似性評(píng)估處理的第一結(jié)構(gòu)。
首先，說明評(píng)估處理所需的初始數(shù)據(jù)庫構(gòu)成處理的流程-示于圖 54A中的(1)-(4)中。如果初始數(shù)據(jù)庫已存在，那么步驟(1)-(4) 不是必需的。
(1)第二數(shù)據(jù)獲取部分10b獲取N個(gè)(N為整數(shù))注冊(cè)講話者
122的語音。如上所述，第二數(shù)據(jù)獲取部分10b獲取按照各種說話風(fēng)格，
比如高聲地、低聲地、快速地和慢速地產(chǎn)生的語音數(shù)據(jù)。
(2 )第二數(shù)據(jù)獲取部分10b分析獲取的語音并抽取特征值。 (3 )第二數(shù)據(jù)獲取部分10b根據(jù)抽取的特征值產(chǎn)生特定講話者和非特定講話者的HMM，并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)，以產(chǎn)生每個(gè)特定講話者的一個(gè)模式模型和非特定講話者的一個(gè)模式模型。
(4)第二數(shù)據(jù)荻取部分10b將N個(gè)特定講話者的多個(gè)模式模型 (HMM)和非特定講話者的一個(gè)模式模型(HMM)存儲(chǔ)在數(shù)據(jù)存儲(chǔ) 部分10i中。
下面，說明在圖54A的(5) - (10)中表示的相似講話者檢測(cè)處理和相似性評(píng)估處理的流程。
(5 )第二數(shù)據(jù)獲取部分10b從信息處理終端9獲取系統(tǒng)用戶的語音數(shù)據(jù)。
(6 )第二數(shù)據(jù)獲取部分10b分析獲取的語音數(shù)據(jù)，并抽取特征值。 (7 )位置計(jì)算部分10d計(jì)算抽取的特征數(shù)據(jù)和多個(gè)特定講話者的
模式模型間的匹配似然性。這里假定說話的內(nèi)容已知(在說話時(shí)被輸入)。
(8) 位置計(jì)算部分10d根據(jù)計(jì)算的似然性，選擇具有最高似然性的模式模型，并計(jì)算該模式模型與其它特定講話者的模式模型間的數(shù) 學(xué)距離。前M個(gè)模式模型可被使用(M是小于N的整數(shù))。這種情況下，為選擇的M個(gè)模式模型中的每一個(gè)計(jì)算到其它特定講話者的模式模型的數(shù)學(xué)距離。根據(jù)本實(shí)施例，當(dāng)計(jì)算了數(shù)學(xué)距離時(shí)，可根據(jù)計(jì) 算的數(shù)學(xué)距離，通過后面說明的步驟(11)和(12)，利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖55中所示)，以致操作者能夠直觀地了解語音數(shù) 據(jù)的位置關(guān)系。
(9) 相似講話者檢測(cè)部分10e根據(jù)計(jì)算的數(shù)學(xué)距離，檢測(cè)相似的講話者。具體地說，它檢測(cè)在目標(biāo)講話者的模式模型的閾值Th距離內(nèi)的模式模型。例如，如果目標(biāo)講話者的模式模型由圖55A中的坐標(biāo) 點(diǎn)50 (由"x，，表示)代表，那么從存在于以目標(biāo)講話者的模式模型為中心，半徑為Th的圓內(nèi)的模式模型中檢測(cè)相似講話者。這種情況下，按照到圖55A中的坐標(biāo)點(diǎn)50的接近度的順序，選擇三個(gè)模式模型 50a誦50c。
與這樣選擇的模式模型對(duì)應(yīng)的講話者被檢測(cè)為語音與目標(biāo)講話者類似的相似講話者。檢測(cè)結(jié)果由第二數(shù)據(jù)控制部分2c和第二信息顯示部分10g顯示。
通過第二數(shù)據(jù)通信部分10a,關(guān)于檢測(cè)結(jié)果的信息被發(fā)送給例如信息處理終端9A，如果目標(biāo)講話者是系統(tǒng)用戶A的話。
根據(jù)本實(shí)施例，關(guān)于檢測(cè)結(jié)果的信息包括關(guān)于相似講話者的信息，比如對(duì)應(yīng)于所選模式模型的講話者的姓名，和關(guān)于二維投射的目標(biāo)講話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。
使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤(例如，選擇的模式模型的特性與目標(biāo)講話者的語音的模式模型的特性大不相同的情況)。這種情況下，其模式模型存在于閾值Th 距離內(nèi)的其它講話者被選擇并被指定為相似講話者。
順便提及，盡管根據(jù)本實(shí)施例，所述評(píng)估由相似講話者檢測(cè)部分 10e自動(dòng)進(jìn)行，不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息，自己進(jìn)行所述評(píng)估。
另外，由于可對(duì)與如上所述的多種說話風(fēng)格中的每一種對(duì)應(yīng)的模式模型單獨(dú)進(jìn)行檢測(cè)處理，因此能夠按照每個(gè)說話風(fēng)格檢測(cè)相似講話
者，使得能夠檢測(cè)在說話風(fēng)格A方面，而不是在說話風(fēng)格B方面類似目標(biāo)講話者的講話者。從而，能夠?qū)⒃谧疃鄶?shù)的語音方面類似目標(biāo)講話者的講話者指定為相似講話者，或者將在每種說話風(fēng)格方面單獨(dú)類似目標(biāo)講話者的講話者指定為相似講話者。
一旦相似講話者被檢測(cè)，并且關(guān)于它們的數(shù)據(jù)被發(fā)送給信息處理終端9，信息處理終端9顯示獲取的信息。具體地說，信息處理終端9 顯示關(guān)于相似講話者的信息和關(guān)于二維投射的目標(biāo)講話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。當(dāng)查看顯示的信息時(shí)，系統(tǒng)用戶通過操縱操作部分9e，指定他/她想要模仿其語音的特定講話
124者。指定的信息被發(fā)送給數(shù)據(jù)處理單元10，數(shù)據(jù)處理系統(tǒng)8進(jìn)入圖54A 中的步驟(10)。
(10) 相似性評(píng)估部分10f評(píng)估系統(tǒng)用戶(目標(biāo)講話者)指定的特定講話者的模式模型與目標(biāo)講話者的模式模型間的相似性。
例如，如果特定講話者的模式模型與目標(biāo)講話者的模式模型間的數(shù)學(xué)距離較短，那么認(rèn)為相似性較高，如果該數(shù)學(xué)距離較長，那么認(rèn) 為相似性較低。
根據(jù)本實(shí)施例，當(dāng)兩個(gè)模式模型的坐標(biāo)一致時(shí)，它們的相似率被認(rèn)為是100% (完全相似)，如果特定講話者的模式模型離目標(biāo)講話者的模式模型的坐標(biāo)點(diǎn)52的距離為S或者更遠(yuǎn)，那么相似率被認(rèn)為是 0% (完全不似)。目標(biāo)講話者的坐標(biāo)點(diǎn)52與特定講話者的坐標(biāo)點(diǎn)52a 之間的距離被顯示成關(guān)于相似率(％)的評(píng)估結(jié)果，如圖55A中所示。
這里，在評(píng)估特定講話者的模式模型的相似性時(shí)，多個(gè)說話風(fēng)格中的每一種凈皮獨(dú)立處理。
通過第二數(shù)據(jù)通信部分10a,評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端9B，如果目標(biāo)講話者是系統(tǒng)用戶B的話。
根據(jù)本實(shí)施例，評(píng)估結(jié)果信息各種說話風(fēng)格下特定講話者的模式
模型的評(píng)估結(jié)果，關(guān)于二維投射的特定講話者的模式模型與目標(biāo)講話者的模式模型間的位置關(guān)系的信息，和校正信息(后面描述)。
(11) 校正信息產(chǎn)生部分10h根據(jù)由相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果，產(chǎn)生目標(biāo)講話者的語音的校正信息，以〗更提高目標(biāo)講話者與特定講話者之間語音上的相似性。
當(dāng)產(chǎn)生校正信息時(shí)，可重新獲取目標(biāo)講話者的語音數(shù)據(jù)，或者使用在步驟(5)和(6)中獲取的語音數(shù)據(jù)。
通過被包含在評(píng)估結(jié)果信息中，產(chǎn)生的校正信息被發(fā)送給恰當(dāng)?shù)?信息處理終端9。
當(dāng)收到校正信息時(shí)，信息處理終端9通過第一信息顯示部分9d 顯示它。從而，通過查看顯示的校正信息，目標(biāo)講話者能夠進(jìn)行訓(xùn)練，以提高他/她自己的語音與特定講話者的語音的相似性。(12)第二信息顯示部分10g根據(jù)計(jì)算的數(shù)學(xué)距離(相對(duì)距離)，利用Sammon方法(一種已知方法)，二維投射所有模式模型(HMM) 的距離關(guān)系。
(13 )第二信息顯示部分10g將關(guān)于HMM的二維投射的坐標(biāo)信息顯示成平面上的點(diǎn)，如圖55A和55B中所示。即，每個(gè)點(diǎn)代表每個(gè) 講話者的模式模型，兩爲(wèi)間的距離代表它們的相似性(距離越短，相似性相大)。
圖55B表示當(dāng)逐個(gè)音位(圖中的"a"、 "i"、 "u"、 "e"和"o")地處理HMM時(shí)的HMM坐標(biāo)點(diǎn)。這使得能夠逐個(gè)音位地直觀進(jìn)行相似講話者的檢測(cè)和相似性的評(píng)估。
通過將關(guān)于說話風(fēng)格的信息加入到相應(yīng)說話風(fēng)格的模式模型中，利用說話風(fēng)格的元素(這種情況下，語速和聲高)作為軸，能夠形成二維的聲學(xué)空間，如圖56中所示。由于通過利用說話風(fēng)格的元素作為軸，信息處理終端9實(shí)時(shí)地進(jìn)行二維投射，因此目標(biāo)講話者能夠直觀地了解他/她自己的語音數(shù)據(jù)的位置的變化，從而易于學(xué)習(xí)模仿希望的特定講話者的語音所需的說話方式。但是，與其中信息處理終端9通過因特網(wǎng)9與數(shù)據(jù)處理單元10連接的結(jié)構(gòu)相比，其中目標(biāo)講話者直接將他/她的語音輸入數(shù)據(jù)處理單元10的結(jié)構(gòu)更適合于實(shí)時(shí)顯示。
現(xiàn)在參考圖54B和55，說明在才艮據(jù)特征數(shù)據(jù)產(chǎn)生的模式模型由語音數(shù)據(jù)構(gòu)成的情況下，初始數(shù)據(jù)庫構(gòu)成處理和核實(shí)性能檢測(cè)處理的第二結(jié)構(gòu)。
首先，講話者核實(shí)所需的示于圖54B中的(1) - (4)中的初始數(shù) 據(jù)庫構(gòu)成處理和圖54A的(l)-U)中的第一結(jié)構(gòu)相同，從而其說明將被省略。
下面，說明在圖54B中的(5) - (11)中所示的相似講話者檢測(cè) 處理和相似性評(píng)估處理的流程。
(5 )第二數(shù)據(jù)獲取部分10b從信息處理終端9獲取系統(tǒng)用戶的語音數(shù)據(jù)。
(6 )第二數(shù)據(jù)獲取部分10b分析獲取的語音數(shù)據(jù)并抽取特征值。(7) 第二數(shù)據(jù)獲取部分10b根據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM，并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)。
(8) 第二數(shù)據(jù)獲取部分10b通過HMM學(xué)習(xí)產(chǎn)生目標(biāo)講話者的模式模型，并將其存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分10i中。
(9 )位置計(jì)算部分10d計(jì)算產(chǎn)生的目標(biāo)講話者的模式模型與其它特定講話者的模式模型之間的數(shù)學(xué)距離。根據(jù)本實(shí)施例，當(dāng)數(shù)學(xué)距離被計(jì)算時(shí)，根據(jù)計(jì)算的數(shù)學(xué)距離，通過后面說明的步驟(13)和(14), 可利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖55中所示)，從而操作者能夠直觀地了解語音數(shù)據(jù)的位置關(guān)系。
(10)相似講話者檢測(cè)部分10e根據(jù)計(jì)算的數(shù)學(xué)距離，檢測(cè)相似講話者。具體地說，它檢測(cè)在目標(biāo)講話者的模式模型的閾值Th距離內(nèi)的模式模型。例如，如果目標(biāo)講話者的模式模型由圖55A中的坐標(biāo) 點(diǎn)50 (由"x"表示)代表，那么從存在于以目標(biāo)講話者的模式模型為中心，半徑為Th的圓內(nèi)的模式模型中檢測(cè)相似講話者。這種情況下，按照到圖55A中的坐標(biāo)點(diǎn)50的接近度的順序，選擇三個(gè)模式模型 50a-50c。
與這樣選擇的模式模型對(duì)應(yīng)的講話者被檢測(cè)為語音與目標(biāo)講話者類似的相似講話者。檢測(cè)結(jié)果由第二數(shù)據(jù)控制部分2c和第二信息顯示部分10g顯示。
通過第二數(shù)據(jù)通信部分10a，關(guān)于檢測(cè)結(jié)果的信息被發(fā)送給例如信息處理終端9A，如果目標(biāo)講話者是系統(tǒng)用戶A的話。
根據(jù)本實(shí)施例，關(guān)于檢測(cè)結(jié)果的信息包括關(guān)于相似講話者的信息，比如對(duì)應(yīng)于所選模式模型的講話者的姓名，和關(guān)于二維投射的目標(biāo)講話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。
使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤(例如，選擇的模式模型的特性與目標(biāo)講話者的語音的模式模型的特性大不相同的情況)。這種情況下，在其模式模型存在于闊值 Th距離內(nèi)的其它講話者中檢測(cè)相似講話者。
順便提及，盡管根據(jù)本實(shí)施例，所述評(píng)估由相似講話者檢測(cè)部分10e自動(dòng)進(jìn)行，不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息，自己進(jìn)行所述評(píng)估。
另外，由于可對(duì)與如上所述的多種說話風(fēng)格中的每一種對(duì)應(yīng)的模式模型單獨(dú)進(jìn)行檢測(cè)處理，因此能夠按照每個(gè)說話風(fēng)格檢測(cè)相似講話
者，使得能夠檢測(cè)在說話風(fēng)格A方面，而不是在說話風(fēng)格B方面類似目標(biāo)講話者的講話者。從而，能夠?qū)⒃谧疃鄶?shù)的語音方面類似目標(biāo)講話者的講話者指定為相似講話者，或者將在每種說話風(fēng)格方面單獨(dú)類似目標(biāo)講話者的講話者指定為相似講話者。
一旦相似講話者被檢測(cè)，并且關(guān)于它們的數(shù)據(jù),皮發(fā)送給信息處理終端9，信息處理終端9顯示獲取的信息。具體地說，信息處理終端9 顯示關(guān)于相似講話者的信息和關(guān)于二維投射的目標(biāo)講話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。當(dāng)查看顯示的信息時(shí)，系統(tǒng)用戶通過操縱操作部分9e，指定他/她想要模仿其語音的特定講話者。指定的信息被發(fā)送給數(shù)據(jù)處理單元10，數(shù)據(jù)處理系統(tǒng)8進(jìn)入圖54B 中的步驟(11)。
(11)相似性評(píng)估部分10f評(píng)估系統(tǒng)用戶(目標(biāo)講話者)指定的特定講話者的模式模型與目標(biāo)講話者的模式模型間的相似性。
例如，如果特定講話者的模式模型與目標(biāo)講話者的模式模型間的數(shù)學(xué)距離較短，那么認(rèn)為相似性較高，如果該數(shù)學(xué)距離較長，那么認(rèn) 為相似性較低。
根據(jù)本實(shí)施例，當(dāng)兩個(gè)模式模型的坐標(biāo)一致時(shí)，它們的相似率被認(rèn)為是100% (完全相似)，如果特定講話者的模式模型離目標(biāo)講話者的模式模型的坐標(biāo)點(diǎn)52的距離為S或者更遠(yuǎn)，那么相似率被認(rèn)為是 0% (完全不似)。目標(biāo)講話者的坐標(biāo)點(diǎn)52與特定講話者的坐標(biāo)點(diǎn)52a 之間的距離被顯示成關(guān)于相似率(％)的評(píng)估結(jié)果，如圖55A中所示。
這里，在評(píng)估特定講話者的模式模型的相似性時(shí)，多個(gè)說話風(fēng)格中的每一種被獨(dú)立處理。
通過第二數(shù)據(jù)通信部分10a,評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端9B，如果目標(biāo)講話者是系統(tǒng)用戶B的話。根據(jù)本實(shí)施例，評(píng)估結(jié)果信息各種說話風(fēng)格下特定講話者的模式模型的評(píng)估結(jié)果，關(guān)于二維投射的特定講話者的模式模型與目標(biāo)講話者的模式模型間的位置關(guān)系的信息，和校正信息(后面描述)。
(12)校正信息產(chǎn)生部分10h根據(jù)由相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果，產(chǎn)生目標(biāo)講話者的語音的校正信息，以便提高目標(biāo)講話者與特定講話者之間語音上的相似性。
當(dāng)產(chǎn)生校正信息時(shí)，可重新獲取目標(biāo)講話者的語音數(shù)據(jù)，并將該語音數(shù)據(jù)用于對(duì)應(yīng)于該語音數(shù)據(jù)的模式模型，或者使用在步驟(5 )和 (6)中獲取的語音數(shù)據(jù)。
通過被包含在評(píng)估結(jié)果信息中，產(chǎn)生的校正信息被發(fā)送給恰當(dāng)?shù)?信息處理終端9。
當(dāng)收到校正信息時(shí)，信息處理終端9通過第一^f言息顯示部分9d 顯示它。從而，通過查看并遵循顯示的校正信息，目標(biāo)講話者能夠進(jìn) 行訓(xùn)練，以提高他/她自己的語音與特定講話者的語音的相似性。
利用二維投射在聲學(xué)空間中顯示數(shù)據(jù)的處理和顯示評(píng)估結(jié)果的處理(示于圖54B中的(13)和(14)中)與根據(jù)上述第一結(jié)構(gòu)的圖54A 中的(12)和(13)相同，從而其說明將被省略。
現(xiàn)在參考圖57，說明由信息處理終端9執(zhí)行的操作和處理。圖57 是表示由信息處理終端9執(zhí)行的操作和處理的流程圖。
如圖57中所示，首先在步驟S1200中，信息處理終端9使第一數(shù) 據(jù)控制部分9b判斷語音數(shù)據(jù)的獲取是否已開始。如果發(fā)現(xiàn)所述獲取已開始(Yes)，那么信息處理終端9進(jìn)入步驟S1202。否則(No ),它使第一數(shù)據(jù)控制部分9b繼續(xù)所述判斷處理，直到開始所述獲取為止。
在步驟S1202中，信息處理終端9使笫一數(shù)據(jù)獲取部分9a獲取目標(biāo)講話者(按照本實(shí)施例，系統(tǒng)用戶A-C中的任意一個(gè))發(fā)出的語音 (模擬數(shù)據(jù))。隨后，它進(jìn)入步驟S1204。
在步驟S1204中，信息處理終端9使第一數(shù)據(jù)獲取部分9a將獲取的語音(模擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后，它進(jìn)入步驟S1206。
在步驟S1206中，信息處理終端9使第一數(shù)據(jù)控制部分9b通過第一數(shù)據(jù)通信部分9c將數(shù)字語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元10。隨后它進(jìn)入步驟S1208。
在步驟S1208中，信息處理終端9使第一數(shù)據(jù)控制部分9b判斷是否通過第一數(shù)據(jù)通信部分9c，從數(shù)據(jù)處理單元10收到了相對(duì)于該語音數(shù)據(jù)的相似講話者的檢測(cè)結(jié)果信息。如果發(fā)現(xiàn)收到了所述檢測(cè)結(jié) 果信息(Yes)，那么信息處理終端9進(jìn)入步驟S1210，否則(No )，它使第一數(shù)據(jù)控制部分b繼續(xù)所述判斷處理，直到收到檢測(cè)結(jié)果信息為止。
在步驟S1210中，信息處理終端9使第一信息顯示部分2d在第一數(shù)據(jù)控制部分9b的控制下顯示接收的檢測(cè)結(jié)果信息。隨后，它進(jìn)入步驟S1212。
在步驟S1212中，信息處理終端9使第一數(shù)據(jù)控制部分9b判斷是否通過操作部分9e選擇了特定的講話者。如果發(fā)現(xiàn)選擇了特定的講話者(Yes)，那么信息處理終端9進(jìn)入步驟S1214。否則(No)，它等到選擇了特定講話者為止。
在步驟S1214中，信息處理終端9使第一數(shù)據(jù)控制部分9b通過第一數(shù)據(jù)通信部分9c，將關(guān)于選擇的講話者的信息發(fā)送給數(shù)據(jù)處理單元10。隨后，它進(jìn)入步驟S1216。
在步驟S1216中，信息處理終端9使第一數(shù)據(jù)控制部分9b判斷是否通過第一數(shù)據(jù)通信部分9c，從數(shù)據(jù)處理單元10收到了語音數(shù)據(jù) 以及關(guān)于選擇的講話者的評(píng)估結(jié)果信息。如果發(fā)現(xiàn)已收到它們(Yes )，那么信息處理終端9進(jìn)入步驟S1218。否則(No)，它等到收到它們為止。
在步驟S1216中，信息處理終端9使第一信息顯示部分9d在第一數(shù)據(jù)控制部分9b的控制下，顯示接收的評(píng)估結(jié)果信息。隨后，它進(jìn) 入步驟S1200。
現(xiàn)在參考圖58，說明由數(shù)據(jù)處理單元10執(zhí)行的操作和處理。圖 58是表示由數(shù)據(jù)處理單元10執(zhí)行的操作和處理的流程圖。
如圖58中所示，首先在步驟S1300中，數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c判斷是否已通過第二數(shù)據(jù)通信部分10a從信息處理終端9獲取了語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取所述語音數(shù)據(jù)(Yes)，那么數(shù)據(jù)處理單元10進(jìn)入步驟S1302。否則(No)，它使第二數(shù)據(jù)控制部分10c繼續(xù)所述判斷處理，直到獲取語音數(shù)據(jù)為止。
在步驟S1302中，數(shù)據(jù)處理單元10使第二數(shù)據(jù)獲取部分10b從獲取的語音數(shù)據(jù)抽取特征值。隨后，它進(jìn)入步驟S1304。順便提及，按照第一種結(jié)構(gòu)，根據(jù)似然性計(jì)算，從多個(gè)講話者的模式模型中選擇具有最相似的聲學(xué)特性的模式，并將其指定為獲取的語音的模式模型。另一方面，按照第二種結(jié)構(gòu)，根據(jù)抽取的特征值產(chǎn)生獲取的語音的模式模型。
在步驟S1304中，數(shù)據(jù)處理單元10使位置計(jì)算部分10d計(jì)算獲取的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后，它進(jìn)入步驟S1306。
在步驟S1306中，數(shù)據(jù)處理單元10使相似講話者檢測(cè)部分10e 根據(jù)計(jì)算的數(shù)學(xué)距離，檢測(cè)相對(duì)于獲取的語音數(shù)據(jù)的相似講話者。隨
后，它進(jìn)入步驟S1308。
在步驟S1308中，數(shù)據(jù)處理單元10使第二信息顯示部分10g顯示檢測(cè)結(jié)果信息，即關(guān)于檢測(cè)結(jié)果的信息。隨后，它進(jìn)入步驟S1310。
在步驟S1310中，數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c通過第二數(shù)據(jù)通信部分10a，將檢測(cè)結(jié)果信息發(fā)送給恰當(dāng)?shù)男畔⑻幚斫K端 9。隨后，它進(jìn)入步驟S1312。
在步驟S1312中，數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c判斷是否通過第二數(shù)據(jù)通信部分10a，從信息處理終端9獲取了關(guān)于選擇的講話者的信息。如果發(fā)現(xiàn)獲取了所述信息(Yes)，那么數(shù)據(jù)處理單元10進(jìn)入步驟S1314。否則(No)，它使第二數(shù)據(jù)控制部分10c繼續(xù) 所述判斷處理，直到獲取所述信息為止。
在步驟S1314中，數(shù)據(jù)處理單元10使相似性評(píng)估部分10f評(píng)估目標(biāo)講話者的模式模型與選擇的講話者的模式模型之間的相似性。隨后，它進(jìn)入步驟S1316。在相似性評(píng)估之后，校正信息產(chǎn)生部分10h根據(jù)評(píng)估結(jié)果，產(chǎn)生校正信息，用于提高目標(biāo)講話者和特定講話者間語音上的相似性。在步驟S1316中，數(shù)據(jù)處理單元10使第二信息顯示部分10g顯示評(píng)估結(jié)果信息，即關(guān)于評(píng)估結(jié)果的信息。隨后，它進(jìn)入步驟S1318。在步驟S1318中，數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c通過第二數(shù)據(jù)通信部分10a，將評(píng)估結(jié)果信息發(fā)送給適當(dāng)?shù)男畔⑻幚斫K端 9。隨后，它進(jìn)入步驟S1300?，F(xiàn)在參見圖59，說明由信息顯示部分10g執(zhí)行的通過二維投射顯示坐標(biāo)信息的顯示處理的流程。圖59是表示由信息顯示部分10g執(zhí)行的通過二維投射顯示坐標(biāo)信息的處理的流程圖。如圖59中所示，首先在步驟S1400中，第二信息顯示部分10g 判斷位置計(jì)算部分10d是否計(jì)算了數(shù)學(xué)距離。如果發(fā)現(xiàn)數(shù)學(xué)距離已被計(jì)算(Yes)，那么第二信息顯示部分10g進(jìn)入步驟S1402。否則(No), 它等到數(shù)學(xué)距離被計(jì)算為止。在步驟S1402中，第二信息顯示部分10g利用Sammon方法(一種已知方法)，二維投射目標(biāo)講話者的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后，它進(jìn)入步驟S1404。在步驟S1404中，第二信息顯示部分10g根據(jù)數(shù)學(xué)距離(現(xiàn)在它是由二維投射產(chǎn)生的二維信息)，將關(guān)于模式模型的坐標(biāo)信息顯示成平面上的點(diǎn)。隨后，它結(jié)束處理。這樣，在數(shù)據(jù)處理單元10中，第二數(shù)據(jù)獲取部分10b能夠獲取目標(biāo)講話者的語音數(shù)據(jù)，位置計(jì)算部分10d和數(shù)據(jù)評(píng)估部分3e能夠檢測(cè) 語音上和語音數(shù)據(jù)類似的講話者，第二信息顯示部分10g能夠顯示關(guān) 于檢測(cè)結(jié)果的檢測(cè)結(jié)果信息，以及將目標(biāo)講話者的語音的模式模型與相似講話者或其它講話者的模式模型之間的位置關(guān)系顯示成二維坐標(biāo)。另外，信息處理終端9能夠從數(shù)據(jù)處理單元10獲取檢測(cè)結(jié)果信息，使第一信息顯示部分9d顯示檢測(cè)結(jié)果信息，允許目標(biāo)講話者利用操作部分9e，根據(jù)顯示的檢測(cè)結(jié)果信息，選擇和指定特定的講話者。另外，數(shù)據(jù)處理單元10能夠獲取關(guān)于指定的特定講話者的信息，使相似性評(píng)估部分10f評(píng)估目標(biāo)講話者的模式模型與所選講話者的模式模型之間在語音上的相似性，并使第二信息顯示部分10g顯示關(guān)于評(píng)估結(jié)果的信息。另外，信息處理終端9能夠從數(shù)據(jù)處理單元IO獲取評(píng)估結(jié)果信息，并使第一信息顯示部分9d顯示評(píng)估結(jié)果信息。在圖52中，第一數(shù)據(jù)獲取部分9a、第一數(shù)據(jù)控制部分9b和第一數(shù)據(jù)通信部分9c執(zhí)行的語音數(shù)據(jù)獲取處理和傳輸處理對(duì)應(yīng)于在母案原權(quán)利要求70中限定的語音數(shù)據(jù)發(fā)送裝置；第一數(shù)據(jù)控制部分9b和第一信息顯示部分9d執(zhí)行的顯示檢測(cè)結(jié)果信息和評(píng)估結(jié)果信息的顯示處理對(duì)應(yīng)于在母案原權(quán)利要求70中限定的信息顯示裝置；經(jīng)由操作部分9e選擇特定講話者的處理對(duì)應(yīng)于在母案原權(quán)利要求59中限定的特定講話者指定裝置。在圖53中，第二數(shù)據(jù)通信部分10a和第二數(shù)據(jù)獲取部分10b執(zhí)行的語音數(shù)據(jù)獲取處理對(duì)應(yīng)于在母案原權(quán)利要求57、 63和64任意之一中限定的語音數(shù)據(jù)獲取裝置；位置計(jì)算部分10d對(duì)應(yīng)于在母案原權(quán)利要求57、 63和64任意之一中限定的位置計(jì)算裝置；相似講話者檢測(cè) 部分10e對(duì)應(yīng)于在母案原權(quán)利要求57、 61和62任意之一中限定的相似講話者檢測(cè)裝置；相似性評(píng)估裝置10f對(duì)應(yīng)于在母案原權(quán)利要求58、 60、 61、 62、 66和67任意之一中限定的相似性評(píng)估裝置；第二信息顯示部分10g對(duì)應(yīng)于在母案原權(quán)利要求57中限定的檢測(cè)結(jié)果顯示裝置，在母案原權(quán)利要求58中限定的評(píng)估結(jié)果顯示裝置，和在母案原權(quán) 利要求57、 58、 60和65任意之一中限定的位置關(guān)系信息顯示裝置；校正信息產(chǎn)生部分10h對(duì)應(yīng)于在母案原權(quán)利要求60中限定的校正信息產(chǎn)生裝置。順便提及，盡管在上面的實(shí)施例中，信息處理終端9通過因特網(wǎng) 與數(shù)據(jù)處理單元10連接，不過這不是限制性的。目標(biāo)講話者的語音可被直接輸入數(shù)據(jù)處理單元10。這將使得易于適應(yīng)要求高響應(yīng)速度的處理，比如實(shí)時(shí)地顯示輸入的目標(biāo)講話者的語音與特定講話者的語音之間的相似性的評(píng)估結(jié)果的處理。工業(yè)應(yīng)用性如上所述，在母案原權(quán)利要求l-7任意之一中限定的數(shù)據(jù)處理單元將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模式模型的低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)，同時(shí)根據(jù)低維元素的值，保持距離關(guān)系。這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另外，由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型，因此能夠更容易地進(jìn)行群集和各種其它處理。母案原權(quán)利要求8或9中限定的數(shù)據(jù)處理單元自動(dòng)將由對(duì)應(yīng)于模式模型的低維向量顯示裝置在低維空間中顯示的對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)分成低維空間中的多個(gè)區(qū)域。從而，能夠容易地劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，使得易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。母案原權(quán)利要求10中限定的數(shù)據(jù)處理單元能夠改變區(qū)域劃分裝置自動(dòng)產(chǎn)生的劃分結(jié)果。從而，如果劃分結(jié)果不適當(dāng)，或者增加了新的才莫式才莫型，那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。母案原權(quán)利要求11中限定的數(shù)據(jù)處理單元根據(jù)和低維向量對(duì)應(yīng) 的關(guān)于對(duì)象的預(yù)定數(shù)據(jù)，產(chǎn)生特定的模式模型，所述低維向量對(duì)應(yīng)于為每個(gè)分段區(qū)域選擇的模式模型。從而，通過利用對(duì)應(yīng)于低維向量的關(guān)于對(duì)象的預(yù)定數(shù)據(jù)來產(chǎn)生模式模型，能夠?yàn)橹付▽?duì)象產(chǎn)生恰當(dāng)?shù)哪?式模型，所述低維向量對(duì)應(yīng)于包含關(guān)于特定對(duì)象的模式模型的分段區(qū) 域中的模式模型。另外，由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模式模型，因此能夠降低維式模型的存儲(chǔ)器需求。母案原權(quán)利要求12中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元，從而其效果的描迷將被省略，以避免不必要的重復(fù)。母案原權(quán)利要求13中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求11所述的數(shù)據(jù)處理單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。母案原權(quán)利要求15中限定的模式模型搜索單元控制程序用于控制按照母案原權(quán)利要求14所述的模式模型搜索單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。母案原權(quán)利要求16中限定的數(shù)據(jù)處理單元使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另外，由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型，因此能夠更容易地進(jìn)行群集和各種其它處理。此外，由于預(yù)定數(shù)據(jù)的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離，因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán)，那么通過考慮到所有預(yù)定數(shù)據(jù)，能夠定義模式模型間的距離，從而更準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。除了母案原權(quán)利要求16的效果之外，在母案原權(quán)利要求17中限定的數(shù)據(jù)處理單元提供下述效果由于在數(shù)學(xué)距離的計(jì)算中，使用其識(shí)別性能低于預(yù)定閾值的模式單元的出現(xiàn)頻率，因此可在低維層次以準(zhǔn)確的距離關(guān)系，顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能的對(duì)象的模式模型。母案原權(quán)利要求18中限定的數(shù)據(jù)處理單元使得易于直觀地掌握模式模型之間的距離關(guān)系(相似性)。另外，由于能夠容易地劃分對(duì) 應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)，因此易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。此外，能夠根據(jù)各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性，搜索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。除了母案原權(quán)利要求18的效果之外，在母案原權(quán)利要求19中限定的數(shù)據(jù)處理單元提供下述效果由于語音數(shù)據(jù)的出現(xiàn)頻率被用于計(jì) 算數(shù)學(xué)距離，因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán)，那么通過考慮到模式模型上的所有預(yù)定數(shù)據(jù)，能夠定義模式模型間的距離，從而更準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。除了母案原權(quán)利要求19的效果之外，在母案原權(quán)利要求20中限定的數(shù)據(jù)處理單元提供下述效果由于在數(shù)學(xué)距離的計(jì)算中，使用其識(shí)別性能低于預(yù)定閣值的模式單元的出現(xiàn)頻率，因此可在低維層次以準(zhǔn)確的距離關(guān)系，顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能的對(duì)象的模式模型。除了母案原權(quán)利要求18-20任意之一的效果之外，在母案原權(quán)利要求21中限定的數(shù)據(jù)處理單元提供下述效果由同心外圓和內(nèi)圓形成的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。除了母案原權(quán)利要求21的效果之外，在母案原權(quán)利要求22中限定的數(shù)據(jù)處理單元提供下述效果當(dāng)模式模型二維可視時(shí)，由于隨著離中心的徑向距離的增大，模式模型的識(shí)別性能(與其它模型的相似性)會(huì)降低，因此通過細(xì)微地劃分包含具有低識(shí)別性能的模式模型的區(qū)域，能夠更準(zhǔn)確地對(duì)數(shù)據(jù)分組。除了母案原權(quán)利要求21或22的效果之外，在母案原權(quán)利要求23 中限定的數(shù)據(jù)處理單元提供下述效果能夠容易地處理當(dāng)產(chǎn)生指定對(duì) 象的模式模型時(shí)，關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)位于分段區(qū)域間的邊界上的情況。除了母案原權(quán)利要求21-23任意之一的效果之外，在母案原權(quán)利要求24中限定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圓，計(jì)算關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的區(qū)域模式模型的似然性，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。除了母案原權(quán)利要求24的效果之外，在母案原權(quán)利要求25中限定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圓，搜索包含具有最高似然性(識(shí)別性能)的區(qū)域模式模型的分段區(qū)域，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū) 域的區(qū)域模式模型。除了母案原權(quán)利要求24的效果之外，在母案原權(quán)利要求26中限定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開始，并移向最外側(cè)圓，搜索包含具有前m個(gè)似然性的區(qū)域模式模型的分段區(qū)域，因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。除了母案原權(quán)利要求18-26任意之一的效果之外，在母案原權(quán)利要求27中限定的數(shù)據(jù)處理單元提供下迷效果能夠至少考慮到講話者的類型，包括講話者的姓名、性別(男/女)、年齡(兒童/成人/老人)；口語語匯，比如數(shù)字、句子和單詞；說話風(fēng)格，比如語速、講話的音量、和方言特征；和說話環(huán)境，比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境 (位置分類)，產(chǎn)生語音數(shù)據(jù)的模式模型。除了母案原權(quán)利要求18-27任意之一的效果之外，在母案原權(quán)利要求28中限定的數(shù)據(jù)處理單元提供下迷效果例如，如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)，那么可按照特定條件的所需組合，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)快速(說話風(fēng)格)說出的單詞(口語語匯)，形成一組預(yù)定數(shù)據(jù)。當(dāng)然，數(shù)據(jù)可按照更寬的條件，比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)說話來分組。在母案原權(quán)利要求30中限定的數(shù)據(jù)處理單元使得能夠計(jì)算模式模型之間更適當(dāng)?shù)臄?shù)學(xué)距離。除了母案原權(quán)利要求18-30任意之一的效果之外，在母案原權(quán)利要求31中限定的數(shù)據(jù)處理單元提供下述效果能夠?qū)⒛Ｊ侥Ｐ娃D(zhuǎn)換成對(duì)應(yīng)于模式模型的相同數(shù)量的低維向量，同時(shí)保持模式模型間的距離關(guān)系。除了母案原權(quán)利要求18-31任意之一的效果之外，在母案原權(quán)利要求32中限定的數(shù)據(jù)處理單元提供下述效果如果劃分結(jié)果不適當(dāng)，或者增加了新的模式模型，那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外，由于模式模型的直觀劃分結(jié)杲被改變，因此能夠容易地改變劃分的結(jié)果。除了母案原權(quán)利要求18-32任意之一的效果之外，在母案原權(quán)利要求33中限定的數(shù)據(jù)處理單元提供下迷效果由于可使特定分段區(qū)域中的區(qū)域模式模型適合于所述新對(duì)象，因此能夠降低維式模型的存儲(chǔ) 器需求。除了母案原權(quán)利要求33的效果之外，在母案原權(quán)利要求34中限定的數(shù)據(jù)處理單元提供下迷效杲由于對(duì)應(yīng)于多個(gè)低維向量的高維模式模型被再次轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量，所述多個(gè)低維向量與包含在對(duì)應(yīng)于模式模型搜索裝置找到的區(qū)域模式模型的區(qū)域中的模式模型對(duì)應(yīng)，隨后通過關(guān)于適合于新對(duì)象的區(qū)域模式模型搜索分段區(qū) 域，轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的低維向量被劃分，因此能夠產(chǎn)生更適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的特定模式模型。在母案原權(quán)利要求35中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元，從而其效果將被省略，以避免不必要的重復(fù)。在母案原權(quán)利要求36中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求18所述的數(shù)據(jù)處理單元，從而其效果將被省略，以避免不必要的重復(fù)。在母案原權(quán)利要求37中限定的特定模式模型提供系統(tǒng)允許系統(tǒng) 用戶通過因特網(wǎng)等，使諸如PC、蜂窩電話機(jī)或PDA之類的信息處理終端與數(shù)據(jù)處理單元連接，將他/她的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元，從而容易地獲取適合于他/她的語音數(shù)據(jù)的語音識(shí)別的特定模式模型。在母案原權(quán)利要求38中限定的數(shù)據(jù)處理單元根據(jù)聲學(xué)空間中，目標(biāo)講話者的語音數(shù)據(jù)與其它模式模型之間的位置關(guān)系，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值，顯示評(píng)估結(jié)果以及顯示語音數(shù)據(jù)和其它模式模型之間的位置關(guān)系。這使得能夠直觀地確定目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù) 是否具有較高的值，并且使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù) 在聲學(xué)空間中的位置。除了母案原權(quán)利要求38的效果之外，在母案原權(quán)利要求39中限定的數(shù)據(jù)處理單元提供下述效果由于根據(jù)存在于離講話者的語音數(shù) 據(jù)在聲學(xué)空間中的位置預(yù)定距離內(nèi)的模式模型的數(shù)量，評(píng)估語音數(shù)據(jù) 的值，因此如果在目標(biāo)講話者的語音數(shù)據(jù)周圍，不存在其它講話者的許多模式模型，那么能夠確定語音數(shù)據(jù)的值較高，如果在該語音數(shù)據(jù) 的周圍，存在許多模式模型，那么能夠確定該語音數(shù)據(jù)的值較低。除了母案原權(quán)利要求38或39的效果之外，在母案原權(quán)利要求40 中限定的數(shù)據(jù)處理單元提供下述效果由于預(yù)定距離被按照語音數(shù)據(jù) 的值步進(jìn)設(shè)置，因此能夠根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模式模型的數(shù)量，評(píng)估語音數(shù)據(jù)的值。這使得能夠按照每個(gè)距離范圍中模式模型的數(shù)量，步進(jìn)地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。式模型用于評(píng)估，隨后使用相似模式模型的位置作為目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)在聲學(xué)空間中的位置，而不是產(chǎn)生目標(biāo)講話者產(chǎn)生的語聲的模式模型，因此，能夠減少計(jì)算工作量，并且使用適合于實(shí)時(shí)處理等的配置。除了母案原權(quán)利要求41的效果之外，在母案原權(quán)利要求42中限定的數(shù)據(jù)處理單元提供下述效果由于特征與目標(biāo)講話者的語音數(shù)據(jù) 類似的前幾個(gè)模式模型被用作目標(biāo)講話者的模式模型，用于所述評(píng)估，因此，與當(dāng)選擇單一模式模型時(shí)相比，通過選擇按相似性降序排列的前幾個(gè)模式模型，并將這些模式模型的平均值用于評(píng)估，能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。除了母案原權(quán)利要求41或42的效果之外，在母案原權(quán)利要求43 中限定的數(shù)據(jù)處理單元提供下述效果數(shù)據(jù)處理單元通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然性，確定相似性，使得易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。除了母案原權(quán)利要求38-40任意之一的效果之外，在母案原權(quán)利要求44中限定的數(shù)據(jù)處理單元提供下述效果數(shù)據(jù)處理單元將語音數(shù) 據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，根據(jù)特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型，計(jì)算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并根據(jù)計(jì)算的數(shù)學(xué)距離計(jì)算獲取的語音數(shù)據(jù) 在聲學(xué)空間中的位置，使得能夠更準(zhǔn)確地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。除了母案原權(quán)利要求43或44的效果之外，在母案原權(quán)利要求45 中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元將包括對(duì)應(yīng) 于目標(biāo)講話者的語音數(shù)據(jù)的多個(gè)模式模型的聲學(xué)空間中的多個(gè)模式模型轉(zhuǎn)換成低維模式模型，同時(shí)保持位置關(guān)系，并將轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)，因此易于直觀地了解語音數(shù)據(jù)在聲學(xué)空間中的位置。除了母案原權(quán)利要求38-45任意之一的效果之外，在母案原權(quán)利要求46中限定的數(shù)據(jù)處理單元提供下述效果由于利用HMM (隱含馬爾可夫模型)，一種已知技術(shù)來產(chǎn)生模式模型，因此能夠恰當(dāng)?shù)啬?擬語音數(shù)據(jù)。除了母案原權(quán)利要求38-46任意之一的效果之外，在母案原權(quán)利要求47中限定的數(shù)據(jù)處理單元提供下述效果由于逐個(gè)音位地，而不是逐字地或者逐句地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)，并且評(píng)估結(jié)果被逐個(gè)音位地顯示，因此易于確定每個(gè)音位的值。除了母案原權(quán)利要求38-47任意之一的效果之外，在母案原權(quán)利要求48中限定的數(shù)據(jù)處理單元提供下述效果通過顯示提示諸如發(fā)音方式、語速或者需要被評(píng)估的(或者獲取)的其它語音數(shù)據(jù)之類的信息的補(bǔ)充信息，能夠獲取和評(píng)估同一目標(biāo)講話者的各種語音數(shù)據(jù)。除了母案原權(quán)利要求38-48任意之一的效果之外，在母案原權(quán)利要求49中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供，并且存儲(chǔ)成功完成協(xié)商的語音數(shù)據(jù)，因此能夠與目標(biāo)講話者協(xié)商由目標(biāo)講話者產(chǎn)生，并且被評(píng)估為例如具有較高值的任意語音數(shù)據(jù)的獲取。在母案原權(quán)利要求50中限定的數(shù)據(jù)處理單元提供下述效果通過借助因特網(wǎng)等使信息處理終端與數(shù)據(jù)處理單元連接，能夠通過因特網(wǎng) 評(píng)估許多目標(biāo)講話者的語音數(shù)據(jù)，使得易于獲取值較高的語音數(shù)據(jù)。在母案原權(quán)利要求51中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利要求38-50任意之一所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，從而其效果的描述將被省略，以避免不必要的重復(fù)。在母案原權(quán)利要求52中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求39所述的數(shù)據(jù)處理單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。在母案原權(quán)利要求53中限定的數(shù)據(jù)處理單元提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)中的數(shù)據(jù)處理單元相同的效果，從而其描述將被省略，以避免不必要的重復(fù)。在母案原權(quán)利要求54中限定的信息處理終端提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)中的信息處理終端相同的效果，從而其描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求55中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求56中限定的信息處理終端控制程序用于控制按照母案原權(quán)利要求54所述的信息處理終端，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求57中限定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解多個(gè)講話者中的哪一個(gè)在語音方面與目標(biāo)講話者類似。
除了母案原權(quán)利要求57的效果之外，在母案原權(quán)利要求58中限定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音上的相似性，以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
在母案原權(quán)利要求59中限定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音上的相似性，以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
除了母案原權(quán)利要求58或59的效果之外，在母案原權(quán)利要求60 中限定的數(shù)據(jù)處理單元提供下述效果目標(biāo)講話者能夠通過查看校正信息，糾正他/她的說話方式。
除了母案原權(quán)利要求57或58的效果之外，在母案原權(quán)利要求61 中限定的數(shù)據(jù)處理單元提供下述效果由于相似講話者檢測(cè)裝置和相似性評(píng)估裝置都將相似的模式模型的位置用作目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)在聲學(xué)空間中的位置，而不是產(chǎn)生由目標(biāo)講話者產(chǎn)生的語聲的模式模型，因此能夠進(jìn)一步降低計(jì)算工作量，從而，本發(fā)明適合于實(shí)時(shí) 處理等。
除了母案原權(quán)利要求57或58的效果之外，在母案原權(quán)利要求62 中限定的數(shù)據(jù)處理單元提供下述效果與當(dāng)選擇單一模式模型時(shí)相比，通過選擇按相似性降序排列的前幾個(gè)模式模型，并將這些模式模型的平均值用于檢測(cè)處理，評(píng)估處理等，能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。
除了母案原權(quán)利要求61或62的效果之外，在母案原權(quán)利要求63中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然性，確定相似性，因此易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。
除了母案原權(quán)利要求57-60任意之一的效果之外，在母案原權(quán)利要求64中限定的數(shù)據(jù)處理單元提供下述效果能夠直接對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理或者評(píng)估處理。
除了母案原權(quán)利要求63或64的效果之外，在母案原權(quán)利要求65 中限定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解語音數(shù)據(jù)在聲學(xué)空間中的位置。
除了母案原權(quán)利要求58-65任意之一的效果之外，在母案原權(quán)利要求66中限定的數(shù)據(jù)處理單元提供下述效果由于目標(biāo)講話者的語音數(shù)據(jù)的值被逐個(gè)音位地評(píng)估，而不是被逐字或逐句地評(píng)估，并且評(píng)估結(jié)果被逐個(gè)音位地顯示。因此易于逐個(gè)音位地了解相似性評(píng)估結(jié)果。
除了母案原權(quán)利要求58-66任意之一的效果之外，在母案原權(quán)利要求67中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元評(píng)估目標(biāo)講話者說出的語音與特定講話者以各種說話風(fēng)格，例如大聲、低聲、快速和慢速說出的語音的相似性，因此目標(biāo)講話者能夠以適合他/ 她的說話風(fēng)格模仿特定講話者說出的語音。
除了母案原權(quán)利要求58-67任意之一的效果之外，在母案原權(quán)利要求68中限定的數(shù)據(jù)處理單元提供下述效果通過按照語速，聲高等確定低維空間的軸，能夠容易地掌握目標(biāo)講話者的語音數(shù)據(jù)的特征，以及他/她周圍的講話者或者特定講話者的語音數(shù)據(jù)的特征。
除了母案原權(quán)利要求57-68任意之一的效果之外，在母案原權(quán)利要求69中限定的數(shù)據(jù)處理單元提供下述效果由于利用HMM，一種已知技術(shù)來產(chǎn)生模式模型，因此能夠吸收獲取的語音數(shù)據(jù)的波形的波動(dòng)。
按照母案原權(quán)利要求70所述的數(shù)據(jù)處理單元提供下述效果等如果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接，那么能夠通過因特網(wǎng)對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理、評(píng)估處理等，使得目標(biāo) 講話者易于在家里或者類似場(chǎng)所對(duì)他/她的語音進(jìn)行檢測(cè)處理或者評(píng)估處理。
在母案原權(quán)利要求71中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利要求57所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求72中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求73中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元實(shí)現(xiàn)，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求74中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。
在母案原權(quán)利要求75中限定的數(shù)據(jù)處理單元控制程序用于控制按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元，從而其效果的描述將被省略，以避免不必要的重復(fù)。
權(quán)利要求
1、一種數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算裝置，用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的目標(biāo)講話者的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算所述目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；語音數(shù)據(jù)評(píng)估裝置，用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置，評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù)的值；評(píng)估結(jié)果顯示裝置，用于顯示由所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果；和位置關(guān)系信息顯示裝置，用于根據(jù)所述計(jì)算的位置，顯示關(guān)于所述聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。
2、按照權(quán)利要求1所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)這樣的模式模型的數(shù)量而評(píng)估語音數(shù)據(jù)的值，即所述模式模型存在于與所述位置計(jì)算裝置計(jì)算的目標(biāo)講話者的語音數(shù)據(jù)的位置相距預(yù)定距離之內(nèi)。
3、按照權(quán)利要求2所述的數(shù)據(jù)處理單元，其中所述預(yù)定距離被步進(jìn)地設(shè)置；和所述語音數(shù)據(jù)評(píng)估裝置根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模式模型的數(shù)量，評(píng)估語音數(shù)據(jù)的值。
4、按照權(quán)利要求1-3中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)所述位置計(jì)算裝置計(jì)算的位置，將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的模式模型以便評(píng)估。
5、按照權(quán)利要求4所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè) 模式模型，用作目標(biāo)講話者的模式模型，以便進(jìn)行所述評(píng)估。
6、按照權(quán)利要求4或5所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，計(jì)算所述高維特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè)之間的匹配似然性，根據(jù)所述計(jì)算的似然性，從多個(gè)講話者的多個(gè)模式模型中選擇特定的模式模型，計(jì)算所述選擇的特定模式模型與其它模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
7、按照權(quán)利要求1-3中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，根據(jù)所述特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型，計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的多氽模式模型之間的數(shù)學(xué)距離.，并具根據(jù) 所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
8、按照權(quán)利要求6或7所述的數(shù)據(jù)處理單元，其中所述模式模型由4維或者更高維的元素組成；和所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn)換成低維模式模型，即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相對(duì)應(yīng)的多個(gè)模式模型，同時(shí)保持所述距離關(guān)系，并將所述轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
9、按照權(quán)利要求1-8中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。
10、按照權(quán)利要求1-9中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述語音數(shù)據(jù)評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；和所述評(píng)估結(jié)果顯示裝置逐個(gè)音素地顯示目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果。
11、按照權(quán)利要求1-10中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中當(dāng)所述語音數(shù)據(jù)評(píng)估裝置將目標(biāo)講話者的語音數(shù)據(jù)評(píng)估為具有較低的值時(shí)，所述評(píng)估結(jié)果顯示裝置顯示語音數(shù)據(jù)的補(bǔ)充信息。
12、按照權(quán)利要求1-11中任一項(xiàng)所述的數(shù)據(jù)處理單元，包括協(xié)商裝置，用于與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否能夠被提供；和語音數(shù)據(jù)存儲(chǔ)裝置，用于存儲(chǔ)被所述協(xié)商裝置成功完成的協(xié)商的語音數(shù)據(jù)。
13、一種數(shù)據(jù)處理系統(tǒng)，包括受到艮標(biāo)講話者控制的信息處理絳端；和按照權(quán)利要求1-12中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連，所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元，和評(píng)估信息顯示裝置，用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息，所述數(shù)據(jù)處理單元包括評(píng)估信息發(fā)送裝置，用于將關(guān)于所述評(píng)估結(jié)果的信息發(fā)送給所述信息處理終端。
14、一種數(shù)據(jù)處理方法，包括下述步驟存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；獲取目標(biāo)講話者的語音數(shù)據(jù)；根據(jù)在所述獲取步驟獲取的目標(biāo)講話者的語音數(shù)據(jù)、以及所述存儲(chǔ)步驟存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算所述目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；根據(jù)所述計(jì)算步驟計(jì)算的位置，評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù) 的值；顯示由所述評(píng)估步驟產(chǎn)生的評(píng)估結(jié)果；和根據(jù)所述計(jì)算的位置，顯示關(guān)于所述聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。
15、一種數(shù)據(jù)處理單元控制方法，用于控制按照權(quán)利要求1所述的數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算步驟，用于根據(jù)在所述語音教據(jù)獲取步驟中獲取的語貴數(shù)據(jù)、以及在所述聲學(xué)空間存儲(chǔ)步驟中存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；語音數(shù)據(jù)評(píng)估步驟，用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；和評(píng)估結(jié)果顯示步驟，用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的評(píng)估結(jié)果。
16、一種適用于按照權(quán)利要求13所述的數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算裝置，用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；語音數(shù)據(jù)評(píng)估裝置，用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置，評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的值；評(píng)估結(jié)果顯示裝置，用于顯示所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果；位置關(guān)系信息顯示裝置，用于根據(jù)所述計(jì)算的位置，顯示關(guān)于所述聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息；和評(píng)估信息發(fā)送裝置，用于將關(guān)于所述評(píng)估結(jié)果的信息發(fā)送給所述信息處理終端。
17、一種適用于按照權(quán)利要求13所述的數(shù)據(jù)處理系統(tǒng)的信息處理終端，包括語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并且將所述獲取的語音數(shù)據(jù)發(fā)送給^t述數(shù)據(jù)處理單元；| 評(píng)估信息顯示裝置，用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果的信息。
18、一種數(shù)據(jù)處理單元控制方法，用于控制按照權(quán)利要求16所述的數(shù)據(jù)處理單元，其中所述數(shù)據(jù)處理單元包括由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間，所述方法包括語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；扭皇計(jì)算步驟，用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；語音數(shù)據(jù)評(píng)估步驟，用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置，評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值；評(píng)估結(jié)果顯示步驟，用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的評(píng)估結(jié)果；位置關(guān)系信息顯示步驟，用于根據(jù)所述計(jì)算的位置，顯示關(guān)于聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息；和評(píng)估信息發(fā)送步驟，用于將關(guān)于評(píng)估結(jié)果的信息發(fā)送給所述信息處理終端。
19、一種信息處理終端控制方法，用于控制按照權(quán)利要求17所述的信息處理終端，包括語音數(shù)據(jù)發(fā)送步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元；和評(píng)估信息顯示步驟，用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果的信息。
20、一種數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算裝置，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；相似講話者檢測(cè)裝置，用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模位置關(guān)系信息顯示裝置，用;根據(jù)語音數(shù)據(jù)的位置和相似講話者的模式模S，"顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講話者的模式模型之間的位置關(guān)系的信息。
21、按照權(quán)利要求20所述的數(shù)據(jù)處理單元，包括特定講話者指定裝置，用于指定所述多個(gè)講話者中的特定講話者；相似性評(píng)估裝置，用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性；和評(píng)估結(jié)果顯示裝置，用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果，其中所述位置關(guān)系信息顯示裝置根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。
22、一種數(shù)據(jù)處理單元，包括聲學(xué)空間存儲(chǔ)裝置，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；特定講話者指定裝置，用于指定多個(gè)講話者中的特定講話者；語音數(shù)據(jù)獲取裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)； -位置外算裝置，用于根據(jù)貝標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置；相似性評(píng)估裝置，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性；評(píng)估結(jié)果顯示裝置，用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果；和位置關(guān)系信息顯示裝置，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間的位置關(guān)系的信息。
23、按照權(quán)利要求21或22所述的數(shù)據(jù)處理單元，包括校正信息產(chǎn)生裝置，用于根據(jù)所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果，產(chǎn)生校正信息，所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正，以便提高目標(biāo)講話者與特定講話者之間語音上的相似性；和校正信息顯示裝置，用于顯示所述校正信息。
24、按照權(quán)利要求22所述的數(shù)據(jù)處理單元，其中根據(jù)語音數(shù)據(jù)的位置，所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征上與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的模式模型；和根據(jù)語音數(shù)據(jù)的位置，所述相似性評(píng)估裝置將多個(gè)模式模型中的特征上與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型，用作目標(biāo)講話者的模式模型。
25、按照權(quán)利要求22所述的數(shù)據(jù)處理單元，其中根據(jù)語音數(shù)據(jù)的位置，所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型，用作目標(biāo) 講話者的模式模型；和根據(jù)語音數(shù)據(jù)的位置，所述相似性評(píng)估裝置將多個(gè)模式模型中的特征與ft標(biāo)講話者的語音數(shù)據(jù)類似的前幾介模式模型，用作瑪標(biāo)講話者的模式模型。
26、按照權(quán)利要求24或25所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù) 據(jù)，計(jì)算所述高維特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè) 之間的似然性，根據(jù)所述計(jì)算的似然性，從多個(gè)講話者的模式模型中選擇特定的模式模型，計(jì)算所述選擇的特定模式模型和其它模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
27、按照權(quán)利要求20-23中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù)，根據(jù)所述特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型，計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離，并且根據(jù)所述計(jì)算的數(shù)學(xué)距離，計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
28、按照權(quán)利要求26或27所述的數(shù)據(jù)處理單元，其中所述模式模型由4維或更高維的元素組成；和所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型，即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相對(duì)應(yīng)的多個(gè)模式模型，同時(shí)保持所述距離關(guān)系，并將所述轉(zhuǎn)換后的模式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
29、按照權(quán)利要求21-28中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述相似性評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的相似性。
30、按照權(quán)利要求21-29中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中的多個(gè)模式模型構(gòu)成；和所述相似性評(píng)估裝置評(píng)估所述多種說話風(fēng)格中的每一種中的相似性。
31、按照權(quán)利要求30所述的數(shù)據(jù)處理單元，其中所述位置關(guān)系信息顯示裝置根據(jù)多個(gè)模式模型的說話風(fēng)格，建立低維空間的坐標(biāo)軸。
32、按照權(quán)利要求20-31中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。
33、一種數(shù)據(jù)處理系統(tǒng)，包含受到目標(biāo)講話者控制的信息處理終端；和按照權(quán)利要求20-32中任一項(xiàng)所述的數(shù)據(jù)處理單元，其中所述信息處理終端和所述數(shù)據(jù)處理單元可通信地相互連接，所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置，用于獲取目標(biāo)講話者的語音數(shù)據(jù)，并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元，和信息顯示裝置，用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的語音數(shù)據(jù)的處理結(jié)果的信息，和所述數(shù)據(jù)處理單元包括信息發(fā)送裝置，用于將關(guān)于語音數(shù)據(jù)的處理結(jié)果的信息發(fā)送給所述信息處理終端。
34、一種數(shù)據(jù)處理方法，包括下述步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；獲取目標(biāo)講話者的語音數(shù)據(jù)；根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型^檢測(cè)炎個(gè)講話者中的語音上類似于目標(biāo)講話者的相似講話者；和根據(jù)語音數(shù)據(jù)的位置以及相似講話者的模式模型，顯示關(guān)于聲學(xué) 空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位置關(guān)系的信息。
35、按照權(quán)利要求34所述的數(shù)據(jù)處理方法，包括下述步驟指定多個(gè)講話者中的特定講話者；根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng) 估特定講話者和目標(biāo)講話者之間語音上的相似性；和顯示評(píng)估結(jié)果。
36、一種數(shù)據(jù)處理方法，包括下述步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；指定多個(gè)講話者中的特定講話者；獲取目標(biāo)講話者的語音數(shù)據(jù)；根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)的位置；根據(jù)語音數(shù)據(jù)的位置以及特定講話者的模式模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性；顯示評(píng)估結(jié)果；和根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的信息。
37、一種數(shù)據(jù)處理單元控制方法，包括聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；語音數(shù)據(jù)獲取步驟^用于獲^^目標(biāo)講話者的語音數(shù)振；位置計(jì)算步驟，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置；相似講話者檢測(cè)步驟，用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型，檢測(cè)多個(gè)講話者中的語音上類似于目標(biāo)講話者的相似講話者；位置關(guān)系信息顯示步驟，用于根據(jù)語音數(shù)據(jù)的位置以及相似講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位置關(guān)系的信息；講話者指定步驟，用于指定特定的講話者；相似性評(píng)估步驟，用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性；評(píng)估結(jié)果顯示步驟，用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié) 果，其中所述位置關(guān)系信息顯示步驟根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的信息。
38、一種數(shù)據(jù)處理單元控制方法，包括聲學(xué)空間存儲(chǔ)步驟，用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間；特定講話者指定步驟，用于指定多個(gè)講話者中的特定講話者；語音數(shù)據(jù)獲取步驟，用于獲取目標(biāo)講話者的語音數(shù)據(jù)；位置計(jì)算步驟，用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型，計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置；相似性評(píng)估步驟，用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型，評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性；評(píng)估結(jié)果顯示步驟，用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié)果；位置關(guān)系信息顯示步驟，,;用于根據(jù)語音數(shù)據(jù)的位置和特疋講話者的模式模型，顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系的息。
全文摘要
提供一種數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序，所述數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序適合于在諸如講話者的類型，口語語匯，說話風(fēng)格和說話環(huán)境之類的特定條件下，考慮到多樣化的特征參數(shù)的分布，產(chǎn)生非特指講話者的聲學(xué)模型，并且適合于提供供非特指講話者用且適用于特定人員的語音的聲學(xué)模型。數(shù)據(jù)處理單元1包括數(shù)據(jù)分類部分1a，數(shù)據(jù)存儲(chǔ)部分1b，模式模型產(chǎn)生部分1c，數(shù)據(jù)控制部分1d，數(shù)學(xué)距離計(jì)算部分1e，模式模型轉(zhuǎn)換部分1f，模式模型顯示部分1g，區(qū)域劃分部分1h，劃分改變部分1i，區(qū)域選擇部分1j，和特定模式模型產(chǎn)生部分1k。
文檔編號(hào)G10L21/06GK101661754SQ20091016639
公開日2010年3月3日申請(qǐng)日期2004年7月22日優(yōu)先權(quán)日2003年10月3日
發(fā)明者奈木野豪秀, 莊境誠申請(qǐng)人:旭化成株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載