国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序的制作方法

      文檔序號(hào):2832311閱讀:790來源:國知局
      專利名稱:數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及用于關(guān)于非特指對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模式模 型的產(chǎn)生。更具體地說,本發(fā)明涉及適合于在由諸如對(duì)象類型和預(yù)定 數(shù)據(jù)的測(cè)量環(huán)境之類因素的組合構(gòu)成的特定條件下,考慮到多樣化的 特征參數(shù)的分布,產(chǎn)生非特指對(duì)象的模式模型,并且適合于提供供非 特指講話者用的、且適用于關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模 式模型的數(shù)據(jù)處理單元、數(shù)據(jù)處理單元控制程序、模式模型搜索單元、 模式模型搜索單元控制程序和特定模式模型提供系統(tǒng);適合于利用關(guān) 于多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的模式模型,評(píng)估非特指講話者的語音 數(shù)據(jù)的值的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)處理方法和數(shù)據(jù)處理 單元控制程序;以及適合于從多個(gè)講話者中檢測(cè)出在語音上與目標(biāo)講 話者類似的講話者,并且適合于提供為提高目標(biāo)講話者和檢測(cè)到的講 話者之間的語音相似性而需要的信息的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、 數(shù)據(jù)處理方法和數(shù)據(jù)處理單元控制程序。
      背景技術(shù)
      存在一種稱為模式識(shí)別的信息處理技術(shù),它涉及觀察或測(cè)量對(duì)象 的一些性質(zhì),并根據(jù)作為觀察或測(cè)量的結(jié)果而獲取的數(shù)據(jù),識(shí)別對(duì)象 和對(duì)對(duì)象分類。
      一般來說,語音識(shí)別(它是模式識(shí)別的一種)包括聲音分析器, 該聲音分析器將從講話者得到的語音樣本轉(zhuǎn)換成一系列的特征參數(shù),以及語音匹配器,它匹配聲音分析器獲取的 一 系列特征參數(shù)與預(yù)先存 儲(chǔ)在存儲(chǔ)單元,比如存儲(chǔ)器或硬盤中的詞匯表單詞的特征參數(shù)信息, 并選擇具有最高相似性的詞匯表單詞作為識(shí)別結(jié)果。
      已知的將語音樣本轉(zhuǎn)換成一 系列的特征參數(shù)的聲音分析方法包括
      在非專利文獻(xiàn)1中描述的倒頻i普分析和線性預(yù)測(cè)分析。
      在語音識(shí)別中,識(shí)別非特指講話者的語音的技術(shù)一般被稱為非特 定語者語音識(shí)別。由于詞匯表單詞的特征參數(shù)信息被預(yù)先存儲(chǔ)在存儲(chǔ) 單元中,因此不同于特定語者語音識(shí)別,非特定語者語音識(shí)別使用戶 免除記錄希望要被識(shí)別的單詞的任務(wù)。
      就準(zhǔn)備詞匯表單詞的特征參數(shù)信息,并將其與通過轉(zhuǎn)換輸入語音 而獲取的一 系列特征參數(shù)進(jìn)行匹配的方法來說,普遍使用基于隱含馬 爾可夫模型(HMM)的方法。在基于HMM的方法中,利用HMM 模擬語音單元,比如音節(jié)、半音節(jié)、音位、雙音素和三音素。這種語 音單元的模式模型一般被稱為聲學(xué)模型。
      在非專利文獻(xiàn)l中詳細(xì)說明了創(chuàng)建聲學(xué)模型的方法。
      另外,根據(jù)在非專利文獻(xiàn)l的第4章中描述的維特比算法,本領(lǐng) 域的技術(shù)人員能夠容易地構(gòu)成非特定語者語音識(shí)別單元。
      按照慣例,通常根據(jù)性別(男/女)、年齡(兒童/成人/老年人)、 和語音環(huán)境(它取決于噪聲)創(chuàng)建一個(gè)以上的聲學(xué)模型。
      非專利文獻(xiàn)2公開一種利用聲學(xué)模型之間的距離,自動(dòng)使高維聲 學(xué)模型形成群集的方法。群集方法涉及通過指定大量的群集條件,基 于反復(fù)試驗(yàn)地重復(fù)進(jìn)行群集,直到獲取良好的群集結(jié)果為止。
      (非專利文獻(xiàn) 1 ) L.Rabiner 等,"Fundamentals of Speech Recognition", Prentice Hall, Inc., 1993。
      (非專利文獻(xiàn)1 ) T.Kosaka等,"Tree-Structured Speaker Clustering for Fast Speaker Adaptation", Proc.ICASSP, Vol.1 , pp.I-245-248, Adelaide, Australia, 1994。
      但是,如上所述,通常最多根據(jù)性別(男/女)、年齡(兒童/成人 /老年人)以及語音環(huán)境(它取決于噪聲)創(chuàng)建少量的聲學(xué)模型。從而 為了劃分聲學(xué)模型,除了使用基于先驗(yàn)技術(shù)的試探法之外別無選擇。由此,可獲取的識(shí)別率有限。
      就非專利文獻(xiàn)2而論,由于沒有以可視的方式等容易地掌握聲學(xué) 模型間的相互關(guān)系,例如聲學(xué)模型間的相對(duì)距離、或者聲學(xué)模型群的 數(shù)量和大小,因此必須在大量的群集條件下重復(fù)計(jì)算許多次,直到獲 取良好的群集結(jié)果為止。這需要大量的計(jì)算時(shí)間。
      一般來說,為了實(shí)現(xiàn)高精度的語音識(shí)別,由于利用倒頻鐠(上面 說明的)、MFCC (Mel頻標(biāo)倒頻系數(shù))或者其它高維(10~30維) 特征參數(shù)產(chǎn)生聲學(xué)模型,因此難以可視地表現(xiàn)多個(gè)聲學(xué)模型間的相互關(guān)系。
      上述問題不僅適用于聲學(xué)模型,而且適用于圖像識(shí)別和其它領(lǐng)域 中的模式模型。
      鑒于常規(guī)技術(shù)的上述問題做出了本發(fā)明,本發(fā)明的目的是提供適 合于在由各種因素的組合構(gòu)成的特定條件下,考慮到多樣化的特征參 數(shù)的分布,產(chǎn)生非特指對(duì)象的模式模型,并且適合于提供供非特指講 話者用的、且適用于關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的模式模型 的數(shù)據(jù)處理單元、數(shù)據(jù)處理單元控制程序、模式模型搜索單元、模式 模型搜索單元控制程序和特定模式模型提供系統(tǒng);適合于利用關(guān)于多 個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的模式模型,評(píng)估非特指講話者的語音數(shù)據(jù) 的值的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)處理方法和數(shù)據(jù)處理單元 控制程序;以及適合于從多個(gè)講話者中檢測(cè)出在語音上與目標(biāo)講話者 類似的講話者,并且適合于提供為提高目標(biāo)講話者和檢測(cè)到的講話者 之間的語音相似性而需要的信息的數(shù)據(jù)處理單元、數(shù)據(jù)處理系統(tǒng)、數(shù) 據(jù)處理方法和數(shù)據(jù)處理單元控制程序。

      發(fā)明內(nèi)容
      為了實(shí)現(xiàn)上述目的,本發(fā)明的母案原權(quán)利要求1限定了一種數(shù)據(jù) 處理單元,包括
      數(shù)據(jù)分類裝置,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中;
      模式模型產(chǎn)生裝置,用于根據(jù)所述數(shù)據(jù)分類裝置所分類的預(yù)定數(shù) 據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型;數(shù)學(xué)距離計(jì)算裝置,用于計(jì)算相應(yīng)各組的、由所迷模式模型產(chǎn)生
      裝置產(chǎn)生的模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換裝置,用于根據(jù)所迷數(shù)學(xué)距離計(jì)算裝置所計(jì)算的數(shù) 學(xué)距離,將多個(gè)模式模型轉(zhuǎn)換成低維空間中的、與模式模型相對(duì)應(yīng)的 相同數(shù)量的低維向量,同時(shí)保持這些模式模型之間的距離關(guān)系;和
      對(duì)應(yīng)于模式模型的低維向量顯示裝置,用于根據(jù)低維元素的值,
      將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持這些距離關(guān)系。
      就這種結(jié)構(gòu)來說,數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件,將關(guān)于 多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中,才莫式模型產(chǎn)生裝置能夠根 據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或 更高維元素的多個(gè)模式模型,數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的 由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離,模式模型轉(zhuǎn)換裝 置能夠?qū)⒍鄠€(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng)的相同數(shù) 量的低維向量,同時(shí)根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離,保持模
      式模型間的距離關(guān)系,對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù) 低維元素的值,將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模 式模型的低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持距離關(guān) 系。
      這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另夕卜, 由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型, 因此能夠更容易地進(jìn)行群集和各種其它處理。
      就模式模型而論,當(dāng)預(yù)定數(shù)據(jù)是語音數(shù)據(jù)時(shí),通過模擬與語音數(shù) 據(jù)相配的模式,獲取所述模式模型,并且所述模式模型被表述成統(tǒng)計(jì) 模型等。
      預(yù)定數(shù)據(jù)可以是關(guān)于人話音、家庭噪聲、工廠噪聲、交通噪聲等 的聲數(shù)據(jù);野生動(dòng)物,比如野鳥、昆蟲、青蛙、蝙蝠或者其它動(dòng)物的 動(dòng)物聲音數(shù)據(jù);圖像數(shù)據(jù);紅外傳感器數(shù)據(jù),加速度傳感器數(shù)據(jù),方 位傳感器數(shù)據(jù),壓力傳感器數(shù)據(jù),來自壓電元件或者振動(dòng)計(jì)的振動(dòng)傳 感器數(shù)據(jù),或者任何其它傳感器數(shù)據(jù);關(guān)于電池,比如鋰離子蓄電池 或燃料電池的充電狀態(tài)的物理數(shù)據(jù);生物醫(yī)學(xué)信號(hào)數(shù)據(jù),比如心電圖,肌電圖,血壓或體重;基因分析用微陣列(microarray)數(shù)據(jù);氣象數(shù)據(jù),比如溫度、濕度或者氣壓;環(huán)境數(shù)據(jù),比如氧濃度或者氧化氮濃度;經(jīng)濟(jì)趨勢(shì)數(shù)據(jù),比如股票價(jià)格或物價(jià),或者其它時(shí)序數(shù)據(jù);等等。
      如上所述模式模型包含4維或者更高維的元素。這是因?yàn)槔缭谥T如語音識(shí)別之類的模式識(shí)別中,高的識(shí)別性能需要4維或更高維的特征參數(shù),以及因?yàn)椴淮嬖谀軌驅(qū)嶋H獲取有效的識(shí)別性能的已知3維或更低維的特征參數(shù)。
      另外,所述預(yù)定數(shù)據(jù)由例如可從多個(gè)對(duì)象測(cè)得的數(shù)據(jù)本身,從數(shù)據(jù)抽取的特征值,根據(jù)特征值產(chǎn)生的模式模型,和描述它們的文本文件的組合組成。 一個(gè)實(shí)例是關(guān)于多個(gè)講話者發(fā)出的語音的數(shù)據(jù),從語音數(shù)據(jù)抽取的特征值,根據(jù)特征值產(chǎn)生的模式模型,和描述它們的文本文件的組合。
      數(shù)學(xué)距離代表根據(jù)關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)產(chǎn)生的模式模型與多個(gè)對(duì)象的模式模型之間的相似性??纱嬖诟鞣N各樣的數(shù)學(xué)距離,取決于相似性的量度。例如,這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距離,比如歐幾里得距離,或者不能用普通標(biāo)尺測(cè)量的距離,比如Mahalanobis廣義距離,Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距離表示成兩個(gè)向量的內(nèi)積,并將這兩個(gè)向量之間的角度用作相似性的量度。根據(jù)本發(fā)明,其它可能的數(shù)學(xué)距離包括Bhattacharrya距離,平方歐幾里得距離,余弦距離,Pearson相關(guān)性,Chebyshev距離,城市-街區(qū)(city-block)距離(或者M(jìn)anhattan距離),Minkowski和,Kullback信息,和Chernov距離??傊M管稱為距離,根據(jù)本發(fā)明的數(shù)學(xué)距離可以是任何事物,只要它代表相似性。
      上迷模式模型轉(zhuǎn)換裝置將4維或更高維的信息轉(zhuǎn)換成適合于容易地處理,比如利用投射或類似處理的2維、3維或者其它低維信息。例如,按照這樣的方式將所有模式模型投射到低維空間(例如2維或3維空間)中,以致其間具有較小數(shù)學(xué)距離的兩個(gè)模式模型將被安置成相互接近,其間具有較大數(shù)學(xué)距離的兩個(gè)模式模型將被安置成相互遠(yuǎn)離。
      例如,如果歐幾里得距離被用作數(shù)學(xué)距離,那么在模式模型被投射到的低維空間中,相互間具有較小歐幾里得距離的模式模型被認(rèn)為彼此相似。
      將高維模式模型轉(zhuǎn)換成對(duì)應(yīng)于低維模式模型的低維向量,并將結(jié)
      果顯示在低維空間中的已知技術(shù)包括Sammon方法(參見J.W.Sammon, "A nonlinear mapping for data structure analysis",IEEE Trans. Computer, Vol.C-18, No.5, pp.401-409, May 1969),判別分析方法(參見R.A.Fisher,"The use of multiple measurements intaxonomic Problems", Ann.Eugenics, Vol.7, no.PartII, pp.179-188,1936) , Aladjam方法(參見M.Aladjem, "Multiclass discriminantmappings", Signal Process., Vol.35, pp.l-18, 1994),神經(jīng)網(wǎng)絡(luò)技術(shù)(參見J.Mao等,"Artificial neural networks for feature extractionand multivariate data projection", IEEE Trans. Neural Networks,Vol.6, No.2, pp.296-317, 1995 ),基于圖表的技術(shù)(參見Y.Mori等,"Comparison of low-dimensional mapping techniques based ondiscriminatory information" ,Proc. 2nd International ICSCSymposium on Advances in Intelligent Data Analysis ( AIDA'2001 ),CD-ROM Paper No.1724-166, Bangor, United Kingdom, 2001),投射追蹤法(參見J.H.Freidman等,"A projection pursuit algorithmfor exploratory data analysis" , IEEE Trans. Comput., Vol.C-18, No.5,pp.401-409, 1969) , SOM法(參見T.Kohonen, "Self-OrganizingMaps", Springer Series in Information Sciences, Vol.30, Berlin,1995) o
      本發(fā)明的母案原權(quán)利要求2限定了按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元,其中關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是人話音數(shù)據(jù)、環(huán)境噪聲數(shù)據(jù)、動(dòng)物聲音數(shù)據(jù)、圖像數(shù)據(jù)、紅外數(shù)據(jù)和加速度數(shù)據(jù)的其中一個(gè)。
      這樣,數(shù)據(jù)處理單元能夠根據(jù)出自人話音數(shù)據(jù);環(huán)境噪聲數(shù)據(jù),比如家庭噪聲;野生動(dòng)物,比如野鳥、昆蟲、青蛙、蝙蝠或者其它動(dòng)物的動(dòng)物聲音數(shù)據(jù);圖像數(shù)據(jù);紅外傳感器數(shù)據(jù);并且加速度傳感器數(shù)據(jù)的 一種數(shù)據(jù)產(chǎn)生模式模型。
      本發(fā)明的母案原權(quán)利要求3限定了按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元,其中
      關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是關(guān)于由多個(gè)講話者產(chǎn)生的多個(gè)語 聲的數(shù)據(jù);和
      所述多個(gè)特定條件至少包括講話者的類型、口語語匯、說話風(fēng)格 和說話環(huán)境。
      這使得能夠至少考慮到講話者的類型,包括講話者的姓名、性別 (男/女)、年齡(兒童/成人/老人);口語語匯,比如數(shù)字、句子和 單詞;說話風(fēng)格,比如語速、講話的音量和方言特征;以及說話環(huán)境, 比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境(位置分類),產(chǎn)生語音數(shù)據(jù)的 模式模型。
      本發(fā)明的母案原權(quán)利要求4限定了按照母案原權(quán)利要求1-3任意 之一所述的數(shù)據(jù)處理單元,其中按照從所述多個(gè)特定條件中任意選擇 的多個(gè)特定條件的每種組合,所述數(shù)據(jù)分類裝置形成一組預(yù)定數(shù)據(jù)。
      這樣,按照從多個(gè)特定條件中任意選擇的特定條件的每種組合, 數(shù)據(jù)分類裝置能夠形成一組預(yù)定數(shù)據(jù)。
      因此,例如如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù),那么可按照特定條件的 所需組合,比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)快速 (說話風(fēng)格)說出的單詞(口語語匯),形成一組預(yù)定數(shù)據(jù)。當(dāng)然, 數(shù)據(jù)可按照更寬的條件,比如成年男性(講話者的類型)在室內(nèi)(說 話環(huán)境)說話來分組。
      本發(fā)明的母案原權(quán)利要求5限定了按照母案原權(quán)利要求1-4任意 之一所述的數(shù)據(jù)處理單元,其中利用HMM (隱含馬爾可夫模型)產(chǎn) 生模式模型。
      這樣,通過利用HMM (隱舍馬爾可夫模型)產(chǎn)生模式模型。 例如,語音隨語速而在時(shí)間間隔方面發(fā)生變化,并且根據(jù)說話的
      內(nèi)容,在頻域中具有特有的形狀(頻鐠包絡(luò))。該形狀隨特定的條件
      而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)才莫型。
      本發(fā)明的母案原權(quán)利要求6限定了按照母案原權(quán)利要求5所述的
      數(shù)據(jù)處理單元,其中所述數(shù)學(xué)距離計(jì)算裝置利用下述之一計(jì)算數(shù)學(xué)距

      利用HMM產(chǎn)生,并根據(jù)模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離,
      利用HMM產(chǎn)生,并根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一 化的、模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離,和
      利用HMM產(chǎn)生,并根據(jù)模式模型的正態(tài)分布確定的 Bhattacharrya多巨離。
      這樣,通過利用下述之一利用HMM產(chǎn)生,并根據(jù)模式模型的 正態(tài)分布的均值向量確定的歐幾里得距離,利用HMM產(chǎn)生,并根據(jù) 由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一化的模式模型的正態(tài)分布的均 值向量確定的歐幾里得距離,以及利用HMM產(chǎn)生,并根據(jù)模式模型 的正態(tài)分布確定的Bhattacharrya距離,數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算 數(shù)學(xué)距離。
      從而,通過使用任意上述距離,能夠計(jì)算模式模型之間更適當(dāng)?shù)?數(shù)學(xué)距離。
      本發(fā)明的母案原權(quán)利要求7限定了按照母案原權(quán)利要求1-6任意 之一所述的數(shù)據(jù)處理單元,其中所述模式模型轉(zhuǎn)換裝置利用Saimnon 方法,將模式模型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
      這樣,通過利用S證mcm方法,模式模型轉(zhuǎn)換裝置能夠?qū)⒛J侥?型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
      從而,已知的Sammon方法的使用使得能夠?qū)⒛J侥P娃D(zhuǎn)換成對(duì) 應(yīng)于模式模型的相對(duì)數(shù)量的低維向量,同時(shí)保持模式模型間的距離關(guān) 系。
      本發(fā)明的母案原權(quán)利要求8限定了按照母案原權(quán)利要求1-7任意 之一所述的數(shù)據(jù)處理單元,包括區(qū)域劃分裝置,用于自動(dòng)地將對(duì)應(yīng)于 這樣模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn)劃分到低維空間中的多個(gè)區(qū) 域,即所述模式模型由對(duì)應(yīng)于所述模式模型顯示裝置的低維向量顯示 在低維空間中。
      借助這些結(jié)構(gòu),區(qū)域劃分裝置能夠自動(dòng)地將對(duì)應(yīng)于這樣模式模型 的多個(gè)低維向量的坐標(biāo)點(diǎn)劃分到低維空間中的多個(gè)區(qū)域,即所述模式
      模型由對(duì)應(yīng)于所述模式模型顯示裝置的低維向量顯示在低維空間中。
      從而,能夠容易地劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn), 使得易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。本發(fā)明的母案原權(quán)利要求9公開了按照母案原權(quán)利要求8所述的 數(shù)據(jù)處理單元,其中所述區(qū)域劃分裝置借助一個(gè)外圓和n個(gè)內(nèi)圓劃分 對(duì)應(yīng)于模式模型的多個(gè)低維向量,其中n是等于或大于l的整數(shù),并 且
      借助徑向延伸的線條,進(jìn)一步將由同心外圓和內(nèi)圓在它們之間形 成的環(huán)狀區(qū)域分成多個(gè)區(qū)域,其中外圓以對(duì)應(yīng)于模式模型的所有低維 向量的坐標(biāo)點(diǎn)的重心為中心,外圓的半徑等于所述重心與離所述重心 最遠(yuǎn)的、對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)之間的距離,內(nèi)圓以所 述重心為中心,內(nèi)圓的半徑小于外圃的半徑。
      從而,由同心的外圓和內(nèi)圓形成的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。
      本發(fā)明的母案原權(quán)利要求10限定了按照母案原權(quán)利要求8或9 所述的數(shù)據(jù)處理單元,包括劃分改變裝置,用于改變所述區(qū)域劃分裝 置自動(dòng)產(chǎn)生的劃分結(jié)果。
      就這種結(jié)構(gòu)來說,劃分改變裝置能夠改變區(qū)域劃分裝置自動(dòng)產(chǎn)生 的劃分結(jié)果。
      從而,如果劃分結(jié)果不適當(dāng),或者增加了新的模式模型,那么可 適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外,由于模式模型的直觀劃分結(jié)果被改變, 因此能夠容易地改變劃分的結(jié)果。
      本發(fā)明的母案原權(quán)利要求11公開了按照母案原權(quán)利要求8-10任 意之一所述的數(shù)據(jù)處理單元,包含區(qū)域選擇裝置,它能夠選擇所述 區(qū)域劃分裝置產(chǎn)生的每個(gè)區(qū)域的、對(duì)應(yīng)于模式模型的多個(gè)低維向量; 以及
      區(qū)域模式模型產(chǎn)生裝置,用于根據(jù)與對(duì)應(yīng)于這樣的低維向量的模 式模型相關(guān)的預(yù)定數(shù)據(jù),產(chǎn)生才莫式才莫型,即所述低維向量對(duì)應(yīng)于位于 所述區(qū)域選擇裝置選擇的區(qū)域中的模式模型。
      就這種結(jié)構(gòu)來說,區(qū)域選擇裝置能夠選擇區(qū)域劃分裝置產(chǎn)生的每 個(gè)區(qū)域的對(duì)應(yīng)于模式模型的多個(gè)低維向量,區(qū)域模式模型產(chǎn)生裝置能 夠根據(jù)與對(duì)應(yīng)于這樣的低維向量的模式模型相關(guān)的預(yù)定數(shù)據(jù),產(chǎn)生模
      式模型,即所述低維向量對(duì)應(yīng)于位于所述區(qū)域選擇裝置選擇的區(qū)域中 的模式模型。
      22因此,例如通過利用與包含對(duì)應(yīng)于指定對(duì)象的模式模型的低維向 量的區(qū)域?qū)?yīng)的預(yù)定數(shù)據(jù),產(chǎn)生模式模型,能夠?yàn)橹付▽?duì)象產(chǎn)生適當(dāng) 的模式模型。
      另外,由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模式模型,因此 能夠減小模式模型的規(guī)模,和模式模型的存儲(chǔ)器需求。
      本發(fā)明的母案原權(quán)利要求12限定了一種數(shù)據(jù)處理單元控制程序, 它是用于控制按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元的計(jì)算機(jī)可 執(zhí)行程序,包括
      數(shù)據(jù)分類步驟,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中;
      模式模型產(chǎn)生步驟,用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定 數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型;
      數(shù)學(xué)距離計(jì)算步驟,用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生 步驟中產(chǎn)生的多個(gè)模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換步驟,用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的 數(shù)學(xué)距離,將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維 向量,同時(shí)保持模式模型之間的距離關(guān)系;和
      對(duì)應(yīng)于模式模型的低維向量顯示步驟,用于根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持這些距離關(guān)系。
      由于本發(fā)明是控制按照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元的 程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求13限定了按照母案原權(quán)利要求12所述 的數(shù)據(jù)處理單元控制程序,包括
      區(qū)域劃分步驟,用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維 向量,劃分到低維空間中的多個(gè)區(qū)域,即所述模式模型在所述對(duì)應(yīng)于 模式模型的低維向量顯示步驟中被顯示在低維空間中;
      劃分改變步驟,用于改變?cè)谒鰠^(qū)域劃分步驟中自動(dòng)產(chǎn)生的劃分 結(jié)果;
      區(qū)域選擇步驟,它能夠選擇在所述區(qū)域劃分步驟產(chǎn)生的、每個(gè)區(qū) 域的對(duì)應(yīng)于模式模型的多個(gè)低維向量;和區(qū)域模式模型產(chǎn)生步驟,用于根據(jù)與對(duì)應(yīng)于這樣的低維向量的模 式模型相關(guān)的預(yù)定數(shù)據(jù),產(chǎn)生對(duì)應(yīng)于所選擇區(qū)域的模式模型,即所述 低維向量對(duì)應(yīng)于位于所述區(qū)域選擇步驟選擇的區(qū)域中的模式模型。
      由于本發(fā)明是控制按照母案原權(quán)利要求11所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求14限定了一種模式模型搜索單元,包

      區(qū)域劃分裝置,用于自動(dòng)將由按照母案原權(quán)利要求1-7中任意一 個(gè)所述的數(shù)據(jù)處理單元顯示在低維空間中的坐標(biāo)點(diǎn),劃分到低維空間 中的多個(gè)區(qū)域;
      區(qū)域模式模型產(chǎn)生裝置,用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù),產(chǎn)生每個(gè)區(qū)域的模式模型,即所述低維向量對(duì)應(yīng)于包 含在分段區(qū)域中的模式模型;
      預(yù)定數(shù)據(jù)獲取裝置,用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù);和 區(qū)域模式模型搜索裝置,用于計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型 相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)所述計(jì)算的似然性,搜索 具有適合于識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模 型。
      就這種結(jié)構(gòu)來說,區(qū)域劃分裝置能夠自動(dòng)將低維空間中的坐標(biāo)點(diǎn) 分成低維空間中的多個(gè)區(qū)域,區(qū)域模式模型產(chǎn)生裝置能夠根據(jù)與包含 在分段區(qū)域中的對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)對(duì)應(yīng)的預(yù)定數(shù) 據(jù),產(chǎn)生每個(gè)區(qū)域的模式才莫型,預(yù)定數(shù)據(jù)獲取裝置能夠獲取關(guān)于新對(duì) 象的預(yù)定數(shù)據(jù),區(qū)域模式模型搜索裝置能夠計(jì)算各個(gè)分段區(qū)域的區(qū)域 模式模型相對(duì)于獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)計(jì)算的似然性,搜 索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模 型。
      從而,能夠根據(jù)對(duì)應(yīng)于各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于獲取 的關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性,搜索區(qū)域模式模型,尋找適合于 識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式的區(qū)域模式模型。
      本發(fā)明的母案原權(quán)利要求15公開了一種模式模型搜索單元控制 程序,它是用于控制按照母案原權(quán)利要求14所述的模式模型搜索單元的計(jì)算機(jī)可執(zhí)行程序,包括
      區(qū)域劃分步驟,用于自動(dòng)將由按照母案原權(quán)利要求1-7中任意一 個(gè)所述的語音數(shù)據(jù)處理單元顯示在低維空間中的坐標(biāo)點(diǎn),劃分到低維 空間中的多個(gè)區(qū)域;
      區(qū)域模式模型產(chǎn)生步驟,用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù),產(chǎn)生每個(gè)區(qū)域的模式模型,即所述低維向量對(duì)應(yīng)于包 含在分段區(qū)域中的模式模型;
      預(yù)定數(shù)據(jù)獲取步驟,用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù);和
      區(qū)域模式模型搜索步驟,用于計(jì)算對(duì)應(yīng)于各個(gè)分段區(qū)域的區(qū)域模 式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)所述計(jì)算的似然性, 搜索具有適合于識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模 式模型。
      由于本發(fā)明是控制按照母案原權(quán)利要求14所述的模式模型搜索 單元的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      另一方面,為了達(dá)到上述目的,本發(fā)明的母案原權(quán)利要求16公開 了一種數(shù)據(jù)處理單元,包含
      數(shù)據(jù)分類裝置,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中;
      模式模型產(chǎn)生裝置,用于根據(jù)所述數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù), 為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型;
      數(shù)學(xué)距離計(jì)算裝置,用于計(jì)算相應(yīng)各組的、由所述模式模型產(chǎn)生 裝置產(chǎn)生的多個(gè)模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換裝置,用于根據(jù)所述數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué) 距離,將多個(gè)模式模型轉(zhuǎn)換成低維空間中的、與模式模型對(duì)應(yīng)的相同 數(shù)量的低維向量,同時(shí)保持模式模型之間的距離關(guān)系;和
      對(duì)應(yīng)于模式模型的低維向量顯示裝置,用于根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持這些距離關(guān)系, 其中
      當(dāng)計(jì)算這些數(shù)學(xué)距離時(shí),所述數(shù)學(xué)距離計(jì)算裝置使用每個(gè)模式單 元在關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。就這種結(jié)構(gòu)來說,數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件,將關(guān)于 多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中,模式模型產(chǎn)生裝置能夠根
      據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或 更高維元素的多個(gè)模式模型,數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的 由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離,模式模型轉(zhuǎn)換裝 置能夠根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離,將多個(gè)模式模型轉(zhuǎn)換 成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量,同時(shí)保持模式模型間的距 離關(guān)系,對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模式模型的低維向 量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持距離關(guān)系,當(dāng)計(jì)算數(shù)學(xué) 距離時(shí),數(shù)學(xué)距離計(jì)算裝置能夠使用每個(gè)模式單元在關(guān)于多個(gè)對(duì)象的 多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
      這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。另夕卜, 由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式模型, 因此能夠更容易地進(jìn)行群集和各種其它處理。此外,由于每個(gè)模式單 元的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離,因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距 離加權(quán),那么通過考慮到模式模型中的所有模式單元,能夠定義模式 模型間的距離,從而更準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。
      這里,如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù),那么諸如音節(jié)、音位、雙音 素、三音素之類的語音單元被用作模式單元。
      本發(fā)明的母案原權(quán)利要求17限定了按照母案原權(quán)利要求16所述 的數(shù)據(jù)處理單元,其中所述模式單元的出現(xiàn)頻率是這樣的模式單元的 出現(xiàn)頻率,即所述模式單元在使用模式模型的多個(gè)預(yù)定數(shù)據(jù)的模式識(shí) 別時(shí),在與多個(gè)對(duì)象相關(guān)的多個(gè)預(yù)定數(shù)據(jù)之中,其識(shí)別性能低于預(yù)定 閾值。
      這樣,由于在數(shù)學(xué)距離的計(jì)算中,使用其識(shí)別性能低于預(yù)定閾值 的模式單元的出現(xiàn)頻率,因此可在低維層次以準(zhǔn)確的距離關(guān)系,顯示 具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能 的對(duì)象的模式模型。
      所述預(yù)定閾值可以是在0% (包含)-100%范圍中的值。
      另外,為了達(dá)到上述目的,本發(fā)明的母案原權(quán)利要求18限定了一種數(shù)據(jù)處理單元,包括
      數(shù)據(jù)分類裝置,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中;
      模式模型產(chǎn)生裝置,用于根據(jù)所述數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù), 為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型;
      數(shù)學(xué)距離計(jì)算裝置,用于計(jì)算相應(yīng)各組的、由所述模式模型產(chǎn)生
      裝置產(chǎn)生的模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換裝置,用于根據(jù)所述數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué) 距離,將多個(gè)模式模型轉(zhuǎn)換成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量, 同時(shí)保持模式模型之間的距離關(guān)系;
      對(duì)應(yīng)于模式模型的低維向量顯示裝置,用于根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持這些距離關(guān)系;
      區(qū)域劃分裝置,用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維 向量的坐標(biāo)點(diǎn),劃分到低維空間中的多個(gè)區(qū)域,即所述模式模型由所 述對(duì)應(yīng)于模式模型的低維向量顯示裝置顯示在低維空間中;
      區(qū)域模式模型產(chǎn)生裝置,用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì) 應(yīng)的預(yù)定數(shù)據(jù),產(chǎn)生每個(gè)區(qū)域的區(qū)域模式模型,即所述低維向量對(duì)應(yīng) 于包含在分段區(qū)域中的模式模型;
      預(yù)定數(shù)據(jù)獲取裝置,用于獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù);和
      區(qū)域模式模型搜索裝置,用于計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型 相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)所述計(jì)算的似然性,搜索 由所述區(qū)域模式模型產(chǎn)生裝置產(chǎn)生的區(qū)域模式模型,尋找具有適合于 識(shí)別關(guān)于所述新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
      就這種結(jié)構(gòu)來說,數(shù)據(jù)分類裝置能夠根據(jù)多個(gè)特定條件,將關(guān)于 多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)分類到多個(gè)組中,模式模型產(chǎn)生裝置能夠根 據(jù)由數(shù)據(jù)分類裝置分類的預(yù)定數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生包含4維或 更高維元素的多個(gè)模式模型,數(shù)學(xué)距離計(jì)算裝置能夠計(jì)算相應(yīng)各組的 由模式模型產(chǎn)生裝置產(chǎn)生的模式模型間的數(shù)學(xué)距離,模式模型轉(zhuǎn)換裝 置能夠根據(jù)數(shù)學(xué)距離計(jì)算裝置計(jì)算的數(shù)學(xué)距離,將多個(gè)模式模型轉(zhuǎn)換 成與模式模型對(duì)應(yīng)的相同數(shù)量的低維向量,同時(shí)保持模式模型間的距離關(guān)系,對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持這些距離關(guān)系, 區(qū)域劃分裝置能夠自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量的 坐標(biāo)點(diǎn),劃分到低維空間中的多個(gè)區(qū)域,即所述^^莫式模型由所述對(duì)應(yīng) 于模式模型的低維向量顯示裝置顯示在低維空間中,區(qū)域模式模型產(chǎn) 生裝置能夠根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì)應(yīng)的預(yù)定數(shù)據(jù),產(chǎn)生每 個(gè)區(qū)域的區(qū)域模式模型,即所述低維向量對(duì)應(yīng)于包含在分段區(qū)域中的 模式模型,預(yù)定數(shù)據(jù)獲取裝置能夠獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù),區(qū)域 模式模型搜索裝置能夠計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于獲取 的預(yù)定數(shù)據(jù)的似然性,并根據(jù)計(jì)算的似然性,搜索具有適合于識(shí)別關(guān) 于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
      這使得易于直觀地掌握模式模型之間的距離關(guān)系(相似性)。另 外,由于能夠容易地劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn), 因此易于直觀地了解特定的模式模型屬于哪個(gè)區(qū)域。此外,能夠根據(jù) 各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然 性,搜索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模 式模型。
      本發(fā)明的母案原權(quán)利要求19限定了按照母案原權(quán)利要求18所述 的數(shù)據(jù)處理單元,當(dāng)計(jì)算數(shù)學(xué)距離時(shí),所述數(shù)學(xué)距離計(jì)算裝置使用每 個(gè)模式單元在關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
      由于每個(gè)模式單元的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離,因此如果利 用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán),那么通過考慮到;f莫式模型中的所有模式 單元,能夠定義模式模型間的距離,從而更準(zhǔn)確地計(jì)算模式模型間的 距離關(guān)系。
      本發(fā)明的母案原權(quán)利要求20限定了按照母案原權(quán)利要求19所述 的數(shù)據(jù)處理單元,其中所述模式單元的出現(xiàn)頻率是這樣的模式單元的 出現(xiàn)頻率,即所述模式單元在使用模式模型的關(guān)于多個(gè)對(duì)象的多個(gè)預(yù) 定數(shù)據(jù)的模式識(shí)別時(shí),在與所述多個(gè)對(duì)象相關(guān)的多個(gè)預(yù)定數(shù)據(jù)之中, 其識(shí)別性能低于預(yù)定閾值。
      這樣,由于在數(shù)學(xué)距離的計(jì)算中,使用其識(shí)別性能低于預(yù)定閾值的模式單元的出現(xiàn)頻率,因此可在低維層次以準(zhǔn)確的距離關(guān)系,顯示 具有低識(shí)別性能的對(duì)象的模式模型。這使得易于群集具有低識(shí)別性能 的對(duì)象的模式模型。
      本發(fā)明的母案原權(quán)利要求21限定了按照母案原權(quán)利要求18-20任 意之一所述的數(shù)據(jù)處理單元,其中所述區(qū)域劃分裝置借助一個(gè)外圓和 n個(gè)內(nèi)圓劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量,n是等于或大于1的 整數(shù),并且
      借助徑向延伸的線條,進(jìn)一步將由同心外圓和內(nèi)圓在它們之間形 成的環(huán)狀區(qū)域分成多個(gè)區(qū)域,外圓以對(duì)應(yīng)于模式模型的所有低維向量 的坐標(biāo)點(diǎn)的重心為中心,外圓的半徑等于所述重心與離所述重心最遠(yuǎn) 的、對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)之間的距離,內(nèi)圓以所述重 心為中心,內(nèi)圓的半徑小于外圓的半徑。
      從而,由同心外圓和內(nèi)圓形成的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。
      本發(fā)明的母案原權(quán)利要求22限定了按照母案原權(quán)利要求21所述 的數(shù)據(jù)處理單元,其中隨著到最內(nèi)側(cè)圓的徑向距離不斷增大,所述區(qū) 域劃分裝置更細(xì)致地劃分對(duì)應(yīng)于模式模型的低維向量。
      當(dāng)模式模型二維可視時(shí),由于隨著離中心的徑向距離的增大,模 式模型的識(shí)別性能(與其它模型的相似性)會(huì)降低,因此通過細(xì)微地 劃分包含具有低識(shí)別性能的模式模型的區(qū)域,能夠更準(zhǔn)確地對(duì)數(shù)據(jù)分 組。
      本發(fā)明的母案原權(quán)利要求23限定了按照母案原權(quán)利要求21或22 所述的數(shù)據(jù)處理單元,其中所述區(qū)域劃分裝置按照這樣的方式劃分區(qū) 域,即使得在相鄰區(qū)域中的對(duì)應(yīng)于模式模型的低維向量之間存在部分 重疊。
      這使得能夠容易地處理當(dāng)產(chǎn)生指定對(duì)象的模式模型時(shí),關(guān)于指定 對(duì)象的預(yù)定數(shù)據(jù)位于分段區(qū)域間的邊界上的情況。
      本發(fā)明的母案原權(quán)利要求24限定了按照母案原權(quán)利要求21-23任 意之一所述的數(shù)據(jù)處理單元,其中所述區(qū)域模式模型搜索裝置能夠從 最內(nèi)側(cè)圓開始,并移動(dòng)到最外側(cè)圓,計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模 型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)所述計(jì)算的似然性,搜索由所述區(qū)域模式模型產(chǎn)生裝置產(chǎn)生的區(qū)域模式模型,以尋找具有適 合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
      這樣,由于通過從最內(nèi)側(cè)圓開始,并移向最外側(cè)圓,計(jì)算關(guān)于新 對(duì)象的預(yù)定數(shù)據(jù)的區(qū)域模式模型的似然性,因此能夠快速搜索適合于 關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。
      本發(fā)明的母案原權(quán)利要求25限定了按照母案原權(quán)利要求24所述 的數(shù)據(jù)處理單元,其中所述區(qū)域模式模型搜索裝置計(jì)算與最內(nèi)側(cè)圓內(nèi) 的區(qū)域?qū)?yīng)的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,
      計(jì)算與正好在最內(nèi)側(cè)圓外的環(huán)狀區(qū)域中的分段區(qū)域相對(duì)應(yīng)的區(qū)域
      才莫式^莫型的似然性,
      計(jì)算對(duì)應(yīng)于正好在這樣區(qū)域之外的區(qū)域的區(qū)域模式模型的似然 性,即所述區(qū)域在接下來的內(nèi)部區(qū)域之中包含具有最高似然性的區(qū)域
      模式模型,
      隨后順序向外移動(dòng)按此方式計(jì)算似然性。
      這樣,由于通過從最內(nèi)側(cè)圓開始,并移向最外側(cè)圓,搜索包含具 有最高似然性(識(shí)別性能)的區(qū)域模式模型的分段區(qū)域,因此能夠快 速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。
      本發(fā)明的母案原權(quán)利要求26限定了按照母案原權(quán)利要求24所述 的數(shù)據(jù)處理單元,其中所述區(qū)域模式模型搜索裝置計(jì)算與最內(nèi)側(cè)圓內(nèi) 的區(qū)域相對(duì)應(yīng)的區(qū)域模式模型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,
      計(jì)算與正好在最內(nèi)側(cè)圓外的環(huán)狀區(qū)域中的分段區(qū)域相對(duì)應(yīng)的區(qū)域
      模式模型的似然性,
      計(jì)算對(duì)應(yīng)于正好在這樣區(qū)域之外的區(qū)域的區(qū)域模式模型的似然 性,即所述區(qū)域在接下來的內(nèi)部區(qū)域之中包含具有前m個(gè)似然性的區(qū) 域模式模型,m是大于l的整數(shù),
      隨后順序向外移動(dòng)按此方式計(jì)算似然性。
      這樣,由于通過從最內(nèi)側(cè)圓開始,并移向最外側(cè)圃,搜索包含具 有前m個(gè)似然性的區(qū)域模式模型的分段區(qū)域,因此能夠快速搜索適合 于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。本發(fā)明的母案原權(quán)利要求27限定了按照母案原權(quán)利要求18-26任 意之一所述的數(shù)據(jù)處理單元,其中
      所述關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是關(guān)于由多個(gè)講話者產(chǎn)生的多 個(gè)語聲的數(shù)據(jù);和
      所述多個(gè)特定條件至少包括講話者的類型、口語語匯、說話風(fēng)格 和說話環(huán)境。
      這使得能夠至少考慮到講話者的類型,包括講話者的姓名、性別 (男/女)、年齡(兒童/成人/老人);口語語匯,比如數(shù)字、句子和 單詞;說話風(fēng)格,比如語速、講話的音量和方言特征;以及說話環(huán)境, 比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境(位置分類),產(chǎn)生語音數(shù)據(jù)的 模式模型。
      本發(fā)明的母案原權(quán)利要求28限定了按照母案原權(quán)利要求18-27任 意之一所述的數(shù)據(jù)處理單元,其中按照從所述多個(gè)特定條件中任意選 擇的多個(gè)特定條件的每種組合,所述數(shù)據(jù)分類裝置形成一組預(yù)定數(shù)據(jù)。
      從而,例如如果預(yù)定數(shù)據(jù)是人話音數(shù)據(jù),那么可按照特定條件的 所需組合,比如成年男性(講話者的類型)在室內(nèi)(說話環(huán)境)快速 (說話風(fēng)格)說出的單詞(口語語匯),形成一組預(yù)定數(shù)據(jù)。當(dāng)然, 數(shù)據(jù)可按照更寬的條件,比如成年男性(講話者的類型)在室內(nèi)(說 話環(huán)境)說話來分組。
      本發(fā)明的母案原權(quán)利要求29限定了按照母案原權(quán)利要求18-28任 意之一所述的數(shù)據(jù)處理單元,其中利用HMM (隱含馬爾可夫模型) 產(chǎn)生模式模型。
      這樣,通過利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。 例如,語音隨語速而在時(shí)間間隔方面發(fā)生變化,并且根據(jù)說話的
      內(nèi)容,在頻域中具有特有的形狀(頻鐠包絡(luò))。該形狀隨特定的條件
      而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。
      本發(fā)明的母案原權(quán)利要求30限定了按照母案原權(quán)利要求29所述
      的數(shù)據(jù)處理單元,其中所述數(shù)學(xué)距離計(jì)算裝置利用下迷之一計(jì)算數(shù)學(xué)
      距離利用HMM產(chǎn)生,并根據(jù)模式模型的正態(tài)分布的均值向量而確定 的歐幾里得距離,
      利用HMM產(chǎn)生,并根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一 化的、模式模型的正態(tài)分布的均值向量而確定的歐幾里得距離,以及
      利用HMM產(chǎn)生,并根據(jù)模式模型的正態(tài)分布確定的 Bhattacharrya多巨離。
      從而,通過使用任意上述距離,能夠計(jì)算模式模型之間更適當(dāng)?shù)?數(shù)學(xué)距離。
      本發(fā)明的母案原權(quán)利要求31限定了按照母案原權(quán)利要求18-30任 意之一所述的數(shù)據(jù)處理單元,其中所述模式模型轉(zhuǎn)換裝置利用 Sammoii方法,將模式模型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
      這樣,通過利用Sammcm方法,模式模型轉(zhuǎn)換裝置能夠?qū)⒛J侥?型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量。
      從而,已知的Sammon方法的使用使得能夠?qū)⒛J侥P娃D(zhuǎn)換成對(duì) 應(yīng)于模式模型的相對(duì)數(shù)量的低維向量,同時(shí)保持模式模型間的距離關(guān) 系。
      本發(fā)明的母案原權(quán)利要求32限定了按照母案原權(quán)利要求18-31任 意之一所述的數(shù)據(jù)處理單元,包括用于改變區(qū)域劃分裝置自動(dòng)產(chǎn)生的 劃分結(jié)果的劃分改變裝置。
      從而,如果劃分結(jié)果不適當(dāng),或者增加了新的模式模型,那么可 適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外,由于模式模型的直觀劃分結(jié)果被改變, 因此能夠容易地改變劃分的結(jié)果。
      本發(fā)明的母案原權(quán)利要求33限定了按照母案原權(quán)利要求18-32任 意之一所述的數(shù)據(jù)處理單元,包括根據(jù)所述關(guān)于新對(duì)象的預(yù)定數(shù)據(jù), 使所述模式模型搜索裝置找到的區(qū)域模式模型適應(yīng)新對(duì)象的模式模型 適應(yīng)裝置。
      就這種結(jié)構(gòu)來說,模式模型適應(yīng)裝置能夠根據(jù)關(guān)于新對(duì)象的預(yù)定 數(shù)據(jù),使模式模型搜索裝置找到的區(qū)域模式模型適應(yīng)新對(duì)象。
      從而,能夠?yàn)樾聦?duì)象產(chǎn)生適當(dāng)?shù)哪J侥P?。另外,由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模式模型,因此能夠減小模式模型的規(guī)模,
      和模式模型的存儲(chǔ)器需求。這里,MLLR講話者適應(yīng)技術(shù)可被用于所 述適應(yīng)。
      本發(fā)明的母案原權(quán)利要求34公開了按照母案原權(quán)利要求33所述 的數(shù)據(jù)處理單元,其中
      所述模式模型轉(zhuǎn)換裝置能夠?qū)?duì)應(yīng)于多個(gè)低維向量的高維模式模 型轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量,所述多個(gè)低維向量與包含在這 樣區(qū)域中的模式模型相對(duì)應(yīng),即所述區(qū)域?qū)?yīng)于所述模式模型搜索裝 置找到的區(qū)域模式模型;
      所述對(duì)應(yīng)于模式模型的低維向量顯示裝置能夠根據(jù)低維元素的 值,將轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成和對(duì)應(yīng)于模 式模型的低維向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持距 離關(guān)系;和
      所述區(qū)域劃分裝置能夠自動(dòng)將對(duì)應(yīng)于在低維空間中顯示的模式模 型的多個(gè)低維向量的坐標(biāo)點(diǎn),劃分到低維空間中的多個(gè)區(qū)域。
      這樣,由于對(duì)應(yīng)于多個(gè)低維向量的高維模式模型被再次轉(zhuǎn)換成對(duì) 應(yīng)于模式模型的低維向量,所述多個(gè)低維向量與包含在這樣區(qū)域中的 模式模型相對(duì)應(yīng),即所述區(qū)域?qū)?yīng)于所述模式模型搜索裝置找到的區(qū) 域模式模型,隨后通過關(guān)于適合于新對(duì)象的區(qū)域模式模型搜索分段區(qū) 域,轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的低維向量被劃分,因此能夠產(chǎn)生更適 合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的特定模式模型。
      本發(fā)明的母案原權(quán)利要求35限定了一種數(shù)據(jù)處理單元控制程序, 它是控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元的計(jì)算機(jī)可執(zhí) 行程序,包括
      它是用于控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元的計(jì) 算機(jī)可執(zhí)行程序,包括
      數(shù)據(jù)分類步驟,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)分類到多個(gè)組中;
      模式模型產(chǎn)生步驟,用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型; 數(shù)學(xué)距離計(jì)算步驟,用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生
      步驟中產(chǎn)生的模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換步驟,用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的
      數(shù)學(xué)距離,將多個(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng)的相
      同數(shù)量的低維向量,同時(shí)保持模式模型之間的距離關(guān)系;和
      對(duì)應(yīng)于模式模型的低維向量顯示步驟,用于根據(jù)低維元素的值,
      將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維
      向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持距離關(guān)系,其中 當(dāng)計(jì)算數(shù)學(xué)距離時(shí),所述數(shù)學(xué)距離計(jì)算步驟使用每個(gè)模式單元在
      關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)中的出現(xiàn)頻率。
      由于本發(fā)明是控制按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求36公開了 一種數(shù)據(jù)處理單元控制程序, 它是用于控制按照母案原權(quán)利要求18所迷的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序,包括
      數(shù)據(jù)分類步驟,用于根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的多個(gè) 預(yù)定數(shù)據(jù)劃分到多個(gè)組中;
      模式模型產(chǎn)生步驟,用于根據(jù)在所述數(shù)據(jù)分類步驟中分類的預(yù)定 數(shù)據(jù),為每組預(yù)定數(shù)據(jù)產(chǎn)生具有4維或更高維元素的多個(gè)模式模型;
      數(shù)學(xué)距離計(jì)算步驟,用于計(jì)算相應(yīng)各組的、在所述模式模型產(chǎn)生 步驟中產(chǎn)生的模式模型之間的數(shù)學(xué)距離;
      模式模型轉(zhuǎn)換步驟,用于根據(jù)在所述數(shù)學(xué)距離計(jì)算步驟中計(jì)算的 數(shù)學(xué)距離,將所述多個(gè)模式模型轉(zhuǎn)換成低維空間中的與模式模型對(duì)應(yīng) 的相同數(shù)量的低維向量,同時(shí)保持模式模型之間的距離關(guān)系;
      對(duì)應(yīng)于模式模型的低維向量顯示步驟,用于根據(jù)低維元素的值, 將對(duì)應(yīng)于模式模型的多個(gè)低維向量,顯示成與對(duì)應(yīng)于模式模型的低維 向量具有相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)保持距離關(guān)系;
      區(qū)域劃分步驟,用于自動(dòng)地將對(duì)應(yīng)于這樣的模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn),劃分到低維空間中的多個(gè)區(qū)域,即所述模式模型在所
      述對(duì)應(yīng)于模式模型的低維向量顯示步驟中被顯示在低維空間中; 區(qū)域模式模型產(chǎn)生步驟,用于根據(jù)與這樣的低維向量的坐標(biāo)點(diǎn)對(duì)
      應(yīng)的預(yù)定數(shù)據(jù),產(chǎn)生每個(gè)區(qū)域的區(qū)域模式模型,即所述低維向量對(duì)應(yīng)
      于包含在分段區(qū)域中的模式模型;
      預(yù)定數(shù)據(jù)獲取步驟,用于獲得關(guān)于新對(duì)象的預(yù)定數(shù)據(jù);和 區(qū)域模式模型搜索步驟,用于計(jì)算各個(gè)分段區(qū)域的、區(qū)域模式模
      型相對(duì)于所獲取的預(yù)定數(shù)據(jù)的似然性,并根據(jù)所述計(jì)算的似然性,搜
      索具有適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。
      由于本發(fā)明是控制^^照母案原權(quán)利要求18所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求37限定了一種特定模式模型提供系統(tǒng), 包括
      受到系統(tǒng)用戶控制的信息處理終端;和 按照母案原權(quán)利要求18-34中任意一個(gè)所述的數(shù)據(jù)處理單元, 其中所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連, 在所述數(shù)據(jù)處理單元中,關(guān)于多個(gè)對(duì)象的多個(gè)預(yù)定數(shù)據(jù)是由多個(gè)
      講話者產(chǎn)生的多個(gè)語聲,
      所述信息處理終端包括
      語音數(shù)據(jù)發(fā)送裝置,用于獲取關(guān)于所i^系統(tǒng)用戶產(chǎn)生的語聲
      的數(shù)據(jù),并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元,和
      特定模式模型獲取裝置,用于從所述數(shù)據(jù)處理單元獲取這樣
      的特定模式模型,即所述特定模式模型適合于所述系統(tǒng)用戶的語音數(shù)
      據(jù)的模式識(shí)別,
      所述數(shù)據(jù)處理單元^f吏所述預(yù)定數(shù)據(jù)獲取裝置從所述信息處理終端 獲取語音數(shù)據(jù),并且根據(jù)所述獲取的語音數(shù)據(jù),產(chǎn)生所述系統(tǒng)用戶的 特定模式模型,并且
      所述數(shù)據(jù)處理單元還包括特定模式模型發(fā)送裝置,用于將所述產(chǎn)就這種結(jié)構(gòu)來說,信息處理終端能夠獲取關(guān)于講話者產(chǎn)生的語聲 的數(shù)據(jù),通過語音數(shù)據(jù)發(fā)送裝置將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單 元,并且能夠通過特定模式模型獲取裝置,從數(shù)據(jù)處理單元獲取適合 于系統(tǒng)用戶的語音數(shù)據(jù)的模式識(shí)別的特定模式模型。另外,數(shù)據(jù)處理單元能夠通過預(yù)定數(shù)據(jù)獲取裝置,從信息處理終 端獲取語音數(shù)據(jù),根據(jù)獲取的語音數(shù)據(jù)產(chǎn)生系統(tǒng)用戶的特定模式模型, 并通過特定模式模型發(fā)送裝置,將產(chǎn)生的特定模式模型發(fā)送給信息處 理終端。從而,系統(tǒng)用戶能夠通過因特網(wǎng)等,使諸如PC、蜂窩電話機(jī)或 PDA之類的信息處理終端與數(shù)據(jù)處理單元連接,將他/她的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元,從而容易地獲取適合于他/她的語音數(shù)據(jù)的語音 識(shí)別的特定模式模型。另一方面,為了達(dá)到上述目的,本發(fā)明的母案原權(quán)利要求38限定 了一種數(shù)據(jù)處理單元,包括聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型組成的聲學(xué)空間;語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);位置計(jì)算裝置,用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的目標(biāo)講話 者的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算所述目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置; 語音數(shù)據(jù)評(píng)估裝置,用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置,評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù)的值;評(píng)估結(jié)果顯示裝置,用于顯示由所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果;和位置關(guān)系信息顯示裝置,用于根據(jù)所述計(jì)算的位置,顯示所述聲 學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān) 系的信息。就這種結(jié)構(gòu)來說,語音數(shù)據(jù)獲取裝置能夠獲取目標(biāo)講話者的語音數(shù)據(jù),位置計(jì)算裝置能夠根據(jù)語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù),以 及聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講 話者的語音數(shù)據(jù)在聲學(xué)空間中的位置,語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)位 置計(jì)算裝置計(jì)算的位置,評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值,評(píng)估結(jié)果 顯示裝置能夠顯示語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果,位置關(guān)系信息 顯示裝置能夠根據(jù)計(jì)算的位置,顯示聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞 該語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。從而,能夠根據(jù)聲學(xué)空間中,目標(biāo)講話者的語音數(shù)據(jù)與其它模式 模型之間的位置關(guān)系,評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值,顯示評(píng)估結(jié) 果以及顯示語音數(shù)據(jù)和其它模式模型之間的位置關(guān)系。即,該系統(tǒng)使 得能夠直觀地確定目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)是否具有較高的值,并 且使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置。對(duì)照語音數(shù)據(jù)匹配模式模型,并且模式模型被表示成統(tǒng)計(jì)模型或 類似模型。另外,語音數(shù)據(jù)例如由多個(gè)講話者產(chǎn)生的語聲數(shù)據(jù),從語音數(shù)據(jù) 抽取的特征值,根據(jù)特征值產(chǎn)生的模式模型以及描述說話的內(nèi)容的文 本文件的組合組成。從而,語音數(shù)據(jù)獲取裝置包含通過麥克風(fēng)等獲取 講話者產(chǎn)生的語聲,將獲取的語聲轉(zhuǎn)換成數(shù)據(jù),并根據(jù)需要通過分析 該數(shù)據(jù),抽取特征值的各種處理裝置。本發(fā)明的母案原權(quán)利要求39限定了按照母案原權(quán)利要求38所述 的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)這樣的模式模型的 數(shù)量而評(píng)估語音數(shù)據(jù)的值,即所述模式模型存在于與所述位置計(jì)算裝 置計(jì)算的目標(biāo)講話者的語音數(shù)據(jù)的位置相距預(yù)定距離之內(nèi)。這樣,語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)存在于離位置計(jì)算裝置計(jì)算的 講話者的語音數(shù)據(jù)的位置預(yù)定距離內(nèi)的模式模型的數(shù)量,評(píng)估語音數(shù) 據(jù)的值。從而,如果在目標(biāo)講話者的語音數(shù)據(jù)周圍,不存在其它講話者的 許多模式模型,那么能夠確定語音數(shù)據(jù)的值較高,如果在該語音數(shù)據(jù) 的周圍,存在許多模式模型,那么能夠確定該語音數(shù)據(jù)的值較低。本發(fā)明的母案原權(quán)利要求40限定了按照母案原權(quán)利要求38或39 所述的數(shù)據(jù)處理單元,其中所述預(yù)定距離被步進(jìn)地設(shè)置;和所述語音數(shù)據(jù)評(píng)估裝置根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的 模式模型的數(shù)量,評(píng)估語音數(shù)據(jù)的值。這樣,預(yù)定距離被按照語音數(shù)據(jù)的值步進(jìn)設(shè)置,并且語音數(shù)據(jù)評(píng) 估裝置能夠根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模式模型的數(shù) 量,評(píng)估語音數(shù)據(jù)的值。這使得能夠按照每個(gè)距離范圍中模式模型的數(shù)量,步進(jìn)地評(píng)估目 標(biāo)講話者的語音數(shù)據(jù)的值。本發(fā)明的母案原權(quán)利要求41限定了按照母案原權(quán)利要求38-40任 意之一所述的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)所述位 置計(jì)算裝置計(jì)算的位置,將多個(gè)模式模型中的特征與目標(biāo)講話者的語 音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者的模式模型以便評(píng)估。這樣,語音數(shù)據(jù)評(píng)估裝置能夠根據(jù)位置計(jì)算裝置計(jì)算的位置,將 多個(gè)模式模型中,特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作 目標(biāo)講話者的模式模型用于評(píng)估。由于代替產(chǎn)生目標(biāo)講話者產(chǎn)生的語聲的模式模型,本發(fā)明使用相 似模式模型的位置作為目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)在聲學(xué)空間中的位 置,因此,能夠減少計(jì)算工作量,并且能夠使用適合于實(shí)時(shí)處理等的 配置。本發(fā)明的母案原權(quán)利要求42限定了按照母案原權(quán)利要求41所述 的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估裝置將多個(gè)模式模型中的特 征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型,用作目標(biāo)講話者的模式模型,以便進(jìn)行所述評(píng)估。這樣,語音數(shù)據(jù)評(píng)估裝置能夠?qū)⑻卣髋c目標(biāo)講話者的語音數(shù)據(jù)類 似的前幾個(gè)模式模型用作目標(biāo)講話者的模式模型,用于所述評(píng)估。從而,與當(dāng)選擇單一模式模型時(shí)相比,通過選擇按相似性降序排 列的前幾個(gè)模式模型,并將這些模式模型的平均值用于評(píng)估,能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影 響。本發(fā)明的母案原權(quán)利要求43限定了按照母案原權(quán)利要求41或42 所述的數(shù)據(jù)處理單元,其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝 置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù),計(jì)算所述特征數(shù)據(jù)與多個(gè)講 話者的多個(gè)模式模型中的每一個(gè)之間的匹配似然性,根據(jù)所述計(jì)算的 似然性,從多個(gè)講話者的多個(gè)模式模型中選擇特定的模式模型,計(jì)算 所述選擇的特定模式模型與其它模式模型之間的數(shù)學(xué)距離,并且根據(jù) 所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。這樣,通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式 模型之間的匹配似然性,能夠確定相似性。這使得易于選擇特征與目 標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。這里,數(shù)學(xué)距離代表根據(jù)貝標(biāo)講話者的語音數(shù)據(jù)產(chǎn)生的聲學(xué)模型 與多個(gè)講話者的聲學(xué)模型之間的相似性??纱嬖诟鞣N各樣的數(shù)學(xué)距離, 取決于相似性的量度。例如,這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距 離,比如歐幾里得距離,或者不能用普通標(biāo)尺測(cè)量的距離,比如 Mahalanobis廣義距離,Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距 離表示成兩個(gè)向量的內(nèi)積,并將這兩個(gè)向量之間的角度用作相似性的 量度。根據(jù)本發(fā)明,其它可能的數(shù)學(xué)距離包括Bhattacharrya距離, 平方歐幾里得距離,余弦距離,Pearson相關(guān)性,Chebyshev距離, 城市國街區(qū)(city-block)距離(或者M(jìn)anhattan距離),Minkowski 和,Kullback信息,和Chernov距離??傊?,盡管稱為距離,根據(jù)本 發(fā)明的數(shù)學(xué)距離可以是任何事物,只要它代表相似性。這也適用于后 面的母案原權(quán)利要求。本發(fā)明的母案原權(quán)利要求44限定了按照母案原權(quán)利要求38-40任 意之一所述的數(shù)據(jù)處理單元,其中所述位置計(jì)算裝置將所述語音數(shù)據(jù) 獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù),根據(jù)所述特征數(shù)據(jù)產(chǎn) 生目標(biāo)講話者的模式模型,計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的 多個(gè)模式模型之間的數(shù)學(xué)距離,并且根據(jù)所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。這樣,位置計(jì)算裝置能夠?qū)⒄Z音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn) 換成高維特征數(shù)據(jù),根據(jù)特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型,計(jì)算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離,并根 據(jù)計(jì)算的數(shù)學(xué)距離計(jì)算獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。 這使得能夠更準(zhǔn)確地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。本發(fā)明的母案原權(quán)利要求45限定了按照母案原權(quán)利要求43或44 所述的數(shù)據(jù)處理單元,其中所述模式模型由4維或者更高維的元素組成;和所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型,即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相 對(duì)應(yīng)的多個(gè)模式模型,同時(shí)保持所述距離關(guān)系,并將所述轉(zhuǎn)換后的模 式模型顯示成低維空間中的坐標(biāo)點(diǎn)。這樣,評(píng)估結(jié)果顯示裝置能夠?qū)▽?duì)應(yīng)于目標(biāo)講話者的語音數(shù) 據(jù)的多個(gè)模式模型的聲學(xué)空間中的多個(gè)模式模型轉(zhuǎn)換成低維模式模 型,同時(shí)保持位置關(guān)系,并將轉(zhuǎn)換后的模式模型顯示成低維空間中的 坐標(biāo)點(diǎn)。這使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置。這里,如果語音數(shù)據(jù)和模式模型包含多維(4維或者更高維)信 息,那么關(guān)于它們的位置信息也是多維的。這種情況下,評(píng)估結(jié)果顯 示裝置能夠例如通過利用投射等,將關(guān)于語音數(shù)據(jù)和模式模型的多維 信息轉(zhuǎn)換成2維或者更低維的信息,并將它們顯示成低維空間中的坐 標(biāo)點(diǎn)。已知的投射方法包括Sammon方法。本發(fā)明的母案原權(quán)利要求46限定了按照母案原權(quán)利要求38-45任 意之一所述的數(shù)據(jù)處理單元,其中利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。這樣,利用HMM, 一種已知技術(shù)產(chǎn)生模式模型。這里,語音隨語速而在時(shí)間間隔方面發(fā)生變化,并且根據(jù)說話的內(nèi)容,在頻域中具有特有的形狀(頻譜包絡(luò))。該形狀隨講話者、環(huán)境、內(nèi)容等而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。本發(fā)明的母案原權(quán)利要求47限定了按照母案原權(quán)利要求38-46任意之一所述的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值j 和所述評(píng)估結(jié)果顯示裝置逐個(gè)音素地顯示目標(biāo)講話者的語音數(shù)據(jù)的 評(píng)估結(jié)果。這樣,由于逐個(gè)音位地,而不是逐字地或者逐句地評(píng)估目標(biāo)講話 者的語音數(shù)據(jù),并且評(píng)估結(jié)果被逐個(gè)音位地顯示,因此易于確定每個(gè)音位的值。本發(fā)明的母案原權(quán)利要求48限定了按照母案原權(quán)利要求38-47任 意之一所述的數(shù)據(jù)處理單元,其中當(dāng)所述語音數(shù)據(jù)評(píng)估裝置將目標(biāo)講 話者的語音數(shù)據(jù)評(píng)估為具有較低的值時(shí),所述評(píng)估結(jié)果顯示裝置顯示 語音數(shù)據(jù)的補(bǔ)充信息。這樣,通過顯示提示諸如發(fā)音方式、語速或者需要被評(píng)估的(或 者獲取)的其它語音數(shù)據(jù)之類的信息的補(bǔ)充信息,能夠獲取和評(píng)估同 一目標(biāo)講話者的各種語音數(shù)據(jù)。這考慮到相同講話者的語音數(shù)據(jù)可能 隨發(fā)音方式等而升值的事實(shí)。本發(fā)明的母案原權(quán)利要求49限定了按照母案原權(quán)利要求38-48任 意之一所述的數(shù)據(jù)處理單元,包括協(xié)商裝置,用于與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供;和語音數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)被所述協(xié)商裝置成功完成的協(xié)商的 語音數(shù)據(jù)。這樣,協(xié)商裝置能夠與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供, 語音數(shù)據(jù)存儲(chǔ)裝置能夠存儲(chǔ)協(xié)商裝置成功完成協(xié)商的語音數(shù)據(jù)。這使得能夠與目標(biāo)講話者協(xié)商由目標(biāo)講話者產(chǎn)生,并且被評(píng)估為 例如具有較高值的任意語音數(shù)據(jù)的獲取。本發(fā)明的母案原權(quán)利要求50限定了一種數(shù)據(jù)處理系統(tǒng),包括 41受到目標(biāo)講話者控制的信息處理終端;和按照母案原權(quán)利要求38-49中任意一個(gè)所述的數(shù)據(jù)處理單元,其中所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連,所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將 所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元,和評(píng)估信息顯示裝置,用于顯示從所述數(shù)據(jù)處理單元獲取的目 標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息,其中所述數(shù)據(jù)處理單元包括評(píng)估信息發(fā)送裝置,用于將所迷評(píng)估 結(jié)果信息發(fā)送給所迷信息處理終端。這樣,信息處理終端能夠獲取目標(biāo)講話者的語音數(shù)據(jù),并通過語 音數(shù)據(jù)發(fā)送裝置,將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元。另外,借 助評(píng)估信息顯示裝置,它能夠顯示與從數(shù)據(jù)處理單元獲取的目標(biāo)講話 者的語音數(shù)據(jù)的評(píng)估結(jié)果相關(guān)的信息。另一方面,通過評(píng)估信息發(fā)送 裝置,數(shù)據(jù)處理單元能夠?qū)⒂嘘P(guān)評(píng)估結(jié)果的信息發(fā)送給信息處理終端。從而,如果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接,那 么能夠通過因特網(wǎng)評(píng)估許多目標(biāo)講話者的語音數(shù)據(jù),從而使得易于獲 取值較高的語音數(shù)據(jù)。本發(fā)明的母案原權(quán)利要求51限定了一種數(shù)據(jù)處理方法,包括下述 步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間;獲取目標(biāo)講話者的語音數(shù)據(jù);根據(jù)所述獲取的語音數(shù)據(jù)和所迷聲學(xué)空間中的多個(gè)模式模型,計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在所述聲學(xué)空間中的位置;根據(jù)所述計(jì)算的位置,評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;和 顯示評(píng)估結(jié)果。由于本發(fā)明由按照母案原權(quán)利要求38-50任意之一所述的數(shù)據(jù)處理單元實(shí)現(xiàn),因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求52限定了一種數(shù)據(jù)處理單元控制程序, 它是用于控制按照母案原權(quán)利要求38所述的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序,包括
      聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型組成的聲學(xué)空間;
      語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù);
      位置計(jì)算步驟,用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音 數(shù)據(jù)、以及在所述聲學(xué)空間存儲(chǔ)步驟中存儲(chǔ)的聲學(xué)空間中的多個(gè)模式 模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;
      語音數(shù)據(jù)評(píng)估步驟,用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置, 評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;和
      評(píng)估結(jié)果顯示步驟,用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的 評(píng)估結(jié)果。
      由于本發(fā)明是控制按照母案原權(quán)利要求38所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求53限定了一種適用于按照母案原權(quán)利 要求50所述的數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)處理單元,包括
      聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型組成的聲學(xué)空間;
      語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);
      位置計(jì)算裝置,用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)、 以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算 目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;
      語音數(shù)據(jù)評(píng)估裝置,用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置,評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的值;
      評(píng)估結(jié)果顯示裝置,用于顯示所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估 結(jié)果;
      位置關(guān)系信息顯示裝置,用于根據(jù)所述計(jì)算的位置,顯示所述聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位
      置關(guān)系的信息;和
      評(píng)估信息發(fā)送裝置,用于將所述評(píng)估結(jié)果信息發(fā)送給所述信息處 理終端。
      由于本發(fā)明提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng) 中的數(shù)據(jù)處理單元相同的效果,因此其效果的描述將被省略,以避免 不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求54限定了一種適用于按照母案原權(quán)利 要求50所述的數(shù)據(jù)處理系統(tǒng)的信息處理終端,包括
      語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并且將所 述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元;和
      評(píng)估信息顯示裝置,用于顯示從所述數(shù)據(jù)處理單元獲取的目標(biāo)講 話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息。
      由于本發(fā)明提供和按照母案原權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng) 中的信息處理終端相同的效果,因此其效果的描述將被省略,以避免 不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求55限定了一種數(shù)據(jù)處理單元控制程序, 它是用于控制按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元的計(jì)算機(jī) 可執(zhí)行程序,
      其中所述數(shù)據(jù)處理單元包括由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的 多個(gè)模式模型構(gòu)成的聲學(xué)空間, 所述程序包括
      語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù); 位置計(jì)算步驟,用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音
      數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在
      聲學(xué)空間中的位置;
      語音數(shù)據(jù)評(píng)估步驟,用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置, 評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;
      評(píng)估結(jié)果顯示步驟,用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的
      44評(píng)估結(jié)果;
      位置關(guān)系信息顯示步驟,用于根據(jù)所述計(jì)算的位置,顯示聲學(xué)空 間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的;f莫式;f莫型之間的位置關(guān) 系的信息;和
      評(píng)估信息發(fā)送步驟,用于將評(píng)估結(jié)果信息發(fā)送給所述信息處理終
      由于本發(fā)明是控制按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求56公開了 一種信息處理終端控制程序, 它是用于控制按照母案原權(quán)利要求54所述的信息處理終端的計(jì)算機(jī) 可執(zhí)行程序,包括
      語音數(shù)據(jù)發(fā)送步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將所述 獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元;和
      評(píng)估信息顯示步驟,用于顯示從所述數(shù)據(jù)處理單元獲取的目標(biāo)講 話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息。
      由于本發(fā)明是控制按照母案原權(quán)利要求54所述的信息處理終端 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      另一方面,為了達(dá)到上述目的,本發(fā)明的母案原權(quán)利要求57限定 了一種數(shù)據(jù)處理單元,包括
      聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;
      語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);
      位置計(jì)算裝置,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中 的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;
      相似講話者檢測(cè)裝置,用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模 型,檢測(cè)多個(gè)講話者中語音與目標(biāo)講話者類似的相似講話者;和
      位置關(guān)系信息顯示裝置,用于根據(jù)語音數(shù)據(jù)的位置和相似講話者 的模式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講話 者的模式模型之間的位置關(guān)系的信息。就這種結(jié)構(gòu)來說,聲學(xué)空間存儲(chǔ)裝置能夠存儲(chǔ)由根據(jù)多個(gè)講話者 的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間,語音數(shù)據(jù)獲取裝置 能夠獲取目標(biāo)講話者的語音數(shù)據(jù),位置計(jì)算裝置能夠根據(jù)目標(biāo)講話者 的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù) 據(jù)在聲學(xué)空間中的位置,相似講話者檢測(cè)裝置能夠根據(jù)語音數(shù)據(jù)的位 置和多個(gè)模式模型,檢測(cè)多個(gè)講話者中語音與目標(biāo)講話者類似的相似 講話者,位置關(guān)系信息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和相似講話 者的模式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講 話者的模式模型之間的位置關(guān)系的信息。
      這使得易于直觀地了解多個(gè)講話者中的哪一個(gè)在語音方面與目標(biāo) 講話者類似。
      本發(fā)明的母案原權(quán)利要求58限定了按照母案原權(quán)利要求57所述 的數(shù)據(jù)處理單元,包括
      特定講話者指定裝置,用于指定多個(gè)講話者中的特定講話者; 相似性評(píng)估裝置,用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定
      講話者的模式模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似
      性;和
      評(píng)估結(jié)果顯示裝置,用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)
      果,
      其中所述位置關(guān)系信息顯示裝置根據(jù)語音數(shù)據(jù)的位置和特定講話 者的才莫式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講 話者的模式模型之間的位置關(guān)系的信息。
      這樣,特定講話者指定裝置能夠指定多個(gè)講話者中的特定講話者, 相似性評(píng)估裝置能夠根據(jù)聲學(xué)空間中,語音數(shù)據(jù)的位置和特定講話者 的模式模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性,評(píng) 估結(jié)果顯示裝置能夠顯示相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果,位置關(guān)系 信息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,顯 示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之 間的位置關(guān)系的信息。這使得易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音 上的相似性,以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之 間的位置關(guān)系。
      本發(fā)明的母案原權(quán)利要求59限定了一種數(shù)據(jù)處理單元,包括 聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生
      的多個(gè)模式模型構(gòu)成的聲學(xué)空間;
      特定講話者指定裝置,用于指定多個(gè)講話者中的特定講話者; 語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù); 位置計(jì)算裝置,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中
      的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置;
      相似性評(píng)估裝置,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式
      模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性;
      評(píng)估結(jié)果顯示裝置,用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)
      果;和
      位置關(guān)系信息顯示裝置,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者 的模式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話 者的模式模型之間的位置關(guān)系的信息。
      就這種結(jié)構(gòu)來說,聲學(xué)空間存儲(chǔ)裝置能夠存儲(chǔ)由根據(jù)多個(gè)講話者 的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間,語音數(shù)據(jù)獲取裝置 能夠獲取目標(biāo)講話者的語音數(shù)據(jù),位置計(jì)算裝置能夠根據(jù)目標(biāo)講話者 的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù) 據(jù)的位置,相似性評(píng)估裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的 模式模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性,評(píng)估 結(jié)果顯示裝置能夠顯示相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果,位置關(guān)系信 息顯示裝置能夠根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,顯示 聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定講話者的模式模型之間 的位置關(guān)系的信息。
      這使得易于直觀地了解指定的特定講話者與目標(biāo)講話者之間語音 上的相似性,以及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
      本發(fā)明的母案原權(quán)利要求60限定了按照母案原權(quán)利要求58或59 所述的數(shù)據(jù)處理單元,包括
      校正信息產(chǎn)生裝置,用于根據(jù)所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果,產(chǎn)生校正信息,所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的 校正,以便提高目標(biāo)講話者與特定講話者之間語音上的相似性;和
      校正信息顯示裝置,用于顯示所述校正信息。
      這樣,校正信息產(chǎn)生裝置能夠根據(jù)相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果,產(chǎn)生校正信息,所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的 校正,以便提高目標(biāo)講話者與特定講話者之間語音上的相似性,校正 信息顯示裝置能夠顯示校正信息。
      這允許目標(biāo)講話者通過查看校正信息,糾正他/她的說話方式。
      本發(fā)明的母案原權(quán)利要求61限定了按照母案原權(quán)利要求58所述 的數(shù)據(jù)處理單元,其中
      根據(jù)語音數(shù)據(jù)的位置,所述相似講話者檢測(cè)裝置將多個(gè)模式模型 中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者 的才莫式才莫型;和
      根據(jù)語音數(shù)據(jù)的位置,所述相似性評(píng)估裝置將多個(gè)模式模型中的 特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者的模 式模型。
      這樣,根據(jù)語音數(shù)據(jù)的位置,相似講話者檢測(cè)裝置能夠?qū)⒍鄠€(gè)模 式模型中,特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作目標(biāo)講 話者的模式模型,根據(jù)語音數(shù)據(jù)的位置,相似性評(píng)估裝置能夠?qū)⒍鄠€(gè) 模式模型中,特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型用作目標(biāo) 講話者的模式模型。
      由于相似講話者檢測(cè)裝置將相似的模式模型的位置用作聲學(xué)空間 中,目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)的位置,而不是產(chǎn)生由目標(biāo)講話者產(chǎn) 生的語聲的模式模型,因此本發(fā)明能夠降低計(jì)算工作量。另外,由于 相似性評(píng)估裝置將相似的模式模型的位置用作聲學(xué)空間中,目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)的位置,而不是產(chǎn)生由目標(biāo)講話者產(chǎn)生的語聲的模 式模型,因此本發(fā)明能夠進(jìn)一步降低計(jì)算工作量。從而,本發(fā)明適合 于實(shí)時(shí)處理等。
      本發(fā)明的母案原權(quán)利要求62限定了按照母案原權(quán)利要求58所述 的數(shù)據(jù)處理單元,其中
      根據(jù)語音數(shù)據(jù)的位置,所述相似講話者檢測(cè)裝置將多個(gè)模式模型 中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型,用作目標(biāo) 講話者的模式模型;和
      根據(jù)語音數(shù)據(jù)的位置,所述相似性評(píng)估裝置將多個(gè)模式模型中的 特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型,用作目標(biāo)講話 者的模式模型。
      這樣,根據(jù)語音數(shù)據(jù)的位置,相似講話者檢測(cè)裝置能夠?qū)⒍鄠€(gè)模 式模型中,特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型用作 目標(biāo)講話者的模式模型,根據(jù)語音數(shù)據(jù)的位置,相似性評(píng)估裝置能夠 將多個(gè)模式模型中,特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式 模型用作目標(biāo)講話者的模式模型。
      從而,與當(dāng)選擇單一模式模型時(shí)相比,通過選擇按相似性降序排 列的前幾個(gè)模式模型,并將這些模式模型的平均值用于檢測(cè)處理,評(píng) 估處理等,能夠降低其中被認(rèn)為相似的模式模型實(shí)際證明是不相似的 任何錯(cuò)誤選擇的影響。
      本發(fā)明的母案原權(quán)利要求63限定了按照母案原權(quán)利要求61或62 所述的數(shù)據(jù)處理單元,其中所述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝 置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù),計(jì)算所述特征數(shù)據(jù)與多個(gè)講 話者的多個(gè)模式模型中的每一個(gè)之間的似然性,根據(jù)所述計(jì)算的似然 性,從多個(gè)講話者的模式模型中選擇特定的模式模型,計(jì)算所述選擇 的特定模式模型和其它模式模型之間的數(shù)學(xué)距離,并且根據(jù)所述計(jì)算 的數(shù)學(xué)距離,計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
      這樣,通過計(jì)算目標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式 模型之間的匹配似然性,能夠確定相似性。這使得易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模型。
      這里,數(shù)學(xué)距離代表根據(jù)目標(biāo)講話者的語音數(shù)據(jù)產(chǎn)生的聲學(xué)模型 與多個(gè)講話者的聲學(xué)模型之間的相似性??纱嬖诟鞣N各樣的數(shù)學(xué)距離, 取決于相似性的量度。例如,這些量度對(duì)應(yīng)于可用普通標(biāo)尺測(cè)量的距 離,比如歐幾里得距離,或者不能用普通標(biāo)尺測(cè)量的距離,比如
      Mahalanobis廣義距離,Mahalanobis廣義距離將對(duì)應(yīng)于相似性的距 離表示成兩個(gè)向量的內(nèi)積,并將這兩個(gè)向量之間的角度用作相似性的 量度。根據(jù)本發(fā)明,其它可能的數(shù)學(xué)距離包括Bhattacharrya距離, 平方歐幾里得距離,余弦距離,Pearson相關(guān)性,Chebyshev距離, 城市國街區(qū)(city-block)距離(或者M(jìn)anhattan距離),Minkowski 和,Kullback信息,和Chernov距離??傊M管稱為距離,根據(jù)本 發(fā)明的數(shù)學(xué)距離可以是任何事物,只要它代表相似性。
      本發(fā)明的母案原權(quán)利要求64公開了按照母案原權(quán)利要求57-60任 意之一所述的數(shù)據(jù)處理單元,其中所述位置計(jì)算裝置將所述語音數(shù)據(jù) 獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù),根據(jù)所述特征數(shù)據(jù)產(chǎn) 生目標(biāo)講話者的模式模型,計(jì)算所述產(chǎn)生的模式模型與多個(gè)講話者的 多個(gè)模式模型之間的數(shù)學(xué)距離,并且根據(jù)所述計(jì)算的數(shù)學(xué)距離,計(jì)算 所迷獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
      這樣,位置計(jì)算裝置能夠?qū)⒄Z音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn) 換成高維特征數(shù)據(jù),根據(jù)該特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型,計(jì) 算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離,并 根據(jù)計(jì)算的數(shù)學(xué)距離,計(jì)算獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
      這使得能夠直接對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理或者評(píng)估 處理。
      本發(fā)明的母案原權(quán)利要求65限定了按照母案原權(quán)利要求63或64 所述的數(shù)據(jù)處理單元,其中
      所述模式模型由4維或更高維的元素組成;和
      所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型,即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相對(duì)應(yīng)的多個(gè)模式模型,同時(shí)保持所述距離關(guān)系,并將所述轉(zhuǎn)換后的模 式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
      這使得易于直觀地了解語音數(shù)據(jù)在聲學(xué)空間中的位置。
      這里,如果語音數(shù)據(jù)和模式模型包含多維(4維或者更高維)信 息,那么關(guān)于它們的位置信息也是多維的。這種情況下,評(píng)估結(jié)果顯 示裝置能夠通過利用例如投射等,將關(guān)于語音數(shù)據(jù)和模式模型的多維 信息轉(zhuǎn)換成2維或者更低維的信息,并將它們顯示成低維空間中的坐 標(biāo)點(diǎn)。已知的投射方法包括Sammon方法。
      本發(fā)明的母案原權(quán)利要求66限定了按照母案原權(quán)利要求58-65任 意之一所述的數(shù)據(jù)處理單元,其中所述相似性評(píng)估裝置逐個(gè)音素地評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的相似性。
      這樣,由于相似性評(píng)估裝置能夠逐個(gè)音位地評(píng)估目標(biāo)講話者的語 音數(shù)據(jù)的相似性,因此目標(biāo)講話者的語音數(shù)據(jù)的相似性被逐個(gè)音位地 評(píng)估,而不是被逐字或逐句地評(píng)估,并且評(píng)估結(jié)果被逐個(gè)音位地顯示。 這使得易于逐個(gè)音位地了解相似性評(píng)估結(jié)果。
      本發(fā)明的母案原權(quán)利要求67限定了按照母案原權(quán)利要求58-66任 意之一所述的數(shù)據(jù)處理單元,其中
      所述聲學(xué)空間由根據(jù)多種說話風(fēng)格的多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生
      的多個(gè)模式模型構(gòu)成;和
      所述相似性評(píng)估裝置評(píng)估就所迷多種說話風(fēng)格中的每一種而論的 相似性。
      這樣,聲學(xué)空間由根據(jù)采用多種說話風(fēng)格的多個(gè)講話者的語音數(shù) 據(jù)產(chǎn)生的多個(gè)模式模型組成,相似性評(píng)估裝置能夠按所述多種說話風(fēng) 格中的每一種評(píng)估相似性。
      從而,能夠評(píng)估目標(biāo)講話者說出的語音與特定講話者以各種說話 風(fēng)格,例如大聲、低聲、快速和慢速說出的語音的相似性。這允許目 標(biāo)講話者以適合他/她的說話風(fēng)格模仿特定講話者說出的語音。
      本發(fā)明的母案原權(quán)利要求68限定了按照母案原權(quán)利要求67所述 的數(shù)據(jù)處理單元,所述位置關(guān)系信息顯示裝置根據(jù)多個(gè)模式模型的說話風(fēng)格,建立低維空間的坐標(biāo)軸。
      具體地說,通過按照語速,聲高等確定低維空間的軸,能夠容易 地掌握目標(biāo)講話者的語音數(shù)據(jù)的特征,以及他/她周圍的講話者或者特 定講話者的語音數(shù)據(jù)的特征。
      本發(fā)明的母案原權(quán)利要求69限定了按照母案原權(quán)利要求57-68任 意之一所述的數(shù)據(jù)處理單元,其中利用HMM (隱含馬爾可夫模型) 產(chǎn)生模式模型。
      這樣,利用HMM, 一種已知技術(shù)產(chǎn)生模式模型。
      這里,語音隨語速而在時(shí)間間隔方面發(fā)生變化,并且根據(jù)說話的 內(nèi)容,在頻域中具有特有的形狀(頻語包絡(luò))。該形狀隨講話者、環(huán) 境、內(nèi)容等而波動(dòng)。HMM是能夠吸收所述波動(dòng)的統(tǒng)計(jì)模型。
      本發(fā)明的母案原權(quán)利要求70限定了一種數(shù)據(jù)處理系統(tǒng),包含
      受到目標(biāo)講話者控制的信息處理終端;和
      按照母案原權(quán)利要求57-69中任意一個(gè)所述的數(shù)據(jù)處理單元,其

      所述信息處理終端和所述數(shù)據(jù)處理單元可通信地相互連接,
      所述信息處理終端包括
      語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將 所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元,和
      信息顯示裝置,用于顯示從所述數(shù)據(jù)處理單元獲取的語音數(shù) 據(jù)的處理結(jié)果信息,和
      所述數(shù)據(jù)處理單元包括信息發(fā)送裝置,用于將語音數(shù)據(jù)的處理結(jié) 果信息發(fā)送給所述信息處理終端。
      這樣,通過語音數(shù)據(jù)發(fā)送裝置,信息處理終端能夠獲取目標(biāo)講話 者的語音數(shù)據(jù),并將獲取的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元。另外,通 過信息顯示裝置,它能夠顯示從數(shù)據(jù)處理單元獲取的目標(biāo)講話者的語 音數(shù)據(jù)的處理結(jié)果信息。
      另一方面,通過信息發(fā)送裝置,數(shù)據(jù)處理單元能夠?qū)⒄Z音數(shù)據(jù)的 處理結(jié)果信息發(fā)送給信息處理終端。從而,如果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接,那 么能夠通過因特網(wǎng)對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理、評(píng)估處理 等,使得目標(biāo)講話者易于在家里或者類似場(chǎng)所對(duì)他/她的語音進(jìn)行檢測(cè) 處理或者評(píng)估處理。
      本發(fā)明的母案原權(quán)利要求71限定了一種數(shù)據(jù)處理方法,包括下述 步驟
      準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲
      學(xué)空間;
      獲取目標(biāo)講話者的語音數(shù)據(jù);
      根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;
      根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型,檢測(cè)多個(gè)講話者中的語 音類似于目標(biāo)講話者的相似講話者;和
      根據(jù)語音數(shù)據(jù)的位置以及相似講話者的模式模型,顯示聲學(xué)空間 中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位置關(guān) 系的信息。
      由于本發(fā)明由按照母案原權(quán)利要求57所述的數(shù)據(jù)處理單元實(shí)現(xiàn), 因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求72限定了按照母案原權(quán)利要求71所述 的數(shù)據(jù)處理方法,包括下述步驟
      指定多個(gè)講話者中的特定講話者;
      根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型,評(píng) 估特定講話者和目標(biāo)講話者之間語音上的相似性;和 顯示評(píng)估結(jié)果。
      由于本發(fā)明由按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元實(shí)現(xiàn), 因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求73限定了一種數(shù)據(jù)處理方法,包括下述 步驟
      準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間;
      指定多個(gè)講話者中的特定講話者; 獲取目標(biāo)講話者的語音數(shù)據(jù);
      根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)的位置;
      根據(jù)語音數(shù)據(jù)的位置以及特定講話者的模式模型,評(píng)估特定講話 者與目標(biāo)講話者之間語音上的相似性;
      顯示評(píng)估結(jié)果;和
      根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,顯示聲學(xué)空間中 的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系 的信息。
      由于本發(fā)明由按照母案原權(quán)利要求60所述的數(shù)據(jù)處理單元實(shí)現(xiàn), 因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求74限定了一種數(shù)據(jù)處理單元控制程序, 包括
      聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;
      語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù);
      位置計(jì)算步驟,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中 的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;
      相似講話者檢測(cè)步驟,用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模 型,檢測(cè)多個(gè)講話者中語音上類似于目標(biāo)講話者的相似講話者;
      位置關(guān)系信息顯示步驟,用于根據(jù)語音數(shù)據(jù)的位置以及相似講話 者的才莫式才莫型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講 話者的模式模型之間的位置關(guān)系的信息;
      講話者指定步驟,用于指定特定的講話者;
      相似性評(píng)估步驟,用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定 講話者的模式模型,評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似 性;評(píng)估結(jié)果顯示步驟,用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié) 果,其中
      所述位置關(guān)系信息顯示步驟根據(jù)語音數(shù)據(jù)的位置和特定講話者的 模式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者 的模式模型之間的位置關(guān)系的信息。
      由于本發(fā)明是控制按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。
      本發(fā)明的母案原權(quán)利要求75限定了 一種數(shù)據(jù)處理單元控制程序, 包括
      聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;
      特定講話者指定步驟,用于指定多個(gè)講話者中的特定講話者; 語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù); 位置計(jì)算步驟,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的
      多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置;
      相似性評(píng)估步驟,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式
      模型,評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性;
      評(píng)估結(jié)果顯示步驟,用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié)
      果;
      位置關(guān)系信息顯示步驟,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者 的模式模型,顯示聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話 者的模式模型之間的位置關(guān)系的信息。
      由于本發(fā)明是控制按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元 的程序,因此其效果的描述將被省略,以避免不必要的重復(fù)。


      圖l是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元l的結(jié)構(gòu)的方框圖; 圖2是表示其中在二維空間中顯示兩維的聲學(xué)模型兼容低維向量 的實(shí)例的圖;圖3是表示顯示的坐標(biāo)點(diǎn)如何被分成二維空間中的多個(gè)區(qū)域的實(shí) 例的圖4是表示第一分段區(qū)域的圖; 圖5是表示笫二分段區(qū)域的圖; 圖6是表示笫三分段區(qū)域的圖; 圖7是表示第四分段區(qū)域的圖; 圖8是表示笫五分段區(qū)域的圖9是表示圖3中所示的劃分的結(jié)果的改進(jìn)形式的圖; 圖10是表示數(shù)據(jù)處理單元1執(zhí)行的操作和處理的流程圖; 圖ll是表示數(shù)據(jù)處理單元l執(zhí)行的產(chǎn)生特定模式模型的處理的流 程圖12是表示數(shù)據(jù)處理單元1執(zhí)行的改變劃分的結(jié)果的處理的流程
      圖13是表示根據(jù)一個(gè)實(shí)例的聲學(xué)模型兼容低維向量的顯示的圖; 圖14是表示關(guān)于不同分段區(qū)域產(chǎn)生的區(qū)域聲學(xué)模型和關(guān)于整個(gè) 區(qū)域產(chǎn)生的聲學(xué)模型的識(shí)別率的圖; 圖15是表示說話風(fēng)格的圖16是表示其中關(guān)于圖15中所示的說話風(fēng)格的不同組合而創(chuàng)建 的聲學(xué)模型被二維投射的實(shí)例的圖17是表示其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音 的數(shù)據(jù)創(chuàng)建的聲學(xué)模型被二維投射的實(shí)例的圖18是表示其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建的模式模型被二 維投射的實(shí)例的圖19是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被 二維投射的實(shí)例的圖20是表示其中利用加速度傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型 被二維投射的實(shí)例的圖21是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的結(jié)構(gòu)的方框圖22是表示在區(qū)域劃分的方法方面,數(shù)據(jù)處理單元1和數(shù)據(jù)處理單元2之間的差別的圖23是表示在以二維坐標(biāo)的形式顯示高維聲學(xué)模型的情況下,用
      高識(shí)別速率標(biāo)記的講話者和用低識(shí)別率標(biāo)記的講話者的分布的圖; 圖24是表示不同的分段區(qū)域的結(jié)構(gòu)的圖; 圖25是表示關(guān)于區(qū)域模式模型的第一搜索方法的圖; 圖26是表示關(guān)于區(qū)域模式模型的第二搜索方法的圖; 圖27是表示區(qū)域模式模型搜索部分21c利用第一搜索方法進(jìn)行的
      搜索處理的流程圖28是表示區(qū)域模式模型搜索部分21c利用第二搜索方法進(jìn)行的
      搜索處理的流程圖29A是表示用于產(chǎn)生聲學(xué)模型的說話風(fēng)格的類型的圖,圖29B 是表示由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21顯示在二維表面中的聲學(xué)模 型兼容低維向量的圖30是利用由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的搜索方法選擇的 聲學(xué)模型,和由常規(guī)的MLLR講話者適應(yīng)技術(shù)選擇的聲學(xué)模型,表示 識(shí)別性能和講話者之間的關(guān)系的圖31是表示在對(duì)聲學(xué)模型的搜索期間產(chǎn)生的話語的數(shù)量與按照 話語的數(shù)量選擇的聲學(xué)模型的識(shí)別性能之間的關(guān)系的圖32是利用由第 一搜索方法搜索的聲學(xué)模型,和根據(jù)計(jì)算的與關(guān) 于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的似然性搜索的聲學(xué)模型,表示識(shí)別性能 和講話者之間的關(guān)系的圖33是表示識(shí)別性能和講話者之間的關(guān)系的圖,其中兩種出現(xiàn)頻 率被用作權(quán)重,標(biāo)準(zhǔn)出現(xiàn)頻率被用作權(quán)重,或者包含在詞匯表單詞中 的其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率被用作權(quán)重;
      圖34A表示利用簡單雙音素的出現(xiàn)頻率產(chǎn)生的聲學(xué)空間圖,圖 34B表示利用具有低識(shí)別性能的雙音素的出現(xiàn)頻率產(chǎn)生的聲學(xué)空間 圖35是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖; 圖36是表示信息處理終端350的詳細(xì)結(jié)構(gòu)的圖;圖37是表示數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)的方框圖; 圖38是表示當(dāng)傳送適合于系統(tǒng)用戶的聲學(xué)模型時(shí),顯示的信息的 實(shí)例的圖39是表示當(dāng)評(píng)估系統(tǒng)用戶使用的聲學(xué)模型的性能,并傳送新的 聲學(xué)模型時(shí),顯示的信息的實(shí)例的圖40是表示由信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的流程圖; 圖41是表示由數(shù)據(jù)處理單元37執(zhí)行的操作和處理的流程圖; 圖42是表示當(dāng)接收顯示信息時(shí),由信息處理終端350執(zhí)行的操作
      和處理的流程圖43是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖44是表示信息處理終端2的詳細(xì)結(jié)構(gòu)的圖45是表示數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)的圖46A和46B是表示數(shù)據(jù)處理系統(tǒng)7上的初始數(shù)據(jù)庫構(gòu)成處理和
      數(shù)據(jù)評(píng)估處理的流程的圖47是表示其中聲學(xué)空間被二維投射的實(shí)例的圖48是表示由信息處理終端2執(zhí)行的操作和處理的流程圖49是表示由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程圖50是表示由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐
      標(biāo)信息的處理的流程圖51表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖52是表示信息處理終端9的詳細(xì)結(jié)構(gòu)的圖53是表示數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)的方框圖54A和54B是表示在數(shù)據(jù)處理系統(tǒng)8上的初始數(shù)據(jù)庫構(gòu)成處理
      和數(shù)據(jù)評(píng)估處理的流程的圖55是表示其中聲學(xué)空間被二維投射的一個(gè)實(shí)例的圖,圖55A
      表示當(dāng)逐字處理HMM時(shí)的HMM的坐標(biāo)點(diǎn),圖55B表示當(dāng)逐個(gè)音位 (圖中"a"、 "i"、 "u"、 "e,,和"o")地處理HMM時(shí)的HMM的坐標(biāo)點(diǎn); 圖56是表示二維投射的一個(gè)實(shí)例的圖,軸代表說話風(fēng)格; 圖57是表示由信息處理終端9執(zhí)行的操作和處理的流程圖;圖58是表示由數(shù)據(jù)處理單元IO執(zhí)行的操作和處理的流程圖; 圖59是表示由第二信息顯示部分10g執(zhí)行的通過二維投射顯示坐 標(biāo)信息的處理的流程圖。
      具體實(shí)施方式
      (第一實(shí)施例)
      下面參考

      本發(fā)明的第一實(shí)施例。圖l-14是表示根據(jù)本發(fā) 明的第一實(shí)施例的數(shù)據(jù)處理單元的圖。
      首先,將參考圖1說明根據(jù)本發(fā)明的數(shù)據(jù)處理單元的結(jié)構(gòu)。圖1 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元1的結(jié)構(gòu)的方框圖。
      數(shù)據(jù)處理單元1包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式模 型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld、數(shù)學(xué)距離計(jì)算部分le、模式模型 轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變部 分li、區(qū)域選擇部分lj和特定模式模型產(chǎn)生部分lk。
      數(shù)據(jù)分類部分la根據(jù)多個(gè)特定條件,將關(guān)于多個(gè)對(duì)象的未指定數(shù) 量的數(shù)據(jù)分成多個(gè)組。根據(jù)本實(shí)施例,它按照四個(gè)特定條件講話者 的類型,包括講話者的姓名、性別(男/女)、年齡(兒童/成人/老人); 口語語匯,比如數(shù)字、句子和單詞;說話風(fēng)格,比如語速、講話的音 量、和方言特征;和說話環(huán)境,比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境 (位置分類),將從多個(gè)講話者獲取的未指定數(shù)量的語音數(shù)據(jù)分成多 個(gè)組。所述特定條件可由用戶自由組合(通過組合特定條件的要素或 者組合特定條件)。
      數(shù)據(jù)存儲(chǔ)部分lb存儲(chǔ)關(guān)于多個(gè)對(duì)象的數(shù)據(jù),以及與根據(jù)關(guān)于多個(gè) 對(duì)象的數(shù)據(jù)產(chǎn)生的模式模型等的數(shù)據(jù)處理相關(guān)的數(shù)據(jù)。根據(jù)本實(shí)施例, 存儲(chǔ)的數(shù)據(jù)包括語音數(shù)據(jù),根據(jù)語音數(shù)據(jù)產(chǎn)生的模式模型(下面稱為 聲學(xué)模型),和與語音數(shù)據(jù)處理相關(guān)的其它數(shù)據(jù)。
      模式模型產(chǎn)生部分lc根據(jù)由數(shù)據(jù)分類部分la分類的數(shù)據(jù),產(chǎn)生 每個(gè)組的4維或更高維模式模型。根據(jù)本實(shí)施例,它根據(jù)由數(shù)據(jù)分類 部分la分類的語音數(shù)據(jù),產(chǎn)生每個(gè)組的4維或更高維的聲學(xué)模型(下面稱為高維聲學(xué)模型)。
      數(shù)據(jù)控制部分ld控制數(shù)據(jù)處理單元1的組件間的數(shù)據(jù)的流動(dòng),以 及組件間的操作的流動(dòng)。
      數(shù)學(xué)距離計(jì)算部分le計(jì)算模式模型產(chǎn)生部分lc產(chǎn)生的模式模型 間的數(shù)學(xué)距離。根據(jù)本實(shí)施例,它計(jì)算高維聲學(xué)模型間的數(shù)學(xué)距離。
      模式模型轉(zhuǎn)換部分lf根據(jù)數(shù)學(xué)距離計(jì)算部分le計(jì)算的數(shù)學(xué)距離, 將模式模型產(chǎn)生部分1 c產(chǎn)生的模式模型轉(zhuǎn)換成低維模型(下面稱為對(duì) 應(yīng)于模式模型的低維向量)。根據(jù)本實(shí)施例,它根據(jù)數(shù)學(xué)距離計(jì)算部 分le計(jì)算的數(shù)學(xué)距離,將模式模型產(chǎn)生部分lc產(chǎn)生的高維模式模型 轉(zhuǎn)換成低維模型(下面稱為聲學(xué)模型兼容的低維向量)。
      模式模型顯示部分lg將由模式模型轉(zhuǎn)換部分lf從模式模型轉(zhuǎn)換 來的對(duì)應(yīng)于模式模型的低維向量顯示成和對(duì)應(yīng)于模式模型的低維向量 相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)。根據(jù)本實(shí)施例,它將由模式模型轉(zhuǎn) 換部分lf從聲學(xué)模型轉(zhuǎn)換來的聲學(xué)模型兼容低維向量顯示成和聲學(xué) 模型兼容低維向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn)。
      區(qū)域劃分部分lh自動(dòng)地將由模式模型顯示部分lg顯示成低維空 間中的坐標(biāo)點(diǎn)的對(duì)應(yīng)于模式模型的低維向量的坐標(biāo)點(diǎn)劃分成低維空間 中的多個(gè)區(qū)域。根據(jù)本實(shí)施例,它自動(dòng)將由模式模型顯示部分lg顯示 成低維空間中的坐標(biāo)點(diǎn)的聲學(xué)模型兼容低維向量劃分成低維空間中的 多個(gè)區(qū)域。另外,根據(jù)本實(shí)施例,由所述劃分產(chǎn)生的多個(gè)區(qū)域被稱為 分段區(qū)域。
      根據(jù)來自數(shù)據(jù)處理單元1的輸入裝置(未示出)的信息,劃分改 變部分li改變區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果。
      根據(jù)來自數(shù)據(jù)處理單元1的輸入裝置(未示出)的信息,區(qū)域選 擇部分lj從區(qū)域劃分部分lh產(chǎn)生的多個(gè)分段區(qū)域中選擇一個(gè)特定的 分段區(qū)域。
      特定模式模型產(chǎn)生部分lk根據(jù)與模式模型相關(guān)的數(shù)據(jù)產(chǎn)生高維 模式模型,所述模式模型與位于區(qū)域選擇部分lj選擇的特定區(qū)域中的 對(duì)應(yīng)于模式模型的低維向量對(duì)應(yīng)。根據(jù)本實(shí)施例,它根據(jù)與高維聲學(xué)模型相關(guān)的數(shù)據(jù)產(chǎn)生高維聲學(xué)模型,所述高維聲學(xué)模型對(duì)應(yīng)于位于區(qū) 域選擇部分lj選擇的特定區(qū)域中的聲學(xué)模型兼容低維向量。另外,根 據(jù)本實(shí)施例,特定模式模型產(chǎn)生部分lk產(chǎn)生的高維聲學(xué)模型被稱為特 定模式模型(根據(jù)本實(shí)施例的特定聲學(xué)模型)。
      順便提及,盡管未示出,但是數(shù)據(jù)處理單元配有處理器,RAM(隨 機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器 執(zhí)行所述專用程序時(shí),上述組件實(shí)現(xiàn)它們的功能它們中的一些僅僅 通過專用程序的執(zhí)行來實(shí)現(xiàn)它們的功能,另一些將它們的功能實(shí)現(xiàn)成 專用程序控制硬件。
      下面參考圖2-9說明數(shù)據(jù)處理單元1的具體操作。
      圖2是表示其中在二維空間中顯示聲學(xué)模型兼容低維向量的實(shí)例 的圖,圖3是表示顯示的坐標(biāo)點(diǎn)如何被分成二維空間中的多個(gè)區(qū)域的 實(shí)例的圖,圖4-8是表示在圖3中產(chǎn)生的分段區(qū)域的圖,圖9是表示 圖3中所示的劃分結(jié)果的改進(jìn)形式的圖。
      首先,數(shù)據(jù)分類部分la根據(jù)上面描述的四種具體條件講話者的 類型,口語語匯,說話風(fēng)格和說話環(huán)境,將存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb 中的多個(gè)講話者的語音數(shù)據(jù)分組。按照所有四種具體條件的組合組織 各組例如,由講話者的姓名,單詞,急速說話,和室內(nèi)環(huán)境識(shí)別一 組,由講話者的姓名,單詞,大聲說話,和室內(nèi)環(huán)境識(shí)別另一組,由 講話者的姓名,單詞,急速說話,和室外環(huán)境識(shí)別又一組,等等。這 里關(guān)于分組的信息被附到語音數(shù)據(jù)上。
      隨后,模式模型產(chǎn)生部分lc產(chǎn)生每組語音數(shù)據(jù)的高維聲學(xué)模型。 利用諸如HMM之類的已知技術(shù)產(chǎn)生聲學(xué)模型。產(chǎn)生的高維聲學(xué)模型 與對(duì)應(yīng)的語音數(shù)據(jù)相關(guān)地被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
      接著,數(shù)學(xué)距離計(jì)算部分le計(jì)算產(chǎn)生的高維聲學(xué)模型間的數(shù)學(xué)距 離。 一般來說,高維聲學(xué)模型由語音單元的一組HMM組成。高維聲 學(xué)模型i和j之間的距離由下面的等式(1)定義。 (公式1)
      "0 *=0 <formula>formula see original document page 61</formula>, j, k)是包含在高維聲學(xué)模型i中的語音單元k的模型與包含在
      高維聲學(xué)模型j中的語音單元k的模型之間的距離,w (k)是語音單 元k的出現(xiàn)頻率,可按照其應(yīng)用任意設(shè)置,K是用于計(jì)算數(shù)學(xué)距離的 語音單元的數(shù)量。
      至于用于計(jì)算數(shù)學(xué)距離的語音單元,可根據(jù)用途選擇所有語音單 元, 一組聲學(xué)上類似的語音單元,或者特殊的語音單元。
      至于d(i, j, k),可以使用已知的距離量度,比如根據(jù)正態(tài)分 布的均值向量確定的歐幾里德距離,Bhattacharrya距離或者Kullback 信息。但是,由于根據(jù)由正態(tài)分布的標(biāo)準(zhǔn)偏差的乘積歸一化的均值向 量確定的歐幾里德距離已知對(duì)識(shí)別性能的效應(yīng)與Kullback信息相同, 因此這里將使用所述歐幾里德距離。假定所有高維聲學(xué)模型的語音單 元的HMM都遵守污染正態(tài)分布。另外假定聲學(xué)模型的狀態(tài)對(duì)準(zhǔn)為1: 1。那么,d (i, j, k)可由下面的等式(2) - (5)定義。
      公式(2 )
      4,M)s丄l'丄g,,"H
      cW(/, y, A, & s 2 ^ / 0, ^,"附i). "9,乙附y(tǒng) ). c(!, 乂, A, s,乙W , wy
      々,U,"附,,w乂J三~~j~、* /. ,~;-
      J 外,&,s,/,/n,.廣cr、z,A;,
      / /7(,', _/ , A:, & /) = J] J] P(Z,夂& "附').M,夂&乙
      m, =0 /n j =0
      (2) (3)
      (5)
      其中n (i, k, s, 1, m) 、 8 (i, k, s, 1, m)和p (i, k, s, 1, m)分別是第m個(gè)正態(tài)分布的平均值,標(biāo)準(zhǔn)偏差和權(quán)重,i表示高維 聲學(xué)模型,k表示語音單元,s表示狀態(tài),1表示維。另外,S(k)是 語音單元k的狀態(tài)的數(shù)量,L是維數(shù),Mi和Mj是高維聲學(xué)模型i和 j的正態(tài)分布的污染的數(shù)量。至于聲學(xué)參數(shù),10維的mel頻標(biāo)倒頻系 數(shù)(MFCC ),其一階差分(AMFCC ),和功率的一階差分(Alog-Power) 被用于例如總共21維。從模型規(guī)模的觀點(diǎn)來看,在假定高維聲學(xué)模型 基于簡單正態(tài)分布的情況下,如果簡單正態(tài)分布之間的距離被用于距離計(jì)算,那么上面的等式(2) - (5)可被簡化成下面的等式(6) (公式3)
      4,Mh丄If丄g4^力、—"/力力f ( 6 )
      隨后,模式模型轉(zhuǎn)換部分lf利用計(jì)算的數(shù)學(xué)距離,將多個(gè)高維聲 學(xué)模型轉(zhuǎn)換成相同數(shù)量的聲學(xué)模型兼容低維向量。它將所有高維聲學(xué) 模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量(二維或三維),同時(shí)保持它們間 的距離關(guān)系,以致其間數(shù)學(xué)距離較小的兩個(gè)高維聲學(xué)模型將被布置成 彼此接近,其間數(shù)學(xué)距離較大的兩個(gè)高維聲學(xué)模型將被布置成彼此遠(yuǎn) 離。根據(jù)本實(shí)施例,假定模式模型轉(zhuǎn)換部分lf將高維聲學(xué)模型轉(zhuǎn)換成 二維的聲學(xué)模型兼容低維向量。
      本領(lǐng)域的技術(shù)人員已知的Sammon方法可用作將高維聲學(xué)模型轉(zhuǎn) 換成二維的聲學(xué)模型兼容低維向量,同時(shí)保持距離關(guān)系的轉(zhuǎn)換方法。
      Sammon方法是一種非線性映射技術(shù),它涉及利用最速下降法優(yōu) 化低維空間中的映射位置坐標(biāo),以使高維空間中的高維信息間的距離 的總和與低維空間中的映射位置坐標(biāo)間的歐幾里德距離的總和之間的 差值最小化。所有高維信息被這樣投射到低維空間中,以致其間距離 較小的兩條高維信息在低維空間中也被布置成彼此接近,其間數(shù)學(xué)距 離較大的兩條高維信息在低維空間中也被布置成彼此遠(yuǎn)離。在 Sammon方法中將被最小化的誤差函數(shù)E (t)由下面的等式(7)給 出。
      (公式4 )
      根據(jù)本實(shí)施例,模式模型轉(zhuǎn)換部分lf利用Samrnon方法,將高 維聲學(xué)模型轉(zhuǎn)換成二維空間中的聲學(xué)模型兼容低維向量。從而,這里
      該轉(zhuǎn)換過程涉及通過將低維空間中的坐標(biāo)分配給高維聲學(xué)模型,將多 個(gè)高信聲學(xué)模型投射到低維空間。
      從而,如果在與聲學(xué)模型兼容低維向量相同維數(shù)的低維空間中,
      聲學(xué)模型兼容低維向量在數(shù)學(xué)距離(例如,歐幾里德距離)方面彼此接近,那么對(duì)應(yīng)的高維聲學(xué)模型被認(rèn)為彼此相似,于是它們的特定條 件被認(rèn)為相似。另外,高維聲學(xué)模型離中心越近,那么對(duì)應(yīng)的特定條 件被認(rèn)為越典型。
      根據(jù)本實(shí)施例,坐標(biāo)信息構(gòu)成聲學(xué)模型兼容低維向量的元素的值。 附加的坐標(biāo)信息與對(duì)應(yīng)的聲學(xué)模型兼容低維向量相聯(lián)系地被存儲(chǔ)在數(shù)
      據(jù)存儲(chǔ)部分lb中。
      隨后,根據(jù)多個(gè)聲學(xué)模型兼容低維向量的元素的值(坐標(biāo)信息), 模式模型顯示部分lg將多個(gè)聲學(xué)模型兼容低維向量顯示成二維空間 中的坐標(biāo)點(diǎn),所述二維空間的中心(原點(diǎn))位于坐標(biāo)信息的重心,如 圖2中所示。下面將這樣產(chǎn)生的圖稱為聲學(xué)空間圖。
      隨后,區(qū)域劃分部分lh將存在于二維空間中,并且包含坐標(biāo)點(diǎn)的 區(qū)域分成五個(gè)分段區(qū)域-第一~第五個(gè)分段區(qū)域30-34—如圖3中所示。
      具體地說,區(qū)域劃分部分lh用外圓和內(nèi)圓劃分存在于二維空間 中,并且包含坐標(biāo)點(diǎn)的區(qū)域,并進(jìn)一步將由外圓和內(nèi)圓形成的環(huán)形區(qū) 域分成四個(gè)區(qū)域(第二 第五分段區(qū)域31-34),這里外圓的半徑等 于圓心與離圓心最遠(yuǎn)的點(diǎn)之間的距離,而內(nèi)圓圍繞位于外圓內(nèi)的第一 分段區(qū)域30。
      從而,模式模型顯示部分lg將坐標(biāo)點(diǎn)顯示在由區(qū)域劃分部分lh 產(chǎn)生的劃分結(jié)果中,如圖3中所示。從而,位于外圓內(nèi)的多個(gè)聲學(xué)模 型兼容低維向量被分成圖4-8中所示的第一~第五分段區(qū)域30-34中 的組。
      之后,區(qū)域選擇部分lj根據(jù)來自輸入裝置,比如鼠標(biāo)或鍵盤的輸 入信息,選擇第一~第五分段區(qū)域30-34之一。 一旦選擇了特定的分 段區(qū)域,那么特定模式模型產(chǎn)生部分lk根據(jù)用于產(chǎn)生對(duì)應(yīng)于選擇的分 段區(qū)域中的聲學(xué)模型兼容低維向量的高維聲學(xué)模型的語音數(shù)據(jù),產(chǎn)生 特定的聲學(xué)模型。和上面的關(guān)于高維聲學(xué)模型的情況一樣,利用已知 的技術(shù),比如HMM產(chǎn)生所述特定的聲學(xué)模型。產(chǎn)生的特定聲學(xué)模型 被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
      此外,根據(jù)本實(shí)施例,劃分改變部分li能夠改變區(qū)域劃分部分lh自動(dòng)產(chǎn)生的劃分結(jié)果。例如,可能的改變包括根據(jù)來自輸入裝置,比
      如鼠標(biāo)或鍵盤的輸入信息,沿圖9中的箭頭方向旋轉(zhuǎn)整個(gè)區(qū)域,同時(shí) 保持區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果,增加新的內(nèi)圓35,或者形成 新的分段區(qū)域30a-30d。劃分改變部分li對(duì)應(yīng)于在母案原權(quán)利要求10 中限定的劃分改變裝置。
      現(xiàn)在,參考圖IO說明數(shù)據(jù)處理單元I進(jìn)行的操作和處理的流程。 圖IO是表示數(shù)據(jù)處理單元l執(zhí)行的操作和處理的流程圖。順便提及, 雖然在圖10中所示的流程圖中,被處理的數(shù)據(jù)是語音數(shù)據(jù),產(chǎn)生的模 式模型是根據(jù)本實(shí)施例的聲學(xué)模型,不過這不是限制性的,根據(jù)應(yīng)用, 可使用各種數(shù)據(jù)和模式模型。
      如圖10中所示,首先在步驟S100中,數(shù)據(jù)處理單元l使數(shù)據(jù)分 類部分la通過數(shù)據(jù)控制部分ld,從數(shù)據(jù)存儲(chǔ)部分lb讀出多個(gè)講話者 的語音數(shù)據(jù)。隨后,它進(jìn)入步驟S102。
      在步驟S102中,數(shù)據(jù)處理單元1使數(shù)據(jù)分類部分la根據(jù)(上面 說明的)特定條件的組合,將語音數(shù)據(jù)分組。隨后,它進(jìn)入步驟S104。
      在步驟S104中,數(shù)據(jù)處理單元1使數(shù)據(jù)控制部分ld判斷數(shù)據(jù)分 類部分la是否完成了分組處理。如果發(fā)現(xiàn)分組處理已完成(Yes), 那么數(shù)據(jù)處理單元1進(jìn)入步驟S106。否則(No),它進(jìn)入步驟SIOO。
      在步驟S106,數(shù)據(jù)處理單元1使模式模型產(chǎn)生部分lc讀出每組 的語音數(shù)據(jù),并產(chǎn)生每組的高維聲學(xué)模型。隨后,它進(jìn)入步驟S108。
      在步驟S108中,數(shù)據(jù)處理單元l使數(shù)學(xué)距離計(jì)算部分le利用上 面的等式(1),計(jì)算各組的高維聲學(xué)模型間的數(shù)學(xué)距離。隨后,它進(jìn) 入步驟SllO。
      在步驟S110中,數(shù)據(jù)處理單元1使模式模型轉(zhuǎn)換部分lf根據(jù)高 維聲學(xué)模型間的數(shù)學(xué)距離,利用Sammoii方法,將高維聲學(xué)模型轉(zhuǎn)換 成聲學(xué)模型兼容低維向量。隨后,它進(jìn)入步驟S112。
      在步驟S112中,數(shù)據(jù)處理單元1使數(shù)據(jù)控制部分ld判斷模式模 型轉(zhuǎn)換部分lf是否已完成轉(zhuǎn)換處理。如果發(fā)現(xiàn)轉(zhuǎn)換處理已完成(Yes ), 那么數(shù)據(jù)處理單元1進(jìn)入步驟S114。否則(No),它進(jìn)入步驟SllO,繼續(xù)所述轉(zhuǎn)換處理。
      在步驟S114中,數(shù)據(jù)處理單元1使模式模型顯示部分lg將多個(gè) 聲學(xué)模型兼容低維向量顯示在低維空間中。隨后,它進(jìn)入步驟S116。
      在步驟S116中,數(shù)據(jù)處理單元l使區(qū)域劃分部分lh將存在于低 維空間中,并且包含聲學(xué)模型兼容低維向量的一個(gè)區(qū)域劃分成多個(gè)分 段區(qū)域,隨后它結(jié)束處理。
      現(xiàn)在,參考圖11說明數(shù)據(jù)處理單元1執(zhí)行的產(chǎn)生特定模式模型的 處理的流程。圖11是表示數(shù)據(jù)處理單元1執(zhí)行的產(chǎn)生特定模式模型的 處理的流程圖。順Y更提及,雖然在圖11中所示的流程圖中,被處理的 數(shù)據(jù)是語音數(shù)據(jù),產(chǎn)生的特定模式模型是根據(jù)本實(shí)施例的特定聲學(xué)模 型,不過這不是限制性的,根據(jù)應(yīng)用,可使用各種數(shù)據(jù)和模式模型。
      如圖11中所示,首先在步驟S200中,數(shù)據(jù)處理單元l使數(shù)據(jù)控 制部分ld判斷區(qū)域選擇部分lj是否選擇了某一分段區(qū)域。如果發(fā)現(xiàn) 選擇了一個(gè)分段區(qū)域(Yes),那么數(shù)據(jù)處理單元進(jìn)入步驟S202。否 則(No),它等待,直到選擇了一個(gè)分段區(qū)域?yàn)橹埂?br> 在步驟S202中,數(shù)據(jù)處理單元l使特定模式模型產(chǎn)生部分lk通 過數(shù)據(jù)控制部分Id從數(shù)據(jù)存儲(chǔ)部分lb讀出和高維聲學(xué)模型相關(guān)的語 音數(shù)據(jù),所述高維聲學(xué)模型與位于區(qū)域選擇部分lj選擇的分段區(qū)域中 的聲學(xué)模型兼容低維向量對(duì)應(yīng)。隨后,它進(jìn)入步驟S204。
      在步驟S204中,數(shù)據(jù)處理單元1使特定模式模型產(chǎn)生部分lk根 據(jù)上面讀出的語音數(shù)據(jù),產(chǎn)生特定模式模型。隨后,它進(jìn)入步驟S206。
      在步驟S206中,數(shù)據(jù)處理單元1使特定模式模型lk通過數(shù)據(jù)控 制部分ld,將產(chǎn)生的特定模式模型存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中,隨后 它結(jié)束處理。
      下面參考圖12說明數(shù)據(jù)處理單元1執(zhí)行的改變劃分結(jié)果的處理的 流程。圖12是表示數(shù)據(jù)處理單元1執(zhí)行的改變劃分的結(jié)果的處理的流 程圖。
      如圖12中所示,首先在步驟S300中,劃分改變部分li判斷是否 選擇了改變模式。如果發(fā)現(xiàn)改變模式已被選擇(Yes),那么劃分改變部分li進(jìn)入步驟S302。否則(No),它等待,直到改變模式被選擇 為止。根據(jù)本實(shí)施例,選擇改變模式能夠啟動(dòng)劃分結(jié)果改變處理。
      在步驟S302中,劃分改變部分li判斷變化是否已被輸入。如果 發(fā)現(xiàn)變化已被輸入(Yes),那么劃分改變部分li進(jìn)入步驟S304。否 則(No),它等待,直到變化被輸入為止。
      在步驟S304中,劃分改變部分li根據(jù)輸入的變化,改變劃分結(jié) 杲。隨后,它進(jìn)入步驟S306。
      在步驟S306中,劃分改變部分li才艮據(jù)來自輸入裝置的輸入,判 斷改變處理是否已完成。如果發(fā)現(xiàn)改變處理已結(jié)束(Yes),那么劃分 改變部分li進(jìn)入步驟S308。否則(No),它進(jìn)入步驟S302。
      在步驟S308中,劃分改變部分li通過數(shù)據(jù)控制部分ld,將和改 變后的劃分結(jié)果相關(guān)的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。根據(jù)本實(shí)施 例,如果從輸入裝置收到結(jié)束改變模式的命令,那么數(shù)據(jù)處理單元1 自己結(jié)束改變模式。
      從而,數(shù)據(jù)分類部分la能夠根據(jù)特定的條件,將關(guān)于多個(gè)對(duì)象的 預(yù)定數(shù)據(jù)(多個(gè)講話者的語音數(shù)據(jù))分成多個(gè)組。
      模式模型產(chǎn)生部分lc能夠根據(jù)分組的預(yù)定數(shù)據(jù)(按照上面的實(shí)施 例,語音數(shù)據(jù)),產(chǎn)生每組的模式模型(按照上面的實(shí)施例,高維聲 學(xué)模型)。
      數(shù)學(xué)距離計(jì)算部分le能夠計(jì)算多個(gè)模式模型(按照上面的實(shí)施 例,高維聲學(xué)模型)間的數(shù)學(xué)距離。
      模式模型轉(zhuǎn)換部分lf能夠根據(jù)多個(gè)模式模型(按照上面的實(shí)施例, 高維聲學(xué)模型)和模式模型(按照上面的實(shí)施例,高維聲學(xué)模型)間 的數(shù)學(xué)距離,將多個(gè)模式模型(按照上面的實(shí)施例,高維聲學(xué)模型) 轉(zhuǎn)換成相同數(shù)量的對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例, 聲學(xué)模型兼容低維向量)。
      模式模型顯示部分lg能夠?qū)⒍鄠€(gè)對(duì)應(yīng)于模式模型的低維向量(按 照上面的實(shí)施例,聲學(xué)模型兼容低維向量)顯示成和對(duì)應(yīng)于模式模型 的低維向量相同維數(shù)的低維空間(按照上面的實(shí)施例,二維空間)中的坐標(biāo)點(diǎn)。這樣產(chǎn)生的圖將被稱為聲學(xué)空間圖。
      區(qū)域劃分部分lh能夠以這樣的方式自動(dòng)劃分存在地低維空間中, 并且包含坐標(biāo)點(diǎn)的區(qū)域,以致隨著離最內(nèi)側(cè)圓的徑向距離的增大,更 細(xì)致地劃分包含對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例,聲 學(xué)模型兼容低維向量)的環(huán)形區(qū)域。
      劃分改變部分li能夠根據(jù)輸入信息,改變由區(qū)域劃分部分lh自 動(dòng)產(chǎn)生的劃分結(jié)果。
      區(qū)域選擇部分lj能夠根據(jù)輸入信息,從顯示的分段區(qū)域中選擇一 個(gè)分段區(qū)域。
      特定模式模型產(chǎn)生部分lk能夠根據(jù)與模式模型(按照上面的實(shí)施 例,高維聲學(xué)模型)相關(guān)的數(shù)據(jù)(按照上面的實(shí)施例,語音數(shù)據(jù)), 產(chǎn)生特定的模式模型(按照上面的實(shí)施例,特定的聲學(xué)模型),所述 模式模型(按照上面的實(shí)施例,高維聲學(xué)模型)與位于區(qū)域選擇部分 li選擇的區(qū)域中的多個(gè)對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施 例,聲學(xué)模型兼容低維向量)對(duì)應(yīng)。 (第一實(shí)例)
      現(xiàn)在,參考

      數(shù)據(jù)處理單元1如何產(chǎn)生特定聲學(xué)模型的實(shí) 例。圖13和14是表示該實(shí)例的圖。圖13是表示根據(jù)該實(shí)例的聲學(xué)模 型兼容低維向量的顯示的圖,而圖14是表示關(guān)于不同分段區(qū)域產(chǎn)生的
      特定聲學(xué)模型和關(guān)于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的識(shí)別率的圖。
      根據(jù)本例,多個(gè)講話者被提供五種說話風(fēng)格--"標(biāo)準(zhǔn)地"(用目標(biāo) 講話者的平常語調(diào)),"快速地","大聲地","清晰地"(清晰地發(fā)出 每個(gè)假名的音),和"小聲地"-并被要求說出相同的日語單詞。由于 講話者未被強(qiáng)制準(zhǔn)確地按照提供的說話風(fēng)格發(fā)出單詞,因此實(shí)際的說 話風(fēng)格不一定與提供的說話風(fēng)格一致。在這樣的情況下,如果根據(jù)預(yù) 期的信息,比如提供的說話風(fēng)格絕對(duì)正確的假設(shè),只按照提供的說話
      風(fēng)格產(chǎn)生聲學(xué)模型,那么不能保證能夠獲取最大的性能。從而,下面 將說明其中以這樣的方式實(shí)現(xiàn)本發(fā)明,以便獲取最大性能的一個(gè)實(shí)例。
      首先,多個(gè)講話者被提供五種說話風(fēng)格--"標(biāo)準(zhǔn)地","快速地","大聲地","清晰地"和"小聲地,,-并被要求說出相同的日語單詞。所得到 的語音數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
      數(shù)據(jù)分類部分la通過將提供的說話風(fēng)格與講話者(姓名等)的組 合用作特定條件的組合,將語音數(shù)據(jù)分組。隨后,模式模型產(chǎn)生部分 lc產(chǎn)生每組的基于HMM的高維聲學(xué)模型,從而獲取大量的高維聲學(xué) 模型。
      根據(jù)本實(shí)施例,使用的語音單元是雙音素,HMM狀態(tài)的數(shù)量為 3,每個(gè)狀態(tài)具有一個(gè)正態(tài)分布。
      隨后,數(shù)學(xué)距離計(jì)算部分le利用上面的等式(1),計(jì)算高維聲 學(xué)模型之間的數(shù)學(xué)距離。根據(jù)由模式模型的正態(tài)分布的標(biāo)準(zhǔn)偏差歸一 化的模式模型的正態(tài)分布的均值向量確定的歐幾里德距離被用作正態(tài) 分布之間的數(shù)學(xué)距離。雙音素中單詞中的出現(xiàn)頻率w ( k)也被用在基 于上面的等式(1)的計(jì)算處理中。
      隨后,模式模型轉(zhuǎn)換部分lf根據(jù)數(shù)學(xué)距離,利用Sammon方法將 高維聲學(xué)模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量。模式模型顯示部分lg 將該結(jié)果顯示成二維空間中的坐標(biāo)點(diǎn),如圖3中所示。這些點(diǎn)代表具 有講話者和說話風(fēng)格的組合的高維聲學(xué)模型間的距離關(guān)系。
      隨后,如圖13中所示,區(qū)域劃分部分lh將存在于該二維空間中, 并且包含所述坐標(biāo)點(diǎn)的區(qū)域分成五個(gè)分段區(qū)域—第一~第五分段區(qū)域 30-34—和上面的實(shí)施例的情況一樣。
      在本例中,對(duì)應(yīng)于圖13中的聲學(xué)模型兼容低維向量的相應(yīng)特定條 件,產(chǎn)生四個(gè)特定聲學(xué)模型A-D。由于A-D存在于第三分段區(qū)域32 中,因此區(qū)域選擇部分lj選擇第三分段區(qū)域32。
      一旦選擇了第三分段區(qū)域32,特定模式模型產(chǎn)生部分lk就根據(jù) 與對(duì)應(yīng)于位于第三分段區(qū)域32中的各個(gè)聲學(xué)模型兼容低維向量的高 維聲學(xué)模型相關(guān)的語音數(shù)據(jù),產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。
      為了便于比較,利用與對(duì)應(yīng)于位于每個(gè)分段區(qū)域中的各個(gè)聲學(xué)模 型兼容低維向量的高維聲學(xué)模型相關(guān)的語音數(shù)據(jù),為第一、第二、第 四和第五分段區(qū)域30、 31、 33和34分別產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。隨后,為了便于與常規(guī)的聲學(xué)模型比較,根據(jù)與對(duì)應(yīng)于位于整個(gè) 區(qū)域中的所有聲學(xué)模型兼容低維向量的高維聲學(xué)模型相關(guān)的語音數(shù) 據(jù),產(chǎn)生一個(gè)區(qū)域聲學(xué)模型。
      隨后,利用所述六個(gè)區(qū)域聲學(xué)模型測(cè)量四個(gè)特定聲學(xué)模型A-D相 對(duì)于所有語音數(shù)據(jù)的語音識(shí)別率,結(jié)果示于圖14中。詞典規(guī)模為176 個(gè)單詞。
      從圖14中所示的測(cè)量結(jié)果可看到
      (1) 在所有四種特定條件(A、 B、 C和D)下,屬于第三分段 區(qū)域32的區(qū)域聲學(xué)模型給出最高的識(shí)別率。次高的識(shí)別率由整個(gè)區(qū)域 的區(qū)域聲學(xué)模型提供。
      (2) 就整個(gè)區(qū)域的區(qū)域聲學(xué)模型來說,當(dāng)在四種特定的聲學(xué)模型 A-D之間比較所有語音數(shù)據(jù)的識(shí)別率時(shí),可看出識(shí)別率與圖13中(點(diǎn) A-D)離中心點(diǎn)的歐幾里德距離具有線性關(guān)系。即,離中心點(diǎn)的距離 越遠(yuǎn),識(shí)別率越〗氐。
      根據(jù)上面的實(shí)例,本發(fā)明的效果總結(jié)如下。
      (l)通過將包含坐標(biāo)點(diǎn)的區(qū)域分成多個(gè)分段區(qū)域,并為每個(gè)分段 區(qū)域產(chǎn)生一個(gè)區(qū)域聲學(xué)模型,能夠產(chǎn)生比根據(jù)整個(gè)區(qū)域內(nèi)的所有語音 數(shù)據(jù)產(chǎn)生的聲學(xué)模型更高的識(shí)別率。
      (2 )離中心點(diǎn)的距離的使用使得能夠預(yù)測(cè)每種特定條件下的識(shí)別 率。在每種特定條件下,遠(yuǎn)離中心的聲學(xué)模型兼容低維向量給出較低 的識(shí)別率。相反,在每種特定條件下,接近中心的聲學(xué)模型兼容低維 向量給出較高的識(shí)別率。
      (第二實(shí)例)
      現(xiàn)在參考圖15和16說明其中根據(jù)本發(fā)明,二維投射為說話風(fēng)格 的每種組合產(chǎn)生的聲學(xué)模型的實(shí)例。圖15是表示說話風(fēng)格的圖,而圖 16是表示其中關(guān)于圖15中所示的說話風(fēng)格的每種組合而創(chuàng)建的聲學(xué) 模型被二維投射的實(shí)例的圖。
      本例中,表1中所示的一些說話風(fēng)格被指定,145名男性講話者 被要求說出5240個(gè)單詞中的176個(gè)單詞的列表。當(dāng)記錄語音數(shù)據(jù)時(shí),使用圖15中所示的七種說話風(fēng)格,包括標(biāo)準(zhǔn) 地(以平常速度讀單詞表),快速地(比平??斓刈x單詞表),高聲 地(比平常聲音更高地讀單詞表),小聲地(以附近的人們甚至聽不 見的方式讀單詞表),大聲地(大聲地讀單詞表,以致即使是很遠(yuǎn)的 人也能夠聽到),Lombard (在聽到汽車噪聲的時(shí)候讀單詞表),和 清晰地(通過清晰地發(fā)出每個(gè)假名的音,讀單詞表)。在記錄之前, 將上面括號(hào)中的指示提供給講話者。
      首先,利用所有的記錄數(shù)據(jù),創(chuàng)建非特定男性講話者的聲學(xué)模型。 隨后,利用該模型作為初始模型,通過聯(lián)系(connection)學(xué)習(xí),為 講話者和記錄前指定的說話風(fēng)格的每種組合創(chuàng)建一個(gè)聲學(xué)模型(下面, 這樣的模型將被稱為講話者-說話風(fēng)格聲學(xué)模型)。利用Sammon方 法,這樣創(chuàng)建的講話者-說話風(fēng)格聲學(xué)模型被二維投射,并顯示坐標(biāo)點(diǎn), 如圖15中所示。5240個(gè)單詞中語音單元的出現(xiàn)頻率被用作上面的等 式(1)中的w (k)。接近中心的符號(hào)"A"代表用作初始模型的非特 定男性講話者的聲學(xué)模型的坐標(biāo)點(diǎn)。
      從圖16中可看出
      1) 即使指定了相同的說話風(fēng)格,實(shí)際的說話風(fēng)格仍然隨講話者而 變化。這指出通過毫無疑問地接受預(yù)定的說話風(fēng)格,為每種說話風(fēng)格 創(chuàng)建非特定講話者的聲學(xué)模型的缺陷。
      2) 在語速和音量方面相反的(例如清晰對(duì)快速,小聲對(duì)大聲 /Lombard)的+兌話風(fēng)格圍繞原點(diǎn)-陂對(duì)稱定位。
      發(fā)現(xiàn)當(dāng)圖16中所示的坐標(biāo)點(diǎn) f皮區(qū)域劃分部分lh分成多個(gè)同心區(qū) 域,并且由特定模式模型產(chǎn)生部分lk為各個(gè)分段區(qū)域重建聲學(xué)模型 時(shí),與根據(jù)整個(gè)區(qū)域的數(shù)據(jù)創(chuàng)建的非特定講話者的聲學(xué)模型相比,就 位于外圍的講話者來說,性能被顯著改進(jìn)。
      順便提及,雖然在上面的第一實(shí)施例和第一及第二實(shí)例中列舉了 人聲,不過本發(fā)明并不只適用于人聲。當(dāng)將本發(fā)明應(yīng)用于除人聲之外 的數(shù)據(jù)時(shí),本發(fā)明能夠解決類似的問題并提供類似的效果。
      除人聲之外的數(shù)據(jù)例如包括音頻數(shù)據(jù),比如家庭噪聲,工廠噪聲,交通噪聲等;野生動(dòng)物,比如野鳥、昆蟲、青蛙、蝙蝠和其它動(dòng)物的動(dòng)物聲音數(shù)據(jù);圖像數(shù)據(jù);紅外傳感器數(shù)據(jù),加速度傳感器數(shù)據(jù),方位傳感器數(shù)據(jù),壓力傳感器數(shù)據(jù),來自壓電元件或者振動(dòng)計(jì)的振動(dòng)傳感器數(shù)據(jù),或者任何其它傳感器數(shù)據(jù);關(guān)于電池,比如鋰離子蓄電池或燃料電池的充電狀態(tài)的物理數(shù)據(jù);生物醫(yī)學(xué)信號(hào),比如心電圖,肌電圖,血壓或體重;基因分析用微陣列(microarray)數(shù)據(jù);氣象數(shù)據(jù),比如溫度、濕度或者氣壓;環(huán)境數(shù)據(jù),比如氧濃度或者氧化氮濃度;經(jīng)濟(jì)趨勢(shì)數(shù)據(jù),比如股票價(jià)格或物價(jià),或者其它時(shí)序數(shù)據(jù);等等。(第三實(shí)例)
      現(xiàn)在參考圖17,說明其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音的數(shù)據(jù)創(chuàng)建聲學(xué)模型,并且利用數(shù)據(jù)處理單元1 二維投射創(chuàng)建的聲學(xué)模型的實(shí)例。圖17是表示其中利用關(guān)于日常生活噪聲、野鳥的叫聲和人類聲音的數(shù)據(jù)創(chuàng)建的聲學(xué)模型被二維投射的實(shí)例的圖。
      在本例中,根據(jù)33種家庭噪聲,包括拖鞋的聲音,外重門的聲音,和鋼筆落在木地板上的聲音;40種野烏,包括烏鴉、夜鶯和斑鳩的叫聲;日本人發(fā)出的25個(gè)日語音位(5個(gè)元音,2個(gè)半元音,和18個(gè)輔音)的頻譜數(shù)據(jù),創(chuàng)建基于HMM的模式模型。產(chǎn)生的模式模型由模式模型轉(zhuǎn)換部分lf轉(zhuǎn)換成二維的對(duì)應(yīng)于模式模型的低維向量,所得到的向量被顯示成圖17中所示的二維空間中的坐標(biāo)點(diǎn)。
      在圖17中,曰常生活噪聲的模式模型,野鳥的叫聲的模式模型,日本男人發(fā)出的日語音位的模式模型,日本女人發(fā)出的日語音位的模式模型分別由A、 x、 b和口表示。
      從顯示結(jié)果可以看出日常生活噪聲、野鳥的叫聲和人類聲音被粗略分成三個(gè)區(qū)域,從而,易于區(qū)分日常生活噪聲、野烏的叫聲和人類聲音。
      從而,當(dāng)確定各種聲音,比如音頻數(shù)據(jù)、野生動(dòng)物的叫聲和人類聲音是否可被識(shí)別時(shí),如同本發(fā)明的情況那樣,在低維空間(這種情況下,二維空間)中顯示模式模型是非常有益的。(第四實(shí)例)現(xiàn)在參見圖18,說明其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建模式模型,并且利用數(shù)據(jù)處理單元l二維投射創(chuàng)建的模式;f莫型的實(shí)例。圖18是表示其中利用人類嘴唇的圖像數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
      本例中,按照說話產(chǎn)生的嘴唇的張開和閉合,將從九名男性的面部圖像抽取的嘴唇的運(yùn)動(dòng)圖像數(shù)據(jù)分成四個(gè)靜止圖像組閉合狀態(tài),從閉合到張開的轉(zhuǎn)變狀態(tài),張開狀態(tài),和從張開到閉合的轉(zhuǎn)變狀態(tài)。通過將二維倒頻鐠和差分用作特征向量,創(chuàng)建基于HMM的模式模型。隨后,產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量,所得到的向量被顯示成圖18中所示的二維空間中的坐標(biāo)點(diǎn)。
      圖18中,閉合狀態(tài)下的9種模式模型,從閉合到張開的轉(zhuǎn)變狀態(tài)下的9種模式模型,張開狀態(tài)下的9種模式模型,和從張開到閉合的轉(zhuǎn)變狀態(tài)下的9種模式模型分別用i A口和A表示。
      從顯示結(jié)果可看出,閉合狀態(tài)、從閉合到張開的轉(zhuǎn)變狀態(tài)、張開狀態(tài)和從張開到閉合的轉(zhuǎn)變狀態(tài)下的四個(gè)靜止圖像組被彼此明顯分離地群集,從而易于區(qū)分嘴唇的四種狀態(tài)。
      從而,當(dāng)確定表示嘴唇圖像的各種狀態(tài),比如張開狀態(tài)和閉合狀態(tài)的圖像是否可被識(shí)別時(shí),如同本發(fā)明的情況那樣,在低維空間(這種情況下,二維空間)中顯示模式模型是非常有益的。(第五實(shí)例)
      現(xiàn)在參考圖19,說明其中利用紅外傳感器數(shù)據(jù)創(chuàng)建模式模型,并且創(chuàng)建的模式模型被二維投射的實(shí)例。圖19是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
      本例中,在安裝在2.4米高的天花板上的模擬輸出紅外傳感器(本例中,熱電傳感器)下方,人行走3144次,狗行走632次,紅外傳感器的輸出數(shù)據(jù)經(jīng)歷FFT (快速傅里葉變換),根據(jù)FFT結(jié)果創(chuàng)建基于HMM的模式模型。隨后,產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量,所得到的向量被顯示成圖19中所示的二維空間中的坐標(biāo)點(diǎn)。
      圖19中,人的模式模型和狗的模式模型分別由x和A表示。從顯示結(jié)果可看出,狗和人形成不同的群集,從而易于利用紅外傳感器區(qū)分人和狗。
      從而,當(dāng)確定是否可利用來自紅外傳感器的關(guān)于對(duì)象的條件(例如工作條件等)的輸出數(shù)據(jù),比如來自紅外傳感器的關(guān)于人和狗的行為的輸出數(shù)據(jù)識(shí)別對(duì)象時(shí),如同本發(fā)明的情況那樣,在低維空間(這種情況下,二維空間)中顯示模式模型是非常有益的。(第六實(shí)例)
      現(xiàn)在參考圖20,說明其中利用加速度傳感器的輸出數(shù)據(jù)創(chuàng)建模式模型,并且二維投射創(chuàng)建的模式模型的實(shí)例。圖20是表示其中利用紅外傳感器的輸出數(shù)據(jù)創(chuàng)建的模式模型被二維投射的實(shí)例的圖。
      本例中, 一位男性對(duì)象被要求帶著在其褲包中的加速度傳感器走下樓梯,走上樓梯,和沿著走廊直行。對(duì)加速度傳感器的三個(gè)軸(X軸、Y軸和Z軸)的時(shí)序數(shù)據(jù)進(jìn)行FFT處理,根據(jù)FFT結(jié)果創(chuàng)建基于HMM的模式模型。當(dāng)所述男性對(duì)象走下樓梯,走上樓梯,和沿著走廊直行時(shí),產(chǎn)生的模式模型的數(shù)量分別為29、 28和24。隨后,產(chǎn)生的模式模型由聲學(xué)模型轉(zhuǎn)換部分lf轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量,所得到的向量被顯示成圖20中所示的二維空間中的坐標(biāo)點(diǎn)。
      圖20中,當(dāng)男性對(duì)象走下樓梯時(shí)創(chuàng)建的模式模型,當(dāng)男性對(duì)象走上樓梯時(shí)創(chuàng)建的模式模型,和當(dāng)男性對(duì)象沿著走廊直行時(shí)創(chuàng)建的模式模型分別由i A和x表示。
      從顯示結(jié)果可看出,當(dāng)男性對(duì)象走下樓梯時(shí)創(chuàng)建的多數(shù)模式模型被群集在由位于坐標(biāo)點(diǎn)的顯示區(qū)的頂部的橢圓圍繞的區(qū)域中,但是它們中的一些分散在由位于所述顯示區(qū)的底部的橢圓圍繞的區(qū)域中。這指出走下樓梯的男性對(duì)象到達(dá)樓梯平臺(tái),引起三個(gè)軸的加速度模式的變化,導(dǎo)致接近于直走的行走狀況。
      從而,當(dāng)確定利用來自加速度傳感器的關(guān)于人的行為的輸出數(shù)據(jù),比如來自紅外傳感器的關(guān)于人的行走方式的輸出數(shù)據(jù),是否可識(shí)別對(duì)象的行為時(shí),如同本發(fā)明的情況那樣,在低維空間(這種情況下,二維空間)中顯示模式模型是非常有益的。
      圖1中,數(shù)據(jù)分類部分la對(duì)應(yīng)于在母案原權(quán)利要求1、 4和12任意之一中限定的數(shù)據(jù)分類裝置;模式模型產(chǎn)生部分lc對(duì)應(yīng)于在母案原權(quán)利要求1、 11和12任意之一中限定的模式模型產(chǎn)生裝置;數(shù)學(xué)距離計(jì)算部分le對(duì)應(yīng)于在母案原權(quán)利要求1、 6和12任意之一中限定的數(shù)學(xué)距離計(jì)算裝置;模式模型轉(zhuǎn)換部分lf對(duì)應(yīng)于在母案原權(quán)利要求1或7中限定的模式模型轉(zhuǎn)換裝置;模式模型顯示部分lg對(duì)應(yīng)于在母案原權(quán)利要求1或8中限定的對(duì)應(yīng)于模式模型的低維向量顯示裝置;區(qū)域劃分部分lh對(duì)應(yīng)于在母案原權(quán)利要求8-11任意之一中限定的區(qū)域劃分裝置;劃分改變部分li對(duì)應(yīng)于在母案原權(quán)利要求10中限定的劃分改變裝置;區(qū)域選擇部分lj對(duì)應(yīng)于在母案原權(quán)利要求11中限定的區(qū)域選擇裝置;特定模式模型產(chǎn)生部分lk對(duì)應(yīng)于在母案原權(quán)利要求11中限定的特定模式模型產(chǎn)生裝置。
      順便提及,雖然在上述第一實(shí)施例中說明由模式模型轉(zhuǎn)換部分lf產(chǎn)生的聲學(xué)模型兼容低維向量是二維的,不過這不是限制性的,也可使用一維或者三維向量。
      另外,雖然在上面的實(shí)施例中,區(qū)域劃分部分lh以這樣的方式劃分區(qū)域,以致在不同分段區(qū)域中的聲學(xué)模型兼容低維向量之間不存在任何重疊,不過這不是限制性的,在不同的分段區(qū)域間,聲學(xué)模型兼容低維向量可重疊。
      此外,在上面的第一實(shí)施例中,不言而喻,通過本發(fā)明的應(yīng)用,通過只將對(duì)應(yīng)于聲學(xué)模型兼容低維向量的高維聲學(xué)才莫型轉(zhuǎn)換成新的聲學(xué)模型兼容低維向量,再次在新的低維空間中顯示它們,并利用更小的分段區(qū)域產(chǎn)生區(qū)域聲學(xué)模型,能夠獲取更高的識(shí)別性能。(第二實(shí)施例)
      下面將參考附圖,說明本發(fā)明的第二實(shí)施例。圖21-39是表示根據(jù)本發(fā)明的第二實(shí)施例的數(shù)據(jù)處理單元的圖。
      首先,參考圖21說明根據(jù)本發(fā)明的數(shù)據(jù)處理單元的結(jié)構(gòu)。圖21是表示根據(jù)本發(fā)明的數(shù)據(jù)處理單元21的結(jié)構(gòu)的方框圖。順便提及,與 第一實(shí)施例中的數(shù)據(jù)處理單元1的功能組件類似的那些功能組件將用 與第一實(shí)施例中相同的附圖標(biāo)記表示,與數(shù)據(jù)處理單元1的功能相同 的功能的說明將被省略。
      數(shù)據(jù)處理單元21包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式 模型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld、數(shù)學(xué)距離計(jì)算部分le'、模式模 型轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變 部分li、區(qū)域選擇部分lj、特定模式模型產(chǎn)生部分lk、區(qū)域模式模型 產(chǎn)生部分21a、數(shù)據(jù)獲取部分21b和區(qū)域模式模型搜索部分21c。
      數(shù)學(xué)距離計(jì)算部分le'計(jì)算模式模型產(chǎn)生部分lc產(chǎn)生的模式模型 間的數(shù)學(xué)距離。根據(jù)本實(shí)施例,它計(jì)算高維聲學(xué)模型間的數(shù)學(xué)距離。 它與根據(jù)第一實(shí)施例的數(shù)學(xué)距離計(jì)算部分le的不同在于在數(shù)學(xué)距離
      的計(jì)算中使用的等式(1)中的語音單元k的出現(xiàn)頻率w (k)是相對(duì) 于模式模型產(chǎn)生部分lc產(chǎn)生的模式模型,其識(shí)別性能低于預(yù)定閾值的 語音單元的出現(xiàn)頻率。根據(jù)第一實(shí)施例,簡單的出現(xiàn)頻率(例如語音 數(shù)據(jù)中音位"a"的出現(xiàn)頻率)被用作w (k)。
      區(qū)域模式模型產(chǎn)生部分21a具有根據(jù)與模式模型(該模式模型和 區(qū)域劃分部分lh自動(dòng)產(chǎn)生的分段區(qū)域的對(duì)應(yīng)于模式模型的低維向量 對(duì)應(yīng))的產(chǎn)生相關(guān)的數(shù)據(jù),產(chǎn)生區(qū)域模式模型(它們是各個(gè)分段區(qū)域 的模式模型)的功能。根據(jù)本實(shí)施例,它根據(jù)與對(duì)應(yīng)于區(qū)域劃分部分 lh自動(dòng)產(chǎn)生的分段區(qū)域的聲學(xué)模型兼容低維向量的高維聲學(xué)模型的 產(chǎn)生相關(guān)的數(shù)據(jù),產(chǎn)生區(qū)域模式模型(它們是各個(gè)分段區(qū)域的高維聲 學(xué)模型)。
      數(shù)據(jù)獲取部分21b具有獲取關(guān)于將為其產(chǎn)生模式模型的對(duì)象的預(yù) 定數(shù)據(jù)的功能。這使得能夠獲取關(guān)于新對(duì)象(未知對(duì)象)的預(yù)定數(shù)據(jù)。 根據(jù)本實(shí)施例,數(shù)據(jù)獲取部分21b包括獲取講話者發(fā)出的語音(模擬 數(shù)據(jù))的裝置,比如麥克風(fēng),和將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù) 的裝置,比如A/D轉(zhuǎn)換器。
      區(qū)域模式模型搜索部分21c具有計(jì)算各個(gè)分段區(qū)域的區(qū)域模式模型相對(duì)于數(shù)據(jù)獲取部分21b獲取的關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性, 并根據(jù)計(jì)算的似然性,搜索識(shí)別性能適合于識(shí)別關(guān)于新對(duì)象的預(yù)定數(shù)
      據(jù)的區(qū)域模式模型的功能。根據(jù)本實(shí)施例,它計(jì)算對(duì)應(yīng)于各個(gè)分段區(qū) 域的區(qū)域聲學(xué)模型相對(duì)于數(shù)據(jù)獲取部分21b獲取的新講話者的語音數(shù) 據(jù)的似然性,并根據(jù)計(jì)算的似然性,搜索具有適合于識(shí)別關(guān)于新講話 者的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域聲學(xué)模型。
      現(xiàn)在,參考圖22-26說明數(shù)據(jù)處理單元21的具體操作。 圖22是表示在區(qū)域劃分的方法方面,數(shù)據(jù)處理單元1和數(shù)據(jù)處理 單元2間的差別的圖。圖23是表示在以二維坐標(biāo)的形式顯示高維聲學(xué) 模型的情況下,用高識(shí)別速率標(biāo)記的講話者和用低識(shí)別率標(biāo)記的講話 者的分布的圖。圖24是表示不同的分段區(qū)域的結(jié)構(gòu)的圖。圖25是表 示關(guān)于區(qū)域模式模型的第一搜索方法的圖,而圖26是表示關(guān)于區(qū)域模 式模型的第二搜索方法的圖。
      首先,數(shù)據(jù)分類部分la根據(jù)四種特定條件講話者的類型,口語 語匯,說話風(fēng)格和說話環(huán)境,將存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中的多個(gè)講話 者的語音數(shù)據(jù)分組。按照所有四種特定條件的組合組織各組例如, 由講話者的姓名,單詞,急速說話,和室內(nèi)環(huán)境識(shí)別一組,由講話者 的姓名,單詞,大聲iJL話,和室內(nèi)環(huán)境識(shí)別另一組,由講話者的姓名, 單詞,急速說話,和室外環(huán)境識(shí)別又一組,等等。這里關(guān)于分組的信 息被附到語音數(shù)據(jù)上。
      隨后,如前所述,模式模型產(chǎn)生部分lc產(chǎn)生每組語音數(shù)據(jù)的高維
      聲學(xué)模型。利用諸如HMM之類的已知技術(shù)產(chǎn)生聲學(xué)模型。產(chǎn)生的高 維聲學(xué)模型與對(duì)應(yīng)的語音數(shù)據(jù)相關(guān)地被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
      隨后,數(shù)學(xué)距離計(jì)算部分le'利用例如上面的等式(1),計(jì)算產(chǎn) 生的高維聲學(xué)模型間的數(shù)學(xué)距離。
      在上面的等式(l)中,通過計(jì)算由模式模型產(chǎn)生部分lc產(chǎn)生高 維聲學(xué)模型與存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分ib中的多個(gè)講話者的語音數(shù)據(jù)之 間的似然性,其似然性(識(shí)別性能)低于預(yù)定閾值的語音單元的出現(xiàn) 頻率被用作語音單元k的出現(xiàn)頻率w ( k)。通常,講話者間的聲學(xué)距離隨音位而變化。如果逐個(gè)音位地確定 距離,那么不存在任何問題,但是當(dāng)通過考慮到所有音位來定義講話 者之間的距離時(shí),某種類型的加權(quán)是必需的。重要的是采用對(duì)識(shí)別性 能有貢獻(xiàn)的權(quán)重。在第一實(shí)施例中,語音單元(音位等)的出現(xiàn)頻率 被用作權(quán)重。這是因?yàn)榫哂懈叱霈F(xiàn)頻率的語音單元被認(rèn)為對(duì)識(shí)別來說
      是重要的,從而出現(xiàn)頻率為"o"的音位不是識(shí)別所必需的,并且被認(rèn)為
      對(duì)于距離計(jì)算來說也是不必要的。
      本實(shí)施例使用其識(shí)別性能低于預(yù)定閾值的語音單元的出現(xiàn)頻率。 這是因?yàn)榧词咕哂懈叱霈F(xiàn)頻率的語音單元也不需要特殊考慮,并且如 果當(dāng)它們被任何講話者說出時(shí),以較高的概率被識(shí)別,那么它們被認(rèn) 為對(duì)于距離計(jì)算來說是不必要的,以及因?yàn)楸緦?shí)施例意圖通過在距離 計(jì)算中采用具有低識(shí)別性能的語音單元,從而考慮到誤識(shí)別趨勢(shì)和聲 學(xué)特性,著重于由低識(shí)別性能標(biāo)記的講話者進(jìn)4亍群集。
      至于用于計(jì)算數(shù)學(xué)距離的語音單元,可根據(jù)用途選擇所有語音單 元, 一組聲學(xué)上類似的語音單元,或者特定的語音單元。
      隨后,模式模型轉(zhuǎn)換部分lf利用計(jì)算的數(shù)學(xué)距離,將多個(gè)高維聲 學(xué)模型轉(zhuǎn)換成相同數(shù)量的聲學(xué)模型兼容低維向量。它將所有高維聲學(xué) 模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量(二維或三維),同時(shí)保持它們間 的距離關(guān)系,以致其間數(shù)學(xué)距離較小的兩個(gè)高維聲學(xué)模型將被布置成 彼此接近,其間數(shù)學(xué)距離較大的兩個(gè)高維聲學(xué)模型將被布置成彼此遠(yuǎn) 離。根據(jù)本實(shí)施例,假定模式模型轉(zhuǎn)換部分lf將高維聲學(xué)模型轉(zhuǎn)換成 二維的聲學(xué)模型兼容低維向量。如同第一實(shí)施例中一樣,本領(lǐng)域的技
      術(shù)人員已知的Sammon方法可用作將高維聲學(xué)模型轉(zhuǎn)換成二維的聲學(xué) 模型兼容低維向量,同時(shí)保持距離關(guān)系的轉(zhuǎn)換方法。
      也就是說,如同第一實(shí)施例中一樣,模式模型轉(zhuǎn)換部分lf利用 Sammon方法,將高維聲學(xué)模型轉(zhuǎn)換成聲學(xué)模型兼容低維向量。從而, 這里的轉(zhuǎn)換處理涉及通過將低維空間中的坐標(biāo)分配給高維聲學(xué)模型,
      將多個(gè)高維聲學(xué)模型投射到低維空間。
      如同第 一實(shí)施例中 一樣,如果在和聲學(xué)模型兼容低維向量相同維數(shù)的低維空間中,聲學(xué)模型兼容低維向量在數(shù)學(xué)距離(例如歐幾里德 距離)方面相互接近,那么對(duì)應(yīng)的高維聲學(xué)模型被認(rèn)為彼此相似,至 于它們的特定條件也是如此。另外,高維聲學(xué)模型離中心越近,那么 對(duì)應(yīng)的特定條件被認(rèn)為越典型。
      根據(jù)本實(shí)施例,坐標(biāo)信息構(gòu)成聲學(xué)模型兼容低維向量的元素的值。 附加的坐標(biāo)信息與對(duì)應(yīng)的聲學(xué)模型兼容低維向量相聯(lián)系地被存儲(chǔ)在數(shù) 據(jù)存儲(chǔ)部分lb中。
      隨后,根據(jù)多個(gè)聲學(xué)模型兼容低維向量的元素的值(坐標(biāo)信息), 模式模型顯示部分lg將多個(gè)聲學(xué)模型兼容低維向量顯示成二維空間
      中的坐標(biāo)點(diǎn),所述二維空間的中心(原點(diǎn))位于重心,如圖2中所示。 隨后,區(qū)域劃分部分lh將存在于二維空間中,并且包含坐標(biāo)點(diǎn)的 區(qū)域分成多分段區(qū)域。不同于根據(jù)第一實(shí)施例的數(shù)據(jù)處理單元使用的 方法(參見圖22A),根據(jù)本實(shí)施例的區(qū)域劃分方法隨著離最內(nèi)側(cè)圓 220的徑向距離的增大,更細(xì)致地劃分由外圓和內(nèi)圓形成的環(huán)形區(qū)域, 如圖22B中所示。在所謂的極坐標(biāo)系中,包含在某一區(qū)域中的坐標(biāo)點(diǎn) 的半徑r越大,那么該區(qū)域被更加細(xì)分,在所述極坐標(biāo)系中,在由水 平軸x和垂直軸y形成的,并且其原點(diǎn)O位于最內(nèi)側(cè)圓220的中心的 二維空間中的坐標(biāo)點(diǎn)P (x, y)由代表半徑的r和代表x軸與P形成
      的角度的e來表示。
      下面將參考圖23說明隨著離中心的距離不斷增大,更細(xì)致地劃分 坐標(biāo)點(diǎn)分布的優(yōu)點(diǎn)。圖23表示通過利用根據(jù)^w多個(gè)講話者獲取的所有 語音數(shù)據(jù)創(chuàng)建的與講話者無關(guān)聲學(xué)模型,對(duì)包括評(píng)估講話者在內(nèi)的多 個(gè)講話者進(jìn)行的語音識(shí)別的結(jié)果。在二維顯示的高維聲學(xué)模型中,由 80。/?;蚋偷淖R(shí)別性能標(biāo)記的講話者的坐標(biāo)點(diǎn)由"x"表示,其它講話者 的坐標(biāo)點(diǎn)由"o"表示。
      如圖23中所示,在坐標(biāo)點(diǎn)分布的邊緣附近,由低識(shí)別性能標(biāo)記的 講話者(圖23中由"x,,表示)變得越來越顯著。從而,為了提高聲學(xué) 模型相對(duì)于位于外圍的講話者的識(shí)別性能,必須創(chuàng)建更準(zhǔn)確(專用的) 聲學(xué)模型。具體地說,通過隨著到由低識(shí)別性能標(biāo)記的講話者所位于的外圍的距離的降低,更細(xì)致地劃分區(qū)域,能夠降低不同分段區(qū)域間, 聲學(xué)模型的特性的變化,通過根據(jù)包含在分段區(qū)域中的語音數(shù)據(jù)創(chuàng)建 講話者無關(guān)聲學(xué)模型,能夠提高識(shí)別性能。
      區(qū)域劃分部分lh以這樣的方式劃分區(qū)域,以致每個(gè)分段區(qū)域?qū)⒉?br> 分重疊相鄰的分段區(qū)域,如圖24中的虛線,而不是分段區(qū)域的初始劃 分線條所示。這使得能夠處理位于分段區(qū)域的邊界的坐標(biāo)點(diǎn),否則當(dāng) 創(chuàng)建區(qū)域聲學(xué)模型時(shí),位于分段區(qū)域的邊界的坐標(biāo)點(diǎn)會(huì)引起問題。
      一旦區(qū)域被如上所述那樣劃分,那么模式模型顯示部分lg將坐標(biāo) 點(diǎn)顯示在區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果中,如圖22B中所示。從 而,區(qū)域中的多個(gè)聲學(xué)模型兼容低維向量被分為不同分段區(qū)域中的聲 學(xué)模型兼容低維向量。
      之后,區(qū)域選擇部分lj根據(jù)來自輸入裝置,比如鼠標(biāo)或鍵盤的輸 入信息,選擇分段區(qū)域中的一個(gè)特定分段區(qū)域。隨后,特定模式模型 產(chǎn)生部分lk根據(jù)用于產(chǎn)生對(duì)應(yīng)于選擇的分段區(qū)域中的聲學(xué)模型兼容 低維向量的高維聲學(xué)模型的語音數(shù)據(jù),產(chǎn)生區(qū)域聲學(xué)模型。和關(guān)于高 維聲學(xué)模型的情況一樣,利用已知技術(shù),比如HMM產(chǎn)生所述區(qū)域聲 學(xué)模型。產(chǎn)生的特定聲學(xué)模型被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分lb中。
      一旦區(qū)域選擇部分lj選擇了分段區(qū)域中的一個(gè)特定分段區(qū)域,那 么通過利用Sammoii方法,模式模型轉(zhuǎn)換部分lf能夠?qū)⑴c選擇的分 段區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的多個(gè)高維聲學(xué)模型再次轉(zhuǎn)換 成二維的聲學(xué)模型兼容低維向量。由于這樣再次進(jìn)行變換,坐標(biāo)點(diǎn)的 分布被改變,如果區(qū)域劃分部分lh再次劃分所述分布,那么能夠產(chǎn)生 更專用的講話者無關(guān)聲學(xué)模型。
      順便提及,該數(shù)據(jù)處理單元的用戶可以自由選擇產(chǎn)生所選分段區(qū) 域的區(qū)域聲學(xué)模型的處理,或者將高維聲學(xué)模型再次轉(zhuǎn)換成聲學(xué)模型 兼容低維向量的處理。
      此外,根據(jù)本實(shí)施例,劃分改變部分li能夠改變區(qū)域劃分部分lh 自動(dòng)產(chǎn)生的劃分結(jié)果。例如,像上面的第一實(shí)施例中一樣,可能的改 變包括根據(jù)來自輸入裝置,比如鼠標(biāo)或鍵盤的輸入信息,旋轉(zhuǎn)所有劃分線,同時(shí)保持區(qū)域劃分部分lh產(chǎn)生的劃分結(jié)果,增加內(nèi)圓35,形 成新的分段區(qū)域30a-30d,或者改變劃分的結(jié)果的數(shù)量。
      現(xiàn)在參考圖25和26,說明由區(qū)域模式模型產(chǎn)生部分21a,數(shù)據(jù)獲 取部分21b和區(qū)域模式模型搜索部分21c執(zhí)行的搜索適合于識(shí)別關(guān)于 新的講話者(和評(píng)估講話者相同)的語音數(shù)據(jù)的區(qū)域模式模型(按照 本實(shí)施例,區(qū)域聲學(xué)模型)的處理。
      根據(jù)本實(shí)施例,關(guān)于是否搜索區(qū)域模式模型的方式設(shè)置可留給數(shù) 據(jù)處理單元21的用戶決定。如果啟動(dòng)區(qū)域模式模型的搜索方式,那么 區(qū)域劃分處理由區(qū)域劃分部分lh執(zhí)行,區(qū)域模式模型產(chǎn)生部分21a 利用與包含在每個(gè)區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的語音數(shù)據(jù), 產(chǎn)生每個(gè)分段區(qū)域的區(qū)域聲學(xué)模型。隨后,當(dāng)數(shù)據(jù)獲取部分21b獲取 新講話者的語音數(shù)據(jù)時(shí),區(qū)域模式模型搜索部分21c根據(jù)獲取的語音 數(shù)據(jù)和每個(gè)分段區(qū)域的區(qū)域聲學(xué)模型,搜索適合于新講話者的語音數(shù) 據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。根據(jù)本實(shí)施例,存在第一種和第二種 搜索方法,選擇使用哪種方法由數(shù)據(jù)處理單元21的用戶決定(也可同 時(shí)使用這兩種方法)。
      首先,參考圖25說明借助第一種搜索方法的搜索處理。如圖25 (1)中所示,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于最內(nèi)側(cè)圓250 中的區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)間的匹配似然性,并 通過使計(jì)算的似然性與區(qū)域聲學(xué)模型相聯(lián)系,將其存儲(chǔ)在RAM中。
      隨后,如圖25 (2)中所示,相對(duì)于由最內(nèi)側(cè)圓250和下一外圓 形成的環(huán)形區(qū)中的四個(gè)分段區(qū)域,區(qū)域模式模型搜索部分21c計(jì)算對(duì) 應(yīng)于這四個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹 配似然性,比較四個(gè)計(jì)算的似然性,并通過使計(jì)算的似然性中的最高 者與區(qū)域聲學(xué)模型相聯(lián)系,將其存儲(chǔ)在RAM中。另外,區(qū)域模式模 型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且 在其外面的分段區(qū)域,確定接下來的搜索方向。
      具體地說,根據(jù)本實(shí)施例,與圖25(3)所示的環(huán)形區(qū)域中的四 個(gè)扇形分段區(qū)域中的右上方分段區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型具有最高似
      81然性,與該分段區(qū)域相鄰并且在其外面的兩個(gè)分段區(qū)域被選擇,以確
      定接下來的搜索方向。隨后,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于 這兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似 然性。隨后,像上面的圖25(2)的情況一樣,區(qū)域模式模型搜索部 分21c比較這兩個(gè)似然性,并通過使計(jì)算的似然性中的較高者與區(qū)域 聲學(xué)模型相聯(lián)系,將其存儲(chǔ)在RAM中。另外,區(qū)域模式模型搜索部 分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面 的分段區(qū)域,確定接下來的搜索方向。
      具體地說,才艮據(jù)本實(shí)施例,對(duì)應(yīng)于圖25 (4)中所示的兩個(gè)扇形 分段區(qū)域中左邊一個(gè)扇形分段區(qū)域的區(qū)域聲學(xué)模型具有較高的似然 性,與該分段區(qū)域相鄰并且在其外面的兩個(gè)分段區(qū)域被選擇,以確定 接下來的搜索方向。隨后,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這 兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹配似然 性。隨后,像上面的圖25(3)的情況一樣,區(qū)域模式模型搜索部分 21c比較這兩個(gè)似然性,并通過使計(jì)算的似然性中的較高者與區(qū)域聲 學(xué)模型相聯(lián)系,將其存儲(chǔ)在RAM中。另外,區(qū)域模式模型搜索部分 21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的 分段區(qū)域,確定接下來的搜索方向。
      具體地說,根據(jù)本實(shí)施例,如圖25 (5)中所示,與在圖25 (4) 中選擇的確定搜索方向的兩個(gè)扇形分段區(qū)域中右邊一個(gè)對(duì)應(yīng)的區(qū)域聲 學(xué)模型具有較高的似然性,與該分段區(qū)域相鄰并且在其外面的兩個(gè)分 段區(qū)域被選擇,以確定接下來的搜索方向。隨后,區(qū)域模式模型搜索 部分21c計(jì)算對(duì)應(yīng)于這兩個(gè)分段區(qū)域的區(qū)域聲學(xué)模型與新講話者的語 音數(shù)據(jù)之間的匹配似然性。隨后,區(qū)域模式模型搜索部分21c比較這 兩個(gè)似然性,并通過使計(jì)算的似然性中的較高者與區(qū)域聲學(xué)模型相聯(lián) 系,將其存儲(chǔ)在RAM中。根據(jù)本實(shí)施例,圖25 (6)中所示的分段 區(qū)域具有較高似然性。另外,由于此時(shí)搜索已到達(dá)最外側(cè)的環(huán)形區(qū)域, 因此結(jié)束搜索處理。
      最后,區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的似然性,并將具有最高似然性的區(qū)域聲學(xué)模型選為適合于新講話者的語音數(shù)據(jù) 的語音識(shí)別的聲學(xué)模型。
      這樣,當(dāng)從最內(nèi)側(cè)圓到外側(cè)圓計(jì)算似然性時(shí),區(qū)域模式模型搜索
      部分21c通過選擇與具有最高似然性的分段區(qū)域相鄰的分段區(qū)域,確 定接下來的搜索方向,相互比較每個(gè)環(huán)形區(qū)域中的分段區(qū)域的計(jì)算似 然性,并根據(jù)比較的結(jié)果存儲(chǔ)最高的似然性。重復(fù)該處理,直到到達(dá) 最外側(cè)的環(huán)形區(qū)為止,最后,從存儲(chǔ)的似然性中,選擇具有最大似然 性的區(qū)域聲學(xué)模型作為適合于新講話者的聲學(xué)模型。
      順便提及,盡管第一搜索方法順序計(jì)算似然性,直到到達(dá)最外側(cè) 的環(huán)形區(qū)域?yàn)橹?,隨后從已被搜索的分段區(qū)域的最大似然性中選擇最 高的似然性,從而選擇適合于新講話者的區(qū)域聲學(xué)模型,不過這不是 限制性的。還可比較指定分段區(qū)域的似然性與下一內(nèi)部分段區(qū)域的似 然性,如果任意指定分段區(qū)域的最大似然性大于下一內(nèi)部分段區(qū)域的 最大似然性,那么如同第一搜索方法一樣,沿向外的方向繼續(xù)搜索, 或者如果下一內(nèi)部分段區(qū)域的任意似然性較大,那么停止所迷搜索,
      并將下一內(nèi)部分段區(qū)域的最大似然性選為適合于新講話者的區(qū)域聲學(xué) 模型的似然性。
      下面參考圖26說明借助第二種搜索方法的搜索處理。如圖26( 1) 中所示,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于最內(nèi)側(cè)圓250中的區(qū) 域的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)間的匹配似然性,并通過使 計(jì)算的似然性與區(qū)域模式才莫型相聯(lián)系,將計(jì)算的似然性存儲(chǔ)在RAM 中。隨后,如圖26 (2)中所示,關(guān)于由最內(nèi)側(cè)圓250和下一外圓形 成的環(huán)形區(qū)域中的四個(gè)分段區(qū)域,區(qū)域模式模型搜索部分21c計(jì)算與 這四個(gè)分段區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型與新講話者的語音數(shù)據(jù)之間的匹 配似然性,并通過使計(jì)算的似然性中的最高者與區(qū)域聲學(xué)模型相聯(lián)系, 將其存儲(chǔ)在RAM中。另外,區(qū)域模式模型搜索部分21c通過選擇與 對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰,并且在其外面的分段區(qū)域,確 定接下來的搜索方向。
      具體地說,根據(jù)本實(shí)施例,與圖26 (3)中所示的環(huán)形區(qū)域中的部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū)域的區(qū)域聲學(xué)模型和新講話者的語 音數(shù)據(jù)間的匹配似然性。隨后,像上面圖26 (2)的情況一樣,區(qū)域 模式模型搜索部分21c比較這四個(gè)似然性,并通過使計(jì)算的似然性中 的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相聯(lián)系,將它們存儲(chǔ)在RAM 中。另外,區(qū)域模式模型搜索部分21c通過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模 型的分段區(qū)域相鄰并且在其外面的分段區(qū)域,確定接下來的搜索方向。 具體地說,根據(jù)本實(shí)施例,與圖26(4)中所示右上方兩個(gè)扇形 分段區(qū)域中的右側(cè)分段區(qū)域,以及右下方兩個(gè)分段區(qū)域中的左側(cè)分段 區(qū)域?qū)?yīng)的區(qū)域聲學(xué)模型具有最高和次高的似然性,選擇與這兩個(gè)分 段區(qū)域相鄰并且在其外面的四個(gè)分段區(qū)域,以確定接下來的搜索方向。
      隨后,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū)域的區(qū)域 聲學(xué)模型和新講話者的語音數(shù)據(jù)間的匹配似然性。隨后,像上面的圖
      26 (3)的情況一樣,區(qū)域模式模型搜索部分21c比較這四個(gè)似然性, 并通過使計(jì)算的似然性中的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相 聯(lián)系,將它們存儲(chǔ)在RAM中。另外,區(qū)域模式模型搜索部分21c通 過選擇與對(duì)應(yīng)于區(qū)域聲學(xué)模型的分段區(qū)域相鄰并且在其外面的分段區(qū) 域,確定接下來的搜索方向。
      具體地說,根據(jù)本實(shí)施例,如圖26 (5)中所示,與包含在圖26 (4)中選擇的以確定搜索方向的四個(gè)分段區(qū)域的兩個(gè)扇形區(qū)域中的下 面一個(gè)對(duì)應(yīng)的兩個(gè)區(qū)域聲學(xué)模型具有最高和次高的似然性,選擇與這 兩個(gè)分段區(qū)域相鄰并且在其外面的四個(gè)分段區(qū)域,以確定接下來的搜 索方向。隨后,區(qū)域模式模型搜索部分21c計(jì)算對(duì)應(yīng)于這四個(gè)分段區(qū) 域的區(qū)域聲學(xué)模型和新講話者的語音數(shù)據(jù)間的匹配似然性。隨后,區(qū) 域模式模型搜索部分21c比較這四個(gè)似然性,并通過使計(jì)算的似然性 中的最高值和次高值與相應(yīng)的區(qū)域聲學(xué)模型相聯(lián)系,將它們存儲(chǔ)在 RAM中。根據(jù)本實(shí)施例,圖26(6)中所示的分段區(qū)域具有最高和次高的似然性。另外,由于此時(shí)搜索已到達(dá)最外側(cè)的環(huán)形區(qū)域,因此結(jié) 束搜索處理。
      最后,區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中的似然性, 并將具有最高似然性的區(qū)域聲學(xué)模型選為適合于新講話者的語音數(shù)據(jù) 的語音識(shí)別的聲學(xué)模型。
      這樣,當(dāng)從最內(nèi)側(cè)圓到外圓計(jì)算似然性時(shí),區(qū)域模式模型搜索部 分21c通過選擇與具有最高或次高似然性的分段區(qū)域相鄰的分段區(qū) 域,確定接下來的搜索方向,相互比較每個(gè)環(huán)形區(qū)域中的分段區(qū)域的 計(jì)算似然性,并根據(jù)計(jì)算結(jié)果存儲(chǔ)最高和次高的似然性。重復(fù)該處理,
      直到到達(dá)最外側(cè)的環(huán)形區(qū)域?yàn)橹?,最后,從存?chǔ)的似然性中,選擇具 有最大似然性的區(qū)域聲學(xué)模型作為適合于新講話者的聲學(xué)模型。
      順便提及,盡管第二種搜索方法通過選擇與對(duì)應(yīng)于前兩個(gè)似然性 的分段區(qū)域相鄰并且在其外面的分段區(qū)域,確定接下來的搜索方向, 并按分段區(qū)域存儲(chǔ)前兩個(gè)似然性,不過這不是限制性的。還可通過選 擇與對(duì)應(yīng)于前n個(gè)(n是小于指定環(huán)形區(qū)域的劃分結(jié)果的數(shù)量的整數(shù)) 似然性的分段區(qū)域相鄰并且在其外面的分段區(qū)域,確定接下來的搜索 方向,并按分段區(qū)域存儲(chǔ)前n個(gè)似然性。
      另外,用第一和第二搜索方法選擇的聲學(xué)模型可通過電纜等,被 傳送給新講話者的信息處理終端,比如蜂窩電話機(jī)或者PDA。
      另外,盡管對(duì)通過利用其識(shí)別性能低于預(yù)定閾值的語音單元的出 現(xiàn)頻率作為w(k) , 二維投射的搜索空間進(jìn)行按照第一和第二搜索方 法的區(qū)域聲學(xué)模型搜索,不過這不是限制性的。還可利用其識(shí)別性能 低于預(yù)定闊值的語音單元的出現(xiàn)頻率和簡單的出現(xiàn)頻率,產(chǎn)生獨(dú)立的 搜索空間,利用第一或第二搜索每個(gè)搜索空間中的區(qū)域聲學(xué)模型,比 較搜索空間之間區(qū)域聲學(xué)模型的似然性,并選擇具有更高似然性的搜 索空間中的區(qū)域模式模型。
      現(xiàn)在參考圖27,說明數(shù)據(jù)處理單元21的區(qū)域模式模型搜索部分 21c利用第一搜索方法執(zhí)行的搜索處理。圖27是表示區(qū)域模式模型搜 索部分21c利用笫一搜索方法進(jìn)行的搜索處理的流程圖。說明書第73/130頁
      如圖27中所示,當(dāng)在步驟S400中,數(shù)據(jù)處理單元21的用戶利用 輸入裝置選擇笫一搜索方法時(shí),區(qū)域模式模型搜索部分21c進(jìn)入步驟
      在步驟S402中,區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)獲取部分 21b是否獲取了新數(shù)據(jù)。如果發(fā)現(xiàn)已獲取新數(shù)據(jù)(Yes),那么區(qū)域模 式模型搜索部分21c進(jìn)入步驟S404。否則(No),它繼續(xù)所述判斷處 理,直到新數(shù)據(jù)被獲取為止。這里,新數(shù)據(jù)意味著關(guān)于新對(duì)象,比如 新的講話者的數(shù)據(jù)。這樣的數(shù)據(jù)可以是,例如新講話者的語音數(shù)據(jù)。
      在步驟S404中,區(qū)域模式模型搜索部分21c將獲取的新數(shù)據(jù)存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分lb中。隨后,它進(jìn)入步驟S406。
      在步驟S406中,區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)控制部分 ld是否已通過輸入裝置,接受來自數(shù)據(jù)處理單元21的用戶的搜索開 始命令。如果發(fā)現(xiàn)已獲取搜索開始命令(Yes),那么區(qū)域模式模型搜 索部分21c進(jìn)入步驟S408。否則(No),它繼續(xù)所述判斷處理,直到 接受搜索開始命令為止。
      在步驟S408中,區(qū)域模式模型搜索部分21c從數(shù)據(jù)存儲(chǔ)部分lb 讀出存儲(chǔ)的新數(shù)據(jù),并計(jì)算新數(shù)據(jù)和與對(duì)應(yīng)于區(qū)域劃分部分lh產(chǎn)生的 區(qū)域之中,最內(nèi)側(cè)圓中的區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。 隨后,它進(jìn)入步驟S410。
      在步驟S410,區(qū)域模式模型搜索部分21c將在步驟S408中計(jì)算 的似然性存儲(chǔ)在RAM中。隨后,它進(jìn)入步驟S412。
      在步驟S412中,區(qū)域模式模型搜索部分21c計(jì)算新數(shù)據(jù)和與鄰近 最內(nèi)側(cè)圓的環(huán)形區(qū)域中的分段區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然 性。隨后,它進(jìn)入步驟S414。
      在步驟S414中,區(qū)域模式模型搜索部分21c比較計(jì)算的分段區(qū)域 的似然性。隨后,它進(jìn)入步驟S416。
      在步驟S416中,區(qū)域模式模型搜索部分21c根據(jù)在步驟S414中 的比較結(jié)果,通過使最高的似然性與區(qū)域模式模型相聯(lián)系,將所述最 高的似然性存儲(chǔ)在RAM中。隨后,它進(jìn)入步驟S418。在步驟S418中,區(qū)域模式模型搜索部分21c判斷似然性計(jì)算是否 已到達(dá)最外側(cè)的環(huán)形區(qū)域。如果發(fā)現(xiàn)已到達(dá)最外側(cè)的環(huán)形區(qū)域(Yes ), 那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S420。否則(No),它進(jìn)入 步驟S424。
      在步驟S420中,區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中 的所有似然性。隨后,它進(jìn)入步驟S422。
      在步驟S422中,區(qū)域模式模型搜索部分21c根據(jù)步驟S420中的 比較結(jié)果,選擇對(duì)應(yīng)于最高似然性的區(qū)域模式模型,隨后它結(jié)束處理。
      另一方面,如果由于在步驟S418中,發(fā)現(xiàn)還未到達(dá)最外側(cè)的環(huán)形 區(qū)域,因此區(qū)域模式模型搜索部分21c進(jìn)入步驟S424,那么它根據(jù)步 驟S414中的比較結(jié)果,計(jì)算和與包含具有最高似然性的區(qū)域模式模型 的區(qū)域鄰近且在其外面的區(qū)域?qū)?yīng)的區(qū)域模式模型的似然性。隨后, 它進(jìn)入步驟S414。
      現(xiàn)在,參考圖28說明數(shù)據(jù)處理單元21的區(qū)域模式模型搜索部分 21c利用第二搜索方法進(jìn)行的搜索處理的流程。圖28是表示區(qū)域模式 模型搜索部分21c利用第二搜索方法進(jìn)行的搜索處理的流程圖。
      如圖28中所示,當(dāng)在步驟S500中,數(shù)據(jù)處理單元21的用戶利用 輸入裝置選擇第二搜索方法時(shí),區(qū)域模式模型搜索部分21c進(jìn)入步驟 S502。
      在步驟S502中,區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)獲取部分 21b是否獲取了新數(shù)據(jù)。如果發(fā)現(xiàn)已獲取新數(shù)據(jù)(Yes),那么區(qū)域模 式模型搜索部分21c進(jìn)入步驟S504。否則(No),它繼續(xù)所述判斷處 理,直到新數(shù)據(jù)被獲取為止。這里,新數(shù)據(jù)意味著關(guān)于新對(duì)象,比如 新的講話者的數(shù)據(jù)。這樣的數(shù)據(jù)可以是,例如新講話者的語音數(shù)據(jù)。
      在步驟S504中,區(qū)域模式模型搜索部分21c將獲取的新數(shù)據(jù)存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分lb中。隨后,它進(jìn)入步驟S506。
      在步驟S506中,區(qū)域模式模型搜索部分21c判斷數(shù)據(jù)控制部分 ld是否已通過輸入裝置,接受來自數(shù)據(jù)處理單元21的用戶的搜索開 始命令。如果發(fā)現(xiàn)已獲取搜索開始命令(Yes),那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S508。否則(No),它繼續(xù)所述判斷處理,直到 接受搜索開始命令為止。
      在步驟S508中,區(qū)域模式模型搜索部分21c從數(shù)據(jù)存儲(chǔ)部分lb 讀出存儲(chǔ)的新數(shù)據(jù),并計(jì)算新數(shù)據(jù)和與對(duì)應(yīng)于區(qū)域劃分部分lh產(chǎn)生的 區(qū)域之中,最內(nèi)側(cè)圓中的區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然性。 隨后,它進(jìn)入步驟S510。
      在步驟S510,區(qū)域模式模型搜索部分21c將在步驟S508中計(jì)算 的似然性存儲(chǔ)在RAM中。隨后,它進(jìn)入步驟S412。
      在步驟S512中,區(qū)域模式模型搜索部分21c計(jì)算新數(shù)據(jù)和與鄰近 最內(nèi)側(cè)圓的環(huán)形區(qū)域中的分段區(qū)域?qū)?yīng)的區(qū)域模式模型間的匹配似然 性。隨后,它進(jìn)入步驟S514。
      在步驟S514中,區(qū)域模式模型搜索部分21c比較計(jì)算的分段區(qū)域 的似然性。隨后,它進(jìn)入步驟S516。
      在步驟S516中,區(qū)域模式模型搜索部分21c根據(jù)在步驟S514中 的比較結(jié)果,通過使前ii個(gè)似然性與區(qū)域模式模型相聯(lián)系,將所述前 n個(gè)似然性存儲(chǔ)在RAM中。隨后,它進(jìn)入步驟S518。
      在步驟S518中,區(qū)域模式模型搜索部分21c判斷似然性計(jì)算是否 已到達(dá)最外側(cè)的環(huán)形區(qū)域。如果發(fā)現(xiàn)已到達(dá)最外側(cè)的環(huán)形區(qū)域(Yes), 那么區(qū)域模式模型搜索部分21c進(jìn)入步驟S520。否則(No),它進(jìn)入 步驟S524。
      在步驟S520中,區(qū)域模式模型搜索部分21c比較存儲(chǔ)在RAM中 的所有似然性。隨后,它進(jìn)入步驟S522。
      在步驟S522中,區(qū)域模式模型搜索部分21c根據(jù)步驟S520中的 比較結(jié)果,選擇對(duì)應(yīng)于最高似然性的區(qū)域模式模型,隨后它結(jié)束處理。
      另一方面,如果由于在步驟S518中,發(fā)現(xiàn)還未到達(dá)最外側(cè)的環(huán)形 區(qū)域,因此區(qū)域模式模型搜索部分21c進(jìn)入步驟S524,那么它根據(jù)步 驟S514中的比較結(jié)果,計(jì)算和與包含對(duì)應(yīng)于前n個(gè)似然性的區(qū)域模 式模型的區(qū)域鄰近且在其外面的區(qū)域?qū)?yīng)的區(qū)域模式模型的似然性。 隨后,它進(jìn)入步驟S514。
      88數(shù)據(jù)分類部分la能夠根據(jù)特定的條件,將關(guān)于多個(gè)預(yù)定對(duì)象的預(yù) 定數(shù)據(jù)(多個(gè)講話者的語音數(shù)據(jù))分組。
      模式模型產(chǎn)生部分lc能夠根據(jù)分組的預(yù)定數(shù)據(jù)(按照上面的實(shí)施 例,語音數(shù)據(jù)),產(chǎn)生每組的模式模型(按照上面的實(shí)施例,高維聲 學(xué)模型)。
      通過將其識(shí)別性能低于預(yù)定閾值的模式單元(按照上面的實(shí)施例, 語音單元)的出現(xiàn)頻率用作上面的等式(1)中的w (k),數(shù)學(xué)距離 計(jì)算部分le'能夠計(jì)算多個(gè)模式模型(按照上面的實(shí)施例,高維聲學(xué)模
      型)間的數(shù)學(xué)距離。
      模式模型轉(zhuǎn)換部分lf能夠根據(jù)模式模型(按照上面的實(shí)施例,高 維聲學(xué)模型)'間的數(shù)學(xué)距離,將多個(gè)模式模型(按照上面的實(shí)施例,
      高維聲學(xué)模型)轉(zhuǎn)換成相同數(shù)量的對(duì)應(yīng)于模式模型的低維向量(按照 上面的實(shí)施例,聲學(xué)模型兼容低維向量)。
      模式模型顯示部分lg能夠?qū)?duì)應(yīng)于模式模型的低維向量(按照上 面的實(shí)施例,聲學(xué)模型兼容低維向量)顯示成和對(duì)應(yīng)于模式模型的低 維向量相同維數(shù)的低維空間(按照上面的實(shí)施例,二維空間)中的坐 標(biāo)點(diǎn)。
      區(qū)域劃分部分lh能夠以這樣的方式自動(dòng)劃分存在于低維空間中, 并且包含坐標(biāo)點(diǎn)的區(qū)域,以致隨著離最內(nèi)側(cè)圓的徑向距離的增大,更 細(xì)致地劃分包含對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例,聲 學(xué)模型兼容低維向量)的環(huán)形區(qū)域。
      劃分改變部分li能夠根據(jù)輸入信息,改變區(qū)域劃分部分lh自動(dòng) 產(chǎn)生的劃分的結(jié)果。
      區(qū)域選擇部分lj能夠根據(jù)輸入信息,從顯示的分段區(qū)域中選擇一 個(gè)分段區(qū)域。
      特定模式模型產(chǎn)生部分lk能夠根據(jù)和模式模型(按照上面的實(shí)施 例,高維聲學(xué)模型)相關(guān)的數(shù)據(jù)(按照上面的實(shí)施例,語音數(shù)據(jù)), 產(chǎn)生特定的模式模型(按照上面的實(shí)施例,特定聲學(xué)模型),所述模 式模型(按照上面的實(shí)施例,高維聲學(xué)模型)和位于區(qū)域選擇部分li選擇的區(qū)域中的多個(gè)對(duì)應(yīng)于模式模型的低維向量(按照上面的實(shí)施例, 聲學(xué)模型兼容低維向量)相對(duì)應(yīng)。
      區(qū)域模式模型產(chǎn)生部分21a能夠產(chǎn)生由區(qū)域劃分部分lh產(chǎn)生的每 個(gè)分段區(qū)域的區(qū)域模式模型(按照上面的實(shí)施例,區(qū)域聲學(xué)模型)。
      數(shù)據(jù)獲取部分21b能夠獲取關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)(按照上面的 實(shí)施例,新的講話者的語音數(shù)據(jù))。
      利用第一或第二搜索方法,區(qū)域模式模型搜索部分21c能夠搜索 與區(qū)域劃分部分lh產(chǎn)生的分段區(qū)域?qū)?yīng)的區(qū)域模式模型(按照上面的 實(shí)施例,區(qū)域聲學(xué)模型),尋找適合于識(shí)別數(shù)據(jù)獲取部分21b獲取的 預(yù)定數(shù)據(jù)(按照上面的實(shí)施例,語音數(shù)據(jù))的區(qū)域模式模型。 (第七實(shí)例)
      參考圖29-31,說明一個(gè)實(shí)例,其中根據(jù)第二實(shí)施例的數(shù)據(jù)處理 單元21 二維投射每種說話風(fēng)格的多個(gè)高維聲學(xué)模型(下面稱為聲學(xué)模 型庫),將它們分成多個(gè)分段區(qū)域,產(chǎn)生各個(gè)分段區(qū)域的多個(gè)區(qū)域聲 學(xué)模型,利用第 一搜索方法從多個(gè)區(qū)域聲學(xué)模型中選擇一個(gè)區(qū)域聲學(xué) 模型,并比較這樣獲取的區(qū)域聲學(xué)模型與常規(guī)的MLLR (最大似然線 性回歸)獲取的聲學(xué)模型間的性能。
      圖29A是表示用于產(chǎn)生聲學(xué)模型的說話風(fēng)格的類型的圖,而圖 29B是表示由根據(jù)本發(fā)明的數(shù)據(jù)處理單元21顯示在二維表面中的聲學(xué) 模型兼容低維向量的圖。圖30是利用由根據(jù)本發(fā)明的數(shù)據(jù)處理單元 21的搜索方法選擇的聲學(xué)模型,和由常規(guī)的MLLR講話者適應(yīng)技術(shù) 選擇的聲學(xué)模型,表示識(shí)別性能和講話者之間的關(guān)系的圖。圖31是表
      示在對(duì)聲學(xué)模型的搜索期間產(chǎn)生的話語的數(shù)量與按照話語的數(shù)量選擇 的聲學(xué)模型的識(shí)別性能之間的關(guān)系的圖。
      對(duì)于性能比較來說,5240個(gè)音位均衡的單詞被分成均由175個(gè)單 詞組成的單詞表,145名男性講話者4皮要求以多種說話風(fēng)格說話,所 得到的語音數(shù)據(jù)被^^用。參與的講話者總共561名,其中533名講話 者是學(xué)習(xí)數(shù)據(jù)講話者,28名講話者是評(píng)估數(shù)據(jù)講話者。有關(guān)評(píng)估講話 者的選擇的細(xì)節(jié)將在后面說明。以20dB的S/N比將在展覽會(huì)錄制的背景噪聲重疊在語音數(shù)據(jù)上。采樣頻率為11.025 kHz。使用了七種說 話風(fēng)格,如圖29A中所示正常地(以正常速度說話),快速地(比 正常更快地說話),高聲地(比平常聲音更高地說話),小聲地(以 附近的人們甚至聽不見的方式說話),大聲地(大聲地說話,以致即 使是很遠(yuǎn)的人也能聽到),Lombard (在聽到汽車噪聲的時(shí)候說話), 和清晰地(清晰地發(fā)出每個(gè)假名的音)。利用簡單正態(tài)分布,通過雙 音素的基于HMM的建模,創(chuàng)建聲學(xué)模型。
      圖29B表示當(dāng)數(shù)據(jù)處理單元21將533名男性學(xué)習(xí)數(shù)據(jù)講話者的 講話者聲學(xué)模型顯示成二維平面中的坐標(biāo)點(diǎn)時(shí)得到的聲學(xué)空間圖。學(xué) 習(xí)數(shù)據(jù)中的雙音素的出現(xiàn)頻率被用作等式(1)中的語音單元k的出現(xiàn) 頻率w (k)。本例中,在數(shù)據(jù)處理單元21上,兩種出現(xiàn)頻率—即, 簡單雙音素的出現(xiàn)頻率和其識(shí)別性能低于預(yù)定閾值的雙音素的出現(xiàn)頻 率—被用作上面的等式(1)中的出現(xiàn)頻率w (k),在對(duì)區(qū)域聲學(xué)模
      型的搜索期間,比較包含在利用相應(yīng)的出現(xiàn)頻率產(chǎn)生的兩種聲學(xué)空間 圖中的搜索結(jié)果,并選擇產(chǎn)生較高似然性的區(qū)域聲學(xué)模型。 所使用的坐標(biāo)點(diǎn)的符號(hào)示于圖29A中。
      從圖29B可看出,坐標(biāo)點(diǎn)按照說話風(fēng)格形成多個(gè)組。這被認(rèn)為指 出聲學(xué)特性隨著說話風(fēng)格而變化。由于"正常,,說話風(fēng)格的坐標(biāo)點(diǎn)集中 于分布的中心,因此認(rèn)為當(dāng)被數(shù)據(jù)處理單元21映射到二維平面時(shí),具 有更平均的特性的說話風(fēng)格出現(xiàn)在中心。虛線箭頭表示同一講話者在 不同說話風(fēng)格間的差異。這指出如果在聲學(xué)分析后再次進(jìn)行統(tǒng)計(jì)處理, 那么與隨著講話者而變化相比,聲學(xué)特性隨著說話風(fēng)格而更大地變化。
      從圖29B的(總共28名評(píng)估講話者)的分布的內(nèi)緣和外緣中, 選擇每種說話風(fēng)格的兩個(gè)講話者作為評(píng)估講話者。HTK (Hidden Markov Model Toolkit)被用于評(píng)估(參見http:Vhtk.eng.cam.ac.uk/, 2004/7/12),并且并行的一套175個(gè)記錄單詞的列表被提供給評(píng)估講 話者。作為一種評(píng)估量度,除了單詞準(zhǔn)確度(下面簡單稱為識(shí)別性能) 之外,還使用識(shí)別性能低于XV。的評(píng)估講話者的比例(下面稱為 Population)。這是語音識(shí)別廠家需要嵌入式設(shè)備制造商作出的性能保證指標(biāo)之一。
      利用評(píng)估數(shù)據(jù)評(píng)估聲學(xué)模型庫?;谏倭康恼Z音樣本,由笫一搜 索方法從聲學(xué)模型庫選擇的聲學(xué)模型被稱為定制聲學(xué)模型。首先,在 定制聲學(xué)模型和講話者無關(guān)聲學(xué)模型之間比較性能,以確定基線性能,
      另外在定制聲學(xué)模型和由常規(guī)的MLLR講話者適應(yīng)技術(shù)獲取的講話 者適應(yīng)聲學(xué)模型之間比較性能。隨后,利用模型選擇所需的語音樣本
      的數(shù)量比較性能,并檢查對(duì)于足夠的性能改進(jìn)來說所需的語音樣本的 數(shù)量。至少用于模型選擇或者基于MLLR的講話者適應(yīng)的語音樣本, 由于認(rèn)為在任務(wù)中使用單詞是通例,因此使用從每個(gè)評(píng)估講話者的評(píng) 估數(shù)據(jù)中任意選擇的語音樣本。
      圖30表示相對(duì)于不同的講話者,在講話者無關(guān)聲學(xué)模型,講話者 適應(yīng)聲學(xué)模型(適應(yīng)的話語的數(shù)量為10 (由圖30中的MLLR_N10表 示)),講話者適應(yīng)聲學(xué)模型(適應(yīng)的話語的數(shù)量為30 (由圖30中 的MLLIN30表示)),和定制聲學(xué)模型(用于模型選擇的話語的 數(shù)量為5 (由圖30中的Custon^N5表示))間的識(shí)別性能的比較。
      在圖30中,水平軸代表講話者數(shù)量,而垂直軸代表依據(jù)講話者標(biāo)繪的 每個(gè)聲學(xué)模型的識(shí)別率。另外,假定講話者適應(yīng)聲學(xué)模型已適合于利
      用提供最高性能的學(xué)習(xí)會(huì)話的數(shù)量的講話者。適應(yīng)話語的數(shù)量加上和 于模型選擇的話語的數(shù)量等于模型選擇所需的每個(gè)講話者的語音樣本 的數(shù)量。
      從圖30可看出,定制聲學(xué)模型(圖30中的"翻")顯示出遠(yuǎn)高于講 話者無關(guān)聲學(xué)模型(圖30中的"x")的性能,尤其是就講話者1-11來 說更是如此,并提供與具有30個(gè)適應(yīng)話語的基于MLLR的講話者適 應(yīng)聲學(xué)模型(圖30中的"O,,)相等或更高的性能。與常規(guī)方法相比, 這減少了搜索所需的語音樣本的(即,和常規(guī)的方法相比,需要的計(jì) 算量較少),使得能夠比常規(guī)方法更快地搜索適合于每個(gè)講話者的定 制聲學(xué)模型。定制聲學(xué)模型向在講話者無關(guān)聲學(xué)模型和基于MLLR的
      講話者適應(yīng)聲學(xué)模型的情況下,特定在于識(shí)別性能差的講話者(圖30 中的講話者1-4)提供80%或者更高的高性能。從而,它還可用于在利用聲學(xué)模型間的距離創(chuàng)建的聲學(xué)空間圖中有選擇地搜索區(qū)域聲學(xué)模 型,所述聲學(xué)模型間的距離又是通過將兩種出現(xiàn)頻率-即,簡單雙音 素的出現(xiàn)頻率和其識(shí)別性能氏于預(yù)定閾值的雙音素的出現(xiàn)頻率-用作 上面的等式(1)中的出現(xiàn)頻率W (k)計(jì)算的。
      圖31表示話語的數(shù)量和平均識(shí)別性能間的關(guān)系(圖31中的"b"), 以及話語的數(shù)量和具有為80%或更低的識(shí)別率的總體(population) 之間的關(guān)系(圖31中的"參"),以舉例說明在根據(jù)本發(fā)明的數(shù)據(jù)處理 單元21進(jìn)行的對(duì)定制聲學(xué)模型的搜索期間,定制聲學(xué)模型的識(shí)別性能 與語音樣本的數(shù)量之間的關(guān)系。在圖31中,當(dāng)N-O時(shí)獲取的結(jié)果可歸 因于講話者無關(guān)聲學(xué)模型(Base一Line)。另外,水平軸代表話語的數(shù) 量,第一垂直軸(左側(cè))代表(講話者的平均)識(shí)別率,第二垂直軸 (右側(cè))代表具有為80%或更低的識(shí)別率的比例。
      在圖31中,話語的數(shù)量與平均識(shí)別性能(水平軸和第一垂直軸) 之間的關(guān)系指出只在三五個(gè)單詞內(nèi)識(shí)別性能被提高,話語的數(shù)量與具 有為80。/?;蚋偷淖R(shí)別率的總體(水平軸和第二垂直軸)之間的關(guān)系 指出只在三個(gè)單詞內(nèi),具有為80%或更低的識(shí)別率的總體的比例被減 小到0。從而,可認(rèn)為即使只說出三五個(gè)單詞,根據(jù)本發(fā)明的數(shù)據(jù)處 理單元21也能夠搜索相對(duì)于講話者,具有足夠的識(shí)別性能的聲學(xué)模 型。
      (第八實(shí)例)
      參見圖32,說明一個(gè)實(shí)例,其中根據(jù)本發(fā)明的數(shù)據(jù)處理單元21 比較適合于新講話者的兩種區(qū)域聲學(xué)模型間的識(shí)別性能,所述兩種區(qū) 域聲學(xué)模型是第一搜索方法搜索的區(qū)域聲學(xué)模型,和根據(jù)計(jì)算的與 關(guān)于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的匹配似然性搜索的區(qū)域聲學(xué)模型。本 例中使用的說話風(fēng)格、評(píng)估講話者等和上面的第七實(shí)例中相同。
      圖32是利用由第一搜索方法搜索的聲學(xué)模型,和根據(jù)計(jì)算的與關(guān) 于整個(gè)區(qū)域產(chǎn)生的聲學(xué)模型的匹配似然性搜索的聲學(xué)模型,表示識(shí)別 性能和講話者之間的關(guān)系的圖。
      在圖32中,和上面的第七實(shí)例的情況一樣,任意選擇每個(gè)講話者200910166394.7
      說 的五個(gè)語音樣本供搜索之用。從圖32可看出,當(dāng)比較兩個(gè)條件,即按 其計(jì)算語音樣本和所有區(qū)域聲學(xué)模型間的匹配似然性,并通過計(jì)算的
      似然性的比較,選擇具有最大似然性的區(qū)域聲學(xué)模型的條件(圖32 中A),和按其使用上面的第一方法的條件(圖32中的"*")時(shí),總 體上,在這兩個(gè)條件間不存在識(shí)別率方面的較大差異,不過局部上, 一個(gè)條件的識(shí)別率優(yōu)于或劣于另一條件的識(shí)別率。從而,可看出通過 利用上面的第一方法,能夠在不計(jì)算與所有區(qū)域聲學(xué)模型的匹配似然
      性的情況下,搜索適合于每個(gè)講話者的區(qū)域聲學(xué)模型。從而,在對(duì)區(qū) 域聲學(xué)模型的搜索中使用所述第一或第二搜索方法是有益的,使得能
      夠快速地搜索適合于每個(gè)講話者的區(qū)域聲學(xué)模型。 (第九實(shí)例)
      參考圖33-34,說明一個(gè)實(shí)例,其中通過改變上面的等式(1)中 的出現(xiàn)頻率w(k),比較識(shí)別性能。本例中使用的說話風(fēng)格、評(píng)估講 話者等和上面的第七實(shí)例中相同。
      圖33是表示識(shí)別性能和講話者之間的關(guān)系的圖,其中兩種出現(xiàn)頻 率被用作權(quán)重,標(biāo)準(zhǔn)出現(xiàn)頻率被用作權(quán)重,或者其識(shí)別性能低于預(yù)定 閾值的語音單元的出現(xiàn)頻率被用作權(quán)重。圖34A表示將簡單雙音素的 出現(xiàn)頻率用作距離的權(quán)重而產(chǎn)生的聲學(xué)空間圖,圖34B表示將其識(shí)別 性能低于預(yù)定閾值的雙音素的出現(xiàn)頻率用作距離的權(quán)重而產(chǎn)生的聲學(xué) 空間圖。
      在圖33中,Base一Line ( "x")代表按其利用整個(gè)區(qū)域的聲學(xué)模型 產(chǎn)生講話者無關(guān)聲學(xué)模型的條件,Custom_N5 ("■")代表按其在利 用和上面的笫七實(shí)例一樣的兩種出現(xiàn)頻率—即,簡單雙音素的出現(xiàn)頻 率和其識(shí)別性能最低的雙音素的出現(xiàn)頻率--作為上面的等式(1)中的 出現(xiàn)頻率w(k)而產(chǎn)生的聲學(xué)空間圖中,有選擇地搜索區(qū)域聲學(xué)模型 的條件,F(xiàn)requency ( "o")代表按其在利用簡單雙音素的出現(xiàn)頻率而 創(chuàng)建的聲學(xué)空間圖中搜索區(qū)域聲學(xué)模型的條件,Badphoneme Frequency ("O")代表按其在利用其識(shí)別性能最低的雙音素的出現(xiàn)頻 率而產(chǎn)生的聲學(xué)空間圖中搜索區(qū)域聲學(xué)模型的條件。從圖33中可看出,就講話者1來說,F(xiàn)requency條件表示識(shí)別率 低于75%的低識(shí)別性能,Badphoneme Frequency條件表示識(shí)別率高 于80%的高識(shí)別性能。另一方面,就講話者2來說,F(xiàn)requency條件 表示識(shí)別率高于80%的高識(shí)別性能,Badphoneme Frequency條件表 示識(shí)別率低于70%的低識(shí)別性能。這樣,盡管使用了少量的樣本,可 看出根據(jù)講話者,識(shí)別性能隨著用作權(quán)重的出現(xiàn)頻率而顯著變化。從 而,可認(rèn)為Custom—N5條件適合于各種各樣的講話者,在Custom—N5 條件下,通過從屬于Frequency條件和Badphoneme Frequency條件 的那些區(qū)域聲學(xué)模型中選擇具有高似然性的區(qū)域聲學(xué)模型,F(xiàn)requency 條件和Badphoneme Frequency條件彌補(bǔ)彼此的缺陷(對(duì)付處理時(shí)另 一方較差的講話者1)
      在圖34A中,存在彼此接近的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)。另一方面, 與圖34A中的坐標(biāo)點(diǎn)相比,圖34B中的被環(huán)繞的坐標(biāo)點(diǎn)更分散。這里, 圖34A中的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)和圖34B中的五個(gè)被環(huán)繞的坐標(biāo)點(diǎn)對(duì) 應(yīng)于相同的聲學(xué)模型。從而,可看出聲學(xué)模型的分布隨使用的出現(xiàn)頻 率的類型而顯著變化。如前所述,講話者間的聲學(xué)距離隨語音單元(音 位)而變化。即使使用出現(xiàn)頻率也沒有完全解決該問題。依據(jù)一種出 現(xiàn)頻率確定的聲學(xué)距離并不適用于所有語音單元。 一些語音單元并不 給出準(zhǔn)確的聲學(xué)距離,即使它們對(duì)識(shí)別來說較重要。從而,和按其利 用兩種出現(xiàn)頻率計(jì)算距離的Custom一N5條件的情況一樣,通過利用多 種出現(xiàn)頻率計(jì)算聲學(xué)模型間的距離,為每種出現(xiàn)頻率產(chǎn)生多個(gè)聲學(xué)空 間圖,并以這樣的方式利用聲學(xué)空間圖,以致當(dāng)搜索區(qū)域聲學(xué)模型時(shí), 彌補(bǔ)彼此的缺陷,可減輕上述問題。
      在上面的笫二實(shí)施例中,數(shù)據(jù)分類部分la對(duì)應(yīng)于在母案原權(quán)利要 求16、 18和28任意之一中限定的數(shù)據(jù)分類裝置;模式模型產(chǎn)生部分 lc對(duì)應(yīng)于在母案原權(quán)利要求16、 18、 24、 33和37任意之一中限定的 模式模型產(chǎn)生裝置數(shù)學(xué)距離計(jì)算部分le,對(duì)應(yīng)于在母案原權(quán)利要求16、 19和30任意之一中限定的數(shù)學(xué)距離計(jì)算裝置。模式模型轉(zhuǎn)換部分lf 95對(duì)應(yīng)于在母案原權(quán)利要求16、 18和31任意之一中限定的模式模型轉(zhuǎn) 換裝置;模式模型顯示部分lg對(duì)應(yīng)于在母案原權(quán)利要求16、 18和34 任意之一中限定的對(duì)應(yīng)于模式模型的低維向量顯示裝置;區(qū)域劃分部 分lh對(duì)應(yīng)于在母案原權(quán)利要求18、 21-23、 32、 34和37任意之一中 所述的區(qū)域劃分裝置;區(qū)域模式模型產(chǎn)生部分21a對(duì)應(yīng)于在母案原權(quán) 利要求18、 24和37任意之一中限定的區(qū)域模式模型產(chǎn)生裝置;數(shù)據(jù) 獲取部分21b對(duì)應(yīng)于在母案原權(quán)利要求18或37中限定的預(yù)定數(shù)據(jù)荻 取裝置;區(qū)域模式模型搜索部分21c對(duì)應(yīng)于在母案原權(quán)利要求18、 24-26、 33、 34和37任意之一中限定的區(qū)域模式模型搜索裝置;劃分 改變部分li對(duì)應(yīng)于在母案原權(quán)利要求32中限定的劃分改變裝置;模 式模型適應(yīng)部分lk對(duì)應(yīng)于在母案原權(quán)利要求33中限定的模式模型適 應(yīng)裝置。
      順便提及,雖然在上面描述的第二實(shí)施例中列舉了人類聲音,不 過本發(fā)明并不僅僅適用于人類聲音。當(dāng)被應(yīng)用于除人類聲音之外的數(shù) 據(jù)時(shí),本發(fā)明能夠解決類似的問題和提供類似的效果。
      另外,雖然在上述第二實(shí)施例中說明由模式模型轉(zhuǎn)換部分lf產(chǎn)生 的聲學(xué)模型兼容低維向量是二維的,不過這不是限制性的,也可使用 一維或者三維向量。 (第三實(shí)施例)
      下面參考

      本發(fā)明的第三實(shí)施例。圖35-42是表示根據(jù)本 發(fā)明的第三實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
      首先,參考圖35說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖35 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。
      如圖35中所示,數(shù)據(jù)處理系統(tǒng)5包括信息處理終端350A、 350B 和350C…,數(shù)據(jù)處理單元37和網(wǎng)絡(luò)6。
      信息處理終端350A-350C受系統(tǒng)用戶A-C控制。它們具有獲取相 應(yīng)系統(tǒng)用戶的語音數(shù)據(jù),和通過網(wǎng)絡(luò)6將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單 元37的功能,以及顯示從數(shù)據(jù)處理單元37獲取的信息的功能。根據(jù) 本實(shí)施例,硬件和軟件被安裝在信息處理單元,比如蜂窩電話機(jī)、PDA、PC和WS上,以實(shí)現(xiàn)上述功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
      數(shù)據(jù)處理單元37包含根據(jù)通過網(wǎng)絡(luò)6,從信息處理終端 350A-350C獲取的語音數(shù)據(jù),從分成多個(gè)區(qū)域的聲學(xué)空間圖搜索適合 于獲取的語音數(shù)據(jù)的講話者的區(qū)域聲學(xué)模型的功能;顯示關(guān)于獲取的 語音數(shù)據(jù)在由多個(gè)講話者的聲學(xué)模型構(gòu)成的聲學(xué)空間圖中的位置信息 以及搜索結(jié)果的功能;和將取回的聲學(xué)模型發(fā)送給系統(tǒng)用戶的功能。 詳細(xì)的結(jié)構(gòu)將在后面描迷。
      網(wǎng)絡(luò)6是連接多個(gè)信息處理設(shè)備,以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信 的LAN或WAN。本實(shí)施例使用因特網(wǎng)。
      現(xiàn)在參考圖36,說明信息處理終端350A-350C的詳細(xì)結(jié)構(gòu)。圖 36是表示信息處理終端350的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例,信息處 理終端350A-350C (可存在其它信息處理終端)具有相同的結(jié)構(gòu),它 們將被統(tǒng)稱為信息處理終端350。下面,信息處理終端350A-350C所 共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端350。另外,如圖35中所示, 信息處理終端并不局限于這三個(gè)信息處理終端350A-350C,并且可連 接受其它系統(tǒng)用戶控制的其它信息處理終端。
      如圖36中所示,信息處理終端350包括語音數(shù)據(jù)獲取部分350a, 第一數(shù)據(jù)控制部分350b,第一數(shù)據(jù)通信部分350c,信息顯示部分350d 和操作部分350e。
      語音數(shù)據(jù)獲取部分350a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置,比如麥克風(fēng),以及將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù) 的裝置,比如A/D轉(zhuǎn)換器。
      第一數(shù)據(jù)控制部分350b包括控制各個(gè)組件的處理的功能,包括控 制通過第一數(shù)據(jù)通信部分350c,將語音數(shù)據(jù)獲取部分350a獲取的語 音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元37的處理的功能,和控制信息顯示部分 350d中,顯示從數(shù)據(jù)處理單元37獲取的信息的處理的功能。
      第 一數(shù)據(jù)通信部分350c具有在第 一數(shù)據(jù)控制部分350b的控制下, 通過網(wǎng)絡(luò)6與數(shù)據(jù)處理單元37進(jìn)行各種數(shù)據(jù)通信的功能。
      信息顯示部分350d具有在第一數(shù)據(jù)控制部分350b的控制下,顯示信息,包括從數(shù)據(jù)處理單元37獲取的各種信息的功能。
      操作部分350e允許系統(tǒng)用戶輸入信息,以指定特定的講話者,或 者完成對(duì)語音數(shù)據(jù)處理控制程序的設(shè)置。
      根據(jù)本實(shí)施例,盡管未示出,但是信息處理終端350配有處理器、 RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。 當(dāng)處理器執(zhí)行專用程序時(shí),信息處理終端350控制上述組件。
      下面將參考圖37,說明數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)。圖37是表 示數(shù)據(jù)處理單元37的詳細(xì)結(jié)構(gòu)的方框圖。順便提及,和第二實(shí)施例中 的數(shù)據(jù)處理單元21的功能組件類似的那些功能組件將用和第二實(shí)施 例中相同的附圖標(biāo)記表示,和數(shù)據(jù)處理單元21相同的功能的描述將被 省略。
      數(shù)據(jù)處理單元37包括數(shù)據(jù)分類部分la、數(shù)據(jù)存儲(chǔ)部分lb、模式 模型產(chǎn)生部分lc、數(shù)據(jù)控制部分ld'、數(shù)學(xué)距離計(jì)算部分le'、模式模 型轉(zhuǎn)換部分lf、模式模型顯示部分lg、區(qū)域劃分部分lh、劃分改變 部分li、區(qū)域選擇部分lj、特定模式模型產(chǎn)生部分lk、區(qū)域模式模型 產(chǎn)生部分21a、第二數(shù)據(jù)通信部分37a和區(qū)域模式模型搜索部分21c。
      也就是說,不同于數(shù)據(jù)處理單元21的數(shù)據(jù)獲取部分21b,數(shù)據(jù)處 理單元37包括第二數(shù)據(jù)通信部分37a。
      除了根據(jù)第二實(shí)施例的數(shù)據(jù)控制部分ld的功能之外,數(shù)據(jù)控制部 分ld'還具有控制從信息處理終端350接收系統(tǒng)用戶的語音數(shù)據(jù),計(jì) 算語音數(shù)據(jù)在預(yù)先產(chǎn)生的聲學(xué)空間圖上的位置,計(jì)算恰當(dāng)區(qū)域的值, 和將計(jì)算結(jié)果及關(guān)于它們的注釋數(shù)據(jù)發(fā)送給信息處理終端350的處理
      的功能。另外,它具有控制根據(jù)新獲取的系統(tǒng)用戶的語音數(shù)據(jù),評(píng)估 系統(tǒng)用戶當(dāng)前使用的聲學(xué)模型的性能,并將評(píng)估結(jié)果以及關(guān)于它們的 注釋數(shù)據(jù)發(fā)送給信息處理終端350的處理的功能。
      第二數(shù)據(jù)通信部分37a具有在第二數(shù)據(jù)控制部分ld,的控制下,通 過網(wǎng)絡(luò)6,與信息處理終端350進(jìn)行各種數(shù)據(jù)通信的功能。
      下面將參考圖38和39說明數(shù)據(jù)處理系統(tǒng)5的更具體操作。圖38 是表示當(dāng)傳送適合于系統(tǒng)用戶的聲學(xué)模型時(shí),顯示的信息的實(shí)例的圖。圖39是表示當(dāng)評(píng)估系統(tǒng)用戶使用的聲學(xué)模型的性能,并傳送新的聲學(xué) 模型時(shí),顯示的信息的實(shí)例的圖。
      首先,數(shù)據(jù)處理單元37按照和上述第二實(shí)施例相同的程序,根據(jù) 多個(gè)講話者的語音數(shù)據(jù),產(chǎn)生高維聲學(xué)模型,將它們轉(zhuǎn)化成聲學(xué)模型 兼容低維向量,并將向量顯示成二維平面中的坐標(biāo)點(diǎn)。隨后,它劃分 其中聲學(xué)模型兼容低維向量被顯示成坐標(biāo)點(diǎn)的聲學(xué)空間,并根據(jù)與指 定分段區(qū)域中的聲學(xué)模型兼容低維向量對(duì)應(yīng)的語音數(shù)據(jù),產(chǎn)生每個(gè)分 段區(qū)域的區(qū)域聲學(xué)模型。 一旦產(chǎn)生了區(qū)域聲學(xué)模型,數(shù)據(jù)處理單元37 等待來自信息處理終端350的傳送適合于系統(tǒng)用戶的聲學(xué)模型的請(qǐng) 求,或者評(píng)估聲學(xué)模型的請(qǐng)求。
      另一方面,為了獲取適合于識(shí)別他/她自己的語音的聲學(xué)模型,系 統(tǒng)用戶通過操縱信息處理終端350的操作部分350e,指令第一數(shù)據(jù)控 制部分350b啟動(dòng)語音數(shù)據(jù)獲取程序。系統(tǒng)用戶通過語音數(shù)據(jù)獲取部分 350a,獲取他/她自己的語音。隨后,通過操縱操作部分350e,系統(tǒng)用 戶指令第一數(shù)據(jù)控制部分350b將獲取的語音數(shù)據(jù)和傳送請(qǐng)求信息及 評(píng)估請(qǐng)求信息一起發(fā)送給數(shù)據(jù)處理單元37。
      當(dāng)從信息處理終端350收到語音數(shù)據(jù)、傳送請(qǐng)求信息和評(píng)估請(qǐng)求 信息時(shí),數(shù)據(jù)處理單元37利用根據(jù)上述第二實(shí)施例的第一搜索方法, 搜索適合于獲取的語音數(shù)據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。語音數(shù)據(jù)還 提供關(guān)于系統(tǒng)用戶的語音數(shù)據(jù)具有何種說話風(fēng)格的信息。關(guān)于這樣獲 取的系統(tǒng)用戶的語音數(shù)據(jù)的信息連同預(yù)先準(zhǔn)備的注釋數(shù)據(jù)一起作為顯 示信息被發(fā)送給信息處理終端350。根據(jù)本實(shí)施例,數(shù)據(jù)處理單元37 存儲(chǔ)過去傳送給系統(tǒng)用戶的聲學(xué)模型的歷史,根據(jù)歷史評(píng)估過去的聲 學(xué)模型相對(duì)于當(dāng)前語音數(shù)據(jù)的性能,比較所述性能與此時(shí)新發(fā)現(xiàn)的聲 學(xué)模型的性能。這樣做的原因在于由于新講話者的語音數(shù)據(jù)的添加等, 在數(shù)據(jù)處理單元37中累積的語音數(shù)據(jù)被逐日更新,從而聲學(xué)空間圖被 更新。性能比較使得能夠判斷在新的聲學(xué)空間圖中找到的聲學(xué)模型是 否提供高于過去的聲學(xué)模型的識(shí)別性能,從而獲取具有高識(shí)別性能的 聲學(xué)模型。從而,根據(jù)本實(shí)施例,評(píng)估結(jié)果信息也作為顯示信息被發(fā)送給信息處理終端350。另外,傳送請(qǐng)求信息包含用于識(shí)別系統(tǒng)用戶 的標(biāo)識(shí)信息。
      當(dāng)信息處理終端350從數(shù)據(jù)處理單元37收到顯示信息時(shí),第一數(shù) 據(jù)控制部分350b在信息顯示部分350d的控制下,根據(jù)接收的顯示信 息顯示信息。顯示的信息包括,例如如圖38中所示,每種說話風(fēng)格的 聲學(xué)空間,系統(tǒng)用戶的語音數(shù)據(jù)在聲學(xué)空間中,以及在通過利用根據(jù) 上述第二實(shí)施例的技術(shù),將包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間分成 多個(gè)區(qū)域而獲取的分段區(qū)域中的相對(duì)位置,關(guān)于每種說話風(fēng)格的大分 區(qū)中的聲學(xué)模型的值計(jì)算公式,劃分成多個(gè)區(qū)域的每個(gè)環(huán)形區(qū)域(這 里稱為BAND)中的聲學(xué)模型的值計(jì)算公式,適合于系統(tǒng)用戶的聲學(xué) 模型的說明文本,供系統(tǒng)用戶決定是否購買的菜單,或者供系統(tǒng)用戶 選擇所需的聲學(xué)模型的菜單,和與選擇的聲學(xué)模型的數(shù)量及累積量相 關(guān)的信息。
      通過閱讀圖38中所示的說明文本,系統(tǒng)用戶知道與目前使用的聲 學(xué)模型相比,這次新找到的聲學(xué)模型提供更高的識(shí)別性能。通過查看 新的聲學(xué)模型的價(jià)格,系統(tǒng)用戶自己決定是否購買新的聲學(xué)模型,或 者是否選擇新的聲學(xué)模型。隨后,系統(tǒng)用戶通過操縱操作部分350e, 選擇并應(yīng)用所需的菜單項(xiàng)。如果他/她選擇并應(yīng)用"我想購買聲學(xué)模型 Yes",那么該信息被發(fā)送給數(shù)據(jù)處理單元37。當(dāng)收到該信息時(shí),數(shù)據(jù) 處理單元37將選擇的聲學(xué)模型傳送給信息處理終端350。另 一方面, 如果系統(tǒng)用戶選擇并應(yīng)用"我想選擇要購買的聲學(xué)模型",那么他/她被 允許通過將光標(biāo)放在所需說話風(fēng)格的聲學(xué)空間上,以及》支在通過用根 據(jù)上述第二實(shí)施例的技術(shù)劃分包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間而 獲取的分段區(qū)域中的所需分段區(qū)域上,選擇所需的聲學(xué)模型。從而, 關(guān)于所選聲學(xué)模型的信息被發(fā)送給數(shù)據(jù)處理單元37,數(shù)據(jù)處理單元37 隨后將選擇的聲學(xué)模型發(fā)送給信息處理終端350。
      現(xiàn)在將說明數(shù)據(jù)處理系統(tǒng)5被用于評(píng)估和替換系統(tǒng)用戶目前使用 的聲學(xué)模型的另一種形式。
      為了評(píng)估他/她目前使用的聲學(xué)模型,系統(tǒng)用戶通過操縱信息處理終端350的操作部分350e,指令第一數(shù)據(jù)控制部分350b啟動(dòng)語音數(shù) 據(jù)獲取程序。系統(tǒng)用戶通過語音數(shù)據(jù)獲取部分350a獲取他/她自己的 語音。隨后,通過操縱操作部分350e,系統(tǒng)用戶指令第一數(shù)據(jù)控制部 分350b將獲取的語音數(shù)據(jù)連同評(píng)估請(qǐng)求信息一起發(fā)送給數(shù)據(jù)處理單 元37。評(píng)估請(qǐng)求信息包括關(guān)于系統(tǒng)用戶的標(biāo)識(shí)信息。
      當(dāng)從信息處理終端50收到語音數(shù)據(jù)和評(píng)估請(qǐng)求信息時(shí),數(shù)據(jù)處理 單元37利用按照上述第二實(shí)施例的笫一搜索方法,搜索適合于獲取的 語音數(shù)據(jù)的語音識(shí)別的區(qū)域聲學(xué)模型。語音數(shù)據(jù)還提供關(guān)于系統(tǒng)用戶 的語音數(shù)據(jù)具有哪種說話風(fēng)格的信息。根據(jù)包含在評(píng)估請(qǐng)求信息中的 標(biāo)識(shí)信息,數(shù)據(jù)處理單元37獲取和過去傳送的聲學(xué)^=莫型相關(guān)的信息, 相對(duì)于獲取的語音數(shù)據(jù),計(jì)算過去的聲學(xué)模型的當(dāng)前識(shí)別率和取回的 聲學(xué)模型的識(shí)別率,并根據(jù)計(jì)算結(jié)果產(chǎn)生注釋。關(guān)于這樣獲取的系統(tǒng) 用戶的語音數(shù)據(jù)的信息和預(yù)先準(zhǔn)備的注釋數(shù)據(jù)一起作為顯示信息被發(fā) 送給信息處理終端350。
      當(dāng)信息處理終端350從數(shù)據(jù)處理單元37收到顯示信息時(shí),在第一 數(shù)據(jù)控制部分350b的控制下,信息顯示部分350d根據(jù)接收的顯示信 息顯示信息。顯示的信息包括,例如如圖39中所示,每種說話風(fēng)格的 聲學(xué)空間,系統(tǒng)用戶的語音數(shù)據(jù)在聲學(xué)空間中,以及在通過利用根據(jù) 上述第二實(shí)施例的技術(shù),將包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空間分成 多個(gè)區(qū)域而獲取的分段區(qū)域中的相對(duì)位置,系統(tǒng)用戶使用的當(dāng)前聲學(xué) 模型的評(píng)估細(xì)節(jié),供系統(tǒng)用戶決定是否替換當(dāng)前的聲學(xué)模型的菜單, 或者供系統(tǒng)用戶選擇所需的聲學(xué)模型的菜單,和與選擇的聲學(xué)模型的 數(shù)量相關(guān)的信息。
      通過閱讀圖39中所示的評(píng)估細(xì)節(jié),系統(tǒng)用戶知道與目前使用的聲 學(xué)模型相比,這次新找到的聲學(xué)模型提供更高的識(shí)別性能。系統(tǒng)用戶 自己決定是否用新找到的聲學(xué)模型替換當(dāng)前的聲學(xué)模型,或者是否選 擇新的聲學(xué)模型。隨后,系統(tǒng)用戶通過操縱操作部分350e,選擇并應(yīng) 用所需的菜單項(xiàng)。如果他/她選擇并應(yīng)用"我希望聲學(xué)模型被替換 Yes",那么該信息被發(fā)送給數(shù)據(jù)處理單元37。當(dāng)收到該信息時(shí),數(shù)據(jù)處理單元37將選擇的聲學(xué)模型傳送給信息處理終端350。另 一方面, 如果系統(tǒng)用戶選擇并應(yīng)用"我要選擇供替換的新的聲學(xué)模型",那么他/ 她被允許通過將光標(biāo)放在所需說話風(fēng)格的聲學(xué)空間上,以及放在通過 用根據(jù)上迷第二實(shí)施例的技術(shù)劃分包含系統(tǒng)用戶的語音數(shù)據(jù)的聲學(xué)空 間而獲取的分段區(qū)域中的所需分段區(qū)域上,選擇所需的聲學(xué)模型。從 而,關(guān)于所選聲學(xué)模型的信息被發(fā)送給數(shù)據(jù)處理單元37,數(shù)據(jù)處理單 元37隨后將選擇的聲學(xué)模型發(fā)送給信息處理終端350。由于聲學(xué)模型 的性能隨著例如目標(biāo)講話者的說話方式,目標(biāo)講話者發(fā)出的單詞的類 型,說話的時(shí)間選擇,說話的環(huán)境,目標(biāo)講話者的身體狀況等而變化, 因此如果目標(biāo)講話者身體狀況較差或者說話的環(huán)境急劇變化,那么當(dāng) 前的聲學(xué)模型可能不能提供足夠的識(shí)別性能。這種情況下,通過評(píng)估 當(dāng)前使用的聲學(xué)模型,并根據(jù)評(píng)估結(jié)果用新的聲學(xué)模型替換它們,能 夠提高識(shí)別性能。
      現(xiàn)在將參考圖40,說明信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的 流程。圖40是表示由信息處理終端350執(zhí)行的數(shù)據(jù)發(fā)送處理的流程圖。
      如圖40中所示,首先在步驟S600中,第一數(shù)據(jù)控制部分350b 判斷語音獲取模式是否有效。如果發(fā)現(xiàn)語音獲取模式有效(Yes),那 么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S602。否則(No),它等到語音
      獲取模式被激活為止。
      在步驟S602中,第一數(shù)據(jù)控制部分350b判斷是否已通過語音數(shù) 據(jù)獲取部分350a獲取語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取語音數(shù)據(jù)(Yes), 那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S604。否則(No),它等到獲 取語音數(shù)據(jù)為止。
      在步驟S604中,第一數(shù)據(jù)控制部分350b將獲取的語音數(shù)據(jù)(模 擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后,它進(jìn)入步驟S606。
      在步驟S606中,第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否通過 操縱操作部分350e,表示他/她的購買聲學(xué)模型的意圖。如果發(fā)現(xiàn)系統(tǒng) 用戶想購買聲學(xué)模型(Yes),那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟 S608。否則(No),它進(jìn)入步驟S610。在步驟608中,第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)通信部分 350c,將數(shù)字語音數(shù)據(jù)連同傳送請(qǐng)求信息(包含標(biāo)識(shí)信息)和評(píng)估請(qǐng) 求信息一起發(fā)送給數(shù)據(jù)處理單元37,隨后它結(jié)束處理。
      另一方面,在步驟S610中,第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用 戶是否通過操縱操作部分350e,產(chǎn)生了評(píng)估請(qǐng)求。如果發(fā)現(xiàn)系統(tǒng)用戶 產(chǎn)生了評(píng)估請(qǐng)求(Yes ),那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S612。 否則(No),它進(jìn)入步驟S614。
      —在步驟S612中,第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)處理部分 350c,將數(shù)字語音數(shù)據(jù)連同包含標(biāo)識(shí)信息的評(píng)估請(qǐng)求信息一起發(fā)送給 數(shù)據(jù)處理單元37,隨后它結(jié)束處理。
      另一方面,在步驟S614中,第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用 戶是否已通過操作部分350e,指定結(jié)束處理。如果發(fā)現(xiàn)已指定要結(jié)束 處理(Yes),那么第一數(shù)據(jù)控制部分350b結(jié)束處理。否則(No), 它進(jìn)入步驟S606。
      現(xiàn)在參考圖41,說明在產(chǎn)生區(qū)域模式模型之后,數(shù)據(jù)處理單元37 進(jìn)行的操作和處理的流程。圖41是表示由數(shù)據(jù)處理單元37進(jìn)行的操 作和處理的流程圖。
      如圖41中所示,首先在步驟S700中,第二數(shù)據(jù)控制部分ld'判 斷是否已從信息處理終端350收到了信息。如果發(fā)現(xiàn)收到了信息 (Yes),那么第二數(shù)據(jù)控制部分ld,進(jìn)入步驟S702。否則(No), 它等到收到信息為止。
      在步驟S702中,第二數(shù)據(jù)控制部分ld'判斷收到的信息是否包含 傳送請(qǐng)求信息和評(píng)估請(qǐng)求信息。如果發(fā)現(xiàn)包含傳送請(qǐng)求信息和評(píng)估請(qǐng) 求信息(Yes ),那么第二數(shù)據(jù)控制部分ld'進(jìn)入步驟S704。否則(No ), 它進(jìn)入步驟S710。
      在步驟S704中,第二數(shù)據(jù)控制部分ld'進(jìn)行語音數(shù)據(jù)處理,包括 搜索聲學(xué)模型和聲學(xué)模型的評(píng)估。隨后,它進(jìn)入步驟S706。
      在步驟S706中,第二數(shù)據(jù)控制部分ld,根據(jù)步驟S704中的語音 數(shù)據(jù)處理的結(jié)果,產(chǎn)生顯示信息。隨后,它進(jìn)入步驟S708。在步驟S708中,第二數(shù)據(jù)控制部分ld'通過第二數(shù)據(jù)通信部分 37a,將在步驟S706中產(chǎn)生的顯示信息發(fā)送給適當(dāng)?shù)男畔⑻幚斫K端 350。隨后,它進(jìn)入步驟S700。
      另 一方面,如果在步驟S702中發(fā)現(xiàn)接收的信息不包含傳送請(qǐng)求信 息,那么在步驟S710中,第二數(shù)據(jù)控制部分ld'判斷接收的信息是否 包含評(píng)估請(qǐng)求信息。如果發(fā)現(xiàn)包含評(píng)估請(qǐng)求信息(Yes),那么第二數(shù) 據(jù)控制部分ld'進(jìn)入步驟S712。否則(No),它進(jìn)入步驟S718。
      在步驟S712中,第二數(shù)據(jù)控制部分ld'進(jìn)行語音數(shù)據(jù)處理,包括 搜索區(qū)域聲學(xué)模型和聲學(xué)模型的評(píng)估。隨后,它進(jìn)入步驟S714。
      在步驟S714,第二數(shù)據(jù)控制部分ld'根據(jù)步驟S712中的語音數(shù)據(jù) 處理的結(jié)果,產(chǎn)生顯示信息。隨后,它進(jìn)入步驟S716。
      在步驟S716中,第二數(shù)據(jù)控制部分ld,通過第二數(shù)據(jù)通信部分 37a,將在步驟S714中產(chǎn)生的顯示信息發(fā)送給信息處理終端350。隨 后,它進(jìn)入步驟S700。
      另一方面,如果在步驟S710中,發(fā)現(xiàn)收到的信息也不包含評(píng)估請(qǐng) 求信息,那么第二數(shù)據(jù)控制部分ld'在步驟S718中丟棄接收的信息。 隨后,它進(jìn)入步驟S700。
      現(xiàn)在參考圖42,說明當(dāng)收到顯示信息時(shí),信息處理終端350執(zhí)行 的操作和處理的流程。圖42是表示當(dāng)接收顯示信息時(shí),由信息處理終 端350執(zhí)行的操作和處理的流程圖。
      如圖42中所示,首先在步驟S800中,第一數(shù)據(jù)控制部分350b 判斷是否已從數(shù)據(jù)處理單元37收到顯示信息。如果發(fā)現(xiàn)收到了顯示信 息(Yes),那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S802。否則(No), 它等到收到顯示信息為止。
      在步驟S802中,第一數(shù)據(jù)控制部分350b根據(jù)接收的顯示信息, 使信息顯示部分350d顯示信息。隨后,它進(jìn)入步驟S804。
      在步驟S804中,第一數(shù)據(jù)控制部分350b判斷系統(tǒng)用戶是否通過 操縱操作部分350e,從顯示的菜單中選擇了一個(gè)聲學(xué):t莫型。如果發(fā)現(xiàn) 選擇了一個(gè)聲學(xué)模型(Yes),那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S806。否則(No),它進(jìn)入步驟S812。
      在步驟S806中,第 一數(shù)據(jù)控制部分350b通過第 一數(shù)據(jù)通信部分 350c,將在于所選模式模型的信息發(fā)送給數(shù)據(jù)處理單元37。隨后,它 進(jìn)入步驟S808。
      在步驟S808中,第 一數(shù)據(jù)控制部分350b判斷是否從數(shù)據(jù)處理單 元37收到了選擇的聲學(xué)模型。如果發(fā)現(xiàn)已收到選擇的聲學(xué)模型(Yes ), 那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S810。否則(No),它等到收 到了選擇的聲學(xué)模型為止。
      在步驟S810中,第一數(shù)據(jù)控制部分350b將收到的聲學(xué)模型存儲(chǔ) 在存儲(chǔ)器部分(未示出)中,隨后它結(jié)束處理。
      另一方面,如果在步驟S804中發(fā)現(xiàn)沒有選擇任何聲學(xué)模型,那么 第 一數(shù)據(jù)控制部分350b在步驟S812中判斷系統(tǒng)用戶是否通過操縱操 作部分350e,從顯示的菜單中選擇聲學(xué)模型的替換。如果發(fā)現(xiàn)系統(tǒng)用 戶已選擇聲學(xué)模型替換(Yes),那么第一數(shù)據(jù)控制部分350b進(jìn)入步 驟S814。否則(No),它進(jìn)入步驟S804。
      在步驟S814中,第一數(shù)據(jù)控制部分350b通過第一數(shù)據(jù)通信部分 350c,將關(guān)于聲學(xué)模型替換的選擇的信息發(fā)送給數(shù)據(jù)處理單元37。隨 后,它進(jìn)入步驟S816。
      在步驟S816中,第一數(shù)據(jù)控制部分350b判斷是否從數(shù)據(jù)處理單 元37收到選擇的聲學(xué)模型。如果發(fā)現(xiàn)收到了選擇的聲學(xué)模型(Yes), 那么第一數(shù)據(jù)控制部分350b進(jìn)入步驟S818。否則(No),它等到收 到選擇的聲學(xué)模型為止。
      在步驟S818中,第一數(shù)據(jù)控制部分350b用收到的聲學(xué)模型更新 當(dāng)前的聲學(xué)模型,隨后它結(jié)束處理。
      在上述第三實(shí)施例中,由第 一數(shù)據(jù)控制部分350b和第 一數(shù)據(jù)通信 部分350c執(zhí)行的語音數(shù)據(jù)發(fā)送處理對(duì)應(yīng)于在母案原權(quán)利要求37中限 定的語音數(shù)據(jù)發(fā)送裝置,由第一數(shù)據(jù)控制部分350b和第 一數(shù)據(jù)通信部 分350c執(zhí)行的聲學(xué)模型接收處理對(duì)應(yīng)于在母案原權(quán)利要求37中限定 的特定模式模型獲取裝置,由第二數(shù)據(jù)控制部分ld'和第二數(shù)據(jù)通信部分37a執(zhí)行的聲學(xué)模型傳送處理對(duì)應(yīng)于在母案原權(quán)利要求37中限定 的特定模式模型發(fā)送裝置。 (第四實(shí)施例)
      下面參考

      本發(fā)明的第四實(shí)施例。圖43-50是表示根據(jù)本 發(fā)明的笫四實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
      首先,參考圖43,說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖43 是表示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。
      如圖43中所示,數(shù)據(jù)處理系統(tǒng)7包含信息處理終端2A-2C,數(shù)據(jù) 處理單元3和網(wǎng)絡(luò)4。
      信息處理終端2A-2C受系統(tǒng)用戶A-C控制。它們具有獲取相應(yīng)系 統(tǒng)用戶的語音數(shù)據(jù),和通過網(wǎng)絡(luò)4將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元3 的功能,顯示從數(shù)據(jù)處理單元3獲取的信息的功能,和與數(shù)據(jù)處理單 元3協(xié)商語音數(shù)據(jù)是否可^皮提供的功能。根據(jù)本實(shí)施例,硬件和軟件 被安裝在信息處理單元,比如PC和WS上,以實(shí)現(xiàn)上述功能。詳細(xì) 的結(jié)構(gòu)將在后面描述。
      數(shù)據(jù)處理單元3包括用于評(píng)估通過網(wǎng)絡(luò)4而從信息處理終端 2A-2C獲取的語音數(shù)據(jù)的值的功能,顯示獲取的語音數(shù)據(jù)在由多個(gè)講 話者的模式模型構(gòu)成的聲學(xué)空間中的位置信息以及評(píng)估結(jié)果的功能, 和與信息處理終端2A-2C協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功 能。詳細(xì)的結(jié)構(gòu)將在后面描迷。
      網(wǎng)絡(luò)4是連接多個(gè)信息處理設(shè)備,以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信 的LAN或WAN。本實(shí)施例4吏用因特網(wǎng),這是一種WAN。
      現(xiàn)在參考圖44,說明信息處理終端2A-2C的詳細(xì)結(jié)構(gòu)。圖44是 表示信息處理終端2的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例,信息處理終端 2A-2C具有相同的結(jié)構(gòu),它們將被統(tǒng)稱為信息處理終端2。下面,信 息處理終端2A-2C所共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端2。另 外,如圖43中所示,信息處理終端并不局限于這三個(gè)信息處理終端 2A-2C,可連接受其它系統(tǒng)用戶控制的其它信息處理終端。
      如圖44中所示,信息處理終端2包括第一數(shù)據(jù)獲取部分2a,第一數(shù)據(jù)控制部分2b,第一數(shù)據(jù)通信部分2c,第一信息顯示部分2d和 第一協(xié)商部分2e。
      第一數(shù)據(jù)獲取部分2a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置,比如麥克風(fēng),和將模擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)的 裝置,比如A/D轉(zhuǎn)換器。
      第一數(shù)據(jù)控制部分2b包括控制各個(gè)組件的處理的功能,包括控制 通過第一數(shù)據(jù)通信部分2c,將第一數(shù)據(jù)獲取部分2a獲取的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元3的處理的功能,控制第一信息顯示部分2d中, 顯示從數(shù)據(jù)處理單元3獲取的信息的處理的功能,和控制第一協(xié)商部 分2e與數(shù)據(jù)處理單元3之間的協(xié)商處理的功能。
      第一數(shù)據(jù)通信部分2c具有在第一數(shù)據(jù)控制部分2b的控制下,通 過網(wǎng)絡(luò)4與數(shù)據(jù)處理單元3進(jìn)行各種數(shù)據(jù)通信的功能。
      第一信息顯示部分2d具有在第一數(shù)據(jù)控制部分2b的控制下,顯 示信息,包括從數(shù)據(jù)處理單元3獲取的各種信息的功能。
      第一協(xié)商部分2e具有在第一數(shù)據(jù)控制部分2b的控制下,與數(shù)據(jù) 處理單元3協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功能。這里進(jìn)行 所述協(xié)商,以便系統(tǒng)用戶利用具有聊天能力的軟件與數(shù)據(jù)處理單元3 的操作員交換信息,或者以便數(shù)據(jù)處理單元3自動(dòng)將預(yù)先關(guān)于有價(jià)值 的語音數(shù)據(jù)準(zhǔn)備的信息(評(píng)估結(jié)果、消息等)發(fā)送給信息處理終端2, 和以便查看所述信息的系統(tǒng)用戶返回響應(yīng)??傊?,為了使系統(tǒng)用戶判 斷他/她的語音數(shù)據(jù)是否可被提供和向數(shù)據(jù)處理單元3返回判斷結(jié)果, 進(jìn)行所述協(xié)商。
      現(xiàn)在參考圖45,說明數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)。圖45是表示 數(shù)據(jù)處理單元3的詳細(xì)結(jié)構(gòu)的圖。
      如圖45中所示,數(shù)據(jù)處理單元3包括第二數(shù)據(jù)通信部分3a、第 二數(shù)據(jù)獲取部分3b、第二數(shù)據(jù)控制部分3c、位置計(jì)算部分3d、數(shù)據(jù) 評(píng)估部分3e、第二信息顯示部分3f、第二協(xié)商部分3g、操作部分3h 和數(shù)據(jù)存儲(chǔ)部分3i。
      第二數(shù)據(jù)通信部分3a具有在第二數(shù)據(jù)控制部分3c的控制下,通過網(wǎng)絡(luò)4,與信息處理終端2進(jìn)行各種數(shù)據(jù)通信的功能。
      第二數(shù)據(jù)獲取部分3b具有通過第二數(shù)據(jù)通信部分3a從信息處理 終端2獲取語音數(shù)據(jù)的功能,還具有分析獲取的語音數(shù)據(jù)并抽取為語 音數(shù)據(jù)的特有部分的特征數(shù)據(jù)的裝置。它還具有通過^L據(jù)抽取的特征 數(shù)據(jù)構(gòu)成HMM,產(chǎn)生目標(biāo)講話者的模式模型的裝置。順便提及,根 據(jù)本實(shí)施例,特征數(shù)據(jù)和目標(biāo)講話者的模式模型都被稱為語音數(shù)據(jù)。
      第二數(shù)據(jù)控制部分3c具有控制數(shù)據(jù)處理單元3的各個(gè)組件之間的 數(shù)據(jù)交換,以及控制處理的流程的功能。
      位置計(jì)算部分3d具有計(jì)算獲取的語音數(shù)據(jù)和多個(gè)講話者的模式 模型之間的位置關(guān)系的功能。
      具體地說,如果特征數(shù)據(jù)是語音數(shù)據(jù),那么計(jì)算語音數(shù)據(jù)和存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分3i (后面說明)中的多個(gè)講話者的模式模型之間的匹 配似然性,根據(jù)計(jì)算結(jié)果從多個(gè)講話者的模式模型中選擇具有最高似 然性的模式模型,該模式模型被看作與目標(biāo)講話者的語音數(shù)據(jù)等同。 根據(jù)本實(shí)施例,多個(gè)講話者的模式模型由HMM組成,根據(jù)從它們中 選擇的特定模式模型(或者可能根據(jù)對(duì)應(yīng)于目標(biāo)講話者的語音數(shù)據(jù)的 模式模型),確定它們的相對(duì)位置。隨后,由具有關(guān)于它們的相對(duì)位 置的信息的模式模型形成聲學(xué)空間。
      從而,在這種情況下,關(guān)于所選模式模型的相對(duì)位置的信息被用 作關(guān)于目標(biāo)講話者的語音數(shù)據(jù)的位置信息。
      另一方面,如果通過根據(jù)特征數(shù)據(jù)構(gòu)成HMM而產(chǎn)生的模式模型 是語音數(shù)據(jù),那么計(jì)算語音數(shù)據(jù)和模式模型間的相對(duì)位置,計(jì)算結(jié)果 被用作關(guān)于語音數(shù)據(jù)的位置信息。
      如果特征數(shù)據(jù)是語音數(shù)據(jù),那么數(shù)據(jù)評(píng)估部分3e計(jì)算選擇的模式 模型與多個(gè)講話者的其它模式模型間的數(shù)學(xué)距離,比較計(jì)算的距離與 數(shù)學(xué)距離的預(yù)定閾值Th,根據(jù)比較結(jié)果評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的 值。例如,如果存在于閾值Th內(nèi)的模式模型的數(shù)量較小,那么目標(biāo) 講話者的語音數(shù)據(jù)存在于非密集空間中,其中不存在具有相似特征的 大量語音數(shù)據(jù),稀缺值被認(rèn)為較高。另一方面,如果存在于閾值Th內(nèi)的模式模型的數(shù)量較大,那么目標(biāo)講話者的語音數(shù)據(jù)存在于密集空間中,其中存在具有相似特征的大量語音數(shù)據(jù),稀缺值^皮認(rèn)為較低。
      根據(jù)本實(shí)施例,由下面的等式(8)給出的歐幾里德距離或由下面的等式(9)給出的Bhattacharrya距離被用作數(shù)學(xué)距離。(公式5)
      其中J是維數(shù),L是狀態(tài)的數(shù)量HMM, n是平均HMM輸出概率,S是HMM輸出概率的方差。
      這里,可逐個(gè)音位地計(jì)算數(shù)學(xué)距離,同樣可逐個(gè)音位地評(píng)估語音數(shù)據(jù)的值。本實(shí)施例允許系統(tǒng)用戶自由地啟用和禁用這樣的設(shè)置。
      第二信息顯示部分3f具有顯示信息,比如數(shù)據(jù)評(píng)估部分3e產(chǎn)生的評(píng)估結(jié)果的功能。這里,顯示的信息包括通過評(píng)估結(jié)果的量化而獲取的信息,通過根據(jù)計(jì)算的模式模型間的數(shù)學(xué)距離,利用Sammon方法二維地投射基于HMM的模式模型間的距離關(guān)系而獲取的信息,以及其它信息。
      第二協(xié)商部分3g具有在第二數(shù)據(jù)控制部分3c的控制下,與信息處理終端2協(xié)商是否可通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)的功能。
      當(dāng)確定是否與系統(tǒng)用戶協(xié)商或者與系統(tǒng)用戶交換消息時(shí),操作部分3h由查看在第二信息顯示部分3f中顯示的信息的操作者用于輸入輸入數(shù)據(jù)。
      數(shù)據(jù)存儲(chǔ)部分3i存儲(chǔ)多個(gè)講話者的模式模型,對(duì)其成功完成協(xié)商的語音數(shù)據(jù),和其它必要的數(shù)據(jù)。
      根據(jù)本實(shí)施例,盡管未示出,但是數(shù)據(jù)處理單元3配有處理器、RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。當(dāng)處理器執(zhí)行專用程序時(shí),上述組件被控制。
      下面將參考圖46和47,說明數(shù)據(jù)處理單元系統(tǒng)7的更具體操作。
      1 |fe々,xEgJ/2|圖46A和46B是表示數(shù)據(jù)處理系統(tǒng)7執(zhí)行的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估處理的流程的圖。圖47是表示其中聲學(xué)空間被二維投射的實(shí)例的圖。
      參見圖46A和47,下面說明在特征數(shù)據(jù)由語音數(shù)據(jù)構(gòu)成的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估處理的第一結(jié)構(gòu)。
      首先,說明評(píng)估處理所需的初始數(shù)據(jù)庫構(gòu)成處理的流程-示于圖46A中的(1)-(4)中。如果初始數(shù)據(jù)庫已存在,那么步驟(l)-(4)不是必需的。
      (1) 第二數(shù)據(jù)獲取部分3b獲取N個(gè)(N為整數(shù))注冊(cè)講話者的語音。
      (2) 第二數(shù)據(jù)獲取部分3b分析獲取的語音并抽取特征值。
      (3) 第二數(shù)據(jù)獲取部分3b根據(jù)抽取的特征值產(chǎn)生特定講話者和非特定講話者的HMM,并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí),以產(chǎn)生每個(gè)特定講話者的 一個(gè)模式模型和非特定講話者的 一個(gè)模式模型。
      (4) 第二數(shù)據(jù)獲取部分3b將N個(gè)特定講話者的多個(gè)模式模型(HMM)和非特定講話者的一個(gè)模式模型(HMM)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)
      部分3i中。
      下面,說明在圖46A的(5) - (10)中表示的語音數(shù)據(jù)評(píng)估處理的流程。
      (5 )第二數(shù)據(jù)獲取部分3b從信息處理終端2獲取系統(tǒng)用戶的語音數(shù)據(jù)。
      (6)第二數(shù)據(jù)獲取部分3b分析獲取的語音數(shù)據(jù),并抽取特征值。(7 )位置計(jì)算部分3d計(jì)算抽取的特征數(shù)據(jù)和多個(gè)特定講話者的
      模式模型間的匹配似然性。這里假定說話的內(nèi)容已知(在說話時(shí)被輸入)。
      (8)位置計(jì)算部分3d根據(jù)計(jì)算的似然性,選擇具有最高似然性的模式模型,并計(jì)算該模式模型與其它特定講話者的模式模型間的數(shù)學(xué)距離。前M個(gè)模式模型可被使用(M是小于N的整數(shù))。這種情況下,為選擇的M個(gè)模式模型中的每一個(gè)計(jì)算到其它特定講話者的模
      110式模型的數(shù)學(xué)距離。根據(jù)本實(shí)施例,當(dāng)計(jì)算了數(shù)學(xué)距離時(shí),可根據(jù)計(jì)
      算的數(shù)學(xué)距離,通過后面說明的步驟(11)和(12),利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖47中所示),以致操作者能夠直觀地了解語音數(shù)據(jù)的位置關(guān)系。
      (9 )數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離,評(píng)估語音數(shù)據(jù)的值。具體地說,如果存在其介于閾值Th和目標(biāo)講話者的模式模型間的數(shù)學(xué)距離低于閾值Th的許多模式模型,那么數(shù)據(jù)評(píng)估部分3e確定在目標(biāo)講話者的模式模型周圍,存在許多具有類似聲學(xué)特性的模式模型。另一方面,如果存在其數(shù)學(xué)距離低于闊值Th的少量模式模型,那么數(shù)據(jù)評(píng)估部分3e確定在指定的模式模型周圍,存在少量聲學(xué)上類似的
      模式模型。
      從而,周圍存在大量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有低的稀缺值,周圍存在少量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有高的稀缺值。
      通過第二數(shù)據(jù)通信部分3a,評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端2A,如果目標(biāo)講話者是系統(tǒng)用戶A的話。
      根據(jù)本實(shí)施例,如果稀缺值被認(rèn)為較高,那么評(píng)估結(jié)果信息包含關(guān)于二維投射的位置關(guān)系的信息,指示評(píng)估結(jié)果的信息(數(shù)字、稀缺值的度數(shù)等),和關(guān)于獲取語音數(shù)據(jù)的意圖的信息,如果稀缺值被認(rèn)為較低,那么評(píng)估結(jié)果信息包含關(guān)于二維投射的位置關(guān)系的信息,指示評(píng)估結(jié)果的信息(數(shù)字、稀缺值的度數(shù)等),關(guān)于不獲取語音數(shù)據(jù)的意圖的信息,和希望獲取的語音數(shù)據(jù)的特性信息。希望獲取的語音數(shù)據(jù)的特性信息包括關(guān)于說話方式的信息,比如私語,臥位發(fā)出的語音等。
      使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤。關(guān)于所述M個(gè)模式模型中的每一個(gè)確定在闊值Th內(nèi)的其它講話者的數(shù)量,平均值被用于上面所述的評(píng)估。
      順便提及,盡管4艮據(jù)本實(shí)施例,所述評(píng)估由數(shù)據(jù)評(píng)估部分3e自動(dòng)進(jìn)行,不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息,自己進(jìn)行評(píng)估。
      如果語音數(shù)據(jù)被認(rèn)為具有高的稀缺值,那么數(shù)據(jù)處理系統(tǒng)7進(jìn)入圖46A的步驟(10)。
      (10 )第二協(xié)商部分3g與信息處理終端2協(xié)商誰是希望獲取的語音數(shù)據(jù)的發(fā)送者。根據(jù)本實(shí)施例,數(shù)據(jù)處理單元3通過網(wǎng)絡(luò)4向信息處理終端2發(fā)送預(yù)定消息,并通過網(wǎng)絡(luò)4從系統(tǒng)用戶接收對(duì)所述消息的響應(yīng)。假如系統(tǒng)用戶無論如何拒絕提供希望獲取的語音數(shù)據(jù),那么通過經(jīng)網(wǎng)絡(luò)4,在數(shù)據(jù)處理單元3和信息處理終端2之間交換消息,允許操作者和系統(tǒng)用戶進(jìn)行基于消息的協(xié)商。
      (11)第二信息顯示部分3f根據(jù)計(jì)算的數(shù)學(xué)距離,利用Samrnon方法(一種已知方法)二維投射所有模式模型(HMM)間的距離關(guān)系。
      (12 )第二信息顯示部分3f將關(guān)于HMM的二維投射的坐標(biāo)信息顯示成平面上的點(diǎn),如圖55A和55B中所示。圖55A表示當(dāng)逐個(gè)單詞(或者逐句)處理HMM時(shí)的HMM坐標(biāo)點(diǎn)。即,每個(gè)點(diǎn)代表每個(gè)講話者的模式模型,兩點(diǎn)之間的距離代表它們的相似性。
      在圖55A中,在點(diǎn)40周圍可存在多個(gè)點(diǎn),意味著存在具有相似聲學(xué)特性的大量模式模型,從而可直觀地了解稀缺值較低。
      另一方面,點(diǎn)41位于聲學(xué)空間的邊緣,其周圍存在很少的點(diǎn),從而可直觀地了解稀缺值較高。
      圖55B表示當(dāng)逐個(gè)音位(圖中的"a"、 "i"、 "u"、 "e"和"o")地處理HMM時(shí)的HMM坐標(biāo)點(diǎn)。這^f吏得能夠逐個(gè)音位地直觀評(píng)估語音數(shù)據(jù)的值。
      此外,如上所述,模式模型的密度或評(píng)估結(jié)果被量化,所得到的數(shù)字被原樣顯示或者被顯示成圖。如果系統(tǒng)用戶A的語音數(shù)據(jù)位于位置女52,如圖55A中所示,那么該語音數(shù)據(jù)的值由示于該圖右下角的數(shù)字70表示。如果該值的平均值為57,那么易于看出該語音數(shù)據(jù)的值高于平均值。
      (13)如果在(10)中成功完成與系統(tǒng)用戶的協(xié)商,那么第二數(shù)據(jù)控制部分3c將目標(biāo)的語音數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。根據(jù)本實(shí)施例,在被轉(zhuǎn)換成基于HMM的模式模型之后,語音數(shù)據(jù)被加入,從而被存儲(chǔ)在(上面產(chǎn)生的)初始數(shù)據(jù)庫中。
      現(xiàn)在參考圖46B和55,說明在根據(jù)特征數(shù)據(jù)產(chǎn)生的模式模型由語音數(shù)據(jù)構(gòu)成的情況下,初始數(shù)據(jù)庫構(gòu)成處理和核實(shí)性能檢測(cè)處理的第二結(jié)構(gòu)。
      首先,講話者核實(shí)所需的示于圖46B中的(1) - (4)中的初始數(shù)據(jù)庫構(gòu)成處理和圖46A的(1) - (4)中的第一結(jié)構(gòu)相同,從而其說明將被省略。
      下面,說明在圖46B中的(5) - (11)中所示的語音數(shù)據(jù)評(píng)估處理的流程。
      (5) 第二數(shù)據(jù)獲取部分3b從信息處理終端2獲取系統(tǒng)用戶的語音數(shù)據(jù)。
      (6) 第二數(shù)據(jù)獲取部分3b分析獲取的語音數(shù)據(jù)并抽取特征值。
      (7) 第二數(shù)據(jù)獲取部分3b根據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM,并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)。
      (8 )第二數(shù)據(jù)獲取部分3b通過HMM學(xué)習(xí)產(chǎn)生目標(biāo)講話者的模式模型,并將其存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。
      (9 )位置計(jì)算部分3d計(jì)算產(chǎn)生的目標(biāo)講話者的模式模型與其它特定講話者的模式模型之間的數(shù)學(xué)距離。根據(jù)本實(shí)施例,當(dāng)數(shù)學(xué)距離被計(jì)算時(shí),根據(jù)計(jì)算的數(shù)學(xué)距離,通過后面說明的步驟(12)和(13),可利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖47中所示),從而操作者能夠直觀地了解語音數(shù)據(jù)的位置關(guān)系。
      (10 )數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離,評(píng)估語音數(shù)據(jù)的值。具體地說,如果存在其介于閾值Th和目標(biāo)講話者的模式模型間的數(shù)學(xué)距離低于閾值Th的許多模式模型,那么數(shù)據(jù)評(píng)估部分3e確定在目標(biāo)講話者的模式模型周圍,存在許多具有類似聲學(xué)特性的模式模型。另一方面,如果存在其數(shù)學(xué)距離低于閾值Th的少量模式模型,那么數(shù)據(jù)評(píng)估部分3e確定在指定的模式模型周圍,存在少量聲學(xué)上類似的模式模型。
      從而,周圍存在大量具有相似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有低的稀缺值,周圍存在少量具有類似聲學(xué)特性的模式模型的語音數(shù)據(jù)被認(rèn)為具有高的稀缺值。
      通過第二數(shù)據(jù)通信部分3a,評(píng)估結(jié)果信息被發(fā)送給例如信息處理終端2B,如果目標(biāo)講話者是系統(tǒng)用戶B的話。
      使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中的錯(cuò)誤。關(guān)于所述M個(gè)模式模型中的每一個(gè)確定在閾值Th內(nèi)的其它講話者的數(shù)量,平均值被用于上面所述的評(píng)估。
      順便提及,盡管根據(jù)本實(shí)施例,所述評(píng)估由數(shù)據(jù)評(píng)估部分3e自動(dòng)進(jìn)行,不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它顯示信息,自己進(jìn)行評(píng)估。
      如果語音數(shù)據(jù)被認(rèn)為具有高的稀缺值,那么數(shù)據(jù)處理系統(tǒng)7進(jìn)入圖46B的步驟(11)。
      (11 )第二協(xié)商部分3g與信息處理終端2協(xié)商誰是希望獲取的語音數(shù)據(jù)的發(fā)送者。根據(jù)本實(shí)施例,數(shù)據(jù)處理單元3通過網(wǎng)絡(luò)4向信息處理終端2發(fā)送預(yù)定消息,并通過網(wǎng)絡(luò)4從系統(tǒng)用戶接收對(duì)所述消息的響應(yīng)。假如系統(tǒng)用戶無論如何拒絕提供希望獲取的語音數(shù)據(jù),那么通過經(jīng)網(wǎng)絡(luò)4,在數(shù)據(jù)處理單元3和信息處理終端2之間交換消息,允許操作者和系統(tǒng)用戶進(jìn)行基于消息的協(xié)商(例如關(guān)于金額的協(xié)商)。
      利用二維投射在聲學(xué)空間中顯示數(shù)據(jù)的處理和顯示評(píng)估結(jié)果的處理(示于圖46B中的(12)和(13)中)與按照上述第一結(jié)構(gòu)的圖46A中的(11)和(12)相同,從而其說明將被省略。
      現(xiàn)在參考圖48,說明信息處理終端2執(zhí)行的操作和處理的流程。圖48是表示由信息處理終端2執(zhí)行的操作和處理的流程圖。
      如圖48中所示,首先在步驟S900中,信息處理終端2使第一數(shù)據(jù)控制部分2b判斷語音數(shù)據(jù)的獲取是否已開始。如果發(fā)現(xiàn)所述獲取已開始(Yes),那么信息處理終端2進(jìn)入步驟S902。否則(No),它使第一數(shù)據(jù)控制部分2b繼續(xù)所述判斷處理,直到開始所述獲取為止。
      114一數(shù)據(jù)獲取部分2a獲取目標(biāo)講話者(按照本實(shí)施例,系統(tǒng)用戶A-C中的任意一個(gè))發(fā)出的語音(模擬數(shù)據(jù))。隨后,它進(jìn)入步驟S904。
      在步驟S卯4中,信息處理終端2使第一數(shù)據(jù)獲取部分2a將獲取的語音(模擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后,它進(jìn)入步驟S906。
      在步驟S906中,信息處理終端2使第一數(shù)據(jù)控制部分2b通過第一數(shù)據(jù)通信部分2c將數(shù)字語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元3。隨后它進(jìn)入步驟S908。
      在步驟S908中,信息處理終端2使第一數(shù)據(jù)控制部分2b判斷是否通過第一數(shù)據(jù)通信部分2c,從數(shù)據(jù)處理單元3收到了語音數(shù)據(jù)的評(píng)估結(jié)果。如果發(fā)現(xiàn)收到了所述評(píng)估結(jié)果(Yes),那么信息處理終端2進(jìn)入步驟S910,否則(No),它使第一數(shù)據(jù)控制部分2b繼續(xù)所述判斷處理,直到收到評(píng)估結(jié)果為止。
      在步驟S910中,信息處理終端2使第一信息顯示部分2d在第一數(shù)據(jù)控制部分2b的控制下顯示接收的評(píng)估結(jié)果。隨后,它進(jìn)入步驟S912。
      在步驟S912中,信息處理終端2使第一數(shù)據(jù)控制部分2b判斷是否存在關(guān)于接收的評(píng)估結(jié)果的協(xié)商請(qǐng)求。如果發(fā)現(xiàn)存在協(xié)商請(qǐng)求(Yes),那么信息處理終端2進(jìn)入步驟S914。否則(No),它進(jìn)入步驟S918。
      在步驟S914中,信息處理終端2使第一數(shù)據(jù)控制部分2b,第一協(xié)商部分2e和第一數(shù)據(jù)通信部分2c開始協(xié)商處理,與數(shù)據(jù)處理單元3協(xié)商是否能夠通過網(wǎng)絡(luò)4提供語音數(shù)據(jù)。隨后,它進(jìn)入步驟S916。
      在步驟S916中,信息處理終端2使第一數(shù)據(jù)控制部分2b,第一協(xié)商部分2e和第一數(shù)據(jù)通信部分2c根據(jù)來自目標(biāo)講話者的輸入信息,向數(shù)據(jù)處理單元3發(fā)送關(guān)于語音數(shù)據(jù)是否可被提供的決定。隨后,它進(jìn)入步驟S918。
      在步驟S918中,信息處理終端2使第一數(shù)據(jù)控制部分2b判斷語音數(shù)據(jù)獲取處理是否應(yīng)被結(jié)束。如果發(fā)現(xiàn)所述處理應(yīng)被結(jié)束(Yes),那么信息處理終端2進(jìn)入步驟S900。否則(No),它進(jìn)入步驟S卯2。這里,根據(jù)經(jīng)由諸如鼠標(biāo)或鍵盤(未示出)之類的輸入裝置,來
      自系統(tǒng)用戶的輸入信息,判斷所述處理是否應(yīng)被結(jié)束。
      現(xiàn)在參考圖49,說明由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程。
      圖49是表示由數(shù)據(jù)處理單元3執(zhí)行的操作和處理的流程圖。
      如圖49中所示,首先在步驟SIOOO中,數(shù)據(jù)處理單元3使第二數(shù)
      據(jù)控制部分3c判斷是否已通過第二數(shù)據(jù)通信部分3a從信息處理終端
      2獲取了語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取所述語音數(shù)據(jù)(Yes),那么數(shù)據(jù)
      處理單元3進(jìn)入步驟S1002。否則(No),它使第二數(shù)據(jù)控制部分3c
      繼續(xù)所述判斷處理,直到獲取語音數(shù)據(jù)為止。
      在步驟S1002中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)獲取部分3b從獲取的語音數(shù)據(jù)抽取特征值。隨后,它進(jìn)入步驟S1004。順便提及,按照第一種結(jié)構(gòu),根據(jù)似然性計(jì)算,從多個(gè)講話者的模式模型中選擇具有最相似的聲學(xué)特性的模式,并將其指定為獲取的語音數(shù)據(jù)的模式模型。另一方面,按照第二種結(jié)構(gòu),根據(jù)抽取的特征值產(chǎn)生獲取的語音的模式模型。
      在步驟S1004中,數(shù)據(jù)處理單元3使位置計(jì)算部分3d計(jì)算獲取的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后,它進(jìn)入步驟S1006。
      在步驟S1006中,數(shù)據(jù)處理單元3使數(shù)據(jù)評(píng)估部分3e根據(jù)計(jì)算的數(shù)學(xué)距離,評(píng)估獲取的語音數(shù)據(jù)的值。隨后,它進(jìn)入步驟S1008。
      在步驟S1008中,數(shù)據(jù)處理單元3使第二信息顯示部分3f顯示評(píng)估結(jié)果。隨后,它進(jìn)入步驟S1010。
      在步驟S1010中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c通過第二數(shù)據(jù)通信部分3a,將評(píng)估結(jié)果發(fā)送給指定的信息處理終端2。隨后,它進(jìn)入步驟S1012。
      在步驟S1012中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c根據(jù)評(píng)估結(jié)果,判斷是否進(jìn)行關(guān)于語音數(shù)據(jù)的供給的協(xié)商。如果發(fā)現(xiàn)應(yīng)進(jìn)行所述協(xié)商(Yes),那么數(shù)據(jù)處理單元3進(jìn)入步驟S1014。否則(No),它進(jìn)入步驟SIOOO。
      在步驟S1014中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c、第二協(xié)商部分3g和第二數(shù)據(jù)通信部分3a通過網(wǎng)絡(luò)4與信息處理終端2進(jìn)入所述協(xié)商。隨后,它進(jìn)入步驟S1016。
      在步驟S1016中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c判斷是否從指定的信息處理終端2獲取了協(xié)商結(jié)果。如果發(fā)現(xiàn)獲取了協(xié)商結(jié)果(Yes),那么數(shù)據(jù)處理單元3進(jìn)入步驟S1018。否則(No),它使第二數(shù)據(jù)控制部分3c繼續(xù)所述判斷處理,直到獲取協(xié)商結(jié)果為止。
      在步驟S1018中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c根據(jù)協(xié)商結(jié)果,判斷協(xié)商是否已成功完成。如果發(fā)現(xiàn)協(xié)商已成功完成(Yes),那么數(shù)據(jù)處理單元3進(jìn)入步驟S1020。否則(No),它進(jìn)入步驟S1022。
      在步驟S1020中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分將關(guān)于其的協(xié)商已成功完成的語音數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。隨后,它進(jìn)入步驟SIOOO。
      另一方面,在步驟S1022中,數(shù)據(jù)處理單元3使第二數(shù)據(jù)控制部分3c丟棄關(guān)于其的協(xié)商不成功的語音數(shù)據(jù)。隨后,它進(jìn)入步驟SIOOO。
      現(xiàn)在參見圖50,說明由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐標(biāo)信息的顯示處理的流程。圖50是表示由第二信息顯示部分3f執(zhí)行的通過二維投射顯示坐標(biāo)信息的處理的流程圖。
      如圖50中所示,首先在步驟S1100中,第二信息顯示部分3f判斷位置計(jì)算部分3d是否計(jì)算了數(shù)學(xué)距離。如果發(fā)現(xiàn)數(shù)學(xué)距離已被計(jì)算(Yes),那么第二信息顯示部分3f進(jìn)入步驟S1102。否則(No ),它等到數(shù)學(xué)距離被計(jì)算為止。
      在步驟S1102中,第二信息顯示部分3f利用Sammon方法(一種已知方法),二維投射目標(biāo)講話者的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后,它進(jìn)入步驟S1104。
      在步驟S1104中,第二信息顯示部分3f根據(jù)數(shù)學(xué)距離(現(xiàn)在它是由二維投射產(chǎn)生的二維信息),將關(guān)于模式模型的坐標(biāo)信息顯示成平面上的點(diǎn)。隨后,它結(jié)束處理。這樣,第二數(shù)據(jù)獲取部分3b能夠獲取目標(biāo)講話者的語音數(shù)據(jù),位 置計(jì)算部分3d和數(shù)據(jù)評(píng)估部分3e能夠評(píng)估語音數(shù)據(jù)的值,第二信息 顯示部分3f能夠顯示評(píng)估結(jié)構(gòu),以及將目標(biāo)講話者的語音的模式模型 與其它講話者的模式模型之間的位置關(guān)系顯示成二維坐標(biāo)。
      另外,數(shù)據(jù)處理單元3的第二協(xié)商部分3g能夠與信息處理終端2 的第一協(xié)商部分2e協(xié)商是否能夠提供語音數(shù)據(jù)。
      另外,數(shù)據(jù)處理單元3能夠?qū)㈥P(guān)于其已成功完成協(xié)商的語音數(shù)據(jù) 存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分3i中。
      在圖44中,由第一數(shù)據(jù)獲取部分2a、第一數(shù)據(jù)控制部分2b和第 一數(shù)據(jù)通信部分2c執(zhí)行的語音數(shù)據(jù)獲取處理和傳輸處理對(duì)應(yīng)于在母 案原權(quán)利要求50或54中限定的語音數(shù)據(jù)發(fā)送裝置;由第一數(shù)據(jù)控制 部分2b和第一信息顯示部分2d執(zhí)行的顯示評(píng)估結(jié)果信息的信息處理 對(duì)應(yīng)于在母案原權(quán)利要求50或54中限定的評(píng)估結(jié)果顯示裝置。
      在圖45中,由第二數(shù)據(jù)通信部分3a和第二數(shù)據(jù)獲取部分3b執(zhí)行 的語音數(shù)據(jù)獲取處理對(duì)應(yīng)于在母案原權(quán)利要求38、 43、 44和53任意 之一中限定的語音數(shù)據(jù)獲取裝置;位置計(jì)算部分3d對(duì)應(yīng)于在母案原權(quán) 利要求3、 39、 41、 43、 44和53任意之一中限定的位置計(jì)算裝置;數(shù) 據(jù)評(píng)估部分3e對(duì)應(yīng)于在母案原權(quán)利要求38-42、 47、 48和53任意之 一中限定的語音數(shù)據(jù)評(píng)估裝置;第二信息顯示部分3f對(duì)應(yīng)于在母案原 權(quán)利要求38、 47、 48和53任意之一中限定的評(píng)估結(jié)果顯示裝置,和 在母案原權(quán)利要求38、 45和53任意之一中限定的位置關(guān)系信息顯示 裝置;第二協(xié)商部分3g對(duì)應(yīng)于在母案原權(quán)利要求49中限定的協(xié)商裝 置;數(shù)據(jù)存儲(chǔ)部分3i對(duì)應(yīng)于在母案原權(quán)利要求49中限定的語音數(shù)據(jù) 存儲(chǔ)裝置。
      (第五實(shí)施例)
      下面參考

      本發(fā)明的第五實(shí)施例。圖51-59是表示根據(jù)本 發(fā)明的第五實(shí)施例的數(shù)據(jù)處理系統(tǒng)的圖。
      首先,參考圖51說明根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)。圖51表 示根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)的方框圖。如圖51中所示,數(shù)據(jù)處理系統(tǒng)8包括信息處理終端9A-9C、數(shù)據(jù) 處理單元lO和網(wǎng)絡(luò)ll。
      信息處理終端9A-9C受系統(tǒng)用戶A-C控制。它們具有獲取相應(yīng)系 統(tǒng)用戶的語音數(shù)據(jù),和通過網(wǎng)絡(luò)11將語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元 10的功能,和顯示從數(shù)據(jù)處理單元10獲取的信息的功能。根據(jù)本實(shí) 施例,硬件和軟件被安裝在信息處理單元,比如PC和WS上,以實(shí) 現(xiàn)上述功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
      數(shù)據(jù)處理單元10包含評(píng)估通過網(wǎng)絡(luò)11,從信息處理終端9A-9C 獲取的語音數(shù)據(jù)與其它講話者的語音數(shù)據(jù)之間的相似性的功能,和顯 示獲取的語音數(shù)據(jù)在由多個(gè)講話者的模式模型構(gòu)成的聲學(xué)空間中的位 置信息以及評(píng)估結(jié)果的功能。詳細(xì)的結(jié)構(gòu)將在后面描述。
      網(wǎng)絡(luò)11是連接多個(gè)信息處理設(shè)備,以便準(zhǔn)備好相互進(jìn)行數(shù)據(jù)通信 的LAN或WAN。本實(shí)施例使用因特網(wǎng),這是一種WAN。
      現(xiàn)在參考圖52,說明信息處理終端9A-9C的詳細(xì)結(jié)構(gòu)。圖52是 表示信息處理終端9的詳細(xì)結(jié)構(gòu)的圖。根據(jù)本實(shí)施例,信息處理終端 9A-9C具有相同的結(jié)構(gòu),它們將被統(tǒng)稱為信息處理終端9。下面,信 息處理終端9A-9C所共有的項(xiàng)目將涉及到統(tǒng)稱的信息處理終端9。另 外,如圖51中所示,信息處理終端并不局限于這三個(gè)信息處理終端 2A-2C,可連接受其它系統(tǒng)用戶控制的其它信息處理終端。
      如圖52中所示,信息處理終端9包含第一數(shù)據(jù)獲取部分9a、第 一數(shù)據(jù)控制部分9b、第一數(shù)據(jù)通信部分9c、第一信息顯示部分9d和 操作部分9e。
      第一數(shù)據(jù)獲取部分9a包括獲取目標(biāo)講話者發(fā)出的語音(模擬數(shù) 據(jù))的裝置,比如麥克風(fēng),和將^=莫擬數(shù)據(jù)(語音)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)的 裝置,比如A/D轉(zhuǎn)換器。
      第一數(shù)據(jù)控制部分9b包括控制各個(gè)組件的處理的功能,包括控制 通過第一數(shù)據(jù)通信部分9c,將第一數(shù)據(jù)獲取部分9a獲取的語音數(shù)據(jù) 發(fā)送給數(shù)據(jù)處理單元10的處理的功能,和控制在第一信息顯示部分 9d中顯示從數(shù)據(jù)處理單元10獲取的信息的處理的功能。第 一數(shù)據(jù)通信部分9c具有在第 一數(shù)據(jù)控制部分9b的控制下,通 過網(wǎng)絡(luò)11與數(shù)據(jù)處理單元10進(jìn)行各種數(shù)據(jù)通信的功能。
      第一信息顯示部分9d具有在第一數(shù)據(jù)控制部分9b的控制下,顯 示信息,包括從數(shù)據(jù)處理單元10獲取的各種信息的功能。
      操作部分9e允許系統(tǒng)用戶輸入指定特定講話者的信息,或者完成 對(duì)語音數(shù)據(jù)處理控制程序的設(shè)置。
      現(xiàn)在參考圖53,說明數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)。圖53是表示 數(shù)據(jù)處理單元10的詳細(xì)結(jié)構(gòu)的方框圖。
      如圖53中所示,數(shù)據(jù)處理單元10包括第二數(shù)據(jù)通信部分10a、 第二數(shù)據(jù)獲取部分10b、第二數(shù)據(jù)控制部分10c、位置計(jì)算部分10d、 相似講話者檢測(cè)部分10e、相似性評(píng)估部分10f、第二信息顯示部分 10g、校正信息產(chǎn)生部分10h和數(shù)據(jù)存儲(chǔ)部分10i。
      第二數(shù)據(jù)通信部分10a具有在第二數(shù)據(jù)控制部分10c的控制下, 通過網(wǎng)絡(luò)ll,與信息處理終端9進(jìn)行各種數(shù)據(jù)通信的功能。
      第二數(shù)據(jù)獲取部分10b具有通過第二數(shù)據(jù)通信部分10a從信息處 理終端9獲取語音數(shù)據(jù)的功能,還具有分析獲取的語音數(shù)據(jù)并抽取為 語音數(shù)據(jù)的特有部分的特征數(shù)據(jù)的裝置。它還具有通過根據(jù)抽取的特 征數(shù)據(jù)構(gòu)成HMM,產(chǎn)生目標(biāo)講話者的模式模型的裝置。順便提及, 根據(jù)本實(shí)施例,特征數(shù)據(jù)和目標(biāo)講話者的模式模型都被稱為語音數(shù)據(jù)。
      第二數(shù)據(jù)控制部分10c具有控制數(shù)據(jù)處理單元10的各個(gè)組件之間 的數(shù)據(jù)交換,以及控制處理的流程的功能。
      位置計(jì)算部分10d具有計(jì)算獲取的語音數(shù)據(jù)和多個(gè)講話者的模式 模型之間的位置關(guān)系的功能。
      具體地說,如果特征數(shù)據(jù)是語音數(shù)據(jù),那么計(jì)算語音數(shù)據(jù)和存儲(chǔ) 在數(shù)據(jù)存儲(chǔ)部分10i(后面說明)中的多個(gè)講話者的模式模型之間的匹 配似然性,根據(jù)計(jì)算結(jié)果從多個(gè)講話者的模式模型中選擇具有最高似 然性的模式模型,該模式模型被看作與目標(biāo)講話者的語音數(shù)據(jù)等同。 根據(jù)本實(shí)施例,多個(gè)講話者的模式模型由HMM組成,根據(jù)從它們中 選擇的特定模式模型(或者可能根據(jù)對(duì)應(yīng)于目標(biāo)講話者的語音數(shù)據(jù)的模式模型),確定它們的相對(duì)位置。隨后,由具有關(guān)于它們的相對(duì)位 置的信息的模式模型形成聲學(xué)空間。
      從而,在這種情況下,關(guān)于所選模式模型的相對(duì)位置的信息被用 作關(guān)于目標(biāo)講話者的語音數(shù)據(jù)的位置信息。
      另一方面,如果通過根據(jù)特征數(shù)據(jù)構(gòu)成HMM而產(chǎn)生的模式模型 是語音數(shù)據(jù),那么計(jì)算語音數(shù)據(jù)和特定模式模型間的相對(duì)位置,計(jì)算 結(jié)果被用作關(guān)于該語音數(shù)據(jù)的位置信息。
      如果特征數(shù)據(jù)是語音數(shù)據(jù),那么相似講話者檢測(cè)部分10e計(jì)算選 擇的模式模型與多個(gè)講話者的其它模式模型間的數(shù)學(xué)距離,比較計(jì)算 的距離與數(shù)學(xué)距離的預(yù)定閾值Th,根據(jù)比較結(jié)果檢測(cè)在目標(biāo)講話者的 語音數(shù)據(jù)的閾值Th距離內(nèi)的語音數(shù)據(jù),并將其語音數(shù)據(jù)在閾值Th距 離內(nèi)的講話者指定為相似講話者。
      例如,在其模式模型存在于閾值Th內(nèi)的講話者中,其語音數(shù)據(jù) 最接近于目標(biāo)講話者的語音數(shù)據(jù)的講話者可被指定為相似講話者,或
      定為;:講話者 另一方面,如果在閾值Th內(nèi)不存在任何模式;莫型, 那么可在改變閾值之后再次進(jìn)行比較,或者可確定沒有相似講話者。 根據(jù)本實(shí)施例,由上面的等式(8)給出的歐幾里德距離或由上面的等 式(9)給出的Bhattacharrya距離4皮用作數(shù)學(xué)距離。
      這里,可逐個(gè)音位地計(jì)算數(shù)學(xué)距離,同樣可逐個(gè)音位地評(píng)估語音 數(shù)據(jù)的值。本實(shí)施例允許系統(tǒng)用戶自由地啟用和禁用這樣的設(shè)置。
      相似性評(píng)估部分10f計(jì)算通過操作部分3h指定的特定講話者的模 式模型與目標(biāo)講話者的語音數(shù)據(jù)間的數(shù)學(xué)距離,根據(jù)計(jì)算的距離,評(píng)
      估特定講話者和目標(biāo)講話者在語音上的相似性。
      當(dāng)建立聲學(xué)空間時(shí),根據(jù)以各種說話風(fēng)格,例如高聲地、低聲地、
      快速地和慢速地產(chǎn)生的語音數(shù)據(jù)構(gòu)成模式模型。
      從而,相對(duì)于以多種說話風(fēng)格產(chǎn)生的模式模型,進(jìn)行相似性評(píng)估。 第二信息顯示部分10g具有顯示信息,比如相似講話者檢測(cè)部分
      10e產(chǎn)生的檢測(cè)結(jié)果和相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果的功能。這里,顯示的信息包括通過評(píng)估結(jié)果的量化而獲取的信息,通過根據(jù)計(jì)
      算的模式模型間的數(shù)學(xué)距離,利用Sammon方法二維地投射基于 HMM的模式模型間的距離關(guān)系而獲取的信息,以及其它信息。
      校正信息產(chǎn)生部分10h根據(jù)相似性評(píng)估部分10f產(chǎn)生的評(píng)估結(jié)果, 產(chǎn)生校正信息,所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正, 以便提高目標(biāo)講話者和特定講話者之間語音上的相似性。產(chǎn)生的校正 信息由笫 一數(shù)據(jù)控制部分9b和第二數(shù)據(jù)通信部分10a發(fā)送給適當(dāng)?shù)男?息處理終端9。這里校正信息基于預(yù)先從目標(biāo)講話者的話語獲取的特 征數(shù)據(jù),以及基于評(píng)估結(jié)果而產(chǎn)生,并且包含指示當(dāng)形成單詞時(shí)嘴的 形狀,重音的位置等的信息,以便提高目標(biāo)講話者與特定講話者之間 語音上的相似性。
      數(shù)據(jù)存儲(chǔ)部分10i存儲(chǔ)多個(gè)講話者的模式模型和其它必要的數(shù)據(jù)。
      根據(jù)本實(shí)施例,盡管未示出,但是數(shù)據(jù)處理單元10配有處理器、 RAM (隨機(jī)存取存儲(chǔ)器)和存儲(chǔ)專用程序的ROM (只讀存儲(chǔ)器)。 當(dāng)處理器執(zhí)行專用程序時(shí),上述組件被控制。
      現(xiàn)在參考圖54-56說明數(shù)據(jù)處理系統(tǒng)8的更具體操作。圖54A和 54B是表示由數(shù)據(jù)處理系統(tǒng)8執(zhí)行的初始數(shù)據(jù)庫構(gòu)成處理和數(shù)據(jù)評(píng)估 處理的流程的圖。圖55是表示其中聲學(xué)空間被二維投射的 一個(gè)實(shí)例的 圖,其中圖55A表示當(dāng)逐字(或者逐句)處理HMM時(shí)的HMM的坐 標(biāo)點(diǎn),圖55B表示當(dāng)逐個(gè)音位(圖中"a"、 "i"、 "u"、 "e"和"o")地處 理HMM時(shí)的HMM的坐標(biāo)點(diǎn)。圖56是表示二維投射的一個(gè)實(shí)例的 圖,軸代表說話風(fēng)格。
      參見圖54A和55 ,下面說明在特征數(shù)據(jù)由語音數(shù)據(jù)構(gòu)成的情況下, 初始數(shù)據(jù)庫構(gòu)成處理,相似講話者檢測(cè)處理和相似性評(píng)估處理的第一 結(jié)構(gòu)。
      首先,說明評(píng)估處理所需的初始數(shù)據(jù)庫構(gòu)成處理的流程-示于圖 54A中的(1)-(4)中。如果初始數(shù)據(jù)庫已存在,那么步驟(1)-(4) 不是必需的。
      (1)第二數(shù)據(jù)獲取部分10b獲取N個(gè)(N為整數(shù))注冊(cè)講話者
      122的語音。如上所述,第二數(shù)據(jù)獲取部分10b獲取按照各種說話風(fēng)格,
      比如高聲地、低聲地、快速地和慢速地產(chǎn)生的語音數(shù)據(jù)。
      (2 )第二數(shù)據(jù)獲取部分10b分析獲取的語音并抽取特征值。 (3 )第二數(shù)據(jù)獲取部分10b根據(jù)抽取的特征值產(chǎn)生特定講話者和 非特定講話者的HMM,并利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí),以產(chǎn)生每 個(gè)特定講話者的 一個(gè)模式模型和非特定講話者的 一個(gè)模式模型。
      (4)第二數(shù)據(jù)荻取部分10b將N個(gè)特定講話者的多個(gè)模式模型 (HMM)和非特定講話者的一個(gè)模式模型(HMM)存儲(chǔ)在數(shù)據(jù)存儲(chǔ) 部分10i中。
      下面,說明在圖54A的(5) - (10)中表示的相似講話者檢測(cè)處 理和相似性評(píng)估處理的流程。
      (5 )第二數(shù)據(jù)獲取部分10b從信息處理終端9獲取系統(tǒng)用戶的語 音數(shù)據(jù)。
      (6 )第二數(shù)據(jù)獲取部分10b分析獲取的語音數(shù)據(jù),并抽取特征值。 (7 )位置計(jì)算部分10d計(jì)算抽取的特征數(shù)據(jù)和多個(gè)特定講話者的
      模式模型間的匹配似然性。這里假定說話的內(nèi)容已知(在說話時(shí)被輸入)。
      (8) 位置計(jì)算部分10d根據(jù)計(jì)算的似然性,選擇具有最高似然性 的模式模型,并計(jì)算該模式模型與其它特定講話者的模式模型間的數(shù) 學(xué)距離。前M個(gè)模式模型可被使用(M是小于N的整數(shù))。這種情 況下,為選擇的M個(gè)模式模型中的每一個(gè)計(jì)算到其它特定講話者的模 式模型的數(shù)學(xué)距離。根據(jù)本實(shí)施例,當(dāng)計(jì)算了數(shù)學(xué)距離時(shí),可根據(jù)計(jì) 算的數(shù)學(xué)距離,通過后面說明的步驟(11)和(12),利用二維投射 顯示坐標(biāo)數(shù)據(jù)(如圖55中所示),以致操作者能夠直觀地了解語音數(shù) 據(jù)的位置關(guān)系。
      (9) 相似講話者檢測(cè)部分10e根據(jù)計(jì)算的數(shù)學(xué)距離,檢測(cè)相似的 講話者。具體地說,它檢測(cè)在目標(biāo)講話者的模式模型的閾值Th距離 內(nèi)的模式模型。例如,如果目標(biāo)講話者的模式模型由圖55A中的坐標(biāo) 點(diǎn)50 (由"x,,表示)代表,那么從存在于以目標(biāo)講話者的模式模型為中心,半徑為Th的圓內(nèi)的模式模型中檢測(cè)相似講話者。這種情況下, 按照到圖55A中的坐標(biāo)點(diǎn)50的接近度的順序,選擇三個(gè)模式模型 50a誦50c。
      與這樣選擇的模式模型對(duì)應(yīng)的講話者被檢測(cè)為語音與目標(biāo)講話者 類似的相似講話者。檢測(cè)結(jié)果由第二數(shù)據(jù)控制部分2c和第二信息顯示 部分10g顯示。
      通過第二數(shù)據(jù)通信部分10a,關(guān)于檢測(cè)結(jié)果的信息被發(fā)送給例如 信息處理終端9A,如果目標(biāo)講話者是系統(tǒng)用戶A的話。
      根據(jù)本實(shí)施例,關(guān)于檢測(cè)結(jié)果的信息包括關(guān)于相似講話者的信息, 比如對(duì)應(yīng)于所選模式模型的講話者的姓名,和關(guān)于二維投射的目標(biāo)講 話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。
      使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中 的錯(cuò)誤(例如,選擇的模式模型的特性與目標(biāo)講話者的語音的模式模 型的特性大不相同的情況)。這種情況下,其模式模型存在于閾值Th 距離內(nèi)的其它講話者被選擇并被指定為相似講話者。
      順便提及,盡管根據(jù)本實(shí)施例,所述評(píng)估由相似講話者檢測(cè)部分 10e自動(dòng)進(jìn)行,不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它 顯示信息,自己進(jìn)行所述評(píng)估。
      另外,由于可對(duì)與如上所述的多種說話風(fēng)格中的每一種對(duì)應(yīng)的模 式模型單獨(dú)進(jìn)行檢測(cè)處理,因此能夠按照每個(gè)說話風(fēng)格檢測(cè)相似講話
      者,使得能夠檢測(cè)在說話風(fēng)格A方面,而不是在說話風(fēng)格B方面類似 目標(biāo)講話者的講話者。從而,能夠?qū)⒃谧疃鄶?shù)的語音方面類似目標(biāo)講 話者的講話者指定為相似講話者,或者將在每種說話風(fēng)格方面單獨(dú)類 似目標(biāo)講話者的講話者指定為相似講話者。
      一旦相似講話者被檢測(cè),并且關(guān)于它們的數(shù)據(jù)被發(fā)送給信息處理 終端9,信息處理終端9顯示獲取的信息。具體地說,信息處理終端9 顯示關(guān)于相似講話者的信息和關(guān)于二維投射的目標(biāo)講話者的模式模型 與相似講話者的模式模型間的位置關(guān)系的信息。當(dāng)查看顯示的信息時(shí), 系統(tǒng)用戶通過操縱操作部分9e,指定他/她想要模仿其語音的特定講話
      124者。指定的信息被發(fā)送給數(shù)據(jù)處理單元10,數(shù)據(jù)處理系統(tǒng)8進(jìn)入圖54A 中的步驟(10)。
      (10) 相似性評(píng)估部分10f評(píng)估系統(tǒng)用戶(目標(biāo)講話者)指定的 特定講話者的模式模型與目標(biāo)講話者的模式模型間的相似性。
      例如,如果特定講話者的模式模型與目標(biāo)講話者的模式模型間的 數(shù)學(xué)距離較短,那么認(rèn)為相似性較高,如果該數(shù)學(xué)距離較長,那么認(rèn) 為相似性較低。
      根據(jù)本實(shí)施例,當(dāng)兩個(gè)模式模型的坐標(biāo)一致時(shí),它們的相似率被 認(rèn)為是100% (完全相似),如果特定講話者的模式模型離目標(biāo)講話 者的模式模型的坐標(biāo)點(diǎn)52的距離為S或者更遠(yuǎn),那么相似率被認(rèn)為是 0% (完全不似)。目標(biāo)講話者的坐標(biāo)點(diǎn)52與特定講話者的坐標(biāo)點(diǎn)52a 之間的距離被顯示成關(guān)于相似率(%)的評(píng)估結(jié)果,如圖55A中所示。
      這里,在評(píng)估特定講話者的模式模型的相似性時(shí),多個(gè)說話風(fēng)格 中的每一種凈皮獨(dú)立處理。
      通過第二數(shù)據(jù)通信部分10a,評(píng)估結(jié)果信息被發(fā)送給例如信息處 理終端9B,如果目標(biāo)講話者是系統(tǒng)用戶B的話。
      根據(jù)本實(shí)施例,評(píng)估結(jié)果信息各種說話風(fēng)格下特定講話者的模式
      模型的評(píng)估結(jié)果,關(guān)于二維投射的特定講話者的模式模型與目標(biāo)講話 者的模式模型間的位置關(guān)系的信息,和校正信息(后面描述)。
      (11) 校正信息產(chǎn)生部分10h根據(jù)由相似性評(píng)估部分10f產(chǎn)生的 評(píng)估結(jié)果,產(chǎn)生目標(biāo)講話者的語音的校正信息,以〗更提高目標(biāo)講話者 與特定講話者之間語音上的相似性。
      當(dāng)產(chǎn)生校正信息時(shí),可重新獲取目標(biāo)講話者的語音數(shù)據(jù),或者使 用在步驟(5)和(6)中獲取的語音數(shù)據(jù)。
      通過被包含在評(píng)估結(jié)果信息中,產(chǎn)生的校正信息被發(fā)送給恰當(dāng)?shù)?信息處理終端9。
      當(dāng)收到校正信息時(shí),信息處理終端9通過第一信息顯示部分9d 顯示它。從而,通過查看顯示的校正信息,目標(biāo)講話者能夠進(jìn)行訓(xùn)練, 以提高他/她自己的語音與特定講話者的語音的相似性。(12)第二信息顯示部分10g根據(jù)計(jì)算的數(shù)學(xué)距離(相對(duì)距離), 利用Sammon方法(一種已知方法),二維投射所有模式模型(HMM) 的距離關(guān)系。
      (13 )第二信息顯示部分10g將關(guān)于HMM的二維投射的坐標(biāo)信 息顯示成平面上的點(diǎn),如圖55A和55B中所示。即,每個(gè)點(diǎn)代表每個(gè) 講話者的模式模型,兩爲(wèi)間的距離代表它們的相似性(距離越短,相 似性相大)。
      圖55B表示當(dāng)逐個(gè)音位(圖中的"a"、 "i"、 "u"、 "e"和"o")地處 理HMM時(shí)的HMM坐標(biāo)點(diǎn)。這使得能夠逐個(gè)音位地直觀進(jìn)行相似講 話者的檢測(cè)和相似性的評(píng)估。
      通過將關(guān)于說話風(fēng)格的信息加入到相應(yīng)說話風(fēng)格的模式模型中, 利用說話風(fēng)格的元素(這種情況下,語速和聲高)作為軸,能夠形成 二維的聲學(xué)空間,如圖56中所示。由于通過利用說話風(fēng)格的元素作為 軸,信息處理終端9實(shí)時(shí)地進(jìn)行二維投射,因此目標(biāo)講話者能夠直觀 地了解他/她自己的語音數(shù)據(jù)的位置的變化,從而易于學(xué)習(xí)模仿希望的 特定講話者的語音所需的說話方式。但是,與其中信息處理終端9通 過因特網(wǎng)9與數(shù)據(jù)處理單元10連接的結(jié)構(gòu)相比,其中目標(biāo)講話者直接 將他/她的語音輸入數(shù)據(jù)處理單元10的結(jié)構(gòu)更適合于實(shí)時(shí)顯示。
      現(xiàn)在參考圖54B和55,說明在才艮據(jù)特征數(shù)據(jù)產(chǎn)生的模式模型由語 音數(shù)據(jù)構(gòu)成的情況下,初始數(shù)據(jù)庫構(gòu)成處理和核實(shí)性能檢測(cè)處理的第 二結(jié)構(gòu)。
      首先,講話者核實(shí)所需的示于圖54B中的(1) - (4)中的初始數(shù) 據(jù)庫構(gòu)成處理和圖54A的(l)-U)中的第一結(jié)構(gòu)相同,從而其說明 將被省略。
      下面,說明在圖54B中的(5) - (11)中所示的相似講話者檢測(cè) 處理和相似性評(píng)估處理的流程。
      (5 )第二數(shù)據(jù)獲取部分10b從信息處理終端9獲取系統(tǒng)用戶的語 音數(shù)據(jù)。
      (6 )第二數(shù)據(jù)獲取部分10b分析獲取的語音數(shù)據(jù)并抽取特征值。(7) 第二數(shù)據(jù)獲取部分10b根據(jù)抽取的特征數(shù)據(jù)構(gòu)成HMM,并 利用預(yù)定的學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)。
      (8) 第二數(shù)據(jù)獲取部分10b通過HMM學(xué)習(xí)產(chǎn)生目標(biāo)講話者的 模式模型,并將其存儲(chǔ)在數(shù)據(jù)存儲(chǔ)部分10i中。
      (9 )位置計(jì)算部分10d計(jì)算產(chǎn)生的目標(biāo)講話者的模式模型與其它 特定講話者的模式模型之間的數(shù)學(xué)距離。根據(jù)本實(shí)施例,當(dāng)數(shù)學(xué)距離 被計(jì)算時(shí),根據(jù)計(jì)算的數(shù)學(xué)距離,通過后面說明的步驟(13)和(14), 可利用二維投射顯示坐標(biāo)數(shù)據(jù)(如圖55中所示),從而操作者能夠直 觀地了解語音數(shù)據(jù)的位置關(guān)系。
      (10)相似講話者檢測(cè)部分10e根據(jù)計(jì)算的數(shù)學(xué)距離,檢測(cè)相似 講話者。具體地說,它檢測(cè)在目標(biāo)講話者的模式模型的閾值Th距離 內(nèi)的模式模型。例如,如果目標(biāo)講話者的模式模型由圖55A中的坐標(biāo) 點(diǎn)50 (由"x"表示)代表,那么從存在于以目標(biāo)講話者的模式模型為 中心,半徑為Th的圓內(nèi)的模式模型中檢測(cè)相似講話者。這種情況下, 按照到圖55A中的坐標(biāo)點(diǎn)50的接近度的順序,選擇三個(gè)模式模型 50a-50c。
      與這樣選擇的模式模型對(duì)應(yīng)的講話者被檢測(cè)為語音與目標(biāo)講話者 類似的相似講話者。檢測(cè)結(jié)果由第二數(shù)據(jù)控制部分2c和第二信息顯示 部分10g顯示。
      通過第二數(shù)據(jù)通信部分10a,關(guān)于檢測(cè)結(jié)果的信息被發(fā)送給例如 信息處理終端9A,如果目標(biāo)講話者是系統(tǒng)用戶A的話。
      根據(jù)本實(shí)施例,關(guān)于檢測(cè)結(jié)果的信息包括關(guān)于相似講話者的信息, 比如對(duì)應(yīng)于所選模式模型的講話者的姓名,和關(guān)于二維投射的目標(biāo)講 話者的模式模型與相似講話者的模式模型間的位置關(guān)系的信息。
      使用前M個(gè)模式模型來計(jì)算數(shù)學(xué)距離考慮了選擇的模式模型中 的錯(cuò)誤(例如,選擇的模式模型的特性與目標(biāo)講話者的語音的模式模 型的特性大不相同的情況)。這種情況下,在其模式模型存在于闊值 Th距離內(nèi)的其它講話者中檢測(cè)相似講話者。
      順便提及,盡管根據(jù)本實(shí)施例,所述評(píng)估由相似講話者檢測(cè)部分10e自動(dòng)進(jìn)行,不過操作者可根據(jù)由二維投射顯示的聲學(xué)空間和其它 顯示信息,自己進(jìn)行所述評(píng)估。
      另外,由于可對(duì)與如上所述的多種說話風(fēng)格中的每一種對(duì)應(yīng)的模 式模型單獨(dú)進(jìn)行檢測(cè)處理,因此能夠按照每個(gè)說話風(fēng)格檢測(cè)相似講話
      者,使得能夠檢測(cè)在說話風(fēng)格A方面,而不是在說話風(fēng)格B方面類似 目標(biāo)講話者的講話者。從而,能夠?qū)⒃谧疃鄶?shù)的語音方面類似目標(biāo)講 話者的講話者指定為相似講話者,或者將在每種說話風(fēng)格方面單獨(dú)類 似目標(biāo)講話者的講話者指定為相似講話者。
      一旦相似講話者被檢測(cè),并且關(guān)于它們的數(shù)據(jù),皮發(fā)送給信息處理 終端9,信息處理終端9顯示獲取的信息。具體地說,信息處理終端9 顯示關(guān)于相似講話者的信息和關(guān)于二維投射的目標(biāo)講話者的模式模型 與相似講話者的模式模型間的位置關(guān)系的信息。當(dāng)查看顯示的信息時(shí), 系統(tǒng)用戶通過操縱操作部分9e,指定他/她想要模仿其語音的特定講話 者。指定的信息被發(fā)送給數(shù)據(jù)處理單元10,數(shù)據(jù)處理系統(tǒng)8進(jìn)入圖54B 中的步驟(11)。
      (11)相似性評(píng)估部分10f評(píng)估系統(tǒng)用戶(目標(biāo)講話者)指定的 特定講話者的模式模型與目標(biāo)講話者的模式模型間的相似性。
      例如,如果特定講話者的模式模型與目標(biāo)講話者的模式模型間的 數(shù)學(xué)距離較短,那么認(rèn)為相似性較高,如果該數(shù)學(xué)距離較長,那么認(rèn) 為相似性較低。
      根據(jù)本實(shí)施例,當(dāng)兩個(gè)模式模型的坐標(biāo)一致時(shí),它們的相似率被 認(rèn)為是100% (完全相似),如果特定講話者的模式模型離目標(biāo)講話 者的模式模型的坐標(biāo)點(diǎn)52的距離為S或者更遠(yuǎn),那么相似率被認(rèn)為是 0% (完全不似)。目標(biāo)講話者的坐標(biāo)點(diǎn)52與特定講話者的坐標(biāo)點(diǎn)52a 之間的距離被顯示成關(guān)于相似率(%)的評(píng)估結(jié)果,如圖55A中所示。
      這里,在評(píng)估特定講話者的模式模型的相似性時(shí),多個(gè)說話風(fēng)格 中的每一種被獨(dú)立處理。
      通過第二數(shù)據(jù)通信部分10a,評(píng)估結(jié)果信息被發(fā)送給例如信息處 理終端9B,如果目標(biāo)講話者是系統(tǒng)用戶B的話。根據(jù)本實(shí)施例,評(píng)估結(jié)果信息各種說話風(fēng)格下特定講話者的模式 模型的評(píng)估結(jié)果,關(guān)于二維投射的特定講話者的模式模型與目標(biāo)講話 者的模式模型間的位置關(guān)系的信息,和校正信息(后面描述)。
      (12)校正信息產(chǎn)生部分10h根據(jù)由相似性評(píng)估部分10f產(chǎn)生的 評(píng)估結(jié)果,產(chǎn)生目標(biāo)講話者的語音的校正信息,以便提高目標(biāo)講話者 與特定講話者之間語音上的相似性。
      當(dāng)產(chǎn)生校正信息時(shí),可重新獲取目標(biāo)講話者的語音數(shù)據(jù),并將該 語音數(shù)據(jù)用于對(duì)應(yīng)于該語音數(shù)據(jù)的模式模型,或者使用在步驟(5 )和 (6)中獲取的語音數(shù)據(jù)。
      通過被包含在評(píng)估結(jié)果信息中,產(chǎn)生的校正信息被發(fā)送給恰當(dāng)?shù)?信息處理終端9。
      當(dāng)收到校正信息時(shí),信息處理終端9通過第一^f言息顯示部分9d 顯示它。從而,通過查看并遵循顯示的校正信息,目標(biāo)講話者能夠進(jìn) 行訓(xùn)練,以提高他/她自己的語音與特定講話者的語音的相似性。
      利用二維投射在聲學(xué)空間中顯示數(shù)據(jù)的處理和顯示評(píng)估結(jié)果的處 理(示于圖54B中的(13)和(14)中)與根據(jù)上述第一結(jié)構(gòu)的圖54A 中的(12)和(13)相同,從而其說明將被省略。
      現(xiàn)在參考圖57,說明由信息處理終端9執(zhí)行的操作和處理。圖57 是表示由信息處理終端9執(zhí)行的操作和處理的流程圖。
      如圖57中所示,首先在步驟S1200中,信息處理終端9使第一數(shù) 據(jù)控制部分9b判斷語音數(shù)據(jù)的獲取是否已開始。如果發(fā)現(xiàn)所述獲取已 開始(Yes),那么信息處理終端9進(jìn)入步驟S1202。否則(No ),它 使第一數(shù)據(jù)控制部分9b繼續(xù)所述判斷處理,直到開始所述獲取為止。
      在步驟S1202中,信息處理終端9使笫一數(shù)據(jù)獲取部分9a獲取目 標(biāo)講話者(按照本實(shí)施例,系統(tǒng)用戶A-C中的任意一個(gè))發(fā)出的語音 (模擬數(shù)據(jù))。隨后,它進(jìn)入步驟S1204。
      在步驟S1204中,信息處理終端9使第一數(shù)據(jù)獲取部分9a將獲取 的語音(模擬數(shù)據(jù))轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)。隨后,它進(jìn)入步驟S1206。
      在步驟S1206中,信息處理終端9使第一數(shù)據(jù)控制部分9b通過第一數(shù)據(jù)通信部分9c將數(shù)字語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元10。隨后 它進(jìn)入步驟S1208。
      在步驟S1208中,信息處理終端9使第一數(shù)據(jù)控制部分9b判斷 是否通過第一數(shù)據(jù)通信部分9c,從數(shù)據(jù)處理單元10收到了相對(duì)于該 語音數(shù)據(jù)的相似講話者的檢測(cè)結(jié)果信息。如果發(fā)現(xiàn)收到了所述檢測(cè)結(jié) 果信息(Yes),那么信息處理終端9進(jìn)入步驟S1210,否則(No ), 它使第一數(shù)據(jù)控制部分b繼續(xù)所述判斷處理,直到收到檢測(cè)結(jié)果信息 為止。
      在步驟S1210中,信息處理終端9使第一信息顯示部分2d在第 一數(shù)據(jù)控制部分9b的控制下顯示接收的檢測(cè)結(jié)果信息。隨后,它進(jìn)入 步驟S1212。
      在步驟S1212中,信息處理終端9使第一數(shù)據(jù)控制部分9b判斷 是否通過操作部分9e選擇了特定的講話者。如果發(fā)現(xiàn)選擇了特定的講 話者(Yes),那么信息處理終端9進(jìn)入步驟S1214。否則(No),它 等到選擇了特定講話者為止。
      在步驟S1214中,信息處理終端9使第一數(shù)據(jù)控制部分9b通過 第一數(shù)據(jù)通信部分9c,將關(guān)于選擇的講話者的信息發(fā)送給數(shù)據(jù)處理單 元10。隨后,它進(jìn)入步驟S1216。
      在步驟S1216中,信息處理終端9使第一數(shù)據(jù)控制部分9b判斷 是否通過第一數(shù)據(jù)通信部分9c,從數(shù)據(jù)處理單元10收到了語音數(shù)據(jù) 以及關(guān)于選擇的講話者的評(píng)估結(jié)果信息。如果發(fā)現(xiàn)已收到它們(Yes ), 那么信息處理終端9進(jìn)入步驟S1218。否則(No),它等到收到它們 為止。
      在步驟S1216中,信息處理終端9使第一信息顯示部分9d在第 一數(shù)據(jù)控制部分9b的控制下,顯示接收的評(píng)估結(jié)果信息。隨后,它進(jìn) 入步驟S1200。
      現(xiàn)在參考圖58,說明由數(shù)據(jù)處理單元10執(zhí)行的操作和處理。圖 58是表示由數(shù)據(jù)處理單元10執(zhí)行的操作和處理的流程圖。
      如圖58中所示,首先在步驟S1300中,數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c判斷是否已通過第二數(shù)據(jù)通信部分10a從信息處理 終端9獲取了語音數(shù)據(jù)。如果發(fā)現(xiàn)已獲取所述語音數(shù)據(jù)(Yes),那么 數(shù)據(jù)處理單元10進(jìn)入步驟S1302。否則(No),它使第二數(shù)據(jù)控制部 分10c繼續(xù)所述判斷處理,直到獲取語音數(shù)據(jù)為止。
      在步驟S1302中,數(shù)據(jù)處理單元10使第二數(shù)據(jù)獲取部分10b從 獲取的語音數(shù)據(jù)抽取特征值。隨后,它進(jìn)入步驟S1304。順便提及, 按照第一種結(jié)構(gòu),根據(jù)似然性計(jì)算,從多個(gè)講話者的模式模型中選擇 具有最相似的聲學(xué)特性的模式,并將其指定為獲取的語音的模式模型。 另一方面,按照第二種結(jié)構(gòu),根據(jù)抽取的特征值產(chǎn)生獲取的語音的模 式模型。
      在步驟S1304中,數(shù)據(jù)處理單元10使位置計(jì)算部分10d計(jì)算獲 取的語音的模式模型與其它講話者的模式模型之間的數(shù)學(xué)距離。隨后, 它進(jìn)入步驟S1306。
      在步驟S1306中,數(shù)據(jù)處理單元10使相似講話者檢測(cè)部分10e 根據(jù)計(jì)算的數(shù)學(xué)距離,檢測(cè)相對(duì)于獲取的語音數(shù)據(jù)的相似講話者。隨
      后,它進(jìn)入步驟S1308。
      在步驟S1308中,數(shù)據(jù)處理單元10使第二信息顯示部分10g顯示 檢測(cè)結(jié)果信息,即關(guān)于檢測(cè)結(jié)果的信息。隨后,它進(jìn)入步驟S1310。
      在步驟S1310中,數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c通過 第二數(shù)據(jù)通信部分10a,將檢測(cè)結(jié)果信息發(fā)送給恰當(dāng)?shù)男畔⑻幚斫K端 9。隨后,它進(jìn)入步驟S1312。
      在步驟S1312中,數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c判斷 是否通過第二數(shù)據(jù)通信部分10a,從信息處理終端9獲取了關(guān)于選擇 的講話者的信息。如果發(fā)現(xiàn)獲取了所述信息(Yes),那么數(shù)據(jù)處理單 元10進(jìn)入步驟S1314。否則(No),它使第二數(shù)據(jù)控制部分10c繼續(xù) 所述判斷處理,直到獲取所述信息為止。
      在步驟S1314中,數(shù)據(jù)處理單元10使相似性評(píng)估部分10f評(píng)估目 標(biāo)講話者的模式模型與選擇的講話者的模式模型之間的相似性。隨后, 它進(jìn)入步驟S1316。在相似性評(píng)估之后,校正信息產(chǎn)生部分10h根據(jù)評(píng)估結(jié)果,產(chǎn)生校正信息,用于提高目標(biāo)講話者和特定講話者間語音 上的相似性。在步驟S1316中,數(shù)據(jù)處理單元10使第二信息顯示部分10g顯示 評(píng)估結(jié)果信息,即關(guān)于評(píng)估結(jié)果的信息。隨后,它進(jìn)入步驟S1318。在步驟S1318中,數(shù)據(jù)處理單元10使第二數(shù)據(jù)控制部分10c通過 第二數(shù)據(jù)通信部分10a,將評(píng)估結(jié)果信息發(fā)送給適當(dāng)?shù)男畔⑻幚斫K端 9。隨后,它進(jìn)入步驟S1300?,F(xiàn)在參見圖59,說明由信息顯示部分10g執(zhí)行的通過二維投射顯 示坐標(biāo)信息的顯示處理的流程。圖59是表示由信息顯示部分10g執(zhí)行 的通過二維投射顯示坐標(biāo)信息的處理的流程圖。如圖59中所示,首先在步驟S1400中,第二信息顯示部分10g 判斷位置計(jì)算部分10d是否計(jì)算了數(shù)學(xué)距離。如果發(fā)現(xiàn)數(shù)學(xué)距離已被 計(jì)算(Yes),那么第二信息顯示部分10g進(jìn)入步驟S1402。否則(No), 它等到數(shù)學(xué)距離被計(jì)算為止。在步驟S1402中,第二信息顯示部分10g利用Sammon方法(一 種已知方法),二維投射目標(biāo)講話者的語音的模式模型與其它講話者 的模式模型之間的數(shù)學(xué)距離。隨后,它進(jìn)入步驟S1404。在步驟S1404中,第二信息顯示部分10g根據(jù)數(shù)學(xué)距離(現(xiàn)在它 是由二維投射產(chǎn)生的二維信息),將關(guān)于模式模型的坐標(biāo)信息顯示成 平面上的點(diǎn)。隨后,它結(jié)束處理。這樣,在數(shù)據(jù)處理單元10中,第二數(shù)據(jù)獲取部分10b能夠獲取目 標(biāo)講話者的語音數(shù)據(jù),位置計(jì)算部分10d和數(shù)據(jù)評(píng)估部分3e能夠檢測(cè) 語音上和語音數(shù)據(jù)類似的講話者,第二信息顯示部分10g能夠顯示關(guān) 于檢測(cè)結(jié)果的檢測(cè)結(jié)果信息,以及將目標(biāo)講話者的語音的模式模型與 相似講話者或其它講話者的模式模型之間的位置關(guān)系顯示成二維坐 標(biāo)。另外,信息處理終端9能夠從數(shù)據(jù)處理單元10獲取檢測(cè)結(jié)果信息, 使第一信息顯示部分9d顯示檢測(cè)結(jié)果信息,允許目標(biāo)講話者利用操作 部分9e,根據(jù)顯示的檢測(cè)結(jié)果信息,選擇和指定特定的講話者。另外,數(shù)據(jù)處理單元10能夠獲取關(guān)于指定的特定講話者的信息, 使相似性評(píng)估部分10f評(píng)估目標(biāo)講話者的模式模型與所選講話者的模 式模型之間在語音上的相似性,并使第二信息顯示部分10g顯示關(guān)于評(píng)估結(jié)果的信息。另外,信息處理終端9能夠從數(shù)據(jù)處理單元IO獲取評(píng)估結(jié)果信息, 并使第 一信息顯示部分9d顯示評(píng)估結(jié)果信息。在圖52中,第一數(shù)據(jù)獲取部分9a、第一數(shù)據(jù)控制部分9b和第一 數(shù)據(jù)通信部分9c執(zhí)行的語音數(shù)據(jù)獲取處理和傳輸處理對(duì)應(yīng)于在母案 原權(quán)利要求70中限定的語音數(shù)據(jù)發(fā)送裝置;第一數(shù)據(jù)控制部分9b和 第一信息顯示部分9d執(zhí)行的顯示檢測(cè)結(jié)果信息和評(píng)估結(jié)果信息的顯 示處理對(duì)應(yīng)于在母案原權(quán)利要求70中限定的信息顯示裝置;經(jīng)由操作 部分9e選擇特定講話者的處理對(duì)應(yīng)于在母案原權(quán)利要求59中限定的 特定講話者指定裝置。在圖53中,第二數(shù)據(jù)通信部分10a和第二數(shù)據(jù)獲取部分10b執(zhí)行 的語音數(shù)據(jù)獲取處理對(duì)應(yīng)于在母案原權(quán)利要求57、 63和64任意之一 中限定的語音數(shù)據(jù)獲取裝置;位置計(jì)算部分10d對(duì)應(yīng)于在母案原權(quán)利 要求57、 63和64任意之一中限定的位置計(jì)算裝置;相似講話者檢測(cè) 部分10e對(duì)應(yīng)于在母案原權(quán)利要求57、 61和62任意之一中限定的相 似講話者檢測(cè)裝置;相似性評(píng)估裝置10f對(duì)應(yīng)于在母案原權(quán)利要求58、 60、 61、 62、 66和67任意之一中限定的相似性評(píng)估裝置;第二信息 顯示部分10g對(duì)應(yīng)于在母案原權(quán)利要求57中限定的檢測(cè)結(jié)果顯示裝 置,在母案原權(quán)利要求58中限定的評(píng)估結(jié)果顯示裝置,和在母案原權(quán) 利要求57、 58、 60和65任意之一中限定的位置關(guān)系信息顯示裝置; 校正信息產(chǎn)生部分10h對(duì)應(yīng)于在母案原權(quán)利要求60中限定的校正信息 產(chǎn)生裝置。順便提及,盡管在上面的實(shí)施例中,信息處理終端9通過因特網(wǎng) 與數(shù)據(jù)處理單元10連接,不過這不是限制性的。目標(biāo)講話者的語音可 被直接輸入數(shù)據(jù)處理單元10。這將使得易于適應(yīng)要求高響應(yīng)速度的處 理,比如實(shí)時(shí)地顯示輸入的目標(biāo)講話者的語音與特定講話者的語音之間的相似性的評(píng)估結(jié)果的處理。 工業(yè)應(yīng)用性如上所述,在母案原權(quán)利要求l-7任意之一中限定的數(shù)據(jù)處理單 元將對(duì)應(yīng)于模式模型的多個(gè)低維向量顯示成與對(duì)應(yīng)于模式模型的低維 向量相同維數(shù)的低維空間中的坐標(biāo)點(diǎn),同時(shí)根據(jù)低維元素的值,保持 距離關(guān)系。這使得易于直觀地掌握模式模型間的距離關(guān)系(相似性)。 另外,由于4維或更高維的模式模型可被轉(zhuǎn)換成3維或更低維的模式 模型,因此能夠更容易地進(jìn)行群集和各種其它處理。母案原權(quán)利要求8或9中限定的數(shù)據(jù)處理單元自動(dòng)將由對(duì)應(yīng)于模 式模型的低維向量顯示裝置在低維空間中顯示的對(duì)應(yīng)于模式模型的多 個(gè)低維向量的坐標(biāo)點(diǎn)分成低維空間中的多個(gè)區(qū)域。從而,能夠容易地 劃分對(duì)應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn),使得易于直觀地了解 特定的模式模型屬于哪個(gè)區(qū)域。母案原權(quán)利要求10中限定的數(shù)據(jù)處理單元能夠改變區(qū)域劃分裝 置自動(dòng)產(chǎn)生的劃分結(jié)果。從而,如果劃分結(jié)果不適當(dāng),或者增加了新 的才莫式才莫型,那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。母案原權(quán)利要求11中限定的數(shù)據(jù)處理單元根據(jù)和低維向量對(duì)應(yīng) 的關(guān)于對(duì)象的預(yù)定數(shù)據(jù),產(chǎn)生特定的模式模型,所述低維向量對(duì)應(yīng)于 為每個(gè)分段區(qū)域選擇的模式模型。從而,通過利用對(duì)應(yīng)于低維向量的 關(guān)于對(duì)象的預(yù)定數(shù)據(jù)來產(chǎn)生模式模型,能夠?yàn)橹付▽?duì)象產(chǎn)生恰當(dāng)?shù)哪?式模型,所述低維向量對(duì)應(yīng)于包含關(guān)于特定對(duì)象的模式模型的分段區(qū) 域中的模式模型。另外,由于利用特定分段區(qū)域上的預(yù)定數(shù)據(jù)產(chǎn)生模 式模型,因此能夠降低維式模型的存儲(chǔ)器需求。母案原權(quán)利要求12中限定的數(shù)據(jù)處理單元控制程序用于控制按 照母案原權(quán)利要求1所述的數(shù)據(jù)處理單元,從而其效果的描迷將被省 略,以避免不必要的重復(fù)。母案原權(quán)利要求13中限定的數(shù)據(jù)處理單元控制程序用于控制按 照母案原權(quán)利要求11所述的數(shù)據(jù)處理單元,從而其效果的描述將被省 略,以避免不必要的重復(fù)。母案原權(quán)利要求15中限定的模式模型搜索單元控制程序用于控 制按照母案原權(quán)利要求14所述的模式模型搜索單元,從而其效果的描 述將被省略,以避免不必要的重復(fù)。母案原權(quán)利要求16中限定的數(shù)據(jù)處理單元使得易于直觀地掌握 模式模型間的距離關(guān)系(相似性)。另外,由于4維或更高維的模式 模型可被轉(zhuǎn)換成3維或更低維的模式模型,因此能夠更容易地進(jìn)行群 集和各種其它處理。此外,由于預(yù)定數(shù)據(jù)的出現(xiàn)頻率被用于計(jì)算數(shù)學(xué)距離,因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán),那么通過考慮到所有 預(yù)定數(shù)據(jù),能夠定義模式模型間的距離,從而更準(zhǔn)確地計(jì)算模式模型 間的距離關(guān)系。除了母案原權(quán)利要求16的效果之外,在母案原權(quán)利要求17中限 定的數(shù)據(jù)處理單元提供下述效果由于在數(shù)學(xué)距離的計(jì)算中,使用其 識(shí)別性能低于預(yù)定閾值的模式單元的出現(xiàn)頻率,因此可在低維層次以 準(zhǔn)確的距離關(guān)系,顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易 于群集具有低識(shí)別性能的對(duì)象的模式模型。母案原權(quán)利要求18中限定的數(shù)據(jù)處理單元使得易于直觀地掌握 模式模型之間的距離關(guān)系(相似性)。另外,由于能夠容易地劃分對(duì) 應(yīng)于模式模型的多個(gè)低維向量的坐標(biāo)點(diǎn),因此易于直觀地了解特定的 模式模型屬于哪個(gè)區(qū)域。此外,能夠根據(jù)各個(gè)分段區(qū)域的區(qū)域模式模 型相對(duì)于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的似然性,搜索具有適合于識(shí)別關(guān)于 新對(duì)象的預(yù)定數(shù)據(jù)的識(shí)別性能的區(qū)域模式模型。除了母案原權(quán)利要求18的效果之外,在母案原權(quán)利要求19中限 定的數(shù)據(jù)處理單元提供下述效果由于語音數(shù)據(jù)的出現(xiàn)頻率被用于計(jì) 算數(shù)學(xué)距離,因此如果利用出現(xiàn)頻率對(duì)數(shù)學(xué)距離加權(quán),那么通過考慮 到模式模型上的所有預(yù)定數(shù)據(jù),能夠定義模式模型間的距離,從而更 準(zhǔn)確地計(jì)算模式模型間的距離關(guān)系。除了母案原權(quán)利要求19的效果之外,在母案原權(quán)利要求20中限 定的數(shù)據(jù)處理單元提供下述效果由于在數(shù)學(xué)距離的計(jì)算中,使用其 識(shí)別性能低于預(yù)定閣值的模式單元的出現(xiàn)頻率,因此可在低維層次以 準(zhǔn)確的距離關(guān)系,顯示具有低識(shí)別性能的對(duì)象的模式模型。這使得易 于群集具有低識(shí)別性能的對(duì)象的模式模型。除了母案原權(quán)利要求18-20任意之一的效果之外,在母案原權(quán)利 要求21中限定的數(shù)據(jù)處理單元提供下述效果由同心外圓和內(nèi)圓形成 的環(huán)狀區(qū)域可被分成多個(gè)扇形區(qū)域。除了母案原權(quán)利要求21的效果之外,在母案原權(quán)利要求22中限 定的數(shù)據(jù)處理單元提供下述效果當(dāng)模式模型二維可視時(shí),由于隨著 離中心的徑向距離的增大,模式模型的識(shí)別性能(與其它模型的相似 性)會(huì)降低,因此通過細(xì)微地劃分包含具有低識(shí)別性能的模式模型的 區(qū)域,能夠更準(zhǔn)確地對(duì)數(shù)據(jù)分組。除了母案原權(quán)利要求21或22的效果之外,在母案原權(quán)利要求23 中限定的數(shù)據(jù)處理單元提供下述效果能夠容易地處理當(dāng)產(chǎn)生指定對(duì) 象的模式模型時(shí),關(guān)于指定對(duì)象的預(yù)定數(shù)據(jù)位于分段區(qū)域間的邊界上 的情況。除了母案原權(quán)利要求21-23任意之一的效果之外,在母案原權(quán)利 要求24中限定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開 始,并移向最外側(cè)圓,計(jì)算關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的區(qū)域模式模型的 似然性,因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模式模型。除了母案原權(quán)利要求24的效果之外,在母案原權(quán)利要求25中限 定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開始,并移向 最外側(cè)圓,搜索包含具有最高似然性(識(shí)別性能)的區(qū)域模式模型的 分段區(qū)域,因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū) 域的區(qū)域模式模型。除了母案原權(quán)利要求24的效果之外,在母案原權(quán)利要求26中限 定的數(shù)據(jù)處理單元提供下述效果由于通過從最內(nèi)側(cè)圓開始,并移向 最外側(cè)圓,搜索包含具有前m個(gè)似然性的區(qū)域模式模型的分段區(qū)域,因此能夠快速搜索適合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的分段區(qū)域的區(qū)域模 式模型。除了母案原權(quán)利要求18-26任意之一的效果之外,在母案原權(quán)利 要求27中限定的數(shù)據(jù)處理單元提供下迷效果能夠至少考慮到講話者 的類型,包括講話者的姓名、性別(男/女)、年齡(兒童/成人/老人); 口語語匯,比如數(shù)字、句子和單詞;說話風(fēng)格,比如語速、講話的音 量、和方言特征;和說話環(huán)境,比如室內(nèi)、車內(nèi)、廠內(nèi)或者室外環(huán)境 (位置分類),產(chǎn)生語音數(shù)據(jù)的模式模型。除了母案原權(quán)利要求18-27任意之一的效果之外,在母案原權(quán)利 要求28中限定的數(shù)據(jù)處理單元提供下迷效果例如,如果預(yù)定數(shù)據(jù)是 人話音數(shù)據(jù),那么可按照特定條件的所需組合,比如成年男性(講話 者的類型)在室內(nèi)(說話環(huán)境)快速(說話風(fēng)格)說出的單詞(口語 語匯),形成一組預(yù)定數(shù)據(jù)。當(dāng)然,數(shù)據(jù)可按照更寬的條件,比如成 年男性(講話者的類型)在室內(nèi)(說話環(huán)境)說話來分組。在母案原權(quán)利要求30中限定的數(shù)據(jù)處理單元使得能夠計(jì)算模式 模型之間更適當(dāng)?shù)臄?shù)學(xué)距離。除了母案原權(quán)利要求18-30任意之一的效果之外,在母案原權(quán)利 要求31中限定的數(shù)據(jù)處理單元提供下述效果能夠?qū)⒛J侥P娃D(zhuǎn)換成 對(duì)應(yīng)于模式模型的相同數(shù)量的低維向量,同時(shí)保持模式模型間的距離 關(guān)系。除了母案原權(quán)利要求18-31任意之一的效果之外,在母案原權(quán)利 要求32中限定的數(shù)據(jù)處理單元提供下述效果如果劃分結(jié)果不適當(dāng), 或者增加了新的模式模型,那么可適當(dāng)?shù)馗淖儎澐纸Y(jié)果。另外,由于 模式模型的直觀劃分結(jié)杲被改變,因此能夠容易地改變劃分的結(jié)果。除了母案原權(quán)利要求18-32任意之一的效果之外,在母案原權(quán)利 要求33中限定的數(shù)據(jù)處理單元提供下迷效果由于可使特定分段區(qū)域 中的區(qū)域模式模型適合于所述新對(duì)象,因此能夠降低維式模型的存儲(chǔ) 器需求。除了母案原權(quán)利要求33的效果之外,在母案原權(quán)利要求34中限 定的數(shù)據(jù)處理單元提供下迷效杲由于對(duì)應(yīng)于多個(gè)低維向量的高維模 式模型被再次轉(zhuǎn)換成對(duì)應(yīng)于模式模型的低維向量,所述多個(gè)低維向量與包含在對(duì)應(yīng)于模式模型搜索裝置找到的區(qū)域模式模型的區(qū)域中的模 式模型對(duì)應(yīng),隨后通過關(guān)于適合于新對(duì)象的區(qū)域模式模型搜索分段區(qū) 域,轉(zhuǎn)換后的對(duì)應(yīng)于模式模型的低維向量被劃分,因此能夠產(chǎn)生更適 合于關(guān)于新對(duì)象的預(yù)定數(shù)據(jù)的模式識(shí)別的特定模式模型。在母案原權(quán)利要求35中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求16所述的數(shù)據(jù)處理單元,從而其效果將被省略, 以避免不必要的重復(fù)。在母案原權(quán)利要求36中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求18所述的數(shù)據(jù)處理單元,從而其效果將被省略, 以避免不必要的重復(fù)。在母案原權(quán)利要求37中限定的特定模式模型提供系統(tǒng)允許系統(tǒng) 用戶通過因特網(wǎng)等,使諸如PC、蜂窩電話機(jī)或PDA之類的信息處理 終端與數(shù)據(jù)處理單元連接,將他/她的語音數(shù)據(jù)發(fā)送給數(shù)據(jù)處理單元, 從而容易地獲取適合于他/她的語音數(shù)據(jù)的語音識(shí)別的特定模式模型。在母案原權(quán)利要求38中限定的數(shù)據(jù)處理單元根據(jù)聲學(xué)空間中,目 標(biāo)講話者的語音數(shù)據(jù)與其它模式模型之間的位置關(guān)系,評(píng)估目標(biāo)講話 者的語音數(shù)據(jù)的值,顯示評(píng)估結(jié)果以及顯示語音數(shù)據(jù)和其它模式模型 之間的位置關(guān)系。這使得能夠直觀地確定目標(biāo)講話者產(chǎn)生的語音數(shù)據(jù) 是否具有較高的值,并且使得易于直觀地了解目標(biāo)講話者的語音數(shù)據(jù) 在聲學(xué)空間中的位置。除了母案原權(quán)利要求38的效果之外,在母案原權(quán)利要求39中限 定的數(shù)據(jù)處理單元提供下述效果由于根據(jù)存在于離講話者的語音數(shù) 據(jù)在聲學(xué)空間中的位置預(yù)定距離內(nèi)的模式模型的數(shù)量,評(píng)估語音數(shù)據(jù) 的值,因此如果在目標(biāo)講話者的語音數(shù)據(jù)周圍,不存在其它講話者的 許多模式模型,那么能夠確定語音數(shù)據(jù)的值較高,如果在該語音數(shù)據(jù) 的周圍,存在許多模式模型,那么能夠確定該語音數(shù)據(jù)的值較低。除了母案原權(quán)利要求38或39的效果之外,在母案原權(quán)利要求40 中限定的數(shù)據(jù)處理單元提供下述效果由于預(yù)定距離被按照語音數(shù)據(jù) 的值步進(jìn)設(shè)置,因此能夠根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的模 式模型的數(shù)量,評(píng)估語音數(shù)據(jù)的值。這使得能夠按照每個(gè)距離范圍中 模式模型的數(shù)量,步進(jìn)地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。式模型用于評(píng)估,隨后使用相似模式模型的位置作為目 標(biāo)講話者產(chǎn)生的語音數(shù)據(jù)在聲學(xué)空間中的位置,而不是產(chǎn)生目標(biāo)講話 者產(chǎn)生的語聲的模式模型,因此,能夠減少計(jì)算工作量,并且使用適 合于實(shí)時(shí)處理等的配置。除了母案原權(quán)利要求41的效果之外,在母案原權(quán)利要求42中限 定的數(shù)據(jù)處理單元提供下述效果由于特征與目標(biāo)講話者的語音數(shù)據(jù) 類似的前幾個(gè)模式模型被用作目標(biāo)講話者的模式模型,用于所述評(píng)估, 因此,與當(dāng)選擇單一模式模型時(shí)相比,通過選擇按相似性降序排列的 前幾個(gè)模式模型,并將這些模式模型的平均值用于評(píng)估,能夠降低其 中被認(rèn)為相似的模式模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。除了母案原權(quán)利要求41或42的效果之外,在母案原權(quán)利要求43 中限定的數(shù)據(jù)處理單元提供下述效果數(shù)據(jù)處理單元通過計(jì)算目標(biāo)講 話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然性,確 定相似性,使得易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的模式模 型。除了母案原權(quán)利要求38-40任意之一的效果之外,在母案原權(quán)利 要求44中限定的數(shù)據(jù)處理單元提供下述效果數(shù)據(jù)處理單元將語音數(shù) 據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù),根據(jù)特征數(shù)據(jù)產(chǎn)生 目標(biāo)講話者的模式模型,計(jì)算產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模 式模型之間的數(shù)學(xué)距離,并根據(jù)計(jì)算的數(shù)學(xué)距離計(jì)算獲取的語音數(shù)據(jù) 在聲學(xué)空間中的位置,使得能夠更準(zhǔn)確地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值。除了母案原權(quán)利要求43或44的效果之外,在母案原權(quán)利要求45 中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元將包括對(duì)應(yīng) 于目標(biāo)講話者的語音數(shù)據(jù)的多個(gè)模式模型的聲學(xué)空間中的多個(gè)模式模 型轉(zhuǎn)換成低維模式模型,同時(shí)保持位置關(guān)系,并將轉(zhuǎn)換后的模式模型 顯示成低維空間中的坐標(biāo)點(diǎn),因此易于直觀地了解語音數(shù)據(jù)在聲學(xué)空 間中的位置。除了母案原權(quán)利要求38-45任意之一的效果之外,在母案原權(quán)利 要求46中限定的數(shù)據(jù)處理單元提供下述效果由于利用HMM (隱含 馬爾可夫模型), 一種已知技術(shù)來產(chǎn)生模式模型,因此能夠恰當(dāng)?shù)啬?擬語音數(shù)據(jù)。除了母案原權(quán)利要求38-46任意之一的效果之外,在母案原權(quán)利 要求47中限定的數(shù)據(jù)處理單元提供下述效果由于逐個(gè)音位地,而不 是逐字地或者逐句地評(píng)估目標(biāo)講話者的語音數(shù)據(jù),并且評(píng)估結(jié)果被逐 個(gè)音位地顯示,因此易于確定每個(gè)音位的值。除了母案原權(quán)利要求38-47任意之一的效果之外,在母案原權(quán)利 要求48中限定的數(shù)據(jù)處理單元提供下述效果通過顯示提示諸如發(fā)音 方式、語速或者需要被評(píng)估的(或者獲取)的其它語音數(shù)據(jù)之類的信 息的補(bǔ)充信息,能夠獲取和評(píng)估同一目標(biāo)講話者的各種語音數(shù)據(jù)。除了母案原權(quán)利要求38-48任意之一的效果之外,在母案原權(quán)利 要求49中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元與目 標(biāo)講話者協(xié)商語音數(shù)據(jù)是否可被提供,并且存儲(chǔ)成功完成協(xié)商的語音 數(shù)據(jù),因此能夠與目標(biāo)講話者協(xié)商由目標(biāo)講話者產(chǎn)生,并且被評(píng)估為 例如具有較高值的任意語音數(shù)據(jù)的獲取。在母案原權(quán)利要求50中限定的數(shù)據(jù)處理單元提供下述效果通過 借助因特網(wǎng)等使信息處理終端與數(shù)據(jù)處理單元連接,能夠通過因特網(wǎng) 評(píng)估許多目標(biāo)講話者的語音數(shù)據(jù),使得易于獲取值較高的語音數(shù)據(jù)。在母案原權(quán)利要求51中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利 要求38-50任意之一所述的數(shù)據(jù)處理單元實(shí)現(xiàn),從而其效果的描述將 被省略,以避免不必要的重復(fù)。在母案原權(quán)利要求52中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求39所述的數(shù)據(jù)處理單元,從而其效果的描述將被 省略,以避免不必要的重復(fù)。在母案原權(quán)利要求53中限定的數(shù)據(jù)處理單元提供和按照母案原 權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)中的數(shù)據(jù)處理單元相同的效果,從而 其描述將被省略,以避免不必要的重復(fù)。在母案原權(quán)利要求54中限定的信息處理終端提供和按照母案原 權(quán)利要求50所述的數(shù)據(jù)處理系統(tǒng)中的信息處理終端相同的效果,從而其描述將被省略,以避免不必要的重復(fù)。
      在母案原權(quán)利要求55中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求53所述的數(shù)據(jù)處理單元,從而其效果的描述將被 省略,以避免不必要的重復(fù)。
      在母案原權(quán)利要求56中限定的信息處理終端控制程序用于控制 按照母案原權(quán)利要求54所述的信息處理終端,從而其效果的描述將被 省略,以避免不必要的重復(fù)。
      在母案原權(quán)利要求57中限定的數(shù)據(jù)處理單元提供下述效果易于 直觀地了解多個(gè)講話者中的哪一個(gè)在語音方面與目標(biāo)講話者類似。
      除了母案原權(quán)利要求57的效果之外,在母案原權(quán)利要求58中限 定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解指定的特定講話者 與目標(biāo)講話者之間語音上的相似性,以及目標(biāo)講話者的語音數(shù)據(jù)與特 定講話者的模式模型之間的位置關(guān)系。
      在母案原權(quán)利要求59中限定的數(shù)據(jù)處理單元提供下述效果易于 直觀地了解指定的特定講話者與目標(biāo)講話者之間語音上的相似性,以 及目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置關(guān)系。
      除了母案原權(quán)利要求58或59的效果之外,在母案原權(quán)利要求60 中限定的數(shù)據(jù)處理單元提供下述效果目標(biāo)講話者能夠通過查看校正 信息,糾正他/她的說話方式。
      除了母案原權(quán)利要求57或58的效果之外,在母案原權(quán)利要求61 中限定的數(shù)據(jù)處理單元提供下述效果由于相似講話者檢測(cè)裝置和相 似性評(píng)估裝置都將相似的模式模型的位置用作目標(biāo)講話者產(chǎn)生的語音 數(shù)據(jù)在聲學(xué)空間中的位置,而不是產(chǎn)生由目標(biāo)講話者產(chǎn)生的語聲的模 式模型,因此能夠進(jìn)一步降低計(jì)算工作量,從而,本發(fā)明適合于實(shí)時(shí) 處理等。
      除了母案原權(quán)利要求57或58的效果之外,在母案原權(quán)利要求62 中限定的數(shù)據(jù)處理單元提供下述效果與當(dāng)選擇單一模式模型時(shí)相比, 通過選擇按相似性降序排列的前幾個(gè)模式模型,并將這些模式模型的 平均值用于檢測(cè)處理,評(píng)估處理等,能夠降低其中被認(rèn)為相似的模式 模型實(shí)際證明是不相似的任何錯(cuò)誤選擇的影響。
      除了母案原權(quán)利要求61或62的效果之外,在母案原權(quán)利要求63中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元通過計(jì)算目 標(biāo)講話者的語音數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型之間的匹配似然 性,確定相似性,因此易于選擇特征與目標(biāo)講話者的語音數(shù)據(jù)相似的 模式模型。
      除了母案原權(quán)利要求57-60任意之一的效果之外,在母案原權(quán)利 要求64中限定的數(shù)據(jù)處理單元提供下述效果能夠直接對(duì)目標(biāo)講話者 的語音數(shù)據(jù)進(jìn)行檢測(cè)處理或者評(píng)估處理。
      除了母案原權(quán)利要求63或64的效果之外,在母案原權(quán)利要求65 中限定的數(shù)據(jù)處理單元提供下述效果易于直觀地了解語音數(shù)據(jù)在聲 學(xué)空間中的位置。
      除了母案原權(quán)利要求58-65任意之一的效果之外,在母案原權(quán)利 要求66中限定的數(shù)據(jù)處理單元提供下述效果由于目標(biāo)講話者的語音 數(shù)據(jù)的值被逐個(gè)音位地評(píng)估,而不是被逐字或逐句地評(píng)估,并且評(píng)估 結(jié)果被逐個(gè)音位地顯示。因此易于逐個(gè)音位地了解相似性評(píng)估結(jié)果。
      除了母案原權(quán)利要求58-66任意之一的效果之外,在母案原權(quán)利 要求67中限定的數(shù)據(jù)處理單元提供下述效果由于數(shù)據(jù)處理單元評(píng)估 目標(biāo)講話者說出的語音與特定講話者以各種說話風(fēng)格,例如大聲、低 聲、快速和慢速說出的語音的相似性,因此目標(biāo)講話者能夠以適合他/ 她的說話風(fēng)格模仿特定講話者說出的語音。
      除了母案原權(quán)利要求58-67任意之一的效果之外,在母案原權(quán)利 要求68中限定的數(shù)據(jù)處理單元提供下述效果通過按照語速,聲高等 確定低維空間的軸,能夠容易地掌握目標(biāo)講話者的語音數(shù)據(jù)的特征, 以及他/她周圍的講話者或者特定講話者的語音數(shù)據(jù)的特征。
      除了母案原權(quán)利要求57-68任意之一的效果之外,在母案原權(quán)利 要求69中限定的數(shù)據(jù)處理單元提供下述效果由于利用HMM, 一種 已知技術(shù)來產(chǎn)生模式模型,因此能夠吸收獲取的語音數(shù)據(jù)的波形的波 動(dòng)。
      按照母案原權(quán)利要求70所述的數(shù)據(jù)處理單元提供下述效果等如 果信息處理終端通過因特網(wǎng)等與數(shù)據(jù)處理單元連接,那么能夠通過因 特網(wǎng)對(duì)目標(biāo)講話者的語音數(shù)據(jù)進(jìn)行檢測(cè)處理、評(píng)估處理等,使得目標(biāo) 講話者易于在家里或者類似場(chǎng)所對(duì)他/她的語音進(jìn)行檢測(cè)處理或者評(píng)估處理。
      在母案原權(quán)利要求71中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利 要求57所述的數(shù)據(jù)處理單元實(shí)現(xiàn),從而其效果的描述將被省略,以避 免不必要的重復(fù)。
      在母案原權(quán)利要求72中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利 要求58所述的數(shù)據(jù)處理單元實(shí)現(xiàn),從而其效果的描述將被省略,以避 免不必要的重復(fù)。
      在母案原權(quán)利要求73中限定的數(shù)據(jù)處理方法由按照母案原權(quán)利 要求59所述的數(shù)據(jù)處理單元實(shí)現(xiàn),從而其效果的描述將被省略,以避 免不必要的重復(fù)。
      在母案原權(quán)利要求74中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求58所述的數(shù)據(jù)處理單元,從而其效果的描述將被 省略,以避免不必要的重復(fù)。
      在母案原權(quán)利要求75中限定的數(shù)據(jù)處理單元控制程序用于控制 按照母案原權(quán)利要求59所述的數(shù)據(jù)處理單元,從而其效果的描述將被 省略,以避免不必要的重復(fù)。
      權(quán)利要求
      1、一種數(shù)據(jù)處理單元,包括聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間;語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);位置計(jì)算裝置,用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的目標(biāo)講話者的語音數(shù)據(jù)、以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算所述目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;語音數(shù)據(jù)評(píng)估裝置,用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置,評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù)的值;評(píng)估結(jié)果顯示裝置,用于顯示由所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果;和位置關(guān)系信息顯示裝置,用于根據(jù)所述計(jì)算的位置,顯示關(guān)于所述聲學(xué)空間中的、語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。
      2、 按照權(quán)利要求1所述的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估裝置根據(jù)這樣的模式模型的數(shù)量而評(píng)估語音數(shù)據(jù)的值,即所述模式模 型存在于與所述位置計(jì)算裝置計(jì)算的目標(biāo)講話者的語音數(shù)據(jù)的位置相距預(yù)定距離之內(nèi)。
      3、 按照權(quán)利要求2所述的數(shù)據(jù)處理單元,其中 所述預(yù)定距離被步進(jìn)地設(shè)置;和所述語音數(shù)據(jù)評(píng)估裝置根據(jù)存在于步進(jìn)設(shè)置的每個(gè)距離范圍內(nèi)的 模式模型的數(shù)量,評(píng)估語音數(shù)據(jù)的值。
      4、 按照權(quán)利要求1-3中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中所述語 音數(shù)據(jù)評(píng)估裝置根據(jù)所述位置計(jì)算裝置計(jì)算的位置,將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者 的模式模型以便評(píng)估。
      5、 按照權(quán)利要求4所述的數(shù)據(jù)處理單元,其中所述語音數(shù)據(jù)評(píng)估 裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè) 模式模型,用作目標(biāo)講話者的模式模型,以便進(jìn)行所述評(píng)估。
      6、 按照權(quán)利要求4或5所述的數(shù)據(jù)處理單元,其中所述位置計(jì)算 裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù)據(jù), 計(jì)算所述高維特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè)之間 的匹配似然性,根據(jù)所述計(jì)算的似然性,從多個(gè)講話者的多個(gè)模式模 型中選擇特定的模式模型,計(jì)算所述選擇的特定模式模型與其它模式 模型之間的數(shù)學(xué)距離,并且根據(jù)所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取 的語音數(shù)據(jù)在聲學(xué)空間中的位置。
      7、 按照權(quán)利要求1-3中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中所述位 置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征 數(shù)據(jù),根據(jù)所述特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型,計(jì)算所述產(chǎn)生 的模式模型與多個(gè)講話者的多氽模式模型之間的數(shù)學(xué)距離.,并具根據(jù) 所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的位置。
      8、 按照權(quán)利要求6或7所述的數(shù)據(jù)處理單元,其中 所述模式模型由4維或者更高維的元素組成;和 所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn)換成低維模式模型,即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相 對(duì)應(yīng)的多個(gè)模式模型,同時(shí)保持所述距離關(guān)系,并將所述轉(zhuǎn)換后的模 式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
      9、 按照權(quán)利要求1-8中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中利用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。
      10、 按照權(quán)利要求1-9中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中 所述語音數(shù)據(jù)評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;和所述評(píng)估結(jié)果顯示裝置逐個(gè)音素地顯示目標(biāo)講話者的語音數(shù)據(jù)的 評(píng)估結(jié)果。
      11、 按照權(quán)利要求1-10中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中當(dāng)所 述語音數(shù)據(jù)評(píng)估裝置將目標(biāo)講話者的語音數(shù)據(jù)評(píng)估為具有較低的值 時(shí),所述評(píng)估結(jié)果顯示裝置顯示語音數(shù)據(jù)的補(bǔ)充信息。
      12、 按照權(quán)利要求1-11中任一項(xiàng)所述的數(shù)據(jù)處理單元,包括 協(xié)商裝置,用于與目標(biāo)講話者協(xié)商語音數(shù)據(jù)是否能夠被提供;和 語音數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)被所述協(xié)商裝置成功完成的協(xié)商的語音數(shù)據(jù)。
      13、 一種數(shù)據(jù)處理系統(tǒng),包括 受到艮標(biāo)講話者控制的信息處理絳端;和 按照權(quán)利要求1-12中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中 所述信息處理終端和所述數(shù)據(jù)處理單元彼此可通信地互連, 所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將 所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元,和評(píng)估信息顯示裝置,用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取 的目標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果信息,所述數(shù)據(jù)處理單元包括評(píng)估信息發(fā)送裝置,用于將關(guān)于所述評(píng)估 結(jié)果的信息發(fā)送給所述信息處理終端。
      14、 一種數(shù)據(jù)處理方法,包括下述步驟存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲 學(xué)空間;獲取目標(biāo)講話者的語音數(shù)據(jù);根據(jù)在所述獲取步驟獲取的目標(biāo)講話者的語音數(shù)據(jù)、以及所述存 儲(chǔ)步驟存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算所述目標(biāo)講話者的語 音數(shù)據(jù)在聲學(xué)空間中的位置;根據(jù)所述計(jì)算步驟計(jì)算的位置,評(píng)估所述目標(biāo)講話者的語音數(shù)據(jù) 的值;顯示由所述評(píng)估步驟產(chǎn)生的評(píng)估結(jié)果;和 根據(jù)所述計(jì)算的位置,顯示關(guān)于所述聲學(xué)空間中的、語音數(shù)據(jù)和 環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位置關(guān)系的信息。
      15、 一種數(shù)據(jù)處理單元控制方法,用于控制按照權(quán)利要求1所述 的數(shù)據(jù)處理單元,包括聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型組成的聲學(xué)空間;語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù);位置計(jì)算步驟,用于根據(jù)在所述語音教據(jù)獲取步驟中獲取的語貴 數(shù)據(jù)、以及在所述聲學(xué)空間存儲(chǔ)步驟中存儲(chǔ)的聲學(xué)空間中的多個(gè)模式 模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;語音數(shù)據(jù)評(píng)估步驟,用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置, 評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;和評(píng)估結(jié)果顯示步驟,用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的 評(píng)估結(jié)果。
      16、 一種適用于按照權(quán)利要求13所述的數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)處理 單元,包括聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型組成的聲學(xué)空間;語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);位置計(jì)算裝置,用于根據(jù)所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)、 以及所述聲學(xué)空間存儲(chǔ)裝置存儲(chǔ)的聲學(xué)空間中的多個(gè)模式模型,計(jì)算 目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;語音數(shù)據(jù)評(píng)估裝置,用于根據(jù)所述位置計(jì)算裝置計(jì)算的位置,評(píng) 估目標(biāo)講話者的語音數(shù)據(jù)的值;評(píng)估結(jié)果顯示裝置,用于顯示所述語音數(shù)據(jù)評(píng)估裝置產(chǎn)生的評(píng)估 結(jié)果;位置關(guān)系信息顯示裝置,用于根據(jù)所述計(jì)算的位置,顯示關(guān)于所 述聲學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間 的位置關(guān)系的信息;和評(píng)估信息發(fā)送裝置,用于將關(guān)于所述評(píng)估結(jié)果的信息發(fā)送給所述 信息處理終端。
      17、 一種適用于按照權(quán)利要求13所述的數(shù)據(jù)處理系統(tǒng)的信息處理 終端,包括語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并且將所 述獲取的語音數(shù)據(jù)發(fā)送給^t述數(shù)據(jù)處理單元;| 評(píng)估信息顯示裝置,用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的目 標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果的信息。
      18、 一種數(shù)據(jù)處理單元控制方法,用于控制按照權(quán)利要求16所述 的數(shù)據(jù)處理單元,其中所述數(shù)據(jù)處理單元包括由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間, 所述方法包括語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù);扭皇計(jì)算步驟,用于根據(jù)在所述語音數(shù)據(jù)獲取步驟中獲取的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;語音數(shù)據(jù)評(píng)估步驟,用于根據(jù)在所述位置計(jì)算步驟中計(jì)算的位置, 評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的值;評(píng)估結(jié)果顯示步驟,用于顯示在所述語音數(shù)據(jù)評(píng)估步驟中產(chǎn)生的 評(píng)估結(jié)果;位置關(guān)系信息顯示步驟,用于根據(jù)所述計(jì)算的位置,顯示關(guān)于聲 學(xué)空間中的、所述語音數(shù)據(jù)和環(huán)繞所述語音數(shù)據(jù)的模式模型之間的位 置關(guān)系的信息;和評(píng)估信息發(fā)送步驟,用于將關(guān)于評(píng)估結(jié)果的信息發(fā)送給所述信息 處理終端。
      19、 一種信息處理終端控制方法,用于控制按照權(quán)利要求17所述 的信息處理終端,包括語音數(shù)據(jù)發(fā)送步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將所述 獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元;和評(píng)估信息顯示步驟,用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的目 標(biāo)講話者的語音數(shù)據(jù)的評(píng)估結(jié)果的信息。
      20、 一種數(shù)據(jù)處理單元,包括聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù);位置計(jì)算裝置,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中 的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;相似講話者檢測(cè)裝置,用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模位置關(guān)系信息顯示裝置,用;根據(jù)語音數(shù)據(jù)的位置和相似講話者 的模式模S,"顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和相似講話者的模式模型之間的位置關(guān)系的信息。
      21、 按照權(quán)利要求20所述的數(shù)據(jù)處理單元,包括 特定講話者指定裝置,用于指定所述多個(gè)講話者中的特定講話者; 相似性評(píng)估裝置,用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似 性;和評(píng)估結(jié)果顯示裝置,用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果,其中所述位置關(guān)系信息顯示裝置根據(jù)語音數(shù)據(jù)的位置和特定講話 者的模式模型,顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特 定講話者的模式模型之間的位置關(guān)系的信息。
      22、 一種數(shù)據(jù)處理單元,包括聲學(xué)空間存儲(chǔ)裝置,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;特定講話者指定裝置,用于指定多個(gè)講話者中的特定講話者; 語音數(shù)據(jù)獲取裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù); -位置外算裝置,用于根據(jù)貝標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置;相似性評(píng)估裝置,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,評(píng)估特定講話者和目標(biāo)講話者之間語音上的相似性;評(píng)估結(jié)果顯示裝置,用于顯示所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié)果;和位置關(guān)系信息顯示裝置,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者 的模式模型,顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)和特定 講話者的模式模型之間的位置關(guān)系的信息。
      23、 按照權(quán)利要求21或22所述的數(shù)據(jù)處理單元,包括校正信息產(chǎn)生裝置,用于根據(jù)所述相似性評(píng)估裝置產(chǎn)生的評(píng)估結(jié) 果,產(chǎn)生校正信息,所述校正信息指示將對(duì)目標(biāo)講話者的語音進(jìn)行的校正,以便提高目標(biāo)講話者與特定講話者之間語音上的相似性;和 校正信息顯示裝置,用于顯示所述校正信息。
      24、 按照權(quán)利要求22所述的數(shù)據(jù)處理單元,其中 根據(jù)語音數(shù)據(jù)的位置,所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征上與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者的模式模型;和根據(jù)語音數(shù)據(jù)的位置,所述相似性評(píng)估裝置將多個(gè)模式模型中的 特征上與目標(biāo)講話者的語音數(shù)據(jù)類似的模式模型,用作目標(biāo)講話者的 模式模型。
      25、 按照權(quán)利要求22所述的數(shù)據(jù)處理單元,其中 根據(jù)語音數(shù)據(jù)的位置,所述相似講話者檢測(cè)裝置將多個(gè)模式模型中的特征與目標(biāo)講話者的語音數(shù)據(jù)類似的前幾個(gè)模式模型,用作目標(biāo) 講話者的模式模型;和根據(jù)語音數(shù)據(jù)的位置,所述相似性評(píng)估裝置將多個(gè)模式模型中的 特征與ft標(biāo)講話者的語音數(shù)據(jù)類似的前幾介模式模型,用作瑪標(biāo)講話者的模式模型。
      26、 按照權(quán)利要求24或25所述的數(shù)據(jù)處理單元,其中所述位置 計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維特征數(shù) 據(jù),計(jì)算所述高維特征數(shù)據(jù)與多個(gè)講話者的多個(gè)模式模型中的每一個(gè) 之間的似然性,根據(jù)所述計(jì)算的似然性,從多個(gè)講話者的模式模型中 選擇特定的模式模型,計(jì)算所述選擇的特定模式模型和其它模式模型 之間的數(shù)學(xué)距離,并且根據(jù)所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取的語 音數(shù)據(jù)在聲學(xué)空間中的位置。
      27、按照權(quán)利要求20-23中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中所 述位置計(jì)算裝置將所述語音數(shù)據(jù)獲取裝置獲取的語音數(shù)據(jù)轉(zhuǎn)換成高維 特征數(shù)據(jù),根據(jù)所述特征數(shù)據(jù)產(chǎn)生目標(biāo)講話者的模式模型,計(jì)算所述 產(chǎn)生的模式模型與多個(gè)講話者的多個(gè)模式模型之間的數(shù)學(xué)距離,并且 根據(jù)所述計(jì)算的數(shù)學(xué)距離,計(jì)算所述獲取的語音數(shù)據(jù)在聲學(xué)空間中的 位置。
      28、按照權(quán)利要求26或27所述的數(shù)據(jù)處理單元,其中所述模式模型由4維或更高維的元素組成;和所述位置關(guān)系信息顯示裝置將聲學(xué)空間中的多個(gè)這樣模式模型轉(zhuǎn) 換成低維模式模型,即所述模式模型包括與目標(biāo)講話者的語音數(shù)據(jù)相 對(duì)應(yīng)的多個(gè)模式模型,同時(shí)保持所述距離關(guān)系,并將所述轉(zhuǎn)換后的模 式模型顯示成低維空間中的坐標(biāo)點(diǎn)。
      29、按照權(quán)利要求21-28中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中所 述相似性評(píng)估裝置逐個(gè)音素地評(píng)估目標(biāo)講話者的語音數(shù)據(jù)的相似性。
      30、按照權(quán)利要求21-29中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中的多個(gè)模式模型構(gòu)成;和所述相似性評(píng)估裝置評(píng)估所述多種說話風(fēng)格中的每一種中的相似性。
      31、按照權(quán)利要求30所述的數(shù)據(jù)處理單元,其中所述位置關(guān)系信 息顯示裝置根據(jù)多個(gè)模式模型的說話風(fēng)格,建立低維空間的坐標(biāo)軸。
      32、按照權(quán)利要求20-31中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中利 用HMM (隱含馬爾可夫模型)產(chǎn)生模式模型。
      33、 一種數(shù)據(jù)處理系統(tǒng),包含受到目標(biāo)講話者控制的信息處理終端;和按照權(quán)利要求20-32中任一項(xiàng)所述的數(shù)據(jù)處理單元,其中所述信息處理終端和所述數(shù)據(jù)處理單元可通信地相互連接,所述信息處理終端包括語音數(shù)據(jù)發(fā)送裝置,用于獲取目標(biāo)講話者的語音數(shù)據(jù),并將所述獲取的語音數(shù)據(jù)發(fā)送給所述數(shù)據(jù)處理單元,和信息顯示裝置,用于顯示關(guān)于從所述數(shù)據(jù)處理單元獲取的語音數(shù)據(jù)的處理結(jié)果的信息,和所述數(shù)據(jù)處理單元包括信息發(fā)送裝置,用于將關(guān)于語音數(shù)據(jù)的處理結(jié)果的信息發(fā)送給所述信息處理終端。
      34、 一種數(shù)據(jù)處理方法,包括下述步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間;獲取目標(biāo)講話者的語音數(shù)據(jù);根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模型^檢測(cè)炎個(gè)講話者中的語 音上類似于目標(biāo)講話者的相似講話者;和根據(jù)語音數(shù)據(jù)的位置以及相似講話者的模式模型,顯示關(guān)于聲學(xué) 空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相似講話者的模式模型之間的位 置關(guān)系的信息。
      35、 按照權(quán)利要求34所述的數(shù)據(jù)處理方法,包括下述步驟 指定多個(gè)講話者中的特定講話者;根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定講話者的模式模型,評(píng) 估特定講話者和目標(biāo)講話者之間語音上的相似性;和 顯示評(píng)估結(jié)果。
      36、 一種數(shù)據(jù)處理方法,包括下述步驟準(zhǔn)備由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲 學(xué)空間;指定多個(gè)講話者中的特定講話者; 獲取目標(biāo)講話者的語音數(shù)據(jù);根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì) 算目標(biāo)講話者的語音數(shù)據(jù)的位置;根據(jù)語音數(shù)據(jù)的位置以及特定講話者的模式模型,評(píng)估特定講話 者與目標(biāo)講話者之間語音上的相似性;顯示評(píng)估結(jié)果;和根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,顯示關(guān)于聲學(xué)空 間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講話者的模式模型之間的位置 關(guān)系的信息。
      37、 一種數(shù)據(jù)處理單元控制方法,包括聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生 的多個(gè)模式模型構(gòu)成的聲學(xué)空間;語音數(shù)據(jù)獲取步驟^用于獲^^目標(biāo)講話者的語音數(shù)振; 位置計(jì)算步驟,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)以及聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)在聲學(xué)空間中的位置;相似講話者檢測(cè)步驟,用于根據(jù)語音數(shù)據(jù)的位置以及多個(gè)模式模 型,檢測(cè)多個(gè)講話者中的語音上類似于目標(biāo)講話者的相似講話者;位置關(guān)系信息顯示步驟,用于根據(jù)語音數(shù)據(jù)的位置以及相似講話 者的模式模型,顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與相 似講話者的模式模型之間的位置關(guān)系的信息;講話者指定步驟,用于指定特定的講話者;相似性評(píng)估步驟,用于根據(jù)聲學(xué)空間中的語音數(shù)據(jù)的位置和特定 講話者的模式模型,評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性;評(píng)估結(jié)果顯示步驟,用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié) 果,其中所述位置關(guān)系信息顯示步驟根據(jù)語音數(shù)據(jù)的位置和特定講話者的 模式模型,顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定講 話者的模式模型之間的位置關(guān)系的信息。
      38、 一種數(shù)據(jù)處理單元控制方法,包括聲學(xué)空間存儲(chǔ)步驟,用于存儲(chǔ)由根據(jù)多個(gè)講話者的語音數(shù)據(jù)產(chǎn)生的多個(gè)模式模型構(gòu)成的聲學(xué)空間;特定講話者指定步驟,用于指定多個(gè)講話者中的特定講話者; 語音數(shù)據(jù)獲取步驟,用于獲取目標(biāo)講話者的語音數(shù)據(jù); 位置計(jì)算步驟,用于根據(jù)目標(biāo)講話者的語音數(shù)據(jù)和聲學(xué)空間中的多個(gè)模式模型,計(jì)算目標(biāo)講話者的語音數(shù)據(jù)的位置;相似性評(píng)估步驟,用于根據(jù)語音數(shù)據(jù)的位置和特定講話者的模式模型,評(píng)估特定講話者與目標(biāo)講話者之間語音上的相似性;評(píng)估結(jié)果顯示步驟,用于顯示所述相似性評(píng)估步驟產(chǎn)生的評(píng)估結(jié)果; 位置關(guān)系信息顯示步驟,,;用于根據(jù)語音數(shù)據(jù)的位置和特疋講話者 的模式模型,顯示關(guān)于聲學(xué)空間中的、目標(biāo)講話者的語音數(shù)據(jù)與特定 講話者的模式模型之間的位置關(guān)系的 息。
      全文摘要
      提供一種數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序,所述數(shù)據(jù)處理單元和數(shù)據(jù)處理單元控制程序適合于在諸如講話者的類型,口語語匯,說話風(fēng)格和說話環(huán)境之類的特定條件下,考慮到多樣化的特征參數(shù)的分布,產(chǎn)生非特指講話者的聲學(xué)模型,并且適合于提供供非特指講話者用且適用于特定人員的語音的聲學(xué)模型。數(shù)據(jù)處理單元1包括數(shù)據(jù)分類部分1a,數(shù)據(jù)存儲(chǔ)部分1b,模式模型產(chǎn)生部分1c,數(shù)據(jù)控制部分1d,數(shù)學(xué)距離計(jì)算部分1e,模式模型轉(zhuǎn)換部分1f,模式模型顯示部分1g,區(qū)域劃分部分1h,劃分改變部分1i,區(qū)域選擇部分1j,和特定模式模型產(chǎn)生部分1k。
      文檔編號(hào)G10L21/06GK101661754SQ20091016639
      公開日2010年3月3日 申請(qǐng)日期2004年7月22日 優(yōu)先權(quán)日2003年10月3日
      發(fā)明者奈木野豪秀, 莊境誠 申請(qǐng)人:旭化成株式會(huì)社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1