国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音識(shí)別系統(tǒng)的制作方法

      文檔序號(hào):2837691閱讀:326來(lái)源:國(guó)知局
      專利名稱:聲音識(shí)別系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種聲音識(shí)別系統(tǒng),具體地說(shuō),涉及一種具有改善了聲音部分檢測(cè)精度的聲音識(shí)別系統(tǒng)。
      背景技術(shù)
      當(dāng)例如識(shí)別在其中存在噪聲等的環(huán)境中發(fā)出的聲音本身時(shí),由于所述噪聲等的干擾,聲音的識(shí)別率將會(huì)失真。因此,用于聲音識(shí)別的聲音識(shí)別系統(tǒng)的基本出發(fā)點(diǎn)就是要正確地檢測(cè)聲音部分。
      使用用于檢測(cè)聲音部分的剩余功率法或子空間法的聲音識(shí)別系統(tǒng)是已知的。
      圖6示出了傳統(tǒng)的使用剩余功率法的聲音識(shí)別系統(tǒng)的結(jié)構(gòu)。在這個(gè)聲音識(shí)別系統(tǒng)中,使用Hidden Markov Model s(HMM海登.馬爾可夫模型)準(zhǔn)備位于字或子字(例如音素、音節(jié))單元中的聲模型(聲音HMM),當(dāng)發(fā)出需要識(shí)別的聲音時(shí),建立是所述輸入信號(hào)頻譜的時(shí)間序列的觀測(cè)值序列,針對(duì)所述聲音HMM檢查所述觀測(cè)值序列,選擇具有最大可能性的聲音HMM并將其作為識(shí)別結(jié)果輸出。
      具體地說(shuō),將被收集和存儲(chǔ)在聲音數(shù)據(jù)庫(kù)中的大量聲音數(shù)據(jù)Sm分配到每一延長(zhǎng)為一個(gè)預(yù)定時(shí)間周期(近似10-20毫秒)的多個(gè)幀中,以幀為單位分配的該數(shù)據(jù)各個(gè)被依序進(jìn)行倒頻譜計(jì)算,借此以計(jì)算倒頻譜時(shí)間序列。然后,經(jīng)過(guò)訓(xùn)練處理將所述倒頻譜時(shí)間序列處理成表示聲音和所述聲模型(聲HNN)在參數(shù)方面反映的特征量,從而可以建立以字或子字為單位的聲音HMM。
      當(dāng)聲音被實(shí)際發(fā)出時(shí),當(dāng)聲音以和上述類似方式以幀為單位的分配時(shí),輸入輸入數(shù)據(jù)Sa。在以幀為單位的每段輸入信號(hào)數(shù)據(jù)的基礎(chǔ)上,使用剩余功率法構(gòu)成的聲音部分檢測(cè)部件檢測(cè)聲音部分τ,切割被檢測(cè)聲音部分τ中的輸入聲音數(shù)據(jù)Svc,將所述輸入聲音數(shù)據(jù)Svc倒頻譜時(shí)間序列的觀測(cè)值序列與以字或子字為單位的聲音HNN相比較,借此以實(shí)現(xiàn)聲音識(shí)別。
      所述聲音部分檢測(cè)部件包括一個(gè)LPC分析部件1、閾值建立部件2、比較部件3以及轉(zhuǎn)換部件4和5。
      LPC分析部件1對(duì)以幀為單位輸入信號(hào)數(shù)據(jù)Sa執(zhí)行線性預(yù)測(cè)編碼(LPC)分析,借此計(jì)算預(yù)測(cè)剩余功率ε。轉(zhuǎn)換部件4在例如由于發(fā)言者接通所述聲音識(shí)別系統(tǒng)的一個(gè)發(fā)言開(kāi)始開(kāi)關(guān)(未示出)直到發(fā)言者實(shí)際開(kāi)始發(fā)言為止的一個(gè)預(yù)定時(shí)間周期(無(wú)聲周期)中將所述預(yù)測(cè)剩余功率ε提供給閾值建立部件2,但在所述無(wú)聲周期結(jié)束之后,轉(zhuǎn)換部件4將預(yù)測(cè)剩余功率ε提供給比較部件3。
      閾值建立部件2計(jì)算在無(wú)聲周期中建立的所述預(yù)測(cè)剩余功率ε的平均ε’,并將一個(gè)預(yù)先確定的預(yù)定值α加到它上面,借此計(jì)算閾值THD(=ε’+α),然后將所述閾值THD提供給比較部件3。
      比較部件3將所述閾值THD與在所述無(wú)聲周期結(jié)束之后經(jīng)過(guò)所述轉(zhuǎn)換部件4提供的所述預(yù)測(cè)剩余功率ε進(jìn)行比較,當(dāng)判斷的結(jié)果是THD≤ε并因此表明它是一個(gè)聲音部分時(shí),轉(zhuǎn)換部件5被接通(使所述轉(zhuǎn)換部件5導(dǎo)通),而當(dāng)判斷的結(jié)果是THD>ε并因此表明它是一個(gè)無(wú)聲部分時(shí),轉(zhuǎn)換部件5被關(guān)斷(使轉(zhuǎn)換部件5截止)。
      轉(zhuǎn)換部件5在比較部件3的控制下執(zhí)行上述通/斷操作。因此,在被確定為聲音部分的時(shí)間周期內(nèi),需要被識(shí)別的輸入聲音數(shù)據(jù)以幀為單位從輸入信號(hào)數(shù)據(jù)Sa中被切割,在所述輸入聲音數(shù)據(jù)Svc的基礎(chǔ)上執(zhí)行上述倒頻譜計(jì)算,建立將被針對(duì)聲音HMM進(jìn)行檢查的觀測(cè)值序列。
      在類似的方式下,在使用剩余功率法檢測(cè)聲音部分的傳統(tǒng)聲音識(shí)別系統(tǒng)中,在無(wú)聲周期中建立的預(yù)測(cè)聲音能量ε的平均ε’的基礎(chǔ)上確定用于檢測(cè)聲音部分的閾值THD,并判斷在所述無(wú)聲周期之后輸入的輸入信號(hào)數(shù)據(jù)Sa的所述預(yù)測(cè)剩余功率ε是否是大于所述閾值THD的一個(gè)值,借此檢測(cè)聲音部分。
      圖7示出了一個(gè)使用子空間方法的聲音部分檢測(cè)部件的結(jié)構(gòu)。這個(gè)聲音部分檢測(cè)部件將一個(gè)輸入信號(hào)的特征矢量投影倒表示預(yù)先從大量聲音數(shù)據(jù)中訓(xùn)練的聲音特征的一個(gè)空間(子空間)上,并當(dāng)投影量很大時(shí)識(shí)別聲音部分。
      換言之,經(jīng)過(guò)預(yù)先收集的用于訓(xùn)練的聲音數(shù)據(jù)Sm(訓(xùn)練數(shù)據(jù))被以預(yù)定幀數(shù)為單位進(jìn)行聽(tīng)覺(jué)分析,借此計(jì)算M-維特征矢量Xn=[Xn1Xn2Xn3...XnM]。變量M表示所述矢量的維數(shù),變量n表示幀數(shù)(n≤N),和符號(hào)T表示轉(zhuǎn)置。
      根據(jù)這個(gè)M-維特征矢量Xn,存在由下述公式(1)表示的相關(guān)矩陣R。此外,提供了下述公式(2),借此獲得本征值擴(kuò)展的相關(guān)矩陣R,并計(jì)算M段本征值λs和本征矢量VK。R=1N&Sigma;n=1NxnxnT---(1)]]>(RλKI)VK=0(2)其中,K=1、2、3、…M;I表示一個(gè)單元矩陣;0表示一個(gè)零矢量。
      接著,選擇m段(m<M)具有較大本征值的本正矢量V1、V2、…Vm,并建立其中所選擇的本征值是列向量的矩陣V=[V1、V2、…Vm]。換言之,由m段本正矢量V1、V2、…Vm所規(guī)定的空間被假設(shè)為最能夠表示經(jīng)過(guò)訓(xùn)練獲得的一個(gè)聲音特征的子空間。
      然后利用下述公式(3)計(jì)算投影矩陣P。P=VVT=&Sigma;k=1mVKVKT---(3)]]>投影矩陣P在以這種方式預(yù)先建立的。當(dāng)輸入輸入信號(hào)數(shù)據(jù)Sa時(shí),與對(duì)訓(xùn)練數(shù)據(jù)Sm的處理方式類似,以預(yù)定幀數(shù)為單位對(duì)輸入信號(hào)數(shù)據(jù)Sa進(jìn)行聽(tīng)覺(jué)分析,借此計(jì)算所述輸入信號(hào)數(shù)據(jù)Sa的特征矢量a。此后計(jì)算所述投影矩陣P和所述特征矢量a的乘積,從而計(jì)算由公式(4)表示的投影矢量Pa的平方模(square norm)||Pa||2。
      ||Pa||2=(Pa)TPa=aTpTpa=aTpa....(4)在這個(gè)公式中,使用了投影矩陣PTP=P的能量等式。
      將預(yù)先確定的閾值θ與上述平方模相比較,當(dāng)θ<||Pa||2時(shí),判斷的結(jié)果是這是一個(gè)聲音部分,在這個(gè)聲音部分內(nèi)的輸入信號(hào)數(shù)據(jù)Sa被切割并在被如此切割的聲音數(shù)據(jù)Svc的基礎(chǔ)上識(shí)別所述聲音。
      但是,當(dāng)SN比值變低時(shí)使用剩余功率法的聲音部分的上述傳統(tǒng)檢測(cè)存在一個(gè)問(wèn)題,即噪聲和原始聲音之間預(yù)測(cè)剩余功率的差別變小,因此,檢測(cè)聲音部分的檢測(cè)精度變低。具體地說(shuō),問(wèn)題在于很難檢測(cè)能量很小的清音的聲音部分。
      另外,在使用子空間法檢測(cè)聲音部分的上述傳統(tǒng)方法表示在聲音(發(fā)聲的聲音和清音的聲音)頻譜和噪聲頻譜之間的差異的同時(shí),由于它不能彼此清楚地鑒別這些頻譜,所以就存在一個(gè)問(wèn)題,即不能改善檢測(cè)聲音部分的檢測(cè)精度。
      下面參照?qǐng)D8A到圖8C詳細(xì)描述在試圖識(shí)別發(fā)自汽車內(nèi)部聲音的情況下利用子空間法存在的問(wèn)題。所述問(wèn)題如下。圖8A示出了表示典型發(fā)聲聲音“a”、“i”、“u”、“e”和“o”的頻譜的包絡(luò),圖8B示出了表示多種典型清音類型的頻譜的包絡(luò),和圖8C示出了表示運(yùn)行汽車噪聲的頻譜的包絡(luò),所述運(yùn)行噪聲被包圍在其引擎排量彼此互不相同的多個(gè)汽車內(nèi)部。
      作為所示出的這些頻譜包絡(luò),問(wèn)題在于由于發(fā)聲聲音和運(yùn)行汽車噪聲的頻譜彼此類似,所以,很難彼此鑒別所述發(fā)聲聲音和運(yùn)行汽車噪聲。
      此外,由于元音聲音和輔音聲音等導(dǎo)致特征矢量的模變化,因此,即使當(dāng)這些矢量與所述子空間相互匹配時(shí),如果在它們被投影之前的矢量很小,那么,在它們被投影之后的矢量模就變得很小。特別是,由于輔音具有較小的特征矢量模,所以就存在一個(gè)問(wèn)題,即,將所述輔音作為聲音部分檢測(cè)將會(huì)失敗。
      此外,在低頻區(qū)域內(nèi)表示發(fā)聲聲音的頻譜很大,而在高頻區(qū)域內(nèi)表示清音的頻譜很大。由于這個(gè)原因,其中全部訓(xùn)練發(fā)聲聲音和清音傳統(tǒng)方法存在一個(gè)問(wèn)題,即很難獲得適當(dāng)?shù)淖涌臻g。

      發(fā)明內(nèi)容
      本發(fā)明的一個(gè)目的是提供一種解決了上述使用傳統(tǒng)技術(shù)的傳統(tǒng)聲音識(shí)別系統(tǒng)存在的問(wèn)題并改善了檢測(cè)聲音精度的聲音識(shí)別系統(tǒng)。
      為了實(shí)現(xiàn)上述目的,本發(fā)明直接提供了一種包括用于檢測(cè)作為聲音識(shí)別目標(biāo)的聲音部分的聲音部分檢測(cè)部件的聲音識(shí)別系統(tǒng)。
      其特征在于所述聲音部分檢測(cè)部件包括一個(gè)訓(xùn)練矢量建立部件,用于預(yù)先將一個(gè)聲音的特征建立為訓(xùn)練矢量;一個(gè)內(nèi)部乘積值判斷部件,用于計(jì)算包括聲音的發(fā)出和所述訓(xùn)練矢量的輸入信號(hào)的特征矢量的內(nèi)部乘積,并判斷所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值的部分是一個(gè)聲音部分;和在由所述內(nèi)部乘積值判斷部件判斷的聲音部分期間內(nèi)的所述輸入聲音是聲音識(shí)別的目標(biāo)。
      根據(jù)這個(gè)結(jié)構(gòu),計(jì)算包括實(shí)際發(fā)出聲音的輸入信號(hào)的清音和特征矢量的基礎(chǔ)上預(yù)先準(zhǔn)備的一個(gè)訓(xùn)練矢量的內(nèi)部乘積,將所計(jì)算的內(nèi)部乘積值大于一個(gè)預(yù)定閾值的點(diǎn)判斷為清音。在上述判斷結(jié)果的基礎(chǔ)上建立所述輸入信號(hào)的聲音部分,借此適當(dāng)發(fā)現(xiàn)需要被識(shí)別的聲音。
      此外,為了實(shí)現(xiàn)上述目的,本發(fā)明直接提供了一種聲音識(shí)別系統(tǒng),該系統(tǒng)包括一個(gè)聲音部分檢測(cè)部件,用于檢測(cè)作為聲音識(shí)別目標(biāo)的聲音部分,其特征是所述聲音部分檢測(cè)部件包括訓(xùn)練矢量建立部件,用于將一個(gè)聲音的特征預(yù)先建立為訓(xùn)練矢量;閾值建立部件,用于在不發(fā)聲周期內(nèi)建立的輸入信號(hào)的線性預(yù)測(cè)剩余功率的基礎(chǔ)上從噪聲中鑒別一個(gè)聲音的閾值;內(nèi)部乘積值判斷部件,用于計(jì)算包括聲音的發(fā)出與所述訓(xùn)練矢量的一個(gè)輸入信號(hào)的特征矢量的內(nèi)部乘積,并判斷所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值的點(diǎn)是一個(gè)聲音部分;和線性預(yù)測(cè)剩余功率判斷部件,用于判斷包括所述聲音的發(fā)出的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率大于由所述閾值建立部件建立的所述閾值的點(diǎn)是一個(gè)聲音部分,和在由所述內(nèi)部乘積值判斷部件和所述線性預(yù)測(cè)剩余功率判斷部件判斷的所述聲音周期內(nèi)的輸入信號(hào)是聲音識(shí)別的目標(biāo)。
      根據(jù)這個(gè)結(jié)構(gòu),計(jì)算在清音基礎(chǔ)上預(yù)先準(zhǔn)備的訓(xùn)練矢量與包括聲音實(shí)際發(fā)出的輸入信號(hào)的特征矢量的內(nèi)部乘積,所計(jì)算的內(nèi)部乘積值大于所述預(yù)定閾值的點(diǎn)被判斷為清音部分。另外,在無(wú)聲周期中在預(yù)測(cè)剩余功率基礎(chǔ)上計(jì)算的閾值與包括實(shí)際發(fā)出所述聲音的輸入信號(hào)的預(yù)測(cè)剩余功率進(jìn)行比較,其中這個(gè)預(yù)測(cè)剩余功率大于所述閾值的點(diǎn)被判斷為發(fā)聲聲音的部分。在上述判斷結(jié)果的基礎(chǔ)上建立所述輸入信號(hào)的聲音部分,借此正確地找到需要被識(shí)別的聲音。
      此外,為了實(shí)現(xiàn)上述目的,本發(fā)明的特征在于包括一個(gè)錯(cuò)誤判斷控制部件,用于計(jì)算在無(wú)聲周期內(nèi)建立的所述輸入信號(hào)的特征矢量與所述訓(xùn)練矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)利用所述內(nèi)部乘積值判斷部件停止所述判斷處理。
      根據(jù)這個(gè)結(jié)構(gòu),計(jì)算一個(gè)訓(xùn)練矢量和在實(shí)際發(fā)出一個(gè)聲音之前的無(wú)聲周期、即只存在背景聲音的周期中獲得的特征矢量的內(nèi)部乘積,當(dāng)所述內(nèi)部乘積值等于或大于所述預(yù)定值時(shí)停止所述內(nèi)部乘積值判斷部件的判斷處理。這可以避免在高頻范圍內(nèi),在SN比值很高和背景聲音的頻譜也很高的背景中將背景聲音作為輔音的錯(cuò)誤檢測(cè)。
      此外,為了實(shí)現(xiàn)上述目的,本發(fā)明的特征在于包括一個(gè)計(jì)算部件,用于計(jì)算包括聲音發(fā)出的輸入信號(hào)的線性預(yù)測(cè)剩余功率;和一個(gè)錯(cuò)誤判斷控制部件,用于當(dāng)由所述計(jì)算部件計(jì)算的線性預(yù)測(cè)剩余功率等于或小于一個(gè)預(yù)定值時(shí)停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
      根據(jù)這個(gè)結(jié)構(gòu),當(dāng)在實(shí)際發(fā)出聲音之前的一個(gè)無(wú)聲周期、即只存在背景聲音的周期中獲得的預(yù)測(cè)剩余功率等于或小于所述預(yù)定值時(shí),停止由所述線性預(yù)測(cè)剩余功率判斷部件執(zhí)行的判斷處理。這可以避免在高頻范圍內(nèi)在SN比值很高和背景聲音的頻譜也很高的背景中錯(cuò)誤地將背景聲音作為一個(gè)輔音檢測(cè)。
      此外,為了實(shí)現(xiàn)上述目的,本發(fā)明的特征在于包括一個(gè)計(jì)算部件,用于計(jì)算包括一個(gè)聲音發(fā)出的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率;和一個(gè)錯(cuò)誤判斷控制部件,該部件在無(wú)聲周期期間建立的所述輸入信號(hào)的特征矢量和所述訓(xùn)練矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)或當(dāng)在所述無(wú)聲周期中建立的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率等于或小于一個(gè)預(yù)定值時(shí)停止所由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
      根據(jù)這個(gè)結(jié)構(gòu),當(dāng)所述訓(xùn)練矢量和在實(shí)際發(fā)出聲音之前的一個(gè)無(wú)聲周期、即只存在背景聲音的一個(gè)周期內(nèi)獲得的特征矢量的內(nèi)部乘積等于或大于所述預(yù)定值或當(dāng)在所述無(wú)聲周期內(nèi)建立的所述輸入信號(hào)的預(yù)測(cè)剩余功率等于或小于所述預(yù)定值時(shí),停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。這可以避免在高頻范圍內(nèi),在SN比值很高和所述背景聲音的頻譜也很高的背景中將背景聲音作為輔音的錯(cuò)誤檢測(cè)。


      圖1的框圖示出了根據(jù)第一實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu);圖2的框圖示出了根據(jù)第二實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu);圖3的框圖示出了根據(jù)第三實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu);圖4的框圖示出了根據(jù)第四實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu);圖5的特征曲線示出了從表示清音數(shù)據(jù)的訓(xùn)練矢量中獲得的一個(gè)頻譜包絡(luò);圖6的框圖示出了使用傳統(tǒng)剩余功率法的聲音部分檢測(cè)部件的結(jié)構(gòu);圖7的框圖示出了使用傳統(tǒng)的子空間法的聲音部分檢測(cè)部件的結(jié)構(gòu);加圖8A到圖8C的每一個(gè)示出了聲音和運(yùn)行汽車噪聲的頻譜包絡(luò)。
      具體實(shí)施例方式
      下面,結(jié)合附圖描述本發(fā)明的最佳實(shí)施例。圖1的框圖示出了根據(jù)本發(fā)明聲音識(shí)別系統(tǒng)第一最佳實(shí)施例的結(jié)構(gòu),圖2的框圖示出了根據(jù)第二最佳實(shí)施例的結(jié)構(gòu),圖3的框圖示出了根據(jù)第三最佳實(shí)施例的結(jié)構(gòu),圖4的框圖示出了根據(jù)第四最佳實(shí)施例的結(jié)構(gòu)。
      第一實(shí)施例該實(shí)施例通常直接指向一種借助于HMM方法識(shí)別一個(gè)聲音并包括用于為聲音識(shí)別目的而切割聲音的一個(gè)部件的聲音識(shí)別系統(tǒng)。
      在圖1中,第一最佳實(shí)施例的聲音識(shí)別系統(tǒng)包括一個(gè)使用海登.馬爾可夫模型以字或子字為單位建立的聲模型(聲HMM)10、一個(gè)識(shí)別部件11和一個(gè)倒頻譜計(jì)算部件12。識(shí)別部件11針對(duì)聲HMM10檢查一個(gè)是由所述倒頻譜計(jì)算部件12建立的輸入聲音倒頻譜時(shí)間序列的觀測(cè)值序列,選擇提供具有最大可能的聲音HMM,并將其作為識(shí)別結(jié)果輸出。
      換言之,幀部件7將已經(jīng)收集和存儲(chǔ)在聲音數(shù)據(jù)庫(kù)6中的聲音數(shù)據(jù)Sm分配給預(yù)定的幀,倒頻譜計(jì)算部件8然后計(jì)算現(xiàn)在以幀為單位的聲音數(shù)據(jù)的倒頻譜并借此獲得倒頻譜時(shí)間序列。然后,訓(xùn)練部件9將由訓(xùn)練處理的倒頻譜時(shí)間序列處理為特征數(shù)量,借此預(yù)先建立以字或子字為單位的聲音HMM10。
      倒頻譜計(jì)算部件12倒頻譜計(jì)算將響應(yīng)一個(gè)聲音部分的檢測(cè)而切割(它將在后面描述)的實(shí)際輸入聲音數(shù)據(jù)Svc的倒頻譜,從而建立上述觀測(cè)值序列。識(shí)別部件11以字或子字為單位針對(duì)聲HMM10檢查所述觀測(cè)值序列,并椐此執(zhí)行聲音識(shí)別。
      此外,所述聲音識(shí)別系統(tǒng)包括一個(gè)聲音部分檢測(cè)部件,該部件檢測(cè)實(shí)際發(fā)出聲音(輸入信號(hào))Sa的聲音部分并切割其上是聲音識(shí)別目標(biāo)的所述輸入聲音數(shù)據(jù)Svc。所述聲音部分檢測(cè)部件包括第一檢測(cè)部件100、第二檢測(cè)部件200、聲音部分確定部件300和聲音切割部件400。
      第一檢測(cè)部件100包括一個(gè)用于存儲(chǔ)已經(jīng)預(yù)先收集聲音的清音部分的數(shù)據(jù)(清音數(shù)據(jù))Sc的清音數(shù)據(jù)庫(kù)13,和LPC倒頻譜計(jì)算部件14以及訓(xùn)練矢量建立部件15。
      LPC倒頻譜計(jì)算部件14對(duì)存儲(chǔ)在清音數(shù)據(jù)庫(kù)13中的清音數(shù)據(jù)Sc以幀為單位進(jìn)行LPC分析,借此計(jì)算倒頻譜區(qū)域中的M-維特性矢量Cn=[C1、C2、…、CnM]T。
      訓(xùn)練矢量建立部件15根據(jù)所述M-維特征矢量Cn計(jì)算由下述公式(5)表示的相關(guān)矩陣R并進(jìn)一步本征擴(kuò)展所述相關(guān)矩陣R,借此獲得M段本征值λK和本征矢量VK以及與所述M段本征值λK當(dāng)中的最大本征值對(duì)應(yīng)的本征矢量被設(shè)置為訓(xùn)練矢量V。在公式(5)中,變量n表示幀數(shù),符號(hào)T表示轉(zhuǎn)。R=1N&Sigma;n=1NCnCnT---(5)]]>作為L(zhǎng)PC倒頻譜計(jì)算部件14和訓(xùn)練矢量建立部件15進(jìn)行處理的結(jié)果,獲得表示清音特征的訓(xùn)練矢量V。圖5示出了根據(jù)所述訓(xùn)練矢量V獲得的頻譜包絡(luò)。級(jí)別是用于LPC分析的級(jí)別(第3階、第8階、第16階)。由于圖5所示頻譜的包絡(luò)與圖8B所示表示實(shí)際清音的頻譜包絡(luò)極為相似,因此,可以確認(rèn)能夠獲得將表示一個(gè)清音特征的訓(xùn)練矢量V。
      此外,第一檢測(cè)部件100包括一個(gè)幀部件16,用于將輸入信號(hào)的數(shù)據(jù)Sa以和上述類似的方式分配到幀中;一個(gè)LPC倒頻譜計(jì)算部件17,用于通過(guò)對(duì)以幀為單位的輸入信號(hào)數(shù)據(jù)Saf執(zhí)行LPC分析計(jì)算倒頻譜區(qū)域中的M-維特征矢量A和預(yù)測(cè)剩余功率ε;一個(gè)內(nèi)部乘積計(jì)算部件18,用于計(jì)算所述訓(xùn)練矢量V和所述特征矢量A的內(nèi)部乘積VTA;和一個(gè)第一閾值判斷部件19,用于將所述內(nèi)部乘積VTA與一個(gè)預(yù)定閾值θ進(jìn)行比較,并且,如果θ≤VTA,則判斷它是一個(gè)聲音部分。因此,由所述第一閾值判斷部件19產(chǎn)生的判斷結(jié)果D1被提供給聲音部分確定部件300。
      所述內(nèi)部乘積VTA是一個(gè)保持考慮到所述訓(xùn)練矢量V和所述特征矢量A的方向信息的標(biāo)量、即是具有一個(gè)正值或負(fù)值的標(biāo)量。當(dāng)特征矢量A與特征矢量V的方向相同(0≤VTA)時(shí),所述標(biāo)量具有正值,但當(dāng)所述特征矢量A與特征矢量V的方向相反(0>VTA)時(shí),所述標(biāo)量具有一個(gè)負(fù)值。由于這個(gè)原因,在這個(gè)實(shí)施例中,θ=0。
      第二檢測(cè)部件200包括一個(gè)閾值建立部件20和一個(gè)第二閾值判斷部件21。
      在一個(gè)預(yù)定時(shí)間周期(無(wú)聲周期)中,由于發(fā)言者接通所述聲音識(shí)別系統(tǒng)的一個(gè)發(fā)言開(kāi)始開(kāi)關(guān)(未示出),直到發(fā)言者實(shí)際發(fā)言為止,閾值建立部件20計(jì)算由所述LPC倒頻譜計(jì)算部件17計(jì)算的預(yù)測(cè)剩余功率ε的平均ε’,然后將所述平均ε’加到一個(gè)預(yù)定閾值α上,借此獲得閾值THD=(ε’+α)。
      在所述無(wú)聲周期過(guò)后,第二閾值判斷部件21將由LPC倒頻譜計(jì)算部件17計(jì)算的預(yù)測(cè)剩余功率ε與所述閾值THD進(jìn)行比較。當(dāng)THD≤ε時(shí),第二閾值判斷部件21判斷它是一個(gè)聲音部分并將這個(gè)判斷結(jié)果D2提供給聲音部分確定部件300。
      聲音部分確定部件300將從第一檢測(cè)部件提供的判斷結(jié)果D1的點(diǎn)和從第二檢測(cè)部件200提供的所述判斷結(jié)果D2的點(diǎn)確定為所述輸入信號(hào)Sa的聲音部分τ。簡(jiǎn)言之,聲音部分確定部件300將滿足θ≤VTA或THD≤ε條件的點(diǎn)確定為所述聲音部分τ,改變處于無(wú)聲部分到無(wú)聲部分之間的短聲音部分,改變處于聲音部分到聲音部分之間的短無(wú)聲部分,和將這個(gè)判定D3提供給聲音切割部件400。
      在上述判定D3的基礎(chǔ)上,聲音切割部件400把將從輸入信號(hào)數(shù)據(jù)Saf識(shí)別的輸入聲音數(shù)據(jù)Svc切割,該輸入信號(hào)數(shù)據(jù)Saf是以幀為單位并由幀部件16提供的,并該聲音切割部件將所述輸入聲音數(shù)據(jù)Svc提供給倒頻譜計(jì)算部件12。
      倒頻譜計(jì)算部件12根據(jù)以幀為單位切割的輸入聲音數(shù)據(jù)Svc建立倒頻譜區(qū)域中的觀測(cè)值序列,識(shí)別部件11針對(duì)所述聲音HMM10檢查所述觀測(cè)值序列,借此實(shí)現(xiàn)聲音識(shí)別。
      利用這種方式,在根據(jù)該實(shí)施例的聲音識(shí)別系統(tǒng)中,所述第一檢測(cè)部件100正確地檢測(cè)清音的聲音部分和第二檢測(cè)部件200正確地檢測(cè)發(fā)聲聲音的聲音部分。
      具體地說(shuō),第一檢測(cè)部件100計(jì)算在用于訓(xùn)練的清音數(shù)據(jù)Sc基礎(chǔ)上預(yù)先建立的一個(gè)清音的訓(xùn)練矢量和包括實(shí)際發(fā)出聲音的輸入信號(hào)數(shù)據(jù)Sa的特征矢量的內(nèi)部乘積,判斷所獲得的內(nèi)部乘積具有大于閾值θ=0的值(即正值)的點(diǎn)是輸入信號(hào)數(shù)據(jù)Sa中的清音部分。第二檢測(cè)部件200比較在無(wú)聲周期的預(yù)測(cè)剩余功率基礎(chǔ)上預(yù)先計(jì)算的閾值THD和包括實(shí)際發(fā)出所述聲音的輸入信號(hào)數(shù)據(jù)Sa的預(yù)測(cè)剩余功率ε,判斷滿足THD≤ε條件的點(diǎn)是輸入信號(hào)數(shù)據(jù)Sa中的發(fā)聲聲音部分。
      換言之,由第一檢測(cè)部件100執(zhí)行的處理使得可以高精度檢測(cè)其能量相對(duì)較小的清音,和由第二檢測(cè)部件200執(zhí)行的處理使得可以高精度檢測(cè)其能量相對(duì)較大的發(fā)聲聲音。
      所述聲音部分確定部件在由第一和第二檢測(cè)部件100和200作出的判斷結(jié)果D1和D2的基礎(chǔ)上最終確定一個(gè)聲音部分(是發(fā)聲聲音或清音的一部分),和將被識(shí)別的輸入聲音數(shù)據(jù)Svc根據(jù)這個(gè)判定D3進(jìn)行切割。因此,可以增強(qiáng)聲音識(shí)別的精度。
      在根據(jù)圖1所述實(shí)施例的結(jié)構(gòu)中,在由第一閾值判斷部件19作出的判斷結(jié)果D1和由第二閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上,聲音部分確定部件300輸出指出聲音部分的判定D3。
      但是,本發(fā)明并不局限于此。在包括其中內(nèi)部乘積部件18和閾值判斷部件19判斷一個(gè)聲音部分的第一檢測(cè)部件100的同時(shí),所述結(jié)構(gòu)可以省略第二檢測(cè)部件200,從而所述聲音部分確定部件300在所述判斷結(jié)果D1的基礎(chǔ)上輸出指出聲音部分的判定D3。
      第二實(shí)施例下面,結(jié)合圖2描述根據(jù)第二最佳實(shí)施例的聲音識(shí)別系統(tǒng)。在圖2中,與圖1所示相同或相對(duì)應(yīng)的部分以相同的標(biāo)號(hào)表示。
      圖2所示與第一最佳實(shí)施例的區(qū)別在于根據(jù)第二最佳實(shí)施例的聲識(shí)別系統(tǒng)包括一個(gè)錯(cuò)誤判斷控制部件500,該部件500包括一個(gè)內(nèi)部乘積計(jì)算部件22和第三閾值判斷部件23。
      在由于發(fā)言者接通所述聲音識(shí)別系統(tǒng)的發(fā)言開(kāi)始開(kāi)關(guān)(未示出)直到發(fā)言者實(shí)際開(kāi)始發(fā)言為止的一個(gè)無(wú)聲周期期間內(nèi),所述內(nèi)部乘積計(jì)算部件22計(jì)算由LPC倒頻譜計(jì)算部件17計(jì)算的所述特征矢量A和由訓(xùn)練矢量建立部件15預(yù)先計(jì)算的清音的所述訓(xùn)練矢量V的內(nèi)部乘積。即,在實(shí)際發(fā)聲之前的所述無(wú)聲周期期間內(nèi),內(nèi)部乘積計(jì)算部件22計(jì)算訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA。
      第三閾值判斷部件23將一個(gè)預(yù)先確定的閾值θ’(=0)與由所述內(nèi)部乘積計(jì)算部件22計(jì)算的所述內(nèi)部乘積VTA進(jìn)行比較,和當(dāng)即便僅僅是一幀滿足θ’<VTA時(shí),向內(nèi)部乘積計(jì)算部件18提供一個(gè)用于停止內(nèi)部乘積計(jì)算的控制信號(hào)CNT。換言之,如果在所述無(wú)聲周期期間計(jì)算的訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA是一個(gè)大于所述閾值θ’的較大值(正值),那么,即使當(dāng)在所述無(wú)聲周期之后一個(gè)發(fā)言者實(shí)際發(fā)出聲音時(shí),第三閾值判斷部件23也禁止內(nèi)部乘積計(jì)算部件18執(zhí)行計(jì)算內(nèi)部乘積的處理。
      當(dāng)內(nèi)部乘積計(jì)算部件18響應(yīng)所述控制信號(hào)CNT而停止計(jì)算所述內(nèi)部乘積的處理時(shí),第一閾值判斷部件19也基本上停止檢測(cè)聲音部分的處理,因此,判斷結(jié)果D1不被提供給聲音部分確定部件300。即,聲音部分確定部件300在從第二檢測(cè)部件200提供的判斷結(jié)果D2的基礎(chǔ)上最終判斷一個(gè)聲音部分。
      具有這種結(jié)構(gòu)的實(shí)施例具有如下效果。在表示清音的頻譜在高頻區(qū)變高和表示背景噪聲的頻譜在低頻區(qū)變高的前提下,第一檢測(cè)部件100檢測(cè)一個(gè)聲音部分。因此,即使是在不使用上述錯(cuò)誤判斷控制部件500而僅由第一檢測(cè)部件100單獨(dú)執(zhí)行計(jì)算內(nèi)部乘積的處理的場(chǎng)合,例如如在汽車內(nèi)的SN比值較低和運(yùn)行汽車噪聲占主導(dǎo)地位的背景中,也能夠改善檢測(cè)精度。
      但是,在一個(gè)SN比值很高和表示背景噪聲的頻譜因此在高頻區(qū)域中很高的背景中,利用僅僅由所述內(nèi)部乘積計(jì)算部件18執(zhí)行的處理,就存在一個(gè)問(wèn)題,即,將噪聲部分錯(cuò)誤地判斷為聲音部分的可能性很高。
      相反,在錯(cuò)誤判斷控制部件500中,內(nèi)部乘積計(jì)算部件22計(jì)算清音的訓(xùn)練矢量V和僅在實(shí)際發(fā)聲之前的無(wú)聲周期、即僅僅存在背景噪聲的周期內(nèi)獲得的特征矢量A的內(nèi)部乘積VTA,第三閾值判斷部件23檢查如果保持θ′<VTA關(guān)系并椐此判斷表示背景噪聲的頻譜是否在高頻區(qū)域中是高的。當(dāng)它判斷表示背景噪聲的頻譜在所述高頻區(qū)域中是高時(shí),停止由第一內(nèi)部乘積計(jì)算部件18執(zhí)行的處理。
      因此,使用錯(cuò)誤判斷控制部件500的這個(gè)實(shí)施例建立了一種效果,即在其中所述SN比值很高和表示背景噪聲的頻譜因此在高頻區(qū)域中是高的背景中,可以避免導(dǎo)致與輔音相關(guān)的檢測(cè)誤差(錯(cuò)誤檢測(cè))。這使得可以以改善聲音識(shí)別速率的方式檢測(cè)聲音部分。
      根據(jù)在圖2所示實(shí)施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出一個(gè)聲音部分的判定D3。
      但是,本發(fā)明并不局限于此??梢允÷缘诙z測(cè)部件200,這樣,聲音部分確定部件300在由第一檢測(cè)部件100和錯(cuò)誤判斷控制部件500作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個(gè)聲音部分的判定D3。
      第三實(shí)施例下面結(jié)合圖3描述根據(jù)本發(fā)明第三最佳實(shí)施例的聲音識(shí)別系統(tǒng)。在圖3中,與圖2所示相同或相對(duì)應(yīng)的部分使用相同的標(biāo)號(hào)。
      圖3所示實(shí)施例和圖2所示第二實(shí)施例的區(qū)別在于如圖2所示,在根據(jù)第二最佳實(shí)施例的聲音識(shí)別系統(tǒng)中,計(jì)算訓(xùn)練矢量V和在實(shí)際發(fā)出聲音之前的無(wú)聲周期內(nèi)由LPC倒頻譜計(jì)算部件17計(jì)算的特征矢量A的內(nèi)部乘積VTA,當(dāng)所計(jì)算的內(nèi)部乘積值滿足ε’<VTA時(shí)停止內(nèi)部乘積計(jì)算部件18的處理,借此避免聲音部分的錯(cuò)誤判斷。
      相反,如圖3所示,所述第三實(shí)施例提供了一種結(jié)構(gòu),在這種結(jié)構(gòu)中,提供了一個(gè)錯(cuò)誤判斷控制部件600和所述錯(cuò)誤判斷控制部件600中的第三閾值判斷部件24在由LPC倒頻譜計(jì)算部件17在實(shí)際發(fā)聲之前的一個(gè)無(wú)聲周期中計(jì)算的預(yù)測(cè)剩余功率ε的基礎(chǔ)上執(zhí)行一個(gè)用于避免聲音部分錯(cuò)誤判斷的判斷處理,并且在所述控制信號(hào)CNT的基礎(chǔ)上控制所述內(nèi)部乘積計(jì)算部件18。
      即,當(dāng)由于所述發(fā)言者接通一個(gè)發(fā)言開(kāi)始開(kāi)關(guān)(未示出)而使所述LPC倒頻譜計(jì)算部件17直到該發(fā)言者實(shí)際發(fā)言為止的一個(gè)無(wú)聲周期中計(jì)算背景聲音的預(yù)測(cè)剩余功率ε時(shí),所述第三閾值判斷部件24計(jì)算所述預(yù)測(cè)剩余功率ε的平均ε’,將所述平均ε’與一個(gè)預(yù)先確定的閾值THD’進(jìn)行比較,如果ε’<THD’,則向內(nèi)部乘積計(jì)算部件18提供用于停止所述內(nèi)部乘積計(jì)算的控制信號(hào)CNT。換言之,當(dāng)ε’<THD’時(shí),即使是在所述無(wú)聲周期過(guò)去之后發(fā)言者實(shí)際發(fā)出聲音的情況下,第三閾值判斷部件24也禁止內(nèi)部乘積計(jì)算部件18執(zhí)行計(jì)算內(nèi)部乘積的處理。
      在相對(duì)安靜環(huán)境下獲得的預(yù)測(cè)剩余功率ε0被用做基準(zhǔn)(0dB),高于它的0dB到50dB的值被設(shè)置為上述的閾值THD’。
      使用這種結(jié)構(gòu)的第三最佳實(shí)施例與和上述第二最佳實(shí)施例的情況相同允許即使是在SN比值很高和表示背景噪聲的頻譜也因此在一個(gè)高頻區(qū)域中是高的背景中保持聲音檢測(cè)的檢測(cè)精度,因此,可以以改善聲音識(shí)別速度的方式檢測(cè)聲音部分。
      在圖3所示實(shí)施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出聲音部分的判定D3。
      但是,本發(fā)明并不僅僅局限于此。所述第二檢測(cè)部件200可以省略,由此,所述聲音部分確定部件300在由第一檢測(cè)部件100和錯(cuò)誤判斷控制部件600作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個(gè)聲音部分的判定D3。
      第四實(shí)施例下面結(jié)合圖4描述本發(fā)明第四最佳實(shí)施例的聲音識(shí)別系統(tǒng)。在圖4中,與圖2所示相同或相對(duì)應(yīng)的部分使用相同的標(biāo)號(hào)。
      圖4所示的實(shí)施例使用錯(cuò)誤判斷控制部件700,該部件700的功能與和第二最佳實(shí)施例(圖2)相關(guān)描述的錯(cuò)誤判斷控制部件500以及和第三最佳實(shí)施例(圖3)相關(guān)描述的錯(cuò)誤判斷控制部件600的功能相同,并且錯(cuò)誤判斷控制部件700包括內(nèi)部乘積計(jì)算部件25、閾值判斷部件26和28以及轉(zhuǎn)換判斷部件27。
      在由于所述發(fā)言者接通所述聲音識(shí)別系統(tǒng)的一個(gè)發(fā)言開(kāi)始開(kāi)關(guān)(未示出)直到所述發(fā)言者實(shí)際發(fā)言為止的一個(gè)無(wú)聲周期中,內(nèi)部乘積計(jì)算部件25計(jì)算由LPC倒頻譜計(jì)算部件17計(jì)算的特征矢量A和由所述訓(xùn)練矢量建立部件15預(yù)先計(jì)算的清音的訓(xùn)練矢量V的內(nèi)部乘積VTA。
      閾值判斷部件26將一個(gè)預(yù)先確定的閾值θ’(=0)與由所述內(nèi)部乘積計(jì)算部件25計(jì)算的所述內(nèi)部乘積VTA進(jìn)行比較,當(dāng)即便僅一幀滿足θ’<VTA時(shí),建立一個(gè)用于停止內(nèi)部乘積計(jì)算的控制信號(hào)CNT1,并將所述控制信號(hào)CNT1輸出給內(nèi)部乘積計(jì)算部件18。
      在由于一個(gè)發(fā)言者接通所述聲音識(shí)別系統(tǒng)的一個(gè)發(fā)言開(kāi)始開(kāi)關(guān)(未示出)而直到所述發(fā)言者實(shí)際發(fā)言為止的一個(gè)無(wú)聲周期中,當(dāng)LPC倒頻譜計(jì)算部件17計(jì)算背景聲音的預(yù)測(cè)剩余功率ε時(shí),閾值判斷部件28計(jì)算所述預(yù)測(cè)剩余功率ε的平均ε’,比較所述平均ε’和預(yù)先確定的閾值THD’,當(dāng)ε’<THD’時(shí),建立用于停止計(jì)算內(nèi)部乘積的控制信號(hào)CNT2,并將該控制信號(hào)CNT2輸出給內(nèi)部乘積計(jì)算部件18。
      在從閾值判斷部件26或27接收上述控制信號(hào)CNT1或控制信號(hào)CNT2的基礎(chǔ)上,轉(zhuǎn)換判斷部件27向第一內(nèi)部乘積計(jì)算部件18提供作為控制信號(hào)CNT的控制信號(hào)CNT1或CNT2,借此停止計(jì)算所述內(nèi)部乘積的處理。
      因此,當(dāng)在所述無(wú)聲周期中計(jì)算的所述訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA即使是一幀滿足θ’<VTA時(shí),或者當(dāng)在所述無(wú)聲周期中計(jì)算的預(yù)測(cè)剩余功率ε的平均ε’保持ε’<THD’的關(guān)系時(shí),即使是在所述無(wú)聲周期過(guò)去之后一個(gè)發(fā)言者實(shí)際發(fā)出聲音,所述內(nèi)部乘積計(jì)算部件18也將禁止計(jì)算內(nèi)部乘積的處理。
      在相對(duì)安靜環(huán)境下獲得的預(yù)測(cè)剩余功率ε0被用做基準(zhǔn)(0dB),高于它的從0dB到50dB的值被設(shè)置為上述閾值THD’。所述閾值θ’被設(shè)置為θ’=0。
      第四最佳實(shí)施例提供了這樣一種結(jié)構(gòu),即,如在上述第二和第三最佳實(shí)施例的情況下,即使是在其中SN比值很高和因此表示背景噪聲的頻譜也在高頻區(qū)域是高的背景中,該結(jié)構(gòu)也允許保持高精度檢測(cè)聲音部分,并因此以改善聲音識(shí)別速率的方式檢測(cè)一個(gè)聲音部分。
      在根據(jù)圖4所示這個(gè)實(shí)施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出一個(gè)聲音部分的判定D3。
      但是,本發(fā)明并不僅僅局限于此。第二檢測(cè)部件200可以被省略,這樣,所述聲音部分確定部件300在由第一檢測(cè)部件100和錯(cuò)誤判斷控制部件700作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個(gè)聲音部分的判定D3。
      上述第一到第四最佳實(shí)施例的聲音識(shí)別系統(tǒng),如圖1所示元件8到12,使用一種方法,在該方法中,以用于識(shí)別聲音的馬爾可夫模型的形式描述聲音的特征(即HMM方法)。
      但是,根據(jù)各最佳實(shí)施例由元件100、200、300、400、500、600和700形成的聲音切割部件、即用于以幀為單位從輸入信號(hào)數(shù)據(jù)Saf切割作為一個(gè)目標(biāo)的輸入聲音數(shù)據(jù)Svc的部件不僅適用于HMM方法,也適用于用于聲音識(shí)別的其他處理方法。例如,可以被應(yīng)用于使用動(dòng)態(tài)編程(DP)方法的DP匹配方法。
      如上所述,利用根據(jù)本發(fā)明的聲音識(shí)別系統(tǒng),一個(gè)聲音部分被確定為一個(gè)點(diǎn),在該點(diǎn)處,在清音基礎(chǔ)上預(yù)先建立的訓(xùn)練矢量和表示包括實(shí)際發(fā)聲的一個(gè)輸入信號(hào)的特征矢量的內(nèi)部乘積值具有等于或大于一個(gè)預(yù)定閾值的值,或一個(gè)點(diǎn),在該點(diǎn)處,包括實(shí)際發(fā)聲的一個(gè)輸入信號(hào)的預(yù)測(cè)剩余功率與在無(wú)聲周期的預(yù)測(cè)剩余功率基礎(chǔ)上計(jì)算的一個(gè)閾值進(jìn)行比較并找出大于該閾值的輸入信號(hào)的預(yù)測(cè)剩余功率。因此,它可以適當(dāng)鑒別發(fā)聲聲音和清音,而這就是聲音識(shí)別的目標(biāo)。
      此外,當(dāng)在無(wú)聲周期中建立的背景聲音的特征矢量與訓(xùn)練矢量的內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí),或者當(dāng)在無(wú)聲周期中建立的所述信號(hào)的線性預(yù)測(cè)剩余功率等于或小于一個(gè)預(yù)定閾值時(shí),或者當(dāng)這兩種情況都發(fā)生時(shí),不進(jìn)行在輸入信號(hào)特征矢量的內(nèi)部乘積值基礎(chǔ)上的聲音部分檢測(cè)。代替的是將其中包括實(shí)際發(fā)聲的所述輸入信號(hào)的預(yù)測(cè)剩余功率等于或大于一個(gè)預(yù)定閾值的點(diǎn)用做一個(gè)聲音部分。因此,可以改善在其中SN比值很高和因此表示背景噪聲的頻譜也在高頻區(qū)域中是高的背景中檢測(cè)聲音部分的檢測(cè)精度。
      權(quán)利要求
      1.一種聲音識(shí)別系統(tǒng),包括一個(gè)聲音部分檢測(cè)部件,包括訓(xùn)練矢量建立部件,用于預(yù)先將一個(gè)聲音的特征建立為訓(xùn)練矢量;和內(nèi)部乘積值判斷部件,用于計(jì)算所述訓(xùn)練矢量與包括發(fā)聲的輸入信號(hào)特征矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)判斷將是聲音部分的輸入信號(hào);其中,在所述聲音部分期間的輸入信號(hào)是聲音識(shí)別的一個(gè)目標(biāo)。
      2.一種聲音識(shí)別系統(tǒng),包括訓(xùn)練矢量建立部件,用于將一個(gè)聲音的特征預(yù)先建立為訓(xùn)練矢量;閾值建立部件,用于在無(wú)聲周期中建立的輸入信號(hào)的線性預(yù)測(cè)剩余功率的基礎(chǔ)上從噪聲中鑒別一個(gè)聲音的閾值;內(nèi)部乘積值判斷部件,用于計(jì)算所述訓(xùn)練矢量與包括發(fā)聲的輸入聲音的特征矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)判斷所述聲音是第一聲音部分;和線性預(yù)測(cè)剩余功率判斷部件,用于當(dāng)所述輸入信號(hào)的線性預(yù)測(cè)剩余功率大于由所述閾值建立部件建立的所述閾值時(shí)判斷所述輸入信號(hào)是第二聲音部分,其中,在所述第一聲音部分和所述第二聲音部分期間的輸入信號(hào)是聲音識(shí)別的目標(biāo)。
      3.根據(jù)權(quán)利要求2所述的聲音識(shí)別系統(tǒng),還包括一個(gè)錯(cuò)誤判斷控制部件,用于計(jì)算所述訓(xùn)練矢量與一個(gè)在無(wú)聲周期中建立的輸入信號(hào)的特征矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)停止所述內(nèi)部乘積值判斷部件的判斷處理。
      4.根據(jù)權(quán)利要求2所述的聲音識(shí)別系統(tǒng),還包括計(jì)算部件,用于計(jì)算在無(wú)聲周期中建立的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率;和錯(cuò)誤判斷控制部件,用于當(dāng)由所述計(jì)算部件計(jì)算的線性預(yù)測(cè)剩余功率等于或小于一個(gè)預(yù)定值時(shí)停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
      5.根據(jù)權(quán)利要求2所述的聲音識(shí)別系統(tǒng),還包括計(jì)算部件,用于計(jì)算在無(wú)聲周期中建立的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率;和錯(cuò)誤判斷控制部件,用于計(jì)算所述訓(xùn)練矢量與在所述無(wú)聲周期中建立的所述輸入信號(hào)的一個(gè)特征矢量的內(nèi)部乘積,并當(dāng)所述內(nèi)部乘積值等于或大于一個(gè)預(yù)定值時(shí)或當(dāng)在所述無(wú)聲周期中建立的所述輸入信號(hào)的線性預(yù)測(cè)剩余功率等于或小于一個(gè)預(yù)定值時(shí)停止所述內(nèi)部乘積值判斷部件的判斷處理。
      全文摘要
      訓(xùn)練矢量建立部件15將清音的一個(gè)特征預(yù)先建立為訓(xùn)練矢量V。同時(shí),在無(wú)聲周期期間建立的一個(gè)聲音的預(yù)測(cè)剩余功率ε的基礎(chǔ)上建立用于從背景聲音中鑒別一個(gè)聲音的閾值THD。當(dāng)實(shí)際發(fā)出聲音時(shí),內(nèi)部乘積計(jì)算部件18計(jì)算輸入信號(hào)Sa的特征矢量A與訓(xùn)練矢量V的內(nèi)部乘積,當(dāng)所述內(nèi)部乘積的值等于或大于一個(gè)預(yù)定之θ時(shí),第一閾值判斷部件19判斷是一個(gè)聲音部分,當(dāng)所述輸入信號(hào)Sa的預(yù)測(cè)剩余功率ε大于閾值THD時(shí),第二閾值判斷部件21判斷是一個(gè)聲音部分。當(dāng)所述第一閾值判斷部件19和所述第二閾值判斷部件21中的至少一個(gè)判斷它是一個(gè)聲音部分時(shí),聲音部分確定部件300最終判斷它是一個(gè)聲音部分,并將以幀為單位且和這個(gè)聲音部分對(duì)應(yīng)的輸入聲音Saf切割成將被識(shí)別的聲音Svc。
      文檔編號(hào)G10L15/02GK1343966SQ0113287
      公開(kāi)日2002年4月10日 申請(qǐng)日期2001年9月12日 優(yōu)先權(quán)日2000年9月12日
      發(fā)明者小林載, 駒村光彌, 外山聰一 申請(qǐng)人:日本先鋒公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1