国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于語音識別的方法及裝置與流程

      文檔序號:11867362閱讀:723來源:國知局
      用于語音識別的方法及裝置與流程

      本公開一般涉及語音識別領(lǐng)域,尤其涉及一種用于語音識別的方法及裝置。



      背景技術(shù):

      目前,語音識別技術(shù)在近場、高噪音情況下已經(jīng)達到了很高的識別精度,但是在復(fù)雜場景,如有混響、噪聲等因素時,識別精度有待提高。

      為了減小房屋對語音產(chǎn)生的混響效果,目前在實現(xiàn)方式上會使用語音信號處理技術(shù)來估計環(huán)境混響時間T60,或者采用自適應(yīng)濾波器的技術(shù)得到一組去除混響的濾波器系數(shù),這兩種方法都存在精度不高的問題,另外對噪聲比較敏感,適用性受限。

      現(xiàn)有這些去除混響、去除噪聲對聲音信號影響的技術(shù)都存在精度不高,容易誤傷目標語音的問題;另外這些技術(shù)都只是利用了聲音信號這一單一信息,沒有利用圖像信息,使得在強噪聲情況下,比如信噪比小于零的情況,現(xiàn)有基于信號處理技術(shù)的降噪算法沒有很好的處理性能。



      技術(shù)實現(xiàn)要素:

      鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,期望提供一種去混響精度高,高信噪的語音識別方法。為了實現(xiàn)上述的一個或多個目的,本申請?zhí)峁┝艘环N用于語音識別的方法及裝置。

      第一方面,提供一種用于語音識別的方法,所述方法包括:

      采集語音信息和空間圖像信息;

      根據(jù)所述空間圖像信息獲取空間信息;

      根據(jù)所述語音信息獲取聲學特征信息;

      根據(jù)所述空間信息消除聲學特征信息中的混響信息;以及

      根據(jù)消除混響后的聲學特征信息進行語音識別。

      第二方面,提供一種用于語音識別的裝置,所述裝置包括:

      采集信息單元,用于采集語音信息和空間圖像信息;

      獲取空間信息單元,用于根據(jù)所述空間圖像信息獲取空間信息;

      獲取聲學特征信息單元,用于根據(jù)所述語音信息獲取聲學特征信息;

      消除混響單元,用于根據(jù)所述空間信息消除聲學特征信息中的混響信息;以及

      語音識別單元,根據(jù)消除混響后的聲學特征信息進行語音識別。

      根據(jù)本申請實施例提供的技術(shù)方案,通過環(huán)境的空間信息的引入,能夠獲取環(huán)境的三維幾何信息和表面材質(zhì)信息來確定混響時間,獲得更好的去混響,去除噪聲效果,提高信噪比。

      附圖說明

      通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:

      圖1示出了根據(jù)本申請實施例的用于語音識別方法的流程圖。

      圖2示出根據(jù)本申請另一實施例的用于語音識別方法的流程圖。

      圖3示出根據(jù)本申請實施例的用于語音識別裝置的結(jié)構(gòu)示意圖。

      具體實施方式

      下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與發(fā)明相關(guān)的部分。

      需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。

      圖像信息包含了人物和環(huán)境的各種信息。如環(huán)境的空間信息、人物面部信息。在進行語音識別時,可以充分利用上述信息,達到提高信噪比的目的。

      一方面,聲波在室內(nèi)傳播時,要被墻壁、天花板、地板等障礙物反射,每反射一次都要被障礙物吸收一些。這樣,當聲源停止發(fā)聲后,聲波在室內(nèi)經(jīng)過多次反射和吸收,最后才消失,人們就感覺到聲源停止發(fā)聲后聲音還繼續(xù)一段時間。在語音識別環(huán)境下,各個界面的反射聲是一種干擾噪聲,去除混響是提高語音識別準確率的有效方案。通過提取空間信息,比如空間三維尺寸、材質(zhì)信息等可以計算出環(huán)境的混響時間,根據(jù)混響時間,系統(tǒng)可以選擇更適合的語音識別模型指導(dǎo)信號處理算法進行去除混響,達到提高語音識別精度的目的。

      另一方面,根據(jù)當前說話人的面部表情,提取說話人的年齡、性別等屬性、可用于加載特定的語音識別模型。而且在高噪音情況下,通過攝像頭可以確定說話人的方位,輔助信號處理方法進行降噪處理,可以有效提升識別的準確率。

      下面將參考附圖并結(jié)合實施例來詳細說明本申請。

      請參考圖1,示出了根據(jù)本申請實施例的用于語音識別方法的流程圖。

      如圖1所示,在步驟101中,采集語音信息和空間圖像信息。

      在一些實施例中,語音信息可通過麥克風陣列采集。

      優(yōu)選地,采集空間圖像信息包括:利用攝像頭采集空間三維信息以及空間內(nèi)物體。該攝像頭為深度攝像頭或者雙目攝像頭。具體地,攝像頭采集房間的空間信息,同時攝像頭采集房間內(nèi)家具擺放的位置信息、墻壁、窗戶和大件家電的表面材質(zhì)信息。

      接著,在步驟102中,根據(jù)所述空間圖像信息獲取空間信息。

      根據(jù)步驟101中采集的圖像信息獲取空間信息包括:從空間三維信息以及空間內(nèi)物體中提取所述空間的三維幾何信息和所述物體的表面材質(zhì)信息。也就通過采集所在房間的空間三維信息來獲取空間三維幾何信息,通過采集空間內(nèi)物體圖像獲取物體表面材質(zhì)信息。物體表面材質(zhì)信息用于確定空間材質(zhì)的聲音折射率。

      在步驟103中,根據(jù)所述語音信息獲取聲學特征信息。

      在一些實施例中,聲學特征信息包括至少以下一種聲學特征信息:基頻、梅爾頻率倒譜系數(shù)(MFCC)、共振峰、短時能量特征、基音抖動和閃爍、諧波噪聲比。這些聲學特征信息的特點如下:

      基頻:基音是指發(fā)濁音時聲帶振動所引起的周期性,基頻就是聲帶振動的頻率。基音是語音信號最重要的參數(shù)之一,能體現(xiàn)包含在語音中的情緒、年齡、性別等信息。由于語音信號的非平穩(wěn)性和非周期性,以及基音周期的變化范圍很寬,使基頻的精確檢測變得很困難。本實施例使用倒譜法檢測基頻。

      MFCC(梅爾頻率倒譜系數(shù)):頻譜特征是短時特征。在提取頻譜特征的時候,為了利用人類的聽覺系統(tǒng)特點,一般將語音信號的頻譜通過一個中心頻率基于人類感知尺度的帶通濾波器,然后從這些通過濾波的信號中提取譜特征,本實施例采用Mel頻率倒譜系數(shù)(MFCC)特征。

      共振峰:說話的時候,聲道會不斷改變適應(yīng)使話語清晰,同時聲道長度也受到說話者情緒狀態(tài)的影響。發(fā)音時聲道所起的作用是共鳴作用,當元音激勵進入聲道時會引起共振特性,產(chǎn)生一組共振頻率,就是所謂的共振峰頻率,簡稱共振峰,它們依賴于聲道的形狀和物理特征。

      短時能量特征:語音信號的能量反映了語音的強度,與情緒信息有較強的直接相關(guān)性。短時能量是從信號時域出發(fā)計算得到的,它計算了一幀語音的信號幅度平方和。

      基音抖動和閃爍:抖動是指前后周期間的基頻抖動,即前后兩幀語音信號的基音頻率變化幅度。閃爍是指前后兩個周期間的能量閃爍,即前后相鄰兩幀語音信號的短時能量變化幅度。

      諧波噪聲比:顧名思義是指語音信號中諧波與噪聲成分的比值,能在一定程度上反映情緒的變化。

      接著,在步驟104中,根據(jù)所述空間信息消除聲學特征信息中的混響信息。

      在一些實施例中,通過所述三維幾何信息和表面材質(zhì)信息計算混響時間。

      本實施例中,在步驟102中獲得了房間的三維信息和表面材質(zhì)信息后,利用雙目立體視覺算法,即經(jīng)立體匹配、對極幾何等算法可得到房間的三維幾何信息。其中,立體匹配通過雙目對齊圖像之間顏色一致性得到,包括多種相似性度量方法,例如歸一化互相關(guān)、差異的平方和等,對所有可能的匹配位置進行最優(yōu)相似搜索得到視差,然后根據(jù)雙目攝像頭的對極幾何關(guān)系計算三維幾何信息。

      之后,材質(zhì)信息利用圖像的視覺分析得到。即對圖像進行分割得到材質(zhì)一致區(qū)域,然后對各材質(zhì)進行分類識別,并加入材質(zhì)先驗知識的約束,得到表面材質(zhì)信息。對材質(zhì)的判斷可通過查表的方式得到材料的音波吸收系數(shù),比如磚墻的吸收系數(shù)在1KHz的音波上為0.02,玻璃為0.03。

      最后,根據(jù)混響計算公式伊林(Eyring)公式、庫特魯夫(Kuttruff)公式以及賽賓(Sabine)公式來計算房間的混響時間。比如Sabine公式為:

      <mrow> <msub> <mi>RT</mi> <mn>60</mn> </msub> <mo>=</mo> <mn>0.161</mn> <mo>*</mo> <mfrac> <mi>V</mi> <mi>A</mi> </mfrac> </mrow>

      A=α*S

      其中,V為房間的空間大小,S為房間的表面積,α為材質(zhì)的音波吸收系數(shù)。為了更為精確的測量房間的混響時間,可根據(jù)多個計算公式同時估計。

      獲得混響時間后,基于該混響時間消除聲學特征信息中的混響信息。

      本實施例中,通過動態(tài)加載特定混響時間模型的方式來降低混響的影響。首先采集或者模擬出特定混響時間例如T60為600ms的訓(xùn)練數(shù)據(jù),然后經(jīng)過學習獲得特定混響時間的聲學模型,學習一組特定混響時間的聲學模型可匹配當前使用環(huán)境的混響時間。

      再學習不同混響時間的聲學模型,比如T60為300ms、900ms、1500ms等多組模型,根據(jù)房間信息估計的混響時間T60,進行模型之間的插值得到適合當前混響的模型。比如測量得到當前房間T60為800ms時,一種方式是,通過一種線性或者非線性插值算法將600ms的模型和900ms的模型的參數(shù)逐一進行插值,得到一個切合800ms混響時間的模型。例如插值算法可以為根據(jù)歐氏距離的線性插值,

      <mrow> <mi>&alpha;</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>o</mi> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mi>o</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mi>o</mi> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>

      其中α為插值系數(shù),o為檢測到的混響時間T60,xi xi+1為候選模型對應(yīng)的混響時間T60。此時800ms模型=0.2*(600ms模型)+0.8*(900ms)模型。另一種方式是,將插值系數(shù)作為模型參數(shù)的一部分,在學習過程中通過優(yōu)化算法得到一組和模型更匹配的插值系數(shù)。

      接著,在步驟105中,根據(jù)消除混響后的聲學特征信息進行語音識別。

      在實際應(yīng)用中,確定了房間混響信息之后,結(jié)合上述中獲得語音信息,加載適合當前環(huán)境的語音識別模型。

      優(yōu)選地,本申請的語音識別方法還包括:采集人物圖像信息,包括人物的面部圖像信息;根據(jù)人物面部圖像信息提取人物屬性,包括年齡屬性和/或性別屬性;所述進行語音識別還包括:所述消除混響后的聲學特征信息與所述人物屬性結(jié)合進行語音識別。

      請參考圖2,示出根據(jù)本申請另一實施例的用于語音識別方法的流程圖。

      如圖2所示,當檢測到語音信息時(步驟201),啟動攝像頭獲取空間信息(步驟202),該空間信息包括從空間三維信息以及空間內(nèi)物體中提取所述空間的三維幾何信息和所述物體的表面材質(zhì)信息。如果該空間信息與之前保存到系統(tǒng)中的某個空間信息相近或相同(步驟203),就讀取該環(huán)境的混響時間(步驟205);否則就進入混響時間的學習模式(步驟204a)。

      接著,獲取人物屬性信息(步驟206),通過提取的人物屬性信息和系統(tǒng)已有的人物屬性特征比較,如果系統(tǒng)保存有相同的信息(步驟207),則加載該人物屬性信息(步驟208),否則進入人物屬性學習模式(步驟204b)。

      系統(tǒng)結(jié)合空間信息、語音信息和步驟208獲得人物屬性信息綜合處理,并加載適合當前環(huán)境的語音識別模型進行語音識別(步驟209),輸出最終的識別結(jié)果。

      上述中提到兩種工作模式,一種是識別模式,另一種是學習模式。識別模式是系統(tǒng)處于空間信息和人物屬性信息已知的模式,學習模式是系統(tǒng)處于空間信息和人物特征信息未知模式;如果系統(tǒng)處于學習模式,則根據(jù)步驟202或步驟206提取的數(shù)據(jù)進行當前的學習,并將學習結(jié)果保存到數(shù)據(jù)庫中;如果系統(tǒng)處于識別模式,則通過數(shù)據(jù)庫找到與獲取數(shù)據(jù)最相似的數(shù)據(jù),作為空間信息和人物屬性信息的特征參數(shù)。

      在語音識別過程中,由于房屋內(nèi)存在各種影響識別性能的因素,如環(huán)境大小、家具布置、電器噪聲、多人說話導(dǎo)致語音識別性能的降低。本發(fā)明通過在語音識別中加入環(huán)境的空間信息因素,可以取得更好的去除混響和噪聲的效果,從而提高在高噪聲環(huán)境下的語音識別的精準度。

      應(yīng)當注意,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實現(xiàn)期望的結(jié)果。相反,流程圖中描繪的步驟可以改變執(zhí)行順序。例如,圖1中可先執(zhí)行步驟103,再執(zhí)行步驟102,也能夠?qū)崿F(xiàn)本發(fā)明的目的。附加地或備選地,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或?qū)⒁粋€步驟分解為多個步驟執(zhí)行。例如,圖1中步驟102和步驟103可合并為一個步驟進行。

      請參考圖3,其給出一種示出根據(jù)本申請實施例的用于語音識別裝置的結(jié)構(gòu)示意圖,

      該用于語音識別的裝置300包括采集信息單元301、獲取空間信息單元302、獲取聲學特征信息單元303、消除混響單元304和語音識別單元305。其中,采集信息單元301,用于采集語音信息和空間圖像信息;獲取空間信息單元302,用于根據(jù)所述空間圖像信息獲取空間信息;獲取聲學特征信息單元303,用于根據(jù)所述語音信息獲取聲學特征信息;消除混響單元304,用于根據(jù)所述空間信息消除聲學特征信息中的混響信息;以及語音識別單元305,根據(jù)消除混響后的聲學特征信息進行語音識別。

      在一些實施例中,所述采集信息單元301,用于利用攝像頭采集空間三維信息以及空間內(nèi)物體;以及所述獲取空間信息單元302,從所述空間三維信息以及空間內(nèi)物體中提取所述空間的三維幾何信息和所述物體的表面材質(zhì)信息。該攝像頭為深度攝像頭或者雙目攝像頭。

      優(yōu)選地,消除混響單元304包括計算混響時間單元,用于通過所述三維幾何信息和表面材質(zhì)信息計算混響時間;以及消除混響單元304,用于基于所述混響時間消除聲學特征信息中的混響信息。

      在一些實施例中,計算混響時間單元用于從三維幾何信息和表面材質(zhì)信息進一步提取空間大小信息、空間表面積和材質(zhì)的音波吸收信息;以及根據(jù)所述空間大小信息、空間表面積和材質(zhì)的音波吸收信息估計混響時間。

      優(yōu)選地,本申請的裝置還包括:采集人物信息單元,用于采集人物圖像信息,包括人物的面部圖像信息;提取人物屬性單元,用于根據(jù)人物面部圖像信息提取人物屬性,包括年齡屬性和/或性別屬性;所述語音識別單元還用于將所述消除混響后的聲學特征信息與所述人物屬性結(jié)合進行語音識別。

      該聲學特征信息包括至少以下一種聲學特征信息:基頻、梅爾頻率倒譜系數(shù)(MFCC)、共振峰、短時能量特征、基音抖動和閃爍、諧波噪聲比。

      采集信息采用包括:用于利用麥克陣列采集語音信息。

      相對現(xiàn)有技術(shù)本發(fā)明的有益效果在于:

      首先,本發(fā)明解決語音識別在環(huán)境中由于各種影響因素,如所處環(huán)境的房間大小、家具布置、電器噪聲、多說話人等情況導(dǎo)致的語音識別性能低下的問題。其次,通過人物面部圖像信息和語音信息提高在高噪聲情況下的語音識別正確率。

      附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

      以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1