国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      生成聲學模型的設備和方法和用于語音識別的設備和方法與流程

      文檔序號:12128359閱讀:364來源:國知局
      生成聲學模型的設備和方法和用于語音識別的設備和方法與流程

      技術領域

      下面的描述涉及語音識別技術,更具體地講,涉及一種用于生成聲學模型的設備和方法,和用于語音識別的設備和方法。



      背景技術:

      對語音識別技術存在很大的興趣,因為語音識別使得用戶能夠以更方便和容易的方式從互聯(lián)網、電子商務和各種普遍存在的環(huán)境中訪問信息。例如,在用戶的雙手忙于駕駛車輛或進行其他活動的情況下,語音識別使得用戶能夠訪問互聯(lián)網、搜索、撥號、進行電話呼叫或者進行其他活動或工作,因此,滿足用戶的各種需要。

      語音識別的一個重點在于有效地移除環(huán)境條件產生的噪音。訓練環(huán)境和真實的語音識別環(huán)境之間的由這樣的噪音引起的差異是系統(tǒng)的語音識別性能下降的主要因素之一。

      因此,存在對這樣的技術的需要:可生成聲學模型以在電子設備(諸如,手機)中將語音識別系統(tǒng)訓練為具有魯棒性并且不受或不顯著受噪音影響,并且可被用于存在各種噪音的真實的語音識別環(huán)境。



      技術實現(xiàn)要素:

      提供發(fā)明內容從而以簡化的形式介紹構思的選擇,其將在下面的具體實施方式中將被進一步描述。發(fā)明內容不意在確定所要求保護主題的關鍵特征或必要特征,也不意在用于輔助確定所要求保護的主題的范圍。

      提供了一種用于生成對噪音具有魯棒性的聲學模型的設備和方法,和一種用于通過使用對噪音具有魯棒性的聲學模型進行語音識別的設備和方法。

      根據一個實施例,提供一種用于生成聲學模型的設備,所述設備包括:處理器,被配置為:通過使用噪音模型計算代表噪音數(shù)據的噪音表現(xiàn),以及通過使用也可包括語音數(shù)據和噪音數(shù)據的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串和噪音表現(xiàn)進行訓練,生成聲學模型。

      該設備還可包括:被配置為存儲指令的存儲器,其中,處理器還可被配置為執(zhí)行指令以配置處理器,來通過使用噪音模型計算代表噪音數(shù)據的噪音表現(xiàn),并通過使用也可包括語音數(shù)據和噪音數(shù)據的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串和噪音表現(xiàn)進行訓練,生成聲學模型。

      處理器還可包括:噪音表現(xiàn)計算器,被配置為通過使用噪音模型計算代表噪音數(shù)據的噪音表現(xiàn);聲學模型生成器,被配置為通過使用也可包括語音數(shù)據和噪音數(shù)據的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串和噪音表現(xiàn)進行訓練,生成聲學模型。

      噪音表現(xiàn)計算器也可包括:特征提取器,被配置為提取噪音數(shù)據的特征;噪音建模器,被配置為通過使用噪音模型基于提取的特征計算代表噪音數(shù)據的噪音表現(xiàn)。

      可使用訓練噪音數(shù)據通過自動編碼器預先生成噪音模型。

      生成的聲學模型可以是基于神經網絡的聲學模型。

      處理器可被配置為通過使用多任務學習方法來生成聲學模型。

      處理器通過使用從第一目標函數(shù)和第二目標函數(shù)的加權和得到的第三目標函數(shù),生成聲學模型,其中,第一目標函數(shù)可用于估計音素概率,第二目標函數(shù)可用于估計噪音表現(xiàn)。

      聲學模型生成器也可包括:組合器,被配置為組合語音數(shù)據和噪音數(shù)據以生成訓練帶噪語音數(shù)據;特征提取器,被配置為提取生成的訓練帶噪語音數(shù)據的特征;聲學模型訓練器,被配置為用提取的特征、與語音數(shù)據對應的音素串和噪音表現(xiàn),訓練聲學模型。

      根據另一實施例,提供一種生成聲學模型的方法,該方法包括:通過使用噪音模型計算噪音數(shù)據的噪音表現(xiàn);通過使用也可包括語音數(shù)據和噪音數(shù)據的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串和噪音表現(xiàn)進行訓練,生成聲學模型。

      計算噪音表現(xiàn)的步驟也可包括:提取噪音數(shù)據的特征;通過使用噪音模型基于提取的噪音數(shù)據的特征計算噪音表現(xiàn)。

      可使用訓練噪音數(shù)據通過自動編碼器預先生成噪音模型。

      生成的聲學模型可以是基于神經網絡的聲學模型。

      生成聲學模型的步驟也可包括:通過使用多任務學習方法生成聲學模型。

      生成聲學模型的步驟也可包括:通過使用從第一目標函數(shù)和第二目標函數(shù)的加權和得到的第三目標函數(shù),生成聲學模型,其中,第一目標函數(shù)可用于估計音素概率,第二目標函數(shù)可用于估計噪音表現(xiàn)。

      生成聲學模型的步驟也可包括:組合語音數(shù)據和噪音數(shù)據以生成訓練帶噪語音數(shù)據;提取生成的訓練帶噪語音模型的特征;用提取的特征、與語音數(shù)據對應的音素串和噪音表現(xiàn),訓練聲學模型。

      根據一個實施例,提供一種語音識別設備,包括:存儲器,被配置為存儲聲學模型;計算器,被配置通過使用存儲的聲學模型計算輸入的帶噪語音數(shù)據的音素概率,其中,可通過使用包括語音數(shù)據和噪音數(shù)據的組合的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串和代表噪音數(shù)據的噪音表現(xiàn)進行訓練,生成聲學模型。

      計算器也可包括:特征提取器,被配置為提取輸入的帶噪語音數(shù)據的特征;音素概率計算器,被配置為使用聲學模型計算與提取的特征對應的音素概率。

      可通過使用噪音模型計算噪音表現(xiàn)。

      可使用訓練噪音數(shù)據通過自動編碼器預先生成噪音模型。

      聲學模型可以是基于神經網絡的聲學模型。

      可通過使用多任務學習方法生成聲學模型。

      可通過使用從第一目標函數(shù)和第二目標函數(shù)的加權和得到的第三目標函數(shù),生成聲學模型,其中,第一目標函數(shù)可用于估計音素概率,以及第二目標函數(shù)可用于估計噪音表現(xiàn)。

      可用定義為輸入數(shù)據的訓練帶噪語音數(shù)據和定義為目標數(shù)據的與語音數(shù)據對應的音素串和噪音表現(xiàn),生成聲學模型。

      根據進一步的實施例,提供一種語音識別方法,包括:提取輸入的帶噪語音數(shù)據的特征;通過使用聲學模型計算與提取的特征相應的音素概率,其中,可通過使用包括語音數(shù)據和噪音數(shù)據的組合的訓練帶噪語音數(shù)據、與語音數(shù)據對應的音素串以及代表噪音數(shù)據的噪音表現(xiàn)進行訓練,生成聲學模型。

      可通過使用噪音模型計算噪音表現(xiàn)。

      可使用訓練噪音數(shù)據通過自動編碼器預先生成噪音模型。

      聲學模型可以是基于神經網絡的聲學模型。

      可通過使用多任務學習方法生成聲學模型。

      可通過使用從第一目標函數(shù)和第二目標函數(shù)的加權和得到的第三目標函數(shù),生成聲學模型,其中,第一目標函數(shù)可用于估計音素概率,以及第二目標函數(shù)可用于估計噪音表現(xiàn)。

      可用定義為輸入數(shù)據的訓練帶噪語音數(shù)據和定義為目標數(shù)據的與語音數(shù)據對應的音素串和噪音表現(xiàn),生成聲學模型。

      根據另一實施例,提供一種用于生成聲學模型的設備,包括:組合器,被配置為組合語音數(shù)據和噪音數(shù)據以生成訓練帶噪語音數(shù)據;特征提取器,被配置為通過將用于聲學模型訓練的帶噪語音數(shù)據與其他噪音數(shù)據區(qū)別開來,從帶噪語音數(shù)據提取特征;聲學模型訓練器,被配置為用來自帶噪語音數(shù)據、與語音數(shù)據對應的音素串和噪音表現(xiàn)的特征,訓練聲學模型,其中,同時執(zhí)行音素的分類和噪音表現(xiàn)的提取。

      該設備還可包括:自動編碼器,被配置為接收特征的輸入以基于接收的訓練語音數(shù)據的輸入計算輸入表現(xiàn),并基于輸入表現(xiàn)重構最相似于輸入的輸出。

      自動編碼器使用訓練噪音數(shù)據預先生成噪音模型。

      生成的聲學模型可以是基于神經網絡的聲學模型。

      其他特征和方面從下面的具體實施方式、附圖和權利要求將是清楚的。

      附圖說明

      圖1是示出根據實施例的用于生成聲學模型的設備的框圖。

      圖2是解釋根據實施例的生成噪音模型的示例的示圖。

      圖3是解釋根據實施例的生成聲學模型的示例的示圖。

      圖4是示出根據實施例的語音識別設備的框圖。

      圖5是示出根據另一實施例的生成聲學模型的方法的流程圖。

      圖6是示出在圖5中示出的噪音表現(xiàn)的計算的示例的流程圖。

      圖7是示出在圖5中示出的聲學模型的生成的示例的流程圖。

      圖8是示出根據實施例的語音識別方法的流程圖。

      圖9是示出根據實施例的用于生成噪音模型的設備的框圖。

      圖10是示出根據實施例的用于生成噪音模型的方法的流程圖。

      貫穿附圖和具體實施方式,除非另外被描述,相同的附圖標記將被理解為表示相同的元件、特征和結構。為了清楚、說明和便利,這些元件的相對大小和描寫可被夸大。

      具體實施方式

      下面的詳細描述被提供以協(xié)助讀者獲得對在此描述的方法、設備和/或系統(tǒng)的全面理解。然而,在對本申請的公開的理解后,在此描述的方法、設備和/或系統(tǒng)的各種變化、修改和等同物將是明顯的。例如,在此描述的操作的順序僅是示例,操作的順序不被局限于在此闡述的那些順序,而是除了必需按特定順序發(fā)生的操作之外可被改變,這在對本申請的公開理解之后將是明顯的。同樣,為了更加清楚和簡潔,對本領域中已知的特征的描述可以被省略。

      在此描述的特征可以不同的形式被實現(xiàn),并且不應被解釋為被局限于在此描述的示例。相反,在此描述的示例僅被提供于示出實施在此描述的執(zhí)行方法、設備和/或系統(tǒng)的許多可能方式中的一些方式,這在對本申請的公開理解之后將是明顯的。

      貫穿說明書,當一個元件(諸如層、區(qū)域或基底)被描述為“在……之上”、“連接”或“結合”到另一元件時,其可直接“在……之上”、“連接”或“結合”到該另一元件,或者可存在一個或多個介于它們之間的元件。相反,當元件被描述為“直接在……之上”、“直接連接”或“直接結合”到另一元件時,不存在介于它們之間的其他元件。

      盡管術語(諸如“第一”、“第二”和“第三”)在此可用于描述各種部件、組件、區(qū)域、層或部分,這些部件、組件、區(qū)域、層或部分不被這些術語限制。相反,這些術語僅用于區(qū)分一個部件、組件、區(qū)域、層或部分與另一個部件、組件、區(qū)域、層或部分。因此,在不脫離示例的教導的情況下,在這里描述的示例中被稱為的第一部件、組件、區(qū)域、層或部分,也可被稱為第二部件、組件、區(qū)域、層或部分。

      此處使用的術語僅用于描述各種示例,并不用于限制該公開。除非上下文另有清楚的指示,否則單數(shù)形式也意在包括復數(shù)形式。術語“包含”、“包括”以及“具有”表示存在敘述的特征、數(shù)字、操作、部件、元件和/或它們的組合,但并不排除存在或添加一個或多個其他特征、數(shù)字、操作、部件、元件和/或它們的組合。

      在此描述的示例的特征可以各種方式被組合,這在對本申請的公開理解之后將是明顯的。此外,盡管在此描述的示例具有各種配置,其他配置是可能的,這在對本申請的公開理解之后將是明顯的。

      圖1是示出根據實施例的用于生成聲學模型的設備的框圖。

      參照圖1,用于生成聲學模型的設備100包括:輸入110、噪音表現(xiàn)計算器120和聲學模型生成器130。

      輸入110是對用于生成聲學模型的訓練語音數(shù)據(以下稱為用于聲學模型訓練的語音數(shù)據)的輸入和也用于生成聲學模型的訓練噪音數(shù)據(以下稱為用于聲學模型訓練的噪音數(shù)據)的輸入進行接收的門、終端或麥克風。

      噪音表現(xiàn)計算器120是被配置為使用預先生成的噪音模型計算噪音表現(xiàn)的處理器、控制器、電路或計算器。噪音表現(xiàn)代表用于聲學模型訓練的噪音數(shù)據。為此,噪音表現(xiàn)計算器120包括:特征提取器121、噪音模型存儲部分122和噪音建模器123。

      特征提取器121是被配置為通過執(zhí)行提取算法提取用于聲學模型訓練的噪音數(shù)據的特征的處理器、控制器或電路。提取算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學模型訓練的噪音數(shù)據與其他噪音數(shù)據區(qū)別開來的特征。

      噪音模型存儲部分122是被配置為存儲噪音模型的存儲器或電路。在一個實施例中,通過使用各種訓練噪音數(shù)據(以下稱為用于噪音模型訓練的噪音數(shù)據),通過自動編碼器預先進行訓練來生成噪音模型。用于噪音模型訓練的噪音數(shù)據可包括所有類型的包括用來生成聲學模型的用于聲學模型訓練的噪音數(shù)據的噪音數(shù)據。

      噪音模型存儲部分122是包括閃存類型、硬盤類型、微型多媒體卡類型、卡類型存儲器(諸如SD或XD存儲器等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦可編程只讀存儲器(EEPROM)、可編程序只讀存儲器(PROM)、磁存儲器、磁盤、光盤和其他相似裝置中的至少一個存儲介質的存儲器或電路。

      盡管在圖1中噪音模型存儲部分122包括在噪音表現(xiàn)計算器120中,但噪音模型存儲部分122不限于此。換句話說,噪音模型存儲部分122可被放置成為噪音表現(xiàn)計算器120的一部分,或者成為噪音表現(xiàn)計算器120之外的外部構件。

      通過使用存儲在噪音模型存儲部分122中的噪音模型,基于特征提取器121提取的用于聲學模型訓練的噪音數(shù)據的特征,噪音建模器123計算代表用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn)。

      將參照圖2描述噪音模型的生成和使用。

      聲學模型生成器130是被配置為通過基于用于聲學模型訓練的語音數(shù)據、用于聲學模型訓練的噪音數(shù)據、與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn)進行訓練來生成聲學模型的處理器、控制器或者結構生成器。在一個實施例中,聲學模型生成器130通過使用多任務學習方法生成聲學模型。為此,聲學模型生成器130包括:組合器131、特征提取器132、和聲學模型訓練器133。

      組合器131是被配置為組合用于聲學模型訓練的語音數(shù)據和噪音數(shù)據以生成訓練帶噪語音數(shù)據(以下稱為用于聲學模型訓練的帶噪語音數(shù)據)的處理器、控制器或電路。

      特征提取器132是被配置為通過使用,例如,可將用于聲學模型訓練的帶噪語音數(shù)據與其他噪音數(shù)據區(qū)別開來的算法,從用于聲學模型訓練的帶噪語音數(shù)據提取特征的處理器、控制器或電路。如上面描述的,該算法可以是任何類型或功能的算法,只要該算法可用來提取將用于聲學模型訓練的帶噪語音數(shù)據與其他噪音數(shù)據區(qū)別開來的特征。

      聲學模型訓練器133是被配置為用來自特征提取器132的用于聲學模型訓練的帶噪語音數(shù)據的特征、以及被定義為目標數(shù)據的與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的來自噪音建模器123的噪音表現(xiàn),訓練聲學模型的處理器或控制器。換句話說,聲學模型訓練器133訓練聲學模型,以便聲學模型通過使用多任務學習方法同時執(zhí)行音素的分類和噪音表現(xiàn)的提取。

      聲學模型可以是基于神經網絡的聲學模型,但不限于此。

      該基于神經網絡的聲學模型可包括多個隱藏層,并可通過典型的誤差反向傳播方法進行訓練。

      在一個實施例中,聲學模型訓練器133通過使用由下面的等式1表示的目標函數(shù)來訓練聲學模型。

      [等式1]

      L=(1-λ)LA+λLN

      其中,LA是用于估計音素概率的用于訓練聲學模型的目標函數(shù)(以下稱為第一目標函數(shù)),LN是用于估計噪音表現(xiàn)的用于訓練聲學模型的目標函數(shù)(以下稱為第二目標函數(shù)),λ是權重。

      如通過等式1所表示的,用于訓練聲學模型的目標函數(shù)從第一目標函數(shù)和第二目標函數(shù)的加權和得到。

      在一個實施例中,第一目標函數(shù)LA使用一般用于多類分類的交叉熵(cross-entropy),由下面的等式2表示。

      [等式2]

      tk=0或1,

      其中,K指示輸出類的數(shù)量(例如,音素的數(shù)量),tk指示第k輸出類是否為目標類,tk在目標類的情況下取值為1,tk在不是目標類的情況下取值為0,yk表示模型的輸出層的激活函數(shù)。

      在一個實施例中,第二目標函數(shù)LN使用一般用于回歸的歐幾里德距離,由下面的等式3表示。

      [等式3]

      其中,P指示輸入(輸出)特征的維度,fp指示第p個輸入節(jié)點的激活值,gp表明第p個輸出節(jié)點的激活值。

      盡管在圖1中用于生成聲學模型的設備100包括輸入110和噪音模型存儲部分122,但是輸入110和噪音模型存儲部分122是可基于系統(tǒng)的性能和使用被包括的可選的結構元件。

      圖2是解釋根據實施例的用于生成噪音模型的示例的示圖。圖2中示出的噪音模型是基于自動編碼器的噪音模型。

      在一個實施例中,可通過自動編碼器訓練噪音模型。自動編碼器包括多個隱藏層,并且被訓練為接收特征的輸入(諸如,濾波器組(filterbank))、基于接收的輸入計算輸入表現(xiàn)210、并基于所述表現(xiàn)210重構最相似于所述輸入的輸出。

      例如,通過使用由下面的等式4表示的目標函數(shù),訓練基于自動編碼器的噪音模型。

      [等式4]

      其中,xk指示輸入,zk指示輸出,k指示用于聲學模型訓練的噪音數(shù)據的樣本索引。

      在一個實施例中,自動編碼器的位于中間的隱藏層的節(jié)點的數(shù)量被期望小于輸入/輸出的維度,或者期望稀疏的約束(諸如,L1范數(shù))。例如,在輸入123個濾波器組(41維靜態(tài)濾波器組+δ+δ-δ(其中,δ是濾波器組的導數(shù),δ-δ是濾波器組的二階導數(shù)))的情況下,自動編碼器的位于中間的隱藏層的節(jié)點的數(shù)量被設為40,其比123要小。通過使用自動編碼器進行訓練,可獲得與維度縮減相同的效果,并且噪音模型被訓練以計算代表輸入的輸入表現(xiàn)。

      自動編碼器包括:將輸入轉化為表現(xiàn)的編碼器220和將表現(xiàn)轉化為輸出的解碼器230。編碼器220和解碼器230均為結構裝置,所述結構裝置包括但不限于:處理器、控制器或電路。通過從訓練的自動編碼器移除解碼器230,可生成噪音模型。即,噪音模型可被配置為僅包括編碼器220。

      圖3是解釋根據實施例的生成聲學模型的示例的示圖。

      參照圖3,特征提取器121接收用于聲學模型訓練的噪音數(shù)據310,并從用于聲學模型訓練的噪音數(shù)據310提取特征(fbank_noise(濾波器組_噪音))。

      噪音建模器123,通過使用預先生成的噪音模型340,基于提取的特征(fbank_noise),計算與用于聲學模型訓練的噪音數(shù)據310相應的噪音表現(xiàn)350。

      組合器131將用于聲學模型訓練的噪音數(shù)據310與用于聲學模型訓練的語音數(shù)據320進行組合,以生成用于聲學模型訓練的帶噪語音數(shù)據330。

      特征提取器132接收用于聲學模型訓練的帶噪語音數(shù)據330,并且從用于聲學模型訓練的帶噪語音數(shù)據330提取特征(fbank_noisy_speech(濾波器組_帶噪語音))。

      聲學模型訓練器133用定義為輸入數(shù)據的特征(fbank_noisy_speech)、定義為目標數(shù)據的與用于聲學模型訓練的語音數(shù)據相應的音素串和定義為目標數(shù)據的用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn)350,訓練聲學模型370。換句話說,聲學模型訓練器133訓練聲學模型370以便聲學模型370可同時執(zhí)行音素分類360和噪音表現(xiàn)350的計算。

      圖4是示出根據實施例的語音識別設備的框圖。

      參照圖4,語音識別設備400包括:輸入410、聲學模型存儲部分420和計算器430。

      輸入410接收在其中將被識別的語音數(shù)據和噪音數(shù)據被組合的帶噪語音數(shù)據的輸入。

      聲學模型存儲部分420存儲通過預先訓練已被生成的聲學模型。聲學模型可以是被在圖1示出的用于生成聲學模型的設備100生成的聲學模型。

      例如,聲學模型是通過使用用于聲學模型訓練的語音數(shù)據、用于聲學模型訓練的噪音數(shù)據、與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn),進行訓練而生成的聲學模型??赏ㄟ^使用噪音模型計算噪音表現(xiàn),并可基于各種類型的用于噪音模型訓練的噪音數(shù)據,通過自動編碼器生成噪音模型。

      聲學模型可以是基于神經網絡的和通過使用多任務學習方法生成的聲學模型。換句話說,聲學模型可以是使用用于聲學模型訓練的帶噪語音數(shù)據(在帶噪語音數(shù)據中,用于聲學模型訓練的語音數(shù)據和用于聲學模型訓練的噪音數(shù)據被組合)的特征(被定義為輸入數(shù)據)、以及定義為目標數(shù)據的與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn),進行訓練而生成的聲學模型??赏ㄟ^使用由等式1至3表示的目標函數(shù)來訓練聲學模型。

      聲學模型存儲部分420可包括閃存類型、硬盤類型、微型多媒體卡類型、卡類型存儲器(例如,SD或XD存儲器等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦可編程只讀存儲器(EEPROM)、可編程序只讀存儲器(PROM)、磁存儲器、磁盤、光盤和其他相似存儲結構設備中的至少一個存儲介質。

      計算器430通過使用存儲的聲學模型計算輸入的帶噪語音數(shù)據的音素概率。為此,計算器430包括:特征提取器431和音素概率計算器432。

      根據一個實施例,特征提取器431通過使用算法來提取輸入的帶噪語音數(shù)據的特征。如上面描述的,該算法可以是任何類型或功能的算法,只要該算法可用于提取將帶噪語音數(shù)據與其他噪音數(shù)據區(qū)別開來的特征。

      音素概率計算器432通過使用存儲的聲學模型,計算與特征提取器431提取的帶噪語音數(shù)據的特征相應的音素概率。

      盡管在圖4中語音識別設備400包括:輸入410和聲學模型存儲部分420,但是輸入410和聲學模型存儲部分420是取決于系統(tǒng)的性能和使用而可被省略的結構元件。

      圖5是示出根據另一實施例的生成聲學模型的方法的流程圖。

      參照圖1和圖5,在操作510中,用于生成聲學模型的設備100使用噪音表現(xiàn)計算器120,通過使用預先生成的噪音模型計算代表用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn)。

      通過自動編碼器使用用于噪音模型訓練的各種噪音數(shù)據進行預先訓練,生成噪音模型。用于噪音模型訓練的噪音數(shù)據包括所有類型的具有用于生成聲學模型的用于聲學模型訓練的噪音數(shù)據的噪音數(shù)據。

      參照圖2描述了噪音模型的生成,從而將省略其具體描述。

      在操作520中,用于生成聲學模型的設備100使用聲學模型生成器130,基于用于聲學模型訓練的語音數(shù)據、用于聲學模型訓練的噪音數(shù)據、與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn),生成聲學模型。

      圖6是示出在圖5中示出的噪音表現(xiàn)的中計算510的流程圖。

      參照圖1和圖6,在操作610中,用于生成聲學模型的設備100使用特征提取器121,通過使用算法提取用于聲學模型訓練的噪音數(shù)據的特征。所述算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學模型訓練的噪音數(shù)據與其他噪音數(shù)據區(qū)別開來的特征。

      在操作620中,用于生成聲學模型的設備100使用噪音建模器123,基于提取的用于聲學模型訓練的噪音數(shù)據的特征,計算代表用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn)。

      圖7是示出在圖5中示出的聲學模型的中的生成過程520的流程圖。

      參照圖1和圖7,用于生成聲學模型的設備100使用組合器131,組合用于聲學模型訓練的語音數(shù)據和用于聲學模型訓練的噪音數(shù)據,以生成用于聲學模型訓練的帶噪語音數(shù)據。

      在操作720中,用于生成聲學模型的設備100使用特征提取器132,通過使用算法來提取用于聲學模型訓練的帶噪語音數(shù)據的特征。如上面描述的,算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學模型訓練的帶噪語音數(shù)據與其他噪音數(shù)據區(qū)別開來的特征。

      在操作730中,用于生成聲學模型的設備100使用聲學模型訓練器133,用定義為輸入數(shù)據的用于聲學模型訓練的帶噪語音數(shù)據的特征、以及定義為目標數(shù)據的與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn),訓練聲學模型。換句話說,用于生成聲學模型的設備100使用聲學模型訓練器133訓練聲學模型,以便聲學模型通過使用多任務學習方法同時執(zhí)行音素分類和噪音表現(xiàn)。

      聲學模型可以是基于神經網絡的聲學模型,但不限于此。

      基于神經網絡的聲學模型可包括多個隱藏層,并可通過典型的誤差反向傳播方法訓練。

      在一個實施例中,用于生成聲學模型的設備100可通過使用由等式1至3表示的目標函數(shù)訓練聲學模型。

      圖8是示出根據實施例的語音識別方法的流程圖。

      參照圖4和圖8,在操作810中,語音識別設備400使用特征提取器431,通過使用算法來從帶噪語音數(shù)據提取特征。如上面描述的,所述算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學模型訓練的帶噪語音數(shù)據與其他帶噪語音數(shù)據區(qū)別開來的特征。

      在操作820中,語音識別設備400使用音素概率計算器432,通過使用聲學模型來計算與提取的帶噪語音數(shù)據相應的音素概率。

      聲學模型可以是通過基于用于聲學模型訓練的語音數(shù)據、用于聲學模型訓練的噪音數(shù)據、與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪聲表現(xiàn)進行訓練而生成的聲學模型??赏ㄟ^使用噪音模型計算噪音表現(xiàn),且可基于各種類型的用于噪音模型訓練的噪音數(shù)據通過自動編碼器生成噪音模型。

      聲學模型可以是基于神經網絡的并通過使用多任務學習方法而生成的聲學模型。換句話說,聲學模型可以是使用用于聲學模型訓練的帶噪語音數(shù)據(在帶噪語音數(shù)據中,用于聲學模型訓練的語音數(shù)據和用于聲學模型訓練的噪音數(shù)據被組合)的特征(被定義為輸入數(shù)據)、以及定義為目標數(shù)據的與用于聲學模型訓練的語音數(shù)據相應的音素串和用于聲學模型訓練的噪音數(shù)據的噪音表現(xiàn),進行訓練而生成的聲學模型。可通過使用由等式1至3表示的目標函數(shù)來訓練聲學模型。圖9是示出根據實施例的生成噪音模型的設備的框圖。

      參照圖9,用于生成噪音模型的設備900包括:訓練器910和生成器920。

      訓練器910是被配置為通過使用各種訓練噪音數(shù)據訓練自動編碼器的處理器、電路或控制器。自動編碼器包括:將輸入轉化為表現(xiàn)的編碼器和將表現(xiàn)轉化為輸出的解碼器。

      在一個實施例中,訓練器910通過使用等式4的目標函數(shù)訓練自動編碼器。

      生成器920是被配置為通過從自動編碼器中移除解碼器生成噪音模型的處理器、電路或控制器。

      圖10是示出根據實施例的生成噪音模型的方法的流程圖。

      參照圖9和圖10,在操作1010,用于生成噪音模型的設備900使用訓練器910,通過使用各種訓練噪音數(shù)據來訓練編碼器。自動編碼器包括:將輸入轉化為表現(xiàn)的編碼器和將表現(xiàn)轉化為輸出的解碼器。

      在一個實施例中,用于生成噪音模型的設備900通過使用等式4的目標函數(shù)來訓練自動編碼器。

      在操作1020,用于生成噪音模型的設備900使用生成器920,通過從自動編碼器中移除解碼器生成噪音模型。

      通過被配置為執(zhí)行由硬件組件所執(zhí)行的在本申請中描述的操作的硬件組件,實施執(zhí)行在本申請中描述的操作的在圖1、圖4和圖9中的輸入110、噪音表現(xiàn)120、特征提取器121、噪音建模器123、噪音模型存儲部分122、聲學模型生成器130、組合器131、特征提取器132、聲學模型訓練器133、輸入410、特征提取器431、聲學模型存儲部分420、音素概率計算器432、訓練器910、生成器920??捎糜趫?zhí)行在本申請中的適當位置描述的操作的硬件組件的示例包括:控制器、傳感器、生成器、驅動器、存儲器、比較器、算術邏輯單元、加法器、減法器、乘法器、除法器、積分器和任何其他被配置為執(zhí)行在本申請中描述的操作的電子組件。在其他示例中,一個或多個執(zhí)行在本申請中描述的操作的硬件組件通過計算機硬件(例如,通過一個或多個處理器或計算機)實施。處理器或計算機可通過一個或多個處理元件(諸如,邏輯門陣列、控制器和算術邏輯單元)、數(shù)字信號處理器、微型計算機、可編程邏輯控制器、現(xiàn)場可編輯門陣列、可編程邏輯陣列、微處理器或任何其他被配置為以定義的方式響應并執(zhí)行指令去實現(xiàn)期望的結果的裝置或裝置的組合被實施。在一個示例中,處理器或計算機包括或被連接到,一個或多個存儲有被處理器或計算機執(zhí)行的指令或軟件的存儲器。被處理器和計算器實施的硬件組件可執(zhí)行指令或軟件(諸如操作系統(tǒng)(OS)和運行在OS中的一個或多個軟件應用)來執(zhí)行在本申請中描述的操作。響應于指令或軟件的執(zhí)行,硬件組件還可訪問、操縱、處理、生成和存儲數(shù)據。為了簡明,單數(shù)術語“處理器”或“計算機”可用于在本申請中描述的示例的描述中,但在其他示例中,多處理器或多計算機可被使用,或者一個處理器或計算機可包括多處理器元件或多種類型的處理器元件或者兩者均有。例如,單個硬件組件或兩個或更多個硬件組件可通過單個處理器或者兩個或更多個處理器或者一個處理器和控制器實施。一個或多個硬件組件可通過一個或多個處理器,或者一個處理器和一個控制器實施,并且一個或多個其他硬件組件可通過一個或多個其他處理器,或者另一處理器和另一控制器實施。一個或多個處理器,或者一個處理器和一個控制器可實施單個硬件組件,或者兩個或更多個硬件組件。硬件組件可具有任何一個或多個不同的處理配置,其示例包括:單處理器、獨立的處理器、并行處理器、單指令單數(shù)據(SISD)多重處理、多指令單數(shù)據(MISD)多重處理、單指令多數(shù)據(SIMD)多重處理以及多指令多數(shù)據(MIMD)多重處理。

      圖5至圖8和圖10中示出的執(zhí)行在本申請中描述的操作的方法由如上描述的那樣被實施為執(zhí)行指令或軟件以執(zhí)行所述方法所執(zhí)行的在本申請中描述的操作的計算機硬件(例如,一個或多個處理器或計算機)執(zhí)行。例如,單個操作或者兩個或更多個操作可通過單處理器或者兩個或更多個處理器,或者處理器和控制器來執(zhí)行。一個或多個操作可通過一個或多個處理器,或者處理器和控制器來執(zhí)行,且一個或多個其他操作可通過一個或多個其他處理器,或者另一處理器和另一控制器來執(zhí)行。一個或多個處理器,或者處理器和控制器,可執(zhí)行單個操作,或者兩個或更多個操作。

      為了單獨地或共同地指示或配置一個或多個處理器或計算機來作為機器或專用計算機執(zhí)行被如上面所描述的硬件組件和方法所執(zhí)行的操作,用于控制計算機硬件(例如,一個或多個處理器或計算機)以實施硬件組件并執(zhí)行如上面所描述的方法的指令或軟件可被寫為計算機程序、代碼段、指令或它們的任意組合。在一個示例中,指令或軟件包括直接被一個或多個處理器或計算機執(zhí)行的機器代碼(諸如,被編譯器產生的機器代碼)。在另一示例中,指令或軟件包括被一個或多個處理器或計算機使用解釋器執(zhí)行的高級代碼。指令或軟件可基于公開了用于執(zhí)行被如上所述的硬件組件和方法執(zhí)行的操作的算法的在附圖中示出的框圖和流程圖和說明書的相應描述使用任意編程語言被編寫。

      用于控制計算機硬件(例如,一個或多個處理器或計算機)以實施硬件組件并執(zhí)行如上所述的方法的指令或軟件、以及任何相關的數(shù)據、數(shù)據文件以及數(shù)據結構可被記錄、存儲或安裝在一個或多個非暫時計算機可讀存儲介質中或上。非暫時性計算機可讀存儲介質的示例包括:只讀存儲器(ROM)、隨機存取存儲器(RAM)、閃存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁帶、軟盤、磁光數(shù)據存儲裝置、光學數(shù)據存儲裝置、硬盤、固態(tài)盤、和被配置為以非暫時方式存儲指令或軟件、以及任何相關的數(shù)據、數(shù)據文件以及數(shù)據結構,并向一個或多個處理器或計算機提供指令或軟件、以及任何相關的數(shù)據、數(shù)據文件以及數(shù)據結構以便所述一個或多個處理器和計算機能夠執(zhí)行指令的任何其他設備。在一個示例中,指令或軟件、以及任何相關數(shù)據、數(shù)據文件以及數(shù)據結構分布在聯(lián)網的計算機系統(tǒng)上,以便指令和軟件、以及任何相關的數(shù)據、數(shù)據文件以及數(shù)據結構被一個或多個處理器或計算機以分布式方式存儲、訪問和執(zhí)行。

      盡管本公開包括特定的示例,但是在不脫離權利要求和它們的等同物的精神和范圍的情況下可在這些示例中做出形式和細節(jié)上各種改變,在對本申請的公開的理解后將是清楚的。在此描述的示例被認為僅是描述性的,而非為了限制的目的。在每一示例中的特征和方面的描述將被認為適用于其他示例中的相似特征和方面。如果描述的技術以不同的順序被執(zhí)行,和/或如果在描述的系統(tǒng)、架構、裝置、或電路中的組件以不同的方式組合,和/或被其他組件或者它們的等同物代替或增補,可實現(xiàn)合適的結果。因此,公開的范圍不是通過具體實施方式所限定,而是由權利要求和它們的等同物限定,并且在權利要求和它們的等同物的范圍內的所有變化將被解釋為被包括在該公開之內。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1