国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法

      文檔序號:9401975閱讀:553來源:國知局
      在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法
      【專利說明】在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)
      [0001] Μ?
      [0002] 存在許多不同類型的計算機實現(xiàn)的識別系統(tǒng),其中這些識別系統(tǒng)被配置成相對于 用戶所提出的輸入數(shù)據(jù)執(zhí)行某種形式的分類。例如,計算機實現(xiàn)的語音識別系統(tǒng)被配置成 接收用戶的說出的話語并識別說出的話語中的詞。在另一示例中,手寫識別系統(tǒng)已被開發(fā) 出以接收手寫樣本并標(biāo)識例如該手寫樣本的作者、該手寫樣本中的個體字母、該手寫樣本 中的詞等。在又一示例中,已經(jīng)開發(fā)出執(zhí)行面部識別、指紋識別等的計算機實現(xiàn)的識別系 統(tǒng)。
      [0003] 更具體地就語音識別而言,此類識別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如,自 動語音識別(ASR)系統(tǒng)已被并入到移動電話、臺式計算機、汽車、游戲控制臺、顧客服務(wù)中 心等,以便識別命令/問題并提供對此類命令/問題的適當(dāng)響應(yīng)。例如,在配備有ASR系統(tǒng) 的移動電話中,用戶可以講出保留在移動電話上的聯(lián)系人列表中的某一聯(lián)系人的名字,而 移動電話可發(fā)起對該聯(lián)系人的呼叫。
      [0004] 然而,即使在數(shù)十年的研究以后,ASR在現(xiàn)實世界使用場景中的性能依然遠(yuǎn)遠(yuǎn)不能 令人滿意。按常規(guī)而言,隱馬爾科夫模型(HMM)已經(jīng)是用于大詞匯量連續(xù)語音識別(LVCSR) 的主導(dǎo)技術(shù)。在用于ASR的常規(guī)HMM中,針對輸出狀態(tài)的觀測概率是使用高斯混合模型 (GMM)建模的。這些GMM-HMM系統(tǒng)通常被訓(xùn)練以最大化生成訓(xùn)練數(shù)據(jù)中觀測到的特征的可 能性。近來,各種辨析策略和大邊界(large margin)技術(shù)已經(jīng)被探究。然而,這些技術(shù)的 潛力受到GMM發(fā)射分布模型的限制的約束。
      [0005] 部分地被利用人類語音生成和感知系統(tǒng)中某些類似性質(zhì)的期望所激勵,對ASR的 較新近的研究已經(jīng)探究了分層架構(gòu)來執(zhí)行語音識別。在這些研究中,對模型參數(shù)(與這些 分層架構(gòu)中的突觸相對應(yīng)的權(quán)重和權(quán)重偏誤(weight bias))的學(xué)習(xí)已經(jīng)是最突出和困難 的問題之一。與ASR研究中的發(fā)展并行,來自神經(jīng)網(wǎng)絡(luò)研究的學(xué)習(xí)方法中所取得的當(dāng)前進 展已經(jīng)激起了對探究深度神經(jīng)網(wǎng)絡(luò)(DNN)的興趣。DNN是具有許多隱藏層的密集連接的有 向信念網(wǎng)絡(luò)。一般而言,DNN可被認(rèn)為是具有多層隱藏單元和至少一層可見單元的高度復(fù) 雜的非線性特征提取器,其中隱藏單元的每一層被學(xué)習(xí)來表示捕捉原始輸入數(shù)據(jù)中的高階 相關(guān)的特征。
      [0006] 傳統(tǒng)上,利用DNN的ASR系統(tǒng)被訓(xùn)練成與說話者/通道無關(guān)的。換言之,DNN的參 數(shù)(例如,權(quán)重和權(quán)重偏誤)不是關(guān)于特定說話者和/或通道來學(xué)習(xí)的。這出于至少兩個 理由:首先,經(jīng)常難以獲得足夠的訓(xùn)練數(shù)據(jù)量來穩(wěn)健地學(xué)習(xí)針對某一說話者和/或通道的 參數(shù),因為大多數(shù)用戶不期望花費大量時間來提供有標(biāo)記的話語來訓(xùn)練ASR系統(tǒng)。而且,由 于更寬且更深的隱藏層,DNN通常具有多得多的參數(shù),并且還具有被設(shè)計成直接對senone 建模的大得多的輸出層。這使得適配結(jié)合語音識別利用的DNN成為相對困難的任務(wù)。
      [0007] 施述
      [0008] 以下是在本文更詳細(xì)描述的主題的簡要概述。本概述不旨在成為關(guān)于權(quán)利要求的 范圍的限制。
      [0009] 本文描述了與適配(adapt)在識別系統(tǒng)中采用的深度神經(jīng)網(wǎng)絡(luò)(DNN)的至少一個 參數(shù)有關(guān)的各種技術(shù),其中所述適配是針對特定用戶或上下文進行的。在一示例性實施例 中,DNN可在自動語音識別(ASR)系統(tǒng)中被用作上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型 (CD-DNN-HMM)系統(tǒng)的一部分。計算設(shè)備(諸如移動電話、汽車中的計算設(shè)備、呼叫中心中的 計算設(shè)備、游戲控制臺、服務(wù)器等)可包括ASR系統(tǒng),該ASR系統(tǒng)包括已經(jīng)利用來自多個不 同用戶的訓(xùn)練數(shù)據(jù)訓(xùn)練過的與說話者無關(guān)的(SI) CD-DNN-HMM系統(tǒng)。為了針對特定用戶或 上下文(例如,特定移動電話)改進CD-DNN-HMM系統(tǒng)的識別能力,可能期望將該DNN適配 到該特定用戶或上下文。此處描述的技術(shù)可被用來執(zhí)行這種適配而不需要用戶提出大量的 訓(xùn)練數(shù)據(jù)。
      [0010] 在ASR的上下文中,DNN被配置成直接對上下文相關(guān)單元(context dependent unit)建模,所述上下文相關(guān)單元在本文被稱為Senonec3Senone可以是三音素(triphone)、 五音素(quinphone)等等。如上所述,可利用與多個不同用戶相對應(yīng)的訓(xùn)練數(shù)據(jù)來訓(xùn)練SI ASR系統(tǒng)中的DNN。當(dāng)某一特定用戶提出期望通過利用包括DNN的ASR系統(tǒng)解碼的某一語 音話語時,該語音話語被劃分成多個幀,并且針對某一個體幀的DNN的輸出是在該DNN所建 模的senone上的概率分布。
      [0011] 為了避免在為該特定用戶適配該DNN時對用于該特定用戶的訓(xùn)練數(shù)據(jù)(例如,所 捕捉的該用戶的話語,經(jīng)常被稱為適配數(shù)據(jù))的過擬合,這種適配可以按照保守方式進行, 使得未適配的DNN和已適配的DNN (具有使用適配數(shù)據(jù)適配的參數(shù)的所得DNN)之間的輸出 偏差受到約束。在一示例性實施例中,這可以通過在執(zhí)行適配時正規(guī)化(regularize)成本 函數(shù)來實現(xiàn),然而也可以采用其他方法來使適配被保守地進行。例如,在一示例性實施例 中,可將Kullback-Leibler散度(KLD)正規(guī)化約束添加到適配準(zhǔn)則。因此,由已適配的DNN 所估計的多個幀上的senone分布被迫使相對接近由未適配的DNN所估計的senone分布。
      [0012] 以上概述呈現(xiàn)了簡化概述,以提供對本文討論的系統(tǒng)和/或方法的一些方面的基 本理解。本概述并不是對此處所討論的系統(tǒng)和/或方法的全面綜述。它并不旨在標(biāo)識關(guān)鍵 /重要元素,也不描繪這樣的系統(tǒng)和/或方法的范圍。其唯一目的是以簡化形式呈現(xiàn)一些概 念,作為稍后呈現(xiàn)的更詳細(xì)實施例的序言。
      [0013] 附圖簡述
      [0014] 圖1是包括識別系統(tǒng)的一示例性計算設(shè)備的功能框圖,該識別系統(tǒng)包括DNN,其中 所述DNN能適配到特定用戶和/或上下文。
      [0015] 圖2例示出一示例性深度神經(jīng)網(wǎng)絡(luò)。
      [0016] 圖3是一示例性系統(tǒng)的功能框圖,該示例性系統(tǒng)便于將識別系統(tǒng)的DNN適配到特 定用戶。
      [0017] 圖4是例示出用于基于所觀測到的輸入數(shù)據(jù)保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)的 一種示例性方法的流程圖。
      [0018] 圖5是例示出用于基于與正規(guī)化成本函數(shù)結(jié)合利用的正規(guī)化權(quán)重來適配DNN的參 數(shù)的一種示例性方法的流程圖。
      [0019] 圖6是一示例性計算系統(tǒng)。
      [0020] 詳細(xì)描沐
      [0021] 現(xiàn)在參考附圖描述涉及保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)來針對特定用戶或上下 文定制這種深度神經(jīng)網(wǎng)絡(luò)的各種技術(shù),其中在全部附圖中,相同的附圖標(biāo)記用于指代相同 的元素。在以下描述中,為解釋起見,闡明了眾多具體細(xì)節(jié)以提供對一個或多個方面的全面 理解。然而,顯然這(些)方面可以在沒有這些具體細(xì)節(jié)的情況下實施。在其他實例中,以 框圖形式示出公知的結(jié)構(gòu)和設(shè)備以便于描述一個或多個方面。另外,要理解,被描述為由特 定系統(tǒng)組件執(zhí)行的功能可由多個組件執(zhí)行。類似地,例如,一組件可被配置成執(zhí)行被描述為 由多個組件執(zhí)行的功能。
      [0022] 此外,術(shù)語"或"意指包括性"或"而非排斥性"或"。即,除非另有指定或從上下文 可以清楚,否則短語"X采用A或B"意指任何自然的包括性排列。即,術(shù)語"X采用A或B" 被以下實例中的任一個滿足:X米用A ;X米用B ;或X米用A和B兩者。另外,本申請和所 附權(quán)利要求書中所使用的冠詞"一"和"一種"一般應(yīng)被解釋為是指"一個或多個",除非另 有指定或從上下文可以清楚指的是單數(shù)形式。
      [0023] 此外,如本文所使用的,術(shù)語"組件"和"系統(tǒng)"旨在包含配置有使得在被處理器執(zhí) 行時某一功能被執(zhí)行的計算機可執(zhí)行指令的計算機可讀數(shù)據(jù)存儲。計算機可執(zhí)行指令可包 括例程、功能等等。還要理解組件或系統(tǒng)可以位于單個設(shè)備上或分布在若干設(shè)備之間。而 且,如此處所使用的,術(shù)語"示例性"旨在表示用作某些事物的例示或示例,而不意圖指示優(yōu) 選。
      [0024] 現(xiàn)在參考圖1,例示出一示例性計算設(shè)備100,該示例性計算設(shè)備包括識別系統(tǒng) 102,該識別系統(tǒng)可識別計算設(shè)備100的用戶104所提出的輸入。計算設(shè)備100可以是客戶 端計算設(shè)備,諸如移動電話、游戲控制臺、臺式計算機、膝上型計算機、平板計算設(shè)備(板式 計算設(shè)備)、汽車中的計算設(shè)備等。在另一示例中,計算設(shè)備100可以是由用戶104通過利 用計算設(shè)備或電話遠(yuǎn)程訪問的計算設(shè)備,諸如包括在位于用戶104的遠(yuǎn)程的客戶服務(wù)中心 中的計算設(shè)備。
      [0025] 識別系統(tǒng)102可以是能識別用戶輸入的任何適當(dāng)?shù)淖R別系統(tǒng)。例如,識別系統(tǒng)102 可以是用于識別用戶104所提出的姿勢的系統(tǒng)、用于識別用戶104所提出的手寫中的字符 的系統(tǒng)、能夠解碼用戶104所提出的話語中的詞的自動語音識別(ASR)系統(tǒng)等。出于解釋 目的,本文中識別系統(tǒng)102將被描述為ASR系統(tǒng)。然而,要理解,識別系統(tǒng)102可以是前面 提到的識別系統(tǒng)類型中的任何類型,用于適配此處關(guān)于ASR系統(tǒng)描述的模型參數(shù)的適配技 術(shù)能在這些其他類型的識別系統(tǒng)中被使用。
      [0026] 在一示例性實施例中,識別系統(tǒng)102可包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫 模型(⑶-DNN-HMM)。⑶-DNN-HMM包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)(在本文中將被稱為深度 神經(jīng)網(wǎng)絡(luò)(DNN) 106)和隱馬爾可夫模型108 (HMM)。DNN106是具有多個層110的多層感知 器。多個層110包括接收輸入觀測的輸入層(有時被稱為觀測層),其中所述觀測通過若 干(例如,9到13個)幀聲學(xué)特征被提供給
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1