在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號：9401975閱讀：553來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法
【專利說明】在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)
[0001] Μ?
[0002] 存在許多不同類型的計算機實現(xiàn)的識別系統(tǒng)，其中這些識別系統(tǒng)被配置成相對于用戶所提出的輸入數(shù)據(jù)執(zhí)行某種形式的分類。例如，計算機實現(xiàn)的語音識別系統(tǒng)被配置成接收用戶的說出的話語并識別說出的話語中的詞。在另一示例中，手寫識別系統(tǒng)已被開發(fā) 出以接收手寫樣本并標(biāo)識例如該手寫樣本的作者、該手寫樣本中的個體字母、該手寫樣本中的詞等。在又一示例中，已經(jīng)開發(fā)出執(zhí)行面部識別、指紋識別等的計算機實現(xiàn)的識別系統(tǒng)。
[0003] 更具體地就語音識別而言，此類識別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如，自動語音識別（ASR)系統(tǒng)已被并入到移動電話、臺式計算機、汽車、游戲控制臺、顧客服務(wù)中心等，以便識別命令/問題并提供對此類命令/問題的適當(dāng)響應(yīng)。例如，在配備有ASR系統(tǒng) 的移動電話中，用戶可以講出保留在移動電話上的聯(lián)系人列表中的某一聯(lián)系人的名字，而移動電話可發(fā)起對該聯(lián)系人的呼叫。
[0004] 然而，即使在數(shù)十年的研究以后，ASR在現(xiàn)實世界使用場景中的性能依然遠(yuǎn)遠(yuǎn)不能令人滿意。按常規(guī)而言，隱馬爾科夫模型（HMM)已經(jīng)是用于大詞匯量連續(xù)語音識別（LVCSR) 的主導(dǎo)技術(shù)。在用于ASR的常規(guī)HMM中，針對輸出狀態(tài)的觀測概率是使用高斯混合模型 (GMM)建模的。這些GMM-HMM系統(tǒng)通常被訓(xùn)練以最大化生成訓(xùn)練數(shù)據(jù)中觀測到的特征的可能性。近來，各種辨析策略和大邊界（large margin)技術(shù)已經(jīng)被探究。然而，這些技術(shù)的潛力受到GMM發(fā)射分布模型的限制的約束。
[0005] 部分地被利用人類語音生成和感知系統(tǒng)中某些類似性質(zhì)的期望所激勵，對ASR的較新近的研究已經(jīng)探究了分層架構(gòu)來執(zhí)行語音識別。在這些研究中，對模型參數(shù)（與這些分層架構(gòu)中的突觸相對應(yīng)的權(quán)重和權(quán)重偏誤（weight bias))的學(xué)習(xí)已經(jīng)是最突出和困難的問題之一。與ASR研究中的發(fā)展并行，來自神經(jīng)網(wǎng)絡(luò)研究的學(xué)習(xí)方法中所取得的當(dāng)前進展已經(jīng)激起了對探究深度神經(jīng)網(wǎng)絡(luò)（DNN)的興趣。DNN是具有許多隱藏層的密集連接的有向信念網(wǎng)絡(luò)。一般而言，DNN可被認(rèn)為是具有多層隱藏單元和至少一層可見單元的高度復(fù) 雜的非線性特征提取器，其中隱藏單元的每一層被學(xué)習(xí)來表示捕捉原始輸入數(shù)據(jù)中的高階相關(guān)的特征。
[0006] 傳統(tǒng)上，利用DNN的ASR系統(tǒng)被訓(xùn)練成與說話者/通道無關(guān)的。換言之，DNN的參數(shù)（例如，權(quán)重和權(quán)重偏誤）不是關(guān)于特定說話者和/或通道來學(xué)習(xí)的。這出于至少兩個理由：首先，經(jīng)常難以獲得足夠的訓(xùn)練數(shù)據(jù)量來穩(wěn)健地學(xué)習(xí)針對某一說話者和/或通道的參數(shù)，因為大多數(shù)用戶不期望花費大量時間來提供有標(biāo)記的話語來訓(xùn)練ASR系統(tǒng)。而且，由于更寬且更深的隱藏層，DNN通常具有多得多的參數(shù)，并且還具有被設(shè)計成直接對senone 建模的大得多的輸出層。這使得適配結(jié)合語音識別利用的DNN成為相對困難的任務(wù)。
[0007] 施述
[0008] 以下是在本文更詳細(xì)描述的主題的簡要概述。本概述不旨在成為關(guān)于權(quán)利要求的范圍的限制。
[0009] 本文描述了與適配（adapt)在識別系統(tǒng)中采用的深度神經(jīng)網(wǎng)絡(luò)（DNN)的至少一個參數(shù)有關(guān)的各種技術(shù)，其中所述適配是針對特定用戶或上下文進行的。在一示例性實施例中，DNN可在自動語音識別（ASR)系統(tǒng)中被用作上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型 (CD-DNN-HMM)系統(tǒng)的一部分。計算設(shè)備（諸如移動電話、汽車中的計算設(shè)備、呼叫中心中的計算設(shè)備、游戲控制臺、服務(wù)器等）可包括ASR系統(tǒng)，該ASR系統(tǒng)包括已經(jīng)利用來自多個不同用戶的訓(xùn)練數(shù)據(jù)訓(xùn)練過的與說話者無關(guān)的（SI) CD-DNN-HMM系統(tǒng)。為了針對特定用戶或上下文（例如，特定移動電話）改進CD-DNN-HMM系統(tǒng)的識別能力，可能期望將該DNN適配到該特定用戶或上下文。此處描述的技術(shù)可被用來執(zhí)行這種適配而不需要用戶提出大量的訓(xùn)練數(shù)據(jù)。
[0010] 在ASR的上下文中，DNN被配置成直接對上下文相關(guān)單元（context dependent unit)建模，所述上下文相關(guān)單元在本文被稱為Senonec3Senone可以是三音素（triphone)、五音素（quinphone)等等。如上所述，可利用與多個不同用戶相對應(yīng)的訓(xùn)練數(shù)據(jù)來訓(xùn)練SI ASR系統(tǒng)中的DNN。當(dāng)某一特定用戶提出期望通過利用包括DNN的ASR系統(tǒng)解碼的某一語音話語時，該語音話語被劃分成多個幀，并且針對某一個體幀的DNN的輸出是在該DNN所建模的senone上的概率分布。
[0011] 為了避免在為該特定用戶適配該DNN時對用于該特定用戶的訓(xùn)練數(shù)據(jù)（例如，所捕捉的該用戶的話語，經(jīng)常被稱為適配數(shù)據(jù)）的過擬合，這種適配可以按照保守方式進行，使得未適配的DNN和已適配的DNN (具有使用適配數(shù)據(jù)適配的參數(shù)的所得DNN)之間的輸出偏差受到約束。在一示例性實施例中，這可以通過在執(zhí)行適配時正規(guī)化（regularize)成本函數(shù)來實現(xiàn)，然而也可以采用其他方法來使適配被保守地進行。例如，在一示例性實施例中，可將Kullback-Leibler散度（KLD)正規(guī)化約束添加到適配準(zhǔn)則。因此，由已適配的DNN 所估計的多個幀上的senone分布被迫使相對接近由未適配的DNN所估計的senone分布。
[0012] 以上概述呈現(xiàn)了簡化概述，以提供對本文討論的系統(tǒng)和/或方法的一些方面的基本理解。本概述并不是對此處所討論的系統(tǒng)和/或方法的全面綜述。它并不旨在標(biāo)識關(guān)鍵 /重要元素，也不描繪這樣的系統(tǒng)和/或方法的范圍。其唯一目的是以簡化形式呈現(xiàn)一些概念，作為稍后呈現(xiàn)的更詳細(xì)實施例的序言。
[0013] 附圖簡述
[0014] 圖1是包括識別系統(tǒng)的一示例性計算設(shè)備的功能框圖，該識別系統(tǒng)包括DNN，其中所述DNN能適配到特定用戶和/或上下文。
[0015] 圖2例示出一示例性深度神經(jīng)網(wǎng)絡(luò)。
[0016] 圖3是一示例性系統(tǒng)的功能框圖，該示例性系統(tǒng)便于將識別系統(tǒng)的DNN適配到特定用戶。
[0017] 圖4是例示出用于基于所觀測到的輸入數(shù)據(jù)保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)的一種示例性方法的流程圖。
[0018] 圖5是例示出用于基于與正規(guī)化成本函數(shù)結(jié)合利用的正規(guī)化權(quán)重來適配DNN的參數(shù)的一種示例性方法的流程圖。
[0019] 圖6是一示例性計算系統(tǒng)。
[0020] 詳細(xì)描沐
[0021] 現(xiàn)在參考附圖描述涉及保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)來針對特定用戶或上下文定制這種深度神經(jīng)網(wǎng)絡(luò)的各種技術(shù)，其中在全部附圖中，相同的附圖標(biāo)記用于指代相同的元素。在以下描述中，為解釋起見，闡明了眾多具體細(xì)節(jié)以提供對一個或多個方面的全面理解。然而，顯然這（些）方面可以在沒有這些具體細(xì)節(jié)的情況下實施。在其他實例中，以框圖形式示出公知的結(jié)構(gòu)和設(shè)備以便于描述一個或多個方面。另外，要理解，被描述為由特定系統(tǒng)組件執(zhí)行的功能可由多個組件執(zhí)行。類似地，例如，一組件可被配置成執(zhí)行被描述為由多個組件執(zhí)行的功能。
[0022] 此外，術(shù)語"或"意指包括性"或"而非排斥性"或"。即，除非另有指定或從上下文可以清楚，否則短語"X采用A或B"意指任何自然的包括性排列。即，術(shù)語"X采用A或B" 被以下實例中的任一個滿足：X米用A ;X米用B ;或X米用A和B兩者。另外，本申請和所附權(quán)利要求書中所使用的冠詞"一"和"一種"一般應(yīng)被解釋為是指"一個或多個"，除非另有指定或從上下文可以清楚指的是單數(shù)形式。
[0023] 此外，如本文所使用的，術(shù)語"組件"和"系統(tǒng)"旨在包含配置有使得在被處理器執(zhí) 行時某一功能被執(zhí)行的計算機可執(zhí)行指令的計算機可讀數(shù)據(jù)存儲。計算機可執(zhí)行指令可包括例程、功能等等。還要理解組件或系統(tǒng)可以位于單個設(shè)備上或分布在若干設(shè)備之間。而且，如此處所使用的，術(shù)語"示例性"旨在表示用作某些事物的例示或示例，而不意圖指示優(yōu) 選。
[0024] 現(xiàn)在參考圖1，例示出一示例性計算設(shè)備100,該示例性計算設(shè)備包括識別系統(tǒng) 102,該識別系統(tǒng)可識別計算設(shè)備100的用戶104所提出的輸入。計算設(shè)備100可以是客戶端計算設(shè)備，諸如移動電話、游戲控制臺、臺式計算機、膝上型計算機、平板計算設(shè)備（板式計算設(shè)備）、汽車中的計算設(shè)備等。在另一示例中，計算設(shè)備100可以是由用戶104通過利用計算設(shè)備或電話遠(yuǎn)程訪問的計算設(shè)備，諸如包括在位于用戶104的遠(yuǎn)程的客戶服務(wù)中心中的計算設(shè)備。
[0025] 識別系統(tǒng)102可以是能識別用戶輸入的任何適當(dāng)?shù)淖R別系統(tǒng)。例如，識別系統(tǒng)102 可以是用于識別用戶104所提出的姿勢的系統(tǒng)、用于識別用戶104所提出的手寫中的字符的系統(tǒng)、能夠解碼用戶104所提出的話語中的詞的自動語音識別（ASR)系統(tǒng)等。出于解釋目的，本文中識別系統(tǒng)102將被描述為ASR系統(tǒng)。然而，要理解，識別系統(tǒng)102可以是前面提到的識別系統(tǒng)類型中的任何類型，用于適配此處關(guān)于ASR系統(tǒng)描述的模型參數(shù)的適配技術(shù)能在這些其他類型的識別系統(tǒng)中被使用。
[0026] 在一示例性實施例中，識別系統(tǒng)102可包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型（⑶-DNN-HMM)。⑶-DNN-HMM包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)（在本文中將被稱為深度神經(jīng)網(wǎng)絡(luò)（DNN) 106)和隱馬爾可夫模型108 (HMM)。DNN106是具有多個層110的多層感知器。多個層110包括接收輸入觀測的輸入層（有時被稱為觀測層），其中所述觀測通過若干（例如，9到13個）幀聲學(xué)特征被提供給

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·俞;姚開盛;蘇航;李鋼;F·塞德;
技術(shù)所有人：微軟技術(shù)許可有限責(zé)任公司;
我是此專利的發(fā)明人

上一篇：用于提供聯(lián)系人相關(guān)信息項的裝置和方法
上一篇：神經(jīng)網(wǎng)絡(luò)及編程方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

dnn深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

深度神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在識別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法