專利名稱:用于增強話音識別準確度的有地理標記的環(huán)境音頻的制作方法
技術領域:
本說明書涉及話音識別。
背景技術:
如在本說明書中所用,“搜索查詢”包括當用戶請求搜索引擎執(zhí)行搜索查詢時用戶向搜索引擎提交的一個或者多個查詢檢索詞,其中“檢索詞”或者“查詢檢索詞”包括一個 或者多個完全或者部分字詞、字符或者字符串。搜索查詢的“結(jié)果”(或者“搜索結(jié)果”)包括統(tǒng)一資源定位符(URI)以及其它內(nèi)容,該URI引用搜索引擎確定響應于搜索查詢的資源。搜索結(jié)果可以包括其它事物、比如標題、預覽圖像、用戶評分、地圖或者方向、對應資源的描述或者已經(jīng)從對應資源自動或者人工提取的或者以別的方式與對應資源關聯(lián)的文字摘錄。在其它方式之中,用戶可以通過在鍵盤上鍵入或者在話音查詢的上下文中通過向移動設備的麥克風中口述查詢來錄入搜索查詢的查詢檢索詞。當提交語音查詢時,移動設備的麥克風除了用戶的口述話語之外還可能記錄環(huán)境噪聲或者聲音或者“環(huán)境音頻”。例如,環(huán)境音頻可以包括處于用戶周圍的其他人的背景聊天或者談話或者自然(例如,狗吠)或者人造物體(例如,辦公室、機場或者公路噪聲或者建筑活動)生成的噪聲。環(huán)境音頻可能部分地遮蔽用戶的語音從而使得自動化話音識別(“ASR”)引擎難以準確識別口述話語。
發(fā)明內(nèi)容
一般而言,可以在用于ASR引擎為地理區(qū)域適配、訓練、選擇或者另外生成噪聲模型并且用于將這一噪聲模型應用于從位于這一地理區(qū)域中或者附近的移動設備接收的“有地理標記的”音頻信號(或者“采樣”或者“波形”)的方法中體現(xiàn)本說明書中描述的主題內(nèi)容的一個創(chuàng)新方面。如本說明書所用,“有地理標記的”音頻信號指代已經(jīng)與地理位置元數(shù)據(jù)或者地理空間元數(shù)據(jù)關聯(lián)或者用地理位置元數(shù)據(jù)或者地理空間元數(shù)據(jù)“標記”的信號。位置元數(shù)據(jù)可以包括導航坐標如緯度和經(jīng)度、海拔信息、方位或者指向信息或者與位置相關聯(lián)的名稱或者地址以及其它內(nèi)容。更具體而言,方法包括接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的首頻/[目號;存儲有地理標記的首頻/[目號;以及使用有地理標記的首頻信號的所選子集來針對特定地理區(qū)域生成噪聲模型。在接收移動設備在特定地理區(qū)域內(nèi)或者附近記錄的話語時,ASR引擎可以使用針對特定地理區(qū)域生成的噪聲模型來對音頻信號執(zhí)行噪聲補償,并且可以對噪聲補償?shù)囊纛l信號執(zhí)行話音識別。注意,可以在接收話語之前、期間或者之后生成用于特定地理區(qū)域的噪聲模型。
一般而言,可以在包括以下動作的方法中體現(xiàn)本說明書中描述的主題內(nèi)容的另一創(chuàng)新方面接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的音頻信號;接收與由特定移動設備記錄的話語對應的音頻信號;確定與特定移動設備相關聯(lián)的特定地理位置;使用有地理標記的音頻信號的子集來針對特定地理位置生成噪聲模型,其中使用已經(jīng)針對特定地理位置生成的噪聲模型來對與話語對應的音頻信號執(zhí)行噪聲補
\-ZX O這些方面的其它實施例包括被配置成執(zhí)行方法的動作的對應系統(tǒng)、裝置和計算機程序,所述計算機程序編碼在計算機存儲設備上。這些和其它實施例可以各自可選地包括以下特征中的一個或者多個特征。在各種示例中,使用噪聲補償?shù)囊纛l信號來對話語執(zhí)行話音識別;生成噪聲模型還包括在接收與話語對應的音頻信號之前生成噪聲模型;生成噪聲模型還包括在接收與話語對應的音頻信號之后生成噪聲模型;為每個有地理標記的音頻信號,確定在特定地理位置和與有地理標記的音頻信號相關聯(lián)的地理位置之間的距離,以及選擇與在特定地理位置的預定距離內(nèi)的 地理位置相關聯(lián)、或者與在N個與特定地理位置最近的地理位置之中的地理位置相關聯(lián)的有地理標記的音頻信號作為有地理標記的音頻信號的子集;選擇與特定地理位置相關聯(lián)的有地理標記的音頻信號作為有地理標記的音頻信號的子集;基于特定地理位置、并且基于與話語關聯(lián)的上下文數(shù)據(jù)選擇有地理標記的音頻信號的子集;上下文數(shù)據(jù)包括引用移動設備何時記錄話語時的時間或者日期的數(shù)據(jù)、引用特定移動設備在記錄話語時測量的速度或者運動量的數(shù)據(jù)、引用移動設備的設置的數(shù)據(jù)、或者引用移動設備的類型的數(shù)據(jù);話語代表語音搜索查詢,或者向數(shù)字口授應用或者對話系統(tǒng)的輸入;確定特定地理位置還包括從移動設備接收引用特定地理位置的數(shù)據(jù);確定特定地理位置還包括確定與設備相關聯(lián)的以往地理位置或者默認地理位置;生成噪聲模型包括使用有地理標記的音頻信號的子集作為訓練集來訓練高斯混合模型(GMM);生成話語的一個或者多個候選轉(zhuǎn)錄,使用一個或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢;處理接收的有地理標記的音頻信號以排除環(huán)境音頻的、包括多個移動設備的用戶的語音的部分;從針對多個地理位置生成的多個噪聲模型之中選擇針對特定地理位置生成的噪聲模型;限定圍繞特定地理位置的區(qū)域,從多個噪聲模型之中選擇與區(qū)域內(nèi)的地理位置相關聯(lián)的多個噪聲模型,生成選擇的噪聲模型的加權組合,其中使用選擇的噪聲模型的加權組合來執(zhí)行噪聲補償;生成噪聲模型還包括使用有地理標記的音頻信號的子集以及使用音頻信號的與話語對應的環(huán)境音頻部分來為特定地理位置生成噪聲模型;以及/或者區(qū)域被限定為圍繞特定地理位置,以及選擇在區(qū)域內(nèi)記錄的有地理標記的音頻信號作為有地理標記的音頻信號的子集可以實現(xiàn)本說明書中描述的主題內(nèi)容的具體實施例以實現(xiàn)以下優(yōu)點中的一個或者多個優(yōu)點。ASR引擎可以提供音頻信號的更好噪聲抑制??梢蕴岣咴捯糇R別準確度??梢允褂铆h(huán)境音頻信號來生成噪聲模型,這些環(huán)境音頻信號準確反映地理區(qū)域中的實際環(huán)境噪聲??梢栽诜掌鱾?cè)而不是在客戶端設備上執(zhí)行話音識別和噪聲模型生成,以允許更好的過程優(yōu)化并且增加計算效率。在附圖和下文描述中闡述本說明書中描述的主題內(nèi)容的一個或者多個實施例的細節(jié)。主題內(nèi)容的其它潛在特征、方面和優(yōu)點將從說明書、附圖和權利要求中變得容易理解。
圖I是使用有地理標記的環(huán)境音頻以增強話音識別準確度的示例系統(tǒng)的圖。圖2是過程的示例的流程圖。圖3是過程的另一示例的流程圖。圖4是過程的示例的泳道(swim lane)圖。各種附圖中的相似標號指示相似要素。
具體實施例方式圖I是使用有地理標記的環(huán)境音頻以增強話音識別準確度的示例系統(tǒng)100的圖。圖I還圖示了在狀態(tài)(a)至狀態(tài)⑴期間在系統(tǒng)100內(nèi)的數(shù)據(jù)流以及在狀態(tài)⑴期間在移 動設備104上顯示的用戶接口 158。更具體而言,系統(tǒng)100包括通過一個或者多個網(wǎng)絡110與包括移動設備102和移動設備104的移動客戶端通信設備通信的服務器106和ASR引擎108。服務器106可以是搜索引擎、口授引擎、對話系統(tǒng)或者是使用轉(zhuǎn)錄的話音的任何其它引擎或者系統(tǒng)。網(wǎng)絡110可以包括無線蜂窩網(wǎng)絡、無線局域網(wǎng)(WLAN)或者Wi-Fi網(wǎng)絡、第三代(3G)或者第四代(4G)移動電信網(wǎng)絡、專用網(wǎng)絡(如內(nèi)聯(lián)網(wǎng))、公用網(wǎng)絡(如因特網(wǎng))或者其任何適當組合。狀態(tài)(a)至狀態(tài)⑴描繪了當系統(tǒng)100執(zhí)行示例過程時出現(xiàn)的數(shù)據(jù)流。狀態(tài)(a)至狀態(tài)(i)可以是時序狀態(tài),或者它們可以在與所圖示序列不同的序列中出現(xiàn)。簡言之,根據(jù)圖I中所示示例過程,ASR引擎108從移動設備102接收有地理標記的環(huán)境音頻信號130并且針對多個地理位置生成地理特有噪聲模型112。當接收與移動設備104記錄的話語對應的音頻信號138時,確定與移動設備104(或者移動設備104的用戶)相關聯(lián)的特定地理位置。ASR引擎108使用與特定地理位置匹配的或者以別的方式適合于特定地理位置的地理特有噪聲模型來轉(zhuǎn)錄話語,并且從ASR引擎108向服務器106傳達一個或者多個候選轉(zhuǎn)錄146。當服務器106是搜索引擎時,服務器106使用候選轉(zhuǎn)錄146來執(zhí)行一個或者多個搜索查詢、生成搜索結(jié)果152并且向移動設備104傳達搜索結(jié)果152用于顯示。更具體而言,在狀態(tài)(a)期間,移動設備102通過網(wǎng)絡110向ASR引擎108傳達包括環(huán)境音頻的有地理標記的音頻信號130(本說明書稱之為“環(huán)境音頻信號”)。一般而言,環(huán)境音頻可以包括(自然地或者以別的方式)出現(xiàn)于特定位置的任何環(huán)境聲音。環(huán)境音頻通常排除移動設備的用戶的聲音、話語或者語音。設備102a傳達已經(jīng)用引用“位置A”的元數(shù)據(jù)132a標記的音頻信號130a,設備102b傳達已經(jīng)用引用“位置B”的元數(shù)據(jù)132b標記的音頻信號130b,以及設備102c傳達已經(jīng)用也引用“位置B”的元數(shù)據(jù)132c標記的音頻信號130c。如圖所示,移動設備102可以將元數(shù)據(jù)132與音頻信號130進行關聯(lián),或者ASR引擎108或者另一服務器可以在推斷移動設備102的(或者移動設備102的用戶的)位置之后關聯(lián)元數(shù)據(jù)與音頻信號130。環(huán)境音頻信號130可以各自包括相對高質(zhì)量音頻(如十六千赫茲無損音頻信號)的兩秒(或者更多)摘錄。環(huán)境音頻信號130可以與元數(shù)據(jù)相關聯(lián),該元數(shù)據(jù)引用相應移動設備102在記錄、捕獲或者獲得環(huán)境音頻時的地理位置。
可以從移動設備102向ASR引擎108人工上傳環(huán)境音頻信號130。例如,可以與生成并且向公用圖像數(shù)據(jù)庫或者貯存庫傳達圖像結(jié)合生成并且傳達環(huán)境音頻信號130。備選地,對于選擇參與的用戶,可以自動獲得并且從移動設備102向ASR引擎108傳達環(huán)境音頻信號130而在向ASR引擎108傳達每個環(huán)境音頻信號之前不請求顯式用戶致動。元數(shù)據(jù)132可以用任何數(shù)目的不同格式或者細節(jié)或者粒度水平描述位置。例如,元數(shù)據(jù)132a可以包括與移動設備102a的當時存在位置相關聯(lián)的緯度和經(jīng)度,并且元數(shù)據(jù)132c可以包括與移動設備102c的當時存在位置相關聯(lián)的地址或者地理區(qū)域。另外,由于將移動設備102b圖示為在移動的交通工具中,所以元數(shù)據(jù)132b可以描述交通工具的路徑(例如,包括起點和終點以及運動數(shù)據(jù))。此外,元數(shù)據(jù)132可以按照位置類型描述位置(例如,“移動交通工具”、“在海灘上”、“在餐館中”、“在高建筑物中”、“南亞”、“農(nóng)村區(qū)域”、“有建筑噪聲的某處”、“游樂園”、“在船艇上”、“室內(nèi)”、“地下”、“在街道上”、“森林”)。單個音頻信號可以與描述一個或者多個位置的元數(shù)據(jù)相關聯(lián)。與音頻信號138相關聯(lián)的地理位置可以代之以按照界定區(qū)域來描述、表達為限定界定區(qū)域的坐標集。備選的,可以使用區(qū)域標識符(比如,州名或者標識符、城市名、慣用名 (例如,“中央公園”)、國名或者任意限定的區(qū)域的標識符(例如“隔間/區(qū)域ABC 123”))來限定地理位置。在將位置與環(huán)境音頻信號進行關聯(lián)之前,移動設備102或者ASR引擎108可以處理元數(shù)據(jù)以調(diào)整位置信息的細節(jié)水平(例如,以確定與特定坐標集相關聯(lián)的州),或者可以離散化位置信息(例如通過選擇沿著路徑的具體點或者與路徑相關聯(lián)的區(qū)域)。也可以通過指定或者添加位置型元數(shù)據(jù)、例如通過向其的關聯(lián)地理坐標與海灘位置相關聯(lián)的環(huán)境音頻信號添加“在海灘上”標記或者通過向包括在背景中交談的多個人的聲音的環(huán)境音頻信號添加“有許多人的某處”標記來調(diào)整元數(shù)據(jù)的細節(jié)水平。在狀態(tài)(b)期間,ASR引擎108從移動設備102接收有地理標記的環(huán)境音頻信號130,并且在數(shù)據(jù)存儲庫111中在環(huán)境音頻信號的匯集114中存儲有地理標記的音頻信號(或者其部分)。如下文描述的那樣,匯集用于訓練、適配或者生成一個或者多個地理位置特有(或者“地理特有”)噪聲模型112。由于匯集114中的環(huán)境音頻信號不應包括用戶的語音,所以ASR引擎108可以使用語音活動檢測器以驗證環(huán)境音頻信號的匯集114僅包括與環(huán)境噪聲對應的音頻信號130或者濾除或者標識或者排除音頻信號130 (或者音頻信號130的部分),這些音頻信號包括移動設備102的各種用戶的語音。ASR引擎108存儲的環(huán)境音頻信號的匯集114可以包括數(shù)以百計、數(shù)以千計、數(shù)以百萬計或者數(shù)以千萬計的環(huán)境音頻信號。在所圖示示例中,有地理標記的環(huán)境音頻信號130a的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號124,有地理標記的環(huán)境音頻信號130b的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號126a,并且有地理標記的環(huán)境音頻信號130c的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號120b。在匯集中存儲環(huán)境音頻信號130可以包括確定用戶的語音是否在音頻信號130中被編碼,并且分別基于確定用戶的語音在音頻信號130中被或者未被編碼來確定存儲或者確定不存儲環(huán)境音頻信號130。備選地,在匯集中存儲環(huán)境音頻信號130可以包括標識環(huán)境音頻信號130的包括用戶的語音的部分、通過去除包括用戶的語音的部分或者通過關聯(lián)對包括用戶的語音的部分進行引用的元數(shù)據(jù)來變更環(huán)境音頻信號130并且在匯集中存儲變更的環(huán)境音頻信號130。與環(huán)境音頻信號130關聯(lián)的其它上下文數(shù)據(jù)或者元數(shù)據(jù)也可以存儲于匯集114中。例如,在匯集114中包括的環(huán)境音頻信號在一些實現(xiàn)中可以包括其它元數(shù)據(jù)標記、比如指示背景語音(例如,自助餐廳聊天)是否存在于環(huán)境音頻內(nèi)的標記、標識獲得特定環(huán)境音頻信號的日期的標記(例如,用來確定采樣年齡)或者標識特定環(huán)境音頻信號是否以某一方式從匯集的在相同或者相似位置獲得的其它環(huán)境音頻信號偏離的標記。以這一方式,可以可選地過濾環(huán)境音頻信號的匯集114以排除滿足或者未滿足特定標準的特定環(huán)境音頻信號、比如排除比某個年齡更老的或者包括背景聊天的特定環(huán)境音頻信號,該背景聊天可以標識個人或者本質(zhì)上為專有或者私密的。在附加示例中,可以在與環(huán)境音頻信號關聯(lián)的元數(shù)據(jù)中標記如下數(shù)據(jù),該數(shù)據(jù)引用匯集114的環(huán)境音頻信號是否被人工或者自動上傳。例如,可以僅使用自動上傳的或者人工上傳的那些環(huán)境音頻信號來生成噪聲模型112,或者可以在生成噪聲模型期間向每個 上傳類別分配不同加權。雖然已經(jīng)描述匯集114的環(huán)境音頻信號為包括標識相應地理位置的顯式標記,但是在其它實現(xiàn)中,比如當可以推導在音頻信號與地理位置之間的關聯(lián)性時,無需顯式使用標記。例如,可以通過處理(例如用服務器106存儲的)搜索日志來隱式關聯(lián)地理位置與環(huán)境音頻信號以確定用于特定環(huán)境音頻信號的地理位置信息。因而ASR引擎108接收有地理標記的環(huán)境音頻信號可以包括獲得未明確包括地理標記的環(huán)境音頻信號,并且推導和關聯(lián)用于環(huán)境音頻信號的一個或者多個地理標記。在狀態(tài)(c)期間,通過網(wǎng)絡110從移動設備104向ASR引擎108傳達音頻信號138。雖然圖示了移動設備102為與移動設備104不同的設備,但是在其它實現(xiàn)中,從提供有地理標記的環(huán)境音頻信號130的移動設備104之一傳達音頻信號138。音頻信號138包括移動設備104 (例如,當用戶隱式或者顯式發(fā)起語音搜索查詢時)記錄的話語140( “紐約體育館”)。音頻信號138包括引用地理位置“位置B”的元數(shù)據(jù)139。除了包括話語140之外,音頻信號138還可以包括環(huán)境音頻摘錄、比如在口述話語140之前或者之后記錄的環(huán)境音頻的兩秒摘錄。盡管如在圖I中所示將話語140描述為語音查詢,但是在其它示例實現(xiàn)中,話語可以是向口授系統(tǒng)或者向?qū)υ捪到y(tǒng)輸入的語音??梢允褂门c匯集114中包括的環(huán)境音頻信號相關聯(lián)的地理位置相同或者不同的細節(jié)水平來限定與音頻信號138相關聯(lián)的地理位置(“位置B”)。例如,與匯集114中包括的環(huán)境音頻信號相關聯(lián)的地理位置可以對應于地理區(qū)域,而與音頻信號138相關聯(lián)的地理位置可以對應于特定地理坐標。當細節(jié)水平不同時,ASR引擎108可以處理地理元數(shù)據(jù)139或者與匯集114的環(huán)境音頻信號相關聯(lián)的元數(shù)據(jù)以對準細節(jié)水平,從而可以執(zhí)行子集選擇過程。移動設備104(或者移動設備104的用戶)可以基于當記錄話語140時當前的位置信息將元數(shù)據(jù)139與音頻信號138相關聯(lián),并且可以從移動設備104將元數(shù)據(jù)139與音頻信號138—起向ASR引擎108傳達。備選地,ASR引擎108可以基于ASR引擎108推斷的用于移動設備104(或者移動設備104的用戶)的地理位置將元數(shù)據(jù)與音頻信號138相關聯(lián)。
ASR引擎108可以使用用戶的日歷時間表、用戶偏好(例如,如存儲于ASR引擎108或者服務器106的用戶賬戶中或者如從移動設備104傳達)、默認位置、以往位置(例如,移動設備104的GPS模塊計算的最新位置)、用戶在提交語音搜索查詢時顯式提供的信息、根據(jù)話語104本身、三角測量(例如,WiFi或者小區(qū)塔三角測量)、移動設備104中的GPS模塊或者推算定位(dead reckoning)來推斷地理位置。元數(shù)據(jù)139可以包括準確度信息,該信息指定地理位置確定的準確度,從而表示移動設備104在記錄話語140時的時間實際上在元數(shù)據(jù)139指定的特定地理位置的可能性。還可以與音頻信號138 —起包括其它元數(shù)據(jù)。例如,與音頻信號一起包括的元數(shù)據(jù)可以包括與相應移動設備102相關聯(lián)的位置或者場所。例如,場所信息可以描述其中注冊移動設備102的區(qū)域或者移動設備102的用戶的語言或者方言以及其它可選參數(shù)。話音識別模塊118可以使用這一信息以選擇、訓練、適配或者生成與移動設備104的上下文匹配的噪聲、話音、聲學、流行度或者其它模型。在狀態(tài)⑷中,ASR引擎108選擇匯集114中的環(huán)境音頻信號的子集并且使用噪 聲模型生成模塊116以使用環(huán)境音頻信號的子集、例如通過使用環(huán)境音頻信號的子集作為用于噪聲模型的訓練集來訓練、適配或者生成一個或者多個噪聲模型112(例如高斯混合模型(GMM))。子集可以包括匯集114中的環(huán)境音頻信號中的所有或者比所有更少的環(huán)境音
頻信號。一般而言,噪聲模型112與話音模型、聲學模型、流行度模型和/或其它模型一起應用于音頻信號138以將口述話語140轉(zhuǎn)譯或者轉(zhuǎn)錄成一個或者多個文字后續(xù)轉(zhuǎn)錄146,并且向候選轉(zhuǎn)錄生成話音識別置信度分數(shù)。具體地,噪聲模型用于噪聲抑制或者噪聲補償以增強口述話語140對于ASR引擎108的可理解性。更具體而言,噪聲模型生成模塊116可以使用音頻信號、具體針對在被地理標記為已經(jīng)在與音頻信號138關聯(lián)的地理位置(“位置B”)或者附近或者在相同或者相似類型的位置記錄的環(huán)境音頻信號126a和126b的匯集114來為該地理位置生成噪聲模型120b。由于音頻信號138與這一地理位置(“位置B”)相關聯(lián),所以除了環(huán)境音頻信號126a和126b之外或者替代地,在音頻信號138本身中包括的環(huán)境音頻也可以用來針對該地理位置生成噪聲模型。類似地,噪聲模型生成模塊116可以使用被地理標記為已經(jīng)在另一地理位置(“位置A”)或者附近在相同或者相似類型的位置記錄的環(huán)境音頻信號124來為該另一地理位置生成噪聲模型120a。如果噪聲模型生成模塊116被配置成選擇被地理標記為已經(jīng)在與音頻信號138相關聯(lián)的地理位置附近記錄的環(huán)境音頻信號,并且如果“位置A”在“位置B”附近,則噪聲模型生成模塊116還可以使用環(huán)境音頻信號124來為“位置B”生成噪聲模型120b。除了有地理標記的位置之外,與匯集114的環(huán)境音頻信號相關聯(lián)的其它上下文數(shù)據(jù)還可以用來選擇環(huán)境音頻信號的子集以用于生成噪聲模型112或者調(diào)整特定音頻信號將對生成具有的權值或者影響。例如,ASR引擎108可以選擇匯集114中的環(huán)境音頻信號的子集,該子集的環(huán)境音頻信號的上下文信息指示它們比預定時間段更長或者更短或者它們滿足某個質(zhì)量或者近因標準。另外,ASR引擎108可以選擇匯集114中的如下環(huán)境音頻信號作為子集,這些環(huán)境音頻信號的上下文信息指示它們是使用具有與移動設備104相似的音頻子系統(tǒng)的移動設備來記錄的。
可以用來從匯集114選擇環(huán)境音頻信號的子集的其它上下文數(shù)據(jù)在一些示例中可以包括時間信息、日期信息、對特定移動設備在記錄期間測量的速度或者運動量進行引用的數(shù)據(jù)、其它設備傳感器數(shù)據(jù)、設備狀態(tài)數(shù)據(jù)(例如,藍牙耳機、揚聲器電話或者傳統(tǒng)輸入方法)、如果用戶選擇提供用戶標識符則包括標識符或者標識移動設備類型或者機型的信息。上下文數(shù)據(jù)例如可以提供在音頻信號138的記錄周圍的條件的指示。在一個示例中,移動設備104與音頻信號138 —起供應的上下文數(shù)據(jù)可以指示移動設備104沿著與高速公路相關聯(lián)的路徑在高速公路速度行駛。ASR 108可以推斷音頻信號138被記錄在交通工具內(nèi),并且可以選擇匯集114中的環(huán)境音頻信號的與“在移動交通工具以內(nèi)”位置類型相關聯(lián)的子集。在另一示例中,移動設備104與音頻信號138 —起供應的上下文數(shù)據(jù)可以指示移動設備104在農(nóng)村區(qū)域中并且話語140記錄于周日上午6點?;谶@一上下文數(shù)據(jù),ASR 108可以推斷如果子集包括在高峰時段期間在農(nóng)村區(qū)域中記錄的環(huán)境音頻信號,則不會提高話音識別的準確度。因而上下文數(shù)據(jù)可以由噪聲模型生成模塊116用來在生成噪聲模型112時過濾環(huán)境音頻信號的匯集114或者由話音識別模塊118用來為特定話語選擇適當噪聲模型112。 在一些實現(xiàn)中,噪聲模型生成模塊116可以基于與音頻信號關聯(lián)的地理位置鄰近于與音頻信號138關聯(lián)的地理位置來選擇匯集114的環(huán)境音頻信號的加權組合。噪聲模型生成模塊116還可以使用音頻信號138本身中包括的環(huán)境音頻(例如,在口述話語之前或者之后或者在話語之間的停頓期間記錄的環(huán)境音頻)來生成噪聲模型112。例如,噪聲模型生成模塊116可以首先相對于音頻信號138中包括的環(huán)境音頻的質(zhì)量確定存儲于匯集114中的環(huán)境音頻信號的質(zhì)量,并且可以選擇僅使用存儲于匯集114中的音頻信號、僅使用音頻信號138中包括的環(huán)境音頻或者其任何適當加權或者未加權組合來生成噪聲模型。例如,噪聲模型生成模塊116可以確定音頻信號138包括非大量環(huán)境音頻或者在匯集114中為該特定地理位置存儲高質(zhì)量環(huán)境音頻,并且可以選擇生成噪聲模型而未使用音頻信號138中包括的環(huán)境音頻(或者向該環(huán)境音頻給予小權值)。在一些實現(xiàn)中,噪聲模型生成模塊116從匯集114選擇與N(例如,五、二十或者五十)個地理位置相關聯(lián)的環(huán)境音頻信號作為子集,這些地理位置最接近于與音頻信號138相關聯(lián)的地理位置。當與音頻信號138相關聯(lián)的地理位置時描述點或者地點(例如,坐標)時,可以相對于該地理位置限定幾何形狀(例如,圓形或者方形),并且噪聲模型生成模塊116可以從匯集114選擇與完全或者部分位于限定的地理形狀內(nèi)的地理區(qū)域相關聯(lián)的音頻信號作為子集。如果已經(jīng)按照位置類型(例如,“在海灘上”、“城市”)限定與音頻信號138相關聯(lián)的地理位置,則ASR引擎108仍然可以選擇與相同或者相似位置類型關聯(lián)的環(huán)境音頻信號,即使與所選音頻信號關聯(lián)的物理地理位置在物理上未在與音頻信號138關聯(lián)的地理位置附近。例如,可以用“在海灘上”元數(shù)據(jù)為在佛羅里達海灘上記錄的音頻信號標記噪聲模型,并且噪聲模型生成模塊116可以從匯集114選擇如下環(huán)境音頻信號作為子集,這些環(huán)境音頻信號的相關聯(lián)元數(shù)據(jù)指示它們也記錄于海灘上,盡管事實是它們記錄于澳大利亞、夏威夷或者冰島的海灘上。如果與音頻信號138相關聯(lián)的地理位置未匹配于與匯集114的任何環(huán)境音頻信號相關聯(lián)的任何物理地理位置(或者沒有與該任何物理地理位置的高質(zhì)量匹配),則噪聲模型生成模塊116可以恢復基于匹配位置類型、而不是匹配實際物理地理位置來選擇子集。其它匹配過程如集群(clusting)算法可以用來匹配音頻信號與環(huán)境音頻信號。除了生成一般的地理特有噪聲模型112之外,噪聲模型生成模塊116還可以生成以其它標準為目標或者其它標準特有的地理特有噪聲模型、比如不同設備類型或者一天不同時間特有的地理特有噪聲模型。可以基于檢測到已經(jīng)滿足閾值標準、比如確定匯集114的閾值數(shù)目的環(huán)境音頻信號引用相同地理位置并且共享另一相同或者相似上下文(例如,一天中的某個時間、一周中的某天、運動特性、設備類型等)來生成作為目標的子模型??梢栽谝呀?jīng)接收話語140之前、期間或者之后生成噪聲模型112。例如可以與處理話語140并行處理來自與話語相同或者相似的位置的多個環(huán)境音頻信號,并且這些環(huán)境音頻信號可以用來實時或者接近實時生成噪聲模型112以更好地逼近圍繞移動設備104的實況噪聲條件。在狀態(tài)(e)中,ASR引擎108的話音識別模塊118使用用于與音頻信號138相關·聯(lián)的地理位置的地理特有噪聲模型120b來對音頻信號138執(zhí)行噪聲補償以增強話音識別的準確度,并且隨后對噪聲補償?shù)囊纛l信號執(zhí)行話音識別。當音頻信號138包括描述移動設備104的設備類型的元數(shù)據(jù)時,ASR引擎108可以應用與音頻信號關聯(lián)的地理位置和移動設備104的設備類型二者特有的噪聲模型122。話音識別模塊118可以生成與在音頻信號138中編碼的話語匹配的一個或者多個候選轉(zhuǎn)錄和用于候選轉(zhuǎn)錄的話音識別置信度值。在狀態(tài)(f)期間,從ASR引擎108向服務器106傳達話音識別模塊118生成的候選轉(zhuǎn)錄146中的一個或者多個候選轉(zhuǎn)錄。當服務器106是搜索引擎時,可以使用候選轉(zhuǎn)錄作為候選查詢檢索詞以執(zhí)行一個或者多個搜索查詢。ASR引擎108可以在向服務器106發(fā)送候選轉(zhuǎn)錄146之前按照它們的相應話音識別置信度分數(shù)對它們排序。通過轉(zhuǎn)錄口述話語并且向服務器106提供候選轉(zhuǎn)錄,ASR引擎108可以向移動設備104提供話音搜索查詢能力、口授能力或者對話系統(tǒng)能力。服務器106可以使用候選查詢檢索詞來執(zhí)行一個或者多個搜索查詢、生成引用搜索結(jié)果160的文件152。服務器106在一些示例中可以包括用來在因特網(wǎng)內(nèi)發(fā)現(xiàn)引用的網(wǎng)上搜索引擎、用來發(fā)現(xiàn)企業(yè)或者個人的電話簿型搜索引擎或者另一專門化搜索引擎(例如,提供對諸如餐館和電影娛樂信息、醫(yī)療和藥品信息等娛樂清單的引用的搜索引擎)。在狀態(tài)(h)期間,服務器106向移動設備104提供引用搜索結(jié)果160的文件152。文件152可以是標記語言文件、比如可擴展標記語言(XML)或者超文本標記語言(HTML)文件。在狀態(tài)⑴期間,移動設備104在用戶接口 158上顯示搜索結(jié)果160。具體而言,用戶接口包括搜索框157,其顯示具有最高話音識別置信度分數(shù)的候選查詢檢索詞(“紐約體育館”);備選查詢檢索詞建議區(qū)域159,其顯示話語140可能已經(jīng)預計的候選查詢檢索詞的另一替代(“Jim Newark”);搜索結(jié)果160a,其包括指向用于“紐約健身房” 160a的資源的鏈接;以及搜索結(jié)果160b,其包括指向用于“曼哈頓塑體”160b的鏈接。搜索結(jié)果160a還可以包括在被選擇時可以由移動設備104撥號的電話號碼的鏈接。圖2是過程200的示例的流程圖。簡言之,過程200包括接收一個或者多個有地理標記的環(huán)境音頻信號、接收與地理位置相關聯(lián)的話語并且至少部分基于地理位置生成噪聲模型??梢詫σ纛l信號執(zhí)行噪聲補償,因為噪聲模型促使提高話音識別準確度。
更具體而言,當過程200開始時,接收與環(huán)境音頻對應的有地理標記的音頻信號(202)。移動設備可以在特定地理位置記錄有地理標記的音頻信號。有地理標記的音頻信號可以包括關聯(lián)上下文數(shù)據(jù)、諸如在記錄有地理標記的音頻信號期間測量的時間、日期、速度或者運動量,或者記錄有地理標記的音頻信號的設備類型??梢蕴幚斫邮盏挠械乩順擞浀囊纛l信號以排除環(huán)境音頻的如下部分,這些部分包括移動設備的用戶的語音??梢越邮詹⑶掖鎯υ谝粋€或者多個地理位置記錄的多個有地理標記的音頻信號。接收特定移動設備記錄的話語(204)。話語可以包括語音搜索查詢或者可以是向口授或者對話應用或者系統(tǒng)的輸入。話語可以包括關聯(lián)上下文數(shù)據(jù),諸如在記錄有地理標記的音頻信號期間測量的時間、日期、速度或者運動量,或者記錄有地理標記的音頻信號的設備類型。確定與移動設備相關聯(lián)的特定地理位置(206)。例如,可以從移動設備接收引用特定地理位置的數(shù)據(jù),或者可以確定與移動設備相關聯(lián)的以往地理位置或者默認地理位置。使用有地理標記的音頻信號的子集來針對特定地理位置生成噪聲模型(208)。可 以通過為每個有地理標記的音頻信號確定在特定地理位置和與有地理標記的音頻信號相關聯(lián)的地理位置之間的距離;以及選擇在特定地理位置的預定距離內(nèi)的或者與在N個與特定地理位置最近的地理位置之中的地理位置相關聯(lián)的那些有地理標記的音頻信號來選擇有地理標記的音頻信號的子集。可以通過標識與特定地理位置相關聯(lián)的有地理標記的音頻信號,以及/或者通過標識在聲學上與話語相似的有地理標記的音頻信號來選擇有地理標記的音頻信號的子集??梢曰谔囟ǖ乩砦恢貌⑶一谂c話語相關聯(lián)的上下文數(shù)據(jù)來選擇有地理標記的音頻信號的子集。生成噪聲模型可以包括使用有地理標記的音頻信號的子集作為訓練集來訓練GMM。一些噪聲減少或者分離算法如非負矩陣因式分解(NMF)可以使用特征矢量本身而不是高斯分量代表的平均值。其它算法如Alqonquin可以在有人為變化時使用GMM或者特征矢量本身。使用已經(jīng)針對特定地理位置生成的噪聲模型對與話語對應的音頻信號執(zhí)行噪聲補償以增強音頻信號或者減少話語由于噪聲所致的不確定性(210)。對噪聲補償?shù)囊纛l信號執(zhí)行話音識別(212)。執(zhí)行話音識別可以包括生成話語的一個或者多個候選轉(zhuǎn)錄??梢允褂靡粋€或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢,或者可以提供候選轉(zhuǎn)錄中的一個或者多個候選轉(zhuǎn)錄作為數(shù)字口授應用的輸出。備選地,可以提供候選轉(zhuǎn)錄中的一個或者多個候選轉(zhuǎn)錄作為向?qū)υ捪到y(tǒng)的輸入以允許計算機系統(tǒng)與特定移動設備的用戶對話。圖3是過程300的示例的流程圖。簡言之,過程300包括采集有地理標記的音頻信號并且至少部分基于與每個有地理標記的音頻信號相關聯(lián)的特定地理位置生成多個噪聲模型??梢栽趯υ捳Z執(zhí)行話音識別時至少部分基于與話語相關聯(lián)的地理位置選擇這些噪聲模型中的一個或者多個噪聲模型。更具體而言,當過程300開始時,接收與環(huán)境音頻對應的有地理標記的音頻信號(302)。移動設備可以在特定地理位置記錄有地理標記的音頻信號。可以處理接收的有地理標記的音頻信號以排除環(huán)境音頻的如下部分,這些部分包括移動設備的用戶的語音??梢越邮詹⑶掖鎯υ谝粋€或者多個地理位置記錄的多個有地理標記的音頻信號??蛇x地,接收與有地理標記的音頻信號關聯(lián)的上下文數(shù)據(jù)(304)。有地理標記的音頻信號可以包括關聯(lián)上下文數(shù)據(jù)、諸如在記錄有地理標記的音頻信號期間測量的時間、日期、速度或者運動量或者記錄有地理標記的音頻信號的設備類型。生成一個或者多個噪聲模型(306)??梢允褂糜械乩順擞浀囊纛l信號的子集來針對特定地理位置,或者可選地針對位置類型生成每個噪聲模型。可以通過為每個有地理標記的音頻信號確定在特定地理位置和與有地理標記的音頻信號相關聯(lián)的地理位置之間的距離,并且選擇在特定地理位置的預定距離內(nèi)的、或者與在N個與特定地理位置最近的地理位置之中的地理位置相關聯(lián)的那些有地理標記的音頻信號來選擇有地理標記的音頻信號的子集??梢酝ㄟ^標識與特定地理位置相關聯(lián)的有地理標記的音頻信號來選擇有地理標記的音頻信號的子集??梢曰谔囟ǖ乩砦恢貌⑶一谂c有地理標記的音頻信號相關聯(lián)的上下文數(shù)據(jù)選擇有地理標記的音頻信號的子集。生成噪聲模型可以包括使用有地理標記的音頻信號的子集來訓練高斯混合模型(GMM)。接收特定移動設備記錄的話語(308)。話語可以包括語音搜索查詢。話語可以包括關聯(lián)上下文數(shù)據(jù),諸如在記錄有地理標記的音頻信號期間測量的時間、日期、速度或者運動量,或者記錄有地理標記的音頻信號的設備類型。檢測地理位置(310)。例如,可以從移動設備的GPS模塊接收引用特定地理位置的數(shù)據(jù)。選擇噪聲模型(312)??梢詮尼槍Χ鄠€地理位置生成的多個噪聲模型之中選擇噪聲模型。上下文數(shù)據(jù)可以可選地促成從針對特定地理位置的多個噪聲模型之中選擇特定的噪聲模型。使用所選噪聲模型對話語執(zhí)行話音識別(314)。執(zhí)行話音識別可以包括生成話語的一個或者多個候選轉(zhuǎn)錄??梢允褂靡粋€或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢。圖4示出了用于使用有地理標記的環(huán)境音頻來增強話音識別準確度的過程400的示例的泳道圖。過程400可以由移動設備402、ASR引擎404和搜索引擎406來實現(xiàn)。移動設備402可以向ASR引擎404提供音頻信號、比如環(huán)境音頻信號或者與話語對應的音頻信號。雖然僅圖不了一個移動設備402,但是移動設備402可以代表向過程400貢獻環(huán)境音頻信號和語音查詢的大量移動設備402。ASR引擎404可以基于環(huán)境音頻信號生成噪聲模型,并且可以在執(zhí)行話音識別時將一個或者多個噪聲模型應用于傳入語音搜索查詢。ASR引擎404可以向搜索引擎406提供語音搜索查詢內(nèi)的話語的轉(zhuǎn)錄以完成語音搜索查詢請求。過程400始于移動設備402向ASR引擎404提供408有地理標記的音頻信號。音頻信號可以包括環(huán)境音頻以及關于記錄環(huán)境音頻的位置的指示??蛇x地,有地理標記的音頻信號可以包括例如形式為元數(shù)據(jù)的上下文數(shù)據(jù)。ASR引擎404可以在環(huán)境音頻數(shù)據(jù)存儲庫中存儲有地理標記的音頻信號。移動設備402向ASR引擎404提供410話語。話語例如可以包括語音搜索查詢。話語的記錄可以可選地包括例如在記錄話語之前或者之后短暫記錄的環(huán)境音頻采樣。移動設備402向ASR引擎404提供412地理位置。移動設備在一些示例中可以提供使用GPS模塊來檢測的導航坐標、最新(但是未必與記錄并行)GPS讀數(shù)、默認位置、根據(jù)先前提供的話語派生的位置或者通過發(fā)射塔的推算定位或者三角測量來估計的位置。移動設備402可以可選地向ASR引擎404提供上下文數(shù)據(jù)、比如傳感器數(shù)據(jù)、設備機型標識或者設備設置。ASR引擎404生成414噪聲模型??梢圆糠滞ㄟ^訓練GMM來生成噪聲模型??梢曰谝苿釉O備402提供的地理位置生成噪聲模型。例如,從在移動設備402的位置或者附近的位置提交的有地理標記的音頻信號可以促成噪聲模型。可選地,移動設備402提供的上下文數(shù)據(jù)可以用來過濾有地理標記的音頻信號以選擇與記錄話語的條件最適合的有地理標記的音頻信號。例如,可以按照一周中的某天或者一天中的某個時間來過濾在移動設備402提供的地理位置附近的有地理標記的音頻信號。如果環(huán)境音頻采樣與移動設備402提供的話語一起包括,則可以可選地在噪聲模型中包括環(huán)境音頻采樣。ASR引擎404對提供的話語執(zhí)行話音識別416。使用由ASR引擎404生成的噪聲模型,可以將移動設備402提供的話語轉(zhuǎn)錄成一個或者多個查詢檢索詞集合。ASR引擎404向搜索引擎406轉(zhuǎn)發(fā)418生成的轉(zhuǎn)錄。如果ASR引擎404生成多個轉(zhuǎn)錄,則可以可選地以置信度為序?qū)D(zhuǎn)錄排序。ASR引擎404可以可選地向搜索引擎406提·供上下文數(shù)據(jù)、比如地理位置,搜索引擎406可以使用該上下文數(shù)據(jù)對搜索結(jié)果過濾或者排序。搜索引擎406使用轉(zhuǎn)錄來執(zhí)行420搜索操作。搜索引擎406可以對與轉(zhuǎn)錄檢索詞有關的一個或者多個URI定位。搜索引擎406向移動設備402提供422搜索查詢結(jié)果。例如,搜索引擎406可以轉(zhuǎn)發(fā)如下HTML代碼,該代碼生成定位的URI的可視清單。已經(jīng)描述多個實現(xiàn)。然而,將理解可以進行各種修改而未脫離公開內(nèi)容的精神實質(zhì)和范圍。例如,可以在重新排序、添加或者去除步驟時使用上文所示流程的各種形式。因而其它實現(xiàn)在所附權利要求的范圍內(nèi)。可以在數(shù)字電子電路中或者在包括本說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等效物的計算機軟件、固件或者硬件中或者在它們中的一項或者多項的組合中實現(xiàn)本說明書中描述的實施例和所有功能操作。實施例可以被實現(xiàn)為一個或者多個計算機程序產(chǎn)品、即在計算機可讀介質(zhì)上編碼的用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置的操作的計算機程序指令的一個或者多個模塊。計算機可讀介質(zhì)可以是機器可讀存儲設備、機器可讀存儲基板、存儲器設備、實現(xiàn)機器可讀傳播信號的物質(zhì)組成或者它們中的一項或者多項的組合。術語“數(shù)據(jù)處理裝置”涵蓋了用于處理數(shù)據(jù)的所有裝置、設備和機器、例如包括一個可編程處理器、一個計算機或者多個處理器或者計算機。裝置除了包括硬件之外還可以包括為討論的計算機程序創(chuàng)建執(zhí)行環(huán)境的代碼、例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或者它們中的一項或者多項的組合的代碼。傳播信號是人為生成的信號、例如由機器生成的電、光學或者電磁信號,該信號被生成以用于對信息進行編碼以用于向適當接收器裝置發(fā)送。可以用包括編譯或者解釋語言的任何形式的編程語言編寫計算機程序(也稱為程序、軟件、軟件應用、腳本或者代碼),并且可以用任何形式部署它、包括作為獨立程序或者作為適合用于在計算環(huán)境中使用的模塊、部件、子例程或者其它單元。計算機程序不一定對應于文件系統(tǒng)中的文件。程序可以存儲于保持其它程序或者數(shù)據(jù)的文件的部分中(例如存儲于標記語言文檔中的一個或者多個腳本)、專用于討論的程序的單個文件中或者多個協(xié)同文件(例如存儲一個或者多個模塊、子程序或者代碼部分的文件)中。計算機程序可以被部署成在一個計算機上或者在位于一個地點或者分布于多個地點并且由通信網(wǎng)絡互連的多個計算機上執(zhí)行。在本說明書中描述的過程和邏輯流程可以由一個或者多個可編程處理器執(zhí)行,該處理器執(zhí)行一個或者多個計算機程序以通過對輸入數(shù)據(jù)操作并且生成輸出來執(zhí)行功能。過程和邏輯流程也可以由專用邏輯電路如FPGA (現(xiàn)場可編程門陣列)或者ASIC (專用集成電路)執(zhí)行,并且裝置也可以實現(xiàn)為該專用邏輯電路。適合于執(zhí)行計算機程序的處理器例如包括通用和專用微處理器和任何種類的數(shù)字計算機的任何一個或者多個處理器。一般而言,處理器將從只讀存儲器或者隨機存取存儲器或者這二者接收指令和數(shù)據(jù)。計算機的基本單元是用于執(zhí)行指令的處理器以及用于存儲指令和數(shù)據(jù)的一個或者多個存儲器設備。一般而言,計算機也將包括用于存儲數(shù)據(jù)的一個或者多個海量存儲設備如磁盤、光磁盤或者光盤或者操作地耦合成從該海量存儲設備接收數(shù)據(jù)或者向該海量存儲設備傳送數(shù)據(jù)或者這二者。然而計算機無需具有這樣的設備。另夕卜,計算機可以嵌入于另一設備中,僅舉數(shù)例,該另一設備例如是寫字板計算機、移動電話、 個人數(shù)字助理(PDA)、移動音頻播放器、全球定位系統(tǒng)(GPS)接收器。適合于存儲計算機程序指令和數(shù)據(jù)的計算機可讀介質(zhì)包括所有形式的非易失性存儲器、介質(zhì)和存儲器設備、例如包括半導體存儲器設備如EPROM、EEPROM和閃存設備;磁盤如內(nèi)部硬盤或者可拆卸盤;光磁盤;以及CD ROM和DVD-ROM盤。處理器和存儲器可以由專用邏輯電路補充或者并入于專用邏輯電路中。為了提供與用戶的交互,實施例可以實限于計算機上,該計算機具有用于向用戶顯示信息的顯示器設備如CRT (陰極射線管)或者LCD (液晶顯示器)監(jiān)視器以及用戶可以用來向計算機提供輸入的鍵盤和指點設備如鼠標或者跟蹤球。其它種類的設備也可以用來提供與用戶的交互;例如向用戶提供的反饋可以是任何形式的感官反饋如視覺反饋、聽覺反饋或者觸覺反饋;并且可以用包括聲音、話音或者觸覺輸入的任何形式接收來自用戶的輸入。實施例可以實現(xiàn)于計算系統(tǒng)中,該計算系統(tǒng)包括后端部件如作為數(shù)據(jù)服務器或者包括中間件部件如應用服務器或者包括前端部件、例如具有如下圖形用戶界面或者網(wǎng)上瀏覽器的客戶端計算機或者這樣的后端、中間件或者前端部件中的一個或者多個部件的任何組合,用戶可以通過該圖形用戶界面或者網(wǎng)上瀏覽器與實現(xiàn)交互。系統(tǒng)的部件可以由任何數(shù)字數(shù)據(jù)通信形式或者介質(zhì)如通信網(wǎng)絡互連。通信網(wǎng)絡的示例包括局域網(wǎng)(“LAN”)和廣域網(wǎng)(“WAN”)如因特網(wǎng)。計算系統(tǒng)可以包括客戶端和服務器??蛻舳撕头掌饕话阆嗷ミh離并且通常通過通信網(wǎng)絡交互。客戶端和服務器的關系借助計算機程序來發(fā)生,這些計算機程序在相應計算機上運行并且相互具有客戶端-服務器關系。盡管本說明書包含許多細節(jié),但是這些不應解釋為對公開內(nèi)容的范圍或者可以要求保護的內(nèi)容的范圍的限制、而應當作為對具體實現(xiàn)特有的特征的描述。也可以在單個實施例組合實施本說明書中在單獨實施例的上下文中描述的某些特征。反言之,也可以在多個實施例中單獨或者在任何適當子組合中實施在單個實施例的上下文中描述的各種特征。另外雖然上文可以將特征描述為在某些實施例中作用并且甚至起初這樣要求保護,但是在一些情況下可以從要求保護的組合中去除來自該組合的一個或者多個特征,并且要求保護的組合可以涉及子組合或者子組合的變體。類似地,盡管在附圖中以特定順序描繪操作,但是這不應理解為要求以所示特定順序或者以序列順序執(zhí)行這樣的操作或者執(zhí)行所有所示操作以實現(xiàn)希望的結(jié)果。在某些境況中,多任務和并行處理可以是有利的。另外,在上文描述的實施例中分離各種系統(tǒng)部件不應理解為在所有實施例中要求這樣的分離,并且應當理解描述的程序部件和系統(tǒng)一般可以一起集成于單個軟件產(chǎn)品中或者封裝到多個軟件產(chǎn)品中。在其中提到HTML文件的每個實例中,可以替換為其它文件類型或者格式。例如HTML文件可以替換為XML、JS0N、明文或者其它類型的文件。另外當提到表或者散列表時,可以使用其它數(shù)據(jù)結(jié)構(gòu)(比如電子數(shù)據(jù)表、關系數(shù)據(jù)庫或者結(jié)構(gòu)化文件)。這樣已經(jīng)描述特 定實施例。其它實施例在所附權利要求的范圍內(nèi)。例如在權利要求中記載的動作可以按不同順序來執(zhí)行并且仍然獲得希望的結(jié)果。
權利要求
1.一種系統(tǒng),包括 一個或者多個計算機;以及 計算機可讀介質(zhì),耦合到所述一個或者多個計算機,所述計算機可讀介質(zhì)具有存儲于其上的指令,所述指令在由所述一個或者多個計算機執(zhí)行時使所述一個或者多個計算機執(zhí)行操作,所述操作包括 接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的音頻信號, 接收與由特定移動設備記錄的話語對應的音頻信號, 確定與所述特定移動設備相關聯(lián)的特定地理位置, 使用所述有地理標記的音頻信號的子集來針對所述特定地理位置生成噪聲模型,以及 使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應的所述音頻信號執(zhí)行噪聲補償。
2.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括使用所述噪聲補償?shù)囊纛l信號來對所述話語執(zhí)行話音識別。
3.根據(jù)權利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括在接收與所述話語對應的所述音頻信號之前生成所述噪聲模型。
4.根據(jù)權利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括在接收與所述話語對應的所述音頻信號之后生成所述噪聲模型。
5.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括 為每個所述有地理標記的音頻信號確定在所述特定地理位置和與所述有地理標記的音頻信號相關聯(lián)的地理位置之間的距離;以及 選擇與在所述特定地理位置的預定距離內(nèi)的地理位置相關聯(lián)、或者與在N個與所述特定地理位置最近的地理位置之中的地理位置相關聯(lián)的所述有地理標記的音頻信號作為所述有地理標記的音頻信號的所述子集。
6.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括 選擇與所述特定地理位置相關聯(lián)的所述有地理標記的音頻信號作為所述有地理標記的音頻信號的所述子集。
7.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括基于所述特定地理位置、并且基于與所述話語相關聯(lián)的上下文數(shù)據(jù)選擇所述有地理標記的音頻信號的所述子集。
8.根據(jù)權利要求6所述的系統(tǒng),其中所述上下文數(shù)據(jù)包括引用所述移動設備何時記錄所述話語的時間或者日期的數(shù)據(jù)、引用所述特定移動設備在記錄所述話語時測量的速度或者運動量的數(shù)據(jù)、引用所述移動設備的設置的數(shù)據(jù)、或者引用所述移動設備的類型的數(shù)據(jù)。
9.根據(jù)權利要求I所述的系統(tǒng),其中所述話語代表語音搜索查詢,或者向數(shù)字口授應用或者對話系統(tǒng)的輸入。
10.根據(jù)權利要求I所述的系統(tǒng),其中確定所述特定地理位置還包括從所述移動設備接收引用所述特定地理位置的數(shù)據(jù)。
11.根據(jù)權利要求I所述的系統(tǒng),其中確定所述特定地理位置還包括確定與所述設備相關聯(lián)的以往地理位置或者默認地理位置。
12.根據(jù)權利要求I所述的系統(tǒng),其中生成所述噪聲模型包括使用所述有地理標記的音頻信號的所述子集作為訓練集來訓練高斯混合模型(GMM)。
13.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括 生成所述話語的一個或者多個候選轉(zhuǎn)錄;以及 使用所述一個或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢。
14.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括 處理所述接收的有地理標記的音頻信號以排除所述環(huán)境音頻的、包括所述多個移動設備的用戶的語音的部分。
15.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括從針對所述多個地理位置生成的多個噪聲模型之中選擇針對所述特定地理位置生成的所述噪聲模型。
16.根據(jù)權利要求14所述的系統(tǒng),其中 所述操作還包括 限定圍繞所述特定地理位置的區(qū)域, 從所述多個噪聲模型之中選擇與所述區(qū)域內(nèi)的地理位置相關聯(lián)的多個噪聲模型,以及 生成所述選擇的噪聲模型的加權組合;并且 使用所述選擇的噪聲模型的加權組合來執(zhí)行所述噪聲補償。
17.根據(jù)權利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括使用所述有地理標記的音頻信號的所述子集以及使用所述音頻信號的與所述話語對應的環(huán)境音頻部分來針對所述特定地理位置生成所述噪聲模型。
18.根據(jù)權利要求I所述的系統(tǒng),其中所述操作還包括 限定圍繞所述特定地理位置的區(qū)域;以及 選擇在所述區(qū)域內(nèi)記錄的所述有地理標記的音頻信號作為所述有地理標記的音頻信號的所述子集。
19.一種用計算機程序編碼的計算機存儲介質(zhì),所述程序包括指令,所述指令在由一個或者多個計算機執(zhí)行時使得所述一個或者多個計算機執(zhí)行操作,所述操作包括 接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的音頻信號; 接收與由特定移動設備記錄的話語對應的音頻信號; 確定與所述特定移動設備相關聯(lián)的特定地理位置; 使用所述有地理標記的音頻信號的子集來針對所述特定地理位置生成噪聲模型;以及使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應的所述音頻信號執(zhí)行噪聲補償。
20.一種計算機實現(xiàn)的方法,包括 接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的音頻信號; 接收與由特定移動設備記錄的話語對應的音頻信號; 確定與所述特定移動設備相關聯(lián)的特定地理位置; 使用所述有地理標記的音頻信號的子集來針對所述特定地理位置生成噪聲模型;以及使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應的所述音頻信號執(zhí)行噪聲補償。
全文摘要
用于增強話音識別準確度的方法、系統(tǒng)和裝置、包括在計算機存儲介質(zhì)上編碼的計算機程序。在一個方面,一種方法包括接收與由多個移動設備在多個地理位置記錄的環(huán)境音頻對應的有地理標記的音頻信號;接收與由特定移動設備記錄的話語對應的音頻信號;確定與特定移動設備相關聯(lián)的特定地理位置;使用有地理標記的音頻信號的子集來針對特定地理位置生成噪聲模型,其中使用已經(jīng)針對特定地理位置生成的噪聲模型來對與話語對應的音頻信號執(zhí)行噪聲補償。
文檔編號G10L21/0208GK102918591SQ201180019038
公開日2013年2月6日 申請日期2011年3月22日 優(yōu)先權日2010年4月14日
發(fā)明者T·克里斯特詹森, M·I·洛伊德 申請人:谷歌公司