專利名稱:用于語音識別的語音模型和噪聲模型的制作方法
技術(shù)領(lǐng)域:
本說明書涉及語音識別。
背景技術(shù):
語音識別可以用于話音搜索查詢。通常,搜索查詢包括當(dāng)用戶請求搜索引擎執(zhí)行搜索時(shí)用戶向搜索引擎提交的一個(gè)或者多個(gè)查詢項(xiàng)。在其他方式中,用戶可以通過在鍵盤上鍵入或者在話音查詢的情況下通過向例如移動設(shè)備的麥克風(fēng)中口述查詢項(xiàng)來錄入搜索查詢的查詢項(xiàng)。當(dāng)通過例如移動設(shè)備提交話音查詢時(shí),移動設(shè)備的麥克風(fēng)除了用戶的口述話語之外還可能記錄環(huán)境噪聲或者聲音,在其他方面被稱作“環(huán)境音頻”或“背景音頻”。例如,環(huán)境音頻可以包括位于用戶周圍的其他人的背景聊天或者談話或者由自然(例如,狗吠)或者人造物體(例如,辦公室、機(jī)場或者公路噪聲或者建筑活動)生成的噪聲。環(huán)境音頻可能部分地遮蔽用戶的話音,從而使得自動化語音識別(“ASR”)引擎難以準(zhǔn)確識別口述話語。
發(fā)明內(nèi)容
在一個(gè)方面,一種系統(tǒng)包括一個(gè)或多個(gè)處理設(shè)備以及存儲有指令的一個(gè)或多個(gè)存儲設(shè)備,當(dāng)指令被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備接收由設(shè)備基于來自用戶的音頻輸入生成的音頻信號,音頻信號至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分;訪問與用戶相關(guān)聯(lián)的用戶語音模型;確定音頻信號中的背景音頻在定義閾值以下;響應(yīng)于確定音頻信號中的背景音頻在定義的閾值以下,基于音頻信號適配訪問的用戶語音模型以生成對用戶語音特性建模的適配用戶語音模型;以及使用適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。實(shí)現(xiàn)方式可以包括一個(gè)或多個(gè)以下特征。例如,音頻信號可以包括僅對應(yīng)于圍繞用戶的背景音頻的環(huán)境音頻部分以確定音頻信號中的背景音頻在定義閾值之下,指令可以包括如下指令,當(dāng)被執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定環(huán)境音頻部分中的能量的量;以及確定環(huán)境音頻部分中能量的量在閾值能量之下。為了確定音頻信號中的背景音頻在定義閾值之下,指令包括如下指令,當(dāng)被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備確定音頻信號的信噪比;以及確定該信噪比在閾值信噪比之下。音頻信號可以包括僅對應(yīng)于圍繞用戶的背景音頻的環(huán)境音頻部分以確定音頻信號的信噪比,指令包括如下指令,當(dāng)被執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定音頻信號的用戶音頻部分中的能量的量;確定音頻信號的環(huán)境音頻部分中的能量的量;以及通過確定用戶音頻部分與環(huán)境音頻部分中的能量的量之間的比率來確定信噪比。訪問的用戶語音模型可以包括尚未適配為對用戶的語音特性建模的替代用戶語音模型。指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備選擇替代用戶語音模型;以及將替代語音模型與用戶相關(guān)聯(lián)。為了選擇替代用戶語音模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定用戶的性別;以及基于用戶的性別從多個(gè)替代用戶語音模型之中選擇替代用戶語音模型。為了選擇替代用戶語音模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定在記錄一個(gè)或多個(gè)話語時(shí)用戶的位置;以及基于在記錄一個(gè)或多個(gè)話語時(shí)用戶的位置從多個(gè)替代用戶語音模型之中選擇替代用戶語音模型。為了選擇替代用戶語音模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定用戶的語言或口音;以及基于語言或口音從多個(gè)替代用戶語音模型之中選擇替代用戶語音模型。為了選擇替代用戶語音模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備接收至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號;確定多個(gè)替代用戶語音模型與基于所述最初音頻信號確定的用戶的期望用戶語音模型之間的相似性度量;以及基于相似性度量從多個(gè)替代用戶語音模型之中選擇替代用戶語音模型。指令可以包括如下指令,當(dāng)被執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備訪問與用戶相關(guān)聯(lián)的噪聲模型;以及其中為了執(zhí)行噪聲補(bǔ)償,指令可以進(jìn)一步包括如下指令,其使得一個(gè)或多個(gè)處理設(shè)備使用適配用戶語音模型和訪問噪聲模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償。為了執(zhí)行噪聲補(bǔ)償,指令可以進(jìn)一步包括如下指令,其使得一個(gè)或多個(gè)處理設(shè)備基于接收的音頻信號適配訪問噪聲模型以生成對圍繞用戶的背景音頻的特性建模的適配噪聲模型;以及使用適配用戶語音模型和適配噪聲模型來對接收的音頻信號執(zhí)行噪聲補(bǔ)償。指令可以包括如下指令,當(dāng)被執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備接收至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的第二用戶音頻部分的第二音頻信號;確定第二音頻信號中的背景音頻在定義閾值之上;以及響應(yīng)于確定第二音頻信號中的背景音頻在定義閾值之上,基于第二音頻信號適配與用戶相關(guān)聯(lián)的噪聲模型以生成對圍繞用戶的背景音頻的特性建模的適配噪聲模型。訪問噪聲模型可以包括尚未適配為對圍繞用戶的背景音頻的特性建模的替代噪聲模型。指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備選擇替代噪聲模型;以及將替代噪聲模型與用戶相關(guān)聯(lián)。為了選擇替代噪聲模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備接收至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號;確定在記錄對應(yīng)于最初用戶音頻部分的一個(gè)或多個(gè)話語時(shí)用戶的位置;以及基于在記錄對應(yīng)于最初用戶音頻部分的一個(gè)或多個(gè)話語時(shí)用戶的位置從多個(gè)替代噪聲模型之中選擇替代噪聲模型。為了選擇替代噪聲模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備接收至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號;確定多個(gè)替代噪聲模型與基于最初音頻信號確定的用戶的期望噪聲模型之間的相似性度量;以及基于相似性度量從多個(gè)替代噪聲模型之中選擇替代噪聲模型。多個(gè)替代噪聲模型中的每一個(gè)可以對特定位置中的背景音頻的特性建模。多個(gè)替代噪聲模型中的每一個(gè)可以對特定種類的環(huán)境條件中的背景音頻的特性建模。為了訪問噪聲模型,指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備確定在記錄一個(gè)或多個(gè)話語時(shí)用戶的位置;以及基于用戶的位置從多個(gè)噪聲模型之中選擇噪聲模型。音頻信號可以對應(yīng)于話音搜索查詢,并且指令可以包括如下指令,當(dāng)被一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得一個(gè)或多個(gè)處理設(shè)備執(zhí)行對濾波音頻信號的語音識別以生成一個(gè)或多個(gè)用戶話語的一個(gè)或多個(gè)候選轉(zhuǎn)錄;使用一個(gè)或多個(gè)候選轉(zhuǎn)錄執(zhí)行搜索查詢以生成搜索結(jié)果;以及向設(shè)備發(fā)送搜索結(jié)果。在另一方面,系統(tǒng)包括客戶端設(shè)備和自動化語音識別系統(tǒng)。客戶端設(shè)備被配置為向自動化語音識別系統(tǒng)發(fā)送至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分的音頻信號。自動化語音識別系統(tǒng)被配置為從客戶端設(shè)備接收音頻信號;訪問與用戶相關(guān)聯(lián)的用戶語音模型;確定音頻信號中的背景音頻在定義閾值之下;響應(yīng)于確定音頻信號中的背景音頻在定義閾值之下,基于音頻信號適配訪問的用戶語音模型以生成對用戶的語音特性建模的適配用戶語音模型;以及使用適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。實(shí)現(xiàn)方式可以包括以下特征。例如,自動化語音識別系統(tǒng)可以被配置為對濾波音頻信號執(zhí)行語音識別以生成一個(gè)或多個(gè)用戶話語的一個(gè)或多個(gè)候選轉(zhuǎn)錄。系統(tǒng)可以包括搜索引擎系統(tǒng),其被配置為使用一個(gè)或多個(gè)候選轉(zhuǎn)錄來執(zhí)行搜索查詢以生成搜索結(jié)果;以及向客戶端設(shè)備發(fā)送搜索結(jié)果。在另一方面,方法包括接收由設(shè)備基于來自用戶的音頻輸入生成的音頻信號,音頻信號至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分;訪問與用戶相關(guān)聯(lián)的用戶語音模型;確定音頻信號中的背景音頻在定義閾值以下;響應(yīng)于確定音頻信號中的背景音頻在限定閾值以下,基于音頻信號適配訪問的用戶語音模型以生成對用戶的語音特性建模的適配用戶語音模型;以及使用適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。所描述的技術(shù)的實(shí)現(xiàn)方式可以包括硬件、方法或過程、或者計(jì)算機(jī)可訪問介質(zhì)上的計(jì)算機(jī)軟件。在附圖和下文描述中闡述一個(gè)或者多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)。其他特征將從描述、附圖和從權(quán)利要求中變得顯然。在附圖和下文描述中闡述一個(gè)或者多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)。其他潛在特征、方面和優(yōu)點(diǎn)將從描述、附圖和權(quán)利要求中變得顯然。
圖1是支持話音搜索查詢的示例系統(tǒng)的示意圖。圖2是示出過程的示例的流程圖。圖3是示出過程的另一示例的流程圖。圖4是示出過程的示例的泳道(swim lane)圖。
具體實(shí)施例方式圖1是示出了支持話音搜索查詢的系統(tǒng)100的示例的示意圖。系統(tǒng)100包括搜索引擎106和自動語音識別(ASR)引擎108,其通過一個(gè)或多個(gè)網(wǎng)絡(luò)110與一組移動設(shè)備102a-102c和移動設(shè)備104連接,諸如在某些實(shí)施方式中,所述一個(gè)或多個(gè)網(wǎng)絡(luò)110為無線蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)(WLAN)或者W1-Fi網(wǎng)絡(luò)、第三代(3G)移動電信網(wǎng)絡(luò)、專用網(wǎng)絡(luò)如內(nèi)聯(lián)網(wǎng)、公用網(wǎng)絡(luò)如因特網(wǎng)或者其任何適當(dāng)組合。通常,設(shè)備(諸如移動設(shè)備104)的用戶可以向移動設(shè)備104的麥克風(fēng)口述搜索查詢。在移動設(shè)備104上運(yùn)行的應(yīng)用將用戶的口述搜索查詢記錄為音頻信號,并且向ASR引擎108發(fā)送該音頻信號作為話音搜索查詢的一部分。在接收對應(yīng)于話音搜索查詢的音頻信號之后,ASR引擎108可以將音頻信號中的用戶話語轉(zhuǎn)譯或轉(zhuǎn)錄成一個(gè)或多個(gè)文本候選轉(zhuǎn)錄,并且可以將這些候選轉(zhuǎn)錄作為查詢項(xiàng)提供給搜索引擎106,從而支持移動設(shè)備104的音頻搜索功能。查詢項(xiàng)可以包括一個(gè)或多個(gè)完整或部分單詞、字符或字符串。搜索引擎106可以使用搜索查詢項(xiàng)來向移動設(shè)備104提供搜索結(jié)果(例如,網(wǎng)頁的統(tǒng)一資源標(biāo)識符(URI)、圖像、文檔、多媒體文件等)。例如,搜索結(jié)果可以包括引用如下資源的統(tǒng)一資源標(biāo)識符(URI),搜索引擎確定該資源響應(yīng)于搜索查詢。附加地或備選地,搜索結(jié)果可以包括諸如標(biāo)題、預(yù)覽圖像、用戶評級、地圖或者方向、對應(yīng)資源的描述或者已經(jīng)從對應(yīng)資源自動或者手動提取或者以其它方式與對應(yīng)資源相關(guān)聯(lián)的文本的摘錄之類的其他項(xiàng)。搜索引擎106在某些示例中可以包括用來在因特網(wǎng)內(nèi)找到參考的web搜索引擎、用來找到企業(yè)或者個(gè)人的電話簿型搜索引擎或者另一專門化搜索引擎(例如,諸如餐館和電影院信息、醫(yī)療和藥品信息等娛樂清單)。作為系統(tǒng)100的操作的示例,音頻信號138被包括在通過網(wǎng)絡(luò)110從移動設(shè)備104向ASR引擎108發(fā)送的話音搜索查詢中。音頻信號138包含話語140“Gym New York”。ASR引擎108接收包括音頻信號138的話音搜索查詢。ASR引擎108處理音頻信號138以生成與在音頻信號138內(nèi)檢測到的話語匹配的一個(gè)或多個(gè)文本候選轉(zhuǎn)錄或經(jīng)排名的一組文本候選轉(zhuǎn)錄146。例如,音頻信號138中的話語可以產(chǎn)生“Gym New York”和“Jim Newark”作為候選轉(zhuǎn)錄146。由語音識別系統(tǒng)118生成的一個(gè)或多個(gè)候選轉(zhuǎn)錄146被作為搜索查詢項(xiàng)從ASR引擎108傳遞到搜索引擎106。搜索引擎106向搜索算法提供搜索查詢項(xiàng)146以生成一個(gè)或多個(gè)搜索結(jié)果。搜索引擎106向移動設(shè)備104提供一組搜索結(jié)果152 (例如,網(wǎng)頁的統(tǒng)一資源標(biāo)識符(URI)、圖像、文檔、多媒體文件等)。移動設(shè)備104在顯示區(qū)域中顯示搜索結(jié)果152。如屏幕截圖158中所示,話語“Gym New York,,140 生成三個(gè)搜索結(jié)果 160 “Jim Newark,,160a、“New York Fitness,,160b和 “Manhattan Body Building” 160c。第一搜索結(jié)果 160a 對應(yīng)于候選轉(zhuǎn)錄 Jim Newark,并且例如可以向用戶提供電話號碼,或者當(dāng)被選擇時(shí)可以使用移動設(shè)備104自動撥打JimNewark。最后兩個(gè)搜索結(jié)果160b和160c對應(yīng)于候選轉(zhuǎn)錄“Gym New York”并且包括網(wǎng)頁URI。候選轉(zhuǎn)錄和/或搜索結(jié)果可以基于由ASR 108產(chǎn)生的置信測量來進(jìn)行排名,該置信測量指示給定候選轉(zhuǎn)錄準(zhǔn)確對應(yīng)于音頻信號中的話語的置信級別。為了將音頻信號中的用戶話語轉(zhuǎn)譯或轉(zhuǎn)錄成一個(gè)或多個(gè)文本候選轉(zhuǎn)錄,ASR引擎108包括噪聲補(bǔ)償系統(tǒng)116、語音識別系統(tǒng)118和存儲噪聲模型112以及用戶語音模型114的數(shù)據(jù)庫111。語音識別系統(tǒng)118對音頻信號執(zhí)行語音識別以識別音頻信號中的用戶話語并且將這些話語轉(zhuǎn)譯成一個(gè)或多個(gè)文本候選轉(zhuǎn)錄。在某些實(shí)現(xiàn)方式中,語音識別系統(tǒng)118可以針對給定話語生成多個(gè)候選轉(zhuǎn)錄。例如,語音識別系統(tǒng)118可以將話語轉(zhuǎn)錄成多個(gè)項(xiàng)并且可以指派與話語的每個(gè)轉(zhuǎn)錄相關(guān)聯(lián)的置信級別。在某些實(shí)現(xiàn)方式中,語音識別系統(tǒng)118的特定變化可以基于與音頻信號有關(guān)的附加上下文信息針對給定音頻信號進(jìn)行選擇,并且選擇的改變可以用于轉(zhuǎn)錄音頻信號中的話語。例如,在某些實(shí)現(xiàn)方式中,連同包含用戶話語的音頻信號,話音搜索查詢可以包括用于選擇語音識別系統(tǒng)118的變化的區(qū)域或語言信息。在特定示例中,在其中注冊移動設(shè)備104的區(qū)域或移動設(shè)備104的語言設(shè)置語言可以被提供給ASR引擎108并且供ASR引擎108用于確定移動設(shè)備104的用戶可能的語言或口音。語音識別系統(tǒng)118的變化可以基于移動設(shè)備104的用戶的預(yù)期語言或口音進(jìn)行選擇和使用。ASR引擎108可以在執(zhí)行語音識別之前將噪聲補(bǔ)償系統(tǒng)116應(yīng)用于例如從移動設(shè)備104接收的音頻信號。噪聲補(bǔ)償系統(tǒng)116可以移除或減少音頻信號中的背景或環(huán)境音頻以產(chǎn)生濾波音頻信號。由于移動設(shè)備104的麥克風(fēng)除了用戶的話語還可以捕獲環(huán)境音頻,因此音頻信號可能包含用戶話語以及環(huán)境音頻的混合。音頻信號因此可以包括僅包括環(huán)境音頻的一個(gè)或多個(gè)環(huán)境音頻信號,以及包括用戶的話語(以及潛在的環(huán)境音頻)的用戶音頻信號。通常,環(huán)境音頻可以包括發(fā)生(自然或者其他)在用戶周圍的任何環(huán)境聲音。環(huán)境音頻通常排除移動設(shè)備的用戶的話音、話語或聲音。語音識別系統(tǒng)118可以對由噪聲補(bǔ)償系統(tǒng)116產(chǎn)生的濾波音頻信號執(zhí)行語音識別以轉(zhuǎn)錄用戶話語。在某些實(shí)例中,對濾波音頻信號執(zhí)行語音識別可以產(chǎn)生比直接對接收的音頻信號執(zhí)行語音識別更準(zhǔn)確的轉(zhuǎn)錄。針對給定音頻信號,噪聲補(bǔ)償系統(tǒng)116使用數(shù)據(jù)庫111中存儲的噪聲模型112之一和用戶語音模型之一來移除或減少音頻信號中的背景或環(huán)境音頻。噪聲模型112包括替代噪聲模型120和適配噪聲模型120b。類似地,用戶語音模型包括替代用戶語音模型126a和適配用戶語音模型126b。通常,適配噪聲模型120b和適配用戶語音模型126b專用于特定用戶并且已經(jīng)基于通過先前話音搜索查詢從該用戶接收的音頻信號被適配于該用戶。當(dāng)針對提交當(dāng)前話音搜索查詢的特定用戶沒有適配噪聲模型或適配用戶語音模型時(shí),分別使用替代噪聲模型120a和替代用戶語音模型126a。在某些實(shí)例中,噪聲補(bǔ)償系統(tǒng)116的性能可以通過使用適配用戶語音模型進(jìn)行改進(jìn),該適配用戶語音模型已經(jīng)被訓(xùn)練過或者以其它方式適配于提交話音搜索查詢的特定用戶的具體語音特性。然而,為了使語音模型適配于特定用戶,可能需要該用戶的語音的采樣。在諸如系統(tǒng)100的環(huán)境中,那些采樣最初可能并不容易地可用。因此,在一個(gè)實(shí)現(xiàn)方式中,當(dāng)用戶最初發(fā)送話音搜索查詢時(shí)或者如果出于某些其他原因沒有針對用戶的適配用戶語音模型時(shí),ASR 108從一個(gè)或多個(gè)替代用戶語音模型126a選擇替代用戶語音模型。所選擇的替代用戶語音模型可以是被確定為用戶的語音特性的合理近似的用戶語音模型。所選擇的替代用戶語音模型用于對最初音頻信號執(zhí)行噪聲補(bǔ)償。隨著用戶提交隨后的話音搜索查詢,與所述那些隨后查詢一起發(fā)送的某些或所有音頻信號用于將所選擇的替代用戶語音模型訓(xùn)練或適配于專用于該用戶的適配用戶語音模型(即,對用戶的語音特性建模),其用于那些隨后的音頻信號的噪聲補(bǔ)償。
例如,在一個(gè)實(shí)現(xiàn)方式中,當(dāng)接收到隨后的音頻信號時(shí),ASR 108確定環(huán)境或背景音頻是否處于特定閾值之下。如果在特定閾值之下,則該音頻信號用于將替代用戶語音模型適配于或者進(jìn)一步將適配用戶語音模型適配于特定用戶。如果背景音頻在閾值之上,則音頻信號不用于適配用戶語音模型(但可以用于適配噪聲模型,如下文所述)。用戶語音模型(無論是替代用戶語音模型126a還是適配用戶語音模型126b)例如可以被實(shí)現(xiàn)為隱馬爾可夫模型(HMM)或高斯混合模型(GMM)??梢允褂闷谕畲蠡惴ㄓ?xùn)練或以其它方式適配用戶語音模型。在某些實(shí)現(xiàn)方式中,用戶可以被明確地標(biāo)識。例如,某些實(shí)現(xiàn)方式可以在接受搜索查詢之前向用戶提示標(biāo)識。其他實(shí)現(xiàn)方式可以使用其他可用信息隱式標(biāo)識用戶,諸如鍵入用戶的模式或者用戶的移動模式(例如,當(dāng)加速器形成設(shè)備的一部分時(shí))。當(dāng)用戶可以被具體標(biāo)識時(shí),適配用戶語音模型可以通過對應(yīng)于標(biāo)識用戶的用戶標(biāo)識符進(jìn)行索引。在其他實(shí)現(xiàn)方式中,用戶可能不能夠被具體標(biāo)識。在此情況下,用于錄入話音搜索查詢的設(shè)備(諸如移動設(shè)備104)可以被用作具體用戶的標(biāo)識符,并且可以基于與用于提交話音搜索查詢的設(shè)備對應(yīng)的設(shè)備標(biāo)識符索引適配用戶語音模型。在其中通常只存在單個(gè)或主要設(shè)備用戶的環(huán)境中,例如當(dāng)移動電話被用作輸入設(shè)備時(shí),以設(shè)備為基礎(chǔ)開發(fā)適配用戶語音模型可以提供可接受的語音模型以達(dá)到噪聲補(bǔ)償系統(tǒng)116 (具體地)或者ASR 108 (更通用的)上強(qiáng)加的性能約束。通過適配用戶語音模型可以改進(jìn)噪聲補(bǔ)償系統(tǒng)116的性能的相同方法,噪聲補(bǔ)償系統(tǒng)116的性能還可以通過使用已經(jīng)被訓(xùn)練或以其它方式適配于通常圍繞用戶的環(huán)境音頻的噪聲模型而被改進(jìn)。正如語音采樣那樣,在諸如系統(tǒng)100的環(huán)境中,通常圍繞用戶的環(huán)境音頻的采樣最初可能并不容易地可用。因此,在一個(gè)實(shí)現(xiàn)方式中,當(dāng)用戶最初發(fā)送話音搜索查詢時(shí)或者如果出于某些其他原因沒有針對用戶的適配用戶語音模型時(shí),ASR 108從一個(gè)或多個(gè)替代噪聲模型126b選擇替代噪聲模型。所選擇的替代噪聲模型可以是基于已知或確定的信息被確定為在用戶周圍的期望環(huán)境音頻的合理近似的噪聲模型。所選擇的替代噪聲模型用于對最初音頻信號執(zhí)行噪聲補(bǔ)償。隨著用戶提交隨后的話音搜索查詢,與那些查詢一起發(fā)送的某些或所有音頻信號用于將所選擇的替代噪聲模型適配于專用于該用戶的適配噪聲模型(即,當(dāng)提交搜索查詢時(shí)對圍繞用戶的典型環(huán)境聲音的特性建模),其用于那些隨后的音頻信號的噪聲補(bǔ)償。例如,在一個(gè)實(shí)現(xiàn)方式中,當(dāng)接收到隨后的音頻信號時(shí),ASR 108確定環(huán)境或背景音頻是否處于特定閾值之下。如果沒有在特定閾值之下,則該音頻信號用于將替代噪聲模型適配于或者進(jìn)一步將適配噪聲模型適配于特定用戶。在某些實(shí)現(xiàn)方式中,無論背景音頻是否在特定閾值之上,接收的音頻信號都可以用于適配替代噪聲模型或適配噪聲模型。在某些實(shí)現(xiàn)方式中,為了確保獲得不具有用戶話語的環(huán)境音頻的采樣并且該采樣可以用于適配噪聲模型,移動設(shè)備104上的話音搜索查詢應(yīng)用可以在用戶說出搜索查詢之前開始記錄和/或可以在用戶完成說出搜索查詢之后繼續(xù)記錄。例如,話音搜索查詢應(yīng)用可以捕獲在用戶說出搜索查詢之前和/或之后兩秒的音頻以確保獲得環(huán)境音頻的采樣。在某些實(shí)現(xiàn)方式中,單個(gè)替代噪聲模型可以被選擇并適配于跨用戶使用話音搜索應(yīng)用的不同環(huán)境的針對該用戶的單個(gè)適配噪聲模型。然而,在其他實(shí)現(xiàn)中,當(dāng)使用話音搜索應(yīng)用時(shí),適配噪聲模型可以針對用戶常去的各種位置進(jìn)行開發(fā)。例如,可以針對不同位置開發(fā)不同噪聲模型并且存儲為替代噪聲模型120a。當(dāng)提交話音搜索查詢時(shí)用戶的位置可以由移動設(shè)備104發(fā)送到ASR 108,或者當(dāng)提交話音搜索查詢時(shí)用戶的位置可以通過其他方式確定。當(dāng)接收到針對給定位置的最初音頻信號時(shí),繼而可以選擇針對該位置的替代噪聲模型,并且當(dāng)從該位置接收到另外的話音搜索查詢時(shí),相關(guān)聯(lián)的音頻信號可以用于適配該特定噪聲模型。這可以針對當(dāng)執(zhí)行話音搜索查詢時(shí)用戶所處的不同位置中的每個(gè)位置發(fā)生,由此產(chǎn)生針對用戶的多個(gè)適配噪聲模型,其中每個(gè)模型專用于某個(gè)位置。在定義的非使用時(shí)間段之后(例如,用戶在特定時(shí)間里沒有在該位置執(zhí)行話音搜索),可以刪除位置特定噪聲模型。當(dāng)提交話音搜索查詢時(shí)用戶的位置、與給定噪聲模型相關(guān)聯(lián)的位置和與給定語音模型相關(guān)聯(lián)的位置均可以通過各種粒度級別進(jìn)行定義,最具體地是經(jīng)緯導(dǎo)航坐標(biāo)或者由導(dǎo)航坐標(biāo)密切界定(例如,四分之一英里或更小)的區(qū)域。備選地,位置可以使用區(qū)域標(biāo)識符提供,諸如州名或標(biāo)識符、城市名、慣用名(例如,“Central Park”)、國家名或任意定義區(qū)域的標(biāo)識符(例如,“cell/region ABC 123”)。在某些實(shí)現(xiàn)方式中,位置可以表示位置的類型,諸如在某些示例中的海灘、大都會、游樂園、移動交通工具內(nèi)、船上、建筑物內(nèi)、戶外、鄉(xiāng)下、地下位置(例如,地鐵、停車場等)、街面位置、高樓(摩天大樓)內(nèi)部或者森林中,而不是地理指定位置。粒度級別與在提交話音搜索查詢時(shí)的用戶位置、與給定噪聲模型相關(guān)聯(lián)的位置和與給定語音模型相關(guān)聯(lián)的位置之間可以是相同的或不同的。噪聲模型(無論是替代120a還是適配120b)例如可以被實(shí)現(xiàn)為隱馬爾可夫模型(HMM)或高斯混合模型(GMM)。用戶語音模型可以使用期望最大化算法訓(xùn)練或者以其它方式適配。如上文所述,在某些實(shí)現(xiàn)方式中,用戶可以被具體標(biāo)識而在其他實(shí)現(xiàn)方式中設(shè)備可以被用作用戶的替代。因此,類似于對語音模型的索引,適配噪聲模型可以由對應(yīng)于當(dāng)用戶可以被具體標(biāo)識時(shí)標(biāo)識的用戶的用戶標(biāo)識符進(jìn)行索引,或者可以被基于對應(yīng)于當(dāng)用戶無法被具體標(biāo)識時(shí)用于提交話音搜索查詢的設(shè)備的設(shè)備標(biāo)識符索引。圖2是示出了可以在從用戶或設(shè)備接收最初話音搜索查詢時(shí)執(zhí)行的過程200的示例的流程圖,而圖3是示出了可以在從用戶或設(shè)備接收隨后的話音搜索查詢時(shí)執(zhí)行的過程300的示例的流程圖。下文將系統(tǒng)100的組件描述為執(zhí)行過程200和過程300,但系統(tǒng)100或另一系統(tǒng)的其他組件也可以執(zhí)行過程200或過程300。參考圖2,ASR 108從設(shè)備(諸如移動設(shè)備104)接收最初話音搜索查詢(202)。最初話音搜索查詢可以是最初的,因?yàn)樵撛捯羲阉鞑樵兪轻槍唧w用戶或設(shè)備接收的第一個(gè)話音搜索查詢;因?yàn)樵撛捯羲阉鞑樵兪菑奶峤辉撛捯羲阉鞑樵兊奶囟ㄎ恢媒邮盏牡谝粋€(gè);或者因?yàn)檫m配用戶語音模型或適配噪聲模型(或兩者)出于某些其他原因(例如,因?yàn)樵撃P驮谔囟〞r(shí)間段內(nèi)沒有使用而被刪除)而針對用戶或設(shè)備不存在。話音搜索查詢包括音頻信號,該音頻信號包括用戶音頻信號和環(huán)境音頻信號。用戶音頻信號包含由用戶口述至移動設(shè)備104的麥克風(fēng)的一個(gè)或多個(gè)話語以及潛在的環(huán)境音頻。環(huán)境音頻信號僅包含環(huán)境音頻。如下文所述,話音搜索查詢還可以包括上下文信息。當(dāng)被采用時(shí),ASR 108訪問關(guān)于話音搜索查詢的上下文信息(204)。該上下文信息例如可以提供關(guān)于話音搜索查詢中的音頻信號的條件的指示。該上下文信息可以包括時(shí)間信息、日期信息、引用在記錄期間由特定移動設(shè)備測量的速度或移動量的數(shù)據(jù)、其他設(shè)備傳感器數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)(例如,藍(lán)牙頭戴耳機(jī)、揚(yáng)聲器電話或傳統(tǒng)輸入方法)、如果用戶選擇提供時(shí)的用戶標(biāo)識符或者標(biāo)識移動設(shè)備類型或型號的信息。該上下文信息還可以包括在其提交話音搜索查詢的位置。該位置例如可以通過用戶的日程表確定、從用戶偏好(例如,存儲在ASR引擎108或搜索引擎106的用戶賬號中)或默認(rèn)位置導(dǎo)出、基于過去位置(例如,由用于提交查詢的設(shè)備(例如,移動設(shè)備104)的全球定位系統(tǒng)(GPS)模塊計(jì)算的最近位置)、在提交話音查詢時(shí)由用戶顯式提供、從話語確定、基于發(fā)射塔三角測量計(jì)算、由移動設(shè)備104中的GPS模塊提供(例如,話音搜索應(yīng)用可以訪問GPS設(shè)備以確定位置并且隨話音搜索查詢一起發(fā)送該位置)、或者使用航位推測法估計(jì)。如果由設(shè)備發(fā)送,則位置信息可以包括指示該位置信息的精確程度的精確度信息。ASR 108可以使用此類上下文信息來幫助語音識別,例如通過使用上下文信息來選擇語音識別系統(tǒng)的特定變型或者選擇適當(dāng)?shù)奶娲脩粽Z音模型或替代噪聲模型。ASR108可以將此類上下文信息傳遞到搜索引擎106以改進(jìn)搜索結(jié)果。某些或所有上下文信息可以與話音搜索查詢一起接收。如果針對用戶的適配用戶語音模型不存在,則ASR 108選擇最初或替代用戶語音模型并且將該最初用戶語音模型與用戶或設(shè)備相關(guān)聯(lián)(例如,取決于用戶是否可以被具體標(biāo)識)(206)。例如,如上文所述,ASR 108可以選擇若干可用替代用戶語音模型中的一個(gè)。選定的替代用戶語音模型可以是基于已知或確定信息被確定為用戶的語音特性的合理近似的用戶語音模型,盡管該選定的替代用戶語音模型尚未被用用戶的語音的任意采樣所適配。例如,在一個(gè)實(shí)現(xiàn)方式中,可以存在兩個(gè)替代用戶語音模型一個(gè)用于男性話音而一個(gè)用于女性話音。用戶的性別可以被確定并且適當(dāng)?shù)奶娲脩粽Z音模型(男性或女性)可以基于用戶的可能的性別進(jìn)行選擇。用戶的性別例如可以通過分析與最初話音搜索查詢一起接收的音頻信號或者基于例如由用戶自愿提交的并且包括在用戶的簡檔中的信息中的信息進(jìn)行確定。附加地或備選地,針對其他用戶(諸如移動設(shè)備102a_102c的用戶)的適配用戶語音模型可以被用作替代用戶語音模型。當(dāng)接收到最初話音搜索查詢時(shí),表示針對提交最初搜索查詢的用戶的期望模型與已經(jīng)存儲在數(shù)據(jù)庫111中的適配用戶語音模型(對應(yīng)于其他用戶)之間的相似度的相似度度量可以基于與最初搜索查詢一起包括的最初音頻信號進(jìn)行確定。例如,如果模型基于約束最大似然線性回歸技術(shù),則相似度度量可以是模型之間的差異的L2范數(shù)(針對每個(gè)系數(shù)的平方差的總和)。在其中使用GMM技術(shù)的情況下,相似度度量可以是兩個(gè)概率密度函數(shù)之間的Kullback-Leibler熵,或者如果一個(gè)模型是GMM而來自單個(gè)話語的期望模型只是空間點(diǎn),則可能是GMM的概率密度位于該空間點(diǎn)。在使用GMM的其他實(shí)現(xiàn)方式中,相似度度量例如可以是每個(gè)GMM的平均之間的距離,或者是由協(xié)方差矩陣的某些范數(shù)規(guī)范化的平均之間的距離。最接近用戶的期望模型(如由相似度度量所示)的適配用戶語音模型可以被選擇作為針對提交最初話音搜索查詢的用戶的替代用戶語音模型。例如,當(dāng)設(shè)備104的用戶提交最初話音搜索查詢時(shí),ASR 108可以確定表示針對設(shè)備104的用戶的期望用戶語音模型與針對設(shè)備102a的用戶的適配用戶語音模型之間的相似度的相似度度量。類似地,ASR108可以確定表示針對設(shè)備104的用戶的期望用戶語音模型與針對設(shè)備102b的用戶的適配用戶語音模型之間的相似度的相似度度量。如果相似度度量指示針對設(shè)備104的用戶的期望模型比針對設(shè)備102b的用戶的模型更類似于針對設(shè)備102a的用戶的模型,則針對設(shè)備102a的用戶的模型可以被用作針對設(shè)備104的用戶的替代用戶語音模型。作為采用GMM的實(shí)現(xiàn)方式的特定示例,話音搜索查詢可以包括包含語音和環(huán)境信號的話語。該查詢可以被分段成例如25ms的分段,其中每個(gè)分段是語音或者純環(huán)境。針對每個(gè)分段,計(jì)算特征向量\,其中對應(yīng)于語音的向量被指定為Xs。針對在數(shù)據(jù)庫中具有的每個(gè)潛在替代模型Mi,計(jì)算每個(gè)向量的似然度
權(quán)利要求
1.一種系統(tǒng),包括 一個(gè)或多個(gè)處理設(shè)備;以及 一個(gè)或多個(gè)存儲設(shè)備,其存儲有指令,當(dāng)所述指令被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 接收由設(shè)備基于來自用戶的音頻輸入生成的音頻信號,所述音頻信號至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分; 訪問與所述用戶相關(guān)聯(lián)的用戶語音模型; 確定所述音頻信號中的背景音頻在定義閾值以下; 響應(yīng)于確定所述音頻信號中的所述背景音頻在所述定義閾值以下,基于所述音頻信號適配訪問的用戶語音模型以生成對所述用戶的語音特性建模的適配用戶語音模型;以及使用所述適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與所述接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述音頻信號包括僅對應(yīng)于圍繞所述用戶的背景音頻的環(huán)境音頻部分,并且為了確定所述音頻信號中的所述背景音頻在定義閾值之下,所述指令包括如下指令,當(dāng)其被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定所述環(huán)境音頻部分中的能量的量;以及 確定所述環(huán)境音頻部分中的所述能量的量在閾值能量之下。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),為了確定所述音頻信號中的所述背景音頻在定義閾值之下,所述指令包括如下指令,當(dāng)其被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定所述音頻信號的信噪比;以及 確定所述信噪比在閾值信噪比之下。
4.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述音頻信號包括僅對應(yīng)于圍繞所述用戶的背景音頻的環(huán)境音頻部分,并且為了確定所述音頻信號的所述信噪比,所述指令包括如下指令,當(dāng)其被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定所述音頻信號的所述用戶音頻部分中的能量的量; 確定所述音頻信號的所述環(huán)境音頻部分中的能量的量;以及 通過確定所述用戶音頻部分與所述環(huán)境音頻部分中的能量的量之間的比率來確定所述信噪比。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中訪問的用戶語音模型包括沒有被適配為對所述用戶的所述語音特性建模的替代用戶語音模型。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 選擇所述替代用戶語音模型;以及 將所述替代語音模型與所述用戶進(jìn)行關(guān)聯(lián)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中為了選擇所述替代用戶語音模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定所述用戶的性別;以及 基于所述用戶的所述性別從多個(gè)替代用戶語音模型之中選擇所述替代用戶語音模型。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中為了選擇所述替代用戶語音模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定在記錄所述一個(gè)或多個(gè)話語時(shí)所述用戶的位置;以及 基于在記錄所述一個(gè)或多個(gè)話語時(shí)所述用戶的所述位置從多個(gè)替代用戶語音模型之中選擇所述替代用戶語音模型。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),為了選擇所述替代用戶語音模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定所述用戶的語言或口音;以及 基于所述語言或口音從多個(gè)替代用戶語音模型之中選擇所述替代用戶語音模型。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中為了選擇所述替代用戶語音模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 接收至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號; 確定多個(gè)替代用戶語音模型與基于所述最初音頻信號確定的所述用戶的期望用戶語音模型之間的相似性度量;以及 基于所述相似性度量從所述多個(gè)替代用戶語音模型之中選擇所述替代用戶語音模型。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述指令包括如下指令,當(dāng)其被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 訪問與所述用戶相關(guān)聯(lián)的噪聲模型;以及 其中為了執(zhí)行噪聲補(bǔ)償,所述指令進(jìn)一步包括如下指令,其使得所述一個(gè)或多個(gè)處理設(shè)備使用所述適配用戶語音模型和訪問噪聲模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中為了執(zhí)行噪聲補(bǔ)償,所述指令進(jìn)一步包括如下指令,其使得所述一個(gè)或多個(gè)處理設(shè)備 基于接收的音頻信號適配訪問噪聲模型以生成對圍繞所述用戶的背景音頻的特性建模的適配噪聲模型;以及 使用所述適配用戶語音模型和所述適配噪聲模型來對接收的音頻信號執(zhí)行噪聲補(bǔ)償。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述指令包括如下指令,當(dāng)其被執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 接收至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的第二用戶音頻部分的第二音頻信號; 確定所述第二音頻信號中的背景音頻在定義閾值之上;以及 響應(yīng)于確定所述第二音頻信號中的所述背景音頻在所述定義閾值之上,基于所述第二音頻信號適配與所述用戶相關(guān)聯(lián)的所述噪聲模型以生成對圍繞所述用戶的背景音頻的特性建模的適配噪聲模型。
14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述訪問噪聲模型包括尚未被適配為對圍繞所述用戶的背景音頻的特性建模的替代噪聲模型。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 選擇所述替代噪聲模型;以及 將所述替代噪聲模型與所述用戶進(jìn)行關(guān)聯(lián)。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中為了選擇所述替代噪聲模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 接收至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號; 確定在記錄對應(yīng)于所述最初用戶音頻部分的所述一個(gè)或多個(gè)話語時(shí)所述用戶的位置;以及 基于在記錄對應(yīng)于所述最初用戶音頻部分的所述一個(gè)或多個(gè)話語時(shí)所述用戶的所述位置從多個(gè)替代噪聲模型之中選擇所述替代噪聲模型。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中為了選擇所述替代噪聲模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 接收至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的最初用戶音頻部分的最初音頻信號; 確定多個(gè)替代噪聲模型與基于所述最初音頻信號確定的所述用戶的期望噪聲模型之間的相似性度量;以及 基于所述相似性度量從所述多個(gè)替代噪聲模型之中選擇所述替代噪聲模型。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述多個(gè)替代噪聲模型中的每個(gè)替代噪聲模型對特定位置中的背景音頻的特性建模。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述多個(gè)替代噪聲模型中的每個(gè)替代噪聲模型對特定種類的環(huán)境條件中的背景音頻的特性建模。
20.根據(jù)權(quán)利要求11所述的系統(tǒng),其中為了訪問所述噪聲模型,所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 確定在記錄所述一個(gè)或多個(gè)話語時(shí)所述用戶的位置;以及 基于所述用戶的所述位置從多個(gè)噪聲模型之中選擇所述噪聲模型。
21.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述音頻信號對應(yīng)于話音搜索查詢,并且所述指令包括如下指令,當(dāng)其被所述一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理設(shè)備 對所述濾波音頻信號執(zhí)行語音識別以生成所述一個(gè)或多個(gè)用戶話語的一個(gè)或多個(gè)候選轉(zhuǎn)錄; 使用所述一個(gè)或多個(gè)候選轉(zhuǎn)錄執(zhí)行搜索查詢以生成搜索結(jié)果;以及 向所述設(shè)備發(fā)送所述搜索結(jié)果。
22.—種系統(tǒng),包括 客戶端設(shè)備,其被配置為向自動化語音識別系統(tǒng)發(fā)送至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分的音頻信號; 自動化語音識別系統(tǒng),其被配置為 從所述客戶端設(shè)備接收所述音頻信號; 訪問與所述用戶相關(guān)聯(lián)的用戶語音模型; 確定所述音頻信號中的背景音頻在定義閾值之下; 響應(yīng)于確定所述音頻信號中的所述背景音頻在所述定義閾值之下,基于所述音頻信號適配訪問的用戶語音模型以生成對所述用戶的語音特性建模的適配用戶語音模型;以及使用所述適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與所述接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中所述自動化語音識別系統(tǒng)進(jìn)一步被配置為對所述濾波音頻信號執(zhí)行語音識別以生成所述一個(gè)或多個(gè)用戶話語的一個(gè)或多個(gè)候選轉(zhuǎn)錄,所述系統(tǒng)進(jìn)一步包括 搜索引擎系統(tǒng),其被配置為 使用所述一個(gè)或多個(gè)候選轉(zhuǎn)錄執(zhí)行搜索查詢以生成搜索結(jié)果;以及 向所述客戶端設(shè)備發(fā)送所述搜索結(jié)果。
24.一種方法,包括 接收由設(shè)備基于來自用戶的音頻輸入生成的音頻信號,所述音頻信號至少包括對應(yīng)于由所述設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分; 訪問與所述用戶相關(guān)聯(lián)的用戶語音模型; 確定所述音頻信號中的背景音頻在定義閾值以下; 響應(yīng)于確定所述音頻信號中的所述背景音頻在定義閾值以下,基于所述音頻信號適配訪問的用戶語音模型以生成對所述用戶的語音特性建模的適配用戶語音模型;以及 使用所述適配用戶語音模型對所述接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。
全文摘要
接收由設(shè)備基于來自用戶的音頻輸入生成的音頻信號。該音頻信號可以至少包括對應(yīng)于由設(shè)備記錄的一個(gè)或多個(gè)用戶話語的用戶音頻部分。可以訪問與用戶相關(guān)聯(lián)的用戶語音模型,并且可以進(jìn)行音頻信號中的背景音頻在定義閾值以下的確定。響應(yīng)于確定音頻信號中的背景音頻在定義閾值以下,可以基于音頻信號適配訪問的用戶語音模型以生成對用戶的語音特性建模的適配用戶語音模型。可以使用適配用戶語音模型對接收的音頻信號執(zhí)行噪聲補(bǔ)償以生成與所述接收的音頻信號相比具有減少的背景音頻的濾波音頻信號。
文檔編號G10L15/20GK103069480SQ201180026390
公開日2013年4月24日 申請日期2011年6月13日 優(yōu)先權(quán)日2010年6月14日
發(fā)明者M·I·洛伊德, T·克里斯特詹森 申請人:谷歌公司