本公開總體上涉及機(jī)器學(xué)習(xí)系統(tǒng)。更具體地,本公開涉及用于多聲道(multi-channel)語音增強(qiáng)的基于掩碼的(mask-based)神經(jīng)波束成形的系統(tǒng)和方法。
背景技術(shù):
1、使用電子設(shè)備(諸如移動設(shè)備、可穿戴設(shè)備和智能家用電器設(shè)備)的用戶之間的通信或與使用電子設(shè)備的智能助理的交互已經(jīng)變得越來越普遍。通常,這些通信或交互涉及使用由諸如自動語音識別(speech?recognition)、關(guān)鍵詞識別(keyword?spotting)等系統(tǒng)驅(qū)動的各種語音用戶接口。然而,現(xiàn)實環(huán)境中的周圍噪聲和干擾給恰當(dāng)?shù)乩斫庹Z音輸入造成了問題。例如,語音質(zhì)量在嘈雜的環(huán)境中急劇地下降,導(dǎo)致關(guān)鍵信息在接收器側(cè)(人耳或智能助理)丟失。
技術(shù)實現(xiàn)思路
1、技術(shù)解決方案
2、本公開涉及用于多聲道語音增強(qiáng)的基于掩碼的神經(jīng)波束成形的系統(tǒng)和方法。
3、在第一實施例中,一種方法包括在第一時間窗口期間從多個音頻輸入設(shè)備接收一組有噪音頻信號。該方法還包括基于該組有噪音頻信號生成有噪時間-頻率(time-frequency)表示。該方法還包括將有噪時間-頻率表示作為輸入提供給掩碼估計模型,該掩碼估計模型被訓(xùn)練以輸出用于從有噪時間-頻率表示預(yù)測干凈語音音頻的干凈時間-頻率表示的掩碼。該方法還包括基于掩碼來確定波束成形濾波器權(quán)重。該方法還包括將波束成形濾波器權(quán)重應(yīng)用于有噪時間-頻率表示,以將干凈語音音頻與該組有噪音頻信號相隔離。另外,該方法包括輸出干凈語音音頻。
4、在第二實施例中,一種電子設(shè)備包括至少一個處理設(shè)備,所述至少一個處理設(shè)備被配置為在第一時間窗口期間從多個音頻輸入設(shè)備接收一組有噪音頻信號。所述至少一個處理設(shè)備還被配置為基于該組有噪音頻信號生成有噪時間-頻率表示。所述至少一個處理設(shè)備還被配置為將有噪時間-頻率表示作為輸入提供給掩碼估計模型,所述掩碼估計模型被訓(xùn)練以輸出用于從有噪時間-頻率表示預(yù)測干凈語音音頻的干凈時間-頻率表示的掩碼。所述至少一個處理設(shè)備還被配置為基于掩碼來確定波束成形濾波器權(quán)重。所述至少一個處理設(shè)備還被配置為將波束成形濾波器權(quán)重應(yīng)用于有噪時間-頻率表示,以將干凈語音音頻與該組有噪音頻信號相隔離。另外,至少一個處理設(shè)備被配置為輸出干凈語音音頻。
5、在第三實施例中,一種非暫時性機(jī)器可讀介質(zhì)包含指令,所述指令在被執(zhí)行時使得電子設(shè)備的至少一個處理器在第一時間窗口期間從多個音頻輸入設(shè)備接收一組有噪音頻信號。所述非暫時性機(jī)器可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使得所述至少一個處理器基于該組有噪音頻信號生成有噪時間-頻率表示。所述非暫時性機(jī)器可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使得所述至少一個處理器將有噪時間-頻率表示作為輸入提供給掩碼估計模型,所述掩碼估計模型被訓(xùn)練以輸出用于從有噪時間-頻率表示預(yù)測干凈語音音頻的干凈時間-頻率表示的掩碼。所述非暫時性機(jī)器可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使得所述至少一個處理器基于掩碼來確定波束成形濾波器權(quán)重。所述非暫時性機(jī)器可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使得所述至少一個處理器將所述波束成形濾波器權(quán)重應(yīng)用于有噪時間-頻率表示,以將干凈語音音頻與該組有噪音頻信號相隔離。另外,非暫態(tài)機(jī)器可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使得所述至少一個處理器輸出干凈語音音頻。
6、根據(jù)以下附圖、描述和權(quán)利要求,其他技術(shù)特征對于本領(lǐng)域技術(shù)人員而言可以是清晰的。
7、在進(jìn)行下面的詳細(xì)描述之前,對貫穿本專利文件使用的某些詞語和短語的定義進(jìn)行闡述可能是有利的。術(shù)語“發(fā)送”、“接收”和“通信”及其派生詞包括直接和間接通信。術(shù)語“包括(include)”和“包括(comprise)”及其派生詞意指包括但不限于此。術(shù)語“或”是包含性的,意指和/或。短語“與……相關(guān)聯(lián)”及其派生詞意指包括、被包括在……內(nèi)、與……互連、包含、被包含在……內(nèi)、連接到或與……連接、耦合到或與……耦合、可與……通信、與……協(xié)作、交織、并置、接近于、綁定到或與……綁定、具有、具有……的性質(zhì)、與……具有關(guān)系等。
8、此外,下面描述的各種功能可以由一個或多個計算機(jī)程序?qū)崿F(xiàn)或支持,每個計算機(jī)程序由計算機(jī)可讀程序代碼形成并體現(xiàn)在計算機(jī)可讀介質(zhì)中。術(shù)語“應(yīng)用”和“程序”是指適于在合適的計算機(jī)可讀程序代碼中實現(xiàn)的一個或多個計算機(jī)程序、軟件組件、指令集、過程、功能、對象、類、實例、相關(guān)數(shù)據(jù)或其一部分。短語“計算機(jī)可讀程序代碼”包括任何類型的計算機(jī)代碼,包括源代碼、目標(biāo)代碼和可執(zhí)行代碼。短語“計算機(jī)可讀介質(zhì)”包括能夠由計算機(jī)訪問的任何類型的介質(zhì),諸如只讀存儲器(rom)、隨機(jī)存取存儲器(ram)、硬盤驅(qū)動器、光盤(cd)、數(shù)字視頻光盤(dvd)或任何其他類型的存儲器?!胺菚簳r性”計算機(jī)可讀介質(zhì)不包括傳輸暫時性電信號或其他信號的有線、無線、光學(xué)或其他通信鏈路。非暫時性計算機(jī)可讀介質(zhì)包括可以永久存儲數(shù)據(jù)的介質(zhì)和可以存儲數(shù)據(jù)并稍后重寫數(shù)據(jù)的介質(zhì),諸如可重寫光盤或可擦除存儲器設(shè)備。
9、如這里所使用的,諸如“具有”、“可以具有”、“包括”或“可以包括”特征(如數(shù)字、功能、操作或諸如一部分的組件)的術(shù)語和短語指示該特征的存在,并且不排除其他特征的存在。此外,如本文所使用的,短語“a或b”、“a和/或b中的至少一個”或“a和/或b中的一個或多個”可以包括a和b的所有可能的組合。例如,“a或b”、“a和b中的至少一個”和“a或b中的至少一個”可以指示以下全部:(1)包括至少一個a、(2)包括至少一個b或(3)包括至少一個a和至少一個b。此外,如這里所使用的,術(shù)語“第一”和“第二”可以修飾各種組件而不管其重要性,并且不限制組件。這些術(shù)語僅用于將一個組件與另一個組件區(qū)分開。例如,第一用戶設(shè)備和第二用戶設(shè)備可以指示彼此不同的用戶設(shè)備,而不管設(shè)備的順序或重要性。在不脫離本公開的范圍的情況下,第一組件可以表示為第二組件,反之亦然。
10、應(yīng)當(dāng)理解,當(dāng)元素(諸如第一元素)被稱為(操作地或通信地)與另一元素(諸如第二元素)“耦合”或“連接”,或者當(dāng)元素(諸如第一元素)被稱為(操作地或通信地)“耦合到”或“連接到”另一元素(諸如第二元素)時,其可以直接或經(jīng)由第三元素與另一元素耦合或連接,或者可以直接或經(jīng)由第三元素耦合或連接到另一元素。相反,應(yīng)當(dāng)理解,當(dāng)元素(諸如第一元素)被稱為與另一元素(諸如第二元素)“直接耦合”或“直接耦合到”另一元素(諸如第二元素),或者與另一元素(諸如第二元素)“直接連接”或“直接連接到”另一元素(諸如第二元素)時,則在該元素和另一元素之間沒有其他元素(諸如第三元素)。
11、如本文所使用的,取決于各種情況,短語“被配置(或設(shè)置)為”可以與短語“適合于”、“具有……的能力”、“被設(shè)計為”、“適于”、“被制造為”或“能夠”互換使用。短語“被配置(或設(shè)置)為”本質(zhì)上不意味著“在硬件中專門設(shè)計為”。相反,短語“被配置為”可以表示設(shè)備可以與另一設(shè)備或部件一起執(zhí)行操作。例如,短語“被配置(或設(shè)置)為執(zhí)行a、b和c的處理器”可以表示可以通過執(zhí)行存儲在存儲器設(shè)備中的一個或多個軟件程序來執(zhí)行操作的通用處理器(諸如cpu或應(yīng)用處理器)或用于執(zhí)行操作的專用處理器(諸如嵌入式處理器)。
12、這里使用的術(shù)語和短語僅用于描述本公開的一些實施例,而不是限制本公開的其他實施例的范圍。應(yīng)當(dāng)理解,單數(shù)形式“一”、“一個”和“該”包括復(fù)數(shù)指代,除非上下文另有明確說明。這里使用的所有術(shù)語和短語,包括技術(shù)和科學(xué)術(shù)語和短語,具有與本公開的實施例所屬領(lǐng)域的普通技術(shù)人員通常理解的含義相同的含義。將進(jìn)一步理解,術(shù)語和短語,諸如在常用詞典中定義的那些術(shù)語和短語,應(yīng)當(dāng)被解釋為具有與其在相關(guān)領(lǐng)域的上下文中的含義一致的含義,并且將不以理想化或過度正式的意義來解釋,除非在此明確地如此定義。在一些情況下,這里定義的術(shù)語和短語可以被解釋為排除本公開的實施例。
13、根據(jù)本公開的實施例的“電子設(shè)備”的示例可以包括以下中的至少一個:智能電話、平板個人計算機(jī)(pc)、移動電話、視頻電話、電子書閱讀器、臺式pc、膝上型計算機(jī)、上網(wǎng)本計算機(jī)、工作站、個人數(shù)字助理(pda)、便攜式多媒體播放器(pmp)、mp3播放器、移動醫(yī)療設(shè)備、相機(jī)或可穿戴設(shè)備(諸如智能眼鏡、頭戴式設(shè)備(hmd)、電子服裝、電子手鐲、電子項鏈、電子配飾、電子紋身或智能手表)。電子設(shè)備的其他示例包括智能家用電器。智能家用電器的示例可以包括以下中的至少一個:電視機(jī)、數(shù)字視頻盤(dvd)播放器、音頻播放器、冰箱、空調(diào)、吸塵器、烤箱、微波爐、洗衣機(jī)、烘干機(jī)、空氣凈化器、機(jī)頂盒、家庭自動化控制面板、安全控制面板、tv盒(諸如三星homesync、appletv或google?tv)、智能揚聲器或具有集成數(shù)字助理的揚聲器(諸如三星galaxy?home、apple?homepod或amazon?echo)、游戲控制臺(諸如xbox、playstation或nintendo)、電子詞典、電子鑰匙、便攜式攝像機(jī)或電子相框。電子設(shè)備的其他示例包括以下中的至少一個:各種醫(yī)療設(shè)備(諸如各種便攜式醫(yī)療測量設(shè)備(如血糖測量設(shè)備、心跳測量設(shè)備或體溫測量設(shè)備)、磁資源血管造影(mra)設(shè)備、磁資源成像(mri)設(shè)備、計算機(jī)斷層掃描(ct)設(shè)備、成像設(shè)備或超聲設(shè)備)、導(dǎo)航設(shè)備、全球定位系統(tǒng)(gps)接收器、事件數(shù)據(jù)記錄器(edr)、飛行數(shù)據(jù)記錄器(fdr)、汽車信息娛樂設(shè)備、航行電子設(shè)備(諸如航行導(dǎo)航設(shè)備或陀螺羅盤)、航空電子設(shè)備、安全設(shè)備、車輛頭部單元、工業(yè)或家用機(jī)器人、自動柜員機(jī)(atm)銷售點(pos)設(shè)備或物聯(lián)網(wǎng)(iot)設(shè)備(諸如燈泡、各種傳感器、電表或燃?xì)獗?、噴灑器、火?zāi)報警器、恒溫器、路燈、烤面包機(jī)、健身器材、熱水箱、加熱器或鍋爐)。電子設(shè)備的其他示例包括以下中的至少一部分:一件家具或建筑物/結(jié)構(gòu)、電子板、電子簽名接收設(shè)備、投影儀或各種測量設(shè)備(諸如用于測量水、電、氣體或電磁波的設(shè)備)。注意,根據(jù)本公開的各種實施例,電子設(shè)備可以是上面列出的設(shè)備中的一個或組合。根據(jù)本公開的一些實施例,電子設(shè)備可以是柔性電子設(shè)備。這里公開的電子設(shè)備不限于上面列出的設(shè)備,并且根據(jù)技術(shù)的發(fā)展可以包括新的電子設(shè)備。
14、在以下描述中,根據(jù)本公開的各種實施例,參考附圖描述了電子設(shè)備。如這里所使用的,術(shù)語“用戶”可以表示使用電子設(shè)備的人或另一設(shè)備(諸如人工智能電子設(shè)備)。
15、在本專利文件中可以提供其他某些詞語和短語的定義。本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解,在許多情況下,如果不是大多數(shù)情況,這樣的定義適用于這樣定義的詞語和短語的先前以及將來的使用。
16、本技術(shù)中的描述都不應(yīng)被解讀為暗示任何特定元素、步驟或功能是必須包括在權(quán)利要求范圍內(nèi)的必要元素。專利主題的范圍僅由權(quán)利要求限定。此外,權(quán)利要求都不旨在援引35u.s.c.§112(f),除非確切的詞語“用于……的裝置”后面跟著分詞(participle)。任何其他術(shù)語的使用,包括但不限于在權(quán)利要求內(nèi)使用的“機(jī)構(gòu)”、“模塊”、“設(shè)備”、“單元”、“組件”、“元素”、“構(gòu)件”、“裝置”、“機(jī)器”、“系統(tǒng)”、“處理器”或“控制器”,被申請人理解為是指相關(guān)領(lǐng)域技術(shù)人員已知的結(jié)構(gòu),而不旨在援引35u.s.c.§112(f)。