本公開涉及一種目標(biāo)聲音獲取裝置、智能組件設(shè)備及其方法。
背景技術(shù):
各大媒體競相報道的《烏鎮(zhèn)指數(shù):全球人工智能發(fā)展報告2016》。報告顯示,2015年全球新增AI企業(yè)數(shù)量達(dá)到了806家,同時,過去一年有近百億美元1200多次的AI領(lǐng)域的投資,人工智能的產(chǎn)品主要集中的學(xué)習(xí)大腦、視覺辨識、聲音辨識三大核心領(lǐng)域。
在人們的日常生活中隨著互聯(lián)網(wǎng)和人工智能的發(fā)展,從手持遙控器發(fā)展到直接使用語音來交互技術(shù)和生活中的音視頻產(chǎn)品、數(shù)碼產(chǎn)品、移動通信產(chǎn)品、汽車電子產(chǎn)品、家用電器直接語音交互的形式去使用和控制相關(guān)產(chǎn)品是必然的趨勢。語音交互技術(shù)可以讓生活中任何產(chǎn)品變成有感知和能和人溝通和交互的產(chǎn)品,像人類的家人一樣去和人類溝通為人類服務(wù)。
因此,具備語音交互的智能組件急需一種近乎人與人之間進(jìn)行交流的語音交互系統(tǒng)。目前國內(nèi)人工智能語音產(chǎn)品領(lǐng)域,主要采用亞馬遜echo和谷歌Home兩款產(chǎn)品形態(tài)和架構(gòu)。這些產(chǎn)品通常需要采用多語音采集設(shè)備,例如多個麥克風(fēng)語音采集設(shè)備。由于目前的語音交互單元采用環(huán)形或直線型聲音采集單元,這為語音交互單元所應(yīng)用的智能終端的空間或外形設(shè)計帶來巨大障礙,限制用戶產(chǎn)品的外形工業(yè)設(shè)計,導(dǎo)致眾多智能終端產(chǎn)品的外觀設(shè)計大多雷同。其他廠商的類似產(chǎn)品也無任何軟硬件創(chuàng)新,因此現(xiàn)有的技術(shù)阻礙了人工智能語音產(chǎn)品的跨越式發(fā)展。
因此,人工智能語音產(chǎn)品行業(yè)需要一套軟硬件成本有性價比、簡單高效、對產(chǎn)品外形工業(yè)設(shè)計限制最小的軟硬件解決方案,來帶動整個人工智能語音產(chǎn)品行業(yè)的發(fā)展。
技術(shù)實現(xiàn)要素:
為了消除現(xiàn)有技術(shù)中的上述缺陷之一或全部,根據(jù)本公開的一個方面,提供了一種外部目標(biāo)聲音獲取裝置,包括:內(nèi)部音頻信號單元,將內(nèi)部音頻信號輸出為內(nèi)部聲音;一個或多個環(huán)境聲音采集單元,采集包括所輸出的內(nèi)部聲音和外部目標(biāo)聲音的環(huán)境聲音,并將所采集的環(huán)境聲音轉(zhuǎn)換為環(huán)境音頻信號;以及聲音分離單元,接收來自所述內(nèi)部音頻信號單元的內(nèi)部音頻以及從所述一個或多個環(huán)境聲音采集單元的輸出端傳遞來的環(huán)境音頻信號,通過比較消除所述環(huán)境音頻信號中包含的內(nèi)部音頻信號,從而分離出所述目標(biāo)聲音的音頻信號。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述一個或多個環(huán)境聲音采集單元只有一個。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述內(nèi)部音頻信號單元將所述內(nèi)部音頻信號輸出到一個功放單元,并且所述聲音分離單元接收到的所述內(nèi)部音頻信號取自于所述功放單元的輸出端或輸入端。而且所述一個或多個環(huán)境聲音采集單元所采集的環(huán)境音頻信號經(jīng)由一個音頻單元輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述取自于所述功放單元的輸出端的內(nèi)部音頻信號經(jīng)由一個音頻單元輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述內(nèi)部音頻信號單元將所述內(nèi)部音頻信號輸出到一個音頻單元,并且所述聲音分離單元接收到的所述內(nèi)部音頻信號取自于所述音頻單元的輸出端或輸入端。而且所述一個或多個環(huán)境聲音采集單元所采集的環(huán)境音頻信號經(jīng)由所述音頻單元輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述取自于所述音頻單元的輸出端的內(nèi)部音頻信號經(jīng)由所述音頻單元自身輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取裝置,其中所述內(nèi)部音頻信號單元將所述內(nèi)部音頻信號輸出到一個音頻單元和一個功放單元,所述聲音分離單元接收到的所述內(nèi)部音頻信號取自于所述功放單元或所述功放單元的輸出端,并且所述一個或多個環(huán)境聲音采集單元所采集的環(huán)境音頻信號與所述內(nèi)部音頻信號都經(jīng)由所述音頻單元輸入到所述聲音分離單元。
根據(jù)本公開的另一個方面,提供了一種目標(biāo)聲音獲取方法,包括:接收來自內(nèi)部音頻信號單元的內(nèi)部音頻信號;接收由一個或多個環(huán)境聲音采集單元所采集的包括所述內(nèi)部音頻信號單元所輸出的內(nèi)部聲音和外部目標(biāo)聲音的環(huán)境聲音,并將所采集的環(huán)境聲音轉(zhuǎn)換為環(huán)境音頻信號;以及由一個音頻分離單元比較來自所述內(nèi)部音頻信號單元的內(nèi)部音頻以及從所述一個或多個環(huán)境聲音采集單元的輸出端傳遞來的環(huán)境音頻信號,由此消除所述環(huán)境音頻信號中包含的內(nèi)部音頻信號,從而分離出所述目標(biāo)聲音的音頻信號。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述一個或多個環(huán)境聲音采集單元只有一個。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述內(nèi)部音頻信號經(jīng)由一個功放單元的輸出端或輸入端接收于所述內(nèi)部音頻信號單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述經(jīng)由所述功放單元的輸出端接收的內(nèi)部音頻信號經(jīng)由一個音頻單元接收輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述內(nèi)部音頻信號經(jīng)由一個音頻單元的輸出端或輸入端接收于所述內(nèi)部音頻信號單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述經(jīng)由所述音頻單元的輸出端接收的內(nèi)部音頻信號經(jīng)由所述音頻單元自身被輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述環(huán)境音頻信號經(jīng)由一個音頻單元被輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述環(huán)境音頻信號經(jīng)由所述音頻單元被輸入到所述聲音分離單元。
根據(jù)本公開的目標(biāo)聲音獲取方法,其中所述內(nèi)部音頻信號從所述內(nèi)部音頻信號單元被輸出到一個音頻單元和功放單元,所述內(nèi)部音頻信號取自于所述功放單元或所述功放單元的輸出端,并且所述環(huán)境音頻信號與所述內(nèi)部音頻信號都經(jīng)由所述音頻單元被輸入到所述聲音分離單元。
根據(jù)本公開的又一個方面,提供了一種包含如上所述所述的任意一種目標(biāo)聲音獲取裝置的智能組件,還包括:語音處理單元,根據(jù)來自所述聲音分離單元所分離出的目標(biāo)聲音音頻信號進(jìn)行語義分析獲得目標(biāo)聲音的語義信號;指令轉(zhuǎn)換單元,將來自所述語音處理單元的語義信號轉(zhuǎn)換成指令信號;以及控制器,經(jīng)由通訊單元接收來自指令轉(zhuǎn)換單元的指令信號控制所述智能組件。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
圖1所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的實施例的結(jié)構(gòu)示意圖;
圖2所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第一種變化實施例的結(jié)構(gòu)示意圖;
圖3所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第二種變化實施例的結(jié)構(gòu)示意圖;
圖4所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第三種變化實施例的結(jié)構(gòu)示意圖;
圖5所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第四種變化實施例的結(jié)構(gòu)示意圖;
圖6所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第五種變化實施例的結(jié)構(gòu)示意圖;
圖7所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第六種變化實施例的結(jié)構(gòu)示意圖;
圖8所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第七種變化實施例的結(jié)構(gòu)示意圖;
圖9所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第八種變化實施例的結(jié)構(gòu)示意圖;
圖10所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第九種變化實施例的結(jié)構(gòu)示意圖;
圖11所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十種變化實施例的結(jié)構(gòu)示意圖;
圖12所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十一種變化實施例的結(jié)構(gòu)示意圖;
圖13所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十二種變化實施例的結(jié)構(gòu)示意圖;
圖14所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十三種變化實施例的結(jié)構(gòu)示意圖;以及
圖15所示的是根據(jù)本公開的目標(biāo)聲音獲取方法的流程圖。
具體實施方式
這里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
在本公開使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本公開的保護(hù)范圍。在本公開和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。
應(yīng)當(dāng)理解,盡管在本公開可能采用術(shù)語第一、第二、第三等來描述各種信息,例如第一揚聲器和第二揚聲器,但這些信息不應(yīng)限于這些術(shù)語,第一揚聲器可被稱為第二揚聲器,反之亦然。這些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當(dāng)……時”或“響應(yīng)于確定”。
為了使本領(lǐng)域技術(shù)人員更好地理解本公開,下面結(jié)合附圖和具體實施方式對本公開作進(jìn)一步詳細(xì)說明。
在采用麥克風(fēng)語音音視頻交互控制系統(tǒng)中,主要使用語音進(jìn)行人機(jī)交互來進(jìn)行控制和人機(jī)對話。例如人工智能交互或語音控制類的音視頻產(chǎn)品、數(shù)碼產(chǎn)品、移動通信產(chǎn)品、汽車電子產(chǎn)品、家用電器中都會使用語音進(jìn)行人機(jī)交互,這就需要對麥克風(fēng)所采集的所有聲音進(jìn)行分離,以便獲取人們在進(jìn)行人機(jī)交互時的目標(biāo)語言,即語言指令。
在目前現(xiàn)有的各種進(jìn)行語音采集的智能組件中,都采用多麥克風(fēng)方式,例如圓形的六麥克風(fēng)方式采集環(huán)境語音并對語音進(jìn)行定位。并且這種圓形的六麥克風(fēng)布置方式采集語音時需要人們對智能組件進(jìn)行靜音處理,以便盡可能消除非目標(biāo)聲音,以提高智能組件識別語音指令的成功率。這很顯然為使得人機(jī)交互操作過程變得繁瑣。而且,這種圓形的六麥克風(fēng)布置方式為智能組件的外觀設(shè)計帶來了空間布置障礙。圖1所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置100的智能組件的實施例的結(jié)構(gòu)示意圖。如圖1所示,外部目標(biāo)聲音獲取裝置100包括:內(nèi)部音頻信號單元110、一個或多個環(huán)境聲音采集單元120以及聲音分離單元130。
內(nèi)部音頻信號單元110將內(nèi)部音頻信號輸出為內(nèi)部聲音。此處所提及的“內(nèi)部音頻信號”以及“內(nèi)部聲音”并不是指聲音本身的位置,而是表明音頻或聲音的來源,即該聲音或音頻來自于該智能組件的內(nèi)部。例如為智能電視正在播出的音視頻的聲音、手機(jī)或PAD等數(shù)碼產(chǎn)品自己的音視頻的音源聲音、汽車電子產(chǎn)品正在播放的聲音、家用電器例如冰箱、洗衣機(jī)、電飯煲、空調(diào)以及烤箱等正發(fā)出的聲音。內(nèi)部音頻信號單元110會將該內(nèi)部音頻可以輸出到智能組件的外部以便于人進(jìn)行交互或者直接播放聲音供人們欣賞。因此,在人機(jī)交互過程中,人們所處的環(huán)境中會包含智能組件自己所發(fā)出的內(nèi)部聲音。
所述一個或多個環(huán)境聲音采集單元120采集包括所輸出的內(nèi)部聲音和外部目標(biāo)聲音的環(huán)境聲音,并將所采集的環(huán)境聲音轉(zhuǎn)換為環(huán)境音頻信號。所述外部目標(biāo)聲音正是進(jìn)行人機(jī)交互時人們向智能組件所發(fā)出的自然語音指令。由于智能組件向外播放內(nèi)部音頻,因此所述環(huán)境聲音采集單元120所采集的環(huán)境聲音中包含有人們的指令聲音和內(nèi)部音頻信號單元110所播放的內(nèi)部音頻或內(nèi)部聲音。如果直接將所采集的環(huán)境聲音輸入到語音處理單元140(后面將會解釋)進(jìn)行語音識別處理,這將為語音識別過程帶來極大的運算負(fù)擔(dān)。因此。
因此,為了減輕語音識別過程的處理負(fù)擔(dān),本公開的外部目標(biāo)聲音獲取裝置100在進(jìn)行語音識別之前提供了一個聲音分離單元130,該聲音分離單元130對所采集的環(huán)境語音進(jìn)行分離處理獲得外部目標(biāo)聲音。具體而言,聲音分離單元130接收來自所述內(nèi)部音頻信號單元的內(nèi)部音頻以及從所述一個或多個環(huán)境聲音采集單元的輸出端傳遞來的環(huán)境音頻信號,通過比較消除所述環(huán)境音頻信號中包含的內(nèi)部音頻信號,從而分離出所述目標(biāo)聲音的音頻信號。具體而言,可以將所述環(huán)境聲音采集單元120所采集的環(huán)境聲音作為被減數(shù)音頻,而將音頻信號單元110所輸出的內(nèi)部音頻作為減數(shù)音頻。通過聲音分離單元130對環(huán)境聲音和內(nèi)部音頻進(jìn)行減法運算,最終的差即為外部目標(biāo)音頻或聲音。
根據(jù)本公開的智能組件還具有語音處理單元140。該語音處理單元140接收來自聲音分離單元130輸出的外部目標(biāo)音頻,并對該外部目標(biāo)音頻進(jìn)行語音識別處理,由此識別出人機(jī)交互雙方中的人們的語音語義。具體的語音識別處理不是本公開的內(nèi)容。本公開所述的智能組件在進(jìn)行語音識別是可以采用目前市場上有售的各種語音識別元件,因此不在此對其進(jìn)行詳細(xì)描述。
隨后,智能組件指令轉(zhuǎn)換單元150將來自所述語音處理單元140的語義信號轉(zhuǎn)換成指令信號。接著,智能組件的控制器170經(jīng)由通訊單元160接收來自指令轉(zhuǎn)換單元150的指令信號控制所述智能組件進(jìn)行各種操作,例如,智能組件基于該指令進(jìn)行控制操作,例如控制家用電器、家居產(chǎn)品或設(shè)備、電器照明產(chǎn)品或設(shè)備、廚房衛(wèi)浴電器。
舉例而言,用戶可以在進(jìn)行電飯煲做飯時發(fā)現(xiàn)家中的米不足以用一個星期時,可以對智能電飯煲說“購買大米100公斤”,則包含有上述構(gòu)成單元的智能電飯煲就會采集該外部目標(biāo)語音,并轉(zhuǎn)換成購買指令,并經(jīng)由射頻電路單元180與互聯(lián)網(wǎng)進(jìn)行通訊,執(zhí)行購買大米的過程。或者用戶在做飯的過程中通過對智能電飯煲說“洗衣機(jī)洗衣服”,則包含有上述構(gòu)成單元的智能電飯煲就會采集該外部目標(biāo)語音,并轉(zhuǎn)換成購買指令,并經(jīng)由射頻電路單元180與互聯(lián)網(wǎng)進(jìn)行通訊,通知智能洗衣機(jī)執(zhí)行洗衣操作。
例如,在目前智能電視流行的情況下,人們可以通過遙控器上的語音輸入單元來進(jìn)行語音選擇節(jié)目。但是現(xiàn)有的語音輸入方式都需要用戶預(yù)先進(jìn)行語音輸入的準(zhǔn)備工作,例如按下語音輸入按鈕,使得電視機(jī)處于外部語音接收狀態(tài),即消除電視機(jī)自身的語音廣播,從而使得語音輸入環(huán)境中部包含任何電視機(jī)的內(nèi)部音頻。這會使得語音交互過程復(fù)雜化。在采用本公開的技術(shù)的情況下,人們不需要現(xiàn)有技術(shù)的上述步驟,可以直接對智能電視機(jī)的語音輸入單元發(fā)出語音指令,無論電視機(jī)是否處于播放語音的情況下都可以,無需用戶進(jìn)行任何語音輸入的預(yù)先準(zhǔn)備操作。
尤其需要指出的是,采用本公開的技術(shù),可以只采用一個麥克風(fēng)進(jìn)行環(huán)境聲音的采集,這讓人工智能語音音視頻產(chǎn)品的軟硬件成本更有性價比、簡單高效、對產(chǎn)品外形工業(yè)設(shè)計無限制的軟硬件解決方案,來帶動整個人工智能語音音視頻產(chǎn)品行業(yè)的發(fā)展。與現(xiàn)有手機(jī)產(chǎn)品和目前國內(nèi)人工智能語音產(chǎn)品領(lǐng)域的產(chǎn)品,使用根據(jù)本公開目標(biāo)聲音獲取裝置的智能組件語音喚醒距離更遠(yuǎn),并且在較大背景音下也更容易被喚醒。
盡管圖1所示的內(nèi)部音頻在被輸出到揚聲器200的過程中被反饋到聲音分離單元130。但是在智能組件也可以直接通過內(nèi)部音頻信號單元110將內(nèi)部音頻信號輸入到聲音分離單元130(如圖1中虛線箭頭所顯示的那樣)。
盡管在圖1中目標(biāo)聲音獲取裝置100為單獨裝置,但是其各個構(gòu)成單元也可以集成在其他單元內(nèi)。例如,可以將目標(biāo)聲音獲取裝置100的內(nèi)部音頻信號單元110以及聲音分離單元130集成在一個標(biāo)準(zhǔn)的Soc(芯片上系統(tǒng))應(yīng)用處理器中。這種部署方式可以根據(jù)用戶的需要進(jìn)行具體更改。圖2所示的正是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第一種變化實施例的結(jié)構(gòu)示意圖。如圖2所示,內(nèi)部音頻信號單元110、聲音分離單元130、語音處理單元140以及指令轉(zhuǎn)換單元150都可以被集成在一個標(biāo)準(zhǔn)的Soc(芯片上系統(tǒng))應(yīng)用處理器中,但其各個單元都各自執(zhí)行上述各個操作過程。
此外,與圖1所示的實施例還有不同的地方是,目標(biāo)聲音獲取裝置100還包括連接到內(nèi)部音頻信號單元110對外輸出端的功放單元210,其對內(nèi)部音頻信號進(jìn)行功率放大。而被功率放大后的內(nèi)部音頻被輸入到聲音分離單元130,即直接將模擬內(nèi)部音頻信號反饋到聲音分離單元130。因此,聲音分離單元130可以直接基于來自功放單元210對環(huán)境聲音采集單元120所采集的模擬環(huán)境聲音進(jìn)行分離處理,獲得模擬的目標(biāo)聲音。隨后所獲得模擬目標(biāo)聲音可以經(jīng)過數(shù)模轉(zhuǎn)換并被輸送到語音處理單元140、指令轉(zhuǎn)化單元150、處理器170進(jìn)行后續(xù)的語音識別處理和控制操作過程。在此不重復(fù)描述。
盡管在圖1和圖2中只描述了一個揚聲器200,但是也沒有兩個揚聲器200,尤其是在需要輸出內(nèi)部數(shù)字音頻的情況下。圖3所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第二種變化實施例的結(jié)構(gòu)示意圖。如圖3所示,內(nèi)部音頻信號單元110在經(jīng)由功放單元210將內(nèi)部音頻信號輸出到揚聲器200-1的同時,也經(jīng)由音頻單元220將內(nèi)部音頻信號輸出到揚聲器200-2。該音頻單元220可以對內(nèi)部音頻信號進(jìn)行調(diào)制獲得更高質(zhì)量的音頻信號。如圖3所示,被功放單元210功率放大后的內(nèi)部音頻被輸入到聲音分離單元130,即直接將模擬內(nèi)部音頻信號反饋到聲音分離單元130。
圖4所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第三種變化實施例的結(jié)構(gòu)示意圖。如圖4所示,該實施例與圖3所示的實施例的不同之處在于,被功放單元210功率放大后的內(nèi)部音頻經(jīng)由音頻單元220被反饋輸入到聲音分離單元130。因此,功率放大后的模擬內(nèi)部音頻通關(guān)過音頻單元220編碼成數(shù)字信號被反饋到聲音分離單元130。對應(yīng)地,也可以使得環(huán)境聲音采集單元120本身包含有模數(shù)轉(zhuǎn)換元件,以便所采集的環(huán)境聲音在被輸入到聲音分離單元130之前被轉(zhuǎn)換為數(shù)字音頻??蛇x擇地,也可以將模數(shù)轉(zhuǎn)換元件部署在分離單元130中,以便在進(jìn)行聲音分離操作之前將所接收的環(huán)境聲音數(shù)字化。隨著SOC芯片的功能不同,該模數(shù)轉(zhuǎn)換元件的部署位置會相應(yīng)變化。盡管此處顯示了被功放單元210功率放大后的內(nèi)部音頻經(jīng)由音頻單元220被反饋輸入到聲音分離單元130(如圖4中音頻單元220中的虛線所示),但是該內(nèi)部音頻在經(jīng)過音頻單元220時可以受到處理也可以不受到任何處理。如果不受到任何處理,則此時音頻單元220對于該內(nèi)部音頻的而言僅僅是一個反饋通道。
圖5所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第四種變化實施例的結(jié)構(gòu)示意圖。如圖5所示的實施例與圖3所示的實施例不同之處在于,輸入到聲音分離單元130的內(nèi)部音頻信號不是取自于功放單元210的輸出端,而是取自于音頻單元220的輸出端。其他部分相同,因此不再詳細(xì)描述。
圖6所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第五種變化實施例的結(jié)構(gòu)示意圖。圖6所示的實施例與圖5所示的實施例的不同在于,取自于音頻單元220的輸出端的內(nèi)部音頻信號經(jīng)由該音頻單元220自身而反饋到聲音分離單元。盡管此處顯示了被音頻單元220處理后的內(nèi)部音頻經(jīng)由音頻單元220自身被反饋輸入到聲音分離單元130(如圖6中音頻單元220中的虛線所示),但是該內(nèi)部音頻在經(jīng)過音頻單元220反饋輸入到聲音分離單元130時可以受到處理也可以不受到任何處理。如果不受到任何處理,則此時音頻單元220對于該被反饋的內(nèi)部音頻的而言僅僅是一個反饋通道。由于該內(nèi)部音頻信號取自于音頻單元220,因此也可以不需要配置該功放單元210以及對應(yīng)的揚聲器200-1。其他部分與前述實施例相同,因此不再詳細(xì)描述。
圖7所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第六種變化實施例的結(jié)構(gòu)示意圖。圖7所示的實施例與圖3所示的實施例的區(qū)別在于,內(nèi)部音頻信號取自于功放單元210的輸入端,并直接反饋到聲音分離單元130。其他部分與圖3所示的實施例相同。
圖8所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第七種變化實施例的結(jié)構(gòu)示意圖。圖8所示的實施例與圖5所示的實施例之間的區(qū)別在于內(nèi)部音頻信號取自于音頻單元220的輸入端,并直接反饋到聲音分離單元130。其他部分與圖5所示的的實施例相同。
圖9所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第八種變化實施例的結(jié)構(gòu)示意圖。圖9所示的實施例與圖8所示的實施例不同之處在于環(huán)境聲音采集單元120所采集的環(huán)境聲音經(jīng)由所述音頻單元220被輸入到聲音分離單元130中。盡管此處顯示了所采集的環(huán)境聲音經(jīng)由音頻單元220被輸入到聲音分離單元130(如圖9中音頻單元220中的虛線所示),但是該環(huán)境聲音在經(jīng)過音頻單元220反饋輸入到聲音分離單元130時可以受到處理也可以不受到任何處理。如果不受到任何處理,則此時音頻單元220對于該被反饋的內(nèi)部音頻的而言僅僅是一個反饋通道。由于該內(nèi)部音頻信號取自于音頻單元220的輸入端,因此也可以不需要配置該功放單元210以及對應(yīng)的揚聲器200-1。其他部分與前述實施例相同,因此不再詳細(xì)描述。
圖10所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第九種變化實施例的結(jié)構(gòu)示意圖。圖10所示的實施例與圖9所示的實施例不同之處在于內(nèi)部音頻取自于音頻單元220的輸出端并被直接反饋到聲音分離單元130。其他部分與前述實施例相同,因此不再詳細(xì)描述。
圖11所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十種變化實施例的結(jié)構(gòu)示意圖。圖11所示的實施例與圖10所示的實施例不同之處在于內(nèi)部音頻取自于功放單元210的輸出端并被直接反饋到聲音分離單元130。其他部分與前述實施例相同,因此不再詳細(xì)描述。
圖12所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十一種變化實施例的結(jié)構(gòu)示意圖。圖12所示的實施例與圖11所示的實施例不同之處在于內(nèi)部音頻取自于功放單元210的輸入端并被直接反饋到聲音分離單元130。其他部分與前述實施例相同,因此不再詳細(xì)描述。
圖13所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十二種變化實施例的結(jié)構(gòu)示意圖。圖13所示的實施例與圖11所示的實施例不同之處在于取自于功放單元210的輸出端的內(nèi)部音頻經(jīng)由音頻單元220反饋到聲音分離單元130(如圖13中音頻單元220中的虛線所示)。其他部分與前述實施例相同,因此不再詳細(xì)描述。盡管此處顯示了被功放單元210功率放大后的內(nèi)部音頻經(jīng)由音頻單元220被反饋輸入到聲音分離單元130(如圖13中音頻單元220中的虛線所示),但是該內(nèi)部音頻在經(jīng)過音頻單元220時可以受到處理也可以不受到任何處理。如果不受到任何處理,則此時音頻單元220對于該內(nèi)部音頻的而言僅僅是一個反饋通道。
圖14所示的是根據(jù)本公開的包含有目標(biāo)聲音獲取裝置的智能組件的第十三種變化實施例的結(jié)構(gòu)示意圖。圖14所示的實施例與圖10所示的實施例不同之處在于取自于音頻單元220的輸出端的內(nèi)部音頻經(jīng)由音頻單元220自身反饋到聲音分離單元130(如圖13中音頻單元220中的虛線所示)。其他部分與前述實施例相同,因此不再詳細(xì)描述。盡管此處顯示了被音頻單元220調(diào)制后的內(nèi)部音頻經(jīng)由音頻單元220自身被反饋輸入到聲音分離單元130(如圖13中音頻單元220中的虛線所示),但是該被反饋的內(nèi)部音頻在經(jīng)過音頻單元220時可以受到處理也可以不受到任何處理。如果不受到任何處理,則此時音頻單元220對于該內(nèi)部音頻的而言僅僅是一個反饋通道。
在本說明書中提到的“音頻文件”可以是包含與聲音相關(guān)的信息的并可以被再現(xiàn)為聲音的各種文件或數(shù)據(jù),例如,音頻文件可以例如為“MP3”格式的文件。聲音處理單元140可以包括用于存儲音頻文件的存儲器(未示出),從而可以訪問存儲器,以讀取存儲在存儲器中的音頻文件。將音頻文件轉(zhuǎn)換為音頻信號的方法是已知的,所以為了避免冗余,本說明書將省略對已知內(nèi)容的詳細(xì)描述。
內(nèi)部音頻信號單元110可以將音頻信號提供到外部,從而通過外部的諸如揚聲器等的設(shè)備來再現(xiàn)聲音。內(nèi)部音頻信號輸出端可以包括3.5mm接頭插孔、AUX電纜接口、光纖接口等。
環(huán)境聲音采集單元120可以包括諸如傳聲器等的可以將聲音轉(zhuǎn)換為電信號的裝置。
聲音分離單元130的操作可以通過下式來表示:
被減數(shù)音頻信號-減數(shù)音頻信號=目標(biāo)音頻信號
其中,被減數(shù)音頻信號可以為與包括再現(xiàn)的聲音和目標(biāo)聲音的環(huán)境聲音對應(yīng)的環(huán)境音頻信號,減數(shù)音頻信號可以為與再現(xiàn)的聲音對應(yīng)的轉(zhuǎn)換的音頻信號和/或輸出的音頻信號。
在得到了目標(biāo)音頻信號之后,語音處理單元140可以根據(jù)目標(biāo)音頻信號進(jìn)行聲音識別??梢允褂靡阎姆椒▉磉M(jìn)行聲音的識別,例如,隱馬爾可夫模型(Hidden Markov Model)等。語音處理單元140可以基于云端的樣本數(shù)據(jù)庫進(jìn)行語音識別處理。盡管此處沒有進(jìn)行具體描述,本領(lǐng)域技術(shù)人員可以獲知,語音處理單元140可以通過射頻電路單元180連接到互聯(lián)網(wǎng)190以便進(jìn)行云端數(shù)據(jù)庫進(jìn)行查詢,從而進(jìn)行更為精確的語音識別。對此,本公開不進(jìn)行詳細(xì)解釋,因為該識別過程可以通過現(xiàn)有技術(shù)來實現(xiàn)。
指令轉(zhuǎn)換單元150可以將聲音識別的結(jié)果,例如語音語義轉(zhuǎn)換成智能組件的指令并將所轉(zhuǎn)換的指令提供到控制器170。控制器170可以包括諸如中央處理器(CPU)、微處理器(micro processor)等。
上述單個傳聲器或單個傳聲器電路板也可是通過柔性電路板或單傳聲器音頻電纜的形式的將其獨立于與產(chǎn)品主體電路板外,柔性電路板或單傳聲器音頻電纜通過焊接或連接器接插的形式與產(chǎn)品主體電路板相連接,以便達(dá)到滿足不同工業(yè)外觀設(shè)計的尺寸長度要求。
因此,根據(jù)示例性實施例的聲音識別裝置的距音源的有效識別距離更遠(yuǎn),且可以實現(xiàn)在環(huán)境聲音中存在音量較大的干擾噪音的情況下進(jìn)行準(zhǔn)確的識別。根據(jù)示例性實施例的目標(biāo)聲音獲取裝置可僅需要單個傳聲器,且因可以直接通過SoC完成音頻處理而不需要額外增加數(shù)字信號處理器(DSP)。所以可以簡化結(jié)構(gòu)、降低軟硬件成本,且可以便于進(jìn)行產(chǎn)品的工業(yè)設(shè)計。
圖15所示的是根據(jù)本公開的目標(biāo)聲音獲取方法的流程圖。根據(jù)示例性實施例的聲音識別方法可以通過上述的目標(biāo)聲音獲取裝置和智能組件實現(xiàn),并因此省略對相同或相似內(nèi)容的重復(fù)描述。如圖15所示,首先在步驟S1510處,接收來自內(nèi)部音頻信號單元110的內(nèi)部音頻信號。同時,在步驟S1520處接收由一個或多個環(huán)境聲音采集單元120所采集的包括所述內(nèi)部音頻信號單元所輸出的內(nèi)部聲音和外部目標(biāo)聲音的環(huán)境聲音,并將所采集的環(huán)境聲音轉(zhuǎn)換為環(huán)境音頻信號。最后,在步驟S1530處由一個音頻分離單元130比較來自所述內(nèi)部音頻信號單元的內(nèi)部音頻以及從所述一個或多個環(huán)境聲音采集單元的輸出端傳遞來的環(huán)境音頻信號,由此消除所述環(huán)境音頻信號中包含的內(nèi)部音頻信號,從而分離出所述目標(biāo)聲音的音頻信號。
以上結(jié)合具體實施例描述了本公開的基本原理,但是,需要指出的是,對本領(lǐng)域的普通技術(shù)人員而言,能夠理解本公開的方法和裝置的全部或者任何步驟或者部件,可以在任何計算裝置(包括處理器、存儲介質(zhì)等)或者計算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本公開的說明的情況下運用他們的基本編程技能就能實現(xiàn)的。
因此,本公開的目的還可以通過在任何計算裝置上運行一個程序或者一組程序來實現(xiàn)。所述計算裝置可以是公知的通用裝置。因此,本公開的目的也可以僅僅通過提供包含實現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本公開,并且存儲有這樣的程序產(chǎn)品的存儲介質(zhì)也構(gòu)成本公開。顯然,所述存儲介質(zhì)可以是任何公知的存儲介質(zhì)或者將來所開發(fā)出來的任何存儲介質(zhì)。
還需要指出的是,在本公開的裝置和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本公開的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。
上述具體實施方式,并不構(gòu)成對本公開保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本公開的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本公開保護(hù)范圍之內(nèi)。