本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域,特別涉及語(yǔ)音控制方法和裝置。
背景技術(shù):
現(xiàn)階段,帶有語(yǔ)音控制功能的電子裝置一般來說硬件上只有一路麥克風(fēng)或拾音器等作為音頻輸入單元,語(yǔ)音通話或者錄入聲音的時(shí)候,這一路麥克風(fēng)會(huì)被占用,語(yǔ)音識(shí)別引擎程序就無(wú)法使用這一路麥克風(fēng)進(jìn)行語(yǔ)音指令的識(shí)別。現(xiàn)有技術(shù)通常是將語(yǔ)音引擎和視頻通話或者語(yǔ)音錄入寫在一個(gè)應(yīng)用里,這樣語(yǔ)音先經(jīng)過語(yǔ)音引擎識(shí)別,經(jīng)過識(shí)別不是指令,則把語(yǔ)音透?jìng)鹘o視頻通話或者語(yǔ)音錄入邏輯,但這樣做有兩個(gè)缺點(diǎn):
1.所有普通語(yǔ)音都要經(jīng)過語(yǔ)音識(shí)別處理,再進(jìn)行錄入,語(yǔ)音有較大延時(shí),很容易音視頻不同步。
2.需要定制視頻通話或者語(yǔ)音錄入程序,因?yàn)樾枰褂谜Z(yǔ)音引擎提供的API來導(dǎo)入聲音,機(jī)器人上無(wú)法使用普通的調(diào)用Android標(biāo)準(zhǔn)AudioRecord的第三方視頻通話或者語(yǔ)音錄入程序。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供語(yǔ)音控制方法和裝置,其能解決現(xiàn)有技術(shù)通常是將語(yǔ)音引擎和視頻通話或者語(yǔ)音錄入寫在一個(gè)應(yīng)用里,所有普通語(yǔ)音都要經(jīng)過語(yǔ)音識(shí)別處理,再進(jìn)行錄入,語(yǔ)音有較大延時(shí),很容易音視頻不同步,且需要定制視頻通話或者語(yǔ)音錄入程序的問題。
本發(fā)明的目的采用以下技術(shù)方案實(shí)現(xiàn):
語(yǔ)音控制方法,應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng),所述語(yǔ)音控制方法包括以下步驟:
獲取所述第一音頻單元輸入的第一語(yǔ)音信息;
識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令;
根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
優(yōu)選的,所述獲取所述第一音頻單元輸入的第一語(yǔ)音信息之前,還包括以下步驟:
接收喚醒所述第一音頻單元的喚醒指令;
判斷是否允許喚醒所述第一音頻單元;
若允許喚醒所述第一音頻單元,則喚醒所述第一音頻單元。
優(yōu)選的,所述若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,具體為:若需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,則掛斷音頻通話或視頻通話。
優(yōu)選的,所述獲取所述第一音頻單元輸入的第一語(yǔ)音信息之前,還包括以下步驟:
分配所述第一音頻單元為語(yǔ)音識(shí)別引擎的輸入源。
另一方面,本發(fā)明還公開了語(yǔ)音控制裝置,包括:
第一獲取單元,用于獲取所述第一音頻單元輸入的第一語(yǔ)音信息;
第二獲取單元,用于獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
識(shí)別單元,用于識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令;
第一判斷單元,用于根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
停止單元,用于若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
優(yōu)選的,所述語(yǔ)音控制裝置還包括:
接收單元,用于接收喚醒所述第一音頻單元的喚醒指令;
第二判斷單元,用于判斷是否允許喚醒所述第一音頻單元,若允許喚醒所述第一音頻單元,則喚醒所述第一音頻單元。
優(yōu)選的,所述停止單元包括:
掛斷單元,用于若需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,則掛斷音頻通話或視頻通話。
優(yōu)選的,所述語(yǔ)音控制裝置還包括:
分配單元,用于分配所述第一音頻單元為語(yǔ)音識(shí)別引擎的輸入源。
優(yōu)選的,所述第一音頻單元和第二音頻單元均包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無(wú)線音頻輸入裝置。
語(yǔ)音控制裝置,包括:
處理器以及用于存儲(chǔ)處理器可執(zhí)行的指令的存儲(chǔ)器;
所述處理器被配置為:
獲取所述第一音頻單元輸入的第一語(yǔ)音信息;
識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令;
根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
相比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中,將第一音頻單元作為語(yǔ)音識(shí)別引擎的音頻輸入源,第二音頻單元作為通話錄音等其他應(yīng)用的輸入源,實(shí)現(xiàn)在通話或者錄音過程中可以并行識(shí)別語(yǔ)音指令。解決了業(yè)界普遍存在的在音視頻通話中無(wú)法同時(shí)用語(yǔ)音并行處理語(yǔ)音指令(包括掛斷音頻通話)的問題。該方法無(wú)需定制音視頻通話或錄音程序,且避免了錄音延遲,導(dǎo)致音視頻不同步的問題。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的語(yǔ)音控制方法的流程示意圖。
圖2是本發(fā)明實(shí)施例二提供的語(yǔ)音控制方法的流程示意圖。
圖3是本發(fā)明實(shí)施例三提供的語(yǔ)音控制裝置的結(jié)構(gòu)示意圖。
圖4是本發(fā)明實(shí)施例四提供的語(yǔ)音控制裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說明如下。
實(shí)施例一:
如圖1所示的語(yǔ)音控制方法,應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)。針對(duì)語(yǔ)音通話和錄音功能占有音頻輸入單元,導(dǎo)致語(yǔ)音識(shí)別引擎無(wú)法使用麥克風(fēng)等音頻輸入單元進(jìn)行語(yǔ)音指令識(shí)別的缺點(diǎn),在硬件上多引入了一路音頻輸入單元,將語(yǔ)音識(shí)別引擎的聲源指定為多加的這一路音頻輸入單元,在通話或者錄音過程中可以并行識(shí)別語(yǔ)音指令。
具體的,在硬件上多引入一路麥克風(fēng)源,可以通過I2S(Inter—IC Sound)總線接入,該總線專責(zé)于音頻設(shè)備之間的數(shù)據(jù)傳輸,廣泛應(yīng)用于各種多媒體系統(tǒng)。它采用了沿獨(dú)立的導(dǎo)線傳輸時(shí)鐘與數(shù)據(jù)信號(hào)的設(shè)計(jì),通過將數(shù)據(jù)和時(shí)鐘信號(hào)分離,避免了因時(shí)差誘發(fā)的失真,為用戶節(jié)省了購(gòu)買抵抗音頻抖動(dòng)的專業(yè)設(shè)備的費(fèi)用。
音頻輸入單元可以包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無(wú)線音頻輸入裝置。
所述語(yǔ)音控制方法包括以下步驟:
S110,獲取所述第一音頻單元輸入的第一語(yǔ)音信息。
預(yù)先已經(jīng)設(shè)定第一音頻單元為語(yǔ)音識(shí)別引擎的音頻輸入源,第一語(yǔ)音信息作為語(yǔ)音識(shí)別引擎進(jìn)行語(yǔ)音識(shí)別的對(duì)象。
S120,識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令。
語(yǔ)音識(shí)別引擎預(yù)先存儲(chǔ)有語(yǔ)音指令和與語(yǔ)音指令相對(duì)應(yīng)的應(yīng)用、處理數(shù)據(jù)、做出動(dòng)作等反應(yīng)機(jī)制。處理器、控制器中的語(yǔ)音識(shí)別引擎或者獨(dú)立的語(yǔ)音識(shí)別芯片對(duì)第一語(yǔ)音信息做處理,識(shí)別第一語(yǔ)音信息中是否有與預(yù)先存儲(chǔ)的語(yǔ)音指令對(duì)應(yīng)的信息,若有,則進(jìn)行步驟S130;若沒有,則繼續(xù)獲取所述第一音頻單元輸入的第一語(yǔ)音信息。
S130,根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
語(yǔ)音識(shí)別引擎中預(yù)先存儲(chǔ)的語(yǔ)音指令,有些優(yōu)先級(jí)較高,或者第二音頻單元輸入第二語(yǔ)音信息會(huì)干擾語(yǔ)音指令相應(yīng)的反應(yīng)機(jī)制,就需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。當(dāng)然也包括第一語(yǔ)音信息中的語(yǔ)音指令相應(yīng)的反應(yīng)機(jī)制就是停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息這種情況。
S140,若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
具體的,是通過向正在使用第二音頻單元的應(yīng)用如音視頻通話、錄音等發(fā)送關(guān)閉或中止命令,停止第二音頻單元的輸入。
所述若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,具體為:若需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,則掛斷音頻通話或視頻通話,音頻通話也可是錄音過程,視頻通話也可以是錄像過程。
本實(shí)施例提供的語(yǔ)音控制方法,通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中,將第一音頻單元作為語(yǔ)音識(shí)別引擎的音頻輸入源,第二音頻單元作為通話錄音等其他應(yīng)用的輸入源,實(shí)現(xiàn)在通話或者錄音過程中可以并行識(shí)別語(yǔ)音指令。解決了業(yè)界普遍存在的在音視頻通話中無(wú)法同時(shí)用語(yǔ)音并行處理語(yǔ)音指令(包括掛斷音頻通話)的問題。該方法無(wú)需定制音視頻通話或錄音程序,且避免了錄音延遲,導(dǎo)致音視頻不同步的問題。
實(shí)施例二:
如圖2所示的語(yǔ)音控制方法,應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng),所述語(yǔ)音控制方法包括以下步驟:
S201,分配所述第一音頻單元為語(yǔ)音識(shí)別引擎的輸入源。本發(fā)明涉及的“第一”和“第二”僅用于區(qū)別不同部件,不具備區(qū)分順序作用??梢苑峙渌龅谝灰纛l單元為語(yǔ)音識(shí)別引擎的輸入源,當(dāng)然也可以分配其他音頻單元,如第二音頻單元為語(yǔ)音識(shí)別引擎的輸入源。
具體的,所述分配可以通過應(yīng)用程序編程接口(Application Programming Interface,API)等手段來實(shí)現(xiàn)。
通過可以分配語(yǔ)音識(shí)別引擎的輸入源,可以方便布置或調(diào)整第一音頻單元和第二音頻單元的位置。
作為本發(fā)明的進(jìn)一步改進(jìn),所述語(yǔ)音控制方法還包括以下步驟:
S202,接收喚醒所述第一音頻單元的喚醒指令。
具體的,可以為啟動(dòng)語(yǔ)音識(shí)別引擎設(shè)置一條專用指令。在語(yǔ)音識(shí)別引擎未啟動(dòng)之前,即使識(shí)別到語(yǔ)音識(shí)別引擎預(yù)先存儲(chǔ)的語(yǔ)音指令,也不會(huì)執(zhí)行與所述語(yǔ)音指令相對(duì)應(yīng)的事件。
S203,判斷是否允許喚醒所述第一音頻單元。如果設(shè)備處于緊急通話狀態(tài)或有比所述喚醒動(dòng)作優(yōu)先級(jí)高的指令,即使接收到喚醒所述第一音頻單元的喚醒指令,第一音頻單元也不允許向語(yǔ)音識(shí)別引擎輸出音頻信息。
S204,若允許喚醒所述第一音頻單元,則喚醒所述第一音頻單元。第一音頻單元激活生效,允許獲取所述第一音頻單元輸入的第一語(yǔ)音信息,即執(zhí)行步驟S210。
通過使語(yǔ)音識(shí)別引擎可關(guān)閉和開啟,實(shí)現(xiàn)設(shè)備計(jì)算資源的高效利用,而同樣可以保證本發(fā)明所要實(shí)現(xiàn)的效果:通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中,將第一音頻單元作為語(yǔ)音識(shí)別引擎的音頻輸入源,第二音頻單元作為通話錄音等其他應(yīng)用的輸入源,實(shí)現(xiàn)在通話或者錄音過程中可以并行識(shí)別語(yǔ)音指令。
S210,獲取所述第一音頻單元輸入的第一語(yǔ)音信息。
S220,識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令。
S230,根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
S240,若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
步驟S210、S220、S230和S240,分別對(duì)應(yīng)實(shí)施例一中的S110、S120、S130和S140,不再贅述。
實(shí)施例三:
如圖3所示的語(yǔ)音控制裝置,包括:
111,第一獲取單元,用于獲取所述第一音頻單元輸入的第一語(yǔ)音信息。
112,第二獲取單元,用于獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
典型的,所述第一音頻單元和第二音頻單元均包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無(wú)線音頻輸入裝置。
101,分配單元,用于分配所述第一音頻單元為語(yǔ)音識(shí)別引擎的輸入源。
102,接收單元,用于接收喚醒所述第一音頻單元的喚醒指令;
103第二判斷單元,用于判斷是否允許喚醒所述第一音頻單元,若允許喚醒所述第一音頻單元,則喚醒所述第一音頻單元。
120,識(shí)別單元,用于識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令;
130,第一判斷單元,用于根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
140,停止單元,用于若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
具體的,所述停止單元包括掛斷單元(圖未示),用于若需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息,則掛斷音頻通話或視頻通話。音頻通話也包括錄音等過程。
本實(shí)施例中的裝置與前述實(shí)施例中的方法是基于同一發(fā)明構(gòu)思下的兩個(gè)方面,在前面已經(jīng)對(duì)方法實(shí)施過程作了詳細(xì)的描述,所以本領(lǐng)域技術(shù)人員可根據(jù)前述描述清楚地了解本實(shí)施中的系統(tǒng)的結(jié)構(gòu)及實(shí)施過程,為了說明書的簡(jiǎn)潔,在此就不再贅述。
為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊分別描述。當(dāng)然,在實(shí)施本發(fā)明時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。
通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的模塊或單元可以是或者也可以不是物理上分開的,作為模塊或單元示意的部件可以是或者也可以不是物理模塊,既可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)模塊上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等,如實(shí)施例四。
實(shí)施例四:
如圖4所示的裝置,包括:處理器200以及用于存儲(chǔ)處理器200可執(zhí)行的指令的存儲(chǔ)器300;
所述處理器200被配置為:
獲取所述第一音頻單元輸入的第一語(yǔ)音信息;
識(shí)別所述第一語(yǔ)音信息中的語(yǔ)音指令;
根據(jù)所述語(yǔ)音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息;
若需要,則停止獲取所述第二音頻單元輸入的第二語(yǔ)音信息。
本實(shí)施例中的裝置與前述實(shí)施例中的方法是基于同一發(fā)明構(gòu)思下的兩個(gè)方面,在前面已經(jīng)對(duì)方法實(shí)施過程作了詳細(xì)的描述,所以本領(lǐng)域技術(shù)人員可根據(jù)前述描述清楚地了解本實(shí)施中的系統(tǒng)的結(jié)構(gòu)及實(shí)施過程,為了說明書的簡(jiǎn)潔,在此就不再贅述。
本發(fā)明實(shí)施例提供的裝置,通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中,將第一音頻單元作為語(yǔ)音識(shí)別引擎的音頻輸入源,第二音頻單元作為通話錄音等其他應(yīng)用的輸入源,實(shí)現(xiàn)在通話或者錄音過程中可以并行識(shí)別語(yǔ)音指令。解決了業(yè)界普遍存在的在音視頻通話中無(wú)法同時(shí)用語(yǔ)音并行處理語(yǔ)音指令(包括掛斷音頻通話)的問題。該方法無(wú)需定制音視頻通話或錄音程序,且避免了錄音延遲,導(dǎo)致音視頻不同步的問題。
對(duì)于本領(lǐng)域的技術(shù)人員來說,可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及變形,而所有的這些改變以及變形都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。