一種基于視覺(jué)喚醒的語(yǔ)音控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能控制技術(shù)領(lǐng)域,尤其涉及一種基于視覺(jué)喚醒的語(yǔ)音控制方法。
【背景技術(shù)】
[0002]隨著科技的發(fā)展,從手控到音控,智能語(yǔ)音技術(shù)正逐步滲透至電視、家居、汽車(chē)、可穿戴設(shè)備等多個(gè)領(lǐng)域,越來(lái)越多的設(shè)備支持語(yǔ)音控制。未來(lái)的智能家庭很可能是完全或大部分地基于語(yǔ)音控制的。
[0003]圖1示出一個(gè)典型的語(yǔ)音控制設(shè)備的結(jié)構(gòu),其包含語(yǔ)音接收單元1,通常為麥克風(fēng),還包含語(yǔ)音識(shí)別單元2和處理單元3。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào),并進(jìn)行語(yǔ)音信號(hào)識(shí)別,將識(shí)別的結(jié)果發(fā)送給處理單元3,處理單元3指令該語(yǔ)音控制設(shè)備執(zhí)行對(duì)應(yīng)該語(yǔ)音信號(hào)的命令。
[0004]在控制身邊的多個(gè)諸如圖1所示的語(yǔ)音控制設(shè)備時(shí),與這些設(shè)備的語(yǔ)音交互中的一個(gè)重要功能是語(yǔ)音喚醒。這是可以理解的,為了區(qū)別地對(duì)待這多個(gè)語(yǔ)音控制設(shè)備,能將命令準(zhǔn)確地發(fā)送給其中確定的一個(gè)設(shè)備而使其他設(shè)備不受影響,只喚醒這個(gè)設(shè)備使它接收命令是必要的前提。目前喚醒語(yǔ)音控制設(shè)備的語(yǔ)音喚醒一般基于喚醒詞,例如設(shè)備的名稱(chēng)、代號(hào)等。
[0005]但目前的這種語(yǔ)音喚醒方式具有很多先天缺陷,比如當(dāng)用戶說(shuō)了和喚醒詞相同/相近的詞,那么雖然實(shí)際上用戶并沒(méi)有喚醒該設(shè)備的意思,設(shè)備也會(huì)被喚醒。另外,每次用戶喚醒設(shè)備時(shí)都要說(shuō)喚醒詞,這對(duì)于用戶來(lái)說(shuō)并不是什么好的使用體驗(yàn)。
[0006]由于人在語(yǔ)音交互中的一個(gè)普遍習(xí)慣是注視與其語(yǔ)音交互的對(duì)象,在用語(yǔ)音控制語(yǔ)音控制設(shè)備時(shí),使用者也是習(xí)慣于注視著該設(shè)備。因此相比于目前的語(yǔ)音喚醒,通過(guò)檢測(cè)使用者的目光確定喚醒的目標(biāo)設(shè)備是更為符合使用者的日常體驗(yàn)的。
[0007]因此,本領(lǐng)域的技術(shù)人員致力于開(kāi)發(fā)一種基于視覺(jué)喚醒的語(yǔ)音控制方法,以更智能地喚醒目標(biāo)設(shè)備。
【發(fā)明內(nèi)容】
[0008]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于視覺(jué)喚醒的語(yǔ)音控制方法,用于喚醒語(yǔ)音控制設(shè)備以使所述語(yǔ)音控制設(shè)備對(duì)其接收的語(yǔ)音信號(hào)做出回復(fù),其特征在于,所述語(yǔ)音控制方法包括:
[0009]步驟一、語(yǔ)音控制設(shè)備接收到至少部分的所述語(yǔ)音信號(hào)后,啟動(dòng)安裝在其上的圖像接收單元;
[0010]步驟二、所述圖像接收單元獲取圖像并傳送到圖像識(shí)別單元;
[0011]步驟三、所述圖像識(shí)別單元識(shí)別所述圖像,當(dāng)在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí),所述語(yǔ)音控制設(shè)備被喚醒以識(shí)別所述語(yǔ)音信號(hào)。
[0012]可選地,所述圖像接收單元為攝像頭。
[0013]進(jìn)一步地,所述攝像頭為廣角攝像頭。
[0014]可選地,所述圖像接收單元為可旋轉(zhuǎn)攝像頭,所述可旋轉(zhuǎn)攝像頭包括云臺(tái),所述云臺(tái)安裝在所述語(yǔ)音控制設(shè)備上。
[0015]進(jìn)一步地,所述云臺(tái)是2軸驅(qū)動(dòng)的。
[0016]進(jìn)一步地,所述步驟一包括:所述語(yǔ)音控制設(shè)備根據(jù)接收到的所述至少部分的所述語(yǔ)音信號(hào),分辨所述語(yǔ)音信號(hào)的來(lái)源方向;當(dāng)所述語(yǔ)音控制設(shè)備能確定所述語(yǔ)音信號(hào)的來(lái)源方向時(shí),所述語(yǔ)音控制設(shè)備指令所述攝像頭轉(zhuǎn)向所述語(yǔ)音信號(hào)的來(lái)源方向獲取圖像,當(dāng)所述語(yǔ)音控制設(shè)備不能確定所述語(yǔ)音信號(hào)的來(lái)源方向時(shí),所述語(yǔ)音控制設(shè)備指令所述攝像頭在其最大旋轉(zhuǎn)角度范圍內(nèi)轉(zhuǎn)動(dòng)并獲取圖像。
[0017]進(jìn)一步地,所述步驟三包括:
[0018]對(duì)于所述語(yǔ)音控制設(shè)備能確定所述語(yǔ)音信號(hào)的來(lái)源方向的情況,當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí),所述語(yǔ)音控制設(shè)備接收完畢所述語(yǔ)音信號(hào)后識(shí)別所述語(yǔ)音信號(hào),并做出回復(fù);
[0019]對(duì)于所述語(yǔ)音控制設(shè)備不能確定所述語(yǔ)音信號(hào)的來(lái)源方向的情況,當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉且所述人臉正在說(shuō)話且所述語(yǔ)音信號(hào)后未接收完畢時(shí),所述語(yǔ)音控制設(shè)備接收完畢所述語(yǔ)音信號(hào)后識(shí)別所述語(yǔ)音信號(hào),并做出回復(fù);當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉且所述人臉不在說(shuō)話且所述語(yǔ)音信號(hào)已接收完畢時(shí),所述語(yǔ)音控制設(shè)備識(shí)別所述語(yǔ)音信號(hào)并做出回復(fù),如果語(yǔ)音控制設(shè)備不能識(shí)別所述語(yǔ)音信號(hào)則不做回復(fù)。
[0020]進(jìn)一步地,當(dāng)在所述步驟三中,所述圖像中未檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí),所述語(yǔ)音控制設(shè)備不被喚醒。
[0021]進(jìn)一步地,所述語(yǔ)音控制設(shè)備通過(guò)語(yǔ)音接收單元接收所述語(yǔ)音信號(hào),通過(guò)語(yǔ)音識(shí)別單元識(shí)別所述語(yǔ)音信號(hào)。
[0022]進(jìn)一步地,所述語(yǔ)音接收單元為麥克風(fēng)。
[0023]本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法使語(yǔ)音控制設(shè)備在開(kāi)始接收到來(lái)源于使用者的語(yǔ)音信號(hào)時(shí)啟動(dòng)視覺(jué)喚醒功能,通過(guò)使用圖像接收單元和圖像識(shí)別單元在語(yǔ)音信號(hào)的來(lái)源方向搜索視線朝向該語(yǔ)音控制設(shè)備的人臉或者在整個(gè)區(qū)域搜索視線朝向該語(yǔ)音控制設(shè)備的人臉來(lái)判斷是否喚醒該語(yǔ)音控制設(shè)備;被喚醒的語(yǔ)音控制設(shè)備通過(guò)語(yǔ)音識(shí)別單元識(shí)別接收的語(yǔ)音信號(hào),做出相應(yīng)的回復(fù)。本發(fā)明通過(guò)上述的視覺(jué)喚醒功能來(lái)喚醒語(yǔ)音識(shí)別單元,更符合使用者的日常語(yǔ)音交互習(xí)慣,使用更為方便、智能。
[0024]以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明,以充分地了解本發(fā)明的目的、特征和效果。
【附圖說(shuō)明】
[0025]圖1是現(xiàn)有技術(shù)的語(yǔ)音控制設(shè)備的結(jié)構(gòu)框圖。
[0026]圖2是本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備的一種形式的結(jié)構(gòu)框圖。
[0027]圖3是本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備的另一種形式的結(jié)構(gòu)框圖。
[0028]圖4是應(yīng)用圖3所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法的流程圖。
【具體實(shí)施方式】
[0029]如圖2所示,在本發(fā)明的一個(gè)較佳的實(shí)施例中,本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備包括語(yǔ)音接收單元1、圖像接收單元11、語(yǔ)音識(shí)別單元2、圖像識(shí)別單元12和處理單元13。其中,語(yǔ)音接收單元I為麥克風(fēng);圖像接收單元11為攝像頭,較佳地為廣角攝像頭;語(yǔ)音接收單元I和圖像接收單元11安裝在語(yǔ)音控制設(shè)備的外殼上。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào),并進(jìn)行語(yǔ)音信號(hào)識(shí)別,將識(shí)別的結(jié)果發(fā)送給處理單元13。本示例中采用的語(yǔ)音識(shí)別單元2可以是任何現(xiàn)有技術(shù)的具有語(yǔ)音識(shí)別功能的軟件(和硬件)。圖像識(shí)別單元12獲取來(lái)自圖像接收單元11的圖像,并進(jìn)行圖像識(shí)別,將識(shí)別的結(jié)果發(fā)送給處理單元13,本示例中采用的圖像識(shí)別單元12可以是任何現(xiàn)有技術(shù)的具有人臉及視線方向的識(shí)別功能的軟件,例如中國(guó)專(zhuān)利申請(qǐng)“一種基于視線判斷的人機(jī)交互方法及系統(tǒng)”(申請(qǐng)?zhí)?CN201210261378.8)、中國(guó)專(zhuān)利申請(qǐng)“快速精確的人眼定位方法及基于人眼定位的視線估計(jì)方法”(申請(qǐng)?zhí)?CN201510152613.1)等。另外,處理單元13能夠向語(yǔ)音識(shí)別單元2和圖像識(shí)別單元12發(fā)出指令,指示其工作。
[0030]應(yīng)用圖2所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法包括:
[0031]步驟一、語(yǔ)音控制設(shè)備的語(yǔ)音接收單元I接收到至少部分的語(yǔ)音信號(hào)后,例如剛開(kāi)始接收到1-2個(gè)音節(jié)后,啟動(dòng)圖像接收單元11。
[0032]步驟二、圖像接收單元11獲取圖像并傳送到圖像識(shí)別單元12,即作為圖像接收單元11的攝像頭獲取其視野范圍內(nèi)的圖像,并將該圖像發(fā)送給圖像識(shí)別單元12。
[0033]步驟三、圖像識(shí)別單元12識(shí)別該圖像,當(dāng)在圖像中檢測(cè)到視線朝向語(yǔ)音控制設(shè)備的人臉時(shí),圖像識(shí)別單元12將此識(shí)別結(jié)果發(fā)送給處理單元13,處理單元13使語(yǔ)音控制設(shè)備被喚醒。繼而處理單元13使語(yǔ)音識(shí)別單元2工作,語(yǔ)音識(shí)別單元2接收完整的語(yǔ)音信號(hào)并對(duì)其進(jìn)行識(shí)別,語(yǔ)音識(shí)別單元2將識(shí)別結(jié)果發(fā)送給處理單元3,處理單元3使語(yǔ)音控制設(shè)備對(duì)該語(yǔ)音信號(hào)做出回復(fù)。
[0034]更優(yōu)選地,如圖3所示,在本發(fā)明的一個(gè)較佳的實(shí)施例中,本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備包括語(yǔ)音接收單元1、圖像接收單元21、語(yǔ)音識(shí)別單元2、圖像識(shí)別單元22和處理單元23。其中,語(yǔ)音接收單元I為麥克風(fēng);圖像接收單元21為可旋轉(zhuǎn)攝像頭,如具有能夠繞水平軸和豎直軸轉(zhuǎn)動(dòng)的2軸驅(qū)動(dòng)的云臺(tái)的可旋轉(zhuǎn)攝像頭;語(yǔ)音接收單元I和圖像接收單元21安裝在語(yǔ)音控制設(shè)備的外殼上,其中可旋轉(zhuǎn)攝像頭的云臺(tái)安裝在語(yǔ)音控制設(shè)備的外殼上。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào),并進(jìn)行語(yǔ)音信號(hào)識(shí)別,將識(shí)別的結(jié)果發(fā)送給處理單元23。本示例中采用的語(yǔ)音識(shí)別單元2可以是任何現(xiàn)有技術(shù)的具有語(yǔ)音識(shí)別功能并且能辨別語(yǔ)音的來(lái)源方向的軟件(和硬件)。圖像識(shí)別單元22獲取來(lái)自圖像接收單元21的圖像,并進(jìn)行圖像識(shí)別,將識(shí)別的結(jié)果發(fā)送給處理單元23,本示例中采用的圖像識(shí)別單元22可以是和前一示例中相同的任何現(xiàn)有技術(shù)的具有人臉及視線方向的識(shí)別功能的軟件。另外,處理單元23能夠向語(yǔ)音識(shí)別單元2和圖像識(shí)別單元22發(fā)出指令,指示其工作;處理單元23還能夠控制作為圖像接收單元21的可旋轉(zhuǎn)攝像頭的云臺(tái)的轉(zhuǎn)動(dòng),由此控制可旋轉(zhuǎn)攝像頭的轉(zhuǎn)動(dòng)方向和角度。
[0035]應(yīng)用圖3所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方