一種基于視覺(jué)喚醒的語(yǔ)音控制方法

文檔序號(hào)：9452634閱讀：877來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于視覺(jué)喚醒的語(yǔ)音控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能控制技術(shù)領(lǐng)域，尤其涉及一種基于視覺(jué)喚醒的語(yǔ)音控制方法。
【背景技術(shù)】
[0002]隨著科技的發(fā)展，從手控到音控，智能語(yǔ)音技術(shù)正逐步滲透至電視、家居、汽車(chē)、可穿戴設(shè)備等多個(gè)領(lǐng)域，越來(lái)越多的設(shè)備支持語(yǔ)音控制。未來(lái)的智能家庭很可能是完全或大部分地基于語(yǔ)音控制的。
[0003]圖1示出一個(gè)典型的語(yǔ)音控制設(shè)備的結(jié)構(gòu)，其包含語(yǔ)音接收單元1，通常為麥克風(fēng)，還包含語(yǔ)音識(shí)別單元2和處理單元3。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào)，并進(jìn)行語(yǔ)音信號(hào)識(shí)別，將識(shí)別的結(jié)果發(fā)送給處理單元3，處理單元3指令該語(yǔ)音控制設(shè)備執(zhí)行對(duì)應(yīng)該語(yǔ)音信號(hào)的命令。
[0004]在控制身邊的多個(gè)諸如圖1所示的語(yǔ)音控制設(shè)備時(shí)，與這些設(shè)備的語(yǔ)音交互中的一個(gè)重要功能是語(yǔ)音喚醒。這是可以理解的，為了區(qū)別地對(duì)待這多個(gè)語(yǔ)音控制設(shè)備，能將命令準(zhǔn)確地發(fā)送給其中確定的一個(gè)設(shè)備而使其他設(shè)備不受影響，只喚醒這個(gè)設(shè)備使它接收命令是必要的前提。目前喚醒語(yǔ)音控制設(shè)備的語(yǔ)音喚醒一般基于喚醒詞，例如設(shè)備的名稱(chēng)、代號(hào)等。
[0005]但目前的這種語(yǔ)音喚醒方式具有很多先天缺陷，比如當(dāng)用戶說(shuō)了和喚醒詞相同/相近的詞，那么雖然實(shí)際上用戶并沒(méi)有喚醒該設(shè)備的意思，設(shè)備也會(huì)被喚醒。另外，每次用戶喚醒設(shè)備時(shí)都要說(shuō)喚醒詞，這對(duì)于用戶來(lái)說(shuō)并不是什么好的使用體驗(yàn)。
[0006]由于人在語(yǔ)音交互中的一個(gè)普遍習(xí)慣是注視與其語(yǔ)音交互的對(duì)象，在用語(yǔ)音控制語(yǔ)音控制設(shè)備時(shí)，使用者也是習(xí)慣于注視著該設(shè)備。因此相比于目前的語(yǔ)音喚醒，通過(guò)檢測(cè)使用者的目光確定喚醒的目標(biāo)設(shè)備是更為符合使用者的日常體驗(yàn)的。
[0007]因此，本領(lǐng)域的技術(shù)人員致力于開(kāi)發(fā)一種基于視覺(jué)喚醒的語(yǔ)音控制方法，以更智能地喚醒目標(biāo)設(shè)備。

【發(fā)明內(nèi)容】

[0008]為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于視覺(jué)喚醒的語(yǔ)音控制方法，用于喚醒語(yǔ)音控制設(shè)備以使所述語(yǔ)音控制設(shè)備對(duì)其接收的語(yǔ)音信號(hào)做出回復(fù)，其特征在于，所述語(yǔ)音控制方法包括:
[0009]步驟一、語(yǔ)音控制設(shè)備接收到至少部分的所述語(yǔ)音信號(hào)后，啟動(dòng)安裝在其上的圖像接收單元；
[0010]步驟二、所述圖像接收單元獲取圖像并傳送到圖像識(shí)別單元；
[0011]步驟三、所述圖像識(shí)別單元識(shí)別所述圖像，當(dāng)在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí)，所述語(yǔ)音控制設(shè)備被喚醒以識(shí)別所述語(yǔ)音信號(hào)。
[0012]可選地，所述圖像接收單元為攝像頭。
[0013]進(jìn)一步地，所述攝像頭為廣角攝像頭。
[0014]可選地，所述圖像接收單元為可旋轉(zhuǎn)攝像頭，所述可旋轉(zhuǎn)攝像頭包括云臺(tái)，所述云臺(tái)安裝在所述語(yǔ)音控制設(shè)備上。
[0015]進(jìn)一步地，所述云臺(tái)是2軸驅(qū)動(dòng)的。
[0016]進(jìn)一步地，所述步驟一包括:所述語(yǔ)音控制設(shè)備根據(jù)接收到的所述至少部分的所述語(yǔ)音信號(hào)，分辨所述語(yǔ)音信號(hào)的來(lái)源方向；當(dāng)所述語(yǔ)音控制設(shè)備能確定所述語(yǔ)音信號(hào)的來(lái)源方向時(shí)，所述語(yǔ)音控制設(shè)備指令所述攝像頭轉(zhuǎn)向所述語(yǔ)音信號(hào)的來(lái)源方向獲取圖像，當(dāng)所述語(yǔ)音控制設(shè)備不能確定所述語(yǔ)音信號(hào)的來(lái)源方向時(shí)，所述語(yǔ)音控制設(shè)備指令所述攝像頭在其最大旋轉(zhuǎn)角度范圍內(nèi)轉(zhuǎn)動(dòng)并獲取圖像。
[0017]進(jìn)一步地，所述步驟三包括:
[0018]對(duì)于所述語(yǔ)音控制設(shè)備能確定所述語(yǔ)音信號(hào)的來(lái)源方向的情況，當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí)，所述語(yǔ)音控制設(shè)備接收完畢所述語(yǔ)音信號(hào)后識(shí)別所述語(yǔ)音信號(hào)，并做出回復(fù)；
[0019]對(duì)于所述語(yǔ)音控制設(shè)備不能確定所述語(yǔ)音信號(hào)的來(lái)源方向的情況，當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉且所述人臉正在說(shuō)話且所述語(yǔ)音信號(hào)后未接收完畢時(shí)，所述語(yǔ)音控制設(shè)備接收完畢所述語(yǔ)音信號(hào)后識(shí)別所述語(yǔ)音信號(hào)，并做出回復(fù)；當(dāng)所述圖像識(shí)別單元在所述圖像中檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉且所述人臉不在說(shuō)話且所述語(yǔ)音信號(hào)已接收完畢時(shí)，所述語(yǔ)音控制設(shè)備識(shí)別所述語(yǔ)音信號(hào)并做出回復(fù)，如果語(yǔ)音控制設(shè)備不能識(shí)別所述語(yǔ)音信號(hào)則不做回復(fù)。
[0020]進(jìn)一步地，當(dāng)在所述步驟三中，所述圖像中未檢測(cè)到視線朝向所述語(yǔ)音控制設(shè)備的人臉時(shí)，所述語(yǔ)音控制設(shè)備不被喚醒。
[0021]進(jìn)一步地，所述語(yǔ)音控制設(shè)備通過(guò)語(yǔ)音接收單元接收所述語(yǔ)音信號(hào)，通過(guò)語(yǔ)音識(shí)別單元識(shí)別所述語(yǔ)音信號(hào)。
[0022]進(jìn)一步地，所述語(yǔ)音接收單元為麥克風(fēng)。
[0023]本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法使語(yǔ)音控制設(shè)備在開(kāi)始接收到來(lái)源于使用者的語(yǔ)音信號(hào)時(shí)啟動(dòng)視覺(jué)喚醒功能，通過(guò)使用圖像接收單元和圖像識(shí)別單元在語(yǔ)音信號(hào)的來(lái)源方向搜索視線朝向該語(yǔ)音控制設(shè)備的人臉或者在整個(gè)區(qū)域搜索視線朝向該語(yǔ)音控制設(shè)備的人臉來(lái)判斷是否喚醒該語(yǔ)音控制設(shè)備；被喚醒的語(yǔ)音控制設(shè)備通過(guò)語(yǔ)音識(shí)別單元識(shí)別接收的語(yǔ)音信號(hào)，做出相應(yīng)的回復(fù)。本發(fā)明通過(guò)上述的視覺(jué)喚醒功能來(lái)喚醒語(yǔ)音識(shí)別單元，更符合使用者的日常語(yǔ)音交互習(xí)慣，使用更為方便、智能。
[0024]以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明，以充分地了解本發(fā)明的目的、特征和效果。
【附圖說(shuō)明】
[0025]圖1是現(xiàn)有技術(shù)的語(yǔ)音控制設(shè)備的結(jié)構(gòu)框圖。
[0026]圖2是本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備的一種形式的結(jié)構(gòu)框圖。
[0027]圖3是本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備的另一種形式的結(jié)構(gòu)框圖。
[0028]圖4是應(yīng)用圖3所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法的流程圖。
【具體實(shí)施方式】
[0029]如圖2所示，在本發(fā)明的一個(gè)較佳的實(shí)施例中，本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備包括語(yǔ)音接收單元1、圖像接收單元11、語(yǔ)音識(shí)別單元2、圖像識(shí)別單元12和處理單元13。其中，語(yǔ)音接收單元I為麥克風(fēng)；圖像接收單元11為攝像頭，較佳地為廣角攝像頭；語(yǔ)音接收單元I和圖像接收單元11安裝在語(yǔ)音控制設(shè)備的外殼上。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào)，并進(jìn)行語(yǔ)音信號(hào)識(shí)別，將識(shí)別的結(jié)果發(fā)送給處理單元13。本示例中采用的語(yǔ)音識(shí)別單元2可以是任何現(xiàn)有技術(shù)的具有語(yǔ)音識(shí)別功能的軟件(和硬件)。圖像識(shí)別單元12獲取來(lái)自圖像接收單元11的圖像，并進(jìn)行圖像識(shí)別，將識(shí)別的結(jié)果發(fā)送給處理單元13，本示例中采用的圖像識(shí)別單元12可以是任何現(xiàn)有技術(shù)的具有人臉及視線方向的識(shí)別功能的軟件，例如中國(guó)專(zhuān)利申請(qǐng)“一種基于視線判斷的人機(jī)交互方法及系統(tǒng)”(申請(qǐng)?zhí)?CN201210261378.8)、中國(guó)專(zhuān)利申請(qǐng)“快速精確的人眼定位方法及基于人眼定位的視線估計(jì)方法”(申請(qǐng)?zhí)?CN201510152613.1)等。另外，處理單元13能夠向語(yǔ)音識(shí)別單元2和圖像識(shí)別單元12發(fā)出指令，指示其工作。
[0030]應(yīng)用圖2所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法包括:
[0031]步驟一、語(yǔ)音控制設(shè)備的語(yǔ)音接收單元I接收到至少部分的語(yǔ)音信號(hào)后，例如剛開(kāi)始接收到1-2個(gè)音節(jié)后，啟動(dòng)圖像接收單元11。
[0032]步驟二、圖像接收單元11獲取圖像并傳送到圖像識(shí)別單元12，即作為圖像接收單元11的攝像頭獲取其視野范圍內(nèi)的圖像，并將該圖像發(fā)送給圖像識(shí)別單元12。
[0033]步驟三、圖像識(shí)別單元12識(shí)別該圖像，當(dāng)在圖像中檢測(cè)到視線朝向語(yǔ)音控制設(shè)備的人臉時(shí)，圖像識(shí)別單元12將此識(shí)別結(jié)果發(fā)送給處理單元13，處理單元13使語(yǔ)音控制設(shè)備被喚醒。繼而處理單元13使語(yǔ)音識(shí)別單元2工作，語(yǔ)音識(shí)別單元2接收完整的語(yǔ)音信號(hào)并對(duì)其進(jìn)行識(shí)別，語(yǔ)音識(shí)別單元2將識(shí)別結(jié)果發(fā)送給處理單元3，處理單元3使語(yǔ)音控制設(shè)備對(duì)該語(yǔ)音信號(hào)做出回復(fù)。
[0034]更優(yōu)選地，如圖3所示，在本發(fā)明的一個(gè)較佳的實(shí)施例中，本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方法所應(yīng)用的語(yǔ)音控制設(shè)備包括語(yǔ)音接收單元1、圖像接收單元21、語(yǔ)音識(shí)別單元2、圖像識(shí)別單元22和處理單元23。其中，語(yǔ)音接收單元I為麥克風(fēng)；圖像接收單元21為可旋轉(zhuǎn)攝像頭，如具有能夠繞水平軸和豎直軸轉(zhuǎn)動(dòng)的2軸驅(qū)動(dòng)的云臺(tái)的可旋轉(zhuǎn)攝像頭；語(yǔ)音接收單元I和圖像接收單元21安裝在語(yǔ)音控制設(shè)備的外殼上，其中可旋轉(zhuǎn)攝像頭的云臺(tái)安裝在語(yǔ)音控制設(shè)備的外殼上。語(yǔ)音識(shí)別單元2獲取來(lái)自語(yǔ)音接收單元I的語(yǔ)音信號(hào)，并進(jìn)行語(yǔ)音信號(hào)識(shí)別，將識(shí)別的結(jié)果發(fā)送給處理單元23。本示例中采用的語(yǔ)音識(shí)別單元2可以是任何現(xiàn)有技術(shù)的具有語(yǔ)音識(shí)別功能并且能辨別語(yǔ)音的來(lái)源方向的軟件(和硬件)。圖像識(shí)別單元22獲取來(lái)自圖像接收單元21的圖像，并進(jìn)行圖像識(shí)別，將識(shí)別的結(jié)果發(fā)送給處理單元23，本示例中采用的圖像識(shí)別單元22可以是和前一示例中相同的任何現(xiàn)有技術(shù)的具有人臉及視線方向的識(shí)別功能的軟件。另外，處理單元23能夠向語(yǔ)音識(shí)別單元2和圖像識(shí)別單元22發(fā)出指令，指示其工作；處理單元23還能夠控制作為圖像接收單元21的可旋轉(zhuǎn)攝像頭的云臺(tái)的轉(zhuǎn)動(dòng)，由此控制可旋轉(zhuǎn)攝像頭的轉(zhuǎn)動(dòng)方向和角度。
[0035]應(yīng)用圖3所示的語(yǔ)音控制設(shè)備的本發(fā)明的基于視覺(jué)喚醒的語(yǔ)音控制方

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：涂悅;
技術(shù)所有人：涂悅;
我是此專(zhuān)利的發(fā)明人

上一篇：一種3d手勢(shì)識(shí)別方法
上一篇：一種基于手勢(shì)的數(shù)字輸入方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音喚醒相關(guān)技術(shù)

華為mate9語(yǔ)音喚醒相關(guān)技術(shù)

win10語(yǔ)音喚醒小娜相關(guān)技術(shù)

語(yǔ)音喚醒功能相關(guān)技術(shù)

華為手機(jī)語(yǔ)音喚醒功能相關(guān)技術(shù)

百度語(yǔ)音喚醒相關(guān)技術(shù)

華為語(yǔ)音喚醒相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于視覺(jué)喚醒的語(yǔ)音控制方法