使用眼睛注視檢測(cè)加標(biāo)簽的制作方法
【專利說明】
【背景技術(shù)】
[0001]臉部加標(biāo)簽(即將名字與圖像中的臉部匹配)提供了一種在存儲(chǔ)于計(jì)算機(jī)或移動(dòng)設(shè)備上的圖像中搜索人的方式。在一個(gè)示例中,利用鼠標(biāo)和鍵盤執(zhí)行臉部加標(biāo)簽。特別地,鼠標(biāo)用來選擇圖像中感興趣的人的臉部區(qū)域,并且鍵盤用來鍵入該人的名字以創(chuàng)建關(guān)聯(lián)標(biāo)簽。然而,對(duì)各自可能具有多個(gè)臉部的許多圖像進(jìn)行臉部加標(biāo)簽的過程可能是一項(xiàng)勞動(dòng)和時(shí)間密集型任務(wù),因?yàn)槊總€(gè)臉部必須使用鼠標(biāo)選擇并且每當(dāng)臉部被選擇時(shí)名字必須被鍵入。
【發(fā)明內(nèi)容】
[0002]該
【發(fā)明內(nèi)容】
被提供以通過簡化方式介紹下文在的【具體實(shí)施方式】中進(jìn)一步描述的概念的選擇。該
【發(fā)明內(nèi)容】
不旨在標(biāo)識(shí)要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限制要求保護(hù)的主題的范圍。而且,要求保護(hù)的主題不限于解決本公開的任何部分中指出的任何或所有缺點(diǎn)的實(shí)現(xiàn)方式。
[0003]提供了涉及為圖像中的人類主體加標(biāo)簽的各種實(shí)施例。在一個(gè)實(shí)施例中,包括人類主體的圖像被呈現(xiàn)在顯示屏上。接收顯示屏上加標(biāo)簽用戶的注視的居留位置。圖像中的人類主體被識(shí)別為位于居留位置。接收人類主體的標(biāo)識(shí),并且利用該標(biāo)識(shí)為圖像加標(biāo)簽。
【附圖說明】
[0004]圖1示出依照本公開的一個(gè)實(shí)施例的計(jì)算系統(tǒng)。
[0005]圖2示意性示出依照本公開的一個(gè)實(shí)施例的計(jì)算機(jī)架構(gòu)框圖。
[0006]圖3示出指示人類主體在加標(biāo)簽用戶的注視的居留位置處被識(shí)別的視覺反饋的一個(gè)示例。
[0007]圖4示出指示人類主體在加標(biāo)簽用戶的注視的居留位置處被識(shí)別的視覺反饋的另一個(gè)示例。
[0008]圖5示出指示人類主體在加標(biāo)簽用戶的注視的居留位置處被識(shí)別的視覺反饋的又一個(gè)示例。
[0009]圖6示意性示出用于為圖像中的人類主體加標(biāo)簽的加標(biāo)簽界面。
[0010]圖7示意性示出用于為不同圖像中識(shí)別的人類主體加標(biāo)簽的加標(biāo)簽界面。
[0011]圖8示出依照本公開的一個(gè)實(shí)施例的用于為呈現(xiàn)在顯示屏上的圖像中的人類主體加標(biāo)簽的方法。
[0012]圖9示出依照本公開的一個(gè)實(shí)施例的用于建立加標(biāo)簽用戶的注視的居留位置的方法。
[0013]圖10示出依照本公開的一個(gè)實(shí)施例的用于識(shí)別人類主體的標(biāo)識(shí)的一種方法。
[0014]圖11示出依照本公開的一個(gè)實(shí)施例的用于識(shí)別人類主體的標(biāo)識(shí)的另一種方法。
[0015]圖12示意性示出依照本公開的一個(gè)實(shí)施例的計(jì)算系統(tǒng)。
【具體實(shí)施方式】
[0016]本公開涉及利用諸如圖像中描繪的人類主體的標(biāo)識(shí)之類的元數(shù)據(jù)為圖像加標(biāo)簽。更特別地,本公開涉及使用基于眼睛注視跟蹤的選擇為圖像中的人類主體加標(biāo)簽。在一個(gè)示例中,本公開提供了實(shí)現(xiàn)下述操作的機(jī)制:接收在呈現(xiàn)在顯示屏上的圖像上加標(biāo)簽用戶的注視的居留位置;識(shí)別圖像中的人類主體位于該居留位置,接收人類主體的標(biāo)識(shí);以及利用該標(biāo)識(shí)為該圖像加標(biāo)簽。典型地,人類適應(yīng)于識(shí)別型態(tài)(pattern),比如其他人類的臉部。相應(yīng)地,用戶可以通過看圖像中的人類主體來選擇該人類主體,這比利用鼠標(biāo)或觸摸輸入選擇圖像中的人類主體快得多。
[0017]而且,在一些實(shí)施例中,本公開提供了下述機(jī)制:從傾聽由加標(biāo)簽用戶說出的名字的語音識(shí)別系統(tǒng)接收在圖像中識(shí)別的人類主體的名字。識(shí)別的名字可以被映射到圖像以便為人類主體加標(biāo)簽。通過使用語音識(shí)別向圖像加標(biāo)簽識(shí)別的人類主體的名字,加標(biāo)簽用戶可以避免必須在鍵盤上鍵入名字。相應(yīng)地,相對(duì)于使用鼠標(biāo)和鍵盤的加標(biāo)簽方法,可以以更及時(shí)且更少勞動(dòng)密集型的方式為大量圖像加標(biāo)簽。
[0018]圖1示出依照本公開的一個(gè)實(shí)施例的計(jì)算系統(tǒng)100。該計(jì)算系統(tǒng)100可以包括用戶輸入設(shè)備102、計(jì)算設(shè)備104和顯不設(shè)備106。
[0019]用戶輸入設(shè)備102可以包括眼睛跟蹤相機(jī)108,其被配置成檢測(cè)用戶112 (例如加標(biāo)簽用戶)的一個(gè)或多個(gè)眼睛110的注視或聚焦位置的方向。眼睛跟蹤相機(jī)108可以被配置成以任何適當(dāng)方式確定用戶的注視。例如,在所描繪的實(shí)施例中,用戶輸入設(shè)備102可以包括諸如紅外光源之類的一個(gè)或多個(gè)閃爍源114,其被配置成使閃爍光從用戶112的每只眼睛110反射。眼睛跟蹤相機(jī)108可以被配置成捕獲用戶112的每只眼睛110的包括閃爍的圖像。如根據(jù)經(jīng)由眼睛跟蹤相機(jī)收集的圖像數(shù)據(jù)確定的來自用戶的眼睛的閃爍中的變化可以用來確定注視的方向。進(jìn)一步地,從用戶的眼睛投射的注視線與顯示設(shè)備106的顯示屏118相交的位置116可以用來確定用戶正在注視的對(duì)象(例如在特定位置處顯示的對(duì)象)。
[0020]而且,用戶輸入設(shè)備102可以包括被配置成檢測(cè)用戶的語音的麥克風(fēng)120(或其他適當(dāng)?shù)囊纛l檢測(cè)設(shè)備)。更特別地,麥克風(fēng)120可以被配置成檢測(cè)用戶的言語,比如語音命令。要理解的是,麥克風(fēng)可以以任何適當(dāng)方式檢測(cè)用戶的言語。
[0021]用戶輸入設(shè)備102可以被采用來使得用戶112能夠經(jīng)由眼睛的姿態(tài)以及經(jīng)由口頭命令與計(jì)算系統(tǒng)100交互。要理解的是,眼睛跟蹤相機(jī)108和麥克風(fēng)120是出于示例的目的而被示出的并且不旨在以任何方式進(jìn)行限制,因?yàn)榭梢岳萌魏纹渌m當(dāng)?shù)膫鞲衅骱?或傳感器的組合。
[0022]計(jì)算設(shè)備104可以與用戶輸入設(shè)備102和顯示設(shè)備106通信。計(jì)算設(shè)備104可以被配置成接收并解釋來自用戶輸入設(shè)備102的傳感器的輸入。例如,計(jì)算設(shè)備104可以被配置成基于從眼睛跟蹤相機(jī)108接收的眼睛圖像跟蹤顯示設(shè)備106的顯示屏118上的用戶的注視。更特別地,計(jì)算設(shè)備104可以被配置成基于建立居留位置來檢測(cè)顯示屏上顯示的一個(gè)或多個(gè)對(duì)象(例如,圖像中的人類主體)的用戶選擇。計(jì)算設(shè)備104可以被配置成處理從用戶輸入設(shè)備102接收的語音命令以識(shí)別特定詞語或短語(例如所選的人類主體的名字)。計(jì)算設(shè)備104可以被配置成基于從用戶輸入設(shè)備接收的經(jīng)處理的信息而在所選對(duì)象上執(zhí)行動(dòng)作或命令(例如,用名字為圖像中的人類主體加標(biāo)簽)。
[0023]應(yīng)當(dāng)領(lǐng)會(huì),計(jì)算系統(tǒng)中的所描繪的設(shè)備是出于示例的目的而被描述的,并且因而并不意味著限制。進(jìn)一步地,在不脫離本公開的范圍的情況下,計(jì)算設(shè)備及其各種傳感器和子組件的物理配置可以采取各種各樣的不同形式。例如,用戶輸入設(shè)備、計(jì)算設(shè)備和顯示設(shè)備可以集成到單個(gè)設(shè)備中,比如移動(dòng)計(jì)算設(shè)備。
[0024]圖2示意性示出依照本公開的一個(gè)實(shí)施例的計(jì)算機(jī)架構(gòu)200的框圖。計(jì)算機(jī)架構(gòu)200可以使用加標(biāo)簽用戶的注視檢測(cè)以選擇圖像中的人類主體并且使用語音識(shí)別以識(shí)別要被加標(biāo)簽的所選人類主體的名字來實(shí)現(xiàn)對(duì)顯示屏上呈現(xiàn)的圖像中人類主體的加標(biāo)簽。例如,該計(jì)算機(jī)架構(gòu)可以在圖1的計(jì)算系統(tǒng)100中實(shí)現(xiàn)。
[0025]在一個(gè)示例中,眼睛跟蹤相機(jī)108可以向眼睛跟蹤服務(wù)202提供加標(biāo)簽用戶的眼睛的眼睛圖像。眼睛跟蹤服務(wù)202可以被配置成解釋眼睛圖像以確定顯示屏上加標(biāo)簽用戶的眼睛注視。更特別地,眼睛跟蹤服務(wù)202可以被配置成確定加標(biāo)簽用戶的注視是否在大于閾值持續(xù)時(shí)間(例如100微秒)的持續(xù)時(shí)間內(nèi)聚焦于顯示屏的某個(gè)位置。如果用戶的注視在大于閾值持續(xù)時(shí)間的持續(xù)時(shí)間內(nèi)聚焦于該位置,則眼睛跟蹤服務(wù)202可以被配置成生成被發(fā)送至客戶端應(yīng)用204的居留位置信號(hào)。
[0026]客戶端應(yīng)用204可以被配置成從眼睛跟蹤服務(wù)202接收居留位置信號(hào)。該居留位置信號(hào)可以包括居留位置的顯示屏坐標(biāo)??蛻舳藨?yīng)用204可以被配置成確定顯示屏上呈現(xiàn)的圖像中的人類主體是否位于居留位置。如果人類主體被識(shí)別為位于居留位置,客戶端應(yīng)用204可以被配置成向加標(biāo)簽用戶提供人類主體被識(shí)別或選擇的視覺反饋。例如,客戶端應(yīng)用204可以被配置成在顯示屏上顯示用戶界面,其促進(jìn)名字的提供或選擇以對(duì)人類主體的圖像加標(biāo)簽。例如,客戶端應(yīng)用204可以被配置成提示用戶提供用于人類主體的名字并且命令語音識(shí)別服務(wù)206傾聽由加標(biāo)簽用戶經(jīng)由麥克風(fēng)120說出的名字。
[0027]應(yīng)當(dāng)理解,客戶端應(yīng)用204可以是被配置成將元數(shù)據(jù)與圖像相關(guān)聯(lián)(即加標(biāo)簽)的任何適當(dāng)應(yīng)用。在一個(gè)示例中,客戶端應(yīng)用可以是照片編輯應(yīng)用。作為另一個(gè)示例,客戶端應(yīng)用可以是社交聯(lián)網(wǎng)應(yīng)用。
[0028]麥克風(fēng)120可以被配置成檢測(cè)來自加標(biāo)簽用戶的語音命令并且