專利名稱:手語視頻的相似度評(píng)估模型的建立方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理的技術(shù)領(lǐng)域,具體地涉及一種手語視頻的相似度評(píng)估模型的
建立方法。
背景技術(shù):
手語合成是近年來比較活躍的一個(gè)研究方向。從合成效果的真實(shí)感和可接受程度上看,基于真人視頻剪輯拼接的手語合成方法比基于三維模型的方法具有明顯的優(yōu)勢。并且基于真人視頻拼接的手語,可提高合成手語的可接受性,將其應(yīng)用于計(jì)算機(jī)等交互界面中,為聽障人群提供更為形象生動(dòng)的視覺語言表達(dá)界面。視頻相似度研究主要包括兩方面,一是相似性度量,二是快速檢索方法。視頻檢索方面的研究已經(jīng)取得了一定的成果,如意大利巴勒莫大學(xué)開發(fā)的基于內(nèi)容的視頻查詢系統(tǒng) JACOB。它主要強(qiáng)調(diào)視頻數(shù)據(jù)流中時(shí)序的分割、基于時(shí)序的語義的提取,對(duì)于視頻的特征提取,除了顏色信息、紋理信息、形狀信息等圖像特征外,還可以利用運(yùn)動(dòng)信息。在特征提取和相似性度量方面,已經(jīng)有一些具有參考意義的研究結(jié)果,如清華大學(xué)的高躍等人提出了基于片段的視頻拼接方法,通過次采樣幀和層次累計(jì)聚類提取視頻特征,用比例化最大權(quán)二分匹配實(shí)現(xiàn)相似性度量;普林斯頓大學(xué)的董偉等人提出了隨機(jī)化視頻特征提取算法,將特征投影到基于位置敏感哈希(LSH)的直方圖上,并采用基于核的相似性度量方法。這些研究研究雖然在特征提取和相似性度量中獲得了一定的成功,但其所采用的計(jì)算過程一般較復(fù)雜,而且特征數(shù)量的增多也帶來了相似性度量的困難并且缺乏對(duì)特征的進(jìn)一步篩選和特征計(jì)算的簡化。針對(duì)這些問題,曹政等人提出了一種快速相似視頻檢索方法,從視覺相似性出發(fā),根據(jù)視頻的時(shí)空分布特征統(tǒng)計(jì)計(jì)算壓縮視頻簽名,通過視頻簽名的距離度量視頻相似性,該方法對(duì)大規(guī)模數(shù)據(jù)庫亦快速有效,但也存在一個(gè)問題,就是該方法只解決了視頻的視覺相似性,不包含語義信息,而視覺相似的視頻可能包含不同的語義,反之語義相似的視頻內(nèi)容也可能完全不同。手語運(yùn)動(dòng)主要側(cè)重語義的理解,因此,除了視覺信息,還需要重點(diǎn)考慮手語運(yùn)動(dòng)的語義信息。手語是人體運(yùn)動(dòng)形式的一個(gè)子集,因此對(duì)人的運(yùn)動(dòng)分析的方法同樣適用于手語運(yùn)動(dòng)分析,手語視頻相似度評(píng)估和檢索的依據(jù)是邏輯相似性,即是否屬于同一類型的運(yùn)動(dòng)序列。Kovar等人利用多步搜索策略實(shí)現(xiàn)了這一目的,他們定義了一種基于DTW的索引結(jié)構(gòu)motion web作為度量運(yùn)動(dòng)間數(shù)值相似性的標(biāo)準(zhǔn),然后以已檢索出的數(shù)字相似的運(yùn)動(dòng)作為中間媒介,繼續(xù)搜索與它們數(shù)值相似的運(yùn)動(dòng),該方法的問題是算法復(fù)雜度較高。在 SIGGRAPH2005中,Muller等提出了有效的基于內(nèi)容的運(yùn)動(dòng)檢索方法,用來搜索邏輯相似的運(yùn)動(dòng)序列,通過引入語義豐富的幾何特征,將運(yùn)動(dòng)庫中的運(yùn)動(dòng)數(shù)據(jù)按照特征分割為小段,對(duì)這些分割段建立索引,可以使相似性搜索在分割段的層次進(jìn)行,而不是在幀的層次進(jìn)行,有效地降低了運(yùn)算復(fù)雜度,但該方法的檢索依賴于對(duì)輸入文本的分析,因而對(duì)交互過程中的用戶輸入要求比較高,不能實(shí)現(xiàn)通過解析輸入視頻進(jìn)而檢索相似視頻的目的。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決問題是克服現(xiàn)有技術(shù)的不足,提供一種融合視覺特征和語義特征的手語視頻的相似度評(píng)估模型的建立方法。本發(fā)明的技術(shù)解決方案是這種手語視頻的相似度評(píng)估模型的建立方法,包括以下步驟(1)確定主觀評(píng)估值對(duì)隨機(jī)抽取N個(gè)人的每個(gè)視頻對(duì)進(jìn)行整體相似度評(píng)估,并給出N個(gè)主觀評(píng)分,然后對(duì)N個(gè)主觀評(píng)分取平均值作為主觀評(píng)估值,N為正整數(shù);(2)進(jìn)行特征提取對(duì)每個(gè)視頻逐幀進(jìn)行標(biāo)注,包括肩、肘、腕三個(gè)關(guān)節(jié)位置的標(biāo)注,并存儲(chǔ)成.xml格式的文件,特征提取包括對(duì)用于軌跡評(píng)估的關(guān)節(jié)位置的提取和對(duì)用于輪廓評(píng)估的胳膊形態(tài)的提取,然后基于貪心算法提取出左右胳膊的樣例庫;(3)進(jìn)行視覺相似度評(píng)估基于視頻時(shí)空分布特征計(jì)算得到壓縮視頻簽名,并通過計(jì)算視頻簽名距離進(jìn)行視覺相似性度量;(4)進(jìn)行輪廓相似度評(píng)估基于步驟( 的樣例庫,將視頻的每幀圖像與樣例庫中的樣例進(jìn)行比較,提取出給定視頻的胳膊形態(tài)序列,通過比較的匹配程度進(jìn)行輪廓相似度的評(píng)估;(5)進(jìn)行運(yùn)動(dòng)軌跡相似度評(píng)估基于步驟O)的腕關(guān)節(jié)位置的標(biāo)注,生成運(yùn)動(dòng)軌跡,并確定軌跡的距離,該距離即DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間規(guī)整)失真度,然后將其轉(zhuǎn)換到W,l]區(qū)間作為其運(yùn)動(dòng)軌跡的相似度評(píng)估;(6)進(jìn)行模型融合視覺相似度評(píng)估、輪廓相似度評(píng)估和運(yùn)動(dòng)軌跡相似度評(píng)估作為解釋變量,步驟(1)的主觀評(píng)估值作為響應(yīng)變量,將解釋變量與響應(yīng)變量進(jìn)行多元線性回歸分析,然后融合成多元線性評(píng)估模型。由于本方法分別對(duì)視覺相似度和語義(包括輪廓和運(yùn)動(dòng)軌跡)相似度進(jìn)行評(píng)估, 然后將它們進(jìn)行模型融合,所以是一種融合視覺特征和語義特征的手語視頻的相似度評(píng)估模型的建立方法。
圖1是本方法的軟件應(yīng)用環(huán)境方框示意圖;圖2示出了本方法的流程圖;圖3是本方法的軟件應(yīng)用的數(shù)據(jù)傳輸路徑圖。
具體實(shí)施例方式這種手語視頻的相似度評(píng)估模型的建立方法,包括以下步驟(1)確定主觀評(píng)估值對(duì)隨機(jī)抽取N個(gè)人的每個(gè)視頻對(duì)進(jìn)行整體相似度評(píng)估,并給出N個(gè)主觀評(píng)分,然后對(duì)N個(gè)主觀評(píng)分取平均值作為主觀評(píng)估值,N為正整數(shù);(2)進(jìn)行特征提取對(duì)每個(gè)視頻逐幀進(jìn)行標(biāo)注,包括肩、肘、腕三個(gè)關(guān)節(jié)位置的標(biāo)注,并存儲(chǔ)成.xml格式的文件,特征提取包括對(duì)用于軌跡評(píng)估的關(guān)節(jié)位置的提取和對(duì)用于輪廓評(píng)估的胳膊形態(tài)的提取,然后基于貪心算法提取出左右胳膊的樣例庫;(3)進(jìn)行視覺相似度評(píng)估基于視頻時(shí)空分布特征計(jì)算得到壓縮視頻簽名,并通過計(jì)算視頻簽名距離進(jìn)行視覺相似性度量;
(4)進(jìn)行輪廓相似度評(píng)估基于步驟( 的樣例庫,將視頻的每幀圖像與樣例庫中的樣例進(jìn)行比較,提取出給定視頻的胳膊形態(tài)序列,通過比較的匹配程度進(jìn)行輪廓相似度的評(píng)估;(5)進(jìn)行運(yùn)動(dòng)軌跡相似度評(píng)估基于步驟O)的腕關(guān)節(jié)位置的標(biāo)注,生成運(yùn)動(dòng)軌跡,并確定軌跡的距離,該距離即DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間規(guī)整)失真度,然后將其轉(zhuǎn)換到W,l]區(qū)間作為其運(yùn)動(dòng)軌跡的相似度評(píng)估;(6)進(jìn)行模型融合視覺相似度評(píng)估、輪廓相似度評(píng)估和運(yùn)動(dòng)軌跡相似度評(píng)估作為解釋變量,步驟(1)的主觀評(píng)估值作為響應(yīng)變量,將解釋變量與響應(yīng)變量進(jìn)行多元線性回歸分析,然后融合成多元線性評(píng)估模型。優(yōu)選地,所述步驟(2)包括以下分步驟(2. 1)設(shè)定一個(gè)初始樣例,并將其加入樣例庫;(2. 2)對(duì)采集的手語視頻的每幀圖像的肩、肘、腕三個(gè)關(guān)節(jié)的位置作為特征點(diǎn)與樣例庫中的樣例進(jìn)行比較;(2. 3)如果待比較的胳膊形態(tài)與樣例庫中所有樣例的三個(gè)特征點(diǎn)的位置總差值超過閾值,則該胳膊為一個(gè)新樣例,將其加入樣例庫中,執(zhí)行步驟(2.2);否則執(zhí)行步驟 (2. 4);(2.4)結(jié)束。優(yōu)選地,所述步驟C3)包括以下分步驟(3. 1)根據(jù)以下公式得到視頻對(duì)應(yīng)的YCb(;直方圖
權(quán)利要求
1.手語視頻的相似度評(píng)估模型的建立方法,其特征在于,該方法包括以下步驟(1)確定主觀評(píng)估值對(duì)隨機(jī)抽取N個(gè)人的每個(gè)視頻對(duì)進(jìn)行整體相似度評(píng)估,并給出N 個(gè)主觀評(píng)分,然后對(duì)N個(gè)主觀評(píng)分取平均值作為主觀評(píng)估值,N為正整數(shù);(2)進(jìn)行特征提取對(duì)每個(gè)視頻逐幀進(jìn)行標(biāo)注,包括肩、肘、腕三個(gè)關(guān)節(jié)位置的標(biāo)注,并存儲(chǔ)成.xml格式的文件,特征提取包括對(duì)用于軌跡評(píng)估的關(guān)節(jié)位置的提取和對(duì)用于輪廓評(píng)估的胳膊形態(tài)的提取,然后基于貪心算法提取出左右胳膊的樣例庫;(3)進(jìn)行視覺相似度評(píng)估基于視頻時(shí)空分布特征計(jì)算得到壓縮視頻簽名,并通過計(jì)算視頻簽名距離進(jìn)行視覺相似性度量;(4)進(jìn)行輪廓相似度評(píng)估基于步驟( 的樣例庫,將視頻的每幀圖像與樣例庫中的樣例進(jìn)行比較,提取出給定視頻的胳膊形態(tài)序列,通過比較的匹配程度進(jìn)行輪廓相似度的評(píng)估;(5)進(jìn)行運(yùn)動(dòng)軌跡相似度評(píng)估基于步驟O)的腕關(guān)節(jié)位置的標(biāo)注,生成運(yùn)動(dòng)軌跡,并確定軌跡的距離,該距離即動(dòng)態(tài)時(shí)間規(guī)整DTW失真度,然后將其轉(zhuǎn)換到
區(qū)間作為其運(yùn)動(dòng)軌跡的相似度評(píng)估;(6)進(jìn)行模型融合視覺相似度評(píng)估、輪廓相似度評(píng)估和運(yùn)動(dòng)軌跡相似度評(píng)估作為解釋變量,步驟(1)的主觀評(píng)估值作為響應(yīng)變量,將解釋變量與響應(yīng)變量進(jìn)行多元線性回歸分析,然后融合成多元線性評(píng)估模型。
2.根據(jù)權(quán)利要求1所述的建立方法,其特征在于,所述步驟( 包括以下分步驟(2. 1)設(shè)定一個(gè)初始樣例,并將其加入樣例庫;(2. 2)對(duì)采集的手語視頻的每幀圖像的肩、肘、腕三個(gè)關(guān)節(jié)的位置作為特征點(diǎn)與樣例庫中的樣例進(jìn)行比較;(2. 3)如果待比較的胳膊形態(tài)與樣例庫中所有樣例的三個(gè)特征點(diǎn)的位置總差值超過閾值,則該胳膊為一個(gè)新樣例,將其加入樣例庫中,執(zhí)行步驟(2. ;否則執(zhí)行步驟(2.4);(2. 4)結(jié)束。
3.根據(jù)權(quán)利要求2所述的建立方法,其特征在于,所述步驟C3)包括以下分步驟(3. 1)根據(jù)以下公式得到視頻對(duì)應(yīng)的YCb(;直方圖s = 2m1+m2+3m3NNN=Yj^Yi =YdCbi ;m3 = YjCrl /=1 /=1 /=1其中Y” Cbi, Cri是歸一化直方圖區(qū)間頻數(shù),i為對(duì)應(yīng)區(qū)間,頻數(shù)按從大到小降序排列, N取64,1 , ,! 是加權(quán)值;(3. 2)根據(jù)視頻幀的時(shí)空分布特性,視頻簽名形成了代表該視頻特征的埋單序列,表示為、和vd,計(jì)算公式如下v^ =Zsi/L'Vd =^isi-vj/L)^ ‘=1Tt其中Si是每幀圖像的編碼,L是視頻的幀數(shù);(3. 3)通過以下公式進(jìn)行兩視頻片段的視覺相似度評(píng)估D_l In2I+Kn- IοmaxOml,vm2) + max(v⑴,vd2)°
4.根據(jù)權(quán)利要求3所述的建立方法,其特征在于,所述步驟(6)中的多元線性回歸模型為y = 1. 415χ1+0. 145χ2+0. 319χ3_0· 972其中y是響應(yīng)變量,Xi(i = 1、2、3)是解釋變量,X1,&,&分別對(duì)應(yīng)視覺,輪廓和運(yùn)動(dòng)軌跡三種特征的評(píng)估結(jié)果。
5.根據(jù)權(quán)利要求1所述的建立方法,其特征在于,在所述步驟(6)之后還包括對(duì)多元線性回歸模型的有效性進(jìn)行驗(yàn)證。
全文摘要
公開了一種融合視覺特征和語義特征的手語視頻的相似度評(píng)估模型的建立方法,包括以下步驟(1)確定主觀評(píng)估值;(2)進(jìn)行特征提取對(duì)每個(gè)視頻逐幀進(jìn)行標(biāo)注并存儲(chǔ)成.xml格式的文件,基于貪心算法提取出左右胳膊的樣例庫;(3)進(jìn)行視覺相似度評(píng)估;(4)進(jìn)行輪廓相似度評(píng)估;(5)進(jìn)行運(yùn)動(dòng)軌跡相似度評(píng)估;(6)進(jìn)行模型融合視覺、輪廓和運(yùn)動(dòng)軌跡相似度評(píng)估作為解釋變量,主觀評(píng)估值作為響應(yīng)變量,將解釋變量與響應(yīng)變量進(jìn)行多元線性回歸分析,然后融合成多元線性評(píng)估模型。
文檔編號(hào)G06K9/64GK102222237SQ201110200160
公開日2011年10月19日 申請(qǐng)日期2011年7月14日 優(yōu)先權(quán)日2011年7月14日
發(fā)明者孔德慧, 尹寶才, 王立春, 王茹 申請(qǐng)人:北京工業(yè)大學(xué)