專利名稱:基于圖建模的視頻指紋方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視頻指紋方法,尤其涉及一種基于圖建模的視頻指紋方法,屬于視頻、多媒體信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著計(jì)算機(jī)與信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為日常生活中不可或缺的一部分,特別是隨著多媒體技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)視頻網(wǎng)站越來(lái)越多,視頻內(nèi)容變的越來(lái)越豐富,但隨之而來(lái)的網(wǎng)絡(luò)信息安全問(wèn)題也變的日漸突出。網(wǎng)絡(luò)用戶可以隨意的下載、編輯視頻并再次上傳,由此網(wǎng)絡(luò)中出現(xiàn)大量“垃圾視頻”,據(jù)統(tǒng)計(jì),在某些熱點(diǎn)視頻的檢索結(jié)果中,視頻拷貝的比例甚至高達(dá)93%,這大大降低了視頻檢索的效率。同時(shí),由于互聯(lián)網(wǎng)上對(duì)于海量視 頻的管理缺乏規(guī)劃和統(tǒng)一性,常常引起一些諸如知識(shí)產(chǎn)權(quán)等的糾紛,盜版和非法下載的出現(xiàn)也危害了版權(quán)所有者的利益,挫傷了創(chuàng)新的積極性。去除網(wǎng)絡(luò)中的“垃圾視頻”以及打擊盜版進(jìn)行有效的版權(quán)管理從本質(zhì)上來(lái)說(shuō)都是視頻內(nèi)容認(rèn)證和識(shí)別問(wèn)題。基于內(nèi)容的視頻指紋技術(shù)正是解決上述問(wèn)題的主要方法。基于內(nèi)容的視頻指紋(ContentBased Video Fingerprinting :CBVF),又被稱為視頻哈希(Video Hashing),與數(shù)字視頻水印不同,它不需要在視頻發(fā)布或傳播之前,人工地在視頻對(duì)象中嵌入附加信息,因此,CBVF對(duì)于尚未發(fā)布和已經(jīng)發(fā)布的視頻都有效;同時(shí),由于不需要在視頻上嵌入附加信息,CBVF解決了數(shù)字視頻水印技術(shù)中水印的不可見(jiàn)性和魯棒性之間的矛盾,從而提高了 CBVF對(duì)于常見(jiàn)攻擊的魯棒性。利用CBVF技術(shù)不但可以在視頻檢索中搜索到多余的視頻拷貝,并將其屏蔽,而且有助于規(guī)范數(shù)字視頻版權(quán)、傳播等的管理;同時(shí),從另一個(gè)方面,也可以通過(guò)CBVF來(lái)對(duì)商業(yè)視頻及其視頻拷貝進(jìn)行跟蹤分析,以獲得有價(jià)值的營(yíng)銷策略信息。因此,在個(gè)人視頻制作與網(wǎng)絡(luò)傳播日益流行的情況下,CBVF具有重要的理論價(jià)值和應(yīng)用價(jià)值,近年來(lái)已經(jīng)成為了多媒體信息處理領(lǐng)域的研究熱點(diǎn),各種算法也相繼被提出,目前的視頻指紋算法大多都是基于關(guān)鍵幀的,但是關(guān)鍵幀的選取依賴于鏡頭的分割,且鏡頭分割是一個(gè)復(fù)雜的過(guò)程,鏡頭分割的好壞對(duì)關(guān)鍵幀的影響很大。本發(fā)明提出了一種基于二叉樹(shù)理論的關(guān)鍵幀選取的方法,該方法避開(kāi)了鏡頭的分割,且具有成熟的圖論理論支持。另一方面,前景圖像是人關(guān)注的主要對(duì)象,而目前的視頻指紋算法恰恰忽略了人的關(guān)注特性,本發(fā)明正是基于前景圖像這一人的關(guān)注對(duì)象來(lái)提取視頻指紋的,這也是本發(fā)明的優(yōu)勢(shì)之一。視頻由大量的幀組成,幀格式各種各樣,但是從宏觀的角度來(lái)看,可以把視頻的每一幀當(dāng)作高維空間中的一個(gè)點(diǎn),點(diǎn)的坐標(biāo)由幀的某種屬性決定,點(diǎn)與點(diǎn)之間根據(jù)幀的關(guān)系連線就可以構(gòu)成一個(gè)圖。因此,視頻可以看作高維空間里的一個(gè)權(quán)重圖。另一方面,視頻幀由若干像素組成,若以像素點(diǎn)為圖頂點(diǎn),像素點(diǎn)之間關(guān)系定義邊,則幀也可以看作一個(gè)權(quán)重圖,本發(fā)明從圖建模的角度入手,利用圖論相關(guān)理論來(lái)提取關(guān)鍵幀。視頻的前景圖像反映了視頻的主要內(nèi)容,同時(shí)前景圖像也是人的主要關(guān)注對(duì)象,本發(fā)明利用前景圖像構(gòu)造視頻指紋。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有視頻拷貝檢測(cè)技術(shù)存在的不足,提供一種具有較好的魯棒性和區(qū)分性的基于圖建模的視頻指紋方法。本發(fā)明的基于圖建模的視頻指紋方法,包括以下步驟(I)預(yù)處理將視 頻幀的尺寸標(biāo)準(zhǔn)化,統(tǒng)一幀率,但是不改變視頻內(nèi)容;(2)視頻關(guān)鍵巾貞的選取把視頻建I吳成無(wú)向權(quán)重圖,利用_■叉樹(shù)來(lái)選取視頻關(guān)鍵幀;(3)利用圖割理論和能量函數(shù)優(yōu)化來(lái)提取視頻關(guān)鍵幀的前景圖像,并利用前景圖像的四階累積量的離散余弦變換作為視頻關(guān)鍵幀的特征,進(jìn)而構(gòu)成視頻的特征;(4)計(jì)算視頻特征序列的峭度作為匹配標(biāo)簽,對(duì)特征序列進(jìn)行二值量化作為視頻指紋;(5)對(duì)視頻指紋進(jìn)行分級(jí)匹配。所述步驟(2)的具體實(shí)現(xiàn)步驟是①以視頻幀為頂點(diǎn),以幀之間的關(guān)系來(lái)構(gòu)造邊,把視頻等價(jià)為一個(gè)無(wú)向權(quán)重圖;②利用二叉樹(shù)選取視頻關(guān)鍵幀;所述步驟(3)的具體實(shí)現(xiàn)步驟是①利用圖割理論提取視頻關(guān)鍵巾貞如景圖像;②計(jì)算前景圖像的四階累積量,并計(jì)算四階累積量的離散余弦變換系數(shù)。所述步驟(4)的具體實(shí)現(xiàn)步驟是①由每幀四階累積量離散余弦變換的變換系數(shù)中較大的20個(gè)系數(shù)構(gòu)造視頻特征
向量;②計(jì)算特征向量的峭度,稱為視頻匹配標(biāo)簽;③利用密鑰把視頻特征向量量化成一個(gè)二值序列,由視頻匹配標(biāo)簽和二值序列共同構(gòu)成視頻指紋。所述步驟(5)的具體實(shí)現(xiàn)步驟是①利用視頻匹配標(biāo)簽在視頻數(shù)據(jù)庫(kù)中搜索,得到一個(gè)可疑匹配視頻組;②在可疑匹配視頻組中利用視頻指紋中的二值序列對(duì)視頻指紋進(jìn)行精細(xì)匹配,以錯(cuò)誤碼元數(shù)作為兩個(gè)視頻的距離,然后計(jì)算誤碼率若誤碼率小于給定閾值,則說(shuō)明兩個(gè)視頻中其一為拷貝。上述方法首先利用二叉樹(shù)和優(yōu)化理論對(duì)視頻進(jìn)行關(guān)鍵幀提取,然后利用圖割理論提取視頻前景圖像,以高階累計(jì)量的離散余弦變換系數(shù)作為視關(guān)鍵幀特征,利用關(guān)鍵幀的特征向量構(gòu)造視頻指紋。本發(fā)明具有較好的魯棒性和區(qū)分性,利用圖建模的方式選取關(guān)鍵幀,利用圖割理論提取關(guān)鍵幀的前景圖像生成視頻指紋,把視頻分析問(wèn)題等價(jià)為圖分析問(wèn)題,從而成熟的圖論理論可應(yīng)用其中,為視頻分析和視頻指紋的生成提供了可靠的理論基礎(chǔ)和分析工具。
圖I是本發(fā)明方法的步驟框架示意圖。
圖2是二叉樹(shù)提取關(guān)鍵幀的示意圖。圖3是利用圖割理論提取前景圖像示意圖,其中(a)是原始圖像,(b)是提取的前景圖像。圖4是原始視頻和各種攻擊后的視頻(a)原始視頻;(b)加入高斯噪聲后的視頻;(C)加入椒鹽噪聲后的視頻;(d)遭受模糊攻擊后的視頻;(e)遭受黑框攻擊后的視頻(f)遭受logo嵌入后的視頻。具體實(shí)施方法下面結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)的說(shuō)明。本發(fā)明的方法按圖I所示流程,包括如下具體步驟(I)預(yù)處理視頻在傳輸?shù)倪^(guò)程中,因?yàn)楦蓴_和攻擊會(huì)導(dǎo)致視頻幀率和分辨率發(fā)生變化,為了解決這個(gè)問(wèn)題,增加算法的魯棒性,首先在預(yù)處理的過(guò)程中通過(guò)重采樣的方法,使視頻具有相同的幀率,本文實(shí)驗(yàn)中統(tǒng)一幀率為5fps。然后對(duì)每幀的尺寸標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的過(guò)程使視頻的分辨率改變,但是不改變視頻內(nèi)容。視頻指紋的目的是實(shí)行視頻內(nèi)容的安全認(rèn)證,因此,幀率和分辨率的改變不會(huì)影響內(nèi)容認(rèn)證的效果。在本文方法中,幀放縮處理函數(shù)S定義如下fk = S (Fk)(I)其中Fk G Rmxn和fk G Rwxh分別代表標(biāo)準(zhǔn)化前后的第k幀,且w = 144,h = 176。(2)關(guān)鍵幀選?、侔岩曨l轉(zhuǎn)化為無(wú)向權(quán)重圖,把視頻的每一幀當(dāng)作高維空間中的一個(gè)點(diǎn),點(diǎn)的坐標(biāo)由幀的各種屬性決定,點(diǎn)與點(diǎn)之間根據(jù)幀之間的關(guān)系連線就可以構(gòu)成一個(gè)圖。因此,視頻可以看作高維空間里的一個(gè)無(wú)向權(quán)重圖G = (V,E),其中V和E分別代表圖頂點(diǎn)集和邊集。②利用二叉樹(shù)選取視頻關(guān)鍵幀。在圖理論中,圖G = (V,E)通過(guò)去除兩部分相連的邊,被分解為不相交的集合A和B,AUB = V,AnB= 兩部分相異程度等于去除邊
的權(quán)重和,此相異程度稱為分割(cut),即為I _,為兩點(diǎn)之間邊的權(quán)重,
isAj'GB
圖分割理論被廣泛應(yīng)用于圖像分割等領(lǐng)域——通過(guò)最小化分割值得到圖像的最優(yōu)分割。本文定義權(quán)重如下 Hh j) = exp{ n,,)}(2)
I Jj Ji Isim(z, j) = max mini//, (u), Hj (u) }(3)其中,sim(i,j)和I fj-fi I分別代表第i幀和第j幀亮度相似值和時(shí)域距離,k是一個(gè)常數(shù)。P是兩幀相同亮度等級(jí)的集合,Hi (u),Hj (u)分別是第i幀和第j幀在亮度u等級(jí)上的歸一化直方圖的值。從式(2)可以看出,權(quán)重的計(jì)算充分考慮了視頻的時(shí)空因素,兩幀在時(shí)間軸上的距離越遠(yuǎn),兩幀之間距離越大,同時(shí),兩幀的亮度相似值越大,兩幀之間的距離就越小。這與實(shí)際情況是相吻合的。利用歸一化圖割理論來(lái)最優(yōu)的得到視頻分割的二叉樹(shù)。二叉樹(shù)的每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)于視頻的一個(gè)簇,在每個(gè)簇中選取固定數(shù)量的幀作為關(guān)鍵幀,選取方法如下對(duì)第m個(gè)簇中,計(jì)算簇內(nèi)每幀的平均四階累積量,記為(V則該簇內(nèi)所有幀的平均四階累計(jì)量構(gòu)成序列Ic1J 1XN,N為簇的數(shù)目。計(jì)算該序列的均值和方差,分別記為和O111,選取該簇中平均累計(jì)量約等于三類幀作為關(guān)鍵幀。關(guān)鍵幀的數(shù)目和二叉樹(shù)葉節(jié)點(diǎn)的數(shù)目以及每簇中選擇的幀的數(shù)目有關(guān),假設(shè)二叉樹(shù)共有j層,每簇中選擇的幀數(shù)為n,則共有n 2J個(gè)關(guān)鍵幀。(3)視頻指紋的生成①視頻關(guān)鍵巾貞如景提取視頻的前景內(nèi)容反映了視頻的主要信息和人關(guān)注的區(qū)域,對(duì)基于內(nèi)容的視頻應(yīng)用來(lái)講,首要任務(wù)就是把視頻分成運(yùn)動(dòng)前景和背景,而前景內(nèi)容反映了視頻的主要內(nèi)容,對(duì)于視頻指紋技術(shù)來(lái)說(shuō),準(zhǔn)確有效地提取視頻的前景內(nèi)容作來(lái)生成視頻指紋是非常重要的。本方案采用能量函數(shù)優(yōu)化,并結(jié)合網(wǎng)絡(luò)圖中的圖割理論來(lái)實(shí)現(xiàn)視頻前景內(nèi)容的分割。首先,對(duì)視頻關(guān)鍵幀進(jìn)行馬爾科夫隨機(jī)場(chǎng)建模,對(duì)于視頻前景分割問(wèn)題,設(shè)V為視頻幀所有像素點(diǎn)的集合,D表示該幀像素值的集合,L = {0,1}為標(biāo)號(hào)集,0和I分別代表視頻的前景和背景,把L中標(biāo)號(hào)以概率P分配給V,構(gòu)成一個(gè)馬爾科夫隨機(jī)場(chǎng),設(shè)像素點(diǎn)Vi的標(biāo)號(hào)為Xi G L,所有像素點(diǎn)的標(biāo)號(hào)組成了馬爾科夫隨機(jī)場(chǎng)的一個(gè)組態(tài)X,—個(gè)組態(tài)對(duì)應(yīng)于該幀的一個(gè)分割。視頻前景的最佳分割就是尋找一個(gè)最優(yōu)組態(tài)使后驗(yàn)概率p(xId)最大。在實(shí)際應(yīng)用中概率P很難確定,根據(jù)Hammersley-Clifford定理描述的馬爾科夫隨機(jī)場(chǎng)和Gibbs分布的關(guān)系,可以用Gibbs分布來(lái)描述= ,其中EU)是一個(gè)能量函數(shù)。根據(jù)Hammersley-Clifford定理,視頻巾貞前景分割問(wèn)題可以轉(zhuǎn)化為如下能量?jī)?yōu)化問(wèn)題。X* = argminE (X)(4)能量函數(shù)做如下定義
權(quán)利要求
1.一種基于圖建模的視頻指紋方法,其特征在于所述方法包括以下步驟 (1)預(yù)處理將視頻幀的尺寸標(biāo)準(zhǔn)化,統(tǒng)一幀率,但是不改變視頻內(nèi)容; (2)視頻關(guān)鍵幀的選取把視頻建模成無(wú)向權(quán)重圖,利用二叉樹(shù)來(lái)選取視頻關(guān)鍵幀; (3)利用圖割理論和能量函數(shù)優(yōu)化來(lái)提取視頻關(guān)鍵幀的前景圖像,并利用前景圖像的四階累積量的離散余弦變換作為視頻關(guān)鍵幀的特征,進(jìn)而構(gòu)成視頻的特征; (4)計(jì)算視頻特征序列的峭度作為匹配標(biāo)簽,對(duì)特征序列進(jìn)行二值量化作為視頻指紋; (5)對(duì)視頻指紋進(jìn)行分級(jí)匹配。
2.根據(jù)權(quán)利要求I所述的基于圖建模的視頻指紋方法,其特征在于所述步驟(2)的具體實(shí)現(xiàn)步驟是 ①以視頻幀為頂點(diǎn),以幀之間的關(guān)系來(lái)構(gòu)造邊,把視頻等價(jià)為一個(gè)無(wú)向權(quán)重圖; ②利用二叉樹(shù)選取視頻關(guān)鍵幀;
3.根據(jù)權(quán)利要求I所述的基于圖建模的視頻指紋方法,其特征在于所述步驟(3)的具體實(shí)現(xiàn)步驟是 ①利用圖割理論提取視頻關(guān)鍵幀前景圖像; ②計(jì)算前景圖像的四階累積量,并計(jì)算四階累積量的離散余弦變換系數(shù)。
4.根據(jù)權(quán)利要求I所述的基于圖建模的視頻指紋方法,其特征在于所述步驟(4)的具體實(shí)現(xiàn)步驟是 ①由每幀四階累積量離散余弦變換的變換系數(shù)中較大的20個(gè)系數(shù)構(gòu)造視頻特征向量; ②計(jì)算特征向量的峭度,稱為視頻匹配標(biāo)簽; ③利用密鑰把視頻特征向量量化成一個(gè)二值序列,由視頻匹配標(biāo)簽和二值序列共同構(gòu)成視頻指紋。
5.根據(jù)權(quán)利要求I所述的基于圖建模的視頻指紋方法,其特征在于所述步驟(5)的具體實(shí)現(xiàn)步驟是 ①利用視頻匹配標(biāo)簽在視頻數(shù)據(jù)庫(kù)中搜索,得到一個(gè)可疑匹配視頻組; ②在可疑匹配視頻組中利用視頻指紋中的二值序列對(duì)視頻指紋進(jìn)行精細(xì)匹配,以錯(cuò)誤碼元數(shù)作為兩個(gè)視頻的距離,然后計(jì)算誤碼率若誤碼率小于給定閾值,則說(shuō)明兩個(gè)視頻中其一為拷貝。
全文摘要
本發(fā)明提供了一種基于圖建模的視頻指紋方法,包括以下步驟(1)預(yù)處理將視頻幀的尺寸標(biāo)準(zhǔn)化并歸一化幀率;(2)關(guān)鍵幀的選取根據(jù)二叉樹(shù)理論來(lái)選取視頻關(guān)鍵幀;(3)利用圖割和能量?jī)?yōu)化理論提取視頻前景圖像,利用前景圖像四階累積量的離散余弦變換作為關(guān)鍵幀的特征,進(jìn)而構(gòu)成整個(gè)視頻特征;(4)構(gòu)造視頻指紋匹配標(biāo)簽和二值化視頻指紋;(5)分級(jí)匹配,利用匹配標(biāo)簽進(jìn)行初級(jí)匹配,然后利用二值化序列進(jìn)行精細(xì)匹配。實(shí)驗(yàn)證明,本發(fā)明具有較好的魯棒性和區(qū)分性。
文檔編號(hào)G06K9/46GK102682298SQ201210132008
公開(kāi)日2012年9月19日 申請(qǐng)日期2012年4月28日 優(yōu)先權(quán)日2012年4月28日
發(fā)明者孫建德, 聶秀山 申請(qǐng)人:聶秀山