一種視頻數(shù)據(jù)傳輸方法
【專利摘要】本發(fā)明提供了一種視頻數(shù)據(jù)傳輸方法,該方法包括:利用運動向量場進行全局運動估計;對視頻中的局部運動進行分割;對ROI圖像進行修正;基于修正的ROI圖像進行視頻編碼并傳輸。本發(fā)明準確完整地檢測出視頻中的關注區(qū)域;降低了編碼比特率,同時保持了主觀質(zhì)量。
【專利說明】一種視頻數(shù)據(jù)傳輸方法
【技術領域】
[0001] 本發(fā)明涉及視頻編碼,特別涉及一種視頻數(shù)據(jù)傳輸方法。
【背景技術】
[0002] 隨著信息技術的發(fā)展,生活中人們接觸到的視頻信息量越來越龐大,如何高效提 取視頻中顯著物體引起了越來越多研究者的關注,R0I (感興趣區(qū)域)在視頻信號處理方面 有著廣泛的應用,比如視頻檢索、視頻壓縮、視頻監(jiān)控、視頻跟蹤等領域。視頻傳輸方面,由 于現(xiàn)在視頻分辨率越來越高,因此高效的視頻傳輸方法也是研究的熱點之一。同時結合人 眼視覺模型的視頻編碼方法是下一代視頻編解碼的關鍵技術之一,因此R0I作為人眼視覺 模型的一個重要方面也就顯得尤為重要。
[0003] R0I在視頻信號處理方面有著廣泛的應用,因此對R0I技術的開發(fā)有非常重要的 意義。目前圖像R0I方法主要利用圖像的顏色、亮度等特征計算圖像的顯著性,但是圖像的 R0I方法沒有利用視頻的運動特征,因此將圖像R0I方法直接應用視頻檢測時效果不好。然 而對視頻R0I方法研究較少,并且存在方法復雜度較高的缺點,已有技術并未考慮視頻的 紋理特征以及人眼視覺所關注區(qū)域的整體性,導致壓縮率不高或主觀質(zhì)量不佳。
[0004] 因此,針對相關技術中所存在的上述問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005] 為解決上述現(xiàn)有技術所存在的問題,本發(fā)明提出了一種視頻數(shù)據(jù)傳輸方法,包 括:
[0006] 步驟一,利用視頻碼流中的運動向量場進行全局運動估計;
[0007] 步驟二,在對運動矢量場進行全局運動估計之后,對視頻中的局部運動進行分 割;
[0008] 步驟三,對得到的全局運動背景下提取的局部運動的R0I圖像進行修正;
[0009] 步驟四,基于修正的R0I圖像進行視頻編碼并傳輸。
[0010] 優(yōu)選地,所述步驟一采用參數(shù)為8維向量v= [V(l,Vl,…,v7]的投影模型,該模型 的透視變換定義為:
[0011] xK = (VoXc+vjc+vJ/GjjXc+vjc+l);
[0012] yE = (v3xc+v4yc+v5)/(v 6xc+v7yc+l);
[0013] 其中(xe,y。)和(xK,yK)分別為當前幀和參考幀的坐標,對于當前幀中每一個坐標 為(X。,y。)的對應運動模型v的塊,其運動分量定義為 :
[0014] Vx(xc, yc ;v) = xE-xc ;
[0015] VY(xc, yc ;v) = yE-yc ;
[0016] 其中Vx和VY分別代表運動向量V的水平和垂直分量,
[0017] 去除向量場中全局運動模型的第一偏差值和第二偏差值;所述第一偏差值為視頻 編碼過程中運動估計的運動向量噪聲;所述第二偏差值為不符合背景運動模型的運動向 量。
[0018] 優(yōu)選地,所述步驟二進一步包括:
[0019] 步驟3. 1以單個聚類即整幀所有的運動向量開始,計算它的中心V。= (ΣΛ)/Ν, 然后分別以新的中心1±1/2生成兩個新的聚類;
[0020] 步驟3. 2以最近最相似原則劃分整幀的運動向量到現(xiàn)有的聚類中,然后更新第i 個聚類的中心為<Σκ,ν〇/Ν?,其中隊是第i個聚類Q中運動向量的個數(shù);
[0021] 步驟3.3計算每個聚類的失真,即〇^=2_^£5||¥^¥〇|||分別以¥£^^ 為中心,繼續(xù)把具有最大失真的聚類(;劃分為兩個聚類,其中P= ((Xmax-Xmin)/2(M-1), (Ymax-Ym J /2 (M-l)),Μ為劃分之前聚類的總數(shù),Xmin,Xmax,Ymin和Y max分別為中心點向量中最 大和最小水平和垂直分量;
[0022] 步驟3. 4重復步驟3. 2和3. 3,直到聚類失真的變化小于預先設定的閾值。
[0023] 優(yōu)選地,所述步驟四進一步包括:
[0024] 采用自適應頻率系數(shù)壓制的方法,針對每個變換單元,定義:CP=.C?W,
[0025] 其中Cp為壓制后的頻率系數(shù)矩陣;@表示兩個矩陣對應元素相乘;W為頻率系數(shù)
【權利要求】
1. 一種視頻數(shù)據(jù)傳輸方法,其特征在于,包括: 步驟一,利用視頻碼流中的運動向量場進行全局運動估計; 步驟二,在對運動矢量場進行全局運動估計之后,對視頻中的局部運動進行分割; 步驟三,對得到的全局運動背景下提取的局部運動的ROI圖像進行修正; 步驟四,基于修正的ROI圖像進行視頻編碼并傳輸。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述步驟一采用參數(shù)為8維向量v= [V(l, Vi,…,v7]的投影模型,該模型的透視變換定義為: xE = (voXc+ViYc+v^/^eXc+v^c+l); yE = (v3Xc+V4yc+V5)/(v6Xc+V7yc+l); 其中(X。,y。)和(XK,yK)分別為當前幀和參考幀的坐標,對于當前幀中每一個坐標為 (X。,y。)的對應運動模型V的塊,其運動分量定義為: vx(xc,yc ;v) = xr-xc ; vY(xc,yc ;v) = yR-yc; 其中vx和vY分別代表運動向量v的水平和垂直分量, 去除向量場中全局運動模型的第一偏差值和第二偏差值;所述第一偏差值為視頻編碼 過程中運動估計的運動向量噪聲;所述第二偏差值為不符合背景運動模型的運動向量。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述步驟二進一步包括: 步驟3. 1以單個聚類即整幀所有的運動向量開始,計算它的中心V。= (Skvk)/N,然后 分別以新的中心火±火/2生成兩個新的聚類; 步驟3. 2以最近最相似原則劃分整幀的運動向量到現(xiàn)有的聚類中,然后更新第i個聚 類的中心為iXn.VjyNi,其中隊是第i個聚類Q中運動向量的個數(shù); 步驟3.3計算每個聚類的失真,即II Vj-VG II;分別以UP為 中心,繼續(xù)把具有最大失真的聚類(;劃分為兩個聚類,其中P = ((Xmax-Xmin)/2(M-1), (Ymax-Ym J /2 (M-l)),Μ為劃分之前聚類的總數(shù),Xmin,Xmax,Ymin和Y max分別為中心點向量中最 大和最小水平和垂直分量; 步驟3. 4重復步驟3. 2和3. 3,直到聚類失真的變化小于預先設定的閾值。
4. 根據(jù)權利要求3所述的方法,其特征在于,所述步驟四進一步包括: 采用自適應頻率系數(shù)壓制的方法,針對每個變換單元,定義:CP=C ? W, 其中(;為壓制后的頻率系數(shù)矩陣;?表示兩個矩陣對應元素相乘;W為頻率系數(shù)壓制 w, W, w3 矩陣,w= % ; w2 w3 w4 w5 _W3 w4 w5 14? _ Wi(i e [〇,6])取0或者1,并且滿足約束wi+1彡Wi ; 針對大小不同的變換單元,設定了 5種頻率系數(shù)壓制矩陣: wfkv.= {1 ((i + j) = ((k + l)N/4.i)) ()lJ [0 It他 其中i,j分別為塊的橫坐標和縱坐標,1(1〇^是頻率系數(shù)壓制矩陣;N是塊大小,取值 分別為4,8,16和32 ;k是5種候選矩陣的索引; 對應于5種候選矩陣,將非ROI區(qū)域TU的視覺感知權重WTU歸一化為五個等級LTU : LTU = ceil[ffTU/(128STU/5)], 其中STU分別對應四種塊大小取值為1,4,16和64, 確定TU的頻率系數(shù)壓制矩陣: ffTU = ff {min[max (LTU+ffinit, 0), 4]}, 其中Winit是控制頻率系數(shù)壓制的強度的選擇頻率系數(shù)矩陣的起始索引,取[-4,4]之間 的整數(shù)值,根據(jù)編碼QP動態(tài)更新,Winit = -(Qp-C^^/S^p+CU其中C_vs,STEP和OeM分別表 示非ROI區(qū)域常量值、步長和全局運動偏移。
【文檔編號】H04N19/567GK104125470SQ201410385517
【公開日】2014年10月29日 申請日期:2014年8月7日 優(yōu)先權日:2014年8月7日
【發(fā)明者】高冬 申請人:成都瑞博慧窗信息技術有限公司