本發(fā)明屬于視頻和圖像處理領(lǐng)域,涉及到立體圖像質(zhì)量評(píng)價(jià)方法和立體視頻質(zhì)量評(píng)價(jià)方法的改進(jìn)優(yōu)化,以及人類視覺系統(tǒng)中的多通道效應(yīng)在立體視頻質(zhì)量客觀評(píng)價(jià)中的應(yīng)用,具體講,涉及視覺多通道模型在立體視頻質(zhì)量客觀評(píng)價(jià)中的應(yīng)用方法。
背景技術(shù):
人眼視覺系統(tǒng)(humanvisualsystem)可以被看成是一個(gè)錯(cuò)綜復(fù)雜的綜合性信息處理系統(tǒng),它是人類認(rèn)知大自然的關(guān)鍵工具,在生物學(xué)上它由大量的神經(jīng)細(xì)胞相互組織連接而成。通過了解人眼視覺系統(tǒng)及其特性,能更好的認(rèn)識(shí)人眼觀看立體視頻的過程,從而更好地進(jìn)行立體視頻的質(zhì)量評(píng)價(jià)。
隨著對(duì)于視覺生理學(xué)與心理學(xué)方面的研究更加深入,研究者發(fā)現(xiàn)在人類視覺系統(tǒng)里存在著多個(gè)獨(dú)立的頻率處理單元,人眼視覺系統(tǒng)通過這樣多個(gè)視覺通道來傳輸采集到的視覺信息。這些通道的空間頻率相互獨(dú)立,它們把采集到的視覺信號(hào)劃分到具有不同空間頻率的通道中進(jìn)行處理。現(xiàn)階段,對(duì)于人眼視覺系統(tǒng)的多通道特性的研究主要包括時(shí)域多通道分解特性與空域多通道分解特性。對(duì)于時(shí)域多通道效應(yīng)作用機(jī)制的研究仍然存在一些爭(zhēng)議,但大多數(shù)研究者認(rèn)為時(shí)域多通道效應(yīng)主要由永久機(jī)制與暫時(shí)機(jī)制兩部分構(gòu)成[1]。而對(duì)于空域多通道效應(yīng)的研究則比較完善,文獻(xiàn)[2]通過研究人眼視覺系統(tǒng)對(duì)于圖像信號(hào)處理過程,發(fā)現(xiàn)灰度信號(hào)通??煞纸鉃?-6個(gè)頻帶和4-8個(gè)方向。通常情況下,我們可以采用諸如離散余弦濾波器組、金字塔濾波器或二維方向小波變換的多分辨濾波器組來模擬人眼視覺系統(tǒng)的空域多通道特性。
立體視頻能夠使觀看者獲得立體感,這無疑增強(qiáng)了用戶的觀看體驗(yàn),使用戶的感受更加真實(shí)。圖像處理、顯示技術(shù)以及視頻編碼技術(shù)(例如h.264/avc,h.264/svc以及多視點(diǎn)視頻編碼(mvc))使得立體視頻技術(shù)在很多應(yīng)用領(lǐng)域得到廣泛的發(fā)展。最近,最新的hevc/h.265標(biāo)準(zhǔn)[3]已經(jīng)增加了對(duì)立體視頻編碼的支持,與h.264相比,在相同的碼速率條件下h.265壓縮的視頻質(zhì)量更好。而且,隨著網(wǎng)絡(luò)容量和速度的快速增長(zhǎng),高清晰度的立體視頻向大的用戶群(移動(dòng)用戶、桌面辦公用戶以及可穿戴設(shè)備用戶)投送成為可能。這些技術(shù)的發(fā)展為傳統(tǒng)立體電影以外的很多應(yīng)用帶來了革命性的機(jī)會(huì),例如移動(dòng)電話立體視頻流、立體視頻在線交流、立體視頻會(huì)議、遠(yuǎn)程三維重現(xiàn)以及沉浸式三維視頻游戲等。全球很多組織機(jī)構(gòu)已經(jīng)在這方面加強(qiáng)學(xué)術(shù)交流和標(biāo)準(zhǔn)制定,例如3d@home[4]致力于3d消費(fèi)產(chǎn)品對(duì)人類生理的影響,并且與很多國(guó)際性機(jī)構(gòu)都有聯(lián)系(包括中國(guó)3d工業(yè)聯(lián)盟[5]和日本的3d聯(lián)合會(huì)[6]等)。
立體視頻通過引入深度信息從而給觀眾帶來了更好的視覺體驗(yàn)。然而,為了給用戶提供更好的立體視頻質(zhì)量,那就不僅要面對(duì)2d視頻中存在的問題,而且還要面對(duì)3d視頻所特有的問題。典型的立體視頻分別由左右視點(diǎn)構(gòu)成,有多種存儲(chǔ)方式。例如,立體視頻的左右視點(diǎn)可以分別存儲(chǔ)[7];可以以彩色圖像加深度圖[8]的方式存儲(chǔ),在這種存儲(chǔ)方式下顯示終端可以由深度圖來恢復(fù)左視圖或者右視圖;還可以以多視點(diǎn)[9]的方式存儲(chǔ),這種格式可以創(chuàng)建出多種觀察角度的視圖[10]。立體視頻通常有很高的冗余度,這些冗余信息可以通過各種各樣的壓縮算法來部分消除。但是在對(duì)立體視頻壓縮的同時(shí)也會(huì)造成立體視頻質(zhì)量的下降,從而影響用戶的觀看體驗(yàn)甚至給用戶的視覺系統(tǒng)帶來傷害。所以對(duì)壓縮的立體視頻進(jìn)行質(zhì)量評(píng)價(jià)從而將壓縮立體視頻的質(zhì)量管控在一定的范圍內(nèi)顯得尤為重要。
立體視頻質(zhì)量評(píng)價(jià)可分為主觀評(píng)價(jià)和客觀評(píng)價(jià)。由于主觀評(píng)價(jià)方法對(duì)實(shí)驗(yàn)環(huán)境、測(cè)試流程、被試者素質(zhì)等有較高要求,所以完成一次主觀評(píng)價(jià)既耗時(shí)又耗力,且結(jié)果的精確度易受外界條件影響,結(jié)果的可移植性和穩(wěn)定性難以達(dá)到應(yīng)用要求??陀^評(píng)價(jià)方法較主觀評(píng)價(jià)方法快速、穩(wěn)定且簡(jiǎn)單易行。因此,研究合理且高效的客觀評(píng)價(jià)方法意義重大。
立體視頻具有數(shù)據(jù)量大的特點(diǎn),這給立體視頻的傳輸和存儲(chǔ)帶來了很大的挑戰(zhàn),所以在立體視頻傳輸和存儲(chǔ)的過程中通常需要將其進(jìn)行壓縮,然而不當(dāng)?shù)膲嚎s可能造成立體視頻質(zhì)量的下降,而且在其傳輸過程中可能引入噪聲的影響,這同樣可能引起立體視頻質(zhì)量的下降。所以,對(duì)立體視頻進(jìn)行評(píng)價(jià)從而確定其質(zhì)量范圍對(duì)于控制立體視頻的舒適度至關(guān)重要。由人來對(duì)其進(jìn)行評(píng)價(jià)無疑是最準(zhǔn)確有效的方法,這種直接由人來評(píng)價(jià)立體視頻質(zhì)量的方式就是主觀評(píng)價(jià)。顯然主觀評(píng)價(jià)方法準(zhǔn)確有效而且可以真正的反應(yīng)人類對(duì)于立體視頻質(zhì)量好壞的感受。然而主觀評(píng)價(jià)往往需要大量的人力物力和時(shí)間,而且對(duì)于不同的視頻內(nèi)容需要進(jìn)行多次的重復(fù)勞動(dòng),這對(duì)于立體視頻質(zhì)量評(píng)價(jià)的實(shí)際應(yīng)用十分不利。因此,尋求一種自動(dòng)且智能的方法來評(píng)價(jià)立體視頻的質(zhì)量顯的尤為重要。所以立體視頻質(zhì)量的客觀評(píng)價(jià)方法就應(yīng)運(yùn)而生了,所謂客觀評(píng)價(jià)方法是指利用計(jì)算機(jī)執(zhí)行相應(yīng)的評(píng)價(jià)算法來對(duì)立體視頻進(jìn)行評(píng)價(jià)從而得到立體視頻的質(zhì)量。顯然客觀評(píng)價(jià)算法高效并且快速,然而客觀評(píng)價(jià)算法也有其面臨的難題,那就是客觀評(píng)價(jià)算法的準(zhǔn)確性。畢竟客觀評(píng)價(jià)算法不是由人來做出評(píng)價(jià)的,所以客觀評(píng)價(jià)算法能夠在多大程度上反映人類的觀看體驗(yàn)是其準(zhǔn)確性的評(píng)價(jià)標(biāo)準(zhǔn)。然而人類的觀看體驗(yàn)本身就很抽象又怎么用來評(píng)價(jià)客觀算法的準(zhǔn)確性呢?通常的做法是對(duì)相同的視頻材料分別進(jìn)行主觀評(píng)價(jià)和客觀評(píng)價(jià),再通過主客觀評(píng)價(jià)結(jié)果的一致性來衡量客觀評(píng)價(jià)算法的準(zhǔn)確性,并且通過主客觀評(píng)價(jià)結(jié)果的一致性來指導(dǎo)客觀評(píng)價(jià)算法的設(shè)計(jì)。下面分別介紹一些立體內(nèi)容的主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法。
主觀評(píng)價(jià)的基本過程是首先讓多名被試觀看同一段立體視頻,然后取這些被試給出的分值的平均值作為當(dāng)前立體視頻所對(duì)應(yīng)的主觀分值。主觀評(píng)價(jià)能夠直接體現(xiàn)觀看者的真實(shí)感受,結(jié)果更直接、更真實(shí)、更準(zhǔn)確,是最有效的評(píng)價(jià)視頻質(zhì)量的方法[11]。電視圖像質(zhì)量主觀評(píng)價(jià)方法建議書(recommendationitu-rbt.500-11)是由國(guó)際電信聯(lián)盟(itu)制定的,其中推薦了很多圖像、視頻主觀質(zhì)量評(píng)價(jià)的方法。在itu-rbt.500標(biāo)準(zhǔn)的基礎(chǔ),itu制定了立體電視圖像主觀評(píng)價(jià)標(biāo)準(zhǔn)itu-rbt.1438[12],其中雙重刺激連續(xù)質(zhì)量標(biāo)度(doublestimuluscontinuousqualityscale,dscqs)和雙重刺激損傷標(biāo)度(doublestimulusimpairmentscale,dsis)方法是評(píng)價(jià)立體視頻質(zhì)量時(shí)常用的主觀評(píng)價(jià)方法。
視頻專家組[13]是國(guó)際電信聯(lián)盟下屬的一個(gè)分支機(jī)構(gòu),他們提出可以根據(jù)客觀評(píng)價(jià)過程中對(duì)原始參考信息依賴程度的不同將客觀評(píng)價(jià)方法分為全參考(fullreference,fr)評(píng)價(jià)方法、部分參考(reducedreference,rr)評(píng)價(jià)方法和無參考(noreference,nr)評(píng)價(jià)方法。其中全參考評(píng)價(jià)方法是指在進(jìn)行客觀質(zhì)量評(píng)價(jià)時(shí)需要全部原始立體視頻作為評(píng)價(jià)時(shí)的參考依據(jù);其中部分參考評(píng)價(jià)方法是指在進(jìn)行客觀質(zhì)量評(píng)價(jià)時(shí)需要原始立體視頻的部分參數(shù)作為評(píng)價(jià)時(shí)的參考依據(jù),并不需要原始的立體視頻,這種方法與全參考立體視頻質(zhì)量評(píng)價(jià)方法相比可以有效的節(jié)省帶寬資源;而無參考評(píng)價(jià)方法是指在進(jìn)行客觀質(zhì)量評(píng)價(jià)時(shí)完全不需要原始立體視頻作為參考,這種方法所需的傳輸代價(jià)最小,但是也是最難實(shí)現(xiàn)的。下面介紹幾種典型的客觀質(zhì)量評(píng)價(jià)方案。
視覺信噪比(vsnr)是另一種比較經(jīng)典的基于人類視覺特性的評(píng)價(jià)方法,該方法是由chandler等人[14,15,16,17]提出的。這種方法首先用小波變換計(jì)算失真圖像與原始圖像差異量的小波系數(shù),然后判斷這些系數(shù)是否超過最小可辨失真的閾值,如果沒有超過閾值的系數(shù)就認(rèn)為;如果小波系數(shù)超過閾值,則依據(jù)視覺敏感度計(jì)算出使失真最小的噪聲分布,最后將計(jì)算所得分布與理想分布之間的歐氏距離作為圖像質(zhì)量的評(píng)價(jià)指標(biāo)。
結(jié)構(gòu)相似度(structuralsimilarity,ssim)是wangzhou等人[18,19,20,21]經(jīng)過一系列研究提出的一種非常經(jīng)典的圖像質(zhì)量評(píng)價(jià)算法。該方法主要通過失真圖像與原始圖像之間的亮度相似性、對(duì)比度相似性和結(jié)構(gòu)相似性三個(gè)指標(biāo)來衡量失真圖像的質(zhì)量的。在平面圖像質(zhì)量評(píng)價(jià)領(lǐng)域,該方法以及其相關(guān)的衍生方法具有十分優(yōu)秀的性能。是很多立體圖像和立體視頻質(zhì)量評(píng)價(jià)算法的基礎(chǔ)。
在立體視頻質(zhì)量評(píng)價(jià)方面研究人員通常都是結(jié)合一些已有的相關(guān)領(lǐng)域的方法通過迭代或者組合的方式來設(shè)計(jì)立體視頻質(zhì)量評(píng)價(jià)算法。例如,通過將上面提到的一些平面圖像質(zhì)量評(píng)價(jià)算法與視頻中特有的運(yùn)動(dòng)信息結(jié)合就可以得到視頻質(zhì)量評(píng)價(jià)算法;將平面圖像質(zhì)量評(píng)價(jià)方法與深度信息結(jié)合就可以得到立體圖象質(zhì)量評(píng)價(jià)方法;將平面圖像質(zhì)量評(píng)價(jià)方法、運(yùn)動(dòng)信息以及深度信息結(jié)合在一起就可以得到立體視頻質(zhì)量評(píng)價(jià)算法。在此基礎(chǔ)上再結(jié)合人類視覺系統(tǒng)特性就可以得到更加符合人類視覺特性的立體視頻質(zhì)量評(píng)價(jià)模型。其中在深度信息方面,人類視覺系統(tǒng)特性體現(xiàn)為雙目融合;在運(yùn)動(dòng)信息方面人類視覺系統(tǒng)特性體現(xiàn)為視覺顯著性;在圖像質(zhì)量提取方面人類視覺特性通過對(duì)比敏感度、視覺多通道以及最小可辨失真等方面體現(xiàn)出來。目前大部分立體視頻質(zhì)量評(píng)價(jià)算法都是以上所提內(nèi)容優(yōu)化組合的結(jié)果。
在客觀評(píng)價(jià)方面,比較經(jīng)典的方法有基于統(tǒng)計(jì)方法的峰值信噪比psnr以及其衍生的一系列模型;還有基于結(jié)構(gòu)相似度的方法以及其衍生出的一些方法;還有vqm模型[22]。有些研究人員直接將普通視頻質(zhì)量評(píng)價(jià)方法應(yīng)用于立體視頻中。例如,成于慶等人[23]通過將psnr應(yīng)用于立體圖像的絕對(duì)差值圖來評(píng)價(jià)立體圖像的質(zhì)量;donghyunkim等人[24]將運(yùn)動(dòng)信息和深度信息與ssim和psnr算法結(jié)合構(gòu)造了一種用于評(píng)價(jià)立體視頻質(zhì)量的算法;文獻(xiàn)[25]、[26]、[27]直接將vqm、ssim和psnr應(yīng)用于立體視頻左、右視點(diǎn),然后取左右視點(diǎn)的均值作為立體視頻的質(zhì)量,其中vqm模型所得結(jié)果與主觀評(píng)價(jià)具有最好的一致性;文獻(xiàn)[28]所提立體視頻質(zhì)量評(píng)價(jià)方法將視頻內(nèi)容、環(huán)境亮度與vqm模型結(jié)合,這使得該方法更加接近人類視覺特性。有些文獻(xiàn)[29,30]將立體視頻質(zhì)量的評(píng)價(jià)分為兩個(gè)部分:畫面質(zhì)量和深度感。畫面質(zhì)量可以通過普通視頻質(zhì)量評(píng)價(jià)方法獲得,深度感的好壞可以通過評(píng)價(jià)深度圖來獲得,而要想獲得深度圖就需要先知道左右視點(diǎn)的視差圖,所以視差圖在某種程度上也可以反映立體視頻中的深度信息。張艷等人[31]分別對(duì)立體視頻左右視點(diǎn)和視差圖進(jìn)行評(píng)價(jià)從而獲得了立體視頻的畫面質(zhì)量和立體感質(zhì)量,然后將這兩種質(zhì)量通過加權(quán)的方式結(jié)合在一起從而得到最終的立體視頻質(zhì)量。馬辰陽(yáng)等人[32]所提的立體視頻質(zhì)量評(píng)價(jià)方法中考慮了幀間的運(yùn)動(dòng)信息和幀內(nèi)的結(jié)構(gòu)信息和亮度信息,該方法利用gssim評(píng)價(jià)左右視點(diǎn)的質(zhì)量,然后加權(quán)得到立體視頻的畫面質(zhì)量,在深度質(zhì)量方面該方法通過利用psnr評(píng)價(jià)絕對(duì)差值圖從而得到深度質(zhì)量。文獻(xiàn)[33]所提方法首先提取圖像中的視覺顯著性區(qū)域,然后再提取這些區(qū)域中的空間復(fù)雜度信息、運(yùn)動(dòng)信息、視差信息以及不對(duì)稱性信息,最后通過訓(xùn)練支持向量機(jī)來預(yù)測(cè)立體視頻的質(zhì)量。文獻(xiàn)[34]提出了一種基于3d-dct的立體視頻質(zhì)量評(píng)價(jià)方法。文獻(xiàn)[35]提出了一種空間頻率域(sfd)的立體視頻質(zhì)量評(píng)價(jià)方法。文獻(xiàn)[36]提出了一種三維時(shí)空結(jié)構(gòu)(3d-sts)的立體視頻質(zhì)量評(píng)價(jià)方法。
還有一些研究人員在設(shè)計(jì)立體視頻質(zhì)量評(píng)價(jià)算法時(shí)結(jié)合了人類視覺系統(tǒng)(humanvisualsystem,hvs)特性。文獻(xiàn)[37]提出了名為感知質(zhì)量評(píng)價(jià)(perceptualqualitymetric,pqm)的立體視頻質(zhì)量評(píng)價(jià)算法,該算法考慮了人類視覺系統(tǒng)中的對(duì)比度和亮度敏感特性。文獻(xiàn)[38]提出了一種名為vqm3d的立體視頻質(zhì)量評(píng)價(jià)算法,該算法考慮了像素塊的邊界失真,在此基礎(chǔ)上利用pqm計(jì)算立體視頻質(zhì)量。文獻(xiàn)[39]提出了一種新的最小可辨失真模型(justnoticeabledistortion,jnd),該模型主要考慮了人類視覺系統(tǒng)中的雙目亮度掩蓋特性。文獻(xiàn)[40]提出立體視頻質(zhì)量評(píng)價(jià)算法(stereoscopicvideoqualityassessment,svqa),該算法構(gòu)建了立體最小可變失真sjnd(stereojust-noticeabledifference,sjnd)模型,該模型主要模擬了人類視覺系統(tǒng)中的對(duì)比敏感度特性、空間掩蓋特性、時(shí)間掩蓋特性以及雙目掩蓋特性,該算法能夠較好的模擬人類視覺系統(tǒng)特性。文獻(xiàn)[41]中提出的一種立體視頻質(zhì)量評(píng)價(jià)方法考慮了時(shí)空結(jié)構(gòu)的相關(guān)性,通過提取視覺顯著性區(qū)域提升了計(jì)算速度;文獻(xiàn)[42]提出了一種針對(duì)非對(duì)稱編碼的立體視頻質(zhì)量評(píng)價(jià)算法,該算法中結(jié)合了視頻的深度信息和單眼色度信息。jin等人[43]提出了一種frsiqa模型用于評(píng)價(jià)移動(dòng)3d視頻,這種模型利用中央視野、雙目競(jìng)爭(zhēng)以及場(chǎng)景的幾何結(jié)構(gòu)來評(píng)價(jià)圖像的質(zhì)量,最后通過機(jī)器學(xué)習(xí)來獲得立體視頻的質(zhì)量。文獻(xiàn)[44]提出了一種基于視頻壓縮損傷特征分析的質(zhì)量評(píng)價(jià)方法,該方法主要考慮了視頻的時(shí)間特征以及人類視覺中的雙目感知特性。文獻(xiàn)[45]提出了一種基于視覺顯著性和邊緣差異的立體視頻質(zhì)量評(píng)價(jià)方法,該方法先利用邊緣信息計(jì)算塊效應(yīng)、零交叉以及視差等特征,再用視覺顯著性加權(quán)這些特征來獲得立體視頻的質(zhì)量。文獻(xiàn)[46]提出了一種基于視覺顯著性和最小可辨失真的立體視頻質(zhì)量評(píng)價(jià)方法。
在實(shí)際應(yīng)用中很難獲得原始的立體信息,所以全參考立體視頻質(zhì)量評(píng)價(jià)方法往往不能直接應(yīng)用于實(shí)際的生產(chǎn)環(huán)境當(dāng)中,針對(duì)全參考立體視頻質(zhì)量評(píng)價(jià)方法的這種局限性,又有一些研究人員設(shè)計(jì)并提出了半?yún)⒖剂Ⅲw視頻質(zhì)量評(píng)價(jià)方法和無參考立體視頻質(zhì)量評(píng)價(jià)方法。例如文獻(xiàn)[47]和[48]中就提出了部分參考立體視頻質(zhì)量評(píng)價(jià)算法,這些算法中所用到的參考信息是原始立體視頻的部分特征,而且這些特征只需要通過輔助信道傳輸即可;文獻(xiàn)[49]中提出了一種基于時(shí)空分割的無參考立體視頻質(zhì)量評(píng)價(jià)算法,該算法主要考慮了立體視頻中的視差、時(shí)間特征和空間特征等指標(biāo);文獻(xiàn)[50]中提出了一種基于深度圖的立體視頻質(zhì)量評(píng)價(jià)算法,該算法主要考慮了垂直視差、水平視差以及像素深度值在時(shí)間域上的跳變;文獻(xiàn)[51]中提出了另一種無參考立體視頻質(zhì)量評(píng)價(jià)模型,該模型主要針對(duì)深度圖加彩色圖的立體視屏進(jìn)行評(píng)價(jià)質(zhì)量評(píng)價(jià),該模型主要涉及到立體視頻中的空間差異、時(shí)間差異和時(shí)間不一致性這三個(gè)評(píng)價(jià)指標(biāo)。文獻(xiàn)[52]提出了一種基于雙目感知的半?yún)⒖剂Ⅲw視頻質(zhì)量評(píng)價(jià)方法,該方法主要考慮了視頻的時(shí)域特征以及人類視覺中的雙目感知特性。文獻(xiàn)[53]提出了一種無參考的質(zhì)量評(píng)價(jià)方法,但是現(xiàn)存的一些無參考評(píng)價(jià)方法只對(duì)特定的內(nèi)容或者特定的損傷類型有效。
技術(shù)實(shí)現(xiàn)要素:
為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在利用小波變換建模人類視覺系統(tǒng)中的視覺多通道特性,在關(guān)鍵幀上應(yīng)用該模型以便得到更好的立體視頻質(zhì)量評(píng)價(jià)結(jié)果。提出一種更加符合人類視覺系統(tǒng)相關(guān)特性且有效的立體視頻客觀質(zhì)量評(píng)價(jià)方法。使新的立體視頻客觀質(zhì)量評(píng)價(jià)方法更加準(zhǔn)確高效的評(píng)價(jià)立體視頻的質(zhì)量,同時(shí)在一定程度上推動(dòng)立體成像技術(shù)的發(fā)展。本發(fā)明采用的技術(shù)方案是,視覺多通道模型在立體視頻質(zhì)量客觀評(píng)價(jià)中的應(yīng)用方法,利用haar小波建模視覺多通道模型,首先將關(guān)鍵幀的絕對(duì)差值圖進(jìn)行三級(jí)小波變換,分解成不同的方向和頻率成分來模擬人眼多通道特性;然后應(yīng)用ssim對(duì)變換所得的不同分量進(jìn)行評(píng)價(jià)從而得到相應(yīng)的的客觀質(zhì)量,然后利用小波逆變換得到每一關(guān)鍵幀的單一質(zhì)量;最后應(yīng)用關(guān)鍵幀的權(quán)重加權(quán)關(guān)鍵幀的質(zhì)量從而得到完整的立體視頻質(zhì)量。
使用自適應(yīng)權(quán)重法提取關(guān)鍵幀,具體是是將立體視頻中所有幀的權(quán)重看作是一個(gè)“基因序列”,然后通過變異、選擇等過程優(yōu)化這組“基因序列”,最終得到一組能夠使得立體視頻主客觀質(zhì)量一致性高的權(quán)重組合。
應(yīng)用絕對(duì)差值圖來表示立體信息,絕對(duì)差值圖由式(1)計(jì)算得到:
iabs(x,y)=|ileft(x,y)-iright(x,y)|(1)
式(1)中ileft(x,y),iright(x,y)分別為立體圖像左右視點(diǎn)位置(x,y)的像素值,iabs(x,y)為所求的相應(yīng)位置處的絕對(duì)差值。
haar小波對(duì)提取出的關(guān)鍵幀的絕對(duì)差值圖進(jìn)行三級(jí)小波變換,經(jīng)過三級(jí)小波變換后,共得到1個(gè)低頻近似分量系數(shù)矩陣ca(p)和9個(gè)高頻系數(shù)矩陣,分別為垂直方向高頻細(xì)節(jié)分量矩陣cvλ(p),水平方向高頻細(xì)節(jié)分量矩陣chλ(p)和對(duì)角方向高頻細(xì)節(jié)分量矩陣cdλ(p),其中λ為小波分解級(jí)數(shù),λ={1,2,3}。
應(yīng)用關(guān)鍵幀的權(quán)重加權(quán)關(guān)鍵幀的質(zhì)量是用對(duì)比度敏感度函數(shù)對(duì)小波分解后得到的各個(gè)高頻系數(shù)矩陣進(jìn)行加權(quán),從而模擬人眼視覺系統(tǒng)在識(shí)別靜態(tài)圖像時(shí)的多通道特性,具體做法如下:首先計(jì)算各高頻系數(shù)矩陣空間頻率:
對(duì)于水平方向高頻細(xì)節(jié)系數(shù)矩陣chλ(p),因?yàn)槠涿枋龅氖菆D像在水平方向的細(xì)節(jié)變化,所以在計(jì)算空間頻率的過程中,只需要計(jì)算水平方向的頻率,如式(8)所示,同理垂直方向高頻細(xì)節(jié)系數(shù)矩陣cvλ(p),因?yàn)槠涿枋龅氖菆D像在垂直方向的細(xì)節(jié)變化,所以只需要計(jì)算垂直方向的頻率,如式(9)所示;對(duì)于對(duì)角方向的系數(shù)矩陣cdλ(p),因?yàn)槠浞从车氖?5°和135°兩個(gè)方向上的邊緣細(xì)節(jié)信息,因此需要按照式(10)計(jì)算空間頻率:
其中,m為系數(shù)矩陣行數(shù),n為系數(shù)矩陣列數(shù),λ為小波分解級(jí)數(shù),λ={1,2,3},(i,j)為所得系數(shù)矩陣第i行、第j列元素值,
然后將各個(gè)高頻系數(shù)矩陣的空間頻率與觀看角度η的商μ作為對(duì)比度敏感度函數(shù)csf(f)的輸入,計(jì)算各通道對(duì)比度敏感度權(quán)重ω;
ω=csf(μ)(11)
最后使用各通道對(duì)比度敏感度權(quán)重ω對(duì)高頻系數(shù)矩陣進(jìn)行加權(quán)重構(gòu),計(jì)算重構(gòu)后圖像p,如式(12)所示,其中
重構(gòu)后的圖像即為人眼實(shí)際感知到的圖像,使用重構(gòu)后的圖像計(jì)算失真度。
本發(fā)明的特點(diǎn)及有益效果是:
本立體視頻質(zhì)量客觀評(píng)價(jià)方法由于考慮了人眼單目視覺中的多通道效應(yīng)視覺特性,通過自適應(yīng)權(quán)重調(diào)節(jié)方法提取關(guān)鍵幀,然后將視覺多通道模型應(yīng)用于關(guān)鍵幀,從而得到更加優(yōu)秀的立體視頻質(zhì)量評(píng)價(jià)方法。由于該立體視頻質(zhì)量評(píng)價(jià)方法考慮到了人類視覺系統(tǒng)中很多視覺特性,所以其評(píng)價(jià)結(jié)果十分接近主觀質(zhì)量評(píng)價(jià)的結(jié)果。實(shí)驗(yàn)結(jié)果說明,本方法的準(zhǔn)確性和可靠性優(yōu)于目前常見的其它立體視頻質(zhì)量客觀評(píng)價(jià)方法。
附圖說明:
圖1視覺多通道模型的應(yīng)用。
圖2立體視頻庫(kù)中三段不同內(nèi)容視頻圖示,圖中:
(a)airplane參考圖像(b)ballroom參考圖像(c)woshou參考圖像
(d)airplane失真圖像(e)ballroom失真圖像(f)woshou失真圖像。
圖3haar小波三級(jí)分解后的圖像,圖中:
(g)airplane(h)ballroom(i)woshou。
圖4haar小波分解圖。
圖5主客觀質(zhì)量評(píng)價(jià)散點(diǎn)圖,圖中:
(a)3dvif散點(diǎn)圖(b)3dpsnr散點(diǎn)圖
(c)3dvsnr散點(diǎn)圖(d)3dssim散點(diǎn)圖
(e)3dmssim散點(diǎn)圖(f)3dms散點(diǎn)圖
(g)3dmsfw散點(diǎn)圖(h)3dmsfwmr散點(diǎn)圖。
具體實(shí)施方式
本發(fā)明利用小波變換建模人類視覺系統(tǒng)中的視覺多通道特性,在關(guān)鍵幀上應(yīng)用該模型得到了很好的立體視頻質(zhì)量評(píng)價(jià)結(jié)果。實(shí)驗(yàn)結(jié)果表明,本發(fā)明提出的立體視頻質(zhì)量評(píng)價(jià)模型的評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果有很好的一致性,不僅能夠體現(xiàn)人類視覺特性,還能夠準(zhǔn)確的評(píng)價(jià)立體視頻的質(zhì)量。
視覺多通道模型源于對(duì)人類視覺系統(tǒng)中的外側(cè)膝狀體的研究,研究發(fā)現(xiàn)人類視覺系統(tǒng)會(huì)將人眼所感知到的場(chǎng)景中不同的頻率成分通過不同的神經(jīng)通道傳輸,這就是所謂的人類視覺系統(tǒng)的視覺多通道效應(yīng)。
為了建模視覺多通道效應(yīng),我們就應(yīng)該將圖像進(jìn)行多分辨率分解從而得到圖像的不同頻率成分。然后再分別對(duì)不同頻率成分進(jìn)行質(zhì)量評(píng)價(jià),最后再將不同頻率成分的質(zhì)量分值合成完整的圖像質(zhì)量分值。對(duì)圖像進(jìn)行多分辨率分解以及再對(duì)其中不同成分進(jìn)行質(zhì)量評(píng)價(jià)勢(shì)必會(huì)增加計(jì)算復(fù)雜度,雖然計(jì)算復(fù)雜度的增加對(duì)圖像處理沒有實(shí)質(zhì)性的影響,但是對(duì)于立體視頻質(zhì)量評(píng)價(jià)來說計(jì)算復(fù)雜度的增加會(huì)積累到每一幀上,這就使得立體視頻質(zhì)量評(píng)價(jià)過程會(huì)變得非常緩慢。所以對(duì)立體視頻中每一幀都應(yīng)用視覺多分辨率模型是不可行的。
首先,我們通過自適應(yīng)權(quán)重調(diào)整算法得到了具有稀疏性的權(quán)值向量,即能夠通過自適應(yīng)權(quán)重調(diào)整算法確定立體視頻中的關(guān)鍵幀,而關(guān)鍵幀的數(shù)量遠(yuǎn)遠(yuǎn)少于立體視頻的幀數(shù),這就使得將視覺多通道模型應(yīng)用于立體視頻質(zhì)量評(píng)價(jià)成為可能。所以本發(fā)明接下來視覺多通道的應(yīng)用都是在圖像自適應(yīng)權(quán)重處理所得的關(guān)鍵幀上進(jìn)行的,其具體過程如圖1所示。
本發(fā)明是利用小波變換來建模人類視覺系統(tǒng)中的多通道特性的。小波變換能夠?qū)D像分解成不同的方向和頻率成分,這與人類視覺系統(tǒng)中的多通道特征不謀而合,所以用小波變換建模視覺多通道很合適。本發(fā)明用haar小波建模視覺多通道模型,首先將提取的關(guān)鍵幀的絕對(duì)差值圖進(jìn)行三級(jí)小波變換,分解成不同的方向和頻率成分來模擬人眼多通道特性;然后應(yīng)用ssim對(duì)變換所得的不同分量進(jìn)行評(píng)價(jià)從而得到相應(yīng)的的客觀質(zhì)量,然后利用小波逆變換得到每一關(guān)鍵幀的單一質(zhì)量;最后應(yīng)用關(guān)鍵幀的權(quán)重加權(quán)關(guān)鍵幀的質(zhì)量從而得到完整的立體視頻質(zhì)量。
立體視頻、立體圖像中的一個(gè)關(guān)鍵因素就是深度,然而本發(fā)明所涉及的立體視頻庫(kù)中并沒有深度信息,所以想要對(duì)深度信息做出評(píng)價(jià)就必須先對(duì)立體視頻中的所有幀進(jìn)行立體匹配從而得到相應(yīng)的深度圖。目前還沒有任何一種立體匹配算法能夠從原始立體圖像中獲得完美的深度圖,所以效果不是最好的立體匹配算法的性能也會(huì)影響立體視頻質(zhì)量評(píng)價(jià)的準(zhǔn)確性。而本發(fā)明所研究的目標(biāo)并不在于立體匹配算法性能的好壞,所以我們并不希望立體匹配算法性能的差異影響立體視頻質(zhì)量。因此本發(fā)明中并沒有利用立體匹配算法來提取深度信息,但是為了得到立體信息的近似表述,本發(fā)明應(yīng)用絕對(duì)差值圖來表示立體信息。絕對(duì)差值圖的計(jì)算非常簡(jiǎn)單,由式(1)計(jì)算得到:
iabs(x,y)=|ileft(x,y)-iright(x,y)|(1)
式(1)中ileft(x,y),iright(x,y)分別為立體圖像左右視點(diǎn)位置(x,y)的像素值,iabs(x,y)為所求的相應(yīng)位置處的絕對(duì)差值。
本發(fā)明所提的關(guān)于視覺多通道模型的應(yīng)用主要涉及如下內(nèi)容。首先利用自適應(yīng)權(quán)重調(diào)節(jié)算法來確定立體視頻中對(duì)評(píng)價(jià)起決定作用的關(guān)鍵幀,并利用小波變換建模人類視覺系統(tǒng)中的視覺多通道模型,然后將視覺多通道模型應(yīng)用于這些關(guān)鍵幀的絕對(duì)差值圖來獲得最終的評(píng)價(jià)結(jié)果。由于自適應(yīng)權(quán)重調(diào)節(jié)算法所得結(jié)果具有稀疏性,所以在關(guān)鍵幀上應(yīng)用視覺多通道模型可以有效的節(jié)省計(jì)算資源。
本發(fā)明所提立體視頻庫(kù)中原始的立體視頻來自天津三維顯示技術(shù)有限公司和hhi研究所,其中包括三種不同內(nèi)容的立體視頻,其信息列于表2中。
表2視頻內(nèi)容及參數(shù)
由于人類視覺系統(tǒng)對(duì)量化參數(shù)小于24的壓縮失真不敏感,所以我們?cè)诮⒅饔^實(shí)驗(yàn)數(shù)據(jù)庫(kù)時(shí)選擇了如下7種步長(zhǎng)的量化參數(shù):24、28、32、36、40、44、48。立體視頻左右視點(diǎn)分別以每種量化步長(zhǎng)進(jìn)行壓縮,再相互結(jié)合成完整的立體視頻,所以每種內(nèi)容的立體視頻都包含有49種不同損傷程度的失真視頻和一個(gè)未失真的原始立體視頻,其中49種不同損傷程度的立體視頻既包括對(duì)稱壓縮損傷也包括非對(duì)稱壓縮損傷。本發(fā)明所提立體視頻主觀實(shí)驗(yàn)數(shù)據(jù)庫(kù)一共包含150段不同內(nèi)容和不同損傷程度的立體視頻。
下面結(jié)合技術(shù)方案詳細(xì)說明本方法:
本方法首先對(duì)立體視頻采用自適應(yīng)權(quán)重法提取關(guān)鍵幀,然后將視覺多通道模型應(yīng)用于關(guān)鍵幀,得出評(píng)價(jià)結(jié)果作為立體圖像失真程度的客觀評(píng)價(jià)的一部分。對(duì)于本發(fā)明所提的關(guān)于視覺多通道模型的應(yīng)用主要涉及如下內(nèi)容。首先利用自適應(yīng)權(quán)重調(diào)節(jié)算法來確定立體視頻中對(duì)評(píng)價(jià)起決定作用的關(guān)鍵幀,并利用小波變換建模人類視覺系統(tǒng)中的視覺多通道模型,然后將視覺多通道模型應(yīng)用于這些關(guān)鍵幀的絕對(duì)差值圖來獲得最終的評(píng)價(jià)結(jié)果。由于自適應(yīng)權(quán)重調(diào)節(jié)算法所得結(jié)果具有稀疏性,所以在關(guān)鍵幀上應(yīng)用視覺多通道模型可以有效的節(jié)省計(jì)算資源。
具體步驟如下:
1提取關(guān)鍵幀
本發(fā)明使用自適應(yīng)權(quán)重法提取關(guān)鍵幀。自適應(yīng)權(quán)重分配方法的思想來源于遺傳算法。而遺傳算法是對(duì)生物體的遺傳變異以及環(huán)境選擇的數(shù)學(xué)建模。其核心思想是基因的交叉、變異與選擇。自適應(yīng)權(quán)重分配算法的核心思想是將立體視頻中所有幀的權(quán)重看作是一個(gè)“基因序列”,然后通過變異、選擇等過程優(yōu)化這組“基因序列”,最終得到一組能夠使得立體視頻主客觀質(zhì)量一致性高的權(quán)重組合。
實(shí)際上最后得到的最優(yōu)權(quán)值向量具有稀疏性,即的大部分元素值為零,只有很少一部分元素的值不為零。這又進(jìn)一步說明立體視頻中幀與幀之間存在著顯著性差異,某些幀的顯著性非常強(qiáng),能夠引起觀看者較強(qiáng)烈的關(guān)注;而另外一些幀則不具有顯著性,甚至不能引起觀看者的注意。本發(fā)明把具有非零權(quán)值的少數(shù)幀稱作關(guān)鍵幀,顯然當(dāng)對(duì)立體視頻進(jìn)行質(zhì)量預(yù)測(cè)時(shí)我們只需得到少數(shù)關(guān)鍵幀的立體圖像質(zhì)量保真度就可以了,其它非關(guān)鍵幀根本無需計(jì)算其質(zhì)量保真度,因?yàn)樗鼈儗?duì)立體視頻最終的質(zhì)量預(yù)測(cè)值沒有任何影響(非關(guān)鍵幀所對(duì)應(yīng)的權(quán)值因子都為零)。如果能夠在計(jì)算視頻中每幀立體圖像質(zhì)量保真度前就確定關(guān)鍵幀,則會(huì)節(jié)省很多計(jì)算代價(jià),與此同時(shí)會(huì)大大提升計(jì)算速度。
2差值圖的獲取
立體視頻、立體圖像中的一個(gè)關(guān)鍵因素就是深度,本發(fā)明所涉及的立體視頻庫(kù)中并沒有深度信息,所以想要對(duì)深度信息做出評(píng)價(jià)就必須先對(duì)立體視頻中的所有幀進(jìn)行立體匹配從而得到相應(yīng)的深度圖。然而,目前還沒有任何一種立體匹配算法能夠從原始立體圖像中獲得完美的深度圖,所以立體匹配算法的性能也會(huì)影響立體視頻質(zhì)量評(píng)價(jià)的準(zhǔn)確性。因?yàn)楸景l(fā)明所研究的目標(biāo)并不在于立體匹配算法性能的好壞,所以我們并不希望立體匹配算法性能的差異影響立體視頻質(zhì)量。故本發(fā)明中并沒有利用立體匹配算法來提取深度信息,但是為了得到立體信息的近似表述,本發(fā)明應(yīng)用絕對(duì)差值圖來表示立體信息。絕對(duì)差值圖的計(jì)算非常簡(jiǎn)單,由式(1)計(jì)算得到:
iabs(x,y)=|ileft(x,y)-iright(x,y)|(1)
式(1)中ileft(x,y),iright(x,y)分別為立體圖像左右視點(diǎn)位置(x,y)的像素值,iabs(x,y)為所求的相應(yīng)位置處的絕對(duì)差值。
3視覺多通道模型應(yīng)用
3.1多通道模型簡(jiǎn)介
本發(fā)明是利用小波變換來建模人類視覺系統(tǒng)中的多通道特性的。小波變換能夠?qū)D像分解成不同的方向和頻率成分,這與人類視覺系統(tǒng)中的多通道特征不謀而合,所以用小波變換建模視覺多通道很合適。本發(fā)明用haar小波建模視覺多通道模型,首先將關(guān)鍵幀的絕對(duì)差值圖進(jìn)行三級(jí)小波變換,分解成不同的方向和頻率成分來模擬人眼多通道特性,然后應(yīng)用ssim對(duì)變換所得的不同分量進(jìn)行評(píng)價(jià)從而得到相應(yīng)的的客觀質(zhì)量,然后利用小波逆變換得到每一關(guān)鍵幀的單一質(zhì)量,最后應(yīng)用關(guān)鍵幀的權(quán)重加權(quán)關(guān)鍵幀的質(zhì)量從而得到完整的立體視頻質(zhì)量。
3.2小波變換
3.2.1一維小波變換
小波變換的產(chǎn)生是為了彌補(bǔ)傅里葉變換的不足。眾所周知傅里葉變換可以時(shí)域信號(hào)變換為頻域信號(hào),這有助于將原來的問題轉(zhuǎn)化為頻域問題從而在頻域中尋找解決方案。式(2)和(3)分別為傅里葉正變換和傅里葉逆變換的計(jì)算公式。
式(2)和式(3)中的f(t)是時(shí)域信號(hào),f(ω)是頻域信號(hào)。
從以上計(jì)算公式中我們可以看到頻域信號(hào)是由全部時(shí)域信號(hào)計(jì)算得到的,同理其反變換中時(shí)域信號(hào)是由全部頻域信號(hào)計(jì)算所得,這就說明每一個(gè)局部的頻域信號(hào)都會(huì)與全部的時(shí)域信號(hào)相關(guān),而每一個(gè)局部的時(shí)域信號(hào)同樣與全部的頻域信號(hào)相關(guān),這就使得傅立葉變換不能很好的同時(shí)體現(xiàn)局部的時(shí)頻域信息。為了同時(shí)獲得局部時(shí)域和頻域信息,小波變換就應(yīng)運(yùn)而生了。
小波變換由于其分析窗口的尺度可以自由調(diào)節(jié),所以能夠同時(shí)獲得不同尺度的時(shí)域和頻域信息。正因?yàn)樾〔ㄗ儞Q具有這種優(yōu)良的分析性能,所以得到了廣泛的應(yīng)用。
函數(shù)的小波變換定義如下:
其內(nèi)積形式為:
wtf(α,τ)=<f,ψα,τ}(5)
當(dāng)滿足以下條件時(shí),它存在逆變換:
小波逆變換的形式為:
式(4)中α是尺度參數(shù),τ是時(shí)間參數(shù)或者平移參數(shù),f(t)是輸入信號(hào),wtf(α,τ)是指對(duì)信號(hào)f(t)在尺度參數(shù)α和平移參數(shù)τ下進(jìn)行小波變換后的小波系數(shù)。式(5)中<>表示內(nèi)積符號(hào),f是輸入信號(hào),ψα,τ是小波基。式(6)中的
由小波變換的計(jì)算公式可知,小波變換是將時(shí)域信號(hào)轉(zhuǎn)變?yōu)闀r(shí)間尺度域信號(hào),而尺度就是頻率的另一種表述,所以小波變換可以同時(shí)獲得局部時(shí)域和頻域信息。這十分有利于同時(shí)在時(shí)域和頻域中分析信號(hào)。
3.2.2二維haar小波變換
在眾多正交函數(shù)中,haar小波函數(shù)是最簡(jiǎn)單的正交函數(shù),與其它正交函數(shù)相比,它具有構(gòu)造簡(jiǎn)單、對(duì)應(yīng)的濾波器具有線性相位性、計(jì)算方便的特點(diǎn)。因此haar小波函數(shù)引起人們的普遍關(guān)注。haar函數(shù)的正交集是一些幅值為+1或-1的方波,而且在一段區(qū)間有值,其他區(qū)間為零。這使得haar小波變換比其它小波函數(shù)要快。
小波變換的基本思想是用一組小波函數(shù)或者基函數(shù)表示一個(gè)函數(shù)或者信號(hào)。信號(hào)分析一般是為了獲得時(shí)間和頻率域之間的相互關(guān)系,傅立葉變換提供了有關(guān)頻率域的信息,但時(shí)間方面的局部化信息卻基本丟失。與傅立葉變換不同,小波變換通過平移母小波可獲得信號(hào)的時(shí)間信息,而通過縮放小波的寬度(或者叫做尺度)可獲得信號(hào)的頻率特性。在小波變換中,近似值是大的縮放因子產(chǎn)生的系數(shù),表示信號(hào)的低頻分量。而細(xì)節(jié)值是小的縮放因子產(chǎn)生的系數(shù),表示信號(hào)的高頻分量。
對(duì)二維圖像進(jìn)行haar小波變換有兩種方法:標(biāo)準(zhǔn)分解和非標(biāo)準(zhǔn)分解。標(biāo)準(zhǔn)分解是指先使用一維小波對(duì)圖像的每一行的像素值進(jìn)行變換,產(chǎn)生每一行像素的平均值和細(xì)節(jié)系數(shù),然后再使用一維小波對(duì)這個(gè)經(jīng)過行變換的圖像的列進(jìn)行變換,產(chǎn)生這個(gè)圖像的平均值和細(xì)節(jié)系數(shù)。非標(biāo)準(zhǔn)分解是指使用一維小波交替地對(duì)每一行和每一列像素值進(jìn)行變換。圖4是haar小波對(duì)二維圖像的一級(jí)及三級(jí)分解子帶圖,在右圖中最低頻a3子帶圖像與原始圖像極其相似,只是尺寸變小,它包含了原圖的絕大部分能量,對(duì)恢復(fù)圖像質(zhì)量影響較大,其余高頻子帶的小波系數(shù)大多非常小。在同一層,由于v及h子圖表示的邊緣子圖像的小波系數(shù)和方差比d子圖要大,因此d子圖在重構(gòu)圖像時(shí)不是很重要。
3.3多通道分解特性
視覺心理學(xué)和生理學(xué)實(shí)驗(yàn)[24]表明人類視覺系統(tǒng)存在獨(dú)立的空間頻率處理單元,它通過多個(gè)并列的視覺通道來傳輸觀看到的信息,不同通道的處理單元整體上相互獨(dú)立。這些通道把視覺激勵(lì)劃分到不同的子帶進(jìn)行處理,相當(dāng)于一組方向性帶通濾波器,這些通道會(huì)對(duì)特定空間頻率和方向上的視覺激勵(lì)做出響應(yīng)。通常使用低通與帶通濾波器來模擬實(shí)現(xiàn)。
小波分析是一種空間頻率局部化的分析方法,它具有良好的“空間域-頻域”定位能力[25]。通過設(shè)置不同的濾波器組,小波變換可以極大的減少或消除不同通道之間的相關(guān)性,這與人眼視覺系統(tǒng)的多通道效應(yīng)不謀而合,與此同時(shí),小波變換通過在低頻段使用寬分析窗口,在高頻段使用窄分析窗口,從而能夠準(zhǔn)確的提取圖像不同頻率間的細(xì)節(jié)信息,這對(duì)立體圖像質(zhì)量評(píng)價(jià)是非常重要的。因此本發(fā)明選取小波變換,來模擬人眼視覺系統(tǒng)中的多個(gè)通道。
對(duì)于二維平面圖像而言,它的一次小波分解是由行變換和列變換兩部分組成的。首先經(jīng)過一次行變換后,圖像分成低頻矩陣l和高頻矩陣h,之后再對(duì)所得系數(shù)矩陣進(jìn)行列變換。分別將低頻矩陣l和高頻矩陣h中的系數(shù)進(jìn)行列變換,從而得到四個(gè)系數(shù)矩陣,分別為ll、lh、hl、hh。其中,ll表示圖像的低頻近似分量,其中包含著圖像大部分能量,呈現(xiàn)為原始圖像的縮略圖;lh表示圖像在水平方向(0°)高頻細(xì)節(jié)分量,hl表示圖像在垂直方向(90°)高頻細(xì)節(jié)分量,hh表示圖像在對(duì)角方向(45°、135°)高頻細(xì)節(jié)分量。經(jīng)過一次完整的小波變換后,所得系數(shù)矩陣的尺寸變?yōu)榉纸馇暗乃姆种?,即矩陣的行?shù)和列數(shù)均減半。對(duì)于一次小波分解后的系數(shù)矩陣,因?yàn)榈皖l系數(shù)矩陣中仍然包含著原始圖像的大部分能量,所以可以對(duì)其再進(jìn)行小波分解,進(jìn)一步提取圖像的高頻信息。重復(fù)上述過程,即可以得到經(jīng)過多級(jí)小波分解的系數(shù)。
根據(jù)對(duì)比度敏感度理論,人眼視覺系統(tǒng)對(duì)于不同頻率的圖像呈現(xiàn)一種帶通特性,即當(dāng)圖像頻率過低或過高的情況下,人眼對(duì)圖像的識(shí)別能力都會(huì)降低。同時(shí)為了降低計(jì)算復(fù)雜度,本方法選取haar小波對(duì)參考圖像和失真圖像進(jìn)行三級(jí)小波分解。圖像p經(jīng)過三級(jí)小波分解后,共得到1個(gè)低頻近似分量系數(shù)矩陣ca(p)和9個(gè)高頻系數(shù)矩陣,分別為垂直方向高頻細(xì)節(jié)分量矩陣cvλ(p),水平方向高頻細(xì)節(jié)分量矩陣chλ(p)和對(duì)角方向高頻細(xì)節(jié)分量矩陣cdλ(p),其中λ為小波分解級(jí)數(shù),λ={1,2,3}。
根據(jù)對(duì)比度敏感度帶通理論,在識(shí)別靜態(tài)圖像時(shí),對(duì)于空間頻率不同的圖像人眼對(duì)其的感知程度存在差異。因此,可以用對(duì)比度敏感度函數(shù)對(duì)小波分解后得到的各個(gè)高頻系數(shù)矩陣進(jìn)行加權(quán),從而模擬人眼視覺系統(tǒng)在識(shí)別靜態(tài)圖像時(shí)的多通道特性。具體做法如下:首先計(jì)算各高頻系數(shù)矩陣空間頻率。
對(duì)于水平方向高頻細(xì)節(jié)系數(shù)矩陣chλ(p),因?yàn)槠涿枋龅氖菆D像在水平方向的細(xì)節(jié)變化,所以在計(jì)算空間頻率的過程中,只需要計(jì)算水平方向的頻率,如式(8)所示。同理垂直方向高頻細(xì)節(jié)系數(shù)矩陣cvλ(p),因?yàn)槠涿枋龅氖菆D像在垂直方向的細(xì)節(jié)變化,所以只需要計(jì)算垂直方向的頻率,如式(9)所示。對(duì)于對(duì)角方向的系數(shù)矩陣cdλ(p),因?yàn)槠浞从车氖?5°和135°兩個(gè)方向上的邊緣細(xì)節(jié)信息,因此需要按照式(10)計(jì)算空間頻率。
其中,m為系數(shù)矩陣行數(shù),n為系數(shù)矩陣列數(shù),λ為小波分解級(jí)數(shù),λ={1,2,3},(i,j)為所得系數(shù)矩陣第i行、第j列元素值。
然后將各個(gè)高頻系數(shù)矩陣的空間頻率與觀看角度η的商μ作為對(duì)比度敏感度函數(shù)csf(f)的輸入,計(jì)算各通道對(duì)比度敏感度權(quán)重ω。
ω=csf(μ)(11)
最后使用各通道對(duì)比度敏感度權(quán)重ω對(duì)高頻系數(shù)矩陣進(jìn)行加權(quán)重構(gòu),計(jì)算重構(gòu)后圖像p,如式(12)所示。其中
重構(gòu)后的圖像即為人眼實(shí)際感知到的圖像,所以本方法使用重構(gòu)后的圖像計(jì)算失真度。
4立體視頻質(zhì)量評(píng)價(jià)結(jié)果與分析
在立體視頻客觀質(zhì)量評(píng)價(jià)方面,目前常見的立體視頻質(zhì)量評(píng)價(jià)方法大多是來自于2d圖像質(zhì)量評(píng)價(jià)方法的改進(jìn),即直接應(yīng)用2d圖像質(zhì)量評(píng)價(jià)方法對(duì)立體視頻中的單一視點(diǎn)的每一幀圖像進(jìn)行評(píng)價(jià),然后再平均立體視頻中所有幀的2d質(zhì)量得到最終的立體視頻質(zhì)量。其中典型的2d圖像質(zhì)量評(píng)價(jià)方法有視覺信息保真度(vif)、峰值信噪比(psnr)、視覺信噪比(vsnr)、質(zhì)量結(jié)構(gòu)相似度(ssim)以及多尺度質(zhì)量結(jié)構(gòu)相似度(mssim)等。本節(jié)分別應(yīng)用以上所提到的2d圖像質(zhì)量評(píng)價(jià)方法對(duì)立體視頻左右視點(diǎn)的每一幀圖像進(jìn)行評(píng)價(jià),然后將左右視點(diǎn)所有幀的質(zhì)量平均得到左右視點(diǎn)質(zhì)量,最后再取左右視點(diǎn)質(zhì)量的平均值作為最終的立體視頻質(zhì)量。本節(jié)將這五種不同的立體視頻質(zhì)量評(píng)價(jià)方法所得的結(jié)果作為對(duì)比數(shù)據(jù),并且將這些客觀方法分別命名為3dpsnr、3dvsnr、3dssim、3dmssim以及3dvif。加上本發(fā)明所提出的三種立體視頻客觀質(zhì)量評(píng)價(jià)方法ms_vqm(或稱3dms)、msfw_vqm(或稱3dmsfw)以及msfwmr_vqm(或稱3dmsfwmr),共涉及到八種不同的立體視頻質(zhì)量評(píng)價(jià)方法。如圖3所示。
圖5所示分別為這八種客觀評(píng)價(jià)方法所得結(jié)果與主觀評(píng)價(jià)方法所得結(jié)果之間的散點(diǎn)圖。由圖5可以看出:3dms、3dssim以及3dmssim方法所得結(jié)果與主觀評(píng)價(jià)結(jié)果有更好的一致性。這說明在立體視頻質(zhì)量評(píng)價(jià)方面基于結(jié)構(gòu)相似度的方法更符合人類的觀看體驗(yàn)。
本發(fā)明利用pearson相關(guān)系數(shù)(pcc)、spearman等級(jí)相關(guān)系數(shù)(spcc)以及均方根誤差(rmse)作為主客觀評(píng)價(jià)結(jié)果一致性的度量方法。每種客觀質(zhì)量評(píng)價(jià)方法所得的客觀質(zhì)量分值與主觀評(píng)價(jià)方法所得的mos值之間的pearson相關(guān)系數(shù)、spearman等級(jí)相關(guān)系數(shù)以及均方根誤差列于表1中。
表1客觀質(zhì)量評(píng)價(jià)方法性能
由表1可以看出:由客觀評(píng)價(jià)方法3dvif所得結(jié)果與主觀評(píng)價(jià)結(jié)果一致性最差,本發(fā)明所提方法3dms、3dmsfw以及3dmsfwmr所得結(jié)果與主觀評(píng)價(jià)結(jié)果具有更好的一致性;客觀評(píng)價(jià)方法3dpsnr和3dvsnr的評(píng)價(jià)性能稍微比3dvif好一些,而客觀評(píng)價(jià)方法3dssim和3dmssim的評(píng)價(jià)性能要優(yōu)于客觀評(píng)價(jià)方法3dpsnr和3dvsnr的評(píng)價(jià)性能,且僅次于本發(fā)明所提客觀質(zhì)量評(píng)價(jià)方法3dms的性能。通過以上各種立體視頻質(zhì)量評(píng)價(jià)方法性能對(duì)比,我們可以發(fā)現(xiàn)在立體視頻質(zhì)量評(píng)價(jià)方面基于結(jié)構(gòu)相似性的方法更接近人類做出的主觀評(píng)價(jià),而在基于結(jié)構(gòu)相似性的立體視頻質(zhì)量評(píng)價(jià)方法中本發(fā)明所提方法3dms的評(píng)價(jià)結(jié)果與人類主觀評(píng)價(jià)結(jié)果更接近。由圖5和表1都可以看出本發(fā)明最后所提的方法3dmsfwmr的評(píng)價(jià)準(zhǔn)確性遠(yuǎn)遠(yuǎn)優(yōu)于其它方法,這是由于在評(píng)價(jià)模型3dmsfwmr中不僅運(yùn)用了基于運(yùn)動(dòng)顯著性的分割方法和恰當(dāng)?shù)碾p目融合方法,而且應(yīng)用了自適應(yīng)權(quán)重調(diào)節(jié)方法來確定關(guān)鍵幀,最后還在關(guān)鍵幀上應(yīng)用了視覺多通道模型。通過對(duì)比評(píng)價(jià)方法3dmsfw和3dmsfwmr的評(píng)價(jià)準(zhǔn)確性可以得到如下結(jié)論:本發(fā)明所設(shè)計(jì)的視覺多通道模型有利于提高立體視頻質(zhì)量評(píng)價(jià)方法的性能。
參考文獻(xiàn)
[1]侯春萍.平面圖像立體化技術(shù)的研究[d].天津:天津大學(xué),1998.
[2]張英靜,李素梅,衛(wèi)津津等.立體圖像質(zhì)量的主觀評(píng)價(jià)方案[j].光子學(xué)報(bào),2012,41(5):602~607.
[3]itu-tr.h.265,highefficiencyvideocoding[s].apr.2015.
[4]3d@homewebsite—steeringteamsoverview.[ol].international3d&advancedimagingsociety.(2015).available:http://www.3dathome.org/steering-overview.aspx
[5]china3dindustryassociation.[ol].china3dindustryassociation.(aug.2015).available:http://www.c3dworld.org/
[6]3dconsortium—neweraof3d—“fromsurprisetoimpression!”[ol].3d-consortium.(aug.2014).available:http://www.3dc.gr.jp
[7]w.j.tam,f.speranza,s.yano,etal.stereoscopic3d-tv:visualcomfort[j].ieeetrans.broadcast,2011,57(2):335–346.
[8]y.-h.linandj.-l.wu.adepthinformationbasedfastmodedecisionalgorithmforcolorplusdepth-map3dvideos[j].ieeetrans.broadcast.,2011,57(2):542–550.
[9]a.pulipaka,p.seeling,m.reisslein,etal,trafficandstatisticalmultiplexingcharacterizationof3-dvideorepresentationformats[j].ieeetrans.broadcast.,2013,59(2):382–389.
[10]p.merkle,k.müller,andt.wiegand.3dvideo:acquisition,coding,anddisplay[c].inproc.ieeeint.conf.consum.electron.(icce),piscataway,nj,usa:ieee,2010:127–128.
[11]張英靜,李素梅,衛(wèi)津津等.立體圖像質(zhì)量的主觀評(píng)價(jià)方案[j].光子學(xué)報(bào),2012,41(5):602-607.
[12]internationaltelecommunicationunion(itu),recommendationitu~rbt.1438,subjectiveassessmentofstereoscopictelevisionpictures[s].2000.
[13]vqeg.videoqualityexpertgroupmotivationobjectivesandrules[ol].2010:http://www.its.bldrdoc.gov/vqeg
[14]chandler,d.m.,m.a.masry,ands.s.hemami.quantifyingthevisualqualityofwavelet-compressedimagesbasedonlocalcontrast,visualmasking,andglobalprecedence[c].in:signals,systemsandcomputers,2003.conferencerecordofthethirty-seventhasilomarconferenceon,piscataway,nj,usa:ieee,2003:1393-1397.
[15]chandler,d.m.ands.s.hemami.vsnr:awavelet-basedvisualsignal-to-noiseratiofornaturalimages.imageprocessing[j],ieeetransactions,2007,16(9):2284-2298.
[16]chandler,d.ands.hemami.vsnr:avisualsignalto-noiseratiofornaturalimagesbasedonnear-thresholdandsuprathresholdvision[j].retrievedjuly.2010,15(3):12-17.
[17]chandler,d.m.ands.s.hemami.effectsofnaturalimagesonthedetectabilityofsimpleandcompoundwaveletsubbandquantizationdistortions[j].j.opt.soc.am.a.2003,20(7):1164-1180.
[18]wang,z.anda.c.bovik.auniversalimagequalityindex[j].signalprocessingletters,ieee,2002,9(3):81-84.
[19]wang,z.,a.c.bovik,h.r.sheikh,etal.imagequalityassessment:fromerrorvisibilitytostructuralsimilarity[j].ieeetransactionsonimageprocessing,2004,13(4):600-612.
[20]wang,z.,a.c.bovik,andl.lu.whyisimagequalityassessmentsodifficult[j].acoustics,speech,andsignalprocessing,2002,4(1):1-4.
[21]wang,z.anda.c.bovik.meansquarederror:loveitorleaveit?anewlookatsignalfidelitymeasures[j].signalprocessingmagazine,ieee,2009,26(1):98-117.
[22]pinsonmh,wolfs.anewstandardizedmethodforobjectivelymeasuringvideoquality[j].ieeetransactionsonbroadcasting,2004,50(3):312-322.
[23]成于慶,姜秀華.3d電視視頻質(zhì)量主客觀評(píng)價(jià)最新技術(shù)研究[j].中國(guó)傳媒大學(xué)學(xué)報(bào):自然科學(xué)版,2012,19(1):31-36.
[24]donghyunkim,seungchulryuandkwanghoon.depthperceptionandmotioncuebased3dvideoqualityassessment[c].2012ieeeinternationalsymposiumonbroadbandmultimediasystemandbroadcasting,piscataway,nj,usa:ieee,2012:1-4.
[25]c.t.e.r.hewage,s.t.worrall,s.dogan,etal.predictionofstereoscopicvideoqualityusingobjectivequalitymodelsof2-dvideo[j].electronicsletters,2008,44(16):963-965.
[26]s.l.p.yasakethu,c.t.e.r.hewage,w.a.c.yernando,etal.qualityanalysisfor3dvideousing2dvideoqualitymodels[j].ieeetransactionsonconsumerelectronics,2008,54(4):1969-1976.
[27]chamindat.e.r.hewage,stewartt.worrall,safakdogan,etal.qualityevaluationofcolorplusdepthmap-basedstereoscopicvideo[j].ieeejournalofselectedtopicsinsignalprocessing,2009,3(2):304-318.
[28]g.nur,h.kodikaraarachchi,s.dogan,etal,extendedvqmmodelforpredicting3dvideoqualityconsideringambientilluminationcontext[c],3dtv-conference:thetruevision-capture,transmissionanddisplayof3dvideo(3dtv-con),piscataway,nj,usa:ieee,2011:1-4.
[29]atanasboev,atanasgotchev,karenegiazarian,etal.,towardscompoundstereo-videoqualitymetric:aspecialencoder-basedframework[c].2006ieeesouthwestsymposiumonimageanalysisandinterpretation,piscataway,nj,usa:ieee,2006:218-222.
[30]劉文娟,李素梅,臧艷軍等.基于梯度和運(yùn)動(dòng)估計(jì)的視頻質(zhì)量評(píng)價(jià)[j].光子學(xué)報(bào),2011,40(10):1547-1552.
[31]y.zhang,p.an,y.wu,etal.amultiviewvideoqualityassessmentmethodbasedondisparityandssim[c].2010ieee10thinternationalconferenceonsignalprocessing,piscataway,nj,usa:ieee,2010:1044-1047.
[32]馬辰陽(yáng),李素梅,馬瑞澤等.基于運(yùn)動(dòng)和視差信息的立體視頻質(zhì)量客觀評(píng)價(jià)[j].光電子·激光,2013,24(10):2002-2009.
[33]sang-hyuncho,hang-bongkang.predictionofvisualdiscomfortinwatching3dvideousingmultiplefeatures[c].2014ieeesouthwestsymposiumonimageanalysisandinterpretation(ssiai),piscataway,nj,usa:ieee,2014:65-68.
[34]jin,l.,boev,a.,gotchev,a.,etal.3d-dctbasedperceptualqualityassessmentofstereovideo[c].in:proceedings-internationalconferenceonimageprocessing,icip,piscataway,nj,usa:ieee,2011:2521-2524.
[35]lu,f.,wang,h.,ji,x.,etal.qualityassessmentof3dasymmetricviewcodingusingspatialfrequencydominancemodel[c].in:3dtv-con2009-3rd3dtv-conference:thetruevision-capture,transmissionanddisplayof3dvideo,proceedings,piscataway,nj,usa:ieee,2009:1-4.
[36]han,j.,jiang,t.,ma,s.stereoscopicvideoqualityassessmentmodelbasedonspatial–temporalstructuralinformation[c].in:2012ieeevisualcommunicationsandimageprocessing,vcip2012,piscataway,nj,usa:ieee,2012:119-125.
[37]p.joveluro,h.malekmohamadi,w.a.cfernando,etal.perceptualvideoqualitymetricfor3dvideoqualityassessment[c].20103dtv-conference:thetruevision-capture,transmissionanddisplayof3dvideo,piscataway,nj,usa:ieee,2010:1-4.
[38]chaosun,xingangliu,xiangbinxu,etal.anefficientqualityassessmentmetricfor3dvideo[c].2012ieee12thinternationalconferenceoncomputerandinformationtechnology,piscataway,nj,usa:ieee,2012:209-213.
[39]張艷,安平,張秋聞等.雙目立體視頻最小可辨失真模型及其在質(zhì)量評(píng)價(jià)中的應(yīng)用[j].電子與信息學(xué)報(bào),2012,34(3):698-703.
[40]fengqi,tingtingjiang,xiaopengfan,etal.stereoscopicvideoqualityassessmentbasedonstereojust-noticeabledifferencemodel[c].201320thieeeinternationalconferenceonimageprocessing(icip),piscataway,nj,usa:ieee,2013:34-38.
[41]jingjinghan,tingtingjiang,siweima.stereoscopicvideoqualityassessmentmodelbasedonspatial-temporalstructuralinformation[c].2012ieeevisualcommunicationsandimageprocessing(vcip),piscataway,nj,usa:ieee,2012:119-125.
[42]f.lu,h.wang,x.ji,etal.qualityassessmentof3dasymmetricviewcodingusingspatialfrequencydominancemodel[c].3dtvconference:thetruevision-capture,transmissionanddisplayof3dvideo.piscataway,nj,usa:ieee,2009:1-4.
[43]l.jin,a.boev,k.egiazarian,a.gotchev.quantifyingtheimportanceofcyclopeanviewandbinocularrivalry-relatedfeaturesforobjectivequalityassessmentofmobile3dvideo[j].eurasipj.imagevideoprocess.2014,2014(2):1–18.
[44]hongzhu,meiyu,yangsong,etal.astereovideoqualityassessmentmethodforcompressiondistortion[c].ieee,internationalconferenceoncomputationalscienceandcomputationalintelligence,piscataway,nj,usa:ieee,2015:481-485.
[45]weizhao,longye,etal.no-referenceobjectivestereovideoqualityassessmentbasedonvisualattentionandedgedifference[c].ieeeadvancedinformationtechnology,electronicandautomationcontrolconference,piscataway,nj,usa:ieee,2015:523-526.
[46]fengqi,denbinzhao,xiaopengfan,etal.stereoscopicvideoqualityassessmentbasedonvisualattentionandjust-noticeabledifferencemodels[j].signal,imageandvideoprocessing,2016,10(4):737-744.
[47]hewagecter,martinimg.reduced-referencequalityevaluationforcompresseddepthmapsassociatedwithcolourplusdepth3dvideo[c].201017thieeeinternationalconferenceonimageprocessing(icip),piscataway,nj,usa:ieee,2010:4017-4020.
[48]hewagecter,martinimg.reduced-referencequalityassessmentfor3dvideocompressionandtransmission[j].ieeetransactionsonconsumerelectronics,2011,57(3):1185-1193.
[49]z.m.parvezsazzad,s.yamanakaandy.horita.spatio-temporalsegmentationbasedcontinuousno-referencestereoscopicvideoqualityprediction[c].2010secondinternationalworkshoponqualityofmultimediaexperience(qomex),piscataway,nj,usa:ieee,2010:106-111.
[50]donghyun.kim,dongbo.min,juhyunoh,etal.depthmapqualitymetricforthree-dimensionalvideo[c].displaysandapplications,sanjose,ca,usa:spie-theinternationalsocietyforopticalengineering,2009:723719-723728.
[51]mashhoursolhandghassanairegib.ano-referencequalitymeasurefordibr-based3dvideos[c].2011ieeeinternationalconferenceonmultimediaandexpo(icme).piscataway,nj,usa:ieee,2011:1-6.
[52]meiyu,zhengkaihua,jianggangyi,etal.binocularperceptionbasedreduced-referencestereovideoqualityassessmentmethod[j].journalofvisualcommunicationandimagerepresentation,2016,38:246-255.
[53]t.zhu,l.karam.ano-referenceobjectiveimagequalitymetricbasedonperceptuallyweightedlocalnoise[j].eurasipj.imagevideoprocess.2014,2014(1):1–8。