專利名稱:用于生成場景的兩層、3d表示的系統(tǒng)和過程的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字或數(shù)字化圖像的分層表示,尤其涉及用于生成場景的兩層、3D表示的系統(tǒng)和過程。
背景技術(shù):
近幾年來,電視商業(yè)廣告和電影長片的觀眾已經(jīng)看到用于創(chuàng)建停頓時間和改變照像機(jī)視點的幻覺的“凍結(jié)幀”效果。最早的商業(yè)廣告通過使用基于影片的系統(tǒng)來產(chǎn)生,該系統(tǒng)在沿著軌道排列的不同靜態(tài)照相機(jī)之間快速地跳躍以給出穿越凍結(jié)時間片移動的幻覺。
當(dāng)它首次出現(xiàn)時,其效果是新鮮的,且看上去是很壯觀的,并且很快在很多產(chǎn)品中被模擬,其中最有名的看來是在名為“The Matrix”的電影中看到的“子彈時間”效果。不幸的是,這種效果是一次性的、預(yù)先-計劃的事件。視點軌道是提早安排的,而且花費了很多工時來產(chǎn)生所要求的內(nèi)插場景。較新的系統(tǒng)是基于攝影機(jī)陣列,但是仍然依賴于具有很多攝像機(jī)以避免軟件場景內(nèi)插。
這樣,現(xiàn)有系統(tǒng)不允許用戶在觀看基于動態(tài)圖像的場景時交互地改變到任何所期望的視點。在過去,在基于圖像的重現(xiàn)(IBR)上的大部分工作涉及重現(xiàn)靜態(tài)場景,采用了兩種著名的技術(shù)光場重現(xiàn)(Light Field Rendering)[11]和光照圖(Lumigraph)[7]。它們在高質(zhì)量再現(xiàn)方面的成功起源于大量采樣圖像的使用,并且激發(fā)了本領(lǐng)域一大群工作。這個奠基工作的一種激動人心的潛在擴(kuò)展涉及在觀看視頻時交互地控制視點。用戶交互地控制視頻視點的能力明顯地增強(qiáng)了視覺感受,允許諸如諸如新視點即時重播、改變戲曲中的視點、以及隨意地創(chuàng)建“凍結(jié)幀”視覺效果等多種應(yīng)用。
然而,由于同步如此多的攝像機(jī)以及采集和存儲圖像的困難(和成本),將IBR擴(kuò)展到動態(tài)場景并不是無足輕重的。不僅僅在從多個視點捕捉、表示和再現(xiàn)動態(tài)場景中存在重大的障礙要克服,而且為了能夠交互地做此事提供一種相當(dāng)進(jìn)一步的復(fù)雜性。至今,實現(xiàn)這個目標(biāo)的努力還不是非常令人滿意。
關(guān)于交互式視點視頻系統(tǒng)的基于視頻的再現(xiàn)方面,較一種早期的捕捉和再現(xiàn)動態(tài)場景的努力之一是Kanade等人的Virtualized Reality(可視化逼真)系統(tǒng)[10],它包括圍繞一個5米網(wǎng)絡(luò)圓頂排列的51個攝像機(jī)。每個攝像機(jī)的分辨率是512×512,且捕捉速率30fps。它們采用基于場景流公式[17]的三維像素著色[14]形式,在每個時間幀提取一個球狀表面表示。不幸的是,因為低分辨率、匹配誤差和對象邊界的不正確處理,使結(jié)果看來并不切合實際。
Carranza等人[3]使用了圍繞一個房間分布的7個同步攝像機(jī),它們面朝該房間的中心以捕捉3D人類運動。每個攝像機(jī)為CIF分辨率(320×240),且以15fps進(jìn)行捕捉。它們使用一個3D人類模型作為在每個時間幀計算3D形狀的先驗。
Yang等人[18]設(shè)計了一個8×8的攝像機(jī)(每個320×240)網(wǎng)格,用于捕捉動態(tài)場景。它們不再存儲和再現(xiàn)數(shù)據(jù),而是僅僅發(fā)送組成所期望的虛擬視圖所必需的光線。在它們的系統(tǒng)中,攝像機(jī)沒有被同步鎖相;相反,它們依賴于跨越6個PC的內(nèi)部時鐘。攝像機(jī)捕捉速率是15fps,并且交互觀看速率是18fps。
上述系統(tǒng)中常見的是需要大量的圖像用于逼真再現(xiàn),這部分地是因為場景幾何結(jié)構(gòu)是未知的或僅僅大約知道。如果幾何結(jié)構(gòu)被準(zhǔn)確地知道,就可能充分地降低對圖像的要求[7]。一種提取場景幾何結(jié)構(gòu)的實用方法是通過立體系統(tǒng),并且為靜態(tài)場景提出了許多立體算法[13]。然而,對于采用帶動態(tài)場景的立體技術(shù)已經(jīng)作出了少量的努力。作為Virtualized Reality工作[10]的一部分,Vedula等人[17]提出了一種使用2D光流和3D場景形狀來提取3D運動(即,場景形狀之間跨越時間的對應(yīng)性)的算法。在他們的方法中,他們使用一種類似于三維像素著色[14]的投票方案,其中使用的度量是假設(shè)的三維像素位置適合該3D流等式的良好程度。
Zhang和kambhamettu[19]還集成了3D場景流和其框架中的結(jié)構(gòu)。其3D仿射運動模型被局部地使用,具有空間正則化,并且采用色彩分段以保持不連續(xù)性。Tao等人[16]假設(shè)場景是分段平面的。他們還假設(shè)每個平面面片的恒定速率,以便約束動態(tài)深度映射估算。
在一個更加雄心勃勃的努力中,Carcerroni和Kutulakos[2]恢復(fù)具有已知光照位置的非剛性運動下的分段連續(xù)的幾何結(jié)構(gòu)和反射率(Phong模型)。他們使該空間離散成表面元素(“面元(surfels)”),并且對位置、方向和反射率參數(shù)執(zhí)行搜索,以最大化地與觀察到的圖像的一致。
在一種對傳統(tǒng)的局部窗口匹配的有趣的改變中,Zhang等人[20]使用跨越空間和時間的匹配窗口。這種方法的優(yōu)點是隨時間變化對亮度恒定性具有較少的依賴性。
活動測距技術(shù)也被應(yīng)用于移動場景。Hall-Holt和Rusinkiewicz[8]使用隨時間變化的投影的邊緣編碼的條紋圖案。市場上還有一種以色列3DVSystems公司制造的稱為ZCamTM的商業(yè)系統(tǒng),它是一種結(jié)合廣播攝影機(jī)使用的范圍檢測攝影機(jī)附加裝置。但是,它是一種昂貴的系統(tǒng),并且只提供單一視點深度,使它較不適用于多視點視頻。
然而,不管立體和基于圖像的再現(xiàn)方面的所有進(jìn)步,要再現(xiàn)動態(tài)場景的高質(zhì)量、高分辨率視圖仍然是非常困難的。如同在Light Field Rendering(光場再現(xiàn))論文[11]中所建議的一種方法是僅僅基于輸入和虛擬攝相機(jī)的相對位置而簡單地對光線進(jìn)行重新采樣。然而,如同在光照圖(Lumigraph)[7]和后續(xù)工作中所演示的,對場景幾何結(jié)構(gòu)使用3D頂替器(impostor)或代理能夠極大地改進(jìn)內(nèi)插視圖的質(zhì)量。另一種方法是創(chuàng)建單個紋理映射的3D模型[10],但是這通常產(chǎn)生使用多個參考視圖的較差結(jié)果。還有另一種方法采用了需要3D代理的幾何結(jié)構(gòu)輔助的基于圖像的再現(xiàn)方法。一種可能性是使用單個球狀多面體模型,如同在Lumigraph和Unstructured Lumigraph(未結(jié)構(gòu)化光照圖)論文[1]中所述的。另一種可能性是使用每像素深度,如同在分層深度圖像(Layered Depth Images)中[15]、在立面(Facade)中的偏移深度映射[5]、或者帶深度的子畫面[15]。一般而言,對每個參考視圖使用不同的局部幾何結(jié)構(gòu)代理[12,6,9]將產(chǎn)生高質(zhì)量的結(jié)果。
然而,即使是多深度映射圖仍然在生成新視圖時展現(xiàn)再現(xiàn)的人為因素,即由于前景到背景轉(zhuǎn)移的突然特性而引起的圖形失真(鋸齒狀),以及由于混合像素而引起的污染色彩,當(dāng)在新背景或?qū)ο笊虾铣蓵r,它們變得可見。
這個問題在本發(fā)明中通過一種獨特的輸入圖像的兩層、3D表示來解決。注意,該兩層、3D表示不僅僅能夠用來解決以上關(guān)于交互式視點視頻系統(tǒng)中再現(xiàn)新視圖的圖形失真問題,而且也能夠同樣有利地用于其它環(huán)境中。通常,任何數(shù)字或數(shù)字化圖像能夠使用這種兩層、3D表示來表示。
注意,在前面的段落中,以及在本說明書的其余部分中,本描述引用包含在一對方括號中的數(shù)字標(biāo)志符標(biāo)識的各種獨立的出版物。例如,這樣的引用可以通過敘述“參考文獻(xiàn)[1]”或者更簡單地“[1]”來標(biāo)識。多個參考文獻(xiàn)將通過包含一個以上標(biāo)志符的一對方括號來標(biāo)識,例如[2,3]。在具體實施方式
章節(jié)結(jié)尾處能夠找到包含對應(yīng)于每個標(biāo)志符的出版物的參考文獻(xiàn)清單。
發(fā)明內(nèi)容
本發(fā)明針對一種用于生成數(shù)字或數(shù)字化圖像的兩層表示的系統(tǒng)和過程。一般而言,該兩層包括一主層,它具有展示背景色和與圖像中的深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的背景視差的像素,以及展示色彩和與在這些深度不連續(xù)區(qū)域中未發(fā)現(xiàn)圖像的對應(yīng)位置像素相關(guān)聯(lián)的的視差相關(guān)聯(lián)的像素。另一層是邊界層,它由展示前景色、前景視差和與深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的阿爾法值的像素構(gòu)成。該深度不連續(xù)區(qū)域?qū)?yīng)于圍繞在圖像中發(fā)現(xiàn)的深度不連續(xù)性的指定大小的區(qū)域。
該兩層表示是通過首先使用圖像的視差映射來標(biāo)識所考慮的圖像中的深度不連續(xù)性的位置來生成的。深度不連續(xù)性出現(xiàn)在相鄰像素之間的視差值的差大于指定等級數(shù)的位置上。然后,圍繞標(biāo)識在圍繞深度不連續(xù)性的指定大小的區(qū)域內(nèi)發(fā)現(xiàn)的圖像的像素。下一步,使用一種修邊(matting)技術(shù)對深度不連續(xù)區(qū)域中的每個像素估算前景和背景色以及前景阿爾法值。另外,使用圖像的前景和背景部分中的鄰近視差的阿爾法加權(quán)平均,為深度不連續(xù)區(qū)域中的每個像素估算前景和背景視差值。然后,建立圖像的邊界層,它包括對應(yīng)于深度不連續(xù)區(qū)域的像素的每一位置上一個像素。然后,向每一邊界層像素分配前景色、與深度不連續(xù)區(qū)域的對應(yīng)像素相關(guān)聯(lián)的前景視差和阿爾法值。另外,建立圖像的主層。該主層包括對應(yīng)于深度不連續(xù)區(qū)域的像素的每一位置上的一個像素,以及在不對應(yīng)于深度不連續(xù)區(qū)域的像素的圖像的每一像素位置上的一個像素。與深度不連續(xù)區(qū)域的對應(yīng)像素相關(guān)聯(lián)的背景色和背景視差值被分配給主層中對應(yīng)位置像素的每一個,而與不在深度不連續(xù)區(qū)域的圖像像素相關(guān)聯(lián)的色彩和視差值被分配給主層中對應(yīng)位置像素的每一個。注意,一旦對深度不連續(xù)區(qū)域的每一像素建立了前景色、前景視差和阿爾法值,這些區(qū)域的大小能夠使用傳統(tǒng)的擴(kuò)張技術(shù)用一個指定的量來生長,以防止在從層中再現(xiàn)圖像期間出現(xiàn)破裂。
除了上文描述的益處之外,當(dāng)結(jié)合附圖閱讀以下詳細(xì)描述時,本發(fā)明的其它優(yōu)點將變得顯而易見。
當(dāng)參考以下描述、所附權(quán)利要求書以及附圖時,可以更好地理解本發(fā)明的具體特征、方面和優(yōu)點,附圖中圖1是描述構(gòu)成用于實現(xiàn)本發(fā)明的示例性系統(tǒng)的通用計算設(shè)備的圖示。
圖2是對照像素位置繪制像素行的視差值的曲線圖,其中視差值的突變臺階表示了一個深度不連續(xù)性。
圖3A和3B是圖示了用于根據(jù)本發(fā)明生成數(shù)字或數(shù)字化圖像的兩層表示的過程的流程圖。
圖4(a)-(e)是顯示在一組劈裂舞演員的圖像上應(yīng)用圖3A-B的兩層圖像表示生成過程的結(jié)果的圖像。圖4(a)顯示主層色彩估算,圖4(b)表示主層視差估算。圖4(c)顯示邊界層色彩估算,圖4(d)表示邊界層視差估算。圖4(e)表示邊界層阿爾法值估算。注意,圖4(c)-(e)的圖像是求反顯示的,從而透明/空像素看上去是白色。
具體實施例方式
在以下本發(fā)明較佳實施例的描述中,參照了附圖,附托形成本發(fā)明的一部分,并且在其中作為說明示出了可在其中實施本發(fā)明的具體實施例。要理解,可使用其它實施例,并且可以作出結(jié)構(gòu)變化,而不脫離本發(fā)明的范圍。
1.0計算環(huán)境在提供本發(fā)明的較佳實施例的描述之前,將描述其中能實現(xiàn)本發(fā)明的適用的計算環(huán)境的簡要概括描述。圖1示出了適用的計算系統(tǒng)環(huán)境100的例子。計算系統(tǒng)環(huán)境100僅僅是適用的計算環(huán)境的一個例子,并且不打算暗示對本發(fā)明的使用范圍或功能的任何限制。也不應(yīng)將計算環(huán)境100解釋成相對于示例性操作環(huán)境100中示出的組件的任一個或其組合具有任何依賴或要求。
本發(fā)明可以用各種其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來運行。適用于本發(fā)明使用的公知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個人計算機(jī)、服務(wù)器計算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、包括任何以上系統(tǒng)或設(shè)備的任一個的分布式計算環(huán)境等等。
本發(fā)明可以在諸如由計算機(jī)執(zhí)行的程序模塊等計算機(jī)可執(zhí)行指令的通用上下文中描述。一般而言,程序模塊包括完成特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。本發(fā)明還可以在分布式計算環(huán)境中實踐,其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來完成。在分布式計算環(huán)境中,程序模塊可以位于本地或遠(yuǎn)程計算機(jī)存儲介質(zhì)中,包括存儲器存儲設(shè)備。
參照圖1,用于實現(xiàn)本發(fā)明的示例性系統(tǒng)包括計算機(jī)110形式的通用計算設(shè)備。計算機(jī)110的組件可包括但不限于處理單元120、系統(tǒng)存儲器130和將包括系統(tǒng)存儲器的各種系統(tǒng)組件耦合到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)的任何一種,包括存儲器總線或存儲器控制器、外圍總線、和使用多種總線體系結(jié)構(gòu)的任何一種的局部總線。作為例子,而非限制,這種體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)、增強(qiáng)型ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線、以及外圍部件互連(PCI)總線(也稱為Mezzanine總線)。
計算機(jī)110通常包括各種計算機(jī)可讀介質(zhì)。計算機(jī)可讀介質(zhì)可以是可以由計算機(jī)110訪問的任何可用介質(zhì),包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為例子,但非限制,計算機(jī)可讀介質(zhì)可包含計算機(jī)儲存介質(zhì)或通信介質(zhì)。計算機(jī)儲存介質(zhì)包括以任何方法和技術(shù)實現(xiàn)來存儲諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動和不可移動介質(zhì)。計算機(jī)儲存介質(zhì)包括,但不限于RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤儲存或其它磁儲存設(shè)備,或者能夠用來存儲所要求的信息并能夠由計算機(jī)110訪問的任何其它介質(zhì)。通信介質(zhì)通常在載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號中具體化計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任何信息遞送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指其一個或多個特征以在信號中編碼信息的方式而設(shè)置或改變的信號。作為例子,但非限制,通信介質(zhì)包括有限介質(zhì),如有限網(wǎng)絡(luò)或直接線路連接,以及無線介質(zhì),如聲學(xué)、RF、紅外和其它無線介質(zhì)。以上各種組合也應(yīng)該被包括在計算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機(jī)儲存介質(zhì),例如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包含如在啟動時幫助在計算機(jī)110中的元件之間傳輸信息的基本例程,通常儲存在ROM 131中。RAM 132通常包含處理單元120可直接訪問和/或當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為例子,但非限制,圖1示出操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機(jī)110還可包括其它可移動/不可移動、易失性/非易失性計算機(jī)儲存介質(zhì)。僅僅作為例子,圖1示出讀取或?qū)懭氩豢梢苿?、非易失性磁介質(zhì)的硬盤驅(qū)動器141、讀取或?qū)懭肟梢苿?、非易失性磁盤152的磁盤驅(qū)動器151、以及讀取或?qū)懭肟梢苿?、非易失性光盤156,例如CD-ROM或其它光介質(zhì)的光盤驅(qū)動器155??捎糜谑纠圆僮鳝h(huán)境中的其它可移動/不可移動、易失性/非易失性計算機(jī)儲存介質(zhì)包括但不限于磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過不可移動存儲器接口(如接口140)連接到系統(tǒng)總線121,而磁盤驅(qū)動器151和光盤驅(qū)動器155通常由可移動存儲器接口(例如接口150)連接到系統(tǒng)總線121。
以上討論并且在圖1中示出的驅(qū)動器及其相關(guān)聯(lián)的計算機(jī)儲存介質(zhì)為計算機(jī)110提供了計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,硬盤驅(qū)動器141被示出為儲存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在此被給以不同的標(biāo)號以表示至少它們是不同的副本。用戶可以通過輸入設(shè)備,如鍵盤162和定點設(shè)備161(通常指鼠標(biāo)、跟蹤球或觸摸墊)輸入命令和信息到計算機(jī)110。其它輸入設(shè)備(未示出)可包括話筒、操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備經(jīng)常通過耦合到系統(tǒng)總線121的用戶輸入接口160連接到處理單元120,但是也可以由其它接口和總線結(jié)構(gòu),如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型顯示設(shè)備也通過接口,如視頻接口190連接到系統(tǒng)總線121。除了監(jiān)視器以外,計算機(jī)還可包括其它外圍輸入設(shè)備,如揚(yáng)聲器197和打印機(jī)196,它們可以通過輸出外圍接口195連接。能夠捕捉圖像序列193的攝像機(jī)192(如數(shù)字/電子靜態(tài)或視頻攝像機(jī),或者膠卷/照片掃描儀)也能夠作為個人計算機(jī)110的輸入設(shè)備被包括在內(nèi)。此外,盡管僅僅描述了一臺攝像機(jī),然而也可包括多臺攝像機(jī),作為個人計算機(jī)110的輸入設(shè)備。來自一臺或多臺攝像機(jī)的圖像193通過適當(dāng)?shù)臄z像機(jī)接口194輸入到計算機(jī)110。該接口194連接到系統(tǒng)總線121,因此允許圖像被路由到并儲存在RAM 132中,或者與計算機(jī)110相關(guān)聯(lián)的其它數(shù)據(jù)儲存設(shè)備之一中。然而,要注意,圖像數(shù)據(jù)也能夠從上述任一計算機(jī)可讀介質(zhì)輸入到計算機(jī)110,而不要求使用攝像機(jī)192。
計算機(jī)110可以使用到一個或多個遠(yuǎn)程計算機(jī)(如遠(yuǎn)程計算機(jī)180)的邏輯連接在網(wǎng)絡(luò)環(huán)境中操作。遠(yuǎn)程計算機(jī)180可以是個人計算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它普通網(wǎng)絡(luò)結(jié)點,并且通常包括許多或所有關(guān)于計算機(jī)110所描述的元件,盡管在圖1中僅僅示出了存儲器儲存設(shè)備181。在圖1中描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但是還可以包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)環(huán)境普遍存在于辦公室、企業(yè)范圍計算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接到LAN171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通常包括調(diào)制解調(diào)器172或通過WAN173(例如因特網(wǎng))建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)置或者外置的,它可以通過用戶輸入接口160或者其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線121。在網(wǎng)絡(luò)環(huán)境中,相對于計算機(jī)110所描述的程序模塊或其部分可以存儲在遠(yuǎn)程存儲器儲存設(shè)備中。作為例子,但非限制,圖1示出遠(yuǎn)程應(yīng)用程序185駐留在存儲器設(shè)備181上。將會明白,示出的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計算機(jī)之間建立通信鏈路的其它手段。
2.0兩層圖像表示現(xiàn)在已經(jīng)討論了示例性操作環(huán)境,本描述章節(jié)的其余部分將專門致力于對實施本發(fā)明的程序模塊的描述。一般而言,本發(fā)明涉及生成圖像的唯一兩層、3D表示,它便于其壓縮、傳輸和儲存。該表示在圖像是動態(tài)場景的視頻幀并且?guī)瑪?shù)據(jù)正被編碼以進(jìn)行實時再現(xiàn)時特別有用。它還包括像素視差或者深度信息,由此提供了該表示的3D方面。圖像或幀是數(shù)字圖像,它或者由數(shù)字?jǐn)z像機(jī)捕捉,或者如果不是,則在進(jìn)一步處理之前被數(shù)字化。還要注意,數(shù)字圖像數(shù)據(jù)在它是通過使用攝像機(jī)捕捉場景的實際圖像而獲得的這一點上能夠是基于圖像的,或者是合成的圖像數(shù)據(jù)。
兩層表示是通過首先定位所考慮的圖像或幀的視差映射圖中的深度不連續(xù)來生成的。這些深度不連續(xù)被定義為大于指定視差等級數(shù)(例如,在本發(fā)明的測試實施例中為4級)的跳躍。所考慮的圖像的視差映射圖能夠以任何傳統(tǒng)的方式來獲得。然而,本發(fā)明的測試實施例采用一種新方法,它是本申請的發(fā)明人的題目為“ColorSegmentation-Based Stereo Reconstruction System And Process(基于色彩分段的立體重建系統(tǒng)和過程)”的共同提交的待決申請的主題,并且被轉(zhuǎn)讓給同一受讓人。該共同提交的待決申請?zhí)峤挥冢撸撸撸卟⒈环峙湫蛄刑枺撸撸撸摺?br>
下一步,在所考慮的圖像中發(fā)現(xiàn)的深度不連續(xù)性的附近標(biāo)識小區(qū)域。這些小區(qū)域被定義為包括該深度不連續(xù)性的位置的3個像素內(nèi)的所有像素。這在圖2中示出,其中像素行的視差值對照像素位置來繪制。視差值中的突變臺階表示一個深度不連續(xù)性,假設(shè)它大于指定的視差等級數(shù)。上述小區(qū)域被稱作為深度不連續(xù)區(qū)域,它是圍繞該不連續(xù)性建立的。在圖2的圖中表示的概況中,該區(qū)域具有跨越圖像中深度不一致性位置的寬度。如果該深度不連續(xù)性跟隨在圖像中一個對象的輪廓之后(往往是典型的情況),則該深度不連續(xù)區(qū)域?qū)⒑喜⒁孕纬稍撦喞蟮臈l紋。
沿著對象邊界的某些像素將接收來自前景和背景區(qū)域的影響。然而,如果在再現(xiàn)期間使用原始的混合像素色彩,則導(dǎo)致可見的人為因素。由此,重要的是分離這兩種影響。因此,下一步建立深度不連續(xù)區(qū)域中的每個像素的前景和背景色,如同是像素的不透明性(以阿爾法值的形式)。這是使用一種修邊技術(shù)來實現(xiàn)的。通常,修邊技術(shù)涉及通過估算起源于每個像素的前景和背景元素的色彩和不透明性,來提取圖像的前景元素和背景元素。像素的不透明性由范圍在0到1之間的阿爾法值定義。事實上,該阿爾法值定義了像素色彩可歸因于前景元素的百分比。一種典型的修邊操作的最終結(jié)果是為每個所考慮的像素標(biāo)識前景色、背景色和阿爾法值。雖然任何修邊過程能夠用于本發(fā)明,然而測試的實施例采用在參考文獻(xiàn)[4]中描述的貝葉斯圖像修邊技術(shù)。要注意,參考文獻(xiàn)[4]還包含許多其它現(xiàn)有修邊技術(shù)的描述。
如上所述,本發(fā)明的一種主要應(yīng)用涉及從與兩個實際場景圖像相關(guān)聯(lián)的視點中間的視點再現(xiàn)場景的虛擬圖像。雖然這是如何實現(xiàn)的細(xì)節(jié)并不在本發(fā)明的范圍之內(nèi),然而要注意,該過程通常涉及知道與每個像素相關(guān)聯(lián)的深度。為此,根據(jù)本發(fā)明的圖像表示包括像素深度(或者視差值,它能容易地被轉(zhuǎn)換成深度值)。雖然這些值對于來自前述的視差映射圖的大多數(shù)像素是可用的,,然而要注意,存在與被發(fā)現(xiàn)為與深度不連續(xù)性相鄰的混合像素相關(guān)聯(lián)的兩種深度,即與前景元素相關(guān)聯(lián)的深度和與背景相關(guān)聯(lián)的深度。這樣,在下一步,對深度不連續(xù)區(qū)域中的每一個像素估算前景和背景的深度(或視差)值。通常,這是分別通過使用圖像的前景和背景部分中的附近深度的阿爾法加權(quán)平均值來實現(xiàn)的。更具體地,前景視差通過使用來自深度不連續(xù)區(qū)域的原始前景區(qū)域內(nèi)的像素的視差值的窗口(例如7×7像素)內(nèi)的阿爾法加權(quán)平均值來找到。在圖2中,原始前景區(qū)域指視差不連續(xù)性左方的像素。背景視差通過深度不連續(xù)區(qū)域的原始背景區(qū)域內(nèi)的視差值的窗口內(nèi)的加權(quán)平均值來找到。用于對背景視差求平均值的權(quán)重被設(shè)置為等于1減去阿爾法值。
一旦建立了深度不連續(xù)區(qū)域的像素色彩、視差和不透明性,就形成了該圖像表示的兩個層。更具體地,與在深度不連續(xù)區(qū)域中發(fā)現(xiàn)的每個相應(yīng)像素相關(guān)聯(lián)的先前計算的前景色、前景視差和阿爾法值被分配給該圖像的邊界層的對應(yīng)位置像素。類似地,與在深度不連續(xù)區(qū)域中的每個相應(yīng)像素相關(guān)聯(lián)的先前計算的背景色和背景視差值,連同圖像中不在深度不連續(xù)區(qū)域中的所有像素的色彩和視差值一起(從圖像和其視差映射圖中取得),被分配給該圖像的主層的對應(yīng)位置像素。
因此,所得的兩層圖像表示包括一邊界層,它為該層中的每一個像素標(biāo)識前景色、前景視差和阿爾法值。另外,表示包含一主層,它為該層中與深度不連續(xù)區(qū)域相關(guān)聯(lián)的像素標(biāo)識背景色和背景深度,并且為該層的每個其它像素標(biāo)識色彩和視差值。這樣,能夠看到,主層將包括關(guān)于圖像中每個像素的像素信息,然而該數(shù)據(jù)將在該場景的一個圖像與下一個圖像之間相當(dāng)類似。如果圖像是視頻幀,并且空間上如果要傳輸或存儲同一場景的多個圖像,則兩種場合在時間上都是真實的。這就造成使用標(biāo)準(zhǔn)圖像壓縮方法能夠高度壓縮主層。另外,邊界層將包含相對較少的數(shù)據(jù),通常僅僅該圖像中的全部數(shù)量的像素一個小的百分比將包含在該層中。這樣,即使當(dāng)隨著時間變化拍攝時,該數(shù)據(jù)可能在動態(tài)場景的一個圖像與下一個圖像之間發(fā)生顯著的改變,然而并沒有如此多的數(shù)據(jù)需要傳輸或存儲。因此,即使沒有壓縮,該數(shù)據(jù)也能夠被容易地傳輸和存儲。使用恰當(dāng)?shù)膲嚎s方案,能夠進(jìn)一步減少數(shù)據(jù)量和能夠傳輸它的速度。按這種方式,上述兩層圖像表示提供了數(shù)據(jù)傳輸和存儲的所要求的簡易化,并使得實時再現(xiàn)變得切實可行。
現(xiàn)在,將參考圖3A-B中所示的流程圖來略述上述兩層圖像表示生成過程。首先,輸入將被表示的數(shù)字或數(shù)字化的圖像及其視差映射圖(處理動作300)。然后使用視差映射圖在圖像中標(biāo)識深度不連續(xù)性位置(處理動作302)。下一步,標(biāo)識在圍繞該深度不連續(xù)性的指定大小區(qū)域中發(fā)現(xiàn)的像素,并且將其指定為是在該圖像的深度不連續(xù)區(qū)域中(處理動作304)。使用修邊技術(shù),下一步建立深度不連續(xù)區(qū)域中的每個像素的前景和背景色,及其阿爾法值(處理動作306)。另外,在處理動作308,對深度不連續(xù)區(qū)域中的每一像素估算前景和背景視差值。然后建立邊界層,它具有對應(yīng)于深度不連續(xù)區(qū)域像素的像素(處理動作310)。與深度不連續(xù)區(qū)域中發(fā)現(xiàn)的每個相應(yīng)像素相關(guān)聯(lián)的前景色、前景視差以及阿爾法值被分配給邊界層的對應(yīng)像素(處理動作312)。也建立主層,它具有對應(yīng)于該圖像的所有像素的像素(處理動作314)。在此情況下,與深度不連續(xù)區(qū)域中的像素相關(guān)聯(lián)的背景色和背景視差被分配給主層的對應(yīng)像素,并且與不在深度不連續(xù)區(qū)域中的圖像像素相關(guān)聯(lián)的色彩和視差被分配給該主層的對應(yīng)像素(處理動作316)。
能夠被結(jié)合到用于根據(jù)本發(fā)明的生成兩層圖像表示的上述過程一種改進(jìn)涉及到在形成該圖像表示的邊界層和主層之前,擴(kuò)張深度不連續(xù)區(qū)域的前景襯邊(matte)。這具有防止在從層再現(xiàn)圖像期間出現(xiàn)由于處理中的不準(zhǔn)確度而發(fā)生的破裂的優(yōu)點。更具體地,一旦為深度不連續(xù)區(qū)域的每一像素建立了前景色、前景視差和阿爾法值,這些區(qū)域的大小被增長指定量(例如1個像素)。在擴(kuò)張期間添加到邊界層的新像素被分配與主層中的對應(yīng)像素相同的色彩和視差值,以及阿爾法值1。
圖4(a)-(e)示出了在一組霹靂舞演員的圖像上應(yīng)用根據(jù)本發(fā)明的兩層圖像表示生成過程的結(jié)果。圖4(a)示出了主層色彩估算,圖4(b)示出了主層視差估算。類似地,圖4(c)示出了邊界層色彩估算,圖4(d)示出了邊界層視差估算。最后,圖4(e)示出了邊界層的阿爾法估算。注意,圖4(c)-(e)的圖像被求反顯示,從而透明/空像素看上去為白色。注意僅僅少量信息是如何需要被發(fā)送以解決軟對象邊緣的,以及邊界層的不透明性和兩層中的色彩是如何被干凈地恢復(fù)的。
注意,貫穿前面的描述,使用了圖像像素的視差值。然而,在生成過程的任一點上,這些值可以使用標(biāo)準(zhǔn)方法被轉(zhuǎn)換成深度值。在此情況下,主層和邊界層將包括深度信息,而不是包含在其中的像素的視差值。
3.0參考文獻(xiàn)[1]Buehler,C.、Bosse,M.、McMillan,L.、Gortler,S.J.和Cohen,M.F.,2001,UnstructuredLumigraph Rendering,Proceeding of SIGGRAPH 2001(8月),425-432。
Carceroni,R.L.和Kutulakos,K.N.,2001,Multi-view scene capture by surfel samplingFrom video streams to non-rigid 3D motion,shape and reflectance,Eigth InternationalConference on Computer Vision(ICCV 2001),第II卷,60-67。
Carranza,J.、Theobalt,C.、Magnor,M.A.和Seidel,H.-P,2003,F(xiàn)ree-viewpoint videoof human actors,ACM Transactions on Graphics 22,3(7月),569-577。
Chuang,Y.-Y等人,2001,Bayesian Approach to digital matting,Conference onComputer Vision and Pattern Recognition(CVPR′2001),第II卷,264-271。
Debevec,P.E、Taylor,C.J.和Malik,J.,1996,Modeling and rendering architecture fromphotographsA hybrid geometry-and image-based approach,ComputerGraphics(SIGGRAPH′96)(8月),11-20。
Debevec,P.E.、Yu,Y.和Borshukov,G.D.,1998,Efficient view-dependentimage-based rendering with projective texture-mapping,Eurographics RenderingWorkshop 1998,105-116。
Gortler,S.J.、Grzeszczuk,R.、Szeliski,R.和Cohen,M.F.,1996,The Lumigraph.Computer Graphics(SIGGRAPH’96)Pro-ceedings,ACM SIGGRAPH,43-54。
Hall-Holt,O.、和Rusinkiewicz,S.,2001,Stripe boundary codes for real-timestructured-light range scanning of moving objects,Eighth International Conference onComputer Vision(ICCV 2001),第II卷,359-366。
Heigl,B.等人,1999,Plenoptic modeling and rendering from image sequences takenby hand-held camera,DAGM’99,94-101。
Kanade,T.、Rander,P.W.、和Narayanan,P.J.,1997,Virtualized realityconstructingvirtual worlds from real scenes,IEEE Mul-tiMedia Magazine 1,1(1月-3月),34-47。
Levoy,M.、和Hanrahan,P.,1996,Light field rendering,In Computer Graphics(SIGGRAPH’96)Proceedings,ACM SIG-GRAPH,31-42。
Pulli,K.等人,1997,View-based renderingVisualizing real objects from scannedrange and color data,In Proceedings of the 8th Eurographics Workshop on Rendering。
Scharstein,D.和Szeliski,R.,2002,A taxonomy and evaluation of dense two-framestereo correspondence algorithms,International Journal of Computer Vision 47,1(5月),7-42。
Seitz,S.M.和Dyer,C.M.,1997,Photorealistic scene reconstruction by voxelcoloring,In Conference on Computer Vision and Pattern Recognition(CVPR’97),1067-1073。
Shade,J.、Gortler,S.、He,L.-W.和Szeliski,R.,1998,Layered depth images,ComputerGraphics(SIGGRAPH’98)Proceedings,ACM SIGGRAPH,Orlando,231-242。
Tao,H.、Sawhney,H.和Kumar,R.,2001,A global matching framework for stereocomputation,In Eighth International Conference on Computer Vision(ICCV 2001),第I卷,532-539。
Vedula,S.、Baker,S.、Seitz,S.和Kanade,T.,2000,Shape and motion carving in 6D,Conference on Computer Vision and Pattern Recognition(CVPR’2000),第II卷,592-598。
Yang,J.C.、Everett,M.、Buehler,C.和McMillan,L.,2002,A real-time distributedlight field camera,Eurographics Workshop on Rendering,P.Debevec和S.Gibson編輯,77-85。
Zhang,Y.、和Kambhamettu,C.,2001,On 3D scene flow and structure estimation,Conference on Computer Vision and Pattern Recognition(CVPR’2001),第II卷,778-785。
Zhang,L.、Curless,B.和Seitz,S.M.,2003,Spacetime stereoShape recovery fordynamic scenes,Conference on Computer Vision and Pattern Recognition,367-374。
Zhang,Z.,2000,A flexible new technique for camera calibration,IEEETransactions on Pattern Analysis and Machine Intelligence 22,11,1330-1334。
權(quán)利要求
1.一種用于從圖像和圖像的視差映射圖生成數(shù)字或數(shù)字化圖像的兩層表示的計算機(jī)實現(xiàn)的過程,包括使用計算機(jī)以執(zhí)行以下處理動作使用所述圖像的視差映射圖來標(biāo)識所述圖像中的深度不連續(xù)性的位置;標(biāo)識在圍繞所述深度不連續(xù)性的指定大小區(qū)域中發(fā)現(xiàn)的圖像的像素,并且將這些像素指定為在所述圖像的深度不連續(xù)區(qū)域中;為所述深度不連續(xù)區(qū)域中的每一像素估算前景和背景色以及阿爾法值;為所述深度不連續(xù)區(qū)域中的每一像素估算前景和背景視差值;估算圖像的邊界層,它包含在對應(yīng)于所述深度不連續(xù)區(qū)域的像素的每個相應(yīng)位置上的像素,其中,每個邊界層像素被分配與所述深度不連續(xù)區(qū)域的對應(yīng)像素相關(guān)聯(lián)的前景色、前景視差和阿爾法值;以及建立所述圖像的主層,包括,在對應(yīng)于所述深度不連續(xù)區(qū)域的像素的每個相應(yīng)位置上的像素,其中,每個所述像素被分配與所述深度不連續(xù)區(qū)域的對應(yīng)像素相關(guān)聯(lián)的背景色和背景視差值,以及在不對應(yīng)于所述深度不連續(xù)區(qū)域的像素的每個位置上的像素,其中,每個所述像素被分配與所述圖像的對應(yīng)像素相關(guān)聯(lián)的色彩和視差值。
2.如權(quán)利要求1所述的過程,其特征在于,標(biāo)識所述圖像中的深度不連續(xù)性的位置的處理動作包括把表現(xiàn)大于指定視差等級數(shù)的相鄰像素之間的視差值之差的任何位置標(biāo)識為深度不連續(xù)性的動作。
3.如權(quán)利要求2所述的過程,其特征在于,所述指定視差等級數(shù)是4。
4.如權(quán)利要求1所述的過程,其特征在于,圍繞所述深度不連續(xù)性的指定大小區(qū)域被定義為從一被標(biāo)識的深度不連續(xù)性位置在每個方向上擴(kuò)展3個像素的區(qū)域。
5.如權(quán)利要求1所述的過程,其特征在于,為所述深度不連續(xù)區(qū)域中的每一像素估算前景色和背景色以及阿爾法值的處理動作包括使用一修邊技術(shù)來估算所述色彩和阿爾法值的動作。
6.如權(quán)利要求1所述的處理過程,其特征在于,為所述深度不連續(xù)區(qū)域中的每一像素估算前景和背景視差值的處理動作包括使用所述圖像的前景和背景部分中附近視差的阿爾法加權(quán)平均值來估算所述前景和背景視差值的動作。
7.如權(quán)利要求6所述的處理過程,其特征在于,使用所述圖像的前景和背景部分中附近視差的阿爾法加權(quán)平均值來估算所述前景和背景視差值的處理動作包括以下動作通過將所述圖像的前景部分中的指定大小窗口中相鄰于所考慮的像素的每個像素分別乘以其阿爾法值,并且對所得乘積求平均值,來為每一深度不連續(xù)區(qū)域中的每一像素計算前景視差值;以及通過將所述圖像的背景部分中的指定大小窗口中相鄰于所考慮的像素的每個像素分別乘以1減去其阿爾法值,并且對所得的乘積求平均值,來為每一深度不連續(xù)區(qū)域中的每一像素計算背景視差值。
8.如權(quán)利要求1所述的過程,其特征在于,還包括將對應(yīng)于所述邊界層像素的區(qū)域擴(kuò)張一指定量,并為每一添加的像素分配與所述主層中的對應(yīng)像素相同的色彩和視差值以及阿爾法值1的處理動作。
9.如權(quán)利要求8所述的處理過程,其特征在于,所述指定的擴(kuò)張量是一個像素。
10.一種用于從圖像和圖像的像素深度映射圖生成數(shù)字或數(shù)字化圖像的兩層表示的系統(tǒng),包括一通用計算設(shè)備;以及一計算機(jī)程序,它包括可以由所述計算設(shè)備執(zhí)行的程序模塊,其中,所述計算機(jī)程序的程序模塊指示所述計算設(shè)備,使用所述圖像的深度映射圖來標(biāo)識所述圖像中的深度不連續(xù)性的位置;標(biāo)識在圍繞所述深度不連續(xù)性的指定大小區(qū)域中發(fā)現(xiàn)的圖像的像素,并且將這些像素指定為在所述圖像的深度不連續(xù)區(qū)域中;為所述深度不連續(xù)區(qū)域中的每一像素估算前景和背景色以及阿爾法值;為所述深度不連續(xù)區(qū)域中的每一像素估算前景和背景深度值;生成所述圖像的主層,它包含展現(xiàn)與所述深度不連續(xù)區(qū)域的對應(yīng)地位置像素相關(guān)聯(lián)的背景色和背景深度的像素,以及表現(xiàn)與不在所述深度不連續(xù)區(qū)域中發(fā)現(xiàn)的圖像的對應(yīng)位置像素相關(guān)聯(lián)的色彩和深度的像素,以及生成所述圖像的邊界層,它包含表現(xiàn)與所述深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的前景色、前景深度和阿爾法值的像素。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,用于標(biāo)識所述圖像中的深度不連續(xù)性的位置的程序模塊包括用于將表現(xiàn)大于一指定量的相鄰像素之間的深度值之差的任何位置標(biāo)識為深度不連續(xù)性的子模塊。
12.一種具有計算機(jī)可執(zhí)行指令的計算機(jī)可讀介質(zhì),所述指令用于從圖像和圖像像素視差映射圖生成數(shù)字或數(shù)字化圖像的兩層表示,所述計算機(jī)可執(zhí)行指令包括使用所述圖像的視差映射圖來標(biāo)識所述圖像中的深度不連續(xù)性的位置;建立圍繞所標(biāo)識的深度不連續(xù)性的指定大小的深度不連續(xù)區(qū)域;為所述深度不連續(xù)區(qū)域中的每個像素建立前景和背景色以及阿爾法值;為所述深度不連續(xù)區(qū)域中的每個像素建立前景和背景視差值;以及生成所述圖像的主層,它包含表現(xiàn)與所述深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的背景色和背景視差的像素,以及表現(xiàn)與不在所述深度不連續(xù)區(qū)域中發(fā)現(xiàn)的圖像的對應(yīng)位置像素相關(guān)聯(lián)的色彩和視差的像素,以及生成所述圖像的邊界層,它包含表現(xiàn)與所述深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的前景色、前景視差和阿爾法值的像素。
13.一種數(shù)字或數(shù)字化圖像的兩層表示,包含一主層,它包含表現(xiàn)與深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的背景色和背景視差的像素,以及表現(xiàn)與不在深度不連續(xù)區(qū)域中發(fā)現(xiàn)的圖像的對應(yīng)位置像素相關(guān)聯(lián)的色彩和視差的像素;以及一邊界層,它包含表現(xiàn)與深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的前景色、前景視差和阿爾法值的像素,其中所述深度不連續(xù)區(qū)域?qū)?yīng)于圍繞使用所述圖像的視差映射在所述圖像中找到的深度不連續(xù)性的指定大小的區(qū)域。
全文摘要
提出了一種用于從圖像和圖像的像素視差映射圖生成數(shù)字或數(shù)字化圖像的兩層、3D表示的系統(tǒng)和過程。該兩層表示包括一主層,它含有表現(xiàn)與圖像中的深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的背景色和背景視差的像素,以及表現(xiàn)與不在這些深度不連續(xù)區(qū)域中發(fā)現(xiàn)的圖像的對應(yīng)位置像素相關(guān)聯(lián)的色彩和視差的像素。另一層是邊界層,它由表現(xiàn)與深度不連續(xù)區(qū)域的對應(yīng)位置像素相關(guān)聯(lián)的前景色、前景視差和阿爾法值的像素組成。該深度不連續(xù)區(qū)域?qū)?yīng)于圍繞使用其視差映射圖在圖像中找到的深度不連續(xù)性的指定大小的區(qū)域。
文檔編號G06T15/20GK1716311SQ20051008209
公開日2006年1月4日 申請日期2005年6月28日 優(yōu)先權(quán)日2004年6月28日
發(fā)明者C·孜特尼克三世, M·尤特坦戴樂, R·斯?jié)衫净? S·維恩德, S·B·康 申請人:微軟公司