国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空一致性深度圖序列的生成方法與流程

      文檔序號(hào):11064942閱讀:617來源:國知局
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空一致性深度圖序列的生成方法與制造工藝

      本發(fā)明涉及計(jì)算機(jī)視覺立體視頻領(lǐng)域,具體涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空一致性深度圖序列的生成方法。



      背景技術(shù):

      立體視頻的基本原理是將兩幅具有水平視差的影像疊加播放,觀眾通過立體眼鏡分別看到左右眼的畫面,從而產(chǎn)生立體感知。立體視頻能給人提供身臨其境的三維立體觀感,深受消費(fèi)者歡迎。然而隨著3D影視硬件的普及度不斷上升,3D影視內(nèi)容的短缺隨之而來。直接由3D攝像機(jī)拍攝成本高,后期制作難度大,通常只能在大成本電影中使用。因此影視作品的2D/3D轉(zhuǎn)換技術(shù)是解決片源緊缺難題的一種有效的途徑,不僅能大大拓展立體影片的題材和數(shù)量,還能讓一些經(jīng)典的影視作品重返熒屏。

      由于立體視頻中的左右視差直接與每個(gè)像素對(duì)應(yīng)的深度相關(guān),因此獲取視頻各幀對(duì)應(yīng)的深度圖是2D/3D轉(zhuǎn)換技術(shù)的關(guān)鍵所在。深度圖可以由人工對(duì)視頻的每一幀摳圖并賦予深度值產(chǎn)生,但是成本非常昂貴。同時(shí),也存在一些的半自動(dòng)的深度圖生成方法,即先由人工繪制視頻中一些關(guān)鍵幀的深度圖,計(jì)算機(jī)通過傳播算法將這些深度圖擴(kuò)展到其他相鄰的幀。這些方法雖然能節(jié)省了一部分時(shí)間,但在大批量處理影視作品2D到3D轉(zhuǎn)換時(shí),仍然需要比較繁重的人工操作。

      相比而言,全自動(dòng)的深度恢復(fù)方法可以最大程度的節(jié)省人工成本。一些算法可以通過運(yùn)動(dòng),聚焦、遮擋或陰影等深度線索,使用特定的規(guī)則恢復(fù)出深度圖,但是通常只對(duì)特定場景有效。例如,基于運(yùn)動(dòng)推斷結(jié)構(gòu)的方法可以根據(jù)相鄰幀間遠(yuǎn)處物體相對(duì)位移小、近處物體相對(duì)位移大的線索恢復(fù)移動(dòng)攝像機(jī)拍攝的靜態(tài)場景的深度,但是該類方法在拍攝對(duì)象移動(dòng)或攝像機(jī)靜止的情況下無效;基于聚焦的深度恢復(fù)方法可以恢復(fù)淺景深圖像的深度,但在大景深的情況下效果很差。影視作品中通常包含各種場景,因此基于深度線索的深度恢復(fù)方法很難普遍應(yīng)用。

      卷積神經(jīng)網(wǎng)絡(luò)是一種特別適用于圖像的深度神經(jīng)網(wǎng)絡(luò),它由卷積層,激活層,池化層和損耗層等基本單元堆疊構(gòu)成,可以模擬圖像輸入x到特定輸出y的復(fù)雜函數(shù),在解決圖像分類,圖像分割等各類機(jī)器視覺問題中占據(jù)了主導(dǎo)性地位。近一兩年來,一些方法將卷積神經(jīng)網(wǎng)絡(luò)用于深度恢復(fù),使用大量的數(shù)據(jù)學(xué)習(xí)得出從RGB圖像輸入到深度圖輸出的映射關(guān)系?;诰矸e神經(jīng)網(wǎng)絡(luò)的深度恢復(fù)不依賴于各種假設(shè),具有很好的普適性,而且恢復(fù)精度很高,因此在影視作品的2D-3D轉(zhuǎn)換中有很大的應(yīng)用潛力。然而,現(xiàn)存的方法在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)都是基于單幅圖像優(yōu)化的,而忽略了幀間的連續(xù)性關(guān)系。如果運(yùn)用于恢復(fù)圖像序列的深度,相鄰各幀恢復(fù)出的深度圖會(huì)發(fā)生明顯的跳變。而相鄰幀的深度圖跳變會(huì)造成合成的虛擬視圖的閃爍,嚴(yán)重影響用戶觀感。此外,幀間的連續(xù)性也對(duì)深度恢復(fù)提供了重要線索,而在現(xiàn)存的方法里,這些信息被簡單的忽略掉了。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空一致性深度圖序列的生成方法,將RGB圖像和深度圖在時(shí)域上的連續(xù)性引入卷積神經(jīng)網(wǎng)絡(luò)中,在訓(xùn)練時(shí)將多幀圖像聯(lián)合優(yōu)化,以生成在時(shí)域上連續(xù)的深度圖,并且改善深度恢復(fù)的精確度。

      本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空一致性深度圖序列的生成方法,包括如下步驟:

      1)收集訓(xùn)練集。訓(xùn)練集的每一個(gè)訓(xùn)練樣本是一個(gè)包含m幀的連續(xù)RGB圖像序列,以及其對(duì)應(yīng)的深度圖序列;

      2)對(duì)訓(xùn)練集中的每一個(gè)圖像序列進(jìn)行時(shí)空一致性超像素分割,并且構(gòu)建空間上的相似度矩陣S(s)和時(shí)間上的相似度矩陣S(t)

      3)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)由包含參數(shù)W的單一超像素深度回歸網(wǎng)絡(luò),以及包含參數(shù)α的時(shí)空一致性條件隨機(jī)場損失層構(gòu)成。其中單一超像素深度回歸網(wǎng)絡(luò)的作用是在不考慮時(shí)空一致性約束的情況下對(duì)每一個(gè)超像素回歸出一個(gè)深度值;時(shí)空一致性條件隨機(jī)場損失層的作用是使用步驟2)中建立的時(shí)間和空間上的相似度矩陣對(duì)單一超像素回歸網(wǎng)絡(luò)的輸出進(jìn)行約束,最終輸出時(shí)域和空域上平滑的估計(jì)深度圖。

      4)利用訓(xùn)練集中的RGB圖像序列和深度圖序列對(duì)步驟3)中構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得出網(wǎng)絡(luò)參數(shù)W和α。

      5)對(duì)未知深度的RGB圖像序列,使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)通過前向傳播恢復(fù)深度圖序列。

      進(jìn)一步地,所述的步驟2)具體為:

      (2.1)對(duì)訓(xùn)練集中的每一個(gè)連續(xù)RGB圖像序列進(jìn)行時(shí)空一致性超像素分割。將輸入序列標(biāo)注為I=[I1,…,Im],其中It是第t幀RGB圖像,共有m幀。時(shí)空一致性超像素分割將m幀分別分割為n1,…,nm個(gè)超像素,而且生成后一幀中每個(gè)超像素和前一幀中對(duì)應(yīng)相同物體的超像素的對(duì)應(yīng)關(guān)系。整個(gè)圖像序列包含個(gè)超像素。對(duì)于每一個(gè)超像素p,將其重心位置的真實(shí)深度值記為dp,并定義n個(gè)超像素的真實(shí)深度向量d=[d1;…;dn]。

      (2.2)建立這n個(gè)超像素的空間一致性相似度矩陣S(s),方法是:S(s)是一個(gè)n×n的矩陣,其中描述了第p個(gè)超像素和第q個(gè)超像素的幀內(nèi)相似度關(guān)系:

      其中cp和cq分別是超像素p和q的顏色直方圖特征,γ是手動(dòng)設(shè)定的一個(gè)參數(shù),可設(shè)定為所有相鄰超像素對(duì)||cp-cq||2值的中位數(shù)。

      (2.3)建立這n個(gè)超像素的空間一致性相似度矩陣S(t),方法是:S(t)是一個(gè)n×n的矩陣,其中描述了第p個(gè)超像素和第q個(gè)超像素的幀間的相似度關(guān)系:

      其中,相鄰幀超像素的對(duì)應(yīng)關(guān)系由步驟(2.1)中的時(shí)空一致性超像素分割得出。

      進(jìn)一步地,所述的步驟3)中構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)由兩個(gè)部分構(gòu)成:單一超像素深度回歸網(wǎng)絡(luò),以及時(shí)空一致性條件隨機(jī)場損失層:

      (3.1)單一超像素深度回歸網(wǎng)絡(luò)由VGG16網(wǎng)絡(luò)的前31層,1個(gè)超像素池化層,和3個(gè)全連接層構(gòu)成。其中,超像素池化層每個(gè)超像素空間范圍內(nèi)的特征進(jìn)行平均池化。該網(wǎng)絡(luò)的輸入是m幀連續(xù)的RGB圖像,輸出是一個(gè)n維向量z=[z1,…zp],其中第p個(gè)元素zp是該連續(xù)RGB圖像序列經(jīng)時(shí)空一致性超像素分割后的第p個(gè)超像素在未考慮任何約束時(shí)的深度估計(jì)值。該卷積神經(jīng)網(wǎng)絡(luò)的需要學(xué)習(xí)的參數(shù)記為W。

      (3.2)時(shí)空一致性條件隨機(jī)場損失層的輸入步驟(3.1)中單一超像素回歸網(wǎng)絡(luò)的輸出z=[z1,…zn]、步驟(2.1)中定義的超像素真實(shí)深度向量d=[d1;…;dn],以及步驟(2.2)和(2.3)中得出的空間一致性相似度矩陣和時(shí)間一致性相似度矩陣在這里,時(shí)空一致性條件隨機(jī)場的條件概率函數(shù)為:

      其中能量函數(shù)E(d,I)定義為:

      該能量函數(shù)的第一項(xiàng)∑p∈N(dp-zp)2是單一超像素預(yù)測(cè)值和真實(shí)值的差距;第二項(xiàng)是空間一致性約束,表明如果超像素p和q在同一幀相鄰,而且顏色比較相近(比較大),則深度應(yīng)該相仿;第三項(xiàng)是時(shí)間一致性約束,表明如果超像素p和q是相鄰兩幀中對(duì)應(yīng)同一物體的超像素其深度應(yīng)該相仿。將該能量函數(shù)用矩陣形式可以寫成:

      E(d,I)=dTLd-2zTd+zTz

      其中:

      M=α(s)S(s)(t)S(t)

      S(s)和S(t)是步驟(2.2)和步驟(2.3)中得出的空間和時(shí)間相似度矩陣,α(s)和α(t)是需要學(xué)習(xí)的兩個(gè)參數(shù),是n×n的單位矩陣,D是一個(gè)對(duì)角矩陣,Dpp=∑qMpq。

      其中L-1表示L的逆矩陣,|L|表示L的行列式值。

      因此,可將損失函數(shù)定義為條件概率函數(shù)的負(fù)對(duì)數(shù):

      進(jìn)一步地,步驟4)中的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程具體為:

      (4.1)使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)參數(shù)W,α(s)和α(t)進(jìn)行優(yōu)化,在每一次迭代中,參數(shù)用以下方式更新:

      其中l(wèi)r是學(xué)習(xí)率。

      (4.2)步驟(4.1)中代價(jià)函數(shù)J對(duì)參數(shù)W的偏導(dǎo)數(shù)由下述公式計(jì)算:

      其中由卷積神經(jīng)網(wǎng)絡(luò)的反向傳播逐層計(jì)算得到。

      (4.3)步驟(4.2)中代價(jià)函數(shù)J對(duì)參數(shù)α(s)和α(t)的偏導(dǎo)數(shù)和由下述公式計(jì)算:

      其中Tr()表示求矩陣的跡,矩陣A(s)和A(t)是矩陣L對(duì)α(s)和α(t)的偏導(dǎo)數(shù),由下述公式計(jì)算:

      δ(p=q)當(dāng)p=q時(shí)取值為1,否則取值為0。

      進(jìn)一步地,步驟5)中,恢復(fù)一個(gè)未知深度的RGB圖像序列的方法具體為:

      (5.1)按照步驟2中的方法對(duì)該RGB圖像序列進(jìn)行時(shí)空一致性超像素分割,并且計(jì)算空間相似度矩陣S(s)和時(shí)間相似度矩陣S(t);

      (5.2)使用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對(duì)該RGB圖像序列進(jìn)行前向傳播,得到單一超像素網(wǎng)絡(luò)輸出z;

      (5.3)經(jīng)過時(shí)空一致性約束的深度輸出為由下述公式計(jì)算:

      其中矩陣L由步驟(3.2)中描述的方法計(jì)算。表示該RGB圖像序列第p個(gè)超像素的深度值。

      (5.4)將各個(gè)賦予該超像素相應(yīng)幀的相應(yīng)位置,即可得出m幀圖像的深度圖。

      本發(fā)明的有益效果如下:

      第一,相比于基于深度線索的深度恢復(fù)方法,本發(fā)明使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)從RGB圖像到深度圖的函數(shù)映射,不依賴于對(duì)場景的特定假設(shè);

      第二,相比于現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的深度恢復(fù)方法只對(duì)單幀圖像優(yōu)化,本發(fā)明加入時(shí)空一致性約束,通過構(gòu)造時(shí)空一致性隨機(jī)場損失層對(duì)多幀圖像聯(lián)合優(yōu)化,可以輸出時(shí)空一致性的深度圖,避免了深度圖的幀間跳躍。

      第三,相比于現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的深度恢復(fù)方法,本發(fā)明加入的是時(shí)空一致性約束,可以提高深度恢復(fù)的精度。

      本發(fā)明在公開數(shù)據(jù)集NYU depth v2以及一個(gè)發(fā)明人自己提出的數(shù)據(jù)集LYB 3D-TV上與Eigen,David,Christian Puhrsch,and Rob Fergus."Depth map prediction from a single image using a multi-scale deep network."Advances in neural information processing systems.2014.等其他現(xiàn)有的方法進(jìn)行了比較。結(jié)果顯示,本發(fā)明提出的方法可以顯著地提高恢復(fù)深度圖的時(shí)域連續(xù)致性,以及提高深度估計(jì)的精確度。

      附圖說明

      圖1是本發(fā)明的實(shí)例流程圖;

      圖2是本發(fā)明提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;

      圖3是單一超像素深度回歸網(wǎng)絡(luò)的結(jié)構(gòu)圖;

      圖4是單一超像素作用于多幀圖像的示意圖。

      具體實(shí)施方式

      下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。

      如圖1所示的實(shí)施例流程圖,本發(fā)明方法包括如下步驟:

      1)收集訓(xùn)練集。訓(xùn)練集的每一個(gè)訓(xùn)練樣本是一個(gè)包含m幀的連續(xù)RGB圖像序列,以及其對(duì)應(yīng)的深度圖序列;

      2)使用Chang Jason et al.A video representation using temporal superpixels.CVPR 2013中提出的方法對(duì)訓(xùn)練集中的每一個(gè)圖像序列進(jìn)行時(shí)空一致性超像素分割,并且構(gòu)建空間上的相似度矩陣S(s)和時(shí)間上的相似度矩陣S(t)

      3)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)由包含參數(shù)W的單一超像素深度回歸網(wǎng)絡(luò),以及包含參數(shù)α的時(shí)空一致性條件隨機(jī)場損失層構(gòu)成。其中單一超像素深度回歸網(wǎng)絡(luò)的作用是在不考慮時(shí)空一致性約束的情況下對(duì)對(duì)每一個(gè)超像素回歸出一個(gè)深度值;時(shí)空一致性條件隨機(jī)場損失層的作用是使用步驟2)中建立的時(shí)間和空間上的相似度矩陣對(duì)單一超像素回歸網(wǎng)絡(luò)的輸出進(jìn)行約束,最終輸出時(shí)域和空域上平滑的估計(jì)深度圖。

      4)利用訓(xùn)練集中的RGB圖像序列和深度圖序列對(duì)步驟3)中構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得出網(wǎng)絡(luò)參數(shù)W和α。

      5)對(duì)未知深度的RGB圖像序列,使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)通過前向傳播恢復(fù)深度圖序列。

      關(guān)于步驟2)的具體實(shí)施說明如下:

      (2.1)使用Chang Jason et al.A video representation using temporal superpixels.CVPR 2013中提出的方法對(duì)訓(xùn)練集中的每一個(gè)連續(xù)RGB圖像序列進(jìn)行時(shí)空一致性超像素分割。將輸入序列標(biāo)注為I=[I1,…,Im],其中It是第t幀RGB圖像,共有m幀。時(shí)空一致性超像素分割將m幀分別分割為n1,…,nm個(gè)超像素,而且生成后一幀中每個(gè)超像素和前一幀中對(duì)應(yīng)相同物體的超像素的對(duì)應(yīng)關(guān)系。整個(gè)圖像序列包含個(gè)超像素。對(duì)于每一個(gè)超像素p,我們將其重心位置的真實(shí)深度值記為dp,并定義n個(gè)超像素的真實(shí)深度向量d=[d1;…;dn]。

      (2.2)建立這n個(gè)超像素的空間一致性相似度矩陣S(s),方法是:S(s)是一個(gè)n×n的矩陣,其中描述了第p個(gè)超像素和第q個(gè)超像素的幀內(nèi)相似度關(guān)系:

      其中cp和cq分別是超像素p和q的顏色直方圖特征,γ是手動(dòng)設(shè)定的一個(gè)參數(shù),可設(shè)定為所有相鄰超像素對(duì)||cp-cq||2值的中位數(shù)。

      (2.3)建立這n個(gè)超像素的空間一致性相似度矩陣S(t),方法是:S(t)是一個(gè)n×n的矩陣,其中描述了第p個(gè)超像素和第q個(gè)超像素的幀間的相似度關(guān)系:

      其中,相鄰幀超像素的對(duì)應(yīng)關(guān)系由步驟(2.1)中的時(shí)空一致性超像素分割得出。

      關(guān)于步驟3)的具體實(shí)施說明如下:

      (3.1)本方法構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)由兩個(gè)部分構(gòu)成:單一超像素深度回歸網(wǎng)絡(luò),以及時(shí)空一致性條件隨機(jī)場損失層,其整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示;

      (3.2)步驟(3.1)中所述的單一超像素深度回歸網(wǎng)絡(luò)由文獻(xiàn)Simonyan,Karen,and Andrew Zisserman."Very deep convolutional networks for large-scale image recognition."arXivpreprint arXiv:1409.1556(2014)中提出的VGG16網(wǎng)絡(luò)的前31層,兩個(gè)卷積層,1個(gè)超像素池化層,和3個(gè)全連接層構(gòu)成,該網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其中,超像素池化層每個(gè)超像素空間范圍內(nèi)的特征進(jìn)行平均池化,其他的卷積、池化、激活等層均為卷積神經(jīng)網(wǎng)絡(luò)常規(guī)的層。對(duì)于m幀連續(xù)的RGB圖像輸入,該網(wǎng)絡(luò)首先單獨(dú)作用于每一幀,例如對(duì)于包含nt個(gè)超像素的第t幀圖像,該網(wǎng)絡(luò)輸出一個(gè)nt維的向量zt,代表該幀內(nèi)每個(gè)超像素在不考慮任何約束下的深度回歸輸出。之后,將m幀圖像的輸出拼接成一個(gè)維的向量z=[z1;…,;zn],代表該圖像序列中共n個(gè)超像素的估計(jì)深度回歸值,如圖4所示。該卷積神經(jīng)網(wǎng)絡(luò)的需要學(xué)習(xí)的參數(shù)記為W。

      (3.3)步驟(3.1)中所述的時(shí)空一致性條件隨機(jī)場損失層的輸入步驟(3.2)中所述的單一超像素回歸網(wǎng)絡(luò)的輸出z=[z1,…zn],以及、步驟(2.1)中定義的超像素真實(shí)深度向量d=[d1;…;dn],以及步驟(2.2)和(2.3)中得出的空間一致性相似度矩陣和時(shí)間一致性相似度矩陣在這里,時(shí)空一致性條件隨機(jī)場的條件概率函數(shù)為:

      其中能量函數(shù)E(d,I)定義為:

      該能量函數(shù)的第一項(xiàng)∑p∈N(dp-zp)2是單一超像素預(yù)測(cè)值和真實(shí)值的差距;第二項(xiàng)是空間一致性約束,表明如果超像素p和q在同一幀相鄰,而且顏色比較相近(比較大),則深度應(yīng)該相仿;第三項(xiàng)是時(shí)間一致性約束,表明如果超像素p和q是相鄰兩幀中對(duì)應(yīng)同一物體的超像素其深度應(yīng)該相仿。將該能量函數(shù)用矩陣形式可以寫成:

      E(d,I)=dTLd-2zTd+zTz

      其中:

      M=α(s)S(s)(t)S(t)

      S(s)和S(t)是步驟(2.2)和步驟(2.3)中得出的空間和時(shí)間相似度矩陣,α(s)和α(t)是需要學(xué)習(xí)的兩個(gè)參數(shù),是n×n的單位矩陣,D是一個(gè)對(duì)角矩陣,Dpp=∑qMpq。

      其中L-1表示L的逆矩陣,|L|表示L的行列式值。

      因此,可將損失函數(shù)定義為條件概率函數(shù)的負(fù)對(duì)數(shù):

      步驟4)中的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,具體為:

      (4.1)使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)參數(shù)W,α(s)和α(t)進(jìn)行優(yōu)化,在每一次迭代中,參數(shù)用以下方式更新:

      其中l(wèi)r是學(xué)習(xí)率。

      (4.2)步驟(4.1)中代價(jià)函數(shù)J對(duì)參數(shù)W的偏導(dǎo)數(shù)由下述公式計(jì)算:

      其中由卷積神經(jīng)網(wǎng)絡(luò)的反向傳播逐層計(jì)算得到。

      (4.3)步驟(4.2)中代價(jià)函數(shù)J對(duì)參數(shù)α(s)和α(t)的偏導(dǎo)數(shù)由下述公式計(jì)算:

      Tr(·)是求矩陣的跡的運(yùn)算;其中矩陣A(s)和A(t)是矩陣L對(duì)α(s)和α(t)的偏導(dǎo)數(shù),由下述公式計(jì)算:

      δ(p=q)當(dāng)p=q時(shí)取值為1,否則取值為0。

      步驟5)中,恢復(fù)一個(gè)未知深度的RGB圖像序列的方法具體為:

      (5.1)按照步驟2中的方法對(duì)該RGB圖像序列進(jìn)行時(shí)空一致性超像素分割,并且計(jì)算空間相似度矩陣S(s)和時(shí)間相似度矩陣S(t);

      (5.2)使用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對(duì)該RGB圖像序列進(jìn)行前向傳播,得到單一超像素網(wǎng)絡(luò)輸出z;

      (5.3)經(jīng)過時(shí)空一致性約束的深度輸出為由下述公式計(jì)算:

      其中矩陣L由步驟(3.3)中描述的方法計(jì)算。表示該RGB圖像序列第p個(gè)超像素的深度值。

      (5.4)將各個(gè)賦予該超像素相應(yīng)幀的相應(yīng)位置,即可得出m幀圖像的深度圖。

      具體實(shí)施例:本發(fā)明在公開數(shù)據(jù)集NYU depth v2以及一個(gè)發(fā)明人自己提出的數(shù)據(jù)集LYB3D-TV上與其他集中現(xiàn)有的方法進(jìn)行了比較。其中,NYU depth v2數(shù)據(jù)集由795個(gè)訓(xùn)練場景和654個(gè)測(cè)試場景構(gòu)成,每一個(gè)場景包含30幀連續(xù)的rgb圖像和其對(duì)應(yīng)的深度圖。LYU 3D-TV數(shù)據(jù)庫取自電視劇《瑯琊榜》的一些場景,我們選取了60個(gè)場景中的5124幀圖片和其手工標(biāo)注的深度圖作為訓(xùn)練集,和20個(gè)場景中的1278幀圖片和其手工標(biāo)注的深度圖作為測(cè)試集。我們將本發(fā)明提出的方法和下列方法在深度恢復(fù)精度上進(jìn)行了對(duì)比:

      1.Depth transfer:Karsch,Kevin,Ce Liu,and Sing Bing Kang."Depth transfer:Depth extraction from video using non-parametric sampling."IEEE transactions on pattern analysis and machine intelligence 36.11(2014):2144-2158.

      2.discrete-continuous CRF:Liu,Miaomiao,Mathieu Salzmann,and Xuming He."Discrete-continuous depth estimation from a single image."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014.

      3.Multi-scale CNN:Eigen,David,Christian Puhrsch,and Rob Fergus."Depth map prediction from a single image using a multi-scale deep network."Advances in neural information processing systems.2014(Multi-scale CNN),

      4.2D-DCNF:Liu,Fayao,et al."Learning depth from single monocular images using deep convolutional neural fields."IEEE transactions on pattern analysis and machine intelligence.

      結(jié)果顯示,我們的方法的精度相對(duì)于對(duì)比方法有所提升,而且恢復(fù)深度圖的幀間跳躍現(xiàn)象明顯減少。

      表1:在NYU depth v2數(shù)據(jù)庫的深度恢復(fù)精度對(duì)比

      表2:在LYB-3D TV數(shù)據(jù)庫的深度恢復(fù)精度對(duì)比

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1