基于概率圖模型的非參數(shù)化的rgb-d場(chǎng)景理解方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于概率圖模型的非參數(shù)化的 RGB-D場(chǎng)景理解方法。
【背景技術(shù)】
[0002] 場(chǎng)景理解是用模式識(shí)別和人工智能的方法對(duì)場(chǎng)景圖像進(jìn)行分析、描述、分類和解 釋,最終得到場(chǎng)景圖像逐像素語義標(biāo)注的技術(shù),是計(jì)算機(jī)視覺的一個(gè)重要課題,在機(jī)器人導(dǎo) 航、虛擬現(xiàn)實(shí)、安防監(jiān)控以及網(wǎng)絡(luò)搜索領(lǐng)域有著廣泛的應(yīng)用。
[0003] 場(chǎng)景理解的方法主要分為參數(shù)化方法和非參數(shù)化方法兩大類。參數(shù)化的方法大多 都基于依賴訓(xùn)練的生成模型,而非參數(shù)化的方法則無需依賴任何訓(xùn)練,通過圖像間的相似 性傳遞語義標(biāo)簽。在參數(shù)化的方法中,需要對(duì)場(chǎng)景中的每個(gè)類別分別訓(xùn)練一個(gè)分類器,然后 利用貝葉斯網(wǎng)絡(luò)或者馬爾科夫隨機(jī)場(chǎng)(MRF)等概率圖模型構(gòu)建得到生成模型。這種方法對(duì) 于場(chǎng)景類別的伸縮性非常差,一旦場(chǎng)景的語義類別發(fā)生增減,就需要對(duì)所有語義類別重新 進(jìn)行訓(xùn)練,而且訓(xùn)練是一個(gè)非常耗費(fèi)時(shí)間和計(jì)算資源的過程,導(dǎo)致參數(shù)化的場(chǎng)景理解方法 在實(shí)際應(yīng)用中受到了極大的限制。然而,大數(shù)據(jù)時(shí)代的到來為場(chǎng)景理解打開了非參數(shù)化方 法的大門。不同于訓(xùn)練復(fù)雜的參數(shù)化模型,非參數(shù)化方法試圖利用圖像像素或者超像素間 的匹配將已標(biāo)注的相似圖像的語義標(biāo)簽傳遞給待標(biāo)注的圖像。在數(shù)據(jù)集中的數(shù)據(jù)量足夠大 的前提下,我們總是能夠找到與目標(biāo)待標(biāo)注圖像場(chǎng)景相似的圖像,而相似的場(chǎng)景所包含的 語義信息往往是相似的,這為圖像間語義標(biāo)簽的傳遞提供了可能。
[0004] 傳統(tǒng)的非參數(shù)化場(chǎng)景理解方法主要針對(duì)二維圖像展開研宄,隨著激光雷達(dá)以及微 軟Kinect等距離傳感器的面世,場(chǎng)景深度信息的獲取變得越來越容易,結(jié)合三維點(diǎn)云數(shù) 據(jù)或者致密深度等三維信息的場(chǎng)景理解方法受到了學(xué)者的廣泛關(guān)注和研宄。然而現(xiàn)有的 RGB-D圖像的場(chǎng)景理解都基于參數(shù)化的方法,如何快速高效高性能并且魯棒地實(shí)現(xiàn)非參數(shù) 化的RGB-D場(chǎng)景理解是目前面臨的難題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于針對(duì)參數(shù)化RGB-D場(chǎng)景理解方法的不足,提供一種基于概率圖 模型的非參數(shù)化的RGB-D場(chǎng)景理解方法,該方法避免了參數(shù)化方法耗時(shí)耗資源的離線訓(xùn) 練,利用圖像超像素間的相似性進(jìn)行語義標(biāo)簽的轉(zhuǎn)移,計(jì)算高效且能適應(yīng)各種場(chǎng)景。同時(shí), 本發(fā)明提出的雙向匹配以及基于協(xié)同表示分類(CRC)的標(biāo)簽轉(zhuǎn)移機(jī)制使得本發(fā)明的方法 與傳統(tǒng)的非參數(shù)化場(chǎng)景理解方法相比,有效的減少了超像素之間的誤匹配,取得了更好的 性能。
[0006] 本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:
[0007] 一種基于概率圖模型的非參數(shù)化的RGB-D場(chǎng)景理解方法,包括如下步驟:
[0008] (1)輸入待標(biāo)注圖像,利用GIST特征、顏色直方圖、法向量直方圖三種全局特征將 待標(biāo)注圖像與訓(xùn)練集中的圖像進(jìn)行特征匹配,構(gòu)建待標(biāo)注圖像的相似圖像檢索集;
[0009] (2)將步驟1輸入的待標(biāo)注圖像及得到的相似圖像檢索集中的圖像進(jìn)行過分割, 生成超像素,并利用梯度核描述符、顏色核描述符以及深度梯度核描述符三種核描述符 (Kernel descriptor)提取超像素的特征A,其中i表示超像素的索引值;計(jì)算訓(xùn)練集中各 個(gè)語義類別所占的比例,分別對(duì)各個(gè)稀有類別的超像素進(jìn)行K-means聚類,取每個(gè)聚類的 中心構(gòu)建該稀有類別的詞典;將所有稀有類別的詞典與步驟1得到的相似圖像檢索集一起 作為待標(biāo)注圖像的標(biāo)簽源;
[0010] (3)將步驟2得到的待標(biāo)注圖像中的每個(gè)超像素的特征{./;&與該圖像標(biāo)簽源中 的所有超像素的特征1/;}^進(jìn)行雙向特征匹配,生成匹配集{叫丨二;匹配度用基于協(xié)同表示 分類(CRC)的殘差度量;其中P,Q分別表示待標(biāo)注圖像中所有超像素的數(shù)量和標(biāo)簽源中所 有超像素的數(shù)量;
[0011] (4)把步驟2得到的超像素的特征作為節(jié)點(diǎn),將具有共同邊界的超像素相連,構(gòu)建 概率圖模型,將求解最大化后驗(yàn)概率的問題轉(zhuǎn)化成求解最小化能量函數(shù)的馬爾科夫隨機(jī)場(chǎng) (MRF),其描述如下:
【主權(quán)項(xiàng)】
1. 一種基于概率圖模型的非參數(shù)化的RGB-D場(chǎng)景理解方法,其特征在于,包括如下步 驟: (1) 輸入待標(biāo)注圖像,利用GIST特征、顏色直方圖、法向量直方圖S種全局特征將待標(biāo) 注圖像與訓(xùn)練集中的圖像進(jìn)行特征匹配,構(gòu)建待標(biāo)注圖像的相似圖像檢索集; (2) 將步驟1輸入的待標(biāo)注圖像及得到的相似圖像檢索集中的圖像進(jìn)行過分割,生成 超像素,并利用梯度核描述符、顏色核描述符W及深度梯度核描述符=種核描述符化ernel descriptor)提取超像素的特征fi,其中i表示超像素的索引值;計(jì)算訓(xùn)練集中各個(gè)語義類 別所占的比例,分別對(duì)各個(gè)稀有類別的超像素進(jìn)行K-means聚類,取每個(gè)聚類的中屯、構(gòu)建 該稀有類別的詞典;將所有稀有類別的詞典與步驟1得到的相似圖像檢索集一起作為待標(biāo) 注圖像的標(biāo)簽源; (3) 將步驟2得到的待標(biāo)注圖像中的每個(gè)超像素的特征{乂倍與該圖像標(biāo)簽源中的所 有超像素的特征巧擊1進(jìn)行雙向特征匹配,生成匹配集如,括;匹配度用基于協(xié)同表示分類 (CRC)的殘差度量;其中P,Q分別表示待標(biāo)注圖像中所有超像素的數(shù)量和標(biāo)簽源中所有超 像素的數(shù)量; (4) 把步驟2得到的超像素的特征作為節(jié)點(diǎn),將具有共同邊界的超像素相連,構(gòu)建概 率圖模型,將求解最大化后驗(yàn)概率的問題轉(zhuǎn)化成求解最小化能量函數(shù)的馬爾科夫隨機(jī)場(chǎng) (MRF),其描述如下:
(1) 其中,L表示待標(biāo)注圖像所有超像素的標(biāo)簽集,ih。,。是馬爾科夫隨機(jī)場(chǎng)(MR巧的數(shù)據(jù) 項(xiàng),1]^。。。1虎馬爾科夫隨機(jī)場(chǎng)(MRF)的平滑項(xiàng),1濟(jì)1冷別表示索引值為i和j的超像素 的語義標(biāo)簽,A是平衡系數(shù); (5) 根據(jù)步驟3得到的匹配結(jié)果構(gòu)建馬爾科夫隨機(jī)場(chǎng)(MR巧的數(shù)據(jù)項(xiàng)ihw。,其描述如 下:
其中S康示索引值為i的超像素,F(xiàn)。表示步驟4得到的匹配集m沖標(biāo)簽為C的超像素 的核描述符按列排列構(gòu)建得到的測(cè)量矩陣,巧;為測(cè)量矩陣F。對(duì)應(yīng)的系數(shù)矩陣,C(Si)表示 匹配集叫中語義類別集合,0是一個(gè)自定義的比大的常數(shù),用來懲罰cgCCs,.) 的情況; 根據(jù)圖像超像素鄰域間的平滑關(guān)系構(gòu)建馬爾科夫隨機(jī)場(chǎng)(MRF)的平滑項(xiàng)It,mwth,其描 述如下:
其中巧,。,?。/表示相鄰超像素表面法向量間的平滑性,戶fwfwe表示相鄰超像素的核描述 符之間的平滑性。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)待標(biāo)注圖像的相似圖像檢索集的 求解方法具體為:分別計(jì)算待標(biāo)注圖像與訓(xùn)練集中所有圖像的GIST特征、顏色直方圖W及 法向量直方圖之間的歐氏距離,分別取距離最小的前Ki個(gè)圖像,將S種全局特征匹配得到 的3Ki個(gè)圖像的交集作為待標(biāo)注圖像相似圖像的檢索集,K 1是一個(gè)自定義的常數(shù)。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)稀有類別字典的求解方法具體為: 計(jì)算訓(xùn)練集中各個(gè)語義類別所占的比例,將占比不超過3 %的語義類別定義為稀有類別,利 用K-means聚類分別將屬于各個(gè)稀有類別的超像素聚成馬類,提取K 2個(gè)聚類中屯、作為該稀 有類別的詞典,K,是一個(gè)自定義的常數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3所述利用雙向匹配策略對(duì)待標(biāo)注圖 像中的每個(gè)超像素匹配集如的求解方法具體為;對(duì)一個(gè)待標(biāo)注的超像素Si,先根據(jù)該 超像素與檢索集中超像素核描述符特征的歐氏距離,在檢索集中選出距離該超像素最近的 Ks個(gè)超像素,K 3是一個(gè)自定義的常數(shù);然后對(duì)其中的每個(gè)超像素S j.,根據(jù)核描述符特征的歐 氏距離在待標(biāo)注圖像中找出其最近鄰N(Sj.),當(dāng)Sj.不滿足W下條件時(shí),將S j.從S i的匹配集 中移除掉,其描述如下: D(s。N(Sj))《e 1 and H(s。N(Sj))《e 2 妨 式中D表示超像素間二維的空間距離,H表示超像素=維的高度差。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟5所述對(duì)馬爾科夫隨機(jī)場(chǎng)(MR巧數(shù)據(jù) 項(xiàng)ihw。的求解方法具體為;用基于協(xié)同表示分類(CRC)的匹配殘差來構(gòu)建數(shù)據(jù)項(xiàng),其描述 如下:
式中丫是一個(gè)自定義的權(quán)重標(biāo)量,F(xiàn)是匹配集中所有超像素的核描述符按列排列構(gòu) 建得到的測(cè)量矩陣。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)馬爾科夫隨機(jī)場(chǎng)(MR巧數(shù)據(jù)項(xiàng) 1]^。。。1曲求解方法具體為:利用相鄰超像素間表面法向量的角度^及特征的相似度來對(duì)鄰 域進(jìn)行平滑,其描述如下:
式中rii表示超像素s i的表面法向量,o是一個(gè)自定義的常數(shù)。
【專利摘要】本發(fā)明公開了一種基于概率圖模型的非參數(shù)化的RGB-D場(chǎng)景理解方法。將待標(biāo)注圖像與訓(xùn)練集中已標(biāo)注的圖像進(jìn)行全局特征匹配,構(gòu)建待標(biāo)注圖像相似圖像的檢索集;將待標(biāo)注圖像及其相似圖像檢索集中的圖像進(jìn)行過分割,生成超像素,并對(duì)生成的超像素進(jìn)行特征提??;計(jì)算訓(xùn)練集中各個(gè)類別所占的比例,構(gòu)建稀有類別的詞典,與相似圖像的檢索集一起作為待標(biāo)注圖像的標(biāo)簽源;將待標(biāo)注圖像中的每個(gè)超像素與該圖像標(biāo)簽源中的所有超像素進(jìn)行特征匹配;構(gòu)建概率圖模型,利用馬爾科夫隨機(jī)場(chǎng)將最大化后驗(yàn)概率轉(zhuǎn)化成最小化能量函數(shù)的優(yōu)化問題,利用圖割方法求解該問題得到待標(biāo)注圖像每個(gè)超像素的語義標(biāo)注。本發(fā)明整合了全局和局部的幾何信息,提高了RGB-D場(chǎng)景理解的性能。
【IPC分類】G06T7-00, G06F17-30
【公開號(hào)】CN104599275
【申請(qǐng)?zhí)枴緾N201510039559
【發(fā)明人】費(fèi)婷婷, 龔小謹(jǐn)
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年5月6日
【申請(qǐng)日】2015年1月27日