專利名稱:一種基于人工神經(jīng)網(wǎng)絡(luò)的超分辨率方法
技術(shù)領(lǐng)域:
本發(fā)明屬于統(tǒng)計模式識別與圖像處理技術(shù)領(lǐng)域,具體涉及一種基于人工神經(jīng)網(wǎng)絡(luò)的超 分辨率方法。
背景技術(shù):
超分辨率是圖像處理領(lǐng)域中重要的研究任務(wù)之一。它是指利用一幅或者多幅低分辨率 圖像,通過相應(yīng)的算法來獲得一幅清晰的高分辨率圖像。高分辨率意味著圖像具有高象素 密度,可以提供更多的細(xì)節(jié),這些細(xì)節(jié)往往在應(yīng)用中起到關(guān)鍵作用。要獲得高分辨率圖像, 最直接的辦法是采用高分辨率圖像傳感器,但由于傳感器和光學(xué)器件制造工藝和成本的限 制,在很多場合和大規(guī)模部署中很難實現(xiàn)的。
因此,利用現(xiàn)有的設(shè)備,通過超分辨率技術(shù)獲取高分辨率圖像具有重要的現(xiàn)實意義。 具體來說,在社會安全和反恐中,要從低分辨率的圖像和視頻中發(fā)現(xiàn)潛在的危險往往是很 困難的,尤其在距離較遠(yuǎn)時,人們希望能通過高分辨率圖像捕獲一些異常行為來提前預(yù)警。 其次,傳統(tǒng)的壓縮技術(shù)存在理論上的上界,而如果引入超分辨技術(shù),壓縮前首先縮小圖像, 解碼后再利用超分辨率技術(shù)還原圖像,則可以進(jìn)一步提高壓縮率,這在手機(jī)、互聯(lián)網(wǎng)、軍 事等場合低比特率傳輸以及高清電視和圖像存貯方面都有著重要的市場前景,在天文學(xué)與 航天上的超距圖像傳輸也能從這一技術(shù)中獲益。第三,高分辨率圖像具有更多的重要細(xì)節(jié) 信息,如高分辨率醫(yī)學(xué)圖像對輔助醫(yī)生做出正確診斷非常有用;高分辨率衛(wèi)星圖像可以比 較容易地區(qū)分相似物體等。第四,圖像超分辨率技術(shù),可以幫助修復(fù)破損的電影膠片、照 片以及合成某些未知的虛幻臉,后者能幫助提高諸如人臉檢測、識別等生物認(rèn)證技術(shù)的性 能。
當(dāng)前,已提出了很多超分辨率算法-
文[1][2][3]是基于插值的超分辨率算法中的典型方法。這類算法很直觀,首先估計各 幀圖像之間的相對運(yùn)動信息,獲得高分辨率圖像在非均勻間距采樣點(diǎn)上的象素值,接著通 過非均勻插值得到高分辨率柵格上的像素值,最后采用圖像恢復(fù)技術(shù)來去除模糊和降低噪 聲。
文[4][5][6]是基于重建的超分辨率算法,這類方法假定超分辨率圖像在適當(dāng)?shù)淖冃巍?平移和子采樣及噪聲干擾下,利用多幀低分辨率圖像作為數(shù)據(jù)一致性約束,并結(jié)合圖像先 驗知識(通常是平滑性等)進(jìn)行求解, 一般包括兩個部分配準(zhǔn)和重建。配準(zhǔn)是獲得其它
3低分辨率圖像與參考低分辨率圖像之間的亞象素精度的相對運(yùn)動;重建是利用先驗知識, 對目標(biāo)圖像進(jìn)行優(yōu)化求解。
文[7][8]中利用隱馬爾可夫模型作為超分辨率算法的基礎(chǔ)。圖像在訓(xùn)練集中是被分割 成小塊(patch)進(jìn)行存放的,相鄰的小塊之間會有幾個像素的交疊(overlap),根據(jù)最大 后驗概率的準(zhǔn)則構(gòu)造目標(biāo)函數(shù),在訓(xùn)練集中找到待恢復(fù)圖像每一個小塊的候選塊,通過最 大化目標(biāo)函數(shù)得到最后的結(jié)果。這種基于學(xué)習(xí)的方法相對于傳統(tǒng)的基于插值和基于重建的 方法,可以獲得更加豐富的高頻信息,恢復(fù)效果比較好。但是它的缺點(diǎn)是對訓(xùn)練樣本的要 求比較高。
文[9][10]中采用了流形學(xué)習(xí)的觀點(diǎn)去看待低分辨率圖像和高分辨率圖像之間的關(guān)系。
它假定了高分辨率和對應(yīng)的低分辨率圖像塊在特征空間可以形成具有相同局部幾何結(jié)構(gòu)
的流形。首先通過訓(xùn)練得到高分辨率圖像塊(patch)和低分辨率圖像塊的流形,接著對于
測試樣本中的每一個圖像快,尋找其在低維流形中的k近鄰表示,最后使用這些系數(shù)加權(quán)
得到其在高維流形中的圖像塊的估計,作為返回的結(jié)果。文[9][10]中使用局部線性嵌入
(Locally Linear Embedding)的思想從訓(xùn)練集中找到符合條件的高變分辨圖像塊通過加權(quán)
計算得到最后的結(jié)果。局部線性嵌入實際上是隱式的反映出高維流形(對應(yīng)高分辨率圖像
塊)和低維流形(對應(yīng)低分辨率圖像塊)之間的映射關(guān)系,并沒有直觀的給出映射函數(shù),
而是通過保持局部的幾何結(jié)構(gòu)進(jìn)行計算。使用局部線性嵌入的超分辨率算法顯而易見的缺
點(diǎn)是耗時很多,對于每一個測試樣本的圖像塊,都要先在訓(xùn)練集中找到它的k近鄰,在訓(xùn)
練集比較大的情況下,效率是非常低的。
文[ll]把基于學(xué)習(xí)的超分辨率算法和基于重建的超分辨率算法相結(jié)合,在采用隱馬爾
可夫模型的基礎(chǔ)之上又引入了點(diǎn)擴(kuò)散函數(shù)參數(shù)作為一個結(jié)點(diǎn),通過不斷的迭代得到最后的結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種效率高的人臉識別、檢測方法。
本發(fā)明提出的人臉識別、檢測方法是一種基于人工神經(jīng)網(wǎng)絡(luò)的針對人臉超分辨率問題 的方法。本發(fā)明方法的基礎(chǔ)同樣是用流形學(xué)習(xí)的觀點(diǎn)去對待高分辨率圖像和低分辨率圖像 之間的關(guān)系,即假定相似的圖像,它們的高分辨率和對應(yīng)的低分辨率圖像塊在特征空間上 的映射關(guān)系也是相似的。本發(fā)明試圖找到一個顯式的映射函數(shù)去表達(dá)低維流形和高維流形 之間的映射關(guān)系,以克服使用局部線性嵌入所存在的缺點(diǎn)。本發(fā)明通過對BP神經(jīng)網(wǎng)絡(luò)的訓(xùn) 練,來尋找到低維流形和高維流形之間的映射函數(shù)的一個逼近,具體的步驟如下
41, 創(chuàng)建訓(xùn)練集。從人臉數(shù)據(jù)庫中選取適當(dāng)數(shù)量的圖像作為訓(xùn)練集。針對人臉的超分 辨率問題,我們以O(shè)RL人臉數(shù)據(jù)庫為例。ORL數(shù)據(jù)庫中包含40個人的人臉圖像,每個人 10幅,共400幅。我們選取ORL人臉數(shù)據(jù)庫的200幅作為訓(xùn)練集,也就是每人5幅圖像。 對訓(xùn)練集中每一個圖像(即高分辨率圖像),進(jìn)行下采樣(例如,2倍),得到其低分辨率 的版本,然后把兩個版本的圖像分別分割成若干像素值為2wx2"以及wxw的小塊(patch), 小塊包含的像素值依據(jù)圖像的大小和計算代價確定,也就是說,小塊包含的像素值比較少 時,計算精度會增加,但是當(dāng)圖像很大的時候,小塊數(shù)量會很多,直接增大了計算代價, 相反小塊包含的像素值比較多時,計算精度會降低,但是計算效率相對會提高, 一般地, 針對不同的數(shù)據(jù)集,可以通過實驗來確定小塊包含的像素個數(shù)。為了保證塊與塊之間的過 渡平滑,小塊之間有交疊(overlap),交疊的像素值是一個可調(diào)的參數(shù),小塊在兩個版本 的圖像中位置上是一一對應(yīng)的(附圖l)。每一個小塊通過行掃描被拉成一個向量,向量的 維數(shù)等于小塊包含的像素個數(shù)。創(chuàng)建完成的訓(xùn)練集包括兩組向量,維數(shù)分別為2"x2n以及 "xw,對于在某一組中的一個向量,在另一組中就有一個和它對應(yīng)的向量,它們之間的對 應(yīng)關(guān)系,就是由在對高分辨率和低分辨率版本圖像分割時,圖像塊的位置對應(yīng)關(guān)系所決定 的。
2, 建立BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。BP(BackPropagation)神經(jīng)網(wǎng)絡(luò),即基于誤差反向傳播 算法的人工神經(jīng)網(wǎng)絡(luò),它的特點(diǎn)是可以逼近任意連續(xù)函數(shù),具有很強(qiáng)的非線性映射能力, 而且網(wǎng)絡(luò)的中間層數(shù)、各層的處理單元數(shù)及網(wǎng)絡(luò)的學(xué)習(xí)系數(shù)等參數(shù)可根據(jù)具體情況設(shè)定, 靈活性很大。BP算法是一種有監(jiān)督式的學(xué)習(xí)算法,其主要思想是輸入學(xué)習(xí)樣本,使用反 向傳播算法對網(wǎng)絡(luò)的權(quán)值和偏差進(jìn)行反復(fù)的調(diào)整訓(xùn)練,使輸出的向量與期望向量盡可能地 接近,當(dāng)網(wǎng)絡(luò)輸出層的誤差平方和小于指定的誤差時訓(xùn)練完成,保存網(wǎng)絡(luò)的權(quán)值和偏差。 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)見附圖2,設(shè)BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、隱層、輸出層,其中,
P是輸入向量,/『和6,分別是輸入層到隱層的連接權(quán)值和偏差,丄『和62分別是隱層到輸
出層的連接權(quán)值和偏差。訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)的步驟如下
(1 )初始化,隨機(jī)給定各連接權(quán)/『和Z『以及偏差、和^。
(2)由給定的輸入輸出模式對計算隱層、輸出層各單元輸出。
(3 )計算新的連接權(quán)及偏差,Xt+1=Z4-at6,其中義A分別表示是當(dāng)前的連接權(quán) 值和偏差,即義4表示當(dāng)前的/『或丄『或A或&, ^是相應(yīng)于當(dāng)前的連接權(quán)/『或Z『或
5偏差^或^梯度,由反向誤差計算得到,^是設(shè)定的相應(yīng)于當(dāng)前連接權(quán)或偏差的學(xué)習(xí)率,
它限定了每次修改連接權(quán)或偏差的尺度的大小。
(4)選取下一個輸入模式對返回第2步,反復(fù)訓(xùn)練,直到網(wǎng)絡(luò)輸出誤差達(dá)到要求, 結(jié)束訓(xùn)練。
在本發(fā)明中,BP神經(jīng)網(wǎng)絡(luò)的輸入是低分辨率圖像塊拉成的向量,輸出的目標(biāo)是與之對 應(yīng)的高分辨率圖像塊拉成的向量,中間隱層的神經(jīng)元個數(shù)是一個可調(diào)的參數(shù)。使用第一步 創(chuàng)建的訓(xùn)練集訓(xùn)練這一 BP神經(jīng)網(wǎng)絡(luò)。訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)可以看作是一個非線性的映射 函數(shù),把反映了低分辨率圖像和高分辨率圖像的映射關(guān)系,也就是說,當(dāng)我們對其輸入一 個低分辨率圖像塊拉成的wxw維向量時,就可以顯示的得到一個對應(yīng)的高分辨率版本的 2wx2w維向量,用這個向量就可以恢復(fù)得到一個高分辨率圖像塊。
3,對于新進(jìn)的一個測試樣本,也就是一幅低分辨率的圖像,首先,按照第一步的方 式把其分割成圖像塊,每塊的大小為nxn,對于每一個圖像塊通過行掃描拉成一個向量, 作為已經(jīng)訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)的輸入,輸出的結(jié)果是一個維數(shù)增加(分辨率增加)的 2nx2/7維向量,把這一向量恢復(fù)成圖像塊。把得到高分辨率圖像塊按照對應(yīng)的位置關(guān)系"粘 貼"起來,用求均值的方法得到圖像塊之間的交疊部分的像素值,這樣就得到了最后的超 分辨率的返回結(jié)果。
值得注意的是,本發(fā)明引用了局部線性嵌入(LLE)的思想,即認(rèn)為高分辨率圖像(高維 流形)和低分辨率圖像(低維流形)之間存在映射關(guān)系,但是基于局部線性嵌入的超分辨率方 法只能隱式的表達(dá)這種映射關(guān)系,因此對于新的輸入樣本,總是必須先在訓(xùn)練集中找到與 之鄰近的訓(xùn)練樣本,然后通過加權(quán)計算得到其高分辨率的結(jié)果,因為在訓(xùn)練集中查找K近 鄰的代價很高,尤其是當(dāng)訓(xùn)練集很大的時候,所以基于局部線性嵌入的超分辨率算法效率 不高。采用BP神經(jīng)網(wǎng)絡(luò)的超分辨率算法可以解決這個問題,因為訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)就是一 個反應(yīng)這種映射關(guān)系的非線性函數(shù),新的測試樣本進(jìn)入時,可以直接計算出其對應(yīng)的高維 輸出,所以本發(fā)明是一種高效快速,計算代價小的超分辨率方法。
圖1:高低分辨率圖像分割出的圖像塊以及圖像塊之間的交疊圖示。其中(a)為宏觀圖 示,d表示交疊部分,(b)為微觀交疊圖示,(c)為具體像素交疊圖示。 圖2: BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖示。
圖3: ORL人臉數(shù)據(jù)庫的部分?jǐn)?shù)據(jù)。
圖4:對訓(xùn)練集中圖片,交疊像素為0的實驗結(jié)果,從左到右依次是,真實的高分辨率圖像,兩倍下采樣的得到的低分辨率圖像,本發(fā)明恢復(fù)的結(jié)果。
圖5:交疊像素為0的實驗結(jié)果,從左到右依次是,真實的高分辨率圖像,兩倍下采 樣的得到的低分辨率圖像,本發(fā)明恢復(fù)的結(jié)果。
圖6:對訓(xùn)練集中圖片,交疊像素為1的實驗結(jié)果,從左到右依次是,真實的高分辨
率圖像,兩倍下采樣的得到的低分辨率圖像,本發(fā)明恢復(fù)的結(jié)果。
圖7:交疊像素為l的實驗結(jié)果,從左到右依次是,真實的高分辨率圖像,兩倍下采樣
的得到的低分辨率圖像,本發(fā)明恢復(fù)的結(jié)果。
具體實施例方式
下面以在ORL人臉數(shù)據(jù)庫上的應(yīng)用作為例子進(jìn)一步描述本發(fā)明。ORL數(shù)據(jù)庫中包含40 個人的人臉圖像,每個人10幅,同400幅,每個圖像的大小是92X112個像素,我們選取其 中的200幅作為訓(xùn)練集,也就是每人5幅圖像,剩下的200幅作為測試集。包含兩組實驗, 對應(yīng)的是交疊像素為0和1兩種情況。在實驗中,低分辨率圖像被分割成3X3的圖像塊,高 分辨率圖像被分割成6X6的圖像塊,BP神經(jīng)網(wǎng)絡(luò)輸入層的神經(jīng)元個數(shù)為9,輸出層神經(jīng)元 個數(shù)為36,中間隱層的神經(jīng)元個數(shù)為25。訓(xùn)練集中的高低分辨率圖像分別被打散成54000 個6X6像素和3X3像素的圖像塊,這些圖像塊被抽拉成向量對建立的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn) 練。用測試集中的圖像對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,附圖4-7中給出了測試結(jié)果。
圖4是用訓(xùn)練集中的圖像對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,交疊像素值為0的超分 辨率實驗結(jié)果。
圖5是用測試集中的圖像對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,交疊像素值為0的超分 辨率實驗結(jié)果。
圖6是用訓(xùn)練集中的圖像對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,交疊像素值為1的超分 辨率實驗結(jié)果。
圖7是用測試集中的圖像對訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,交疊像素值為1的超分 辨率實驗結(jié)果。
引用資料 Rajan D, Chaudhuri S. Generalized interpolation and its application in super-resolution
imaging[J]. Image and Vision Computing, 2001, 19(13): 957-969. [2] Tao H J, Tang X J, J Liu, J W Tian. Super Resolution Remote Sensing Image Processing
Algorithm Based on Wavelet Transform and Inte卬olation[C]. Proceedings of SPIE,Hangzhou, China: Society of Photo-Optical Instrumentation Engineers, 2003: 259-263. [3] Lertrattanapanich S, Bose N K. High Resolution Image Formation From Low Resolution Frames Using Delaunay Triangulation[J]. IEEE Trans. Image Processing, 2002, 11(12》 1427-1441. Irani M, Peleg S. Super resolution from image sequences[J〗.ICPR-C, 1990, 90: 115-120. [5] Schultz R, Stevenson R. Improved definition video frame enhancement[C]. Proceedings of
the IEEE international Conference on Acoustics,Speech and Signal Processing, Detroit, MI:
IEEE Press, 1995: 2169-2172. [6] Stark H, Oskoui P, High-resolution image recovery from image-plane arrays, using convex
projections [J]. Journal of the Optical Society of America A, 1989, 6(11): 1715-1726. [7] Freeman W T, Jones T R, E C Pasztor. Example based superresolution[J]. IEEE Computer
Graphics and Applications, 2002, 22(2): 56-65. [8] Freeman W T, Pasztor E C, O T Carmichael. Learning low-level vision[J]. International
Journal of Computer Vision, 2000, 40(1): 25-47. [9] Chang H, Yeung D Y, Xiong Y. Super-Resolution Through Neighbor Embedding[C]. Proc.
of IEEE Conf. CVPR, Washington, DC: IEEE Press, 2004: 275-282. [lO]Su K, Qi T, Qing X, Sebe N, Ma J . Neighborhood Issue in Single-Frame Image
Super隱Resolution[C]. IEEE International Conference on Multimedia and Expo, Amsterdam,
the Netherlands: IEEE Press, 2005: 1122-1125.
"Wang, X. Tang, and H. Shum. Patch based blind image super resolution. In Proc. ICCV, volume 1, pages 709—716, 2005。
權(quán)利要求
1.一種基于人工神經(jīng)網(wǎng)絡(luò)的超分辨率的方法,其基礎(chǔ)是用流形學(xué)習(xí)的觀點(diǎn)去對待高分辨率圖像和低分辨率圖像之間的關(guān)系,即假定相似的圖像,它們的高分辨率和對應(yīng)的低分辨率圖像塊在特征空間上的映射關(guān)系也是相似的;其特征在于通過對BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,來尋找到低維流形和高維流形之間的映射函數(shù)的一個逼近,具體的步驟如下一、創(chuàng)建訓(xùn)練集從人臉數(shù)據(jù)庫中選取適當(dāng)數(shù)量的圖像作為訓(xùn)練集,對訓(xùn)練集中每一個圖像即高分辨率圖像,進(jìn)行下采樣,得到其低分辨率的版本,然后把兩個版本的圖像分別分割成若干像素值為2n×2n以及n×n的小塊,小塊包含的像素值依據(jù)圖像的大小和計算代價確定;小塊之間有交疊,交疊的像素值是一個可調(diào)的參數(shù),小塊在兩個版本的圖像中位置上是一一對應(yīng)的;每一個小塊通過行掃描被拉成一個向量,向量的維數(shù)等于小塊包含的像素個數(shù);創(chuàng)建完成的訓(xùn)練集包括兩組向量,維數(shù)分別為2n×2n以及n×n,對于在某一組中的一個向量,在另一組中就有一個和它對應(yīng)的向量,它們之間的對應(yīng)關(guān)系,是由在對高分辨率和低分辨率版本圖像分割時,圖像塊的位置對應(yīng)關(guān)系所決定的;二、建立BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練設(shè)BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、隱層、輸出層,其中,P是輸入向量,IW和b1分別是輸入層到隱層的連接權(quán)值和偏差,LW和b2分別是隱層到輸出層的連接權(quán)值和偏差,訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)的步驟如下(1)初始化,隨機(jī)給定各連接權(quán)IW和LW以及偏差b1和b2;(2)由給定的輸入輸出模式對計算隱層、輸出層各單元輸出;(3)計算新的連接權(quán)及偏差,Xk+1=Xk-αkζk,其中,Xk表示當(dāng)前的IW或LW或b1或b2,ζk是相應(yīng)于當(dāng)前的連接權(quán)IW或LW或偏差b1或b2的梯度,由反向誤差計算得到,αk是設(shè)定的相應(yīng)于當(dāng)前連接權(quán)或偏差的學(xué)習(xí)率;(4)選取下一個輸入模式對返回第2步,反復(fù)訓(xùn)練,直到網(wǎng)絡(luò)輸出誤差達(dá)到要求,結(jié)束訓(xùn)練;三,對于新進(jìn)的一個測試樣本,首先,按照第一步的方式把其分割成圖像塊,每塊的大小為n×n,對于每一個圖像塊通過行掃描拉成一個向量,作為已經(jīng)訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)的輸入,輸出的結(jié)果是一個2n×2n維向量,把這一向量恢復(fù)成圖像塊;把得到高分辨率圖像塊按照對應(yīng)的位置關(guān)系粘貼起來,用求均值的方法得到圖像塊之間的交疊部分的像素值,即得到最后的超分辨率的返回結(jié)果。
全文摘要
本發(fā)明屬于統(tǒng)計模式識別與圖像處理技術(shù)領(lǐng)域,具體為是一種基于人工神經(jīng)網(wǎng)絡(luò)的超分辨率方法。本發(fā)明利用人工神經(jīng)網(wǎng)絡(luò),表達(dá)出低分辨率圖像和高分辨率圖像之間的函數(shù)映射關(guān)系,具體步驟包括創(chuàng)建訓(xùn)練集,建立BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,把訓(xùn)練得到的高分辨率圖像按對應(yīng)關(guān)系“粘貼”起來,既得超分辨率圖像。本發(fā)明克服了以往以流形學(xué)習(xí)為基礎(chǔ)的超分辨率算法耗時的缺點(diǎn),得到了較好的效果。
文檔編號G06T5/00GK101639937SQ20091019504
公開日2010年2月3日 申請日期2009年9月3日 優(yōu)先權(quán)日2009年9月3日
發(fā)明者劉廣明, 張軍平, 紅 路, 郭躍飛 申請人:復(fù)旦大學(xué)