專利名稱:一種圖像物體大小恒常性計算方法
技術領域:
本發(fā)明涉及一種圖像物體大小恒常性計算方法,屬于計算機視覺、圖像理解與模式識別的技術領域。
背景技術:
根據(jù)幾何光學知識,物體在視網(wǎng)膜的映像輪廓不同于物體的輪廓,會隨著人和環(huán)境不斷變化,而且?guī)缀趺繒r每刻都在發(fā)生變化。但是外界的物體看上去都是一樣的,有著標準的形狀、大小、顏色、明度和位置關系。例如,隨著觀察者與桌子的相對運動或照明的變化,桌子的視網(wǎng)膜映像發(fā)生了很大的變化,但我們對它的感知卻基本上沒有變化。這種現(xiàn)象稱作知覺恒常性。視覺心理學的研究表明盡管物體視網(wǎng)膜映像的大小在變,但看上去它的大小基本不變,這一現(xiàn)象被稱為大小恒常性。
知覺恒常性是人類感知世界最重要、最突出的方面,它使人類視覺系統(tǒng)能超越不完全的、易于失真的、模糊的、二維視網(wǎng)膜映像,而建立起豐富的、穩(wěn)定的、通常正確的、三維客觀世界表象,恒常性理論對圖像物體識別有著特別重要的意義。因為隨著成像視點的變化,客觀世界中的任一物體都可以產(chǎn)生無限多個二維圖像投影,所以從二維圖像出發(fā),識別出對應的客觀世界物體是一對多的數(shù)學問題,也是計算機視覺中的難題之一。恒常性理論最吸引人的地方是面對連續(xù)變化的刺激特征,物體能被穩(wěn)定、唯一地感知。所以恒常性理論特別有助于解決物體識別中的視點不變難題。
恒常性主要包含如下種類大小恒常性、形狀恒常性、明度恒常性及顏色恒常性等。大小是標識物體的一個重要屬性。例如,在日常生活中,矮個子被感知為小孩的概率較大,高個子被感知為成年人的概率較大。而且,正確感知物體的大小具有重要的生物學意義。對許多食肉動物而言,小老虎是它們可能的美餐,而大老虎則是它們的殺手。故自動計算圖像物體的正常大小對于圖像物體識別無疑是十分重要的,這也正是圖像物體大小恒常性計算的意義及應用所在。
盡管視覺心理學早已揭示了人類視覺系統(tǒng)大小恒常性的計算理論,但是多年來,計算機學者沒有應用此項成果來解決計算機視覺問題,所以計算機也就一直沒能獲得圖像物體大小恒常性感知的能力。本發(fā)明提出了一種圖像物體大小恒常性的計算方法,試圖使計算機像人一樣,對單幅二維圖像中的各物體能實現(xiàn)相對大小恒常性感知。
發(fā)明內容
本發(fā)明的目的是通過如下技術方案實現(xiàn)的,圖像物體大小恒常性計算方法包括步驟如下(1)用天空檢測技術計算出圖像中間線;(2)在圖像地面部分,計算出從圖像底端邊線到中間線的深度變化最快方向直線,得到它的斜率;(3)計算各圖像物體中點處相對感知深度;(4)計算各圖像物體的恒常性大小。
上述方法的步驟(1)中,圖像天空部分(包括天花板)的顏色一致性較好,布局較簡單,利用這個特性,用天空檢測技術計算出中間線L1,把圖像地面部分從整幅圖像中分離出來。上述方法的步驟(2)中,用線性透視與紋理梯度兩種深度線索來計算地面深度變化最快方向直線L2,并提出了兩種深度線索進行融合的方法。上述方法的步驟(3)中,L2與L1的交點V(Vx,Vy)為圖像中的感知深度最大的點稱為滅點。L2與圖像地面底端邊線的交點U(Ux,Uy),為圖像中的感知深度最小的點,稱之為近點U。近點U的感知深度最小,設為DU,它的值等于相機離客觀世界場景最近成像點的距離除以相機成像系數(shù)B。在圖像地面部分各點感知深度的變化規(guī)律是從近點U到圖像中間線,沿著深度變化最快方向直線L2,圖像深度值線性遞增,直至滅點V達到最大;與深度變化最快方向直線L2相垂直的直線上的所有點具有相同的深度(等深線)。例如直線L3過點P(m,n)且與L2垂直,則L3上的所有點的感知深度與點P相同。故點P的相對感知深度可用近點U到L3的距離DU-L3表示。這樣就可以計算出圖像地面各點的相對感知深度。上述方法的步驟(4)中,提出了圖像物體感知大小計算公式S=B×A×D。S為物體的感知大小,A為物體的成像視角,D為物體的感知深度(也稱感知距離),即人類視覺系統(tǒng)感知到的圖像上物體在成像時離照相機的距離,B為與眼睛(相機)有關的成像系數(shù)。
本發(fā)明的技術效果在于該方法完全模擬了人類視覺系統(tǒng)大小恒常性的實現(xiàn)原理。本發(fā)明的另一個特點是,力圖使用簡單的數(shù)學建立復雜的恒常性計算模型,這也是與人視覺系統(tǒng)的機理是一致的,
圖1是本發(fā)明圖像物體大小恒常性計算方法的處理流程示意圖;圖2是本發(fā)明圖像物體感知深度計算示意圖。
具體實施例方式
下面結合附圖和具體實施方式
對本發(fā)明作進一步描述。
如圖1所示,圖像物體大小恒常性計算方法的輸入是單幅二維直立圖像;輸出是圖像中的各物體在一維維度上和指定方向上(一般是垂直或水平方向)的相對感知大??;相機模型為針孔成像模型。直立圖像是指圖像天空位于圖像中間線的上面,圖像地面位于圖像中間線的下面。
根據(jù)大小恒常性理論,要實現(xiàn)對圖像中各物體相對大小恒常性感知,需要正確計算圖像物體的成像視角A和相對感知深度D。成像視角A可用物體在圖像中的一維大小表示,即可用它在圖像中沿某一方向覆蓋的像素點數(shù)量表示。對給定輪廓的圖像物體,計算機能輕易完成這項計算任務。我們假定圖像物體的輪廓都是人工給定的。在計算中,所有圖像物體的參數(shù)是使用MATLAB環(huán)境提供的Ginput(n)與Imcrop(I)的函數(shù)手工交互實現(xiàn)的。
現(xiàn)在剩下的工作是計算圖像物體的相對深度D。從視覺心理學關于人類視覺感知深度線索的有關結論出發(fā),我們提出了一種簡單的、有效的求解方法,其計算原理如圖2所示。首先,利用物體在圖像中的高度與大氣透視兩種深度線索,用天空檢測技術計算出中間線L1,把圖像地面部分從整幅圖像中分離出來。其次,在圖像地面部分,利用線性透視與紋理梯度兩種深度線索,可算出從圖像底端邊線到中間線的深度變化最快方向直線L2。L2與L1的交點V(Vx,Vy)為圖像中的感知深度最大的點,即滅點。L2與圖像地面底端邊線的交點U(Ux,Uy),為圖像中的感知深度最小的點,稱之為近點。心理學對人類視覺系統(tǒng)的研究表明,在一定的范圍內,圖像深度感知是線性變化的。故從近點U向圖像中間線,沿著深度變化最快方向直線L2,圖像深度值線性遞增,直至滅點V達到最大。最后,計算圖像地面相對感知深度圖。與L2相垂直的直線上的所有點具有相同的深度。如直線L3過點P(m,n)且與L2垂直,則L3上的所有點的感知深度與點P相同。故點P的相對感知深度可用近點U到L3的距離Du-L3表示。這樣就可以自動計算出圖像地面各點的相對感知深度,進而形成稠密相對感知深度圖。
得到了各物體的成像視角A和相對感知深度D,計算機就能實現(xiàn)圖像物體相對大小恒常性計算,計算公式如下S=B×A×D (1)S為物體的感知大小,A為物體的成像視角,D為物體的感知深度(也稱感知距離),即人類視覺系統(tǒng)感知到的圖像上物體在成像時離照相機的距離,B為與眼睛(相機)有關的成像系數(shù)(對于同一次成像,B值對所有物體都是相同的)。物體的成像視角A可用物體在圖像中的一維大小來表示。
相對大小恒常性的計算過程如圖1所示,下面對其中的主要步驟進行詳細說明。
1、計算中間線L1室外深度圖像一般同時包含低處的地面部分與高處的天空部分,室內深度圖像一般也同時包含低處地板部分與高處的天花板部分。我們分別統(tǒng)稱室外圖像的天空部分與室內圖像的天花板部分為圖像天空,地面部分與地板部分為圖像地面,并稱圖像天空與圖像地面的分界線為中間線。圖像有時也沒有中間線,此時只有地面部分。
圖像天空部分(包括天花板)的顏色一致性較好,布局較簡單。利用這個特性,使用圖像分割技術能將天空分離出來。因色調Hue(H)分量對彩色描述能力相對來說與人的視覺最接近,故先把RGB空間轉換成HSI空間。因待處理圖像都是直立的,故在圖像的上半部分必定存在天空區(qū)域,故僅對圖像的上半部分進行統(tǒng)計,計算一維顏色直方圖。具有最大值的直方條(Bin)對應的H值就是天空的H值,記作HSKY。為了提高計算速度和避免地面部分的單點被誤判為天空,圖像被分成2*2的小塊,它的H值為4個像素的平均值。設W為任一圖像小塊,它的H值記為Hw,如果|HSKY-Hw|<=TI*HSKY,則塊W屬于天空。TI為相似性閾值,實驗取值為0.05。天空的計算在整幅圖像上進行。若計算出天空的面積小于圖像的5%,我們便認為此圖像中不包含天空。圖像每列中位于最下方的天空點形成天地分界線。用最小二乘法把天地分界線擬合成水平直線,這條水平直線就是中間線L1。
當圖像中不包含天空時,中間線一般退縮到圖像的頂端邊線或兩側邊之一。因為所有的圖像都是直立的,中間線不會出現(xiàn)在圖像的底端邊線。此時,中間線的位置由滅點位置與深度變化最快方向直線L2決定。當圖像中包含天空時,圖像地面是由中間線、底端邊線及兩側邊所形成的區(qū)域;當圖像中不包含天空時,圖像地面是整幅圖像。
2.計算地面深度變化最快方向直線L2心理學的內容可知,線性透視與紋理梯度兩種深度線索可用來指示地面深度變化最快方向。這兩種線索僅在圖像地面部分有效,所以計算直線L2的圖像支持范圍僅是圖像地面部分。單獨利用線性透視線索,可算出一條從圖像底端邊線到中間線的深度變化最快方向直線,我們稱此直線為線性透視直線LP。單獨利用紋理梯度線索,也可算出一條從圖像底端邊線到中間線的深度變化最快方向直線,我們稱此直線為紋理梯度直線LT。LP與LT的計算方法稍后介紹,現(xiàn)在假設這兩條直線已經(jīng)求出。一般情況下,這兩條直線不會重合,所以在共同指示地面深度變化最快方向時,不可避免地會產(chǎn)生沖突。因這兩條直線都是用最小二乘法擬合產(chǎn)生的,故可以認為,直線的相對擬合誤差越大,它所指示的深度變化最快方向越不準確。一種沖突的解決辦法是兩直線以各自的相對擬合誤差為權,線性組合來求解地面深度變化最快方向直線L2,相對擬合誤差越大,對應直線的組合權值越小,具體方法如下設深度變化最快方向直線L2、線性透視直線LP、紋理梯度直線LT的相對擬合誤差分別為δ2、δP、δT,它們斜率對應的角分別為θ2、θP、θT,所有θ的取值范圍為[-π/2,π/2],則有θ2=θP×δT/(δT+δP)+θT×δP/(δT+δP)(2)δ2=δP×δP/(δT+δP)+δT×δP/(δT+δP) (3)于是,直線L2由它的斜率對應角θ2和直線LP與LT的交點唯一確定。下面分別介紹直線LP與LT的計算方法。
2.1求解線性透視直線LP客觀世界中向遠處延伸的平行線,在圖像平面中將靠得越來越近,甚至會聚。這樣一組線稱為會聚線,它們的會聚點稱為滅點。在圖像中,平行線指示平坦的表面,會聚線指示向遠處延伸的表面。對于室外圖像,線性透視效果一般僅出現(xiàn)在圖像地面部分。但對于室內圖像,同時作用于地面部分與天空部分。線性透視的深度感知規(guī)律是圖像中的物體離滅點越近,感知深度越大,反之越小。同時,會聚線的中心線也能指出圖像感知深度變化最快的方向。
對每幅圖像,先使用Hough變換技術找出最長的10條直線分別對應的圖像點集,然后用最小二乘法把這些點集分別擬合成直線,并得到每條直線的方程、斜率對應角θ及相對擬合誤差δ。利用類似式(2)、式(3)的思想,由這10條直線以各自的相對擬合誤差為權線性組合,易得到線性透視直線LP的斜率對應角θP、相對擬合誤差δP及直線方程。
2.2求解紋理梯度直線LT由視覺心理學的內容可知表面離觀察者越遠,紋理變得越小。其原因是離視點越近,相同面積的視網(wǎng)膜(成像平面)區(qū)域包含的同質物體越少,即圖像分辨率越大,紋理元素的尺寸越大。在物體內部區(qū)域,像素亮度的差異小,故物體一般被感知為同質區(qū)域。這也就意味著從統(tǒng)計意義上講,離視點越近,相同圖像區(qū)域內的像素亮度差異之和應越小。為此,我們用各像素點的亮度差異度作為它的紋理梯度,并用它進一步求解紋理梯度直線LT,具體的計算過程如下(1)設I(m,n)為圖像地面任一像素點處的亮度I=(R+G+B)/3,按下式計算該點處的亮度差異度Idiff(m,n)。Z1決定各像素亮度差異的計算范圍,取1,2,3中的某個值為宜。
Idiff(m,n)=(Σi=-Z1Z1Σj=-Z1Z1|I(m,n)-I(m+i,n+j)|)/(2Z1+1)2---(4)]]>(2)將圖像地面部分均勻地分成Z2*Z2小塊,設水平方向(行)與垂直方向(列)的塊數(shù)分別為S,T。每塊的亮度差異度Mdiff為塊中所有點的像素亮度差異度Idiff之和,找出每行(水平方向)中具有最小亮度差異度Mdiff的塊,分別記作R1,R2,...,RT-1,RT。從統(tǒng)計意義上講,塊R1,R2,...,RT-1,RT代表各行中離視點最近的區(qū)域。Z2的值不宜過大,取5左右為宜。
(3)用最小二乘法對塊R1,R2,...,RT-1,RT的中心點坐標進行擬合,便可計算出紋理梯度直線LT的斜率對應角θT、相對擬合誤差δT及直線方程。
3.計算圖像地面感知深度圖如圖2所示,近點U的感知深度最小,設為DU,它的值等于相機離客觀世界場景最近成像點的距離除以相機成像系數(shù)B。在圖像地面部分各點感知深度的變化規(guī)律是從近點U到圖像中間線,沿著深度變化最快方向直線L2,圖像深度值線性遞增,直至滅點V達到最大;與深度變化最快方向直線L2相垂直的直線上的所有點具有相同的深度(等深線)。設P(m,n)為圖像地面部分任一坐標為m,n的像素點,求解點P(m,n)處的相對感知深度DP的方法如下設深度變化最快方向直線L2的斜率為K2,直線L3過點P(m,n)且垂直于直線L2,故直線L3的斜率K3=-1/K2,則直線L3的方程為X+K2Y-mK2-n=0 (5)設近點U到直線L3的距離為DU-L3,則有DU-L3=|Ux+K2Uy-mK2-n|/(1+K22)1/2(6)故點P(m,n)處的感知深度DP為DP=DU+DU-L3(7)一般情況,近點的感知深度DU難以估計,考慮它與DU-L3相比小得多,故在后面的實驗中不予考慮,被設為0。
4.計算圖像物體的感知大小利用式(1)計算各圖像物體的感知大小。因為我們只計算相對感知大小,故可將式(1)的中B值設為1。
S=B×A×D=A×D (8)本發(fā)明的其他變化和修改對本領域技術人員是顯而易見的,本發(fā)明并不局限于所述的具體實施方式
。因此,與本發(fā)明所公開內容的真正實質和基本原則范圍內的任何/所有修改、變化或等效變換,都屬于本發(fā)明的權利要求保護范圍。
權利要求
1.一種圖像物體大小恒常性計算方法,其特征在于它包括以下步驟(1)用天空檢測技術計算出圖像中間線;(2)在圖像地面部分,計算出從圖像底端邊線到中間線的深度變化最快方向直線,得到它的斜率;(3)計算各圖像物體中點處相對感知深度;(4)計算各圖像物體的視覺感知大小,作為大小恒常性的計算結果。
2.根據(jù)權利要求1所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(1)中,圖像天空部分(包括天花板)的顏色一致性較好,布局較簡單,利用這個特性,使用圖像分割技術能將天空分離出來。
3.根據(jù)權利要求1所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(2)中,用線性透視與紋理梯度兩種深度線索來計算地面深度變化最快方向直線,并提出了兩種深度線索進行融合的方法。
4.根據(jù)權利要求1、3所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(2)中,用線性透視深度線索來計算地面深度變化最快方向直線時,先使用Hough變換技術找出最長的10條直線分別對應的圖像點集,然后用最小二乘法把這些點集分別擬合成直線,并得到每條直線的方程、斜率對應角θ及相對擬合誤差δ,最后,由這10條直線以各自的相對擬合誤差為權線性組合,得到線性透視直線LP的斜率對應角θP、相對擬合誤差δP及直線方程。
5.如權利要求1、3、4所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(2)中,提出了一種利用紋理梯度線索計算地面深度變化最快方向直線(直線L2)的方法,主要步驟如下(1)設I(m,n)為圖像地面任一像素點處的亮度I=(R+G+B)/3,按下式計算該點處的亮度差異度Idiff(m,n)。Idiff(m,n)=(Σi=-Z1Z1Σj=-Z1Z1|I(m,n)-I(m+i,n+i))/(2Z1+1)2]]>Z1決定各像素亮度差異的計算范圍,實驗表明取1,2,3中的某個值為宜。(2)將圖像地面部分均勻地分成Z2*Z2小塊,設水平方向(行)與垂直方向(列)的塊數(shù)分別為S,T。每塊的亮度差異度Mdiff為塊中所有點的像素亮度差異度Idiff之和,找出每行(水平方向)中具有最小亮度差異度Mdiff的塊,分別記作R1,R2,...,RT-1,RT。從統(tǒng)計意義上講,塊R1,R2,...,RT-1,RT代表各行中離視點最近的區(qū)域。(3)用最小二乘法對塊R1,R2,...,RT-1,RT的中心點坐標進行擬合,便可計算出紋理梯度直線LT的斜率對應角θT、相對擬合誤差δT及直線方程。
6.根據(jù)權利要求1所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(3)中,提出了圖像物體中點處相對感知深度計算方法。地面深度變化最快方向直線L2與圖像地面底端邊線的交點U(Ux,Uy),為圖像中的感知深度最小的點,稱之為近點。近點U的感知深度設為DU,它的值等于相機離客觀世界場景最近成像點的距離除以相機成像系數(shù)B。設P(m,n)為圖像地面部分任一坐標為m,n的像素點,設深度變化最快方向直線L2的斜率為K2,直線L3過點P(m,n)且垂直于直線L2,故直線L3的斜率K3=-1/K2,則直線L3的方程為X+K2Y-mK2-n=0。設近點U到直線L3的距離為DU-L3,則有DU-L3=|Ux+K2Uy-mK2-n|/(1+K22)1/2。則點P(m,n)處的感知深度DP計算公式為DP=DU+DU-L3
7.根據(jù)權利要求1所述的一種圖像物體大小恒常性計算方法,其特征在于步驟(4)中,提出了圖像物體感知大小計算公式S=B×A×D。S為物體的感知大小,A為物體的成像視角,D為物體的感知深度(也稱感知距離),即人類視覺系統(tǒng)感知到的圖像上物體在成像時離照相機的距離,B為與眼睛(相機)有關的成像系數(shù)(對于同一次成像,B值對所有物體都是相同的)。
全文摘要
本發(fā)明公開了一種圖像物體大小恒常性的計算方法,屬于計算機視覺、圖像理解與模式識別的技術領域。知覺恒常性是人類感知世界最重要、最突出的方面。大小恒常性是最重要的知覺恒常性之一。本發(fā)明能使計算機像人一樣,對單幅二維圖像中的各物體能實現(xiàn)大小恒常性感知,因為該方法完全模擬了人類視覺系統(tǒng)大小恒常性的機制。它的主要步驟包括用天空檢測技術計算出圖像中間線;在圖像地面部分計算出從圖像底端邊線到中間線的深度變化最快方向直線參數(shù);計算各圖像物體中點處感知深度;計算各圖像物體的恒常性大小。本發(fā)明特別有助于解決物體識別中的視點不變難題,可用于圖像物體的識別。
文檔編號G06K9/34GK1945629SQ200610113910
公開日2007年4月11日 申請日期2006年10月20日 優(yōu)先權日2006年10月20日
發(fā)明者須德, 吳愛民, 郎叢妍, 李兵 申請人:北京交通大學