專利名稱:應(yīng)用基于外貌和幾何特征的統(tǒng)計模型的圖形處理系統(tǒng)中的人的標(biāo)記的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般的涉及圖像處理領(lǐng)域,更具體的涉及在一個圖像處理系統(tǒng)中實現(xiàn)人的標(biāo)記的技術(shù)。
傳統(tǒng)的個人標(biāo)記一般包括基于外貌或基于幾何學(xué)的算法的使用?;谕饷驳乃惴òㄖT如模板匹配和顏色直方圖的技術(shù)。用于幾何學(xué)算法的特征的例子,包括大小,形狀等等。但是,傳統(tǒng)的技術(shù)不能把外貌和幾何特征以這樣一種方式結(jié)合,從而為圖像處理系統(tǒng)提供效率更高和更有效的個人標(biāo)記。
發(fā)明摘要本發(fā)明通過提供一種方法和設(shè)備,使外貌特征和幾何特征都被包括到一特定已標(biāo)記個人的統(tǒng)計模型中,從而解決上述傳統(tǒng)個人標(biāo)記技術(shù)的問題。為出現(xiàn)在一個特定的視頻片斷的圖像或其他圖像序列中的一組特定的人生成的統(tǒng)計模型,可以用于檢查,定位和跟蹤在隨后處理的圖像中的人。
根據(jù)本發(fā)明的一個方面,一個圖像處理系統(tǒng)處理一個圖象序列,為大量不同的將被標(biāo)記人中的每一個人產(chǎn)生一個統(tǒng)計模型,從而使其在后續(xù)的圖像中能被識別。特定已標(biāo)記個人的統(tǒng)計模型包括至少一個外貌特征,如顏色,肌理等等,和至少一個幾何特征,如在一個或多個圖像中相似外貌的一個指定的區(qū)域的形狀或位置。此模型用于隨后的圖像以執(zhí)行人的檢查,定位和/或跟蹤操作。根據(jù)操作的結(jié)果控制圖像處理系統(tǒng)的一個動作。
根據(jù)發(fā)明的另一個方面,可以通過把一個或多個圖像分為相似外貌的許多N個不同區(qū)域,生成特定已標(biāo)記人的統(tǒng)計模型。
根據(jù)發(fā)明的又一個方面,為一個特定個人生成的統(tǒng)計模型可以是似然概率函數(shù)的形式,表明該人出現(xiàn)在一個特定圖像或一組圖像中的似然性。
如前所述,本發(fā)明的一個重要優(yōu)點是應(yīng)用包括外貌和幾何特征的統(tǒng)計模型。組合這些不同類型特征的模型的使用有效地提高了個人標(biāo)記處理的性能。例如,這種方法確保系統(tǒng)將較少可能混淆在特定圖像序列中彼此交叉的人或被其他物體部分遮住的人。
本發(fā)明能夠在廣泛的圖像處理應(yīng)用領(lǐng)域中應(yīng)用,如視頻會議系統(tǒng),視頻監(jiān)控系統(tǒng),和人機(jī)交流。
圖2說明按照本發(fā)明的人的標(biāo)記過程的示例。
圖3說明一個翻譯操作,可以被用于按照本發(fā)明的人的標(biāo)記過程。
圖4是一個示意按照本發(fā)明的人的標(biāo)記過程的流程圖,。
詳細(xì)描述
圖1顯示一個圖像處理系統(tǒng)10,在其中可以實現(xiàn)按照本發(fā)明的人的標(biāo)記技術(shù)。系統(tǒng)10包括一個處理器12,一個存儲器14,一個輸入/輸出(I/O)設(shè)備15和一個控制器16,他們通過一個或多個系統(tǒng)總線或其它類型接線的設(shè)備17連接起來進(jìn)行通信。如圖所示,系統(tǒng)10還包括一個照相機(jī)18,其與控制器16連接。照相機(jī)18可以是,例如,一個機(jī)械全景(PTZ)照相機(jī),一個廣角電子聚焦照相機(jī),或任何其他適合類型的圖像捕捉設(shè)備。因此應(yīng)該理解,其中所用的術(shù)語照相機(jī)意味著包括任何形式的圖像捕捉設(shè)備,也包括任何多配置的這樣的設(shè)備。
系統(tǒng)10可以在任何大量處理不同圖像的應(yīng)用中被采用,包括如,視頻會議系統(tǒng),視頻監(jiān)控系統(tǒng),和人機(jī)接口等等。更一般的,系統(tǒng)10能被用于任何應(yīng)用,其能得益于根據(jù)本發(fā)明所提供的改進(jìn)的人的標(biāo)記能力。
操作上,圖像處理系統(tǒng)10產(chǎn)生個人20的一個視頻信號或其它類型的圖像序列。調(diào)整照相機(jī)18,使個人20位于照相機(jī)18的視域22之內(nèi)。在應(yīng)用本發(fā)明的人的標(biāo)記技術(shù)的系統(tǒng)10中處理由照相機(jī)18產(chǎn)生的與圖象序列相應(yīng)的一個視頻信號,這將在下面作更詳細(xì)的描述??梢愿鶕?jù)對在特定的圖象序列中特定的已標(biāo)記的個人的檢查,調(diào)整系統(tǒng)的一個輸出。例如,一個視頻會議系統(tǒng),人機(jī)接口或其它類型的系統(tǒng)應(yīng)用,可以產(chǎn)生一個探詢或其他輸出或根據(jù)對已標(biāo)記個人的檢查而采取的另一類型的動作。任何其他類型系統(tǒng)動作的控制可以根據(jù)至少部分的基于個人標(biāo)記檢查。
系統(tǒng)10的元件或組件可以代表一個另外的常規(guī)桌面或便攜式電腦的相應(yīng)元件,或這些元件的一部分或組合和其他處理設(shè)備。此外,在發(fā)明的其他實施例中,處理器12,存儲器14,控制器16,和/或系統(tǒng)10的其他元件的一些或全部功能可以組合成一個設(shè)備。例如,一個或多個系統(tǒng)10的元件可以實現(xiàn)為一個計算機(jī),電視,機(jī)頂盒或其他處理設(shè)備中的專用集成電路(ASIC)或電路卡。
其中用到的術(shù)語“處理器”意味著包括一個微處理器,中央處理單元(CPU),微控制器,數(shù)字信號處理器(DSP)或任何其他用于特定圖像處理系統(tǒng)的數(shù)據(jù)處理元件。此外,應(yīng)該注意存儲器14可以代表一個電子存儲器,一個光或磁盤存儲器,一個帶式存儲器,或者這些設(shè)備和其它類型的存儲設(shè)備的全部或部分組合。
本發(fā)明通過基于外貌特征和幾何特征的統(tǒng)計模型對常規(guī)的個人標(biāo)記技術(shù)加以改進(jìn)。其中所用的術(shù)語“標(biāo)記”一般涉及統(tǒng)計模型的生成,用以在特定圖像序列的一個或多個中描述特定個人的特性。這種方法中已標(biāo)記的個人能夠在一個或多個隨后圖像的同一序列或另一個序列中,檢查,定位或跟蹤。
圖2說明一個按照本發(fā)明的人的標(biāo)記過程的示例。在系統(tǒng)10中生成和處理包括個人20的圖像25,使圖像分解為N個不同的相似外貌的區(qū)域。索引r用于識別區(qū)域中的一個特定區(qū)域。
在這個例子中,圖像25被分解為全部N=3個不同區(qū)域,對應(yīng)原始圖像25的26-1,26-2,26-3部分。P(I|Ω)表示為特定個人Ω生成的統(tǒng)計模型的似然概率函數(shù),并且指明個人Ω在特定圖像I中出現(xiàn)的可能性。個人Ω的統(tǒng)計模型的似然概率函數(shù)P(I|Ω)可以計算為P(I|Ω)=Σr=1,2,…NP(Rr|Ω)P(r|Ω),]]>其中Rr是至少一個外貌特征和至少一個幾何特征的函數(shù)。外貌特征可以包括顏色,肌理等等,幾何特征可以包括區(qū)域形狀和在圖像中的相關(guān)區(qū)域位置。
圖2中說明的人的標(biāo)記的一般過程包括從一個或多個圖像中建立個人的統(tǒng)計模型,并且應(yīng)用這些模型在后續(xù)的圖像中檢查和定位已標(biāo)記的個人。
這個過程還能夠被設(shè)定為跟蹤已標(biāo)記的個人,這將結(jié)合圖3予以詳細(xì)的描述。讓P(I| T,ξ,Ω)成為個人Ω的統(tǒng)計模型的似然概率函數(shù)。T是一個線性變換,用于捕捉在圖像空間中的人的整體移動,ξ是一個離散變量,用于在給定的時間點捕捉人的局部移動,其中術(shù)語“局部移動“意味著包括發(fā)音移動,如,整體移動的不同部分的相關(guān)移動。舉例,在一個屋子里的個人位置能夠從線性變換T中得到,同時個人的姿態(tài)(站,坐等等)能夠由離散變量ξ確定。
圖3說明線性變換T的作用。如圖所示,線性變換用來獲得圖象I的一個子窗口30,不隨角度和比例變化。線性變量T用在圖像I中涉及的點Xc上,一個旋轉(zhuǎn)角度,一個比例因子的雙線性的插值技術(shù)來實現(xiàn)。
上述的局部移動通過用變量ξ的狀態(tài){ξ1,ξ2,...ξM}離散組合捕捉人Ω的M個不同姿態(tài)來模擬。
本發(fā)明的人的標(biāo)記過程中的圖象個人Ω的檢查和定位可以用以下最大概似法搜索來實現(xiàn)T*=argTmaxΣ∀ξP(I|T,ξ,Ω)P(ξ|Ω),]]>跟蹤已標(biāo)記的個人,與檢查和定位相反,利用已知位置的歷史紀(jì)錄和以前圖像的個人姿態(tài),如,特定視頻片斷的前幀。對于一個視頻片斷Vc=(I0,I1,...It},似然概率P(Vt|Tt,ξt,Tt-1、ξt-1,...,T0,ξ0,Ω)被最大化,以獲得最適宜的個人軌跡(T0*,ξ0,t1*,ξ1,...,Tt*,ξt)。最大似然搜索提供了已標(biāo)記個人的跟蹤,并且能夠用已知的傳統(tǒng)技術(shù)有效地實現(xiàn),如維特比運(yùn)算法則或向前-向后運(yùn)算法則。
一個視頻序列的似然概率能夠根據(jù)單個幀的似然概率紀(jì)錄為P(Vt|Tt,ξt,Tt-1,ξt-1,...,T0,ξ0,Ω)=P(It|Tt,ξt,Ω)P(Tt|Tt-1,...,T0,Ω)P(ξt|ξt-1,...,ξ0,Ω)其中P(Tt|Tt-1,...,T0)描述整體移動模型的特性并能夠通過,如一個凱爾曼過濾器來實現(xiàn),并且P(ξt|ξt-1,...,ξ0,Ω)描述局部移動的特性,并能夠利用轉(zhuǎn)換矩陣的一階馬爾可夫模型實現(xiàn)。
按照本發(fā)明,上述類型的不同統(tǒng)計模型為每一個出現(xiàn)在特定視頻片斷或其它類型圖像序列的個人而產(chǎn)生。通過將每一個已標(biāo)記的軌跡與最匹配的模型的識別符關(guān)聯(lián),個人標(biāo)記過程能夠提供檢查,定位和跟蹤。
如前所述,本發(fā)明的一個重要的優(yōu)點是其利用統(tǒng)計模型,包括外貌和幾何特征。結(jié)合這些不同類型特征的模型的應(yīng)用,極大的提高了人的標(biāo)記過程的性能。例如,這種方法確保系統(tǒng)將更少可能在視頻幀序列中混淆彼此交叉的個人或被其他物體部分遮住的個人。
基于外貌和幾何特征的統(tǒng)計模型的生成將更詳細(xì)地描述。為了簡單而清楚地說明,個人Ω的圖像I中的像素可以認(rèn)為彼此獨(dú)立。換句話說,P(I|T,ξ,Ω)=Σpix∈IP(pix|T,ξ,Ω),]]>結(jié)合圖2如前所述,r是一個相似外貌的區(qū)域的索引,N是這些區(qū)域的總數(shù),r=1,2,......,N,所以P(pix|T,ξ,Ω)=maxr=1,…,N[P(pix|r,T,ξ,Ω)P(r|ξ,Ω)],]]>其中P(pix|r,T,ξ,Ω)是觀察像素pix的概率,假設(shè)其屬于在那個姿態(tài)下的個人模型的第r個區(qū)域。而P(r|ξ,Ω)是那個姿態(tài)下的區(qū)域的前概率。為了處理遮斷和新的曝光,可以使用一個連續(xù)的概率加入一個假區(qū)域,P(pix|rocclusion,T,ξ,Ω)P(roccluslon|ξ,Ω)=Pocclusion.
圖像中的每一個像素可以通過其位置x(一個平面向量)和其外貌特征f(顏色,肌理等等)來描述特性,P(pix|r,T,ξ,Ω)=P(x|r,T,ξ,Ω)P(f|r,T,ξ,Ω),其中P(x|r,T,ξ,Ω)和P(f|r,T,ξ,Ω)都可以近似為其特征空間的高斯分布。上述外貌特征向量f能從特定的像素本身或從特定的像素周圍的指定相鄰像素中得到。如前所述,這些外貌特征的例子包括顏色和肌理。顏色特征可以根據(jù)已知的色系的參數(shù),如RGB,HIS,CIE等來確定。肌理特征可以用已知的常規(guī)技術(shù)如邊界檢查,肌理梯度,伽柏篩選,tamura特征生成等。
圖4是一個總結(jié)上述本發(fā)明人的標(biāo)記過程的流程圖。步驟40中,處理一個視頻片斷或其它類型的圖像序列,為已標(biāo)記的個人ΩP(I|T,ξ,Ω)生成一個基于外貌和幾何的統(tǒng)計模型P(I|T,ξ,Ω)。步驟42中,在圖像處理系統(tǒng)存儲器中存儲結(jié)果模型或系列模型,如,系統(tǒng)10的存儲器14中。最后,步驟44中,利用存儲的模型處理一個或多個后續(xù)的圖像,完成至少一次人的檢查,人的定位,和人的跟蹤。一個或多個后面的圖像可以是相同視頻片斷或其他圖像序列的后續(xù)圖像。步驟40,42,和44的處理操作由系統(tǒng)10的處理器12通過軟件執(zhí)行來完成。
本發(fā)明的上述裝置僅僅用來說明。例如,本發(fā)明的技術(shù)能夠用不同人的標(biāo)記過程類型來實現(xiàn),包括涉及一個或多個人的檢查,人的定位和人的跟蹤過程。此外,本發(fā)明能在廣泛應(yīng)用領(lǐng)域中用于提供個人標(biāo)記功能,包括視頻會議系統(tǒng),視頻監(jiān)視系統(tǒng)和其他攝像系統(tǒng)。更進(jìn)一步,本發(fā)明至少能部分通過存儲在電子,磁性或光學(xué)存儲介質(zhì)中并由處理設(shè)備執(zhí)行的一個或多個軟件程序來實現(xiàn),如,通過系統(tǒng)10的處理器12。這些和其他許多包括在下述權(quán)利要求范圍中的實施例對本領(lǐng)域的一般技術(shù)人員將是顯而易見的。
權(quán)利要求
1.一種在圖像處理系統(tǒng)(10)中標(biāo)記人的方法,此方法包含的步驟處理(40)圖象序列(25),為每一個將被標(biāo)記的人產(chǎn)生一個統(tǒng)計模型,此統(tǒng)計模型包括標(biāo)記人的至少一個外貌特征和至少一個幾何特征;應(yīng)用(44)模型于至少一個后續(xù)的圖像,以便為被標(biāo)記的人執(zhí)行至少一次檢查操作,一次定位操作和一次跟蹤操作;并且根據(jù)至少一次操作的結(jié)果,控制一個圖像處理系統(tǒng)(10)的動作。
2.權(quán)利要求1所述的方法,其中的圖象序列(25)包括一個視頻片斷。
3.權(quán)利要求1所述的方法,其中的處理步驟(40)還包括處理圖象序列(25)以生成多個統(tǒng)計模型,每一個模型對應(yīng)一個特定的被標(biāo)記的人。
4.權(quán)利要求1所述的方法,其中的外貌特征包括至少一個顏色特征和一個肌理特征。
5.權(quán)利要求1所述的方法,其中的幾何特征包括,與統(tǒng)計模型相關(guān)的多個區(qū)域中特定一個的至少一個區(qū)域形狀和一個區(qū)域位置。
6.權(quán)利要求1所述的方法,其中統(tǒng)計模型的生成,至少部分地是通過分割特定圖像(25)為許多相似外觀的不同區(qū)域(26-1,26-2,26-3)。
7.權(quán)利要求1所述的方法,其中為一個特定的人Ω產(chǎn)生的統(tǒng)計模型,包括一個似然概率函數(shù)P(I|Ω),表明人Ω出現(xiàn)在特定圖像I的似然性。8.權(quán)利要求7所述的方法,其中的人Ω的似然概率函數(shù)P(I|Ω)計算如下P(I|Ω)=Σr=1,2,…NP(Rr|Ω)P(r|Ω),]]>其中Rr是至少一個外貌特征和至少一個幾何特征的函數(shù),r是一個識別在圖像I中相似外貌的N個區(qū)域中的一個區(qū)域的索引。
9.權(quán)利要求1所述的方法,其中為一個特定的人Ω生成的統(tǒng)計模型,包括一個似然概率函數(shù)P(I|T,ξ,Ω),其中T是一個線性變換,用于捕捉在圖像I中的人的整體移動,ξ是一個離散變量,用于在給定的時間捕捉人的局部移動。
10.權(quán)利要求9所述的方法,其中人的位置由線性變換T決定。
11.權(quán)利要求9所述的方法,其中的線性變換T用于獲得一個圖像I的子窗口(30),其不隨旋轉(zhuǎn)和比例變化。
12.權(quán)利要求9所述的方法,其中的線性變換T用一個在圖像I中的參考點Xc,一個旋轉(zhuǎn)角度θ,一個比例因子的雙線性的插值技術(shù)來實現(xiàn)。
13.權(quán)利要求9所述的方法,其中的局部移動用一個變化的ξ離散狀態(tài)組{ξ1,ξ2,...ξM}建立模型以捕捉人Ω的M個不同姿態(tài)。
14.權(quán)利要求1所述的方法,其中為一個特定的人Ω生成的統(tǒng)計模型和圖像I包括一個似然概率函數(shù)P(I|T,ξ,Ω)=Σpix∈IP(pix|T,ξ,Ω),]]>其中r是一個相似外貌的區(qū)域索引,N是這些區(qū)域的總數(shù),r=1,2,...N,P(pix|T,ξ,Ω)=maxr=1,…,N[P(pix|r,T,ξ,Ω)P(r|ξ,Ω)],]]>其中P(pix|r,T,ξ,Ω)是觀測像素的概率,假定其屬于一個姿態(tài)ξ模型的第r區(qū),P(r|ξ,Ω)是在那個姿態(tài)下的區(qū)域的先前概率。
15.權(quán)利要求14所述的方法,其中相似外貌的區(qū)域包括以下一個有恒定概率的假區(qū)域P(pix|rocclusion,T,ξ,Ω)P(roccluslon|ξ,Ω)=Pocclusion.
16.權(quán)利要求14所述的方法,其中圖像I的至少一個子集的像素的每一個通過一個兩維位置矢量x和一個外貌特征矢量f來描繪特性P(pix|r,T,ξ,Ω)=P(x|r,T,ξ,Ω)P(f|r,T,ξ,Ω),其中P(x|r,T,ξ,Ω)和P(f|r,T,ξ,Ω)被近似為,相應(yīng)的特征空間上的高斯分布。
17.權(quán)利要求1所述的方法,其中的控制步驟包括產(chǎn)生一個基于至少一次操作的結(jié)果的圖像處理系統(tǒng)的輸出。
18.權(quán)利要求1所述的方法,其中的控制步驟包括基于至少一次操作的結(jié)果改變圖像處理系統(tǒng)(10)的操作參數(shù),其。
19.一個用于在圖像處理系統(tǒng)(10)中提供人的標(biāo)記的設(shè)備,此設(shè)備包括一個處理器(12),用于處理圖象序列,為每一個將被標(biāo)記的人生成一個統(tǒng)計模型,此統(tǒng)計模型包括被標(biāo)記人的至少一個外貌特征和至少一個幾何特征,處理器(12)還進(jìn)一步用于在至少一個后續(xù)的圖像上應(yīng)用模型,以為標(biāo)記的人執(zhí)行至少一次檢查操作,一次定位操作和一次跟蹤操作,并且根據(jù)至少一個操作的結(jié)果控制圖像處理系統(tǒng)(10)的一個動作。
20.一種產(chǎn)品包括一個存儲介質(zhì),存儲一個或多個程序用于在圖像處理系統(tǒng)(10)中提供個人標(biāo)記,其中由處理器(12)執(zhí)行一個或多個程序時,執(zhí)行以下步驟處理(40)圖象序列(25),為每一個將被標(biāo)記的人生成一個統(tǒng)計模型,統(tǒng)計模型包括被由標(biāo)記人的至少一個外貌特征和至少一個幾何特征,應(yīng)用(44)模型于至少一個后面的圖像,以完成為被標(biāo)記人的至少一次檢查操作,一次定位操作和一次跟蹤操作;其中根據(jù)至少一個操作的結(jié)果控制圖像處理系統(tǒng)(10)的一個動作。
全文摘要
圖象處理系統(tǒng)(10)處理一個圖象序列,以為將被標(biāo)記的每個不同的人產(chǎn)生一個統(tǒng)計模型。一個給定被標(biāo)記人的統(tǒng)計模型包括至少一個外貌特征,例如顏色,肌理等,以及至少一個幾何特征,例如形狀或一或多個圖象中相似外貌指定區(qū)域的位置。模型被用于后續(xù)圖象,以執(zhí)行對人的檢查,定位和/或跟蹤操作。根據(jù)操作結(jié)果控制圖象處理系統(tǒng)的動作。
文檔編號G06T1/00GK1423795SQ01805968
公開日2003年6月11日 申請日期2001年10月17日 優(yōu)先權(quán)日2000年11月1日
發(fā)明者A·J·科爾梅納雷茲, S·古塔 申請人:皇家菲利浦電子有限公司