專利名稱:用于識別視頻檔案中的對象的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于在視頻檔案中搜索信息的領(lǐng)域,并且更特別地涉及一種用于識別視頻檔案中的對象的方法和設(shè)備,該視頻檔案包括從照相機網(wǎng)絡(luò)中獲得的多個圖像。
本發(fā)明還涉及一種在記錄媒介上所記錄的計算機程序,當其在計算機上執(zhí)行時能夠用于實現(xiàn)根據(jù)本發(fā)明的方法。
背景技術(shù):
現(xiàn)代數(shù)據(jù)庫使得能夠存檔數(shù)量不斷增加的不同類型(數(shù)據(jù)、文本、音頻、視頻等) 的信息。使用數(shù)據(jù)庫的效率主要取決于用于在數(shù)據(jù)庫中構(gòu)造數(shù)據(jù)的模型。
在一種分級模型中,根據(jù)具有層級的樹形結(jié)構(gòu)來組織信息,僅可從該樹形結(jié)構(gòu)的根部進行訪問。
這種表示方式的主要不足之處源自于存在訪問由分級樹的根組成的信息的唯一點的事實,這導(dǎo)致搜索信息中的問題。
還可以根據(jù)圖表形式的網(wǎng)絡(luò)模型來組織數(shù)據(jù),其中利用邏輯指針將存檔的實體相互鏈接。
面向?qū)ο蟮臄?shù)據(jù)庫同樣是公知的,其能夠存儲對象中的多種信息,該對象例如單個表格、機器、資源等,值和屬性與它們相關(guān)聯(lián)。
多種搜索途徑已經(jīng)提出了一種用于數(shù)據(jù)庫的語義模型,其中根據(jù)概念圖來組織數(shù)據(jù),該概念圖由語義上相互鏈接的概念的集合表示構(gòu)成。然而,仍然沒有可用的語義模塊。
無論數(shù)據(jù)庫的類型是什么,根本問題源自于特別難于迅速地識別包含大量圖像的數(shù)據(jù)庫的視頻檔案中的對象的事實,特別是當被搜索對象上有很少信息可用時。
例如,基于簡單的描述,在包含數(shù)千小時記錄的視頻監(jiān)視檔案中搜索一個之前沒有被識別的個體期間,這種情況會發(fā)生。
在這種情況下,當前必須手動瀏覽所有被記錄的視頻檔案。
除了這個過程非常復(fù)雜之外,并且如果視頻監(jiān)視攝像機網(wǎng)絡(luò)中的攝像機數(shù)量越大,這些網(wǎng)絡(luò)的密度越大,則情況更是如此,這對于搜索運行個體情形下的緊急情況是不適用的。此外,這意味著禁止了與需要快速進行調(diào)查相矛盾的分析時期。
本發(fā)明的一個目的是通過自動分析來優(yōu)化在這種數(shù)據(jù)庫中的操作,以便加速視頻檔案中的搜索過程。
本發(fā)明的另一個目的是使得操作員能夠訪問各種各樣視頻數(shù)據(jù)庫中出現(xiàn)的對象的結(jié)構(gòu)化的可視概要。
本發(fā)明的另一個目的是給予操作員優(yōu)化的工具,用于通過交互式搜索策略在數(shù)據(jù)庫中操作。
發(fā)明內(nèi)容
這些目的通過一種用于識別視頻檔案中的對象的方法來實現(xiàn),所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,所述方法包括對要識別的對象進行特征描述的階段和在所述檔案中搜索所述對象的階段,其中,所述特征描述階段包括為所述對象定義至少一個語義特征,所述語義特征能夠從所述視頻檔案中被提取出來,即使對低分辨率的圖像也是如此,并且所述語義特征能夠直接由操作員解釋,其中,所述搜索階段包括根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像,從所述檔案中自動提取包含具有所述語義特征的對象的圖像,定義一組對象,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及根據(jù)與所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的路線有關(guān)的視覺和時空特征來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性。
根據(jù)本發(fā)明的另一個特征,相似性度量的步驟包括如下步驟 -評估所述要識別的對象的語義特征與從之前定義的組中的其他對象的圖像中提取的語義特征之間的一致性(compatibility),和/或, -評估所述要識別的對象的路線與之前定義的組中的另一個對象的路線之間的時空一致性,其中,所述另一個對象具有類似的語義特征,并且不具有與所述要識別的對象的特征不一致的任何特征。
根據(jù)本發(fā)明的方法優(yōu)選地還包括將概率系數(shù)分配給每一個相似性度量的步驟。
根據(jù)本發(fā)明的方法還包括如下步驟合并相似性度量步驟的結(jié)果,以便定義單個統(tǒng)一的相似性度量,使得能夠定義在所述要識別的對象的空間中的距離。
此外,根據(jù)本發(fā)明的方法包括通過之前定義的距離,進行感興趣對象的空間的動態(tài)構(gòu)造,以便能夠利用分層樹在所述視頻檔案中交互操作。
本發(fā)明可以應(yīng)用于對于人的搜索,其中所述要識別的對象是一個僅能獲得簡單描述的人。在這樣的應(yīng)用中,這個人的語義特征由可視的身體特征和/或可視的附屬物組成。
本發(fā)明特別有利于搜索視頻檔案中的嫌疑人,該視頻檔案包括在遠程監(jiān)視攝像機網(wǎng)絡(luò)覆蓋的空間中分布的多個攝像機拍攝的多個視頻序列。
根據(jù)本發(fā)明的方法通過用于識別視頻檔案中的對象的設(shè)備來實現(xiàn),所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,所述設(shè)備的特征在于其包括特征描述模塊,用于對要識別的對象進行特征描述;和搜索模塊,用于在所述檔案中搜索所述對象,其中,所述特征描述模塊包括用于為所述對象定義至少一個語義特征的模塊,所述語義特征能夠從所述視頻檔案中被提取出來,即使對低分辨率的圖像也是如此,并且所述語義特征能夠直接由操作員解釋,其中,所述搜索模塊包括用于根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像的模塊,用于從所述檔案中自動提取包含具有所述語義特征的對象的圖像的模塊,用于定義一組對象的模塊,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及用于根據(jù)與所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的路線有關(guān)的視覺和時空特征來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性的模塊。
優(yōu)選地,用于相似形度量的模塊包括 -第一計算模塊,其配置來評估所述要識別的對象的語義特征與從之前定義的組中的其他對象的圖像中提取的語義特征之間的一致性,和/或, -第二計算模塊,其配置來評估所述要識別的對象的路線與之前定義的組中的另一個對象的路線之間的時空一致性,其中,所述另一個對象具有與所述要識別的對象的語義特征類似的語義特征。
根據(jù)本發(fā)明的方法在所述設(shè)備中通過記錄在記錄介質(zhì)上的計算機程序來實現(xiàn),當其在計算機上執(zhí)行時適于識別視頻檔案中的對象,所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,其中,所述計算機程序包括用于執(zhí)行對要識別的對象進行特征描述的階段的指令和用于執(zhí)行在所述檔案中搜索所述對象的階段的指令,其中,所述特征描述階段包括為所述對象定義至少一個語義特征,所述語義特征能夠從所述視頻檔案中被提取出來,即使與低分辨率圖像有關(guān),并且能夠直接由操作員解釋,其中,所述搜索階段包括根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像,從所述檔案中自動提取包含具有所述語義特征的對象的圖像,定義一組對象,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及根據(jù)視覺特征和所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的時空路線上的約束來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性。
參考附圖,本發(fā)明的其他特性和優(yōu)點在下面的描述中將更清晰,該描述作為非限制性的實例而給出。
具體實施例方式本發(fā)明將在一特定應(yīng)用的環(huán)境中被描述,其中考慮了現(xiàn)有的視頻監(jiān)視攝像機的擴展網(wǎng)絡(luò),例如城市交通網(wǎng)絡(luò)或機場網(wǎng)絡(luò)。我們采用對事件(攻擊、盜竊、恐怖事件)之后的調(diào)查的特定環(huán)境的觀察。
還可以預(yù)先假定多個目擊證人給出了嫌疑人的描述。然后迅速地確定目標為找到事件的圖像(如果任何圖像存在的話),以及發(fā)現(xiàn)攝像機網(wǎng)絡(luò)所覆蓋的區(qū)域內(nèi)嫌疑人的完整路線,以便確定時空路線并識別他們。
傳統(tǒng)的方式包括瀏覽由接近事件發(fā)生位置的攝像機和非常接近目擊證人指示的位置的攝像機拍攝的圖像,以便在視頻攝制檔案中識別該事件。
本發(fā)明建議的方式包括利用目擊證人給出的描述來組織對嫌疑人的搜索,并且在優(yōu)化對視頻監(jiān)視檔案中的圖像的搜索之前過濾數(shù)據(jù)。
為了達到這個目的,由目擊證人給出的嫌疑人的描述被用來定義與嫌疑人有關(guān)的語義信息。從而,其可以例如是高的、非常瘦、穿著長款黑色外套并且?guī)еR,而且有胡須和長頭發(fā)。根據(jù)本發(fā)明的方法能夠使用一些這樣的特征,并且它們能夠被直接編入到系統(tǒng)中。
隨后自動預(yù)處理存在于檔案中的所有視頻數(shù)據(jù)。這種預(yù)處理包括以下步驟 -分析所有移動對象并跟蹤他們,特別考慮堵塞和停止; -偵查檔案圖像中的人; -利用專用算法來表征每個被識別的人,該算法基于特定的輸入,在輸出端給出語義屬性列表,并且對于每個屬性給出信任度度量、概率度量和/或似然性度量。
在本發(fā)明的優(yōu)選實施例中,可以通過由高斯混合模型化場景(其中背景是固定的)來實現(xiàn)移動檢測,可以通過卡爾曼(Kalman)濾波器來實現(xiàn)跟蹤,并且隨后通過本地分析來完成,該本地分析例如利用SIFT或SURF類型的本地描述,或者可能更簡單且更不常見的模型化形式,以便解決由堵塞導(dǎo)致的模糊性。
在這個實施例中,例如通過如下方式獲取人員的檢測通過使用級聯(lián)分類器技術(shù) (例如Adaboost 和Hmr濾波器技術(shù))來檢測臉部,然后可能通過形體分析得出完整的身體輪廓,該形體分析可能需要基于學(xué)習(xí)技術(shù)來考慮自然規(guī)律系數(shù)或各個檢測器。
用來表征每個人的專用算法是優(yōu)選的,例如,能夠指示某個個體具有長頭發(fā)還是短頭發(fā)、有沒有胡須、是圓臉還是長臉、是矮胖的還是修長的輪廓等的分類器。
有利地針對被提取信息的每個要素給出響應(yīng)可靠性的度量。這些特征描述(或從圖像提取的描述符)可以直接被操作員解釋并能夠直接關(guān)聯(lián)到在目擊證人說明期間收集的語義信息。此外,即使對于低分辨率的圖像也可以計算它們。實際上,沒有必要使用與一張臉有關(guān)的由數(shù)百像素組成的寬度來確定一個人是否戴了眼鏡。
在優(yōu)選實施例中,利用下面描述的方法獲取分類器 -從與提取的極小特征相關(guān)的描述符中局部地提取圖像(例如,為了確定一個人是否有胡須,考慮臉部檢測模型的下半部);這些描述符例如可以是顏色柱狀圖、梯度、表征紋理的空間分布特性、對濾波器(例如Gabor濾波器)的響應(yīng)等; -然后由機器學(xué)習(xí)來構(gòu)造分類器,以便指出哪些臉具有“胡須”特征;一種可選的方法包括學(xué)習(xí)特定于這些特征的距離度量,并然后使用這些特定距離來確定與某些語義方面有關(guān)的的兩張臉之間的接近度或區(qū)別??煽啃远攘靠梢杂煞诸惼髦苯犹峁?。也可以在事件之后模型化,例如,通過將之前的輸出轉(zhuǎn)換為概率。另外,考慮到檔案圖像的質(zhì)量,還可能啟用多個標準,以便確定極小特征中語義特征的評估是否可靠。因此,一張非常雜亂的圖像,或者一張人工壓縮后生成的高度失真的圖像是非常難以分析的,在這種情況下,這種評估很自然地不太安全且不太可靠。
-當時空信息可用則啟動要被鏈接的攝像機,這用來建立在不同攝像機中進行的觀察之間的第一鏈接。
因此,如果各個攝像機的相對位置和查看領(lǐng)域的區(qū)域被獲知,能夠建立在不同攝像機中的移動之間的與時空相關(guān)的一致性;這點特別地使得通過了解移動速度,能夠得出一個全局速度已經(jīng)被測量的實體不會在某個時期之前出現(xiàn)在視頻中,并且可能會在一預(yù)測時期附近出現(xiàn)。該時空一致性約束可以是二元的(同一時間一個人不會出現(xiàn)在兩個地方), 或者含糊不清的(不確定的信任值,即較大或較小的概率)。利用這些約束,多個攝像機之間的觀察可以彼此關(guān)聯(lián),且因此在數(shù)據(jù)庫中的所有實體之間建立了或多或少的復(fù)雜和可靠的關(guān)系。
根據(jù)前述的這一點,由與在至少一個視頻中看到的每個個體相關(guān)聯(lián)的語義數(shù)據(jù)的數(shù)據(jù)庫來表示視頻監(jiān)視檔案。
構(gòu)造語義數(shù)據(jù)庫包括以下步驟 -使用目擊證人給出的描述。該描述包括語義特征,可能具有相關(guān)聯(lián)的信任度度量,依賴于目擊證人的記憶力以及聲明的一致性; -利用所述語義特征在數(shù)據(jù)庫中應(yīng)用濾波器,僅保留那些具有這些特征的個體,并排除沒有這些特征的所有個體; -所有具有相似外貌的個體以分層方式被編組;換句話說,基于相似性標準來對個體編組,為每個組以及每個子組建立該組的個體的共同特征描述。如果個體之間的相似性度量是基于語義標準,那么分層編組還可以被限定為語義。因此,不會僅僅由于他們彼此相像(兩個個體穿著幾乎相同的衣服)的事實而將兩個圖像編組,還因為他們具有一個或多個共同的描述信息元素(例如,兩個個體有胡須并戴著墨鏡)。有利地,數(shù)據(jù)庫的結(jié)構(gòu)可以是動態(tài)的。為了這個目的,只需要添加、刪除或修改用于分層結(jié)構(gòu)的語義標準以使其能夠被更新,從而反映操作員的期望。因此,有可能限定關(guān)于肥胖的信息項目的可靠性,或者添加一條新的信息項目來考慮臉部形狀以及是否戴了帽子。還可以想到的是,可以自動地向用戶建議新的結(jié)構(gòu)形式。
當數(shù)據(jù)庫已經(jīng)被構(gòu)造,用戶就能夠根據(jù)個體以及他們的特征在數(shù)據(jù)庫中高效地操作,并且不再根據(jù)攝像機和時間流逝。
當個體被指定時,相應(yīng)的視頻序列可以被瀏覽;這種指定使得可視的外貌能夠被更精確地指定,其使得相似性度量能夠被完成。此外,提供考慮了個體的位置的時空信息。 因此,再次對之前過濾的數(shù)據(jù)庫進行過濾,以排除采集位置和日期與該指定的個體的正常移動的時空約束不匹配的所有個體。
通過與移動有關(guān)的時空約束(由于距離可以被估計,所以能夠計算出可能的速度,并定義最大速度),根據(jù)語義要素、外貌特征以及這確實是指定的個體的概率的組合來對剩余的個體進行排序。接著,通過利用時空約束、語義屬性和外貌標準來瀏覽檔案,而不需要考慮攝像機的選擇或數(shù)據(jù)的時間戳,用戶能夠瀏覽這個排序后的列表并能夠采用非常高效且非常迅速的方式跟蹤和反向跟蹤(其包括及時返回)該被指定的個體。
附圖描述了根據(jù)上述應(yīng)用背景下的本發(fā)明的方法的主要步驟。
在Tl階段過程中,由攝像機網(wǎng)絡(luò)4記錄場景圖像(步驟幻,所述攝像機網(wǎng)絡(luò)包括地理上分布于被監(jiān)視區(qū)域的多個攝像機。
在步驟6中,選擇要在其中分析被記錄的圖像的時間范圍。
在T2階段過程中,被記錄的圖像中的個體被檢測(步驟8)并生成該檢測到的個體的小圖像(步驟10)。
在T3階段過程中,提取所述小圖像的語義特征(步驟12)。其隨后被編碼和索引。
在步驟14中,具有一個或多個描述的共同信息項目的小圖像被編組在一起。在步驟16中,生成具有圖像的可視概要的文件,然后在步驟18中進行顯示。
T4階段描述了操作員20對在T1-T3階段過程中構(gòu)造的數(shù)據(jù)庫的使用。
在步驟22中,操作員指定拍攝的事件的時間范圍。
在步驟M中,操作員經(jīng)由用戶接口提供搜索個體的屬性。系統(tǒng)顯示(步驟26)從之前的步驟過程中已經(jīng)生成的被構(gòu)造的數(shù)據(jù)庫中過濾的圖像。
上面描述的特定實施例被應(yīng)用于個體??梢詫⒃摳拍罡鼘挿旱貞?yīng)用于其他實體, 例如交通工具。
權(quán)利要求
1.一種用于識別視頻檔案中的對象的方法,所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,所述方法的特征在于其包括對要識別的對象進行特征描述的階段和在所述檔案中搜索所述對象的階段,其中,所述特征描述階段包括為所述對象定義至少一個語義特征,所述語義特征能夠從所述視頻檔案中被提取出來,即使對低分辨率的圖像也是如此,并且所述語義特征能夠直接由操作員解釋,其中,所述搜索階段包括根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像, 從所述檔案中自動提取包含具有所述語義特征的對象的圖像,定義一組對象,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及根據(jù)與所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的路線有關(guān)的視覺和時空特征來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述相似性的度量包括如下步驟-評估所述要識別的對象的語義特征與從所述之前定義的組中的其他對象的圖像中提取的語義特征之間的一致性,和/或,-評估所述要識別的對象的路線與所述之前定義的組中的另一個對象的路線之間的時空一致性,其中,所述另一個對象具有類似的語義特征,并且不具有與所述要識別的對象的特征不一致的任何特征。
3.根據(jù)權(quán)利要求2所述的方法,還包括如下步驟將概率系數(shù)分配給每一個相似性度量。
4.根據(jù)權(quán)利要求3所述的方法,還包括如下步驟合并相似性度量步驟的結(jié)果,以便定義單個統(tǒng)一的相似性度量,使得能夠定義在所述要識別的對象的空間中的距離。
5.根據(jù)權(quán)利要求3所述的方法,還包括如下步驟通過所述距離,進行所述要識別的對象的空間的動態(tài)構(gòu)造,以便能夠利用分層樹在所述視頻檔案中交互操作。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述要識別的對象是人類。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述人類的語義特征包括可視的身體特征。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述人類的語義特征包括可視的服裝配件。
9.一種用于識別視頻檔案中的對象的設(shè)備,所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,所述設(shè)備的特征在于其包括特征描述模塊,用于對要識別的對象進行特征描述;和搜索模塊,用于在所述檔案中搜索所述對象,其中,所述特征描述模塊包括用于為所述對象定義至少一個語義特征的模塊, 所述語義特征能夠從所述視頻檔案中被提取出來,即使對低分辨率的圖像也是如此,并且所述語義特征能夠直接由操作員解釋,其中,所述搜索模塊包括用于根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像的模塊,用于從所述檔案中自動提取包含具有所述語義特征的對象的圖像的模塊,用于定義一組對象的模塊,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及用于根據(jù)與所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的路線有關(guān)的視覺和時空特征來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性的模塊。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中,所述用于度量相似性的模塊包括-第一計算模塊,其配置來評估所述要識別的對象的語義特征與從所述之前定義的組中的其他對象的圖像中提取的語義特征之間的一致性,和/或,-第二計算模塊,其配置來評估所述要識別的對象的路線與所述之前定義的組中的另一個對象的路線之間的時空一致性,其中,所述另一個對象具有與所述要識別的對象的語義特征類似的語義特征。
11. 一種記錄在記錄介質(zhì)上的計算機程序,當其在計算機上執(zhí)行時適于識別視頻檔案中的對象,所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的許多圖像,其中,所述計算機程序的特征在于其包括用于執(zhí)行對要識別的對象進行特征描述的階段的指令和用于執(zhí)行在所述檔案中搜索所述對象的階段的指令,其中,所述特征描述階段包括為所述對象定義至少一個語義特征, 所述語義特征能夠從所述視頻檔案中被提取出來并且能夠直接由操作員解釋,其中,所述搜索階段包括根據(jù)之前定義的語義特征從所述視頻檔案中過濾所述圖像,從所述檔案中自動提取包含具有所述語義特征的對象的圖像,定義一組對象,所述一組對象包括所述視頻檔案中出現(xiàn)的具有所述語義特征的所有對象,以及根據(jù)視覺特征和所述攝像機網(wǎng)絡(luò)覆蓋的空間中的所述要識別的對象的時空路線上的約束來度量所述要識別的對象與之前定義的組中的每個其他對象之間的相似性。
全文摘要
本發(fā)明涉及一種用于識別視頻檔案中的對象的方法,所述視頻檔案包括在攝像機網(wǎng)絡(luò)中獲得的多個圖像,所述方法包括對要識別的對象進行特征描述的階段和在所述檔案中搜索所述對象的階段,其中,所述特征描述階段包括為所述對象定義至少一個語義特征,所述語義特征能夠從所述視頻檔案中被提取出來,即使對低分辨率的圖像也是如此。
文檔編號G06K9/62GK102187336SQ200980133643
公開日2011年9月14日 申請日期2009年8月26日 優(yōu)先權(quán)日2008年8月27日
發(fā)明者M·斯圖爾澤, F·菲里耶 申請人:歐洲航空防務(wù)和航天公司