基于視覺屬性的社會事件識別方法

文檔序號：6621967閱讀：732來源：國知局

基于視覺屬性的社會事件識別方法
【專利摘要】本發(fā)明公開了一種基于視覺屬性的社會事件識別方法，該方法包括：步驟101，從訓練事件視頻集中的視頻中提取視覺屬性，所述視覺屬性用于描述與視頻對應的事件相關的屬性；其中，所述訓練事件視頻中的每個視頻對應一個已知事件類別；步驟102，基于提升的迭代模型，訓練得到視覺屬性分類器，并利用所述視覺屬性分類器訓練得到多個事件弱分類器；步驟103，基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件視頻進行分類。本發(fā)明針對傳統(tǒng)的基于屬性的視頻事件識別方法中需要大量人工給定的語義標簽問題，提出了自動的視覺屬性挖掘方法；另外針對視頻事件識別中視覺屬性復雜多變的問題，本發(fā)明對同一種視覺屬性建立了多種特征表示。
【專利說明】基于視覺屬性的社會事件識別方法

【技術領域】
[0001] 本發(fā)明屬于社會媒體（social media)挖掘和視頻分析領域，具體涉及基于圖像分享網站和視頻分享網站的視覺屬性的社會事件的識別方法。

【背景技術】
[0002] 隨著手機、數字攝像頭以及Flickr、Youtube等社交媒體的不斷普及，人們變得更容易從網絡上獲取和分享信息。這使得發(fā)生在人們周圍的社會事件以更快的速度傳播并隨之產生了大量與事件相關的不同模態(tài)的媒體數據，例如圖像、文本和視頻。根據大量多媒體數據來理解特定社會事件可以更好地幫助人們?yōu)g覽、搜索和監(jiān)控社會事件。但由于社會事件的復雜多變，如何有效地挖掘媒體數據來理解社會事件仍然是一個難題。
[0003] 近年來，已有大量利用各種媒體數據的社會事件識別和檢測的方法被提出。針對 MediaEval公布的多媒體事件檢測問題，圖像的文本描述，標簽、地理位置以及時間標記等數據被廣泛用于事件的理解與檢測。這些方法所關注的社會事件是發(fā)生在特定時間、地點的一類事件，例如"發(fā)生在西班牙巴塞羅拉和意大利羅馬的所有足球事件"。還有一些方法借助社交網站、博客、維基以及搜索引擎中的大量文本信息來挖掘更為抽象的社會事件，例如"拉里?佩奇和謝爾蓋·布林在1998年創(chuàng)立了谷歌公司"。除此之外，還有大量的方法被提出用于檢測和識別視頻中的事件。例如在多媒體事件檢測（MED)數據集中，視頻事件主要是關于"生日聚會"，"做蛋糕"以及"攀巖"等。由于包含在圖像和視頻中的視覺語義信息不易被提取和利用，目前的事件識別方法難以在視頻事件中獲得好的效果。為了改進對視頻的社會事件的理解和識別，目前有大量的方法依賴于屬性來描述視頻中的事件。
[0004] 目前基于屬性的視頻事件識別方法可以分為三個主要步驟。（1)人工標定視覺樣本（圖像或視頻）的屬性，這些屬性是人為選定的最能體現事件特征的語義信息。（2)利用包含屬性標記的視頻或圖像樣本訓練屬性分類器。（3)利用屬性分類器進一步得到視頻的屬性描述特征向量。最終將根據視頻的屬性描述特征向量來進行事件分類。盡管目前基于屬性的方法可以得到好的效果，但仍然存在大量問題。一方面是標定屬性需要耗費大量人力成本。另一方面是給定屬性對應的單個分類器不足以描述事件對應的復雜多變的視覺外觀。

【發(fā)明內容】

[0005] 本發(fā)明的目的是通過自動挖掘視覺屬性，得到對視頻中的事件更有效的特征描述方式，進而可以得到更好的分類效果。針對事件復雜多變的視覺外觀，用多種特征來描述給定的視覺屬性，可以更全面的表達事件的視覺外觀。
[0006] 為實現上述目的，本發(fā)明提供一種基于視覺屬性的社會事件識別方法，該方法包括以下步驟：
[0007] 步驟101，從訓練事件視頻集中的視頻中提取視覺屬性，所述視覺屬性用于描述與視頻對應的事件相關的屬性；其中，所述訓練事件視頻中的每個視頻對應一個已知事件類別；
[0008] 步驟102,基于提升的迭代模型，訓練得到視覺屬性分類器，并利用所述視覺屬性分類器訓練得到多個事件弱分類器；
[0009] 步驟103,基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件視頻進行分類。
[0010] 本發(fā)明的有益效果：本發(fā)明通過自動挖掘視覺屬性，減少了傳統(tǒng)基于視覺屬性的事件識別方法中需要人工標定屬性的耗費?；谔嵘亩嗵卣鲗傩员硎痉椒梢杂行У乇?示視頻事件中復雜多變的視覺外觀。

【專利附圖】

【附圖說明】
[0011] 圖1是本發(fā)明基于視覺屬性的社會事件識別方法的流程圖；

【具體實施方式】
[0012] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白，以下結合具體實施例，并參照附圖，對本發(fā)明進一步詳細說明。
[0013] 圖1為本發(fā)明提出的基于視覺屬性的社會事件識別方法的流程圖，所述方法通過自動挖掘視覺屬性得到可以識別社會事件的關鍵視覺屬性，這些視覺屬性被進一步提升來更好地表示社會事件，最終視頻事件被表示為視覺屬性的特征向量。如圖1所示，所述方法包括三個部分：1)視覺屬性提取，2)視覺屬性提升，3)基于視覺屬性的社會事件識別。具體來說，所述方法包括以下步驟：
[0014] 步驟101，視覺語義屬性提取，所述視覺語義屬性表示描述特定事件相關的物體，場景，行為等視覺語義；物體可以是人、車或者動物等；場景可能是體育場、教堂等，行為主要是人的行為活動，比如擁抱、握手等。
[0015] 所述步驟101進一步包括以下步驟：
[0016] 步驟1011，從訓練事件視頻集中的每一個事件視頻的文本描述中提取語義單詞和詞組；其中，所述訓練事件視頻集中的每一個事件視頻對應一個特定的社會事件，即每個事件視頻具有一個事件類別；所述訓練事件視頻集中的所有事件視頻對應預定數目個社會事件，所述預定數目小于訓練視頻集中的視頻個數。
[0017] 設

【權利要求】
1. 一種基于視覺屬性的社會事件識別方法，其特征在于，該方法包括以下步驟：步驟101，從訓練事件視頻集中的視頻中提取視覺屬性，所述視覺屬性用于描述與視頻對應的事件相關的屬性；其中，所述訓練事件視頻中的每個視頻對應一個已知事件類別；步驟102,基于提升的迭代模型，訓練得到視覺屬性分類器，并利用所述視覺屬性分類器訓練得到多個事件弱分類器；步驟103,基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件視頻進行分類。
2. 根據權利要求1所述的方法，其特征在于，所述步驟101進一步包括以下步驟：步驟1011，從所述訓練事件視頻集中每個視頻的文本描述中提取語義單詞和詞組；步驟1012,收集所述語義單詞和詞組對應的圖像，根據視覺信息計算語義單詞和詞組的視覺表示力，結合語義單詞或詞組的語義粘滯性，從語義單詞和詞組中選出多個視覺屬性。
3. 根據權利要求2所述的方法，其特征在于，設
為一個視頻的文本描述，1?被分割為多個語義或者詞組單元
其中sei表示一個語義單元；視頻的文本描述分割問題可以進一步表示為一個優(yōu)化問題
這里
其中Stc表示衡量分割詞組粘滯性的函數。
4. 根據權利要求2所述的方法，其特征在于，一個分割詞組se被選為視覺屬性的概率是由se的語義粘滯性和視覺表示力共同決定的： Score (se) = Stc (se) Vflickr (se) 這里Vflidff是se的視覺表示力，是通過收集得到的與其對應的圖像集的視覺相似性來計算得到：
其中，1%是當se作為檢索詞時，從圖像共享網站搜索得到的圖像集；Cent (U表示1% 的重心；sim()表示圖像的相似度。
5. 根據權利要求1所述的方法，其特征在于，步驟102具體通過迭代執(zhí)行以下三個步驟：步驟1021 :學習領域適應的共有特征表示，該步驟中利用權重分布采樣所有視頻對應的圖像幀集合和輔助圖像集中的圖像；并利用去噪自編碼器學習所采樣的樣本圖像的共有特征表示；其中，所述輔助圖像集是利用所述訓練事件視頻集中所有視頻對應的已知事件類別名稱作為關鍵詞從圖像共享網站檢索得到；步驟1022 :利用所學習得到的領域適應的共有特征表示，訓練得到與所述視覺屬性對應的多個屬性分類器，并利用所述屬性分類器更新所述視頻集中所有視頻對應的圖像幀以及輔助圖像集中圖像的權重；步驟1023 :利用所有視覺屬性分類器對訓練視頻集中的每個視頻進行描述以構造每個視頻的視覺屬性特征向量，然后利用視覺屬性特征向量訓練得到事件視頻弱分類器；，訓練得到事件視頻弱分類器，并利用所述事件視頻弱分類器進一步更新訓練視頻集中所有視頻對應的圖像幀的權重。
6. 如權利要求5所述的方法，其特征在于，步驟1021中，去噪自編碼器利用加了噪聲后的特征恢復得到原來的特征，其重構誤差如下表示：
其中，
是指去噪自編碼器的重構誤差，w表示將所述訓練視頻集中所有視頻對應的圖像幀和輔助圖像集中的圖像幀映射成共有特征表示的映射矩陣；s表示采樣得到的樣本個數，r表示對每個樣本加噪聲的次數；Xi是第i個樣本的原始特征，
是對第i個樣本的原始特征第j次加噪聲以后的特征；通過上述重構誤差方程可以求得映射矩陣W的解析解，具體如下表示：
其中，X = [Xl，. . .，xs]表示采樣得到的樣本集合，
另外是由
加噪聲
后的特征向量組成；E表示期望。
7. 如權利要求6所述的方法，其特征在于，步驟1022中，屬性分類器的分類誤差如下表示：
其中，
表示分類誤差，I表示符號函數，如果括弧中的條件滿足，則函數值為1，否則函數值為0 ;Xi表示第i個樣本的特征，即
中的第i個樣本的特征向量；g(Xi)表示將Xi的特征映射為共有特征表示后的特征；flgUi))表示第c個屬性分類器；利用訓練得到的分類器如下更新視頻集和輔助圖像集中圖像的權重：
其中，屯表示第i個圖像的權重，image (c)表示第c個屬性分類器對應的視頻包含的所有幀圖像；α ^表示權重更新率。
8. 如權利要求7所述的方法，其特征在于，步驟1023中每個視頻的所述視覺屬性特征向量如下構建：利用所有屬性分類器對所述訓練視頻集中每個視頻對應的圖像幀得到分類輸出值，這些分類輸出值構成圖像幀的視覺屬性特征向量，將一個視頻對應的所有幀圖像對應的視覺屬性特征向量進行池化得到該視頻的視覺屬性特征向量。
9. 如權利要求5所述的方法，其特征在于，步驟1023中，事件視頻弱分類器的分類誤差和權重如下計算：
其中，e表示事件視頻弱分類器的分類誤差，'表示第j個視頻，h表示訓練事件視頻集中第j個視頻的事件類別；h(vP表示對視頻'訓練得到的事件視頻弱分類器，α表示事件視頻弱分類器h(\)的權重
表示第j個視頻的權重，K表示事件類別的個數。
10.如權利要求8所述的方法，其特征在于，步驟103具體包括：對于待識別視頻，利用映射矩陣W計算其對應的圖像幀的特征表示；將所述特征表示作為所述屬性分類器的輸入，進而得到待識別視頻的視覺屬性特征向量；將所述待識別視頻的視覺屬性特征向量作為所有事件視頻弱分類器的輸入，對所述待識別視頻進行分類。
【文檔編號】G06F17/30GK104142995SQ201410370304
【公開日】2014年11月12日申請日期:2014年7月30日優(yōu)先權日:2014年7月30日
【發(fā)明者】徐常勝, 楊小汕, 張?zhí)熘? 申請人:中國科學院自動化研究所

完整全部詳細技術資料下載