本發(fā)明屬于計算機視覺技術領域,尤其涉及一種運用于訓練背景模型時的訓練數據的收斂方法。
背景技術:
在計算機視覺領域,背景建模主要用于對前景目標的檢測與識別,更進一步地可對檢測的目標進行一些高級操作,如姿態(tài)判斷、動作分析等。因此,背景模型的建立作為首要任務,其準確性對后續(xù)的應用起到至關重要的作用。從靈長類動物對目標(即前景)的理解來看,不同于背景且具有可移動性的對象,如動物、交通工具、短暫停留的物體等,都可以理解為前景。幀差法(differencingofadjacentframes)作為最初的背景模型是由rameshjain和h.-h.nagel(文獻1)提出的,根據對前景的理解,對于在靜態(tài)場景中檢測運動目標會有效果,但是如果背景中存在動態(tài)物體的話,該方法將不能適應,因為該模型沒有獲取到背景在時間軸上的演變屬性。在現實場景中,尤其在室外,動態(tài)的背景對象如風中搖擺的樹木、蕩漾的水面、擺動的旗幟、噴泉和電梯等,都不是一幀圖像可以刻畫和描述的,而是需要對連續(xù)多幀圖像的學習來實現對背景的“理解”,即對模型參數的學習。根據模型的不同,需要求解的參數也各不相同。
統(tǒng)計學方法以對象的發(fā)生數據為基礎,在研究對象的不確定性(uncertainty)方面具有優(yōu)勢,目前主要分為有參估計和無參估計。單高斯模型的代表pfinder(文獻2)是christopherwren等人提出的有參模型,在背景學習時通過將一段相對較長的“空背景(emptybackground)”視頻幀作為數據源來學習模型關于每個像素的顏色屬性,如方差等。在此基礎上,對其擴展的混合高斯模型(mog)得到眾多科研人員的青睞和長足的發(fā)展,最近的歸一化區(qū)域混合高斯模型(regularizedregionmog,rrmog)(文獻3)通過引入一個動量項(momentumterm)來加快rrmog的收斂速度,并證明該速率為o(1/k2),因此提高了算法的性能。然而,該方法假定了一些局限性條件,如估計函數含有一個lipschitz連續(xù)梯度,且具有光滑、可凸和可微屬性等,這在面對現實場景中的數據時有些不具可操作性。ahmedelgammal等人提出的無參估計模型(文獻4)在處理復雜場景如雜亂的樹林、波動的物體等時,可以不用關心參數問題,并具有很高的靈敏度。在此基礎上,pierre-lucst-charles等人(文獻5)通過引入時空信息和lbsp(localbinarysimilaritypattern)特征來增加模型的魯棒性,并使用循環(huán)反饋的方式來更新模型的參數,從而使得模型具有更高的適應性。這些方法都取得了不錯的結果,但是,在模型訓練時,它們都是簡單地采用最近的一段長度為n的背景數據作為訓練數據,基于這樣的一種假設:只有最近的信息才會對當前產生影響,過去的信息不會產生影響。這其中忽略了一個問題:最近的信息有可能存在重復,即模型訓練有可能不需要n個數據,因此存在著效率問題;同時,忽略了噪聲在模型訓練時的影響。
相關文獻:
【文獻1】r.jainandh.nagel,“ontheanalysisofaccumulativedifferencepicturesfromimagesequencesofrealworldscenes”,ieeetrans.patternanalysisandmachineintelligence,1979.
【文獻2】c.wren,a.azarbayejani,t.darrel,anda.pentland,“pfinder:realtimetrackingofthehumanbody”,ieeetrans.patternanalysisandmachineintelligence,1997.
【文獻3】varadarajan,sriram,etal.“fastconvergenceofregularizedregion-basedmixtureofgaussiansfordynamicbackgroundmodelling”,computervisionandimageunderstanding136(2015):45-58.
【文獻4】elgammal,ahmed,davidharwood,andlarrydavis.“non-parametricmodelforbackgroundsubtraction”,computervision—eccv2000(2000):751-767.
【文獻5】st-charles,pierre-luc,guillaume-alexandrebilodeau,androbertbergevin.“subsense:auniversalchangedetectionmethodwithlocaladaptivesensitivity”,ieeetransactionsonimageprocessing24.1(2015):359-373.
技術實現要素:
針對以往背景模型在訓練時沒有考慮訓練數據的個數而產生的效率問題。本發(fā)明以統(tǒng)計學中關于隨機變量的數字特征為理論基礎,以實際發(fā)生的數據為數據基礎,提出了一種用于判斷一個位置上的灰度值在多長時間內達到收斂狀態(tài)的方法—雙重方差法(bivariation);同時為了避免噪聲的干擾,提出了一種簡單且有效地去除噪聲的方法。
本發(fā)明所采用的技術方案是:一種用于背景建模的訓練圖像序列的收斂方法,其特征在于,包括以下步驟:
步驟1:獲取場景位置p在時間t內的灰度值信息,設為序列sorigin={xi;i=1…t},其中xi表示i時刻該位置的灰度值;
步驟2:按照灰度值大小排序并獲得灰度值序列sintensity(length(sintensity)≤length(sorigin)),其中l(wèi)ength(sintensity)表示排序后序列sintensity的長度,length(sorigin)表示原始序列sorigin的長度;
步驟3:每次都從sorigin的第一個位置開始搜索每一個sintensity中的元素第一次出現的位置并刪除,得到去噪后的序列snew,長度為tnew;
步驟4:對去噪后的序列snew,計算方差序列v:{vi;vi=std(x1…xi),i=1…tnew},其中std(x1…xi)表示標準差;
步驟5:設置滑動窗口,長度為lwin;
步驟6:計算方差序列w:{wj;wj=std(vj…vj+lwin-1),j=1…tnew-lwin+1};
步驟7:判斷收斂;
當方差wj連續(xù)cnt次低于預設值ε時,則序列w在j-lwin+1處開始收斂。
與現有技術相比,本發(fā)明具有以下的創(chuàng)新與優(yōu)勢:
本發(fā)明提出了一種雙重方差法來計算訓練數據的收斂性,依據設置的閾值(cnt和ε)獲得最佳的收斂點,從而減少重復訓練數據參與模型的訓練,提高了訓練效率。本發(fā)明提出的灰度值個數減一法可以有效地去除噪聲的干擾,提高了訓練數據的質量,從而保證了最后獲得的模型的準確性。
附圖說明
圖1是本發(fā)明實施例的流程圖;
圖2是本發(fā)明實施例中在一個背景模型數據集中隨機選取的兩個位置的灰度值分布的示意圖;
圖3是圖2中兩個位置灰度值的方差的結果圖;
圖4是圖2中兩個位置灰度值的雙重方差的結果圖。
具體實施方式
為了便于本領域普通技術人員理解和實施本發(fā)明,下面結合附圖及實施例對本發(fā)明作進一步的詳細描述,應當理解,此處所描述的實施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
請見圖1,本發(fā)明提供的一種用于背景建模的訓練圖像序列的收斂方法,包括以下步驟:
步驟1:獲取每個位置的每個通道在時間t內(針對不同的背景數據集,通常都會有一個默認的訓練長度)的灰度值信息,由于針對每個通道的處理方式一樣,即以位置p的一個通道為例,記灰度序列為:
sorigin={xi;i=1…t}(1);
其中xi表示i時刻該位置的灰度值;
步驟2:根據灰度值大小對其進行排序,得到如x′11,x′12,x'21,x'22,x'23,...,x't6序列,其中,每個灰度值下標的第一個數字表示灰度值標簽,第二個數字表示相同灰度值的時間順序。如x't6則表示有6個相同的灰度值x't。提取灰度值序列:
sintensity={xi';i'=1…t',t'≤t}(2);
即序列x′11,x'21,...,x't1。
步驟3:去噪方法,即灰度值個數減一法;
對sintensity中的每一個元素xi',從頭遍歷sorigin,將第一次遇到的xi'從sorigin中刪除并結束此次遍歷,直到sintensity中的所有元素都訪問完畢。記去噪后的序列為:
snew={xi;i=1…tnew,tnew=t-t'}(3);
步驟4:對去噪后的序列snew進行方差求解;
首先,每次從snew的第一個元素開始,分別以長度為1,2,…,tnew形成tnew個子序列snew_subs={s1,s2,..,stnew};然后對snew_subs求取方差v:
{vi;vi=std(x1…xi),i=1…tnew}(4);
其中std(x1…xi)表示標準差;
步驟5:為了發(fā)現數據的規(guī)律性(這里主要是收斂性),并以一個統(tǒng)一的標準來判斷收斂點,采用滑動窗口的方式在v上滑動求取方差,設置窗口長度為lwin;
步驟6:對方差序列v進行方差求解,首先,從v的第一個元素開始,以lwin為固定長度,依次向方差序列v的右側移動,直到位置為tnew-lwin+1,此時得到最后一個子序列,其末尾元素為vtnew。最后,得到方差子序列
{wj;wj=std(vj…vj+lwin-1),j=1…tnew-lwin+1}(5);
步驟7:通過雙重方差的求解,將收斂的判斷標準統(tǒng)一為0,即達到0時可以認為序列已經收斂。但是現實中很少有這樣標準的數據,因此,將判斷標準設置為一個很小的正常數ε。同時,為了保證收斂的穩(wěn)定性,設置收斂次數cnt,即達到cnt次收斂時即可認為序列已經穩(wěn)定,且此時的收斂點為j-lwin+1。
以下通過實驗驗證本發(fā)明方法的準確性和高效性。
通過在公開數據集changedetection.net(n.goyette,p.-m.jodoin,f.porikli,j.konrad,andp.ishwar,changedetection.net:anewchangedetectionbenchmarkdataset,inproc.ieeeworkshoponchangedetection(cdw-2012)atcvpr-2012,providence,ri,16-21jun.,2012)上選取一個分類shadow下的busstation視頻序列,隨機選取兩個位置p1(217,332)和p2(15,52)為例,其灰度值的分布如圖2所示。從圖中可以看出,這兩個位置的灰度分布呈現出一定的規(guī)律性,如p1是在47上下以幅度2左右進行震動,p2是在54上下以幅度4左右進行震動。因此,可以利用方差來發(fā)現其中的規(guī)律。它們的方差如圖3所示。經過一段時間的波動,p1大約在50幀處開始趨于平穩(wěn),方差約為0.95,p2大約在60幀處開始穩(wěn)定,方差大約為3.9。從此處可以看出一個問題,即對于多個數據序列,沒有統(tǒng)一的標準來判斷其是否穩(wěn)定,或收斂。因此,雙重方差的目的就是讓有規(guī)律變化但偏離程度不同的隨機變量可以以統(tǒng)一的標準(接近0的一個正常數ε)收斂。圖4展示的是p1和p2的雙重方差。如果設定閾值ε為0.04的話,則這兩點的收斂位置分別大約為30幀和60幀處。如果設置為其他值,則收斂的位置隨之而變。ε值越大,包容性則強,序列收斂的早;ε值越小,則顯得越苛刻,序列收斂的晚。
綜上所述,本發(fā)明通過定義并求解隨機變量的雙重方差來“歸一化”其收斂標準,即讓有規(guī)律變化但偏離程度不同的隨機變量可以以統(tǒng)一的標準判斷其收斂,該方法有效地避免了“重復”訓練數據的運算,提高了模型的效率;并且在求解過程中先對訓練數據進行了去噪處理,該方法簡單有效,提高了數據的質量,從而保證了模型的準確性。
應當理解的是,本說明書未詳細闡述的部分均屬于現有技術。
應當理解的是,上述針對較佳實施例的描述較為詳細,并不能因此而認為是對本發(fā)明專利保護范圍的限制,本領域的普通技術人員在本發(fā)明的啟示下,在不脫離本發(fā)明權利要求所保護的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護范圍之內,本發(fā)明的請求保護范圍應以所附權利要求為準。