專利名稱:一種特征選擇方法
技術領域:
本發(fā)明涉及一種特征選擇方法。
背景技術:
特征選擇是模式識別的三大核心之一。在人工智能,模式識別以及由此發(fā)展而來的圖像處理,目標識別領域中都有普遍的應用。隨著各種應用的使用目的從單一到多元,使用環(huán)境從簡單到復雜,不同的使用要求加之應用所使用的特征數量的不斷增加,特征選擇日益重要并且應該更加靈活。Ron Kohavi and George H. John. Wrappers For Feature Subset Selection (Artificial Intelligence 97. 1997,273-275,283-286)中提出了一種特征提取模型,被稱為封裝式的特征提取方法。封裝式特征選擇較其他的特征選擇方法加入了利用后續(xù)學習算法對特征子集進行鑒定的部分。理論上,它能選擇出較好的且適合后續(xù)學習算法學習分類的一組特征子集,但是,由于學習算法的引入,封裝式特征選擇算法較其他算法慢。算法使用BFS(Best First Search)算法來搜索整個特征空間,搜索的目的是用評估準則找到有最大估計值的狀態(tài)空間,由于學習算法作為一個黑盒,所以不知道它的實際分類的準確度,需要使用精確性估計算法作為評估準則。為了使特征空間的搜索停止,需要設置閾值ε,只有當下一次的特征空間組合的性能比上一次的性能好ε時,空間搜索才會繼續(xù)下去,否則,搜索停止,并且得出最佳的特征空間組合。但是一方面,在實際的應用中ε較難確定,無論ε值過大還是過小都會對算法性能產生較大的影響;另一方面,由于特征空間大小不確定導致了所選出特征數量的不確定,而在實際應用中,封裝式特征選擇的耗時隨著所選特征數量的增加而增加,若是選出的最佳特征空間過大,選擇過程的時間開銷也會很大,方不便實際的應用。文獻Stuart Russell and Peter Norvig. A Modern Intelligence A Modern Approach(Second Edition) (Pearson Education, Inc.2003, 94-100)中給出了空間搜索原理和不同的幾種形式。
發(fā)明內容
本發(fā)明的目的在于提供一種能方便控制整個選擇過程的時間,并且能選擇出較好的特征子集的特征選擇方法。本發(fā)明的目的是這樣實現的(a)整個特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評價標準來比較不同空間中的特征;(d)重復(b) (C)兩步,直到新空間中的特征數量達到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明是一種新的特征提取方法,這種方法省略了閾值的設置,并且可以選擇結果中的特征數量,方便控制整個選擇過程的時間,并且能選擇出較好的特征子集。把從目標中提取出的特征組成特征空間,把特征空間中的特征放入特征選擇方法中,使用于后續(xù)學習算法相結合的判定準則計算每個特征的權重,并用空間搜索方法搜索出最有的特征,當特征子集中的特征數量達到給定數量時,搜索停止,并給出最優(yōu)特征空間集。
圖1為特征選擇方法流程圖。圖2為改進的BFS空間搜索方法。圖3為5次交叉驗證流程圖。
具體實施例方式下面結合附圖對本發(fā)明做更詳細的描述。本發(fā)明并不僅限于實施以下描述的實例,而是將符合最一般的原理描述。圖1說明了實施一個封裝式特征選擇的流程圖。其中塊100代表了圖2的BFS空間搜索算法,塊101代表了圖3的交叉鑒定算法,在本實例中,采用了五次交叉驗證(5-cr0SS validation),塊102代表了學習算法,本發(fā)明并不限制學習算法的使用,包括貝葉斯估計, 支持向量機(SVM),遺傳算法(GA)和反向傳遞神經網絡等。在實例中,采用了 BP神經網絡作為學習算法。參照特征選擇的流程圖1,整個特征集作為完整的特征空間輸入特征選擇算法中。 塊100將會選擇出最佳的特征子集,選擇的過程如圖2所示。在圖2的流程中,特征全集首先被導入塊200,并把全狀態(tài)空間賦給OPEN,另建立空集BEST。接著在塊201中CLOSED被賦值為與BEST相同。這三個特征空間一并傳入塊202,在塊202中首先使用評價標準J計算OPEN中的每個特征的權值并按權值的大小給所有的特征排序,選出擁有最大權值且沒有放入BEST中的特征v,把ν放入空間CLOSED。圖2塊202中的評價標準即是圖1中的塊 101,在本實例中采用五次交叉驗證,驗證過程如圖3所示。在圖3的流程中,含有特征的樣本集D被大致的分成5份,這5份子集D1;D2,..., D5相互獨立且大致上含有數量相同的數據。學習算法(塊300)在驗證中反復的訓練和測試多次;設t e {1,2,...,5},交叉驗證在不含Dt的原始數據集D\Dt中訓練并且用Dt來測試。測試的結果輸入到塊301求每個訓練結果的估計精度并求總的期望。交叉驗證的估計精度就是正確分類的的次數除去樣本數的結果。用公式表達的話,設D(i)是包含樣本Xi = (vi; Yi)的測試集合,那么交叉驗證的精度
權利要求
1.一種特征選擇方法,其特征是(a)整個特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評價標準來比較不同空間中的特征;(d)重復(b)(c)兩步,直到新空間中的特征數量達到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。
2.根據權利要求1所述的一種特征選擇方法,其特征是所述把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中的方法為步驟200,把全狀態(tài)空間賦給 OPEN,另建立空集BEST ;步驟201,CLOSED被賦值為與BEST相同;步驟202,首先使用評價標準J計算OPEN中的每個特征的權值并按權值的大小給所有的特征排序,選出擁有最大權值且沒有放入BEST中的特征v,把ν放入空間CLOSED。
3.根據權利要求2所述的一種特征選擇方法,其特征是所述采用特征評價標準來比較不同空間中的特征的方法是步驟203,把增加了 ν的空間CLOSED和特征空間BEST分別使用評價標準計算權值,并比較兩個權值的大小,若比較結果特征空間CLOSED有較大的權值,就執(zhí)行步驟204,反之回到步驟202 ;步驟204,把特征ν放入空間BEST中;步驟205, 把從步驟204輸出的特征空間與之前事前決定的特征數量相比較,若未達到要求的特征數量,就返回步驟201,若達到要求的特征數量則執(zhí)行步驟206 ;步驟206,就輸出特征空間 BEST。
全文摘要
本發(fā)明提供的是一種特征選擇方法。(a)整個特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評價標準來比較不同空間中的特征;(d)重復(b)(c)兩步,直到新空間中的特征數量達到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明的方法省略了閾值的設置,并且可以選擇結果中的特征數量,方便控制整個選擇過程的時間,并且能選擇出較好的特征子集。
文檔編號G06K9/46GK102184402SQ20111012717
公開日2011年9月14日 申請日期2011年5月17日 優(yōu)先權日2011年5月17日
發(fā)明者凌冰, 卞紅雨, 張志剛, 楊濱, 沈鄭燕, 羅明愿 申請人:哈爾濱工程大學