一種高維數(shù)據(jù)的特征選擇方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種高維數(shù)據(jù)的特征選擇方法及裝置,該方法包括獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本以及類別集,所述類別集包括每個(gè)樣本的類別;計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC,以及每一個(gè)特征與已選特征子集的冗余值;根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值,并根據(jù)所述有效值從特征集中選擇出特征子集。本發(fā)明將MIC引入特征選擇中,并基于MIC對特征進(jìn)行有效評價(jià),以根據(jù)評價(jià)產(chǎn)生的有效值選擇特征,與現(xiàn)有技術(shù)相比,能有效地提高對高維數(shù)據(jù)特征選擇的精確度。
【專利說明】
一種高維數(shù)據(jù)的特征選擇方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種高維數(shù)據(jù)的特征選擇方法及裝置。
【背景技術(shù)】
[0002] 飛速發(fā)展的信息社會每天都在產(chǎn)生海量的數(shù)據(jù),如何快速地從這些數(shù)據(jù)中發(fā)掘有 用的信息成為急需解決的問題。研究者們從機(jī)器學(xué)習(xí)模型的角度來解決這一問題,并取得 了顯著進(jìn)展。但是,高復(fù)雜度的模型和高維度的特征空間越來越難以適應(yīng)大數(shù)據(jù)應(yīng)用的迫 切要求,而且特征空間中往往存在著大量無用信息。只有采用合適的特征選擇方法,才能從 海量數(shù)據(jù)中獲得有效的特征,進(jìn)而提高機(jī)器學(xué)習(xí)模型處理數(shù)據(jù)的效率與準(zhǔn)確率;同時(shí)特征 選擇還能夠防止模型過擬合以及進(jìn)行去噪。因此,作為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)重要的 預(yù)處理步驟,特征選擇一直都是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。
[0003] 特征選擇的度量標(biāo)準(zhǔn)和搜索算法的選取至關(guān)重要。常用的度量標(biāo)準(zhǔn)有基于距離、 信息論和一致性的度量標(biāo)準(zhǔn)?;诰嚯x的度量標(biāo)準(zhǔn)、Pearson系數(shù)等度量標(biāo)準(zhǔn)只能衡量變量 之間的線性關(guān)系,而信息增益、互信息等度量標(biāo)準(zhǔn),可以對非線性關(guān)系進(jìn)行度量。在生成特 征子集時(shí),往往需要使用相應(yīng)的搜索算法,在眾多的搜索策略中近似馬爾科夫毯條件在計(jì) 算復(fù)雜度和選擇的特征的分類準(zhǔn)確率上都有很不錯(cuò)的表現(xiàn)。但是其也有明顯的缺點(diǎn),無法 考慮特征和特征子集之間的冗余性。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種高維數(shù)據(jù)的特征選擇方法及裝置,針 對當(dāng)前技術(shù)中的度量只能對變量間的線性和非線性關(guān)系度量,將MIC引入到特征選擇中, MIC能夠廣泛地度量變量間的線性和非線性關(guān)系,甚至能夠度量不能使用單個(gè)函數(shù)表示的 非函數(shù)關(guān)系。盡管MIC在變量度量上十分有效,但是只能度量單個(gè)變量間的相關(guān)性和冗余 性,因此本文提出一種新的度量mMIC(有效值),并應(yīng)用到馬爾科夫毯條件,以解決現(xiàn)有技術(shù) 因?yàn)殡y以適用高維數(shù)據(jù)集中的特征和特征子集之間的冗余性而導(dǎo)致特征選擇精確度低的 問題。
[0005] 本發(fā)明提出了一種高維數(shù)據(jù)的特征選擇方法,包括:
[0006] 獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本以及類別集,所 述類別集包括每個(gè)樣本的類別;
[0007] 計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC,以及每一 個(gè)特征與已選特征子集的冗余值;
[0008] 根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值,并根據(jù)所述 有效值從特征集中選擇出特征子集。
[0009]優(yōu)選地,所述計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù) MIC的步驟具體包括:
[0010]通過公式(一),計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù) MIC;
[0011]
[0012] 其中,B(n)為劃定的網(wǎng)格數(shù),ω(1)彡B(n)彡(KnKhCXeSl,!!為特征的個(gè)數(shù),χ為 對η個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D) x,y表示特征和樣本在x*y網(wǎng)格劃分 下最大的互信息歸一化后的值。
[0013] 優(yōu)選地,所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值 的步驟具體包括:
[0014] 通過公式(二),根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值;
[0015]
[00? 0] 其中,Smain為當(dāng)前已選的特征子集,Sresidue為剩余特征子集,i和j分別表示特征fi 和fj,C為類別集
為冗余值。
[0017] 優(yōu)選地,在所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值的步驟之前,該方法還包括:
[0018] 定義兩個(gè)特征之間的近似馬爾科夫毯條件:
[0019] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0020]相應(yīng)地,所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值,并根據(jù)所述有效值從特征集中選擇出特征子集的步驟具體包括:
[0021] 根據(jù)所述最大信息系數(shù)MIC從特征集中依次選取特征,并將選取的特征從特征集 中刪除;
[0022] 根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲取所述特征的有效值,并判斷所 述有效值是否大于或者等于預(yù)設(shè)閾值,若是,則將該特征添加至最優(yōu)子集。
[0023]優(yōu)選地,所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值,并根據(jù)所述有效值從特征集中選擇出特征子集的步驟還包括:
[0024]根據(jù)所述近似馬爾科夫毯條件從特征集中篩選出與所述選取的特征有近似馬爾 科夫毯條件的所有特征,并根據(jù)公式二獲取每一個(gè)篩選出的特征的有效值;
[0025]根據(jù)有效值判斷篩選出的特征的有效值是否大于或者等于預(yù)設(shè)閾值,若否,則將 篩選出的特征從特征集中刪除,并從特征集中選取下一個(gè)特征。
[0026] 本發(fā)明還提出了一種高維數(shù)據(jù)的特征選擇裝置,其特征在于,包括:
[0027] 獲取模塊,用于獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本 以及類別集,所述類別集包括每個(gè)樣本的類別;
[0028] 處理模塊,用于計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù) MIC,以及每一個(gè)特征與已選特征子集的冗余值;
[0029] 選擇模塊,用于根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值,并根據(jù)所述有效值從特征集中選擇出特征子集。
[0030] 優(yōu)選地,所述處理模塊,具體用于通過公式(一),計(jì)算獲取所述特征集中每一個(gè)特 征與類別集之間的最大信息系數(shù)MIC;
[0031]
[0032] 其中,B(n)為劃定的網(wǎng)格數(shù),〇(1)^^(1〇<0(1^),0<8<1,11為特征的個(gè)數(shù)^為 對η個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D) x,y表示特征和樣本在x*y網(wǎng)格劃分 下最大的互信息歸一化后的值。
[0033] 優(yōu)選地,所述選擇模塊,具體用于通過公式(二),根據(jù)所述最大信息系數(shù)MIC和所 述冗余值,獲取每一個(gè)特征的有效值;
[0034]
[0035] 其中,Smain為當(dāng)前已選的特征子集,Sresidue為剩余特征子集,i和j分別表示特征fi 和fj,c為類別_
3冗余值。
[0036] 優(yōu)選地,該裝置還包括:預(yù)定義模塊;
[0037] 所述預(yù)定義模塊,用于在所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一 個(gè)特征的有效值的步驟之前,定義兩個(gè)特征之間的近似馬爾科夫毯條件:
[0038] MIC(fi,c) >MIC(fj,c)且 MIC(fj,c) <MIC(fi,fj)
[0039] 相應(yīng)地,所述選擇模塊,還用于根據(jù)所述最大信息系數(shù)MIC從特征集中依次選取特 征,并將選取的特征從特征集中刪除;根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲取所 述特征的有效值,并判斷所述有效值是否大于或者等于預(yù)設(shè)閾值,若是,則將該特征添加至 最優(yōu)子集。
[0040] 優(yōu)選地,所述選擇模塊,還用于根據(jù)所述近似馬爾科夫毯條件從特征集中篩選出 與所述選取的特征有近似馬爾科夫毯條件的所有特征,并根據(jù)公式二獲取每一個(gè)篩選出的 特征的有效值;根據(jù)有效值判斷篩選出的特征的有效值是否大于或者等于預(yù)設(shè)閾值,若否, 則將篩選出的特征從特征集中刪除,并從特征集中選取下一個(gè)特征
[0041] 由上述技術(shù)方案可知,本發(fā)明提出的高維數(shù)據(jù)的特征選擇方法,通過最大信息系 數(shù)引入到特征選擇中,同時(shí)基于最大信息對高維數(shù)據(jù)進(jìn)行特征選擇,以克服了現(xiàn)有技術(shù)只 能考慮兩個(gè)特征之間相關(guān)性與冗余性的缺點(diǎn),提高了選擇的特征的分類準(zhǔn)確率。
【附圖說明】
[0042]通過參考附圖會更加清楚的理解本發(fā)明的特征和優(yōu)點(diǎn),附圖是示意性的而不應(yīng)理 解為對本發(fā)明進(jìn)行任何限制,在附圖中:
[0043] 圖1示出了本發(fā)明一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇方法的流程示意圖;
[0044] 圖2示出了本發(fā)明另一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇方法的流程示意 圖;
[0045] 圖3示出了本發(fā)明一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0046] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人 員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0047]圖1為本發(fā)明一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇方法的流程示意圖,參照 圖1,該高維數(shù)據(jù)的特征選擇方法,包括:
[0048] 110、獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本以及類別 集,所述類別集包括每個(gè)樣本的類別;
[0049] 120、計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC,以及 每一個(gè)特征與已選特征子集的冗余值;
[0050] 130、根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值,并根據(jù) 所述有效值從特征集中選擇出特征子集。
[0051] 本發(fā)明通過最大信息系數(shù)引入到特征選擇中,同時(shí)基于最大信息對高維數(shù)據(jù)進(jìn)行 特征選擇,因?yàn)殡y以適用高維數(shù)據(jù)集中的特征和特征子集之間的冗余性而導(dǎo)致特征選擇精 確度低的問題,提高了選擇的特征的分類準(zhǔn)確率。
[0052]本實(shí)施例中,步驟120中計(jì)算MIC的過程具體包括:
[0053] 通過公式(一),計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù) MIC;
[0054]
[0055] 其中,B(n)為劃定的網(wǎng)格數(shù),ω (1)<Β(η)彡0(nK),0<ε<1,η為特征的個(gè)數(shù),X為 對η個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D) x,y表示特征和樣本在x*y網(wǎng)格劃分 下最大的互信息歸一化后的值。
[0056] 本實(shí)施例中,步驟130具體包括:
[0057]通過公式(二),根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效 值;
[0058]
[0059] 其中,Smain為當(dāng)前已選的特征子集,Sre3sidue3為剩余特征子集,i和j分別表示特征f i 和fj,c為類別集
%冗余值。
[0060] 本實(shí)施例中,在步驟130之前,該方法還包括:
[0061] 定義兩個(gè)特征之間的近似馬爾科夫毯條件:
[0062] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0063] 相應(yīng)地,步驟130具體包括:
[0064] 根據(jù)所述最大信息系數(shù)MIC從特征集中依次選取特征,并將選取的特征從特征集 中刪除;
[0065] 根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲取所述特征的有效值,并判斷所 述有效值是否大于或者等于預(yù)設(shè)閾值,若是,則將該特征添加至最優(yōu)子集;
[0066] 根據(jù)所述近似馬爾科夫毯條件從特征集中篩選出與所述選取的特征有近似馬爾 科夫毯條件的所有特征,并根據(jù)公式二獲取每一個(gè)篩選出的特征的有效值;
[0067] 根據(jù)有效值判斷篩選出的特征的有效值是否大于或者等于預(yù)設(shè)閾值,若否,則將 篩選出的特征從特征集中刪除,并從特征集中選取下一個(gè)特征,直至特征集F為空。
[0068] 圖2為本發(fā)明另一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇方法的流程示意圖,下 面參照圖2對本發(fā)明的原理進(jìn)行詳細(xì)說明:
[0069] 該方法包括初始化階段和特征刪除階段;
[0070] 一、初始化階段包括:
[0071] S1、給定的數(shù)據(jù)集D有m個(gè)特征和η個(gè)樣本,其包含的特征集為. . .,fm}, 類別集c={C1,C2, . . .,cn}包括數(shù)據(jù)集中每個(gè)樣本的類別。進(jìn)行數(shù)據(jù)預(yù)處理,設(shè)置最優(yōu)特征 子集S為空,設(shè)定參數(shù)Θ,此處的參數(shù)Θ即為上述的預(yù)設(shè)閾值;
[0072]二、特征刪除階段包含步驟:
[0073] S2、計(jì)算特征集中每個(gè)特征與類別集之間的最大信息系數(shù),并按照特征與類別集 的MKXuh)值對特征進(jìn)行降序排序,其中,h為第i個(gè)特征,i大于0且小于等于m;
[0074] S3、根據(jù)本發(fā)明提出了近似馬爾科夫毯條件和有效值mMIC評價(jià)函數(shù),對特征集進(jìn) 行處理,刪除無關(guān)和冗余的特征,得到最后的特征子集;
[0075]優(yōu)選的,步驟S1具體包括:
[0076] S11、對數(shù)據(jù)集D進(jìn)行數(shù)據(jù)預(yù)處理,得到要求的文件格式;
[0077] S12、將最優(yōu)特征子集S初始化為空集,對參數(shù)Θ進(jìn)行初始化;
[0078]優(yōu)選的,步驟S2具體包括:
[0079] S21、對特征集F中任意特征h,計(jì)算該特征與類別集之間的最大信息系數(shù)值MIC (c;fi);
[0080] S22、根據(jù)MIC(c;fi)對特征進(jìn)行降序排序;
[0081]優(yōu)選的,步驟S3所述的近似馬爾科夫毯條件定義如下:
[0082]對于兩個(gè)特征f_t(i辛j,j大于0且小于等于m)以及類別C,f^t的近似馬爾科 夫毯的條件是:
[0083] MIC(fi,c) >MIC(fj,c)并且 MIC(fj,c) <MIC(fi,fj)。
[0084] 由此,最大信息系數(shù)的計(jì)算公式如下:
[0085]
[0086] 其中,B(n)為劃定的網(wǎng)格數(shù),ω (1)彡B(n)彡(Κη1-ε),0<ε<1。一般地,B(n)=n0· 6 時(shí)效果最好。X與y表示對兩個(gè)變量值域劃分的段數(shù)。式中M(D)x,y表示兩個(gè)變量在x*y網(wǎng)格劃 分下最大的互信息歸一化后的值。
[0087] M(D)xj^計(jì)算公式如下:
[0088]
[0089]其中,Ml\D,X,y)表示x*y網(wǎng)格劃分下最大的互信息。
[0090] MI*(D,x,y)的計(jì)算公式如下:
[0091] MI*(D,x,y)=maxMI(D|G)
[0092] 其中,D|G為數(shù)據(jù)集D使用G(x*y網(wǎng)格)進(jìn)行劃分,然后求解每個(gè)網(wǎng)格的互信息。而式 中互信息的i+笪公忒加下,
[0093]
[0094] 其中A={ai,i = l. · ·η}和B = {bi,i = 1 · · ·η}。
[0095] 優(yōu)選的,步驟S3中基于最大信息系數(shù)的評價(jià)函數(shù)mMIC,可以對特征與類別之間的 相關(guān)性以及特征與特征子集之間的相關(guān)性進(jìn)行度量,進(jìn)而判斷特征的好壞。
[0096] mMIC評價(jià)函數(shù)的計(jì)算公式如下:
[0097]
[0098] 其中,Smain為當(dāng)前已選的特征子集,Sresldue為剩余特征子集。為了簡化和表述上的 便利性使用i和j分別表示特征fdPfp上式表示從剩余特征子集選出的特征fj其好壞通過 該特征與類別集的相關(guān)性以及該特征與當(dāng)前已有特征子集的冗余性決定。
[0099] 優(yōu)選的,步驟S3包含步驟:
[0100] S31、重復(fù)下述操作直到F為空集;
[0101] a.從特征集F中選擇MIC(c ;fi)值最大的特征;
[0102] b.從特征集F刪除特征fi,如果其在冗余子集Sre3中,則計(jì)算該特征的mMIC值,如果 mMIC值小于Θ,返回到步驟a;否則直接將^添加到最優(yōu)子集S中,并將h作為主元素繼續(xù)執(zhí)行 步驟c;
[0103] c.從特征集F中搜索以a中選出的主元素匕為近似馬爾科夫毯條件的所有元素,將 選出的特征fj加入到Sre3中并計(jì)算選出的所有元素的mMIC值。如果特征fj的mMIC值小于Θ則 將特征fj從F中刪除;
[0104] d.上述過程結(jié)束后,輸出的特征子集S為最優(yōu)特征子集。
[0105] 綜上所述,本發(fā)明通過將mMIC加入到近似馬爾科夫毯模型中,使得近似馬爾科夫 毯條件可以衡量單個(gè)特征與類別之間的相關(guān)性與該特征與特征子集之間的冗余性的強(qiáng)弱, 來決定特征的去留。既保證了近似馬爾科夫毯條件進(jìn)行特征選擇的效率也保證了選出的特 征選擇的準(zhǔn)確性。
[0106] 圖3為本發(fā)明一實(shí)施例提出的一種高維數(shù)據(jù)的特征選擇裝置的結(jié)構(gòu)示意圖,參照 圖3,該裝置包括:
[0107] 獲取模塊310,用于獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干 樣本以及類別集,所述類別集包括每個(gè)樣本的類別;
[0108] 處理模塊320,用于計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息 系數(shù)MIC,以及每一個(gè)特征與已選特征子集的冗余值;
[0109] 選擇模塊330,用于根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的 有效值,并根據(jù)所述有效值從特征集中選擇出特征子集。
[0110]本發(fā)明通過最大信息系數(shù)引入到特征選擇中,同時(shí)基于最大信息對高維數(shù)據(jù)進(jìn)行 特征選擇,以克服了現(xiàn)有技術(shù)只能考慮兩個(gè)特征之間相關(guān)性與冗余性的缺點(diǎn),提高了選擇 的特征的分類準(zhǔn)確率。
[0111]對于裝置實(shí)施方式而言,由于其與方法實(shí)施方式基本相似,所以描述的比較簡單, 相關(guān)之處參見方法實(shí)施方式的部分說明即可。
[0112] 在一可行實(shí)施例中,所述處理模塊320,具體用于通過公式(一),計(jì)算獲取所述特 征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC;
[0113]
[0114] 其中,B(n)為劃定的網(wǎng)格數(shù),(〇(1)^^(1〇<0(1^),0<8<1,11為特征的個(gè)數(shù)^為 對η個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D) x,y表示特征和樣本在x*y網(wǎng)格劃分 下最大的互信息歸一化后的值。
[0115]對于裝置實(shí)施方式而言,由于其與方法實(shí)施方式基本相似,所以描述的比較簡單, 相關(guān)之處參見方法實(shí)施方式的部分說明即可。
[0116] 在一可行實(shí)施例中,所述選擇模塊330,具體用于通過公式(二),根據(jù)所述最大信 息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值;
[0117]
[0118] 其中,Smain為當(dāng)前已選的特征子集,Sre3sidue3為剩余特征子集,i和j分別表示特征fi 和fj,c為類別集:
冗余值。
[0119] 對于裝置實(shí)施方式而言,由于其與方法實(shí)施方式基本相似,所以描述的比較簡單, 相關(guān)之處參見方法實(shí)施方式的部分說明即可。
[0120] 在一可行實(shí)施例中,該裝置還包括:預(yù)定義模塊340;
[0121] 所述預(yù)定義模塊340,用于在所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取 每一個(gè)特征的有效值之前,定義兩個(gè)特征之間的近似馬爾科夫毯條件:
[0122] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0123] 相應(yīng)地,所述選擇模塊330,還用于根據(jù)所述最大信息系數(shù)MIC從特征集中依次選 取特征,并將選取的特征從特征集中刪除;根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲 取所述特征的有效值,并判斷所述有效值是否大于或者等于預(yù)設(shè)閾值,若是,則將該特征添 加至最優(yōu)子集;根據(jù)所述近似馬爾科夫毯條件從特征集中篩選出與所述選取的特征有近似 馬爾科夫毯條件的所有特征,并根據(jù)公式二獲取每一個(gè)篩選出的特征的有效值;根據(jù)有效 值判斷篩選出的特征的有效值是否大于或者等于預(yù)設(shè)閾值,若否,則將篩選出的特征從特 征集中刪除,并從特征集中選取下一個(gè)特征,直至所述特征集為空。
[0124] 對于裝置實(shí)施方式而言,由于其與方法實(shí)施方式基本相似,所以描述的比較簡單, 相關(guān)之處參見方法實(shí)施方式的部分說明即可。
[0125] 在一可行實(shí)施例中,所述選擇模塊330,還用于在該特征的有效值小于預(yù)設(shè)閾值 時(shí),從特征集中選取下一個(gè)特征。
[0126] 對于裝置實(shí)施方式而言,由于其與方法實(shí)施方式基本相似,所以描述的比較簡單, 相關(guān)之處參見方法實(shí)施方式的部分說明即可。
[0127] 應(yīng)當(dāng)注意的是,在本發(fā)明的裝置的各個(gè)部件中,根據(jù)其要實(shí)現(xiàn)的功能而對其中的 部件進(jìn)行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對各個(gè)部件進(jìn)行重新劃分或 者組合。
[0128] 本發(fā)明的各個(gè)部件實(shí)施方式可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn) 行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本裝置中,PC通過實(shí)現(xiàn)因特網(wǎng)對設(shè)備或者裝置 遠(yuǎn)程控制,精準(zhǔn)的控制設(shè)備或者裝置每個(gè)操作的步驟。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里 所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn) 品)。這樣實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,并且程序產(chǎn)生的文件或文檔具 有可統(tǒng)計(jì)性,產(chǎn)生數(shù)據(jù)報(bào)告和 Cpk報(bào)告等,能對功放進(jìn)行批量測試并統(tǒng)計(jì)。應(yīng)該注意的是上 述實(shí)施方式對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所 附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施方式。在權(quán)利要求中,不應(yīng)將位于括號之間 的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在未列在權(quán)利要求中的元 件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這樣的元件。本發(fā)明可以借 助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置 的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、 第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0129]雖然結(jié)合附圖描述了本發(fā)明的實(shí)施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā) 明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求 所限定的范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種高維數(shù)據(jù)的特征選擇方法,其特征在于,包括: 獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本W(wǎng)及類別集,所述類 別集包括每個(gè)樣本的類別; 計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC,W及每一個(gè)特 征與已選特征子集的冗余值; 根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值,并根據(jù)所述有效 值從特征集中選擇出特征子集。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算獲取所述特征集中每一個(gè)特征與 類別集之間的最大信息系數(shù)MIC的步驟具體包括: 通過公式(一),計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC;(一) 其中,B(n)為劃定的網(wǎng)格數(shù),"(1)《8(11)《0(111-6),〇<6<1,〇為特征的個(gè)數(shù),義為對〇 個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D)x,y表示特征和樣本在x*y網(wǎng)格劃分下最 大的互信息歸一化后的值。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述最大信息系數(shù)MIC和所述冗 余值,獲取每一個(gè)特征的有效值的步驟具體包括: 通過公式(二),根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值;(二) 其中,Smain為當(dāng)前已選的特征子集,Sresidue為剩余特征子集,巧日j分別表示特征f 1和f J,C 為類別集為冗余值。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述根據(jù)所述最大信息系數(shù)MIC和所述 冗余值,獲取每一個(gè)特征的有效值的步驟之前,該方法還包括: 定義兩個(gè)特征之間的近似馬爾科夫毯條件: MIC(fi,c)>MIC(fj,c)^MIC(fj,c)<MIC(fi,fj) 相應(yīng)地,所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值,并 根據(jù)所述有效值從特征集中選擇出特征子集的步驟具體包括: 根據(jù)所述最大信息系數(shù)MIC從特征集中依次選取特征,并將選取的特征從特征集中刪 除; 根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲取所述特征的有效值,并判斷所述有 效值是否大于或者等于預(yù)設(shè)闊值,若是,則將該特征添加至最優(yōu)子集。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述最大信息系數(shù)MIC和所述冗 余值,獲取每一個(gè)特征的有效值,并根據(jù)所述有效值從特征集中選擇出特征子集的步驟還 包括: 根據(jù)所述近似馬爾科夫毯條件從特征集中篩選出與所述選取的特征有近似馬爾科夫 毯條件的所有特征,并根據(jù)公式二獲取每一個(gè)篩選出的特征的有效值; 根據(jù)有效值判斷篩選出的特征的有效值是否大于或者等于預(yù)設(shè)闊值,若否,則將篩選 出的特征從特征集中刪除,并從特征集中選取下一個(gè)特征。6. -種高維數(shù)據(jù)的特征選擇裝置,其特征在于,包括: 獲取模塊,用于獲取待處理的原始數(shù)據(jù)集,所述原始數(shù)據(jù)集包括特征集、若干樣本W(wǎng)及 類別集,所述類別集包括每個(gè)樣本的類別; 處理模塊,用于計(jì)算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC, W及每一個(gè)特征與已選特征子集的冗余值; 選擇模塊,用于根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值, 并根據(jù)所述有效值從特征集中選擇出特征子集。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述處理模塊,具體用于通過公式(一),計(jì) 算獲取所述特征集中每一個(gè)特征與類別集之間的最大信息系數(shù)MIC;(一) 其中,B(n)為劃定的網(wǎng)格數(shù),"(1)《8(11)《0(111-6),〇<6<1,〇為特征的個(gè)數(shù),義為對〇 個(gè)特征劃分的段數(shù),y為對η個(gè)樣本劃分的段數(shù),M(D)x,y表示特征和樣本在x*y網(wǎng)格劃分下最 大的互信息歸一化后的值。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述選擇模塊,具體用于通過公式(二),根 據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特征的有效值;(二) 其中,Smain為當(dāng)前已選的特征子集,Sresidue為剩余特征子集,巧日j分別表示特征f 1和f J,C 為類別集%冗余值。 9 .根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括:預(yù)定義模塊; 所述預(yù)定義模塊,用于在所述根據(jù)所述最大信息系數(shù)MIC和所述冗余值,獲取每一個(gè)特 征的有效值的步驟之前,定義兩個(gè)特征之間的近似馬爾科夫毯條件: MIC(fi,c)>MIC(fj,c)^MIC(fj,c)<MIC(fi,fj) 相應(yīng)地,所述選擇模塊,還用于根據(jù)所述最大信息系數(shù)MIC從特征集中依次選取特征, 并將選取的特征從特征集中刪除;根據(jù)選取的特征的最大信息系數(shù)MIC和冗余值獲取所述 特征的有效值,并判斷所述有效值是否大于或者等于預(yù)設(shè)闊值,若是,則將該特征添加至最 優(yōu)子集。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述選擇模塊,還用于根據(jù)所述近似馬爾 科夫毯條件從特征集中篩選出與所述選取的特征有近似馬爾科夫毯條件的所有特征,并根 據(jù)公式二獲取每一個(gè)篩選出的特征的有效值;根據(jù)有效值判斷篩選出的特征的有效值是否 大于或者等于預(yù)設(shè)闊值,若否,則將篩選出的特征從特征集中刪除,并從特征集中選取下一 個(gè)特征。
【文檔編號】G06F17/30GK105975589SQ201610298079
【公開日】2016年9月28日
【申請日】2016年5月6日
【發(fā)明人】孫廣路, 宋智超, 陳騰, 何勇軍
【申請人】哈爾濱理工大學(xué)