一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法
【專利摘要】本發(fā)明提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,包括:計算n個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵,并將n個樣本數(shù)據(jù)中的任一屬性列拆分成屬性列上限數(shù)據(jù)和屬性列下限數(shù)據(jù),和將目標(biāo)屬性列拆分成目標(biāo)屬性列上限數(shù)據(jù)和目標(biāo)屬性列下限數(shù)據(jù);計算n個樣本數(shù)據(jù)中任一屬性列與目標(biāo)屬性列的聯(lián)合熵;計算n個樣本數(shù)據(jù)中任一屬性列與目標(biāo)屬性列的互信息值,及屬性列之間的互信息值;根據(jù)計算得到的互信息值進行屬性選擇,將n個樣本數(shù)據(jù)中m個屬性列按照屬性重要度排序,并將排序后的屬性列分別置于屬性子集;根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。本發(fā)明減少了計算的復(fù)雜度,提升了計算效率,提高了屬性選擇準(zhǔn)確度。
【專利說明】一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機信息【技術(shù)領(lǐng)域】,涉及一種屬性選擇方法,特別是涉及一種基于 互信息的區(qū)間數(shù)據(jù)的屬性選擇方法。
【背景技術(shù)】
[0002] 屬性選擇方法是通過剔除與被預(yù)測變量無關(guān)或相關(guān)度低的屬性,并在各相關(guān)性較 強的屬性集合中,選出評估結(jié)果最好的一個屬性子集。屬性選擇方法減少了計算的復(fù)雜度, 提升了計算效率和計算的準(zhǔn)確度。因而,屬性選擇算法被普遍應(yīng)用。
[0003] 在眾多的屬性選擇算法中,有一類選擇算法是基于信息熵相關(guān)理論實現(xiàn)的。信息 熵的物理意義是描述某一變量所需的平均信息量,是該變量不確定性的一種度量?;バ畔?則描述的是一個變量中包含另一變量的信息量。信息論基本原理表明,互信息值越大,則表 明兩個變量的相關(guān)性越大。因而,可以通過度量被預(yù)測變量與屬性之間的互信息值,設(shè)計屬 性選擇算法。
[0004] 基于互信息的屬性選擇算法通常包括幾下幾個步驟:
[0005] ①對原始數(shù)據(jù)進行預(yù)處理;
[0006] ②計算屬性間的互信息;
[0007] ③根據(jù)得出的互信息做屬性選擇;
[0008] ④對選出的屬性子集進行結(jié)果評估。
[0009] 數(shù)值型數(shù)據(jù)、名稱型數(shù)據(jù)等單一數(shù)據(jù)易于預(yù)處理和計算互信息,傳統(tǒng)的屬性選擇 算法均是針對該類數(shù)據(jù)做處理的。然而,在真實數(shù)據(jù)集中還經(jīng)常包括區(qū)間屬性,區(qū)間屬性同 時擁有上限和下限,無法通過合理的方式將其預(yù)處理成單一數(shù)據(jù),而且目前現(xiàn)有技術(shù)中并 沒有關(guān)于區(qū)間數(shù)據(jù)的互信息定義,因此區(qū)間屬性間的互信息難以計算。同樣,現(xiàn)有的屬性選 擇結(jié)果評估方法也是只能處理單一數(shù)據(jù),無法處理區(qū)間型數(shù)據(jù)。
[0010] 在遇到區(qū)間數(shù)據(jù)時,現(xiàn)有的屬性選擇方法通常的處理方式是直接忽略,但是一些 區(qū)間屬性與目標(biāo)變量的相關(guān)度較高,剔除該類屬性必然會直接影響屬性選擇的準(zhǔn)確度,因 此現(xiàn)有的屬性選擇算法以及結(jié)果評估方法有待于擴展。
[0011] 因此,如何提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,以解決現(xiàn)有技術(shù)中 的屬性選擇方法由于忽略與目標(biāo)變量相關(guān)的較高的一些區(qū)間屬性,并剔除該區(qū)間屬性而造 成屬性選擇準(zhǔn)確度,及無法將區(qū)間屬性擴展到屬性選擇方法中等種種缺陷,實已成為本領(lǐng) 域從業(yè)者亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0012] 鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于互信息的區(qū)間數(shù) 據(jù)的屬性選擇方法,用于解決現(xiàn)有技術(shù)中屬性選擇方法由于忽略與目標(biāo)變量相關(guān)的較高的 一些區(qū)間屬性,并剔除該區(qū)間屬性而造成屬性選擇準(zhǔn)確度,及無法將區(qū)間屬性擴展到屬性 選擇方法中的問題。
[0013] 為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性 選擇方法,藉由多臺服務(wù)器及客戶端構(gòu)建的計算機系統(tǒng)中,應(yīng)用于一區(qū)間數(shù)據(jù)集中,所述區(qū) 間數(shù)據(jù)集包括n個樣本數(shù)據(jù),每一個樣本數(shù)據(jù)具有m個屬性列和1個目標(biāo)屬性列,其中,n, m為大于1的正整數(shù),所述基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法包括:計算n個樣本數(shù)據(jù) 中任一屬性列及目標(biāo)屬性列的信息熵,并將所述n個樣本數(shù)據(jù)中的任一屬性列拆分成屬性 列上限數(shù)據(jù)和屬性列下限數(shù)據(jù),和將所述目標(biāo)屬性列拆分成目標(biāo)屬性列上限數(shù)據(jù)和目標(biāo)屬 性列下限數(shù)據(jù);計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵;根據(jù)計算得 到的n個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵及n個樣本數(shù)據(jù)中任一屬性列與所 述目標(biāo)屬性列的聯(lián)合熵,計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值, 及屬性列之間的互信息值;根據(jù)計算得到的互信息值進行屬性選擇,將n個樣本數(shù)據(jù)中m個 屬性列按照屬性重要度排序,并將排序后的屬性列分別置于屬性子集;其中,所述屬性子集 為m個,包括第一屬性子集,第二屬性子集,…,第m屬性子集;所述第一屬性子集包括第一 屬性列,所述第二屬性子集包括第一屬性列和第二屬性列,…,所述第m屬性子集包括第一 屬性列、第二屬性列、第m屬性列;所述第一屬性列、第二屬性列、第m屬性列是按照屬性重 要度排序的。根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。
[0014] 可選地,所述n個樣本數(shù)據(jù)中的任一屬性列的信息熵為H(n個樣本數(shù)據(jù)中任一屬 性列),所述n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為H (n個樣本數(shù)據(jù)中任 一屬性列,目標(biāo)屬性列),所述目標(biāo)屬性列的信息熵為H(目標(biāo)屬性列),所述n個樣本數(shù)據(jù) 中的任一屬性列的信息熵的計算公式為:H(任一屬性列)=H(屬性列上限數(shù)據(jù),屬性列下 限數(shù)據(jù));所述目標(biāo)屬性列的信息熵的計算公式為:H(目標(biāo)屬性列)=H(目標(biāo)屬性列上限 數(shù)據(jù),目標(biāo)屬性列下限數(shù)據(jù))。
[0015] 可選地,n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為H(n個樣本數(shù) 據(jù)中任一屬性列,目標(biāo)屬性列),H(n個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)的計算公式 為:H(n個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)=H(屬性列上限數(shù)據(jù),屬性列下限數(shù)據(jù), 目標(biāo)屬性列上限數(shù)據(jù),目標(biāo)屬性列下限數(shù)據(jù))。
[0016] 可選地,n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值為I (n個樣本 數(shù)據(jù)中任一屬性列,目標(biāo)屬性列),I(n個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)的計算公 式為:I (n個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)=H(任一屬性列)+H(目標(biāo)屬性列)一 H(n個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)。
[0017]可選地,計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值的步驟包 括:循環(huán)計算n個樣本數(shù)據(jù)的m個屬性列中每一個屬性列與所述目標(biāo)屬性列的互信息值; 獲取最大互信息值;首屬性選擇。
[0018] 可選地,所述首屬性選擇為:提取能使所述互相信息值最大的第一屬性列,將提取 出來的所述第一屬性列置于所述第一屬性子集,并更新所述互信息的區(qū)間數(shù)據(jù)集。
[0019] 可選地,首屬性選擇后繼續(xù)執(zhí)行以下步驟:循環(huán)計算第k次更新后的互信息的區(qū) 間數(shù)據(jù)集中任一屬性列與所述第k屬性子集中的k個屬性列中任一屬性列之間的互信息 值,并將第k次更新后的互信息的區(qū)間數(shù)據(jù)集中所有屬性列與所述第k屬性子集中的k個 屬性列任一屬性列之間的互信息值進行比較,獲取能使互信息值最大的第k次更新后的互 信息的區(qū)間數(shù)據(jù)集中的屬性列,則將該屬性列從所述第k-1次更新后的互信息的區(qū)間數(shù)據(jù) 集提取出來置于所述第k屬性子集,繼續(xù)更新互信息的區(qū)間數(shù)據(jù)集;其中,2 < k < m。
[0020] 可選地,所述獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的 屬性列滿足一屬性最大準(zhǔn)則。
[0021] 可選地,所述屬性評估指標(biāo)包括平均相對誤差、相對誤差、相對誤差中值、標(biāo)準(zhǔn)差、 及預(yù)測誤差百分比。
[0022] 可選地,所述第一屬性子集包括在第二屬性子集中,所述第二屬性子集包括在第 三屬性子集中,…,第m-1屬性子集包括在所述第m屬性子集中。
[0023] 如上所述,本發(fā)明的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,具有以下有益效 果:
[0024]本發(fā)明所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法減少了計算的復(fù)雜度,提升 了計算效率,提高了屬性選擇準(zhǔn)確度。
【專利附圖】
【附圖說明】
[0025] 圖1顯示為本發(fā)明的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法流程示意圖。
[0026] 元件標(biāo)號說明
[0027] Sl ?S5 步驟
【具體實施方式】
[0028] 以下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書 所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實 施方式加以實施或應(yīng)用,本說明書中的各項細節(jié)也可以基于不同觀點與應(yīng)用,在沒有背離 本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施 例中的特征可以相互組合。
[0029] 需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu) 想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸 繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也 可能更為復(fù)雜。
[0030] 本發(fā)明的技術(shù)原理為:依次計算屬性列的信息熵、屬性列之間的聯(lián)合熵和屬性列 與目標(biāo)變量之間的互信息;根據(jù)求得的互信息進行屬性選擇;最后對屬性選擇的結(jié)果用改 進的方法評估。
[0031]本發(fā)明所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法是基于信息基礎(chǔ)理 論,在《信息論》中,信息熵和聯(lián)合熵是用來度量信息的不確定性,而互信息(Mutual Information)的引入是為了度量屬性之間的依賴性,或者說一個屬性包含另一個屬性的信 息量。假設(shè)(X,Y)為一對離散型隨機變量,H(X)和H(Y)分別表示X與Y的信息熵(X和Y 的信息熵的計算是現(xiàn)有),
【權(quán)利要求】
1. 一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,藉由多臺服務(wù)器及客戶端構(gòu)建的計算 機系統(tǒng)中,應(yīng)用于一區(qū)間數(shù)據(jù)集中,所述區(qū)間數(shù)據(jù)集包括η個樣本數(shù)據(jù),每一個樣本數(shù)據(jù)具 有m個屬性列和1個目標(biāo)屬性列,其中,n,m為大于1的正整數(shù),其特征在于,所述基于互信 息的區(qū)間數(shù)據(jù)的屬性選擇方法包括: 計算η個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵,并將所述η個樣本數(shù)據(jù)中的 任一屬性列拆分成屬性列上限數(shù)據(jù)和屬性列下限數(shù)據(jù),和將所述目標(biāo)屬性列拆分成目標(biāo)屬 性列上限數(shù)據(jù)和目標(biāo)屬性列下限數(shù)據(jù); 計算η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵; 根據(jù)計算得到的η個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵及η個樣本數(shù)據(jù)中 任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵,計算η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性 列的互信息值,及屬性列之間的互信息值; 根據(jù)計算得到的互信息值進行屬性選擇,將η個樣本數(shù)據(jù)中m個屬性列按照屬性重要 度排序,并將排序后的屬性列分別置于屬性子集;其中,所述屬性子集為m個,包括第一屬 性子集,第二屬性子集,…,第m屬性子集;所述第一屬性子集包括第一屬性列,所述第二 屬性子集包括第一屬性列和第二屬性列,…,所述第m屬性子集包括第一屬性列、第二屬性 列、第m屬性列;所述第一屬性列、第二屬性列、第m屬性列是按照屬性重要度排序的。 根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。
2. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:所述η 個樣本數(shù)據(jù)中的任一屬性列的信息熵為H (η個樣本數(shù)據(jù)中任一屬性列),所述η個樣本數(shù)據(jù) 中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為Η(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列), 所述目標(biāo)屬性列的信息熵為H (目標(biāo)屬性列),所述η個樣本數(shù)據(jù)中的任一屬性列的信息熵 的計算公式為: H(任一屬性列)=H(屬性列上限數(shù)據(jù),屬性列下限數(shù)據(jù)); 所述目標(biāo)屬性列的信息熵的計算公式為: H(目標(biāo)屬性列)=H(目標(biāo)屬性列上限數(shù)據(jù),目標(biāo)屬性列下限數(shù)據(jù))。
3. 根據(jù)權(quán)利要求2所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:η個樣 本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為Η(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬 性列),Η(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)的計算公式為: Η(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)=H(屬性列上限數(shù)據(jù),屬性列下限數(shù)據(jù), 目標(biāo)屬性列上限數(shù)據(jù),目標(biāo)屬性列下限數(shù)據(jù))。
4. 根據(jù)權(quán)利要求2所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:η個樣 本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值為Ι(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo) 屬性列),I (η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)的計算公式為: I (η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)=H(任一屬性列)+Η(目標(biāo)屬性列)一 H(η個樣本數(shù)據(jù)中任一屬性列,目標(biāo)屬性列)。
5. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:計算η 個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值的步驟包括: 循環(huán)計算η個樣本數(shù)據(jù)的m個屬性列中每一個屬性列與所述目標(biāo)屬性列的互信息值; 獲取最大互信息值; 首屬性選擇。
6. 根據(jù)權(quán)利要求5所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:所述 首屬性選擇為: 提取能使所述互相信息值最大的第一屬性列,將提取出來的所述第一屬性列置于所述 第一屬性子集,并更新所述互信息的區(qū)間數(shù)據(jù)集。
7. 根據(jù)權(quán)利要求5所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:首屬 性選擇后繼續(xù)執(zhí)行以下步驟: 循環(huán)計算第k次更新后的互信息的區(qū)間數(shù)據(jù)集中任一屬性列與所述第k屬性子集中的 k個屬性列中任一屬性列之間的互信息值,并將第k次更新后的互信息的區(qū)間數(shù)據(jù)集中所 有屬性列與所述第k屬性子集中的k個屬性列任一屬性列之間的互信息值進行比較,獲取 能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列,則將該屬性列從所 述第k-Ι次更新后的互信息的區(qū)間數(shù)據(jù)集提取出來置于所述第k屬性子集,繼續(xù)更新互信 息的區(qū)間數(shù)據(jù)集;其中,2彡k彡m。
8. 根據(jù)權(quán)利要求7所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:所述 獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列滿足一屬性最 大準(zhǔn)則。
9. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:所述 屬性評估指標(biāo)包括平均相對誤差、相對誤差、相對誤差中值、標(biāo)準(zhǔn)差、及預(yù)測誤差百分比。
10. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法,其特征在于:所述 第一屬性子集包括在第二屬性子集中,所述第二屬性子集包括在第三屬性子集中,…,第 m-Ι屬性子集包括在所述第m屬性子集中。
【文檔編號】G06F17/30GK104317861SQ201410546323
【公開日】2015年1月28日 申請日期:2014年10月15日 優(yōu)先權(quán)日:2014年10月15日
【發(fā)明者】劉琴, 朱宏明, 楊筱雯, 王靜 申請人:同濟大學(xué)