一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法

文檔序號：6630301閱讀：240來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法
【專利摘要】本發(fā)明提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，包括：計算n個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵，并將n個樣本數(shù)據(jù)中的任一屬性列拆分成屬性列上限數(shù)據(jù)和屬性列下限數(shù)據(jù)，和將目標(biāo)屬性列拆分成目標(biāo)屬性列上限數(shù)據(jù)和目標(biāo)屬性列下限數(shù)據(jù)；計算n個樣本數(shù)據(jù)中任一屬性列與目標(biāo)屬性列的聯(lián)合熵；計算n個樣本數(shù)據(jù)中任一屬性列與目標(biāo)屬性列的互信息值，及屬性列之間的互信息值；根據(jù)計算得到的互信息值進行屬性選擇，將n個樣本數(shù)據(jù)中m個屬性列按照屬性重要度排序，并將排序后的屬性列分別置于屬性子集；根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。本發(fā)明減少了計算的復(fù)雜度，提升了計算效率，提高了屬性選擇準(zhǔn)確度。
【專利說明】一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機信息【技術(shù)領(lǐng)域】，涉及一種屬性選擇方法，特別是涉及一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法。

【背景技術(shù)】
[0002] 屬性選擇方法是通過剔除與被預(yù)測變量無關(guān)或相關(guān)度低的屬性，并在各相關(guān)性較強的屬性集合中，選出評估結(jié)果最好的一個屬性子集。屬性選擇方法減少了計算的復(fù)雜度，提升了計算效率和計算的準(zhǔn)確度。因而，屬性選擇算法被普遍應(yīng)用。
[0003] 在眾多的屬性選擇算法中，有一類選擇算法是基于信息熵相關(guān)理論實現(xiàn)的。信息熵的物理意義是描述某一變量所需的平均信息量，是該變量不確定性的一種度量?；バ畔?則描述的是一個變量中包含另一變量的信息量。信息論基本原理表明，互信息值越大，則表明兩個變量的相關(guān)性越大。因而，可以通過度量被預(yù)測變量與屬性之間的互信息值，設(shè)計屬性選擇算法。
[0004] 基于互信息的屬性選擇算法通常包括幾下幾個步驟：
[0005] ①對原始數(shù)據(jù)進行預(yù)處理；
[0006] ②計算屬性間的互信息；
[0007] ③根據(jù)得出的互信息做屬性選擇；
[0008] ④對選出的屬性子集進行結(jié)果評估。
[0009] 數(shù)值型數(shù)據(jù)、名稱型數(shù)據(jù)等單一數(shù)據(jù)易于預(yù)處理和計算互信息，傳統(tǒng)的屬性選擇算法均是針對該類數(shù)據(jù)做處理的。然而，在真實數(shù)據(jù)集中還經(jīng)常包括區(qū)間屬性，區(qū)間屬性同時擁有上限和下限，無法通過合理的方式將其預(yù)處理成單一數(shù)據(jù)，而且目前現(xiàn)有技術(shù)中并沒有關(guān)于區(qū)間數(shù)據(jù)的互信息定義，因此區(qū)間屬性間的互信息難以計算。同樣，現(xiàn)有的屬性選擇結(jié)果評估方法也是只能處理單一數(shù)據(jù)，無法處理區(qū)間型數(shù)據(jù)。
[0010] 在遇到區(qū)間數(shù)據(jù)時，現(xiàn)有的屬性選擇方法通常的處理方式是直接忽略，但是一些區(qū)間屬性與目標(biāo)變量的相關(guān)度較高，剔除該類屬性必然會直接影響屬性選擇的準(zhǔn)確度，因此現(xiàn)有的屬性選擇算法以及結(jié)果評估方法有待于擴展。
[0011] 因此，如何提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，以解決現(xiàn)有技術(shù)中的屬性選擇方法由于忽略與目標(biāo)變量相關(guān)的較高的一些區(qū)間屬性，并剔除該區(qū)間屬性而造成屬性選擇準(zhǔn)確度，及無法將區(qū)間屬性擴展到屬性選擇方法中等種種缺陷，實已成為本領(lǐng) 域從業(yè)者亟待解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0012] 鑒于以上所述現(xiàn)有技術(shù)的缺點，本發(fā)明的目的在于提供一種基于互信息的區(qū)間數(shù) 據(jù)的屬性選擇方法，用于解決現(xiàn)有技術(shù)中屬性選擇方法由于忽略與目標(biāo)變量相關(guān)的較高的一些區(qū)間屬性，并剔除該區(qū)間屬性而造成屬性選擇準(zhǔn)確度，及無法將區(qū)間屬性擴展到屬性選擇方法中的問題。
[0013] 為實現(xiàn)上述目的及其他相關(guān)目的，本發(fā)明提供一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，藉由多臺服務(wù)器及客戶端構(gòu)建的計算機系統(tǒng)中，應(yīng)用于一區(qū)間數(shù)據(jù)集中，所述區(qū) 間數(shù)據(jù)集包括n個樣本數(shù)據(jù)，每一個樣本數(shù)據(jù)具有m個屬性列和1個目標(biāo)屬性列，其中，n， m為大于1的正整數(shù)，所述基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法包括：計算n個樣本數(shù)據(jù) 中任一屬性列及目標(biāo)屬性列的信息熵，并將所述n個樣本數(shù)據(jù)中的任一屬性列拆分成屬性列上限數(shù)據(jù)和屬性列下限數(shù)據(jù)，和將所述目標(biāo)屬性列拆分成目標(biāo)屬性列上限數(shù)據(jù)和目標(biāo)屬性列下限數(shù)據(jù)；計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵；根據(jù)計算得到的n個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵及n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵，計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值，及屬性列之間的互信息值；根據(jù)計算得到的互信息值進行屬性選擇，將n個樣本數(shù)據(jù)中m個屬性列按照屬性重要度排序，并將排序后的屬性列分別置于屬性子集；其中，所述屬性子集為m個，包括第一屬性子集，第二屬性子集，…，第m屬性子集；所述第一屬性子集包括第一屬性列，所述第二屬性子集包括第一屬性列和第二屬性列，…，所述第m屬性子集包括第一屬性列、第二屬性列、第m屬性列；所述第一屬性列、第二屬性列、第m屬性列是按照屬性重要度排序的。根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。
[0014] 可選地,所述n個樣本數(shù)據(jù)中的任一屬性列的信息熵為H(n個樣本數(shù)據(jù)中任一屬性列），所述n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為H (n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列），所述目標(biāo)屬性列的信息熵為H(目標(biāo)屬性列），所述n個樣本數(shù)據(jù) 中的任一屬性列的信息熵的計算公式為：H(任一屬性列）=H(屬性列上限數(shù)據(jù)，屬性列下限數(shù)據(jù)）；所述目標(biāo)屬性列的信息熵的計算公式為：H(目標(biāo)屬性列）=H(目標(biāo)屬性列上限數(shù)據(jù)，目標(biāo)屬性列下限數(shù)據(jù)）。
[0015] 可選地，n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為H(n個樣本數(shù) 據(jù)中任一屬性列，目標(biāo)屬性列），H(n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）的計算公式為：H(n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）=H(屬性列上限數(shù)據(jù)，屬性列下限數(shù)據(jù)，目標(biāo)屬性列上限數(shù)據(jù)，目標(biāo)屬性列下限數(shù)據(jù)）。
[0016] 可選地，n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值為I (n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列），I(n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）的計算公式為：I (n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）=H(任一屬性列）+H(目標(biāo)屬性列）一 H(n個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）。
[0017]可選地，計算n個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值的步驟包括：循環(huán)計算n個樣本數(shù)據(jù)的m個屬性列中每一個屬性列與所述目標(biāo)屬性列的互信息值；獲取最大互信息值；首屬性選擇。
[0018] 可選地，所述首屬性選擇為：提取能使所述互相信息值最大的第一屬性列，將提取出來的所述第一屬性列置于所述第一屬性子集，并更新所述互信息的區(qū)間數(shù)據(jù)集。
[0019] 可選地，首屬性選擇后繼續(xù)執(zhí)行以下步驟：循環(huán)計算第k次更新后的互信息的區(qū) 間數(shù)據(jù)集中任一屬性列與所述第k屬性子集中的k個屬性列中任一屬性列之間的互信息值，并將第k次更新后的互信息的區(qū)間數(shù)據(jù)集中所有屬性列與所述第k屬性子集中的k個屬性列任一屬性列之間的互信息值進行比較，獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列，則將該屬性列從所述第k-1次更新后的互信息的區(qū)間數(shù)據(jù) 集提取出來置于所述第k屬性子集，繼續(xù)更新互信息的區(qū)間數(shù)據(jù)集；其中，2 < k < m。
[0020] 可選地，所述獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列滿足一屬性最大準(zhǔn)則。
[0021] 可選地，所述屬性評估指標(biāo)包括平均相對誤差、相對誤差、相對誤差中值、標(biāo)準(zhǔn)差、及預(yù)測誤差百分比。
[0022] 可選地，所述第一屬性子集包括在第二屬性子集中，所述第二屬性子集包括在第三屬性子集中，…，第m-1屬性子集包括在所述第m屬性子集中。
[0023] 如上所述，本發(fā)明的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，具有以下有益效果：
[0024]本發(fā)明所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法減少了計算的復(fù)雜度，提升了計算效率，提高了屬性選擇準(zhǔn)確度。

【專利附圖】

【附圖說明】
[0025] 圖1顯示為本發(fā)明的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法流程示意圖。
[0026] 元件標(biāo)號說明
[0027] Sl ?S5 步驟

【具體實施方式】
[0028] 以下通過特定的具體實例說明本發(fā)明的實施方式，本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應(yīng)用，本說明書中的各項細節(jié)也可以基于不同觀點與應(yīng)用，在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是，在不沖突的情況下，以下實施例及實施例中的特征可以相互組合。
[0029] 需要說明的是，以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu) 想，遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制，其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變，且其組件布局型態(tài)也可能更為復(fù)雜。
[0030] 本發(fā)明的技術(shù)原理為：依次計算屬性列的信息熵、屬性列之間的聯(lián)合熵和屬性列與目標(biāo)變量之間的互信息；根據(jù)求得的互信息進行屬性選擇；最后對屬性選擇的結(jié)果用改進的方法評估。
[0031]本發(fā)明所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法是基于信息基礎(chǔ)理論，在《信息論》中，信息熵和聯(lián)合熵是用來度量信息的不確定性，而互信息（Mutual Information)的引入是為了度量屬性之間的依賴性，或者說一個屬性包含另一個屬性的信息量。假設(shè)（X，Y)為一對離散型隨機變量，H(X)和H(Y)分別表示X與Y的信息熵（X和Y 的信息熵的計算是現(xiàn)有），

【權(quán)利要求】
1. 一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，藉由多臺服務(wù)器及客戶端構(gòu)建的計算機系統(tǒng)中，應(yīng)用于一區(qū)間數(shù)據(jù)集中，所述區(qū)間數(shù)據(jù)集包括η個樣本數(shù)據(jù)，每一個樣本數(shù)據(jù)具有m個屬性列和1個目標(biāo)屬性列，其中，n，m為大于1的正整數(shù)，其特征在于，所述基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法包括：計算η個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵，并將所述η個樣本數(shù)據(jù)中的任一屬性列拆分成屬性列上限數(shù)據(jù)和屬性列下限數(shù)據(jù)，和將所述目標(biāo)屬性列拆分成目標(biāo)屬性列上限數(shù)據(jù)和目標(biāo)屬性列下限數(shù)據(jù)；計算η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵；根據(jù)計算得到的η個樣本數(shù)據(jù)中任一屬性列及目標(biāo)屬性列的信息熵及η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵，計算η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值，及屬性列之間的互信息值；根據(jù)計算得到的互信息值進行屬性選擇，將η個樣本數(shù)據(jù)中m個屬性列按照屬性重要度排序，并將排序后的屬性列分別置于屬性子集；其中，所述屬性子集為m個，包括第一屬性子集，第二屬性子集，…，第m屬性子集；所述第一屬性子集包括第一屬性列，所述第二屬性子集包括第一屬性列和第二屬性列，…，所述第m屬性子集包括第一屬性列、第二屬性列、第m屬性列；所述第一屬性列、第二屬性列、第m屬性列是按照屬性重要度排序的。根據(jù)屬性評估指標(biāo)評估每一個屬性子集以獲取最優(yōu)屬性子集。
2. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：所述η 個樣本數(shù)據(jù)中的任一屬性列的信息熵為H (η個樣本數(shù)據(jù)中任一屬性列），所述η個樣本數(shù)據(jù) 中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為Η(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列），所述目標(biāo)屬性列的信息熵為H (目標(biāo)屬性列），所述η個樣本數(shù)據(jù)中的任一屬性列的信息熵的計算公式為： H(任一屬性列）=H(屬性列上限數(shù)據(jù)，屬性列下限數(shù)據(jù)）；所述目標(biāo)屬性列的信息熵的計算公式為： H(目標(biāo)屬性列）=H(目標(biāo)屬性列上限數(shù)據(jù)，目標(biāo)屬性列下限數(shù)據(jù)）。
3. 根據(jù)權(quán)利要求2所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的聯(lián)合熵為Η(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列），Η(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）的計算公式為： Η(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）=H(屬性列上限數(shù)據(jù)，屬性列下限數(shù)據(jù)，目標(biāo)屬性列上限數(shù)據(jù)，目標(biāo)屬性列下限數(shù)據(jù)）。
4. 根據(jù)權(quán)利要求2所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：η個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值為Ι(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo) 屬性列），I (η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）的計算公式為： I (η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）=H(任一屬性列）+Η(目標(biāo)屬性列）一 H(η個樣本數(shù)據(jù)中任一屬性列，目標(biāo)屬性列）。
5. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：計算η 個樣本數(shù)據(jù)中任一屬性列與所述目標(biāo)屬性列的互信息值的步驟包括：循環(huán)計算η個樣本數(shù)據(jù)的m個屬性列中每一個屬性列與所述目標(biāo)屬性列的互信息值；獲取最大互信息值；首屬性選擇。
6. 根據(jù)權(quán)利要求5所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：所述首屬性選擇為：提取能使所述互相信息值最大的第一屬性列，將提取出來的所述第一屬性列置于所述第一屬性子集，并更新所述互信息的區(qū)間數(shù)據(jù)集。
7. 根據(jù)權(quán)利要求5所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：首屬性選擇后繼續(xù)執(zhí)行以下步驟：循環(huán)計算第k次更新后的互信息的區(qū)間數(shù)據(jù)集中任一屬性列與所述第k屬性子集中的 k個屬性列中任一屬性列之間的互信息值，并將第k次更新后的互信息的區(qū)間數(shù)據(jù)集中所有屬性列與所述第k屬性子集中的k個屬性列任一屬性列之間的互信息值進行比較，獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列，則將該屬性列從所述第k-Ι次更新后的互信息的區(qū)間數(shù)據(jù)集提取出來置于所述第k屬性子集，繼續(xù)更新互信息的區(qū)間數(shù)據(jù)集；其中，2彡k彡m。
8. 根據(jù)權(quán)利要求7所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：所述獲取能使互信息值最大的第k次更新后的互信息的區(qū)間數(shù)據(jù)集中的屬性列滿足一屬性最大準(zhǔn)則。
9. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：所述屬性評估指標(biāo)包括平均相對誤差、相對誤差、相對誤差中值、標(biāo)準(zhǔn)差、及預(yù)測誤差百分比。
10. 根據(jù)權(quán)利要求1所述的基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法，其特征在于：所述第一屬性子集包括在第二屬性子集中，所述第二屬性子集包括在第三屬性子集中，…，第 m-Ι屬性子集包括在所述第m屬性子集中。
【文檔編號】G06F17/30GK104317861SQ201410546323
【公開日】2015年1月28日申請日期:2014年10月15日優(yōu)先權(quán)日:2014年10月15日
【發(fā)明者】劉琴, 朱宏明, 楊筱雯, 王靜申請人:同濟大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉琴;朱宏明;楊筱雯;王靜
技術(shù)所有人：同濟大學(xué)
我是此專利的發(fā)明人

上一篇：一種易拉罐點陣噴碼字符在線視覺檢測方法
上一篇：一種立體廣告機的評價裝置及其評價方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于互信息的區(qū)間數(shù)據(jù)的屬性選擇方法