一種對海量變量進(jìn)行篩選的方法及設(shè)備的制作方法
【專利摘要】本申請?zhí)峁┮环N對海量變量進(jìn)行篩選的方法及設(shè)備,本申請涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種對海量變量進(jìn)行篩選以獲得變量組合的方法。本申請要解決的技術(shù)問題是在海量變量篩選中存在的誤將不應(yīng)被刪除的變量刪除、分析選擇變量時(shí)間長,耗費(fèi)精力大等問題。本申請所述方法主要包括:基于候選變量池的變量,獲得第一變量組合;判斷第一變量組合中是否有任一變量的方差膨脹因子值大于預(yù)定值;若是,取方差膨脹因子值最高的n個變量,并比較所述n個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并基于更新后的候選變量池,重新獲得第一變量組合并進(jìn)行判斷;若否,將所述第一變量組合作為最終變量組合輸出。
【專利說明】一種對海量變量進(jìn)行篩選的方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本申請涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種對海量變量進(jìn)行篩選的方法。
【背景技術(shù)】
[0002]一般情況下,在數(shù)據(jù)處理系統(tǒng)的構(gòu)建時(shí),進(jìn)行系統(tǒng)的響應(yīng)類的模式構(gòu)建都會有變量選擇的環(huán)節(jié),而在這環(huán)節(jié)中,由于變量與變量之間存在一定的相關(guān)性,從而會使變量的組合出現(xiàn)嚴(yán)重的多重共線性問題。多重共線性一方面會影響模型的可解釋性,導(dǎo)致原來能通過模型揭示的規(guī)律變得不再明顯;另一方面也有可能降低模型的預(yù)測精確度,從而最終會影響數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)處理操作結(jié)果。
[0003]針對上述問題,傳統(tǒng)方法是在完成回歸建模的變量選擇后,再借助變量間的相關(guān)系數(shù)或VIF來判斷哪些變量可能會存在相關(guān)性,從而在一組相關(guān)的變量中剔除若干個。但這當(dāng)中有幾個技術(shù)難點(diǎn)未能解決:
[0004]1、傳統(tǒng)方法對多重共線性的檢測一般是在完成變量選擇之后進(jìn)行,因?yàn)檫@時(shí)變量的數(shù)量較少;但同時(shí)也由于在變量選擇過程中只考慮變量的顯著性而不考慮共性線,因此有可能會使一些共線性較低同時(shí)又顯著的變量組合在選擇過程中被剔除。
[0005]2、通常情況下互相相關(guān)的很可能不止兩個變量,而是十個甚至幾十個變量同時(shí)相互相關(guān),每個變量在不同的方面都各有自身優(yōu)勢,一不小心,就會把重要的變量剔除,從而對模型造成損失。
[0006]3、難以在既保證變量不相關(guān),又保證變量對目標(biāo)變量的影響最大化。若只依據(jù)相關(guān)系數(shù)來判斷,篩選出來的變量不一定對模型有重要影響,而且在篩選過程中可能會把真正重要的變量剔除。
[0007]因此,需要一種方法來快速地進(jìn)行變量篩選從而實(shí)現(xiàn)準(zhǔn)確且快速的數(shù)據(jù)處理。
[0008]例如:一個預(yù)測目標(biāo)數(shù)據(jù)在未來一定時(shí)間(如6個月)的預(yù)估值的系統(tǒng),此系統(tǒng)將采集及目標(biāo)數(shù)據(jù)相關(guān)、環(huán)境相關(guān)的若干變量信息進(jìn)行分析,判斷未來的目標(biāo)數(shù)據(jù)預(yù)估值。其中的若干變量并不一定都對目標(biāo)數(shù)據(jù)有影響,或者其中幾個變量對目標(biāo)數(shù)據(jù)的影響是相關(guān)的(即如果將所述相關(guān)變量都計(jì)入關(guān)鍵變量,會直接導(dǎo)接各變量的權(quán)重失真,從而影響最終預(yù)測結(jié)果及模型的可解釋性),所以要從中間尋找出影響較大的,相關(guān)性較小的關(guān)鍵變量。當(dāng)可供分析的變量的數(shù)量比較小時(shí)(例如幾百個變量),可以采用傳統(tǒng)的變量分析方法選取關(guān)鍵變量,分析人員需要耗費(fèi)幾天至十幾天的分析時(shí)間;然而,當(dāng)遇到變量個數(shù)達(dá)到“海量”例如20000-50000個的情況,現(xiàn)有的技術(shù)將耗費(fèi)非常長的時(shí)間來選擇關(guān)鍵變量,而本發(fā)明旨在提供一種新的方法及設(shè)備,快速準(zhǔn)確地在海量變量中找到關(guān)鍵變量,依據(jù)所述關(guān)鍵變量計(jì)算未來一定時(shí)間內(nèi)的目標(biāo)數(shù)據(jù)預(yù)估值。
【發(fā)明內(nèi)容】
[0009]本申請的主要目的在于提供一種對海量變量進(jìn)行篩選的方法及設(shè)備,以解決現(xiàn)有技術(shù)存在的上述誤將不應(yīng)被刪除的變量刪除、分析選擇變量時(shí)間長,耗費(fèi)精力大等問題。利用本申請的技術(shù)方案篩選出系統(tǒng)需要的變量,構(gòu)建準(zhǔn)確的系統(tǒng)模式,并將該更優(yōu)化的系統(tǒng)模式應(yīng)用于計(jì)算機(jī)系統(tǒng)中以提升數(shù)據(jù)處理性能。
[0010]根據(jù)本申請的一個方面,提供了一種對變量進(jìn)行篩選的方法,包括:(a)從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池;(b)針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合;(C)計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值;(d)確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值;(e)如果是,取第一變量組合中方差膨脹因子值最高的η個變量,并比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并基于更新后的候選變量池,執(zhí)行步驟(a)~(d);(f)如果確定第一變量組合中的變量的方差膨脹因子值小于或等于預(yù)定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
[0011]根據(jù)本申請【具體實(shí)施方式】的方法,步驟(e)中所述“η”可以為大于等于2的整數(shù)。
[0012]根據(jù)本申請【具體實(shí)施方式】的方法,該方法還可以包括步驟(g):獲得候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值;步驟(e)中所述將η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值的步驟還可以包括:將所述η個變量中F檢驗(yàn)值最高的變量置為初始的冠軍變量,將其余η-l個變量置為挑戰(zhàn)變量,將挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較。
[0013]根據(jù)本申請【具體實(shí)施方式】的方法,將所述挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與冠軍變量的 標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較的步驟還可以包括:
[0014](el)將第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較;
[0015](e2)基于比較結(jié)果從第一變量組合中剔除所述第i個挑戰(zhàn)變量和第i個冠軍變量中的一個,將第i個挑戰(zhàn)變量和第i個冠軍變量中未被剔除的那個變量作為第i+Ι個冠軍
變量;
[0016](e3)繼續(xù)執(zhí)行步驟(el)和(e2),直到剔除η-l個變量;其中:i=l,2, 3,…,n_l ;第I個冠軍變量即為初始冠軍變量。
[0017]根據(jù)本申請【具體實(shí)施方式】的方法,所述步驟(e2)還可以包括:若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都大于第i個冠軍變量的相應(yīng)值,則將所述第i個冠軍變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量置為第i+Ι個冠軍變量。
[0018]根據(jù)本申請【具體實(shí)施方式】的方法,所述步驟(e2)還可以包括:若所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都小于所述第i個冠軍變量的相應(yīng)值,則從第一變量組合中剔除所述第i個挑戰(zhàn)變量,將所述第i個冠軍變量置為第i+Ι個冠軍變量。
[0019]根據(jù)本申請【具體實(shí)施方式】的方法,所述步驟(e2)還可以包括:若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值小于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值大于第i個冠軍變量的F檢驗(yàn)值,或者所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值大于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值小于第i個冠軍變量的F檢驗(yàn)值,則利用所述第i個挑戰(zhàn)變量、所述第i個冠軍變量與目標(biāo)變量構(gòu)建回歸模型,重新計(jì)算所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中的標(biāo)準(zhǔn)化的參數(shù)估計(jì)值,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型的中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較小的一個變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較大的一個變量置為第i+ι個冠軍變量。
[0020]根據(jù)本申請【具體實(shí)施方式】的方法,所述步驟(e )中所述基于比較結(jié)果更新所述候選變量池的步驟還可以包括:將在第一變量組合中剔除的η-l個變量從所述候選變量池中剔除。
[0021]根據(jù)本申請【具體實(shí)施方式】的方法,所述從全集模型中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池還可以包括:獲得變量的回歸系數(shù)的T檢驗(yàn)值,獲得所述T檢檢值所對應(yīng)的顯著性概率P值作為變量的顯著性值;選擇所述顯著性值小于預(yù)定顯著性限值的變量以構(gòu)成第一變量池。
[0022]根據(jù)本申請【具體實(shí)施方式】的方法,所述第一預(yù)定規(guī)則可以包括stepwise篩選規(guī)則。
[0023]根據(jù)本申請【具體實(shí)施方式】的方法,從候選變量池中選擇符合預(yù)定標(biāo)準(zhǔn)的變量以構(gòu)成第一變量池的步驟還可以包括:
[0024](al)基于候選變量池的變量,構(gòu)建變量的全集模型;
[0025](a2)利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。
[0026]根據(jù)本申請的另一個方面,提供一種對變量進(jìn)行篩選的設(shè)備,包括:模塊(a),用于從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池;模塊(b),針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合;模塊(C),計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值;模塊(d),確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值;模塊(e),用于,若模塊(d)確定第一變量組合中的變量有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值,取第一變量組合中方差膨脹因子值最高的η個變量,并比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并且所述模塊(a)~Cd)基于更新后的候選變量池繼續(xù)對更新后的變量進(jìn)行操作;模塊(f),用于,若模塊(d)確定確定第一變量組合中的變量的方差膨脹因子值小于或等于預(yù)定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
[0027]根據(jù)本申請【具體實(shí)施方式】,所述一種對變量進(jìn)行篩選以獲得最終變量組合的設(shè)備中,還包括一個模塊(g),用于獲得候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值;模塊(e)還可以被配置成:
[0028]將所述η個變量中F檢驗(yàn)值最高的變量置為初始的冠軍變量,將其余η-l個變量置為挑戰(zhàn)變量,將挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較,包括:
[0029](el)將第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較;
[0030](e2)基于比較結(jié)果從第一變量組合中剔除所述第i個挑戰(zhàn)變量和第i個冠軍變量中的一個,將第i個挑戰(zhàn)變量和第i個冠軍變量中未被剔除的那個變量作為第i+Ι個冠軍變量;其中:i=l,2,3,…,η-l ;第I個冠軍變量即為初始冠軍變量;
[0031]若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都大于第i個冠軍變量的相應(yīng)值,則將所述第i個冠軍變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量置為第i+ι個
冠軍變量;
[0032]若所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都小于所述第i個冠軍變量的相應(yīng)值,則從第一變量組合中剔除所述第i個挑戰(zhàn)變量,將所述第i個冠軍變量置為第i+1個冠軍變量;
[0033]若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值小于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值大于第i個冠軍變量的F檢驗(yàn)值,或者所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值大于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值小于第i個冠軍變量的F檢驗(yàn)值,則利用所述第i個挑戰(zhàn)變量、所述第i個冠軍變量與目標(biāo)變量構(gòu)建回歸模型,重新計(jì)算所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中的標(biāo)準(zhǔn)化的參數(shù)估計(jì)值,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型的中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較小的一個變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較大的一個變量置為第i+1個冠軍變量。
[0034](e3)繼續(xù)執(zhí)行步驟(el)和(e2),直到剔除η-l個變量。
[0035]將在第一變量組合 中剔除的η-l個變量從所述候選變量池中剔除。
[0036]根據(jù)本申請【具體實(shí)施方式】,所述一種對變量進(jìn)行篩選以獲得最終變量組合的設(shè)備中,所述從候選變量池中選擇符合預(yù)定標(biāo)準(zhǔn)的變量以構(gòu)成第一變量池的模塊(a)還可以包括:
[0037]模塊(al),用于基于候選變量池的變量,構(gòu)建變量的全集模型;
[0038]模塊(a2),用于利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。
[0039]與現(xiàn)有技術(shù)相比,根據(jù)本申請的技術(shù)方案,解決現(xiàn)有技術(shù)存在的上述誤將不應(yīng)被刪除的變量刪除、分析選擇變量時(shí)間長,耗費(fèi)精力大等問題。
【專利附圖】
【附圖說明】
[0040]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0041]圖1為根據(jù)本申請實(shí)施例所述的一種對變量進(jìn)行篩選的方法流程圖;
[0042]圖2為根據(jù)圖1所述方法中步驟150的優(yōu)選方案的流程圖;
[0043]圖3為根據(jù)本申請實(shí)施例所述的一種對變量進(jìn)行篩選的設(shè)備結(jié)構(gòu)框圖?!揪唧w實(shí)施方式】
[0044]為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實(shí)施例,對本申請作進(jìn)一步地詳細(xì)說明。
[0045]下面參考圖1和圖2。圖1為根據(jù)本申請實(shí)施例所述的一種對變量進(jìn)行篩選以獲得最終變量組合的方法流程圖,包括步驟110-160 ;圖2為圖1所述方法中步驟150的優(yōu)選方案的流程圖。
[0046]在圖1中所述的方法中,在步驟110處,從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池;[0047]優(yōu)選地,步驟110包括步驟al和步驟a2:
[0048]在步驟al處,基于候選變量池的變量,構(gòu)建變量的全集模型;一般而言,采用普通最小二乘法算法或邏輯回歸算法算法構(gòu)建變量的全集模型。
[0049]在步驟a2處,利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。
[0050]優(yōu)選地,所述選擇符合預(yù)定顯著性限值的變量的方法可以是:獲得變量的回歸系數(shù)的T檢驗(yàn)值,獲得所述T檢檢值所對應(yīng)的顯著性概率P值作為變量的顯著性值;選擇所述顯著性值小于預(yù)定顯著性限值的變量以構(gòu)成第一變量池。一般,預(yù)定顯著性限值可以是
0.05。
[0051]在步驟120處,針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合。
[0052]優(yōu)選地,所述第一預(yù)定規(guī)則可以為stepwise篩選規(guī)則。所述stepwise篩選規(guī)則可以包括:對第一變量池中的所有各變量分別進(jìn)行I次單次篩選,所述單次篩選包括:將I個所述變量放入第一模型,重新采用顯著性算法計(jì)算第一模型各變量的顯著性,選擇符合預(yù)定顯著性限值的變量保留在第一模型,將不符合預(yù)定顯著性限值的變量從第一模型中剔除stepwise篩選規(guī)則中的所述第一模型的變量初始數(shù)目為0,第一模型的變量數(shù)目隨放入變量及剔除變量而變化。最終,由第一模型中剩余的所有變量組成第一變量組合。
[0053]在步驟130處,計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值。
[0054]在步驟140處,確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值;如果是,執(zhí)行步驟150 ;如果否,執(zhí)行步驟160。
[0055]在步驟150處,取第一變量組合中方差膨脹因子值最高的η個變量(一般所述η為大于等于2的整數(shù)),并比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并基于更新后的候選變量池,轉(zhuǎn)回到步驟110繼續(xù)執(zhí)行該方法。
[0056]在步驟160處,將所述第一變量組合作為最終變量組合輸出。
[0057]根據(jù)本發(fā)明的方法,還可以包括獲得候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值的步驟。
[0058]一般而言,候選變量池由對目標(biāo)變量可能有意義的變量組成。例如,對于交通擁堵情況這個目標(biāo)變量,對其有意義的變量有可能是:所處位置、雨雪情況、星期幾、是否臨近節(jié)假日、附近是否有大型會議或演出等等,可以由任何有可能影響目標(biāo)變量的變量組成候選變量池,也可依據(jù)人為的與判斷挑選部分變量構(gòu)建候選變量池。獲得候選變量對目標(biāo)變量的F檢驗(yàn)值,一般運(yùn)用方差分析或廣義線性模型方法計(jì)算。
[0059]利用本發(fā)明的方法,可以篩選出系統(tǒng)需要的變量,構(gòu)建準(zhǔn)確的系統(tǒng)模式,并將該系統(tǒng)模式應(yīng)用于計(jì)算機(jī)系統(tǒng)中以進(jìn)行后續(xù)數(shù)據(jù)處理。例如找到對數(shù)據(jù)庫中的目標(biāo)數(shù)據(jù)最相關(guān)的變量從而數(shù)據(jù)處理得到最佳結(jié)果。
[0060]參考圖2,圖2為步驟150的一個優(yōu)選方案的流程圖,包括步驟15廣步驟157,具體步驟如下。
[0061]優(yōu)選地,步驟150中比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值可以包括以下步驟。
[0062]在步驟151處,將所述η個變量中F檢驗(yàn)值最高的變量置為初始的冠軍變量。
[0063]在步驟152處,將其余η-l個變量置為挑戰(zhàn)變量。
[0064]將挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較。
[0065]優(yōu)選地,所述比較包括如下步驟。
[0066]在步驟153處,取第i個挑戰(zhàn)變量,將其標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較;其中:i=l,2,3,…,η-l ;第I個冠軍變量即為初始冠軍變量。
[0067]基于比較結(jié)果從第一變量組合中剔除所述第i個挑戰(zhàn)變量和第i個冠軍變量中的一個,將第i個挑戰(zhàn)變量和第i個冠軍變量中未被剔除的那個變量作為第i+Ι個冠軍變量。
[0068]在步驟154處,若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都大于第i個冠軍變量的相應(yīng)值,則將所述第i個冠軍變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量置為第i+Ι個冠軍變量。
[0069]在步驟155處,若所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都小于所述第i個冠軍變量的相應(yīng)值,則從第一變量組合中剔除所述第i個挑戰(zhàn)變量,將所述第i個冠軍變量置為第i+l個冠軍變量。
[0070]在步驟156處,若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值小于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值大于第i個冠軍變量的F檢驗(yàn)值,或者所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值大于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值小于第i個冠軍變量的F檢驗(yàn)值,則利用所述第i個挑戰(zhàn)變量、所述第i個冠軍變量與目標(biāo)變量構(gòu)建回歸模型,重新計(jì)算所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中的標(biāo)準(zhǔn)化的參數(shù)估計(jì)值,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型的中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較小的一個變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較大的一個變量置為第i+1個冠軍變量。
[0071]繼續(xù)執(zhí)行步驟153~步驟156,直到完成η-l次比較,剔除n_l個變量,執(zhí)行步驟157。
[0072]在步驟157處,將在第一變量組合中剔除的η-l個變量從所述候選變量池中剔除。
[0073]從而,實(shí)現(xiàn)了系統(tǒng)模型構(gòu)建中快速準(zhǔn)確的變量篩選并最終利用最終的模型實(shí)現(xiàn)準(zhǔn)確且快速的數(shù)據(jù)處理。
[0074]參考圖3,圖3為根據(jù)本申請實(shí)施例所述的一種對變量進(jìn)行篩選以獲得最終變量組合的設(shè)備300。該設(shè)備可以包括模塊310-模塊370。
[0075] 模塊310可以用于從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池。優(yōu)選地,模塊310包括模塊(al)和模塊(a2),模塊(al),用于基于候選變量池的變量,構(gòu)建變量的全集模型;模塊(a2),用于利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。模塊320可以用于針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合。模塊330可以用于計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值。模塊340可以用于確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值。若模塊340確定第一變量組合中的變量有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值,模塊350可以用于取第一變量組合中方差膨脹因子值最高的η個變量,并比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并且所述模塊310-340基于更新后的候選變量池繼續(xù)對更新后的變量進(jìn)行操作。模塊360可以用于,若模塊340確定第一變量組合中的變量的方差膨脹因子值小于或等于預(yù)定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
[0076]根據(jù)本發(fā)明的實(shí)施方式,該設(shè)備還可以包括模塊370,其可以用于獲得候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值。優(yōu)選地,模塊350可以用于執(zhí)行以圖2所述方法步驟150的各步驟15f 157。為了使本申請的描述簡單明了,在此將不對模塊350所執(zhí)行的與參照圖2所述的方法步驟相對應(yīng)的功能進(jìn)行累述。
[0077]利用本申請的設(shè)備,對變量進(jìn)行篩選,并將選出變量通過加權(quán)的方式形成一個回歸模型并應(yīng)用于數(shù)據(jù)處理與計(jì)算中,從而實(shí)現(xiàn)了系統(tǒng)模型構(gòu)建中最佳的變量篩選并最終利用模型實(shí)現(xiàn)準(zhǔn)確且快速的數(shù)據(jù)處理。
[0078]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0079]以上所述僅為本申請的實(shí)施例而已,并不用于限制本申請,對于本領(lǐng)域的技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均 應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。
【權(quán)利要求】
1.一種對變量進(jìn)行篩選的方法,其特征在于,包括: Ca)從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池; (b)針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合; (C)計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值; (d)確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值; (e)如果是,取第一變量組合中方差膨脹因子值最高的n個變量,并比較所述n個變量的方差膨脹因子值和所述標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并基于更新后的候選變量池,執(zhí)行步驟(a)~Cd); (f)如果確定第一變量組合中的變量的方差膨脹因子值小于或等于預(yù)定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
2.如權(quán)利要求1所述的方法,還包括: 獲得所述候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值; 并且在所述方法其中,比較所述n個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值的步驟包括: 將所述n個變量中F檢驗(yàn)值最高的變量置為初始的冠軍變量,將其余n-l個變量置為挑戰(zhàn)變量,將挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較。
3.如權(quán)利要求1所述的方法,其中,所述n為大于等于2的整數(shù)。
4.如權(quán)利要求2所述的方法,其中,將所述挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較的步驟包括: (el)將第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較;以及 (e2)基于比較結(jié)果從第一變量組合中剔除所述第i個挑戰(zhàn)變量和第i個冠軍變量中的一個,將第i個挑戰(zhàn)變量和第i個冠軍變量中未被剔除的那個變量作為第i+1個冠軍變量; (e3)繼續(xù)執(zhí)行步驟(el)和(e2),直到剔除n_l個變量; 其中:i=l,2,3,…,n-l ;第1個冠軍變量即為初始冠軍變量。
5.如權(quán)利要求4所述的方法,其中,步驟(e2)包括: 若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都大于第i個冠軍變量的相應(yīng)值,則將所述第i個冠軍變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量置為第i+1個冠軍變量。
6.如權(quán)利要求4所述的方法,其中,步驟(e2)包括包括: 若所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都小于所述第i個冠軍變量的相應(yīng)值,則從第一變量組合中剔除所述第i個挑戰(zhàn)變量,將所述第i個冠軍變量置為第i+1個冠軍變量。
7.如權(quán)利要求4所述的方法,其中,步驟(e2)包括包括: 若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值小于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值大于第i個冠軍變量的F檢驗(yàn)值,或者所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值大于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值小于第i個冠軍變量的F檢驗(yàn)值,則利用所述第i個挑戰(zhàn)變量、所述第i個冠軍變量與目標(biāo)變量構(gòu)建回歸模型,重新計(jì)算所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中的標(biāo)準(zhǔn)化的參數(shù)估計(jì)值,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型的中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較小的一個變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較大的一個變量置為第i+Ι個冠軍變量。
8.如權(quán)利要求1~7任一項(xiàng)所述的方法,其特征在于,基于比較結(jié)果更新所述候選變量池的步驟包括:將在第一變量組合中剔除的η-l個變量從所述候選變量池中剔除。
9.如權(quán)利要求1~7任一項(xiàng)所述的方法,其特征在于,從所述全集模型中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池包括: 獲得變量的回歸系數(shù)的T檢驗(yàn)值, 獲得所述T檢檢值所對應(yīng)的顯著性概率P值作為變量的顯著性值; 選擇所述顯著性值小于預(yù)定顯著性限值的變量以構(gòu)成第一變量池。
10.如權(quán)利要求1~7任一項(xiàng)所述的方法,其特征在于,所述第一預(yù)定規(guī)則為stepwise篩選規(guī)則。
11.如權(quán)利要求1所述的方法,其特征在于,從候選變量池中選擇符合預(yù)定標(biāo)準(zhǔn)的變量以構(gòu)成第一變量池的步驟包括: (al)基于所述候選變量池的變量,構(gòu)建變量的全集模型; (a2)利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。
12.一種對變量進(jìn)行篩選的設(shè)備,其特征在于,包括: 模塊(a),用于從候選變量池中選擇符合預(yù)定顯著性限值的變量以構(gòu)成第一變量池; 模塊(b),用于針對所述第一變量池中的變量,基于第一預(yù)定規(guī)則獲得第一變量組合; 模塊(c),用于計(jì)算所述第一變量組合中各變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值; 模塊(d),用于確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值; 模塊(e),用于,若模塊(d)確定第一變量組合中的變量有任一變量的方差膨脹因子值大于預(yù)定的方差膨脹因子值,取第一變量組合中方差膨脹因子值最高的η個變量,并比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并且所述模塊(a)~(d)基于更新后的候選變量池繼續(xù)對更新后的變量進(jìn)行操作; 模塊(f),用于,若模塊(d)確定第一變量組合中的變量的方差膨脹因子值小于或等于預(yù)定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
13.如權(quán)利要求12所述設(shè)備,其特征在于,還包括:模塊(a),用于獲得候選變量池中各變量對目標(biāo)變量的F檢驗(yàn)值; 并且其中,模塊(e)比較所述η個變量的方差膨脹因子值和標(biāo)準(zhǔn)化參數(shù)估計(jì)值,基于比較結(jié)果更新所述候選變量池,并基于更新后的候選變量池,包括: 將所述η個變量中F檢驗(yàn)值最高的變量置為初始的冠軍變量,將其余η-l個變量置為挑戰(zhàn)變量,將挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)和F檢驗(yàn)值與冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較,包括: (el)將第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值與第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值進(jìn)行比較;以及 (e2)基于比較結(jié)果從第一變量組合中剔除所述第i個挑戰(zhàn)變量和第i個冠軍變量中的一個,將第i個挑戰(zhàn)變量和第i個冠軍變量中未被剔除的那個變量作為第i+Ι個冠軍變量;其中:i=l,2,3,…,η-l ;第I個冠軍變量即為初始冠軍變量; 若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都大于第i個冠軍變量的相應(yīng)值,則將所述第i個冠軍變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量置為第i+Ι個冠軍變量。 若所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和F檢驗(yàn)值都小于所述第i個冠軍變量的相應(yīng)值,則從第一變量組合中剔除所述第i個挑戰(zhàn)變量,將所述第i個冠軍變量置為第i+1個冠軍變量。 若第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值小于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值大于第i個冠軍變量的F檢驗(yàn)值,或者所述第i個挑戰(zhàn)變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值大于第i個冠軍變量的標(biāo)準(zhǔn)化參數(shù)估計(jì)值并且所述第i個挑戰(zhàn)變量的F檢驗(yàn)值小于第i個冠軍變量的F檢驗(yàn)值,則利用所述第i個挑戰(zhàn)變量、所述第i個冠軍變量與目標(biāo)變量構(gòu)建回歸模型,重新計(jì)算所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中的標(biāo)準(zhǔn)化的參數(shù)估計(jì)值,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型的中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較小的一個變量從第一變量組合中剔除,將所述第i個挑戰(zhàn)變量和所述第i個冠軍變量在所述回歸模型中標(biāo)準(zhǔn)化的參數(shù)估計(jì)值較大的一個變量置為第i+Ι個冠軍變量。 (e3)繼續(xù)執(zhí)行步驟(el)和(e2),直到剔除η-l個變量; 將在第一變量組合中剔除的η-l個變量從所述候選變量池中剔除。
14.如權(quán)利要求12所述的設(shè)備,其特征在于,從候選變量池中選擇符合預(yù)定標(biāo)準(zhǔn)的變量以構(gòu)成第一變量池的模塊(a)包括: 模塊(al ),用于基于候選變量池的變量,構(gòu)建變量的全集模型; 模塊(a2),用于利用所述全集模型,從候選變量池中選擇符合預(yù)定顯著性限值的變量,以構(gòu)成第一變量池。
【文檔編號】G06F19/00GK103942403SQ201310023651
【公開日】2014年7月23日 申請日期:2013年1月22日 優(yōu)先權(quán)日:2013年1月22日
【發(fā)明者】葉家杰, 盛子夏 申請人:阿里巴巴集團(tuán)控股有限公司