一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明提供一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,是充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn),采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利說(shuō)明】一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)模式識(shí)別及機(jī)器學(xué)習(xí)【技術(shù)領(lǐng)域】,具體地說(shuō)是一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
【背景技術(shù)】
[0002]離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因:
1)度量或執(zhí)行錯(cuò)誤所導(dǎo)致對(duì)這類型離群數(shù)據(jù)的篩選,可以從大量數(shù)據(jù)中篩選出雜質(zhì)或存在問題的數(shù)據(jù),進(jìn)而提高數(shù)據(jù)的總體質(zhì)量;
2)固有的數(shù)據(jù)變異性的結(jié)果這類型數(shù)據(jù)的客觀存在決定了對(duì)該類型離群數(shù)據(jù)篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù),可以很好的提高相關(guān)理論的研究。
[0003]隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大,傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有計(jì)算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。針對(duì)此問題,本發(fā)明公開了一種從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法。該方法充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn),采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
[0005]本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選,包括以下幾個(gè)步驟:
1)數(shù)據(jù)預(yù)處理
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性同時(shí)歸一化各個(gè)數(shù)據(jù),具體操作包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約,得到的特征矩陣記為T,其大小為N*M,其中N為所有樣本的數(shù)目,M為原始特征屬性的個(gè)數(shù);
2)特征選取與變換
特征選取是從所有屬性篩選去掉對(duì)后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性,特征變換是利用當(dāng)前屬性通過(guò)變換得到新特征空間的屬性,得到的特征矩陣記為Ts,其大小為N*m,其中N為所有樣本的數(shù)目,m為篩選和變換之后屬性的個(gè)數(shù);
3)初始化變量
記兩個(gè)長(zhǎng)度為N的全零向量分別為Co、Cs,分別用于保存后續(xù)計(jì)算中離群因子的加和及樣本篩選次數(shù); 4)迭代
通過(guò)以下迭代更新向量Co及Cs,迭代到一定次數(shù)k即終止:
(O隨機(jī)選擇一個(gè)子樣本集,大小固定為η ;
(2)向量Cs中對(duì)應(yīng)元素?cái)?shù)值加I;
(3)從矩陣Ts中篩選對(duì)應(yīng)行,并計(jì)算該矩陣對(duì)應(yīng)的局部孤立性因子;
(4)向量Co對(duì)應(yīng)數(shù)值分別加上步得到的局部孤立性因子;
5)離群指數(shù)計(jì)算
通過(guò)向量Co及Cs計(jì)算得到向量COI為離群因子,計(jì)算公式為:C0I=Co/Cs ;
6)離群數(shù)據(jù)篩選
按照向量COI對(duì)應(yīng)數(shù)值從大到小的順序,篩選前I個(gè)樣本作為離群數(shù)據(jù)。
[0006]通過(guò)隨機(jī)米樣來(lái)得到一個(gè)規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本,米樣時(shí)米取完全隨機(jī)采樣或采用加權(quán)采樣。
[0007]通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算,不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量。
[0008]通過(guò)迭代過(guò)程共享的兩個(gè)數(shù)值變量來(lái)計(jì)算每個(gè)樣本的離群指數(shù),該指數(shù)表征了該樣本離群的趨勢(shì),數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
[0009]本發(fā)明的目的有益效果是:從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法,充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn),采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利附圖】
【附圖說(shuō)明】
[0010]圖1是從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)流程圖;
圖2是采樣后的小樣本局部孤立性因子計(jì)算流程圖;
圖3是迭代過(guò)程共享變量的更新流程圖;
圖4是離群指數(shù)的計(jì)算過(guò)程圖;
圖5是并行化篩選離群數(shù)據(jù)流程圖。
【具體實(shí)施方式】
[0011]參照說(shuō)明書附圖對(duì)本發(fā)明的一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法作以下詳細(xì)地說(shuō)明。
[0012]一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,設(shè)計(jì)思路如下:
I)主要分為數(shù)據(jù)預(yù)處理、特征選取與變換、初始化變量、迭代、離群指數(shù)計(jì)算、離群數(shù)據(jù)篩選六個(gè)階段進(jìn)行開發(fā)實(shí)施。為保證流程的一致性及中間結(jié)果的可復(fù)用性,建議采取采用統(tǒng)一的開發(fā)編程語(yǔ)言來(lái)完成; 2)本發(fā)明中使用的基本算法可以重新編寫,也可以采用現(xiàn)有程序包;
3)本發(fā)明中多次使用距離度量。距離的定義是靈活的,可以采用歐氏距離、曼哈頓距離、余弦距離等??紤]到余弦距離計(jì)算時(shí)更簡(jiǎn)單且快速,建議使用余弦距離;
4 )采樣時(shí)可以采取完全隨機(jī)采樣,也可以采用加權(quán)采樣,采樣率較低的樣本權(quán)值高;
5)步驟4的迭代過(guò)程,由于不同迭代之間不存在耦合性,因此可以采用并行迭代計(jì)算結(jié)構(gòu)(如附圖5所示);
6)通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算,不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量;在改寫數(shù)值時(shí),需要對(duì)變量進(jìn)行加/解鎖操作;
7)離群指數(shù)結(jié)表征了該樣本離群的趨勢(shì),數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
[0013]本發(fā)明方法定義了一種離群指數(shù)的定義及計(jì)算方法,實(shí)際實(shí)施是,可以此為基礎(chǔ)改進(jìn)其定義方式及計(jì)算方法。
[0014]除說(shuō)明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,其特征在于采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量,采用并行計(jì)算來(lái)加速運(yùn)算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題,從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選,包括以下幾個(gè)步驟: 1)數(shù)據(jù)預(yù)處理 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性同時(shí)歸一化各個(gè)數(shù)據(jù),具體操作包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約,得到的特征矩陣記為T,其大小為N*M,其中N為所有樣本的數(shù)目,M為原始特征屬性的個(gè)數(shù); 2)特征選取與變換 特征選取是從所有屬性篩選去掉對(duì)后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性,特征變換是利用當(dāng)前屬性通過(guò)變換得到新特征空間的屬性,得到的特征矩陣記為Ts,其大小為N*m,其中N為所有樣本的數(shù)目,m為篩選和變換之后屬性的個(gè)數(shù); 3)初始化變量 記兩個(gè)長(zhǎng)度為N的全零向量分別為Co、Cs,分別用于保存后續(xù)計(jì)算中離群因子的加和及樣本篩選次數(shù); 4)迭代 通過(guò)以下迭代更新向量Co及Cs,迭代到一定次數(shù)k即終止: (O隨機(jī)選擇一個(gè)子樣本集,大小固定為η ; (2)向量Cs中對(duì)應(yīng)元素?cái)?shù)值加I; (3)從矩陣Ts中篩選對(duì)應(yīng)行,并計(jì)算該矩陣對(duì)應(yīng)的局部孤立性因子; (4)向量Co對(duì)應(yīng)數(shù)值分別加上步得到的局部孤立性因子; 5)離群指數(shù)計(jì)算 通過(guò)向量Co及Cs計(jì)算得到向量COI為離群因子,計(jì)算公式為:C0I=Co/Cs ; 6)離群數(shù)據(jù)篩選 按照向量COI對(duì)應(yīng)數(shù)值從大到小的順序,篩選前I個(gè)樣本作為離群數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于通過(guò)隨機(jī)采樣來(lái)得到一個(gè)規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本,采樣時(shí)采取完全隨機(jī)采樣或采用加權(quán)采樣。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算,不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)迭代過(guò)程共享的兩個(gè)數(shù)值變量來(lái)計(jì)算每個(gè)樣本的離群指數(shù),該指數(shù)表征了該樣本離群的趨勢(shì),數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK104346445SQ201410584552
【公開日】2015年2月11日 申請(qǐng)日期:2014年10月28日 優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】王恩東, 張東, 吳楠, 韋鵬, 付興旺 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司