一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法

文檔序號(hào)：6631866閱讀：359來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明提供一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，是充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn)，采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利說(shuō)明】一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)模式識(shí)別及機(jī)器學(xué)習(xí)【技術(shù)領(lǐng)域】，具體地說(shuō)是一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。

【背景技術(shù)】
[0002]離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因:
1)度量或執(zhí)行錯(cuò)誤所導(dǎo)致對(duì)這類型離群數(shù)據(jù)的篩選，可以從大量數(shù)據(jù)中篩選出雜質(zhì)或存在問題的數(shù)據(jù)，進(jìn)而提高數(shù)據(jù)的總體質(zhì)量；
2)固有的數(shù)據(jù)變異性的結(jié)果這類型數(shù)據(jù)的客觀存在決定了對(duì)該類型離群數(shù)據(jù)篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù)，可以很好的提高相關(guān)理論的研究。
[0003]隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大，傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有計(jì)算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。針對(duì)此問題，本發(fā)明公開了一種從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法。該方法充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn)，采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是提供一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
[0005]本發(fā)明的目的是按以下方式實(shí)現(xiàn)的，采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選，包括以下幾個(gè)步驟:
1)數(shù)據(jù)預(yù)處理
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，消除數(shù)據(jù)間的不一致性同時(shí)歸一化各個(gè)數(shù)據(jù)，具體操作包括:數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)歸約，得到的特征矩陣記為T，其大小為N*M，其中N為所有樣本的數(shù)目，M為原始特征屬性的個(gè)數(shù)；
2)特征選取與變換
特征選取是從所有屬性篩選去掉對(duì)后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性，特征變換是利用當(dāng)前屬性通過(guò)變換得到新特征空間的屬性，得到的特征矩陣記為Ts，其大小為N*m,其中N為所有樣本的數(shù)目，m為篩選和變換之后屬性的個(gè)數(shù)；
3)初始化變量
記兩個(gè)長(zhǎng)度為N的全零向量分別為Co、Cs，分別用于保存后續(xù)計(jì)算中離群因子的加和及樣本篩選次數(shù)； 4)迭代
通過(guò)以下迭代更新向量Co及Cs，迭代到一定次數(shù)k即終止:
(O隨機(jī)選擇一個(gè)子樣本集，大小固定為η ;
(2)向量Cs中對(duì)應(yīng)元素?cái)?shù)值加I;
(3)從矩陣Ts中篩選對(duì)應(yīng)行，并計(jì)算該矩陣對(duì)應(yīng)的局部孤立性因子；
(4)向量Co對(duì)應(yīng)數(shù)值分別加上步得到的局部孤立性因子；
5)離群指數(shù)計(jì)算
通過(guò)向量Co及Cs計(jì)算得到向量COI為離群因子，計(jì)算公式為:C0I=Co/Cs ；
6)離群數(shù)據(jù)篩選
按照向量COI對(duì)應(yīng)數(shù)值從大到小的順序，篩選前I個(gè)樣本作為離群數(shù)據(jù)。
[0006]通過(guò)隨機(jī)米樣來(lái)得到一個(gè)規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本，米樣時(shí)米取完全隨機(jī)采樣或采用加權(quán)采樣。
[0007]通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算，不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量。
[0008]通過(guò)迭代過(guò)程共享的兩個(gè)數(shù)值變量來(lái)計(jì)算每個(gè)樣本的離群指數(shù)，該指數(shù)表征了該樣本離群的趨勢(shì)，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
[0009]本發(fā)明的目的有益效果是:從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法，充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計(jì)算時(shí)間及空間復(fù)雜度的特點(diǎn)，采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選。

【專利附圖】

【附圖說(shuō)明】
[0010]圖1是從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)流程圖；
圖2是采樣后的小樣本局部孤立性因子計(jì)算流程圖；
圖3是迭代過(guò)程共享變量的更新流程圖；
圖4是離群指數(shù)的計(jì)算過(guò)程圖；
圖5是并行化篩選離群數(shù)據(jù)流程圖。

【具體實(shí)施方式】
[0011]參照說(shuō)明書附圖對(duì)本發(fā)明的一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法作以下詳細(xì)地說(shuō)明。
[0012]一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，設(shè)計(jì)思路如下:
I)主要分為數(shù)據(jù)預(yù)處理、特征選取與變換、初始化變量、迭代、離群指數(shù)計(jì)算、離群數(shù)據(jù)篩選六個(gè)階段進(jìn)行開發(fā)實(shí)施。為保證流程的一致性及中間結(jié)果的可復(fù)用性，建議采取采用統(tǒng)一的開發(fā)編程語(yǔ)言來(lái)完成； 2)本發(fā)明中使用的基本算法可以重新編寫，也可以采用現(xiàn)有程序包；
3)本發(fā)明中多次使用距離度量。距離的定義是靈活的，可以采用歐氏距離、曼哈頓距離、余弦距離等?？紤]到余弦距離計(jì)算時(shí)更簡(jiǎn)單且快速，建議使用余弦距離；
4 )采樣時(shí)可以采取完全隨機(jī)采樣,也可以采用加權(quán)采樣,采樣率較低的樣本權(quán)值高；
5)步驟4的迭代過(guò)程，由于不同迭代之間不存在耦合性，因此可以采用并行迭代計(jì)算結(jié)構(gòu)(如附圖5所示)；
6)通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算，不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量；在改寫數(shù)值時(shí)，需要對(duì)變量進(jìn)行加/解鎖操作；
7)離群指數(shù)結(jié)表征了該樣本離群的趨勢(shì)，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
[0013]本發(fā)明方法定義了一種離群指數(shù)的定義及計(jì)算方法，實(shí)際實(shí)施是，可以此為基礎(chǔ)改進(jìn)其定義方式及計(jì)算方法。
[0014]除說(shuō)明書所述的技術(shù)特征外，均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，其特征在于采用隨機(jī)采樣來(lái)減小參與計(jì)算的樣本數(shù)量，采用并行計(jì)算來(lái)加速運(yùn)算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對(duì)計(jì)算時(shí)間和內(nèi)存空間的要求較高的問題，從而實(shí)現(xiàn)快速且有效的離群數(shù)據(jù)篩選，包括以下幾個(gè)步驟: 1)數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，消除數(shù)據(jù)間的不一致性同時(shí)歸一化各個(gè)數(shù)據(jù)，具體操作包括:數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)歸約，得到的特征矩陣記為T，其大小為N*M，其中N為所有樣本的數(shù)目，M為原始特征屬性的個(gè)數(shù)； 2)特征選取與變換特征選取是從所有屬性篩選去掉對(duì)后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性，特征變換是利用當(dāng)前屬性通過(guò)變換得到新特征空間的屬性，得到的特征矩陣記為Ts，其大小為N*m,其中N為所有樣本的數(shù)目，m為篩選和變換之后屬性的個(gè)數(shù)； 3)初始化變量記兩個(gè)長(zhǎng)度為N的全零向量分別為Co、Cs，分別用于保存后續(xù)計(jì)算中離群因子的加和及樣本篩選次數(shù)； 4)迭代通過(guò)以下迭代更新向量Co及Cs，迭代到一定次數(shù)k即終止: (O隨機(jī)選擇一個(gè)子樣本集，大小固定為η ； (2)向量Cs中對(duì)應(yīng)元素?cái)?shù)值加I; (3)從矩陣Ts中篩選對(duì)應(yīng)行，并計(jì)算該矩陣對(duì)應(yīng)的局部孤立性因子； (4)向量Co對(duì)應(yīng)數(shù)值分別加上步得到的局部孤立性因子； 5)離群指數(shù)計(jì)算通過(guò)向量Co及Cs計(jì)算得到向量COI為離群因子，計(jì)算公式為:C0I=Co/Cs ； 6)離群數(shù)據(jù)篩選按照向量COI對(duì)應(yīng)數(shù)值從大到小的順序，篩選前I個(gè)樣本作為離群數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于通過(guò)隨機(jī)采樣來(lái)得到一個(gè)規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本，采樣時(shí)采取完全隨機(jī)采樣或采用加權(quán)采樣。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過(guò)多線程和多進(jìn)程方式來(lái)加速非耦合迭代過(guò)程計(jì)算，不同線程或進(jìn)程間需要共享訪問兩個(gè)數(shù)值變量。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過(guò)迭代過(guò)程共享的兩個(gè)數(shù)值變量來(lái)計(jì)算每個(gè)樣本的離群指數(shù)，該指數(shù)表征了該樣本離群的趨勢(shì)，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK104346445SQ201410584552
【公開日】2015年2月11日申請(qǐng)日期:2014年10月28日優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】王恩東, 張東, 吳楠, 韋鵬, 付興旺申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王恩東;張東;吳楠;韋鵬;付興旺
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：一種基于HBase的大表join方法
上一篇：一種帶有電源管理的多接口移動(dòng)安全設(shè)備及其工作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

快速篩選重復(fù)數(shù)據(jù)相關(guān)技術(shù)

excel重復(fù)數(shù)據(jù)篩選相關(guān)技術(shù)

兩個(gè)表格相同數(shù)據(jù)篩選相關(guān)技術(shù)

如何復(fù)制篩選后的數(shù)據(jù)相關(guān)技術(shù)

篩選重復(fù)數(shù)據(jù)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種快速?gòu)拇笠?guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法