專利名稱:基于隱私保護的數(shù)據(jù)挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,尤其涉及基于隱私保護的數(shù)據(jù)挖掘方法。
背景技術(shù):
當今的社會是一個信息爆炸的社會,互聯(lián)網(wǎng)的發(fā)展又加劇了信息的交換和傳播,所有這些又大大激發(fā)了從大量的數(shù)據(jù)中挖掘有用信息的需求,這些數(shù)據(jù)和由此產(chǎn)生的信息是每個行業(yè)的寶貴財富,它如實地記錄著經(jīng)營的本質(zhì)狀況。但是面對如此大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法,如數(shù)據(jù)檢索、統(tǒng)計分析只能獲得數(shù)據(jù)的表層信息,不能獲得其內(nèi)在的、深層次的信息,管理者面臨著數(shù)據(jù)豐富而知識貧乏的困境。因此如何從這些數(shù)據(jù)中挖掘出對經(jīng)營決策有用的知識是非常重要的。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于隱私保護的數(shù)據(jù)挖掘方法,其包含以下步驟
原始真實數(shù)據(jù)的變換步驟,對潛在的數(shù)字型屬性數(shù)據(jù)進行離散化,再對所有屬性設(shè)置轉(zhuǎn)移概率矩陣;
判定樹的生成步驟,在服務(wù)器端,統(tǒng)計變換后的數(shù)據(jù)記錄,利用變換后的訓(xùn)練樣本數(shù)據(jù)集S、已經(jīng)確定的分裂屬性集、分裂點及數(shù)據(jù)子集標志,逐步遞歸生成判定樹;
分類規(guī)則的產(chǎn)生步驟,對上述已生成的判定樹進行剪枝,產(chǎn)生分類規(guī)則。本發(fā)明發(fā)明的基于隱私保護的數(shù)據(jù)挖掘方法可以適用于非字符型數(shù)據(jù)和非均勻分布的原始數(shù)據(jù)也可以變換標簽屬性,在變換后的數(shù)據(jù)集上構(gòu)造的分類樹具有較高的精度。
圖I為基于隱私保護的數(shù)據(jù)挖掘方法的步驟流程圖。
具體實施例方式基于隱私保護的數(shù)據(jù)挖掘方法,其步驟流程圖如圖I所示,包含以下步驟
原始真實數(shù)據(jù)的變換步驟,對潛在的數(shù)字型屬性數(shù)據(jù)進行離散化,再對所有屬性設(shè)置轉(zhuǎn)移概率矩陣;
判定樹的生成步驟,在服務(wù)器端,統(tǒng)計變換后的數(shù)據(jù)記錄,利用變換后的訓(xùn)練樣本數(shù)據(jù)集S、已經(jīng)確定的分裂屬性集、分裂點及數(shù)據(jù)子集標志,逐步遞歸生成判定樹;
分類規(guī)則的產(chǎn)生步驟,對上述已生成的判定樹進行剪枝,產(chǎn)生分類規(guī)則。
權(quán)利要求
1.基于隱私保護的數(shù)據(jù)挖掘方法,其特征是,包含以下步驟 原始真實數(shù)據(jù)的變換步驟,對潛在的數(shù)字型屬性數(shù)據(jù)進行離散化,再對所有屬性設(shè)置轉(zhuǎn)移概率矩陣; 判定樹的生成步驟,在服務(wù)器端,統(tǒng)計變換后的數(shù)據(jù)記錄,利用變換后的訓(xùn)練樣本數(shù)據(jù)集S、已經(jīng)確定的分裂屬性集、分裂點及數(shù)據(jù)子集標志,逐步遞歸生成判定樹; 分類規(guī)則的產(chǎn)生步驟,對上述已生成的判定樹進行剪枝,產(chǎn)生分類規(guī)則。
全文摘要
本發(fā)明發(fā)明的基于隱私保護的數(shù)據(jù)挖掘方法,屬于數(shù)據(jù)挖掘領(lǐng)域,尤其涉及基于隱私保護的數(shù)據(jù)挖掘方法。包含以下步驟對原始真實數(shù)據(jù)進行變換步驟,對潛在的數(shù)字型屬性數(shù)據(jù)進行離散化,再對所有屬性設(shè)置轉(zhuǎn)移概率矩陣;判定樹的生成步驟,在服務(wù)器端,統(tǒng)計變換后的數(shù)據(jù)記錄,利用變換后的訓(xùn)練樣本數(shù)據(jù)集S、已經(jīng)確定的分裂屬性集、分裂點及數(shù)據(jù)子集標志,逐步遞歸生成判定樹;分類規(guī)則的產(chǎn)生步驟,對上述已生成的判定樹進行剪枝,產(chǎn)生分類規(guī)則。本方法可以適用于非字符型數(shù)據(jù)和非均勻分布的原始數(shù)據(jù)也可以變換標簽屬性,在變換后的數(shù)據(jù)集上構(gòu)造的分類樹具有較高的精度。
文檔編號G06F17/30GK102929896SQ20111023293
公開日2013年2月13日 申請日期2011年8月13日 優(yōu)先權(quán)日2011年8月13日
發(fā)明者丁力 申請人:句容今太科技園有限公司