一種針對增量數(shù)據(jù)對頻繁項進行更新數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明公開了一種針對增量數(shù)據(jù)對頻繁項進行更新數(shù)據(jù)挖掘方法,不僅創(chuàng)新地同時解決了閾值變化以及數(shù)據(jù)庫數(shù)據(jù)增加兩種問題,并且引用了閾值加權(quán)系數(shù)和對原頻繁項的局部處理的來進行頻繁項更新的方法,大大降低了處理數(shù)據(jù)的復(fù)雜度,從而大大提高了算法的效率。
【專利說明】一種針對增量數(shù)據(jù)對頻繁項進行更新數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,尤其是涉及一種結(jié)合增量數(shù)據(jù)對頻繁項進行更新數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找出隱含的、有潛在價值的信息的過程。隨著信息技術(shù)的飛速發(fā)展,醫(yī)療、互聯(lián)網(wǎng)等各個領(lǐng)域產(chǎn)生的數(shù)據(jù)量不斷增加。海量數(shù)據(jù)下隱藏的高價值知識使得數(shù)據(jù)分析的重要性日益突顯。然而,由于數(shù)據(jù)量過大,使用傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)無法滿足海量級別信息的分析處理需求,給有效利用這些數(shù)據(jù)帶來了困難。關(guān)聯(lián)規(guī)則挖掘是近年來數(shù)據(jù)挖掘領(lǐng)域中,最活躍且最為廣泛應(yīng)用的研究方向之一。關(guān)聯(lián)規(guī)則挖掘的最初目的是,商家從大量的消費記錄中,尋找顧客所購商品的相關(guān)性,從而更好地指導(dǎo)銷售策略的制定。
[0003]目前,傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法分為三大類,分別是Apriori算法、閉合頻繁項挖掘和頻繁模式增長算法。就算法的原理來看,Apriori算法需要重復(fù)多次掃描外存中的數(shù)據(jù)以獲取頻繁項集,因此I/O負載高、算法的執(zhí)行性能差。閉合頻繁項挖掘是對Apriori算法的改進,只有在處理特定類型數(shù)據(jù)時能減少掃描次數(shù),效率依舊不高。
[0004]增量式頻繁模式增長算法僅通過2次掃描就能將所需的數(shù)據(jù)信息收集并壓縮至特殊的數(shù)據(jù)結(jié)構(gòu)一一頻繁模式樹,減少了在輸入輸出上花費的時間,使得算法效率得到很大提升。面向海量數(shù)據(jù)的數(shù)據(jù)挖掘一般有三種思路:抽樣、集成及MapReduce。從海量數(shù)據(jù)中抽樣,能夠迅速構(gòu)建數(shù)據(jù)挖掘模型,但抽樣可能導(dǎo)致結(jié)果出現(xiàn)偏差;集成方法將整個數(shù)據(jù)劃分為多個子集,分別運算,最后合并;MapReduce基于云計算平臺,用于海量級別數(shù)據(jù)的并行處理。目前,基于增量式頻繁模式增長數(shù)據(jù)挖掘方法僅能解決單一問題,如最小支持度閾值發(fā)生改變或數(shù)據(jù)庫內(nèi)容更新問題。
【發(fā)明內(nèi)容】
[0005]發(fā)明目的:為了克服上述現(xiàn)有技術(shù)存在的缺陷,給出了一種針對增量數(shù)據(jù)對頻繁項進行更新數(shù)據(jù)挖掘方法,用于在動態(tài)數(shù)據(jù)庫及動態(tài)閾值下對數(shù)據(jù)進行快速挖掘。
[0006]技術(shù)方案:一種增量式頻繁模式增長數(shù)據(jù)挖掘方法,包括以下步驟:
[0007](I)將原數(shù)據(jù)庫分成多個數(shù)據(jù)集,對每個數(shù)據(jù)集中各項的支持度計數(shù)進行并行計算,去除支持度低于閾值的非頻繁項,并對頻繁項按支持度降序排序,依據(jù)排序后的頻繁項列表對數(shù)據(jù)進行分組;
[0008](2)將各組頻繁項集進行整合,得到原數(shù)據(jù)庫的完整的頻繁項集;
[0009](3)將新增數(shù)據(jù)庫中各項的支持度進行并行計算,刪除支持度低于系數(shù)加權(quán)后的閾值的項,獲得新數(shù)據(jù)準頻繁項列表,并按照支持度降序排序;所述加權(quán)系數(shù)為小于等于I的任意正數(shù);
[0010](4)基于步驟(3)獲得的準頻繁項列表,對步驟(2)得到的頻繁項集進行更新。[0011]進一步的,所述步驟(4)對于頻繁項集的更新具體為對原頻繁項集中尾部數(shù)據(jù)進行更新;其中,所述頻繁項集的更新包括對原頻繁項集中頻繁項的支持度的更新和新的頻繁項的增加;所述對原頻繁項集中頻繁項的支持度的更新具體為,更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與新數(shù)據(jù)準頻繁項集中該項支持度之和;所述新的頻繁項的增加具體為,將新增數(shù)據(jù)中支持度大于閾值并且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到原頻繁數(shù)據(jù)集中。
[0012]一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,包括如下具體步驟:
[0013](31)針對新的數(shù)據(jù),基于閾值和選定的加權(quán)系數(shù),獲得新數(shù)據(jù)準頻繁項;
[0014](32)基于所述新數(shù)據(jù)準頻繁項和新閾值對原頻繁數(shù)據(jù)集進行更新。
[0015]進一步的,所述步驟(31)針對新的數(shù)據(jù)選用原閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù)。
[0016]進一步的,所述步驟(31)針對新的數(shù)據(jù)選用新閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù),如果沒有新的數(shù)據(jù)則僅對原頻繁項數(shù)據(jù)集針對新的閾值進行更新,刪除頻繁集中支持度低于新閾值的頻繁項。
[0017]進一步的,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中尾部數(shù)據(jù)的后半部分數(shù)據(jù)進行頻繁項支持度更新。
[0018]進一步的,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中支持度小于新閾值的頻繁項進行支持度更新,將更新支持度后期支持度仍然低于新的閾值的頻繁項從頻繁項集中刪除,更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與準頻繁項集中該項支持度之和。
[0019]進一步的,所述步驟(32)原頻繁數(shù)據(jù)集的更新包括對原頻繁項集中頻繁項的支持度的更新,和/或低支持度頻繁項的刪除,和/或新的頻繁項的增加。
[0020]進一步的,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,將新增數(shù)據(jù)中支持度大于閾值的頻繁項并且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到頻繁數(shù)據(jù)集中。
[0021]有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明不僅創(chuàng)新地同時解決了閾值變化以及數(shù)據(jù)庫數(shù)據(jù)增加兩種問題,并且引用了閾值加權(quán)系數(shù)和對原頻繁項的局部處理的來進行頻繁項更新的方法,大大降低了處理數(shù)據(jù)的復(fù)雜度,從而大大提高了算法的效率。
【專利附圖】
【附圖說明】
[0022]圖1為實施例1中方法流程圖;
[0023]圖2為實施例1中方法流程圖。
【具體實施方式】
[0024]下面結(jié)合附圖對本發(fā)明做更進一步的解釋。
[0025]一種增量式頻繁模式增長數(shù)據(jù)挖掘方法,包括以下步驟:
[0026](I)將原數(shù)據(jù)庫分成多個數(shù)據(jù)集,對每個數(shù)據(jù)集中各項的支持度計數(shù)進行并行計算,去除支持度低于閾值的非頻繁項,并對頻繁項按支持度降序排序,依據(jù)排序后的頻繁項列表對數(shù)據(jù)進行分組;[0027](2)將各組頻繁項集進行整合,得到原數(shù)據(jù)庫的完整的頻繁項集;
[0028](3)將新增數(shù)據(jù)庫中各項的支持度進行并行計算,刪除支持度低于系數(shù)加權(quán)后的閾值的項,獲得新數(shù)據(jù)準頻繁項列表,并按照支持度降序排序;該加權(quán)系數(shù)為小于等于I的任意正數(shù);
[0029](4)基于步驟(3)獲得的準頻繁項列表,對步驟(2)得到的頻繁項集進行更新。
[0030]其中,步驟(4)對于頻繁項集的更新具體為對原頻繁項集中尾部數(shù)據(jù)進行更新,即原頻繁項集中排序靠后,支持度較低的部分進行更新。其中,尾部數(shù)據(jù)可選按支持度降序排序后頻繁項集中后三分之一或四分之一的數(shù)據(jù)。該頻繁項集的更新包括對原頻繁項集中頻繁項的支持度的更新和新的頻繁項的增加。其中,對原頻繁項集中頻繁項的支持度的更新具體為,更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與新數(shù)據(jù)準頻繁項集中該項支持度之和;新的頻繁項的增加具體為,將新增數(shù)據(jù)中支持度大于閾值并且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到原頻繁數(shù)據(jù)集中。
[0031]一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,包括如下具體步驟:
[0032](61)針對新的數(shù)據(jù),基于閾值和選定的加權(quán)系數(shù),獲得新數(shù)據(jù)準頻繁項;
[0033](62)基于所述新數(shù)據(jù)準頻繁項和新閾值對原頻繁數(shù)據(jù)集進行更新。
[0034]其中,步驟(61)針對新的數(shù)據(jù)選用原閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù);步驟出1)針對新的數(shù)據(jù)還可以選用新閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù)。如果 沒有新的數(shù)據(jù)則僅對原頻繁項數(shù)據(jù)集針對新的閾值進行更新,刪除頻繁集中支持度低于新閾值的頻繁項。步驟(62)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中尾部數(shù)據(jù)即支持度較低的后半部分數(shù)據(jù)進行頻繁項支持度更新。進一步的,步驟(62)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中支持度小于新閾值的頻繁項進行支持度更新。
[0035]步驟(62)原頻繁數(shù)據(jù)集的更新包括對原頻繁項集中頻繁項的支持度的更新,和/或低支持度頻繁項的刪除,和/或新的頻繁項的增加。其中,步驟(62)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,將新增數(shù)據(jù)中支持度大于閾值的頻繁項并且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到頻繁數(shù)據(jù)集中;或?qū)⒏轮С侄群笃谥С侄热匀坏陀谛碌拈撝档念l繁項從頻繁項集中刪除;或更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與準頻繁項集中該項支持度之和。
[0036]實施例1:如圖1所示,針對增量數(shù)據(jù)對頻繁項進行更新的方法包括如下步驟:
[0037]步驟(1)將原始數(shù)據(jù)D進行分組,對每個數(shù)據(jù)集中各項的支持度計數(shù)進行并行計算,去除支持度低于閾值Vl的非頻繁項,并對頻繁項按支持度降序排序,依據(jù)排序后的頻繁項列表對數(shù)據(jù)進行分組;
[0038]步驟(2)將各組的頻繁數(shù)據(jù)項進行整合,獲取頻繁數(shù)據(jù)項集Pl。
[0039]步驟(3)針對新增數(shù)據(jù)Da進行支持度計算,并去除支持度低于加權(quán)系數(shù)b*閾值Vl的數(shù)據(jù)項,獲取新數(shù)據(jù)D2的準頻繁項P2d,并按照支持度降序排序。
[0040]步驟(4)利用準頻繁項更新頻繁項集P1,針對Pl中已經(jīng)存在的數(shù)據(jù)項更新支持度為原數(shù)據(jù)支持度與新數(shù)據(jù)支持度之和。針對未在Pi中出現(xiàn)的數(shù)據(jù)項,將支持度大于閾值Vl的數(shù)據(jù)項增加到Pl中。最終獲得新的頻繁項集P2。
[0041]實施例2:如圖2所示,針對增加了新數(shù)據(jù)Da和更新閾值V2的進行頻繁項更新的數(shù)據(jù)挖掘方法包括如下步驟:
[0042]步驟(I)將原始數(shù)據(jù)D進行分組,對每個數(shù)據(jù)集中各項的支持度計數(shù)進行并行計算,去除支持度低于閾值Vl的非頻繁項,并對頻繁項按支持度降序排序,依據(jù)排序后的頻繁項列表對數(shù)據(jù)進行分組;
[0043]步驟(2)將各組的頻繁數(shù)據(jù)項進行整合,獲取頻繁數(shù)據(jù)項集Pl。
[0044]步驟(3)針對新增數(shù)據(jù)D2進行支持度計算,并去除支持度低于加權(quán)系數(shù)b*閾值V2的數(shù)據(jù)項;獲取新數(shù)據(jù)D2的準頻繁項P2d,并按照支持度降序排序。
[0045]步驟(4)利用準頻繁項更新頻繁項集P1,針對Pl中已經(jīng)存在的數(shù)據(jù)項更新支持度為原數(shù)據(jù)支持度與新數(shù)據(jù)支持度之和,并將更新支持度后其支持度小于新的閾值V2的數(shù)據(jù)項刪除。針對未在Pl中出現(xiàn)的數(shù)據(jù)項,將支持度大于閾值Vl的數(shù)據(jù)項增加到Pl中。最終獲得新的頻繁項集P2。
[0046]以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。
【權(quán)利要求】
1.一種增量式頻繁模式增長數(shù)據(jù)挖掘方法,其特征在于,包括以下步驟: (1)將原數(shù)據(jù)庫分成多個數(shù)據(jù)集,對每個數(shù)據(jù)集中各項的支持度計數(shù)進行并行計算,去除支持度低于閾值的非頻繁項,并對頻繁項按支持度降序排序,依據(jù)排序后的頻繁項列表對數(shù)據(jù)進行分組; (2)將各組頻繁項集進行整合,得到原數(shù)據(jù)庫的完整的頻繁項集; (3)將新增數(shù)據(jù)庫中各項的支持度進行并行計算,刪除支持度低于系數(shù)加權(quán)后的閾值的項,獲得新 數(shù)據(jù)準頻繁項列表,并按照支持度降序排序;所述加權(quán)系數(shù)為小于等于I的任意正數(shù); (4)基于步驟(3)獲得的準頻繁項列表,對步驟(2)得到的頻繁項集進行更新。
2.根據(jù)權(quán)利要求1所述的一種增量式頻繁模式增長數(shù)據(jù)挖掘方法,其特征在于,所述步驟(4)對于頻繁項集的更新具體為對原頻繁項集中尾部數(shù)據(jù)進行更新;其中,所述頻繁項集的更新包括對原頻繁項集中頻繁項的支持度的更新和新的頻繁項的增加;所述對原頻繁項集中頻繁項的支持度的更新具體為,更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與新數(shù)據(jù)準頻繁項集中該項支持度之和;所述新的頻繁項的增加具體為,將新增數(shù)據(jù)中支持度大于閾值并且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到原頻繁數(shù)據(jù)集中。
3.一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,包括如下具體步驟: (31)針對新的數(shù)據(jù),基于閾值和選定的加權(quán)系數(shù),獲得新數(shù)據(jù)準頻繁項; (32)基于所述新數(shù)據(jù)準頻繁項和新閾值對原頻繁數(shù)據(jù)集進行更新。
4.根據(jù)權(quán)利要求3所述的一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(31)針對新的數(shù)據(jù)選用原閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù)。
5.根據(jù)權(quán)利要求3所述的一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(31)針對新的數(shù)據(jù)選用新閾值和加權(quán)系數(shù),對新數(shù)據(jù)進行處理獲取準頻繁項數(shù)據(jù),如果沒有新的數(shù)據(jù)則僅對原頻繁項數(shù)據(jù)集針對新的閾值進行更新,刪除頻繁集中支持度低于新閾值的頻繁項。
6.根據(jù)權(quán)利要求3所述的一種配置新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中尾部數(shù)據(jù)的后半部分數(shù)據(jù)進行頻繁項支持度更新。
7.根據(jù)權(quán)利要求3所述的一種配置了新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,選擇原數(shù)據(jù)頻繁項集中支持度小于新閾值的頻繁項進行支持度更新,將更新支持度后期支持度仍然低于新的閾值的頻繁項從頻繁項集中刪除,更新頻繁項支持度為原數(shù)據(jù)頻繁項集中支持度與準頻繁項集中該項支持度之和。
8.根據(jù)權(quán)利要求3所述的一種配置了新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(32)原頻繁數(shù)據(jù)集的更新包括對原頻繁項集中頻繁項的支持度的更新,和/或低支持度頻繁項的刪除,和/或新的頻繁項的增加。
9.據(jù)權(quán)利要求3所述的一種配置了新閾值和新數(shù)據(jù)的頻繁項更新處理方法,其特征在于,所述步驟(32)基于新數(shù)據(jù)準頻繁項對原數(shù)據(jù)頻繁項的處理中,將新增數(shù)據(jù)中支持度大于閾值的頻繁項并 且在原頻繁數(shù)據(jù)集中不存在的頻繁項,增加到頻繁數(shù)據(jù)集中。
【文檔編號】G06F17/30GK103984723SQ201410205412
【公開日】2014年8月13日 申請日期:2014年5月15日 優(yōu)先權(quán)日:2014年5月15日
【發(fā)明者】楊茂龍, 周小貞, 楊帆 申請人:江蘇易酒在線電子商務(wù)有限公司