專利名稱:基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及頻繁對(duì)象挖掘,更具體地,涉及基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘。
背景技術(shù):
對(duì)于來自大型序列數(shù)據(jù)庫的諸如頻繁閉合序列之類的頻繁對(duì)象的挖掘?qū)τ诟黝悜?yīng)用程序都很有益處。然而,開發(fā)高度地可擴(kuò)容挖掘算法仍然是一個(gè)開放式的研究課題。相應(yīng)的用于頻繁閉合序列的并行算法的主要策略是如圖3所示的,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行挖掘的任務(wù)進(jìn)行劃分,并且并行運(yùn)行所劃分得到的多個(gè)子任務(wù)。這種方法的可擴(kuò)容性受到機(jī)器隨機(jī)存取存儲(chǔ)器大小的限制,因?yàn)橹虚g的挖掘結(jié)果需要被存儲(chǔ)在每一個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)器中。現(xiàn)有技術(shù)的頻繁閉合序列挖掘方法一般只能用于最多具有一百萬到一千萬個(gè)對(duì)象的數(shù)據(jù)庫。發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容是為了介紹將在以下具體實(shí)施方式
中進(jìn)一步描述的頻繁對(duì)象挖掘的簡(jiǎn)化概念。本發(fā)明內(nèi)容并不旨在標(biāo)識(shí)所要求保護(hù)的主題的必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
為了解決這一問題,本發(fā)明提出了一種具有兩步的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。第一步驟是使用局部閾值來對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)集進(jìn)行挖掘以獲得局部頻繁對(duì)象集。其中局部閾值小于全局閾值除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)。這樣根據(jù)鴿籠原理(pigeonhole principle,參考文獻(xiàn)[4]),每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。第二步驟是從第一步驟中獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象。第二步驟的關(guān)鍵是從局部頻繁對(duì)象挖掘結(jié)果中得出對(duì)象的經(jīng)估計(jì)的全局支持度。
另外,本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法是對(duì)現(xiàn)有技術(shù)的基于任務(wù)劃分的頻繁對(duì)象挖掘方法的補(bǔ)充而不是替代,因?yàn)楸景l(fā)明可利用任何現(xiàn)有的基于任務(wù)劃分的頻繁對(duì)象挖掘方法(例如BIDE,參考文獻(xiàn)[I] [2])來執(zhí)行局部和全局頻繁對(duì)象挖掘。本發(fā)明還提供了計(jì)算局部閾值以確保期望的頻繁對(duì)象挖掘的召回率的方法。
實(shí)驗(yàn)結(jié)果證實(shí)本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法對(duì)于具有三百萬至一千萬個(gè)序列的序列數(shù)據(jù)集進(jìn)行挖掘可得到非常高的召回率(例如99%)的頻繁閉合序列。并且,與現(xiàn)有技術(shù)相比,本發(fā)明的頻繁對(duì)象挖掘方法具有非常高的可擴(kuò)容性,能夠?qū)哂谐^4億個(gè)序列的數(shù)據(jù)集進(jìn)行頻繁閉合序列挖掘。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
通過閱讀下面的詳細(xì)描述并參考相關(guān)聯(lián)的附圖,這些及其他特點(diǎn)和優(yōu)點(diǎn)將變得顯而易見??梢岳斫?,前述一般描述和以下的詳細(xì)描述都是說明性的,并且不限制所要求保護(hù)的各方面。
參考以下附圖描述了頻繁對(duì)象挖掘的各實(shí)施例。在各附圖中,使用相同的標(biāo)號(hào)來指示相同的特征和組件:
圖1示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的示意圖。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的局部挖掘結(jié)果的示意圖。
圖3是現(xiàn)有技術(shù)中基于任務(wù)劃分的頻繁對(duì)象挖掘方法的示意圖。
具體實(shí)施方式
下面結(jié)合附圖詳細(xì)描述本發(fā)明的具體實(shí)施方式
。
以下使用頻繁閉合序列挖掘方法作為示例描述本發(fā)明的頻繁對(duì)象挖掘方法。可以理解的是,本發(fā)明的頻繁對(duì)象挖掘方法不限于對(duì)閉合序列的挖掘,也可廣泛應(yīng)用于諸如對(duì)頻繁出現(xiàn)的項(xiàng)集(item set,例如{a, b, c, } (a、b、c之間不具有順序),或者對(duì)頻繁出現(xiàn)的子圖之類的其它任何頻繁出現(xiàn)的對(duì)象的挖掘。
頻繁閉序列校掘
設(shè)I = U1, i2,..., in}為一個(gè)不同項(xiàng)的集。序列s是一組事件的有序列表,記為e1; e2,...,et,其中ei是I中的一項(xiàng),即對(duì)于I彡i彡t,ei e I。序列的長(zhǎng)度被定義為序列中事件的數(shù)量(即項(xiàng)目的實(shí)例)。例如,序列ABABAC的長(zhǎng)度為6。如果存在整數(shù)I ( I1< I2〈…< I1 ( t,使得 ^i1 = CLi, biz = α2,...,bi, = at,則序列 Sb = Id1Id2 bt 包含 sa =已盧2 at。在這種情況下,sa被稱為是Sb的子序列,而Sb是Sa的超序列(super-sequence),記為辦。此外,如果Sa被稱為是Sb的子序列且Sa Φ sb,則記為Sac辦。
給定一序列數(shù)據(jù)庫集DB,序列8£1在08中的絕對(duì)支持度(support)是DB中包含Sa的序列的數(shù)量,記為sup (Sa),而相對(duì)支持度是DB中包含Sa的序列的百分比,記為SUPdb (Sa)/I DB I,其中DB是DB中的序列的總數(shù)。
給定最小支持度閾值min_sup,如果supDB(sa)彡min_sup,則序列Sa是DB中的頻繁序列。如果Sa不存在具有相同支持度的超序列,即不存在Sb使得辦,且supDB (Sa)=supDB(sb),則83是08中的閉序列。所有的這類閉序列的完整的集被記為FCS(min_sup,DB)。挖掘FCS的問題就是對(duì)于輸入序列數(shù)據(jù)集DB,在給定最小支持度閾值min_sup的情況下,找出 FCS(min_sup, DB)。
基于數(shù)據(jù)劃分的頻繁閉序列挖掘
定理一:設(shè)序列s為數(shù)據(jù)庫DB中的頻繁序列,即SUpDB(S)彡k,其中k是全局閾值;DB具有m個(gè)部分=1calDBi, i = 1,2,,m ;若局部閾值為k’,m.k'彡k,則存在i (I ≤ i ≤ m),使得 Supioca1-叫⑷ > k'。
根據(jù)定理一可知,若序列s為數(shù)據(jù)庫DB中的頻繁序列,若取局部閾值k’小于全局閾值k除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)m,則序列s在至少一個(gè)子部分中也是頻繁序列。
事實(shí)上,在定理一中,并不要求序列s是閉序列。換句話說,具有全局閾值k的DB中的任何頻繁序列s在至少一個(gè)經(jīng)劃分的具有局部閾值k’的部分中也是頻繁的。
基于定理一,可以容易地得到與局部FCS挖掘結(jié)果集FCS (k’,1calDBi)的性質(zhì)有關(guān)定理~.0
定理二:對(duì)于任意S e FCS (k,DB),存在i (I ( i彡m),并且存在s’,使得S,e FCS(k,,local.DBi)。
根據(jù)定理二,每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。
以下將討論從這一局部FCS挖掘集合中挖掘出全局FCS進(jìn)行的方法。為了確保絕大部分的全局FCS被挖掘出來,需要仔細(xì)選擇局部閾值k’的值,這也將在下文中詳細(xì)討論。
假設(shè)已得到m個(gè)局部FCS結(jié)果集FCS (k’,1calDBi), i = 1,2,,m,則將它們的并集記為:
權(quán)利要求
1.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法,其特征在于,包括以下步驟: 使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的第一步驟,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 從所獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的第二步驟。
2.如權(quán)利要求1所述的方法,其特征在于,所述第二步驟包括: 根據(jù)局部頻繁對(duì)象集中的每個(gè)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該對(duì)象在所述全局?jǐn)?shù)據(jù)集中的全局支持度;以及 將每個(gè)局部頻繁對(duì)象的估計(jì)的全局支持度與全局閾值相比較,以得出全局頻繁對(duì)象。
3.如權(quán)利要求1所述的方法,其特征在于,所述局部閾值小于全局閾值除以局部數(shù)據(jù)集的個(gè)數(shù)。
4.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
5.一種用于從局部頻繁對(duì)象中挖掘全局頻繁對(duì)象的方法,其特征在于,所述方法包括: 根據(jù)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該局部頻繁對(duì)象在全局?jǐn)?shù)據(jù)集中的全局支持度,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 將估計(jì)的局部頻繁對(duì)象的全局支持度與全局閾值相比較,以得出全局頻繁對(duì)象。
6.如權(quán)利要求5所述的方法,其特征在于,所述估計(jì)的局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度是等于其超對(duì)象中的一個(gè)的支持度,這個(gè)超對(duì)象在所有是所述局部頻繁對(duì)象的超對(duì)象的頻繁對(duì)象中具有在所在的局部數(shù)據(jù)集中的最大的支持度。
7.如權(quán)利要求5所述的方法,其特征在于,所述估計(jì)的局部頻繁對(duì)象的全局支持度是該局部頻繁對(duì)象在所有局部數(shù)據(jù)集中的支持度的和。
8.如權(quán)利要求7所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
9.一種用于局部數(shù)據(jù)集進(jìn)行頻繁對(duì)象挖掘的方法,其特征在于,所述局部數(shù)據(jù)集是通過對(duì)全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的,所述方法包括使用局部閾值來對(duì)所述局部數(shù)據(jù)集進(jìn)行挖掘,其中所述局部閾值小于全局閾值除以所述局部數(shù)據(jù)集的個(gè)數(shù)。
10.如權(quán)利要求9所述的方法,其特征在于,所述局部閾值通過以下不等式來選取:k t1-a k(jn — I) fc' <- +.^- mm 其中,k是全局閾值,k’是局部閾值,m是局部數(shù)據(jù)集的個(gè)數(shù),α為期望召回率,tx為滿足等式Φ (tx) = X的實(shí)值,而Φ (.)為標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)。
11.如權(quán)利要求10所述的方法,其特征在于,0.9 ^ α <1。
12.如權(quán)利要求10所述的方法,其特征在于,0<¥^).05。
13.如權(quán)利要求10所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
14.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘系統(tǒng),其特征在于,所述系統(tǒng)包括:用于使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的裝置,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 用于從獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的裝置。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè) 。
全文摘要
本發(fā)明提供了一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。首先,用一相對(duì)較小的局部閾值對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)庫進(jìn)行局部頻繁對(duì)象挖掘,然后再從局部挖掘?qū)ο蟮牟⒓型诰蛉诸l繁對(duì)象。這種方法解決了現(xiàn)有的頻繁對(duì)象挖掘方法的規(guī)模受限于存儲(chǔ)器容量的問題。當(dāng)應(yīng)用于挖掘頻繁閉序列時(shí),可作用于例如超過4億個(gè)序列的超大規(guī)模的序列數(shù)據(jù)庫,且具有例如99%的高召回率。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
文檔編號(hào)G06F17/30GK103150311SQ201110418088
公開日2013年6月12日 申請(qǐng)日期2011年12月7日 優(yōu)先權(quán)日2011年12月7日
發(fā)明者黨映農(nóng), 戈頌, 韓石, 張冬梅, 曾明, 吳桐, 蔣駿, 高志涵 申請(qǐng)人:微軟公司