基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法

文檔序號(hào)：6441251閱讀：339來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及頻繁對(duì)象挖掘，更具體地，涉及基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘。
背景技術(shù)：
對(duì)于來自大型序列數(shù)據(jù)庫的諸如頻繁閉合序列之類的頻繁對(duì)象的挖掘?qū)τ诟黝悜?yīng)用程序都很有益處。然而，開發(fā)高度地可擴(kuò)容挖掘算法仍然是一個(gè)開放式的研究課題。相應(yīng)的用于頻繁閉合序列的并行算法的主要策略是如圖3所示的，對(duì)整個(gè)數(shù)據(jù)集進(jìn)行挖掘的任務(wù)進(jìn)行劃分，并且并行運(yùn)行所劃分得到的多個(gè)子任務(wù)。這種方法的可擴(kuò)容性受到機(jī)器隨機(jī)存取存儲(chǔ)器大小的限制，因?yàn)橹虚g的挖掘結(jié)果需要被存儲(chǔ)在每一個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)器中。現(xiàn)有技術(shù)的頻繁閉合序列挖掘方法一般只能用于最多具有一百萬到一千萬個(gè)對(duì)象的數(shù)據(jù)庫。發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容是為了介紹將在以下具體實(shí)施方式
中進(jìn)一步描述的頻繁對(duì)象挖掘的簡(jiǎn)化概念。本發(fā)明內(nèi)容并不旨在標(biāo)識(shí)所要求保護(hù)的主題的必要特征，也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
為了解決這一問題，本發(fā)明提出了一種具有兩步的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。第一步驟是使用局部閾值來對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)集進(jìn)行挖掘以獲得局部頻繁對(duì)象集。其中局部閾值小于全局閾值除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)。這樣根據(jù)鴿籠原理(pigeonhole principle,參考文獻(xiàn)[4]),每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。第二步驟是從第一步驟中獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象。第二步驟的關(guān)鍵是從局部頻繁對(duì)象挖掘結(jié)果中得出對(duì)象的經(jīng)估計(jì)的全局支持度。
另外，本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法是對(duì)現(xiàn)有技術(shù)的基于任務(wù)劃分的頻繁對(duì)象挖掘方法的補(bǔ)充而不是替代，因?yàn)楸景l(fā)明可利用任何現(xiàn)有的基于任務(wù)劃分的頻繁對(duì)象挖掘方法(例如BIDE，參考文獻(xiàn)[I] [2])來執(zhí)行局部和全局頻繁對(duì)象挖掘。本發(fā)明還提供了計(jì)算局部閾值以確保期望的頻繁對(duì)象挖掘的召回率的方法。
實(shí)驗(yàn)結(jié)果證實(shí)本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法對(duì)于具有三百萬至一千萬個(gè)序列的序列數(shù)據(jù)集進(jìn)行挖掘可得到非常高的召回率(例如99%)的頻繁閉合序列。并且，與現(xiàn)有技術(shù)相比，本發(fā)明的頻繁對(duì)象挖掘方法具有非常高的可擴(kuò)容性，能夠?qū)哂谐^4億個(gè)序列的數(shù)據(jù)集進(jìn)行頻繁閉合序列挖掘。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
通過閱讀下面的詳細(xì)描述并參考相關(guān)聯(lián)的附圖，這些及其他特點(diǎn)和優(yōu)點(diǎn)將變得顯而易見?？梢岳斫?，前述一般描述和以下的詳細(xì)描述都是說明性的，并且不限制所要求保護(hù)的各方面。

參考以下附圖描述了頻繁對(duì)象挖掘的各實(shí)施例。在各附圖中，使用相同的標(biāo)號(hào)來指示相同的特征和組件:
圖1示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的示意圖。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的局部挖掘結(jié)果的示意圖。
圖3是現(xiàn)有技術(shù)中基于任務(wù)劃分的頻繁對(duì)象挖掘方法的示意圖。
具體實(shí)施方式
下面結(jié)合附圖詳細(xì)描述本發(fā)明的具體實(shí)施方式
。
以下使用頻繁閉合序列挖掘方法作為示例描述本發(fā)明的頻繁對(duì)象挖掘方法。可以理解的是，本發(fā)明的頻繁對(duì)象挖掘方法不限于對(duì)閉合序列的挖掘，也可廣泛應(yīng)用于諸如對(duì)頻繁出現(xiàn)的項(xiàng)集(item set,例如{a, b, c, } (a、b、c之間不具有順序)，或者對(duì)頻繁出現(xiàn)的子圖之類的其它任何頻繁出現(xiàn)的對(duì)象的挖掘。
頻繁閉序列校掘
設(shè)I = U1, i2,..., in}為一個(gè)不同項(xiàng)的集。序列s是一組事件的有序列表,記為e1； e2，...，et，其中ei是I中的一項(xiàng)，即對(duì)于I彡i彡t，ei e I。序列的長(zhǎng)度被定義為序列中事件的數(shù)量(即項(xiàng)目的實(shí)例)。例如，序列ABABAC的長(zhǎng)度為6。如果存在整數(shù)I ( I1< I2〈…< I1 ( t,使得 ^i1 = CLi, biz = α2,...,bi, = at,則序列 Sb = Id1Id2 bt 包含 sa =已盧2 at。在這種情況下，sa被稱為是Sb的子序列，而Sb是Sa的超序列(super-sequence)，記為辦。此外，如果Sa被稱為是Sb的子序列且Sa Φ sb,則記為Sac辦。
給定一序列數(shù)據(jù)庫集DB,序列8￡1在08中的絕對(duì)支持度(support)是DB中包含Sa的序列的數(shù)量，記為sup (Sa)，而相對(duì)支持度是DB中包含Sa的序列的百分比，記為SUPdb (Sa)/I DB I，其中DB是DB中的序列的總數(shù)。
給定最小支持度閾值min_sup,如果supDB(sa)彡min_sup,則序列Sa是DB中的頻繁序列。如果Sa不存在具有相同支持度的超序列，即不存在Sb使得辦，且supDB (Sa)=supDB(sb)，則83是08中的閉序列。所有的這類閉序列的完整的集被記為FCS(min_sup，DB)。挖掘FCS的問題就是對(duì)于輸入序列數(shù)據(jù)集DB,在給定最小支持度閾值min_sup的情況下,找出 FCS(min_sup, DB)。
基于數(shù)據(jù)劃分的頻繁閉序列挖掘
定理一:設(shè)序列s為數(shù)據(jù)庫DB中的頻繁序列，即SUpDB(S)彡k，其中k是全局閾值；DB具有m個(gè)部分=1calDBi, i = 1，2，，m ;若局部閾值為k’，m.k'彡k，則存在i (I ≤ i ≤ m)，使得 Supioca1-叫⑷ > k'。
根據(jù)定理一可知，若序列s為數(shù)據(jù)庫DB中的頻繁序列，若取局部閾值k’小于全局閾值k除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)m，則序列s在至少一個(gè)子部分中也是頻繁序列。
事實(shí)上，在定理一中，并不要求序列s是閉序列。換句話說，具有全局閾值k的DB中的任何頻繁序列s在至少一個(gè)經(jīng)劃分的具有局部閾值k’的部分中也是頻繁的。
基于定理一，可以容易地得到與局部FCS挖掘結(jié)果集FCS (k’，1calDBi)的性質(zhì)有關(guān)定理~.0
定理二:對(duì)于任意S e FCS (k，DB)，存在i (I ( i彡m)，并且存在s’，使得S，e FCS(k，，local.DBi)。
根據(jù)定理二，每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。
以下將討論從這一局部FCS挖掘集合中挖掘出全局FCS進(jìn)行的方法。為了確保絕大部分的全局FCS被挖掘出來，需要仔細(xì)選擇局部閾值k’的值，這也將在下文中詳細(xì)討論。
假設(shè)已得到m個(gè)局部FCS結(jié)果集FCS (k’，1calDBi), i = 1,2,，m，則將它們的并集記為:
權(quán)利要求
1.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法，其特征在于，包括以下步驟: 使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的第一步驟，其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的；以及從所獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的第二步驟。
2.如權(quán)利要求1所述的方法，其特征在于，所述第二步驟包括: 根據(jù)局部頻繁對(duì)象集中的每個(gè)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該對(duì)象在所述全局?jǐn)?shù)據(jù)集中的全局支持度；以及將每個(gè)局部頻繁對(duì)象的估計(jì)的全局支持度與全局閾值相比較，以得出全局頻繁對(duì)象。
3.如權(quán)利要求1所述的方法，其特征在于，所述局部閾值小于全局閾值除以局部數(shù)據(jù)集的個(gè)數(shù)。
4.如權(quán)利要求1所述的方法，其特征在于，所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
5.一種用于從局部頻繁對(duì)象中挖掘全局頻繁對(duì)象的方法，其特征在于，所述方法包括: 根據(jù)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該局部頻繁對(duì)象在全局?jǐn)?shù)據(jù)集中的全局支持度，其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的；以及將估計(jì)的局部頻繁對(duì)象的全局支持度與全局閾值相比較，以得出全局頻繁對(duì)象。
6.如權(quán)利要求5所述的方法，其特征在于，所述估計(jì)的局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度是等于其超對(duì)象中的一個(gè)的支持度，這個(gè)超對(duì)象在所有是所述局部頻繁對(duì)象的超對(duì)象的頻繁對(duì)象中具有在所在的局部數(shù)據(jù)集中的最大的支持度。
7.如權(quán)利要求5所述的方法，其特征在于，所述估計(jì)的局部頻繁對(duì)象的全局支持度是該局部頻繁對(duì)象在所有局部數(shù)據(jù)集中的支持度的和。
8.如權(quán)利要求7所述的方法，其特征在于，所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
9.一種用于局部數(shù)據(jù)集進(jìn)行頻繁對(duì)象挖掘的方法，其特征在于，所述局部數(shù)據(jù)集是通過對(duì)全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的，所述方法包括使用局部閾值來對(duì)所述局部數(shù)據(jù)集進(jìn)行挖掘，其中所述局部閾值小于全局閾值除以所述局部數(shù)據(jù)集的個(gè)數(shù)。
10.如權(quán)利要求9所述的方法，其特征在于，所述局部閾值通過以下不等式來選取:k t1-a k(jn — I) fc' <- +.^- mm 其中，k是全局閾值，k’是局部閾值，m是局部數(shù)據(jù)集的個(gè)數(shù)，α為期望召回率，tx為滿足等式Φ (tx) = X的實(shí)值，而Φ (.)為標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)。
11.如權(quán)利要求10所述的方法，其特征在于，0.9 ^ α <1。
12.如權(quán)利要求10所述的方法，其特征在于，0<￥^).05。
13.如權(quán)利要求10所述的方法，其特征在于，所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
14.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘系統(tǒng)，其特征在于，所述系統(tǒng)包括:用于使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的裝置，其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的；以及用于從獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的裝置。
15.如權(quán)利要求14所述的系統(tǒng)，其特征在于，所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè) 。
全文摘要
本發(fā)明提供了一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。首先，用一相對(duì)較小的局部閾值對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)庫進(jìn)行局部頻繁對(duì)象挖掘，然后再從局部挖掘?qū)ο蟮牟⒓型诰蛉诸l繁對(duì)象。這種方法解決了現(xiàn)有的頻繁對(duì)象挖掘方法的規(guī)模受限于存儲(chǔ)器容量的問題。當(dāng)應(yīng)用于挖掘頻繁閉序列時(shí)，可作用于例如超過4億個(gè)序列的超大規(guī)模的序列數(shù)據(jù)庫，且具有例如99％的高召回率。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
文檔編號(hào)G06F17/30GK103150311SQ201110418088
公開日2013年6月12日申請(qǐng)日期2011年12月7日優(yōu)先權(quán)日2011年12月7日
發(fā)明者黨映農(nóng), 戈頌, 韓石, 張冬梅, 曾明, 吳桐, 蔣駿, 高志涵申請(qǐng)人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黨映農(nóng);戈頌;韓石;張冬梅;曾明;吳桐;蔣駿;高志涵
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

頻繁項(xiàng)集挖掘算法相關(guān)技術(shù)

頻繁模式挖掘相關(guān)技術(shù)

頻繁項(xiàng)集挖掘相關(guān)技術(shù)

頻繁子圖挖掘算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法