国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法

      文檔序號(hào):6441251閱讀:339來源:國知局
      專利名稱:基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及頻繁對(duì)象挖掘,更具體地,涉及基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘。
      背景技術(shù)
      對(duì)于來自大型序列數(shù)據(jù)庫的諸如頻繁閉合序列之類的頻繁對(duì)象的挖掘?qū)τ诟黝悜?yīng)用程序都很有益處。然而,開發(fā)高度地可擴(kuò)容挖掘算法仍然是一個(gè)開放式的研究課題。相應(yīng)的用于頻繁閉合序列的并行算法的主要策略是如圖3所示的,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行挖掘的任務(wù)進(jìn)行劃分,并且并行運(yùn)行所劃分得到的多個(gè)子任務(wù)。這種方法的可擴(kuò)容性受到機(jī)器隨機(jī)存取存儲(chǔ)器大小的限制,因?yàn)橹虚g的挖掘結(jié)果需要被存儲(chǔ)在每一個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)器中。現(xiàn)有技術(shù)的頻繁閉合序列挖掘方法一般只能用于最多具有一百萬到一千萬個(gè)對(duì)象的數(shù)據(jù)庫。發(fā)明內(nèi)容
      提供本發(fā)明內(nèi)容是為了介紹將在以下具體實(shí)施方式
      中進(jìn)一步描述的頻繁對(duì)象挖掘的簡(jiǎn)化概念。本發(fā)明內(nèi)容并不旨在標(biāo)識(shí)所要求保護(hù)的主題的必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
      為了解決這一問題,本發(fā)明提出了一種具有兩步的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。第一步驟是使用局部閾值來對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)集進(jìn)行挖掘以獲得局部頻繁對(duì)象集。其中局部閾值小于全局閾值除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)。這樣根據(jù)鴿籠原理(pigeonhole principle,參考文獻(xiàn)[4]),每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。第二步驟是從第一步驟中獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象。第二步驟的關(guān)鍵是從局部頻繁對(duì)象挖掘結(jié)果中得出對(duì)象的經(jīng)估計(jì)的全局支持度。
      另外,本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法是對(duì)現(xiàn)有技術(shù)的基于任務(wù)劃分的頻繁對(duì)象挖掘方法的補(bǔ)充而不是替代,因?yàn)楸景l(fā)明可利用任何現(xiàn)有的基于任務(wù)劃分的頻繁對(duì)象挖掘方法(例如BIDE,參考文獻(xiàn)[I] [2])來執(zhí)行局部和全局頻繁對(duì)象挖掘。本發(fā)明還提供了計(jì)算局部閾值以確保期望的頻繁對(duì)象挖掘的召回率的方法。
      實(shí)驗(yàn)結(jié)果證實(shí)本發(fā)明的基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法對(duì)于具有三百萬至一千萬個(gè)序列的序列數(shù)據(jù)集進(jìn)行挖掘可得到非常高的召回率(例如99%)的頻繁閉合序列。并且,與現(xiàn)有技術(shù)相比,本發(fā)明的頻繁對(duì)象挖掘方法具有非常高的可擴(kuò)容性,能夠?qū)哂谐^4億個(gè)序列的數(shù)據(jù)集進(jìn)行頻繁閉合序列挖掘。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
      通過閱讀下面的詳細(xì)描述并參考相關(guān)聯(lián)的附圖,這些及其他特點(diǎn)和優(yōu)點(diǎn)將變得顯而易見??梢岳斫?,前述一般描述和以下的詳細(xì)描述都是說明性的,并且不限制所要求保護(hù)的各方面。


      參考以下附圖描述了頻繁對(duì)象挖掘的各實(shí)施例。在各附圖中,使用相同的標(biāo)號(hào)來指示相同的特征和組件:
      圖1示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的示意圖。
      圖2示出了根據(jù)本發(fā)明的實(shí)施例的頻繁對(duì)象挖掘方法的局部挖掘結(jié)果的示意圖。
      圖3是現(xiàn)有技術(shù)中基于任務(wù)劃分的頻繁對(duì)象挖掘方法的示意圖。
      具體實(shí)施方式
      下面結(jié)合附圖詳細(xì)描述本發(fā)明的具體實(shí)施方式

      以下使用頻繁閉合序列挖掘方法作為示例描述本發(fā)明的頻繁對(duì)象挖掘方法。可以理解的是,本發(fā)明的頻繁對(duì)象挖掘方法不限于對(duì)閉合序列的挖掘,也可廣泛應(yīng)用于諸如對(duì)頻繁出現(xiàn)的項(xiàng)集(item set,例如{a, b, c, } (a、b、c之間不具有順序),或者對(duì)頻繁出現(xiàn)的子圖之類的其它任何頻繁出現(xiàn)的對(duì)象的挖掘。
      頻繁閉序列校掘
      設(shè)I = U1, i2,..., in}為一個(gè)不同項(xiàng)的集。序列s是一組事件的有序列表,記為e1; e2,...,et,其中ei是I中的一項(xiàng),即對(duì)于I彡i彡t,ei e I。序列的長(zhǎng)度被定義為序列中事件的數(shù)量(即項(xiàng)目的實(shí)例)。例如,序列ABABAC的長(zhǎng)度為6。如果存在整數(shù)I ( I1< I2〈…< I1 ( t,使得 ^i1 = CLi, biz = α2,...,bi, = at,則序列 Sb = Id1Id2 bt 包含 sa =已盧2 at。在這種情況下,sa被稱為是Sb的子序列,而Sb是Sa的超序列(super-sequence),記為辦。此外,如果Sa被稱為是Sb的子序列且Sa Φ sb,則記為Sac辦。
      給定一序列數(shù)據(jù)庫集DB,序列8£1在08中的絕對(duì)支持度(support)是DB中包含Sa的序列的數(shù)量,記為sup (Sa),而相對(duì)支持度是DB中包含Sa的序列的百分比,記為SUPdb (Sa)/I DB I,其中DB是DB中的序列的總數(shù)。
      給定最小支持度閾值min_sup,如果supDB(sa)彡min_sup,則序列Sa是DB中的頻繁序列。如果Sa不存在具有相同支持度的超序列,即不存在Sb使得辦,且supDB (Sa)=supDB(sb),則83是08中的閉序列。所有的這類閉序列的完整的集被記為FCS(min_sup,DB)。挖掘FCS的問題就是對(duì)于輸入序列數(shù)據(jù)集DB,在給定最小支持度閾值min_sup的情況下,找出 FCS(min_sup, DB)。
      基于數(shù)據(jù)劃分的頻繁閉序列挖掘
      定理一:設(shè)序列s為數(shù)據(jù)庫DB中的頻繁序列,即SUpDB(S)彡k,其中k是全局閾值;DB具有m個(gè)部分=1calDBi, i = 1,2,,m ;若局部閾值為k’,m.k'彡k,則存在i (I ≤ i ≤ m),使得 Supioca1-叫⑷ > k'。
      根據(jù)定理一可知,若序列s為數(shù)據(jù)庫DB中的頻繁序列,若取局部閾值k’小于全局閾值k除以所劃分成的數(shù)據(jù)集的個(gè)數(shù)m,則序列s在至少一個(gè)子部分中也是頻繁序列。
      事實(shí)上,在定理一中,并不要求序列s是閉序列。換句話說,具有全局閾值k的DB中的任何頻繁序列s在至少一個(gè)經(jīng)劃分的具有局部閾值k’的部分中也是頻繁的。
      基于定理一,可以容易地得到與局部FCS挖掘結(jié)果集FCS (k’,1calDBi)的性質(zhì)有關(guān)定理~.0
      定理二:對(duì)于任意S e FCS (k,DB),存在i (I ( i彡m),并且存在s’,使得S,e FCS(k,,local.DBi)。
      根據(jù)定理二,每個(gè)全局頻繁對(duì)象一定至少出現(xiàn)在一個(gè)局部頻繁對(duì)象集中。
      以下將討論從這一局部FCS挖掘集合中挖掘出全局FCS進(jìn)行的方法。為了確保絕大部分的全局FCS被挖掘出來,需要仔細(xì)選擇局部閾值k’的值,這也將在下文中詳細(xì)討論。
      假設(shè)已得到m個(gè)局部FCS結(jié)果集FCS (k’,1calDBi), i = 1,2,,m,則將它們的并集記為:
      權(quán)利要求
      1.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法,其特征在于,包括以下步驟: 使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的第一步驟,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 從所獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的第二步驟。
      2.如權(quán)利要求1所述的方法,其特征在于,所述第二步驟包括: 根據(jù)局部頻繁對(duì)象集中的每個(gè)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該對(duì)象在所述全局?jǐn)?shù)據(jù)集中的全局支持度;以及 將每個(gè)局部頻繁對(duì)象的估計(jì)的全局支持度與全局閾值相比較,以得出全局頻繁對(duì)象。
      3.如權(quán)利要求1所述的方法,其特征在于,所述局部閾值小于全局閾值除以局部數(shù)據(jù)集的個(gè)數(shù)。
      4.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
      5.一種用于從局部頻繁對(duì)象中挖掘全局頻繁對(duì)象的方法,其特征在于,所述方法包括: 根據(jù)局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度來估計(jì)該局部頻繁對(duì)象在全局?jǐn)?shù)據(jù)集中的全局支持度,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 將估計(jì)的局部頻繁對(duì)象的全局支持度與全局閾值相比較,以得出全局頻繁對(duì)象。
      6.如權(quán)利要求5所述的方法,其特征在于,所述估計(jì)的局部頻繁對(duì)象在其所在的局部數(shù)據(jù)集中的支持度是等于其超對(duì)象中的一個(gè)的支持度,這個(gè)超對(duì)象在所有是所述局部頻繁對(duì)象的超對(duì)象的頻繁對(duì)象中具有在所在的局部數(shù)據(jù)集中的最大的支持度。
      7.如權(quán)利要求5所述的方法,其特征在于,所述估計(jì)的局部頻繁對(duì)象的全局支持度是該局部頻繁對(duì)象在所有局部數(shù)據(jù)集中的支持度的和。
      8.如權(quán)利要求7所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
      9.一種用于局部數(shù)據(jù)集進(jìn)行頻繁對(duì)象挖掘的方法,其特征在于,所述局部數(shù)據(jù)集是通過對(duì)全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的,所述方法包括使用局部閾值來對(duì)所述局部數(shù)據(jù)集進(jìn)行挖掘,其中所述局部閾值小于全局閾值除以所述局部數(shù)據(jù)集的個(gè)數(shù)。
      10.如權(quán)利要求9所述的方法,其特征在于,所述局部閾值通過以下不等式來選取:k t1-a k(jn — I) fc' <- +.^- mm 其中,k是全局閾值,k’是局部閾值,m是局部數(shù)據(jù)集的個(gè)數(shù),α為期望召回率,tx為滿足等式Φ (tx) = X的實(shí)值,而Φ (.)為標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)。
      11.如權(quán)利要求10所述的方法,其特征在于,0.9 ^ α <1。
      12.如權(quán)利要求10所述的方法,其特征在于,0<¥^).05。
      13.如權(quán)利要求10所述的方法,其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè)。
      14.一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘系統(tǒng),其特征在于,所述系統(tǒng)包括:用于使用局部閾值來挖掘局部數(shù)據(jù)集以獲得局部頻繁對(duì)象集的裝置,其中所述局部數(shù)據(jù)集是通過對(duì)所述全局?jǐn)?shù)據(jù)集進(jìn)行隨機(jī)劃分得到的;以及 用于從獲得的局部頻繁對(duì)象集的并集中挖掘全局頻繁對(duì)象的裝置。
      15.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述對(duì)象是閉合序列、項(xiàng)集或子圖中的一個(gè) 。
      全文摘要
      本發(fā)明提供了一種基于數(shù)據(jù)劃分的頻繁對(duì)象挖掘方法。首先,用一相對(duì)較小的局部閾值對(duì)經(jīng)隨機(jī)劃分的數(shù)據(jù)庫進(jìn)行局部頻繁對(duì)象挖掘,然后再從局部挖掘?qū)ο蟮牟⒓型诰蛉诸l繁對(duì)象。這種方法解決了現(xiàn)有的頻繁對(duì)象挖掘方法的規(guī)模受限于存儲(chǔ)器容量的問題。當(dāng)應(yīng)用于挖掘頻繁閉序列時(shí),可作用于例如超過4億個(gè)序列的超大規(guī)模的序列數(shù)據(jù)庫,且具有例如99%的高召回率。這一規(guī)模約比現(xiàn)有方法所支持的數(shù)據(jù)庫規(guī)模高了兩個(gè)數(shù)量級(jí)。
      文檔編號(hào)G06F17/30GK103150311SQ201110418088
      公開日2013年6月12日 申請(qǐng)日期2011年12月7日 優(yōu)先權(quán)日2011年12月7日
      發(fā)明者黨映農(nóng), 戈頌, 韓石, 張冬梅, 曾明, 吳桐, 蔣駿, 高志涵 申請(qǐng)人:微軟公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1