国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘方法

      文檔序號(hào):8487850閱讀:264來源:國(guó)知局
      面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種閉項(xiàng)集挖掘方法,特別是涉及一種面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘 方法。
      【背景技術(shù)】
      [0002] 文獻(xiàn)"王爽,王國(guó)仁.面向不確定感知數(shù)據(jù)的頻繁項(xiàng)查詢算法[J].計(jì)算機(jī)學(xué) 報(bào),2013, 36 (3) :571-581"公開了一種面向不確定感知數(shù)據(jù)的頻繁項(xiàng)查詢算法。該算法主 要描述了用以連續(xù)維護(hù)傳感器網(wǎng)絡(luò)中的概率閾值頻繁項(xiàng)查詢結(jié)果的過程,同時(shí)設(shè)計(jì)了兩種 優(yōu)化過程:(1)設(shè)計(jì)了一種通過預(yù)測(cè)元素概率上界的方法進(jìn)行候選集的構(gòu)造,僅維護(hù)必要 信息從而提高查詢效率;(2)設(shè)計(jì)了一種新的CP-list結(jié)構(gòu),可以壓縮不同窗口候選集中的 重復(fù)元素,降低存儲(chǔ)開銷。但是在對(duì)于頻繁閉項(xiàng)集的挖掘過程中仍舊不能避免對(duì)于可能世 界的遍歷。同時(shí),近年來面向不確定數(shù)據(jù)的頻繁項(xiàng)集挖掘可分為期望計(jì)算法、頻次分布計(jì)算 法、近似挖掘法三類?;谄谕?jì)算法的典型算法有如下算法:UApriori算法核心是基于 生長(zhǎng)-測(cè)試思想,使用廣度優(yōu)先搜索策略來進(jìn)行挖掘,是Apriori算法在不確定數(shù)據(jù)挖掘中 的擴(kuò)充應(yīng)用;UFP-growth和UH-Mine算法的核心則是基于分治思想,使用深度優(yōu)先搜索策 略來進(jìn)行挖掘。其中UFP-growth算法是對(duì)于FP-growth算法的擴(kuò)充,與傳統(tǒng)的FP-growth 算法相同的是,UFP-growth算法在最初的時(shí)候也建立一個(gè)索引樹(UFP-tree)來保存不確 定數(shù)據(jù)庫中所有的信息,然后,基于UFP-tree,算法遞歸的建立條件子樹和找出頻繁項(xiàng)集 (通過使用預(yù)期支持度判斷)。UH-Mine算法則是對(duì)于H-Mine算法(傳統(tǒng)的確定數(shù)據(jù)頻繁項(xiàng) 集挖掘方法)擴(kuò)充。基于頻次分布計(jì)算法的典型算法有:DP(基于動(dòng)態(tài)規(guī)劃思想的Apriori 算法)和DC (基于分治策略的Apriori算法)。在概率頻繁項(xiàng)集的定義下,關(guān)鍵是計(jì)算有效 頻繁項(xiàng)目集的概率。通過對(duì)不確定數(shù)據(jù)集的抽象我們可以得到可能世界模型。根據(jù)每個(gè)事 件出現(xiàn)概率可以實(shí)現(xiàn)可能世界的實(shí)例化。因此,每個(gè)事務(wù)的概率是源自兩個(gè)可能世界:項(xiàng)集 x的存在和不存在。所以對(duì)于每個(gè)可能世界,都聯(lián)系著一個(gè)存在概率,包含確定的數(shù)據(jù)。所 以,數(shù)據(jù)庫對(duì)應(yīng)的可能世界數(shù)量是伴隨著事務(wù)數(shù)量的增長(zhǎng)和其中不確定項(xiàng)數(shù)量的增長(zhǎng)?;?于近似挖掘法的算法如今也得到了發(fā)展。
      [0003] 概率頻繁項(xiàng)集中存在大量的冗余信息,同時(shí)根據(jù)MDL基本原理,概率頻繁閉項(xiàng)集 具有更好的分類特性,故概率頻繁閉項(xiàng)集的研宄引起廣大學(xué)者的關(guān)注。面向不確定數(shù)據(jù)的 頻繁閉項(xiàng)集挖掘也可分為期望計(jì)算法、頻次分布計(jì)算法、近似挖掘法三類。由于能夠精確 反映真實(shí)發(fā)生情況,頻次分布計(jì)算法被廣泛應(yīng)用。本文提出的PFCIM算法,引入動(dòng)態(tài)規(guī)劃 思想,遍歷可能世界模型計(jì)算項(xiàng)集的頻繁概率,再根據(jù)閉項(xiàng)集和項(xiàng)集在支持度方面的關(guān)系, 通過剪枝策略挖掘概率頻繁閉項(xiàng)集。但該算法"閉"檢查沒有發(fā)生在可能世界模型里,因此 不能保證概率頻繁閉項(xiàng)集的永久性。針對(duì)這一不足,文獻(xiàn)提出挖掘不確定頻繁閉項(xiàng)集需要 在可能世界模型中進(jìn)行,且無法通過動(dòng)態(tài)規(guī)劃等方式避免可能世界遍歷,因此是一個(gè)NP問 題。該文獻(xiàn)提出一種基于深度優(yōu)先搜索策略的方法快速挖掘頻繁閉項(xiàng)集。為了減小NP問 題的規(guī)模,算法提出利用切比雪夫不等式上界剪枝、子集剪枝、超集剪枝、deCaen與Kwerel 概率不等式等方法來減少搜索空間。但是,未能過濾掉的項(xiàng)集仍然需要在可能世界中進(jìn)行 閉特性檢查,因此代價(jià)仍然很高。

      【發(fā)明內(nèi)容】

      [0004] 為了克服現(xiàn)有閉項(xiàng)集挖掘方法精度差的不足,本發(fā)明提供一種面向不確定數(shù)據(jù)的 閉項(xiàng)集挖掘方法。該方法在挖掘閉項(xiàng)集時(shí),首先將不確定數(shù)據(jù)轉(zhuǎn)換為確定數(shù)據(jù),再通過利用 項(xiàng)集前的項(xiàng)集來拓展閉項(xiàng)集以產(chǎn)生所有的可能生成子,通過遞歸調(diào)用DCI_Cl 〇sed()算法 來建立新的生成子和相應(yīng)的閉項(xiàng)集。在概率頻繁閉項(xiàng)集過濾時(shí),首先計(jì)算閉項(xiàng)集集合中單 項(xiàng)集的概率頻繁;接著,基于項(xiàng)集的Apriori生長(zhǎng)理論,計(jì)算所有閉項(xiàng)集子集的概率頻繁, 利用卷積的計(jì)算方式得到項(xiàng)集的頻次分布特征。最后,在項(xiàng)集生成的過程中,使用合理的剪 枝技術(shù)加快項(xiàng)集的生長(zhǎng)過程。由于可能世界模型遍歷挖掘的閉項(xiàng)集和直接從不確定數(shù)據(jù)對(duì) 應(yīng)的確定數(shù)據(jù)挖掘的閉項(xiàng)集是等價(jià)的,故本發(fā)明方法直接從不確定數(shù)據(jù)對(duì)應(yīng)的原始數(shù)據(jù)中 挖掘閉項(xiàng)集,再對(duì)其進(jìn)行概率頻繁特性的過濾,精確高效地挖掘不確定數(shù)據(jù)中的概率頻繁 閉項(xiàng)集。在保證挖掘完備的概率頻繁閉項(xiàng)集的前提下,進(jìn)一步提高了挖掘效率。
      [0005] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘 方法,其特點(diǎn)是采用以下步驟:
      [0006] 步驟一、挖掘閉項(xiàng)集。
      [0007] 首先,將不確定數(shù)據(jù)作為確定數(shù)據(jù)。數(shù)據(jù)集D掃描決定1-頻繁項(xiàng)n e I,建立垂 直數(shù)據(jù)集 VD。VD 包括 tid 列表 g(i),w 假設(shè)CLOSED SET=cp),PRE SET== 0和POST_SET=Fl\cp)。記錄所包含的項(xiàng)集,如果有的話,這個(gè)單項(xiàng)會(huì)出現(xiàn)在數(shù) 據(jù)集中的所有事務(wù)中。
      [0008] 通過利用P0ST_SET中的項(xiàng)拓展CL0SED_SET以產(chǎn)生所有可能生成子,非頻繁且不 保序的生成子是被當(dāng)作無效的。記錄這些屬于P〇ST_SET的項(xiàng),如果曾經(jīng)是包含在上述生成 子之中的,在隨后的遞歸調(diào)用過程是不再被考慮的,只有有效的生成子可以被拓展。每一 個(gè)生成子neW_gen-CL0SED_SET U i是嚴(yán)格的依據(jù)保序性被拓展的,通過使用所有屬于 P0ST_SET的項(xiàng)j(i < j)拓展,記錄P0ST_SET中所有的不屬于生成子和用于下次遞歸調(diào)用 的項(xiàng)j (i〈j)。產(chǎn)生一個(gè)新的閉合集CL0SED_SETnew- c (neW_gen)。從新的閉項(xiàng)集中,通過遞 歸調(diào)用DCI_Cl〇Sed()來建立新的生成子和相應(yīng)的閉項(xiàng)集。最后,為了能夠按詞典序的順序 訪問,必須按照字典序的順序從P〇ST_SET中提取項(xiàng)。使用DCI算法挖掘出所有的閉項(xiàng)集, Cset - {{& b},{& b c}}〇
      [0009] 步驟二、概率頻繁閉項(xiàng)集過濾。
      [0010] 根據(jù)確定數(shù)據(jù)挖掘的頻繁閉項(xiàng)集及其子集和不確定數(shù)據(jù)的閉項(xiàng)集等價(jià),計(jì)算由步 驟一得到的閉項(xiàng)集及其子集的頻繁閉概率值,過濾概率非頻繁項(xiàng)集。
      [0011] 基于邊界的Chernoff-Hoeffding剪枝:給定項(xiàng)集X,不確定數(shù)據(jù)集UD,X的預(yù)期支 持度U,最小的支持度閾值min_sup,頻繁閉概率的閾值pfct,項(xiàng)集X是概率非頻繁的條件 是:
      【主權(quán)項(xiàng)】
      1. 一種面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘方法,其特征在于包括以下步驟: 步驟一、挖掘閉項(xiàng)集; 首先,將不確定數(shù)據(jù)作為確定數(shù)據(jù);數(shù)據(jù)集D掃描決定1-頻繁項(xiàng)F1 £ /,建立垂直數(shù) 據(jù)集VD;VD包括tid列表g(i),WEF1;假設(shè)CLOSED_SET=c卩),PRE_SET= 0 和 POST_SET=Fl\c(0 );記錄c(0 ),所包含的項(xiàng)集,如果有的話,這個(gè)單項(xiàng)會(huì)出現(xiàn)在數(shù)據(jù)集 中的所有事務(wù)中; 通過利用P〇ST_SET中的項(xiàng)拓展CLOSED_SET以產(chǎn)生所有可能生成子,非頻繁且不保序 的生成子是被當(dāng)作無效的;記錄這些屬于P〇ST_SET的項(xiàng),如果曾經(jīng)是包含在上述生成子之 中的,在隨后的遞歸調(diào)用過程是不再被考慮的,只有有效的生成子可以被拓展;每一個(gè)生成 子neW_gen-CLOSED_SETUi是嚴(yán)格的依據(jù)保序性被拓展的,通過使用所有屬于POST_ SET的項(xiàng)j_ (/勺)拓展,記錄POST_SET中所有的不屬于生成子和用于下次遞歸調(diào)用的項(xiàng)j(i〈j);產(chǎn)生一個(gè)新的閉合集CLOSED_SETnew-C(neW_gen);從新的閉項(xiàng)集中,通過遞歸調(diào) 用DCI_Cl〇Sed()來建立新的生成子和相應(yīng)的閉項(xiàng)集;最后,為了能夠按詞典序的順序訪 問,必須按照字典序的順序從P〇ST_SET中提取項(xiàng);使用DCI算法挖掘出所有的閉項(xiàng)集,Cset ={{ab},{abc}}; 步驟二、概率頻繁閉項(xiàng)集過濾; 根據(jù)確定數(shù)據(jù)挖掘的頻繁閉項(xiàng)集及其子集和不確定數(shù)據(jù)的閉項(xiàng)集等價(jià),計(jì)算由步驟一 得到的閉項(xiàng)集及其子集的頻繁閉概率值,過濾概率非頻繁項(xiàng)集; 基于邊界的Chernoff-Hoeffding剪枝:給定項(xiàng)集X,不確定數(shù)據(jù)集UD,X的預(yù)期支持度U,最小的支持度閾值min_sup,頻繁閉概率的閾值pfct,項(xiàng)集X是概率非頻繁的條件是:
      8 = 〇11;[11_8即-1^-1)/11,11是110中事務(wù)的數(shù)量; 超集剪枝:給定長(zhǎng)度為IX|的項(xiàng)集,不確定數(shù)據(jù)集UD和X的長(zhǎng)度為|X|+1的超集X+ei; 按照字母順序,至少小于X中的一個(gè)項(xiàng),即X不是X+ei的前綴,并且X.sup= (X+eJ.sup能 夠得到如下的兩個(gè)結(jié)果: 1)X的頻繁概率是0,X必然不是概率頻繁項(xiàng)集; 2) 基于字母順序,所有以X為前綴的超集必然不是概率頻繁項(xiàng)集; 以{a}為前綴基于深度優(yōu)先搜索的超集剪枝方法,能夠避免生長(zhǎng){ac,fcp:0}, {be,fcp:0}; 子集剪枝:給定不確定數(shù)據(jù)集UD,項(xiàng)集X,X是X-^的超集,e1是X的最后一個(gè)項(xiàng),如果X.sup= (X-eJ.sup,得到以下兩個(gè)結(jié)果: 1)x-ei的頻繁概率是0,必然不是概率頻繁項(xiàng)集; 2) 含有X-ei作為前綴的項(xiàng)集,如果長(zhǎng)度相同,則能夠判斷必然不是頻繁的概率項(xiàng)集,這 樣的項(xiàng)集超集也必然不是頻繁的概率項(xiàng)集。
      【專利摘要】本發(fā)明公開了一種面向不確定數(shù)據(jù)的閉項(xiàng)集挖掘方法,用于解決現(xiàn)有閉項(xiàng)集挖掘方法精度差的技術(shù)問題。技術(shù)方案是:在挖掘閉項(xiàng)集時(shí),首先將不確定數(shù)據(jù)轉(zhuǎn)換為確定數(shù)據(jù),再通過遞歸調(diào)用DCI_Closed()算法來建立新的生成子和相應(yīng)的閉項(xiàng)集。在概率頻繁閉項(xiàng)集過濾時(shí),首先計(jì)算閉項(xiàng)集集合中單項(xiàng)集的概率頻繁;再計(jì)算所有閉項(xiàng)集子集的概率頻繁,利用卷積的計(jì)算方式得到項(xiàng)集的頻次分布特征。最后,在項(xiàng)集生成的過程中,使用合理的剪枝技術(shù)加快項(xiàng)集的生長(zhǎng)過程。本發(fā)明方法直接從不確定數(shù)據(jù)對(duì)應(yīng)的原始數(shù)據(jù)中挖掘閉項(xiàng)集,再對(duì)其進(jìn)行概率頻繁特性的過濾,挖掘不確定數(shù)據(jù)中的概率頻繁閉項(xiàng)集的精度高,而且進(jìn)一步提高了挖掘效率。
      【IPC分類】G06F17-30
      【公開號(hào)】CN104809185
      【申請(qǐng)?zhí)枴緾N201510185652
      【發(fā)明人】尤濤, 杜承烈, 王川文, 張利軍, 徐偉
      【申請(qǐng)人】西北工業(yè)大學(xué)
      【公開日】2015年7月29日
      【申請(qǐng)日】2015年4月20日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1