国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種k-匿名改進(jìn)方法

      文檔序號(hào):6423701閱讀:460來(lái)源:國(guó)知局
      專利名稱:一種k-匿名改進(jìn)方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域中的K-匿名(K-Anonymity),特別涉及一種K-匿名改進(jìn)方法。
      背景技術(shù)
      數(shù)據(jù)匿名化采用的常用處理手段源于統(tǒng)計(jì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)處理方法,主要是通過以發(fā)布數(shù)據(jù)中的屬性值的信息損失為代價(jià),換取通過這些屬性值再標(biāo)識(shí)某些個(gè)體的準(zhǔn)確性,同時(shí)盡可能保證發(fā)布數(shù)據(jù)的可用性,在發(fā)布數(shù)據(jù)的準(zhǔn)確性和隱私保護(hù)之間達(dá)到一種平衡。傳統(tǒng)的隱私保護(hù)方法,為了保證發(fā)布數(shù)據(jù)的整體趨勢(shì),往往以犧牲單個(gè)數(shù)據(jù)記錄的準(zhǔn)確性為代價(jià)。K-Anonymity (K-匿名算法):K_匿名(K-Anonymity)是不同于傳統(tǒng)的訪問控制等基于目標(biāo)的隱私保護(hù)技術(shù),是一個(gè)典型的微數(shù)據(jù)發(fā)布模型(微數(shù)據(jù)定義為一條表達(dá)和描述個(gè)體信息的數(shù)據(jù)記錄,為個(gè)體信息的載體。這些信息包括個(gè)體的標(biāo)識(shí)信息(如姓名、身份證號(hào)等)、敏感信息(如病史等)、以及一些非敏感信息(如性別)。每個(gè)信息都是以個(gè)體屬性和相應(yīng)的屬性值匹配的方式作為微數(shù)據(jù)(記錄)的某個(gè)分量。)。它要求首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以滿足匿名要求,然后將已處理的數(shù)據(jù)予以發(fā)布。它并不要求限制對(duì)已發(fā)布數(shù)據(jù)的訪問,相反盡可能的保持?jǐn)?shù)據(jù)的可統(tǒng)計(jì)性。因而數(shù)據(jù)泛化(泛化是對(duì)于數(shù)據(jù)的一個(gè)屬性, 用概括值代替原來(lái)的值,使其意義更為廣闊)是常用的數(shù)據(jù)預(yù)處理手段。K匿名就是要求在一個(gè)集合中(這里是指廣義集合,即允許包含相同元素,類似于包(Bag)或簇(Cluster)的概念)中只能以不大于l/k(k是一個(gè)常數(shù))的概率確定任何一個(gè)元素,即要求任何一個(gè)元素,集合中至少存在k-Ι個(gè)相同的副本元素。用形式化語(yǔ)言表述K匿名的概念,一般是將發(fā)布數(shù)據(jù)表中的個(gè)體記錄的屬性分為標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符和敏感屬性三類,并提出了等價(jià)類的概念。以下是相關(guān)定義標(biāo)識(shí)符(Identifiers):標(biāo)識(shí)符屬性是指能夠直接標(biāo)識(shí)出個(gè)體身份的屬性,如姓名、身份證號(hào)碼、社會(huì)保險(xiǎn)號(hào)碼等屬性,通過這些屬性值能夠直接確定具體的個(gè)體。準(zhǔn)標(biāo)識(shí)符(Quasi-hdentifiers,QI)給定實(shí)體集合U、實(shí)體表T (A1, A2, LAn),f。U — T以及fg:T — U ‘,其中,f/ef/’。實(shí)體表T的準(zhǔn)標(biāo)識(shí)符QI為屬性組 (A^A2 --Aj), (4,4/"4化(4,4/"4),其中,取£"且滿足5&>#1])) =pi0 換言之,同時(shí)存在于發(fā)布數(shù)據(jù)表和外部數(shù)據(jù)源表中,利用此兩種數(shù)據(jù)表進(jìn)行連接的推演來(lái)表示個(gè)人隱私信息的一組屬性稱為準(zhǔn)標(biāo)識(shí)符屬性。準(zhǔn)標(biāo)識(shí)符屬性也叫做類標(biāo)識(shí)符屬性。不同的發(fā)布數(shù)據(jù)表可以根據(jù)不同的情況劃分不同的準(zhǔn)標(biāo)識(shí)符屬性,一般情況下準(zhǔn)標(biāo)識(shí)符由專家選擇,而非用戶隨便選取。一般情況下可以以年齡、教育程度、性別作為準(zhǔn)標(biāo)識(shí)符。敏感屬性(Sensitive-Attributes,SA),個(gè)人隱私屬性。發(fā)布數(shù)據(jù)中,個(gè)體不希望其他用戶知道的信息屬性。比如說個(gè)人的工資水平以及患者的就診記錄中的所患疾病。發(fā)布數(shù)據(jù)時(shí),為了防止個(gè)人敏感信息的泄露,標(biāo)識(shí)符必須被刪除,發(fā)布的數(shù)據(jù)記錄只保留準(zhǔn)標(biāo)識(shí)符屬性和敏感屬性,稱為匿名化處理。
      等價(jià)組在準(zhǔn)標(biāo)識(shí)符上的投影完全相同的記錄組成的等價(jià)組,即等價(jià)組中所有的記錄在準(zhǔn)標(biāo)識(shí)符上的屬性值完全相同,其他的屬性值可以不同。K-匿名給定數(shù)據(jù)表T(A1; A^An),QI是與T相關(guān)聯(lián)的準(zhǔn)標(biāo)識(shí)符,當(dāng)且僅當(dāng)在 T[QI]中出現(xiàn)的每個(gè)值序列至少在τΚ ]中出現(xiàn)K次,則T滿足κ-匿名。ΤΚ Ι]表示T表中的元組在QI上的投影?,F(xiàn)實(shí)生活中,將醫(yī)療、投票和求職等信息公開的同時(shí)又要保證隱藏相關(guān)患者、投票人和求職人等的個(gè)體標(biāo)識(shí)信息并確保這些公布的數(shù)據(jù)不能用來(lái)推導(dǎo)出這些標(biāo)識(shí)信息,K-匿名就是非常好的可選模型。當(dāng)數(shù)據(jù)發(fā)布到公共數(shù)據(jù)庫(kù),數(shù)據(jù)的擁有者不再繼續(xù)控制數(shù)據(jù)的使用方式和范圍時(shí),在這種情況下為了不暴露數(shù)據(jù)主體的身份移出所有涉及到個(gè)體標(biāo)識(shí)的數(shù)據(jù)項(xiàng)信息De-Identification (去標(biāo)識(shí))就是一種常用的方法。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在以下的缺點(diǎn)現(xiàn)有技術(shù)中的K-匿名方法在判斷和比較的時(shí)候,都需要比較泛化格中的所有節(jié)點(diǎn),當(dāng)泛化格的規(guī)模比較大時(shí),執(zhí)行時(shí)間將會(huì)很長(zhǎng),這對(duì)于數(shù)據(jù)處理是很不利的;這種方法多半是全局最優(yōu)的,由于數(shù)據(jù)分布的不均勻性,即存在著孤立簇(即數(shù)量很小的集合),為了達(dá)到匿名要求,不得不采用更高的泛化層次,這顯然會(huì)降低信息的準(zhǔn)確性。

      發(fā)明內(nèi)容
      為了縮短執(zhí)行時(shí)間,提高信息的準(zhǔn)確性,本發(fā)明提供了一種K-匿名改進(jìn)方法,詳見下文描述一種K-匿名改進(jìn)方法,所述方法包括以下步驟(1)根據(jù)原始數(shù)據(jù)集選擇準(zhǔn)標(biāo)識(shí)符,由所述準(zhǔn)標(biāo)識(shí)符確定泛化方式,并建立與所述泛化方式對(duì)應(yīng)的初始泛化格;(2)判斷所述初始泛化格是否為空,如果是,流程結(jié)束;如果否,執(zhí)行步驟(3);(3)根據(jù)最優(yōu)節(jié)點(diǎn)選擇方式從所述初始泛化格的所有節(jié)點(diǎn)中選擇出全局最優(yōu)節(jié)點(diǎn),獲取第一泛化格;(4)根據(jù)所述全局最優(yōu)節(jié)點(diǎn)對(duì)待發(fā)布數(shù)據(jù)進(jìn)行匿名化處理,獲取和所述全局最優(yōu)節(jié)點(diǎn)相應(yīng)的匿名簇的數(shù)量;(5)判斷所述匿名簇的數(shù)量是否小于預(yù)設(shè)數(shù)量,如果是,執(zhí)行步驟(6);如果否,執(zhí)行步驟(7);(6)對(duì)所述第一泛化格進(jìn)行所述最優(yōu)節(jié)點(diǎn)選擇方式計(jì)算,獲取最優(yōu)節(jié)點(diǎn);(7)匿名簇為非孤立簇,對(duì)所述第一泛化格進(jìn)行二次K-匿名計(jì)算,獲取所述最優(yōu)節(jié)占.
      I— /、、、 (8)將所述待發(fā)布數(shù)據(jù)按照所述最優(yōu)節(jié)點(diǎn)對(duì)應(yīng)的泛化方式進(jìn)行泛化,獲取泛化后的數(shù)據(jù),將所述泛化后的數(shù)據(jù)發(fā)布,流程結(jié)束。步驟(3)中的所述根據(jù)最優(yōu)節(jié)點(diǎn)選擇方式從所述初始泛化格的所有節(jié)點(diǎn)中選擇出全局最優(yōu)節(jié)點(diǎn),獲取第一泛化格,具體為①計(jì)算所述初始泛化格中所有節(jié)點(diǎn)的度;②對(duì)所述初始泛化格中所有節(jié)點(diǎn)按照度進(jìn)行排序,獲取度最大節(jié)點(diǎn);③判斷所述度最大節(jié)點(diǎn)是否滿足K-匿名,如果是,執(zhí)行步驟④;如果否,執(zhí)行步驟⑤;④所述度最大節(jié)點(diǎn)的所有父節(jié)點(diǎn)都為K-匿名節(jié)點(diǎn),刪除所述度最大節(jié)點(diǎn)的所有祖先節(jié)點(diǎn),查找所述原始數(shù)據(jù)集中保存的K-min集合,判斷所述K-min集合中是否有所述度最大節(jié)點(diǎn)的祖先,如果是,從所述K-min集合中刪除所述度最大節(jié)點(diǎn)的祖先;如果否,執(zhí)行步驟⑥;⑤所述度最大節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)都不是K-匿名節(jié)點(diǎn),刪除所述度最大節(jié)點(diǎn)以及所述度最大節(jié)點(diǎn)的所有子孫節(jié)點(diǎn);⑥計(jì)算所述K-min集合中所有節(jié)點(diǎn)的信息損失量,獲取最/J、 最小信息損失量對(duì)應(yīng)的節(jié)點(diǎn)作為全局最優(yōu)節(jié)點(diǎn),獲取所述第一泛化格其中,計(jì)算所述K-min集合中所有節(jié)點(diǎn)的信息損失量具體為
      息損失量,將所述
      N U
      y ni τ £ τ 合 DGHi InjoLoss = 其中,N表示元組集中的準(zhǔn)標(biāo)識(shí)符個(gè)數(shù)、DGHi表示N個(gè)準(zhǔn)標(biāo)識(shí)符中第i個(gè)準(zhǔn)標(biāo)識(shí)符的泛化等級(jí)、Iii表示準(zhǔn)標(biāo)識(shí)符i的泛化程度。本發(fā)明提供的技術(shù)方案的有益效果是本發(fā)明提供了一種K-匿名改進(jìn)方法,本發(fā)明提供的方法縮短了執(zhí)行時(shí)間,提高了信息的準(zhǔn)確性,滿足了實(shí)際應(yīng)用中的需要。


      圖1為本發(fā)明提供的年齡Age的泛化方式;圖2為本發(fā)明提供的性別kx的泛化方式;圖3為本發(fā)明提供的年齡Age和性別kx的泛化格;圖4為本發(fā)明提供的一種K-匿名改進(jìn)方法的流程圖。
      具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。為了縮短執(zhí)行時(shí)間,提高信息的準(zhǔn)確性,本發(fā)明實(shí)施例提供了一種K-匿名改進(jìn)方法,本發(fā)明實(shí)施例基于K匿名算法,用于對(duì)隱私數(shù)據(jù)進(jìn)行去標(biāo)識(shí),本發(fā)明實(shí)施例采用的預(yù)處理主要在得到最優(yōu)節(jié)點(diǎn)后,對(duì)泛化格進(jìn)行進(jìn)一步的優(yōu)化,詳見下文描述101 根據(jù)原始數(shù)據(jù)集選擇準(zhǔn)標(biāo)識(shí)符,由準(zhǔn)標(biāo)識(shí)符確定泛化方式,并建立與泛化方式對(duì)應(yīng)的初始泛化格;其中,遍歷初始泛化格后保存有K-min集合。參見圖1、圖2和圖3,例如從原始數(shù)據(jù)集中選擇準(zhǔn)標(biāo)識(shí)符年齡Age和性別kx,由準(zhǔn)標(biāo)識(shí)符年齡Age和性別kx確定泛化方式,泛化方式由以下泛化向量組成=Ua1. . . a,. . . ,其中%表示節(jié)點(diǎn)每個(gè)屬性的泛化等級(jí)
      (泛化高度),k為表中的屬性個(gè)數(shù);泛化等級(jí)
      權(quán)利要求
      1.一種K-匿名改進(jìn)方法,其特征在于,所述方法包括以下步驟(1)根據(jù)原始數(shù)據(jù)集選擇準(zhǔn)標(biāo)識(shí)符,由所述準(zhǔn)標(biāo)識(shí)符確定泛化方式,并建立與所述泛化方式對(duì)應(yīng)的初始泛化格;(2)判斷所述初始泛化格是否為空,如果是,流程結(jié)束;如果否,執(zhí)行步驟(3);(3)根據(jù)最優(yōu)節(jié)點(diǎn)選擇方式從所述初始泛化格的所有節(jié)點(diǎn)中選擇出全局最優(yōu)節(jié)點(diǎn),獲取第一泛化格;(4)根據(jù)所述全局最優(yōu)節(jié)點(diǎn)對(duì)待發(fā)布數(shù)據(jù)進(jìn)行匿名化處理,獲取和所述全局最優(yōu)節(jié)點(diǎn)相應(yīng)的匿名簇的數(shù)量;(5)判斷所述匿名簇的數(shù)量是否小于預(yù)設(shè)數(shù)量,如果是,執(zhí)行步驟(6);如果否,執(zhí)行步驟⑵;(6)對(duì)所述第一泛化格進(jìn)行所述最優(yōu)節(jié)點(diǎn)選擇方式計(jì)算,獲取最優(yōu)節(jié)點(diǎn);(7)匿名簇為非孤立簇,對(duì)所述第一泛化格進(jìn)行二次K-匿名計(jì)算,獲取所述最優(yōu)節(jié)點(diǎn);(8)將所述待發(fā)布數(shù)據(jù)按照所述最優(yōu)節(jié)點(diǎn)對(duì)應(yīng)的泛化方式進(jìn)行泛化,獲取泛化后的數(shù)據(jù),將所述泛化后的數(shù)據(jù)發(fā)布,流程結(jié)束。
      2.根據(jù)權(quán)利要求1所述的一種K-匿名改進(jìn)方法,其特征在于,步驟(3)中的所述根據(jù)最優(yōu)節(jié)點(diǎn)選擇方式從所述初始泛化格的所有節(jié)點(diǎn)中選擇出全局最優(yōu)節(jié)點(diǎn),獲取第一泛化格,具體為①計(jì)算所述初始泛化格中所有節(jié)點(diǎn)的度;②對(duì)所述初始泛化格中所有節(jié)點(diǎn)按照度進(jìn)行排序,獲取度最大節(jié)點(diǎn);③判斷所述度最大節(jié)點(diǎn)是否滿足K-匿名,如果是,執(zhí)行步驟④;如果否,執(zhí)行步驟⑤;④所述度最大節(jié)點(diǎn)的所有父節(jié)點(diǎn)都為K-匿名節(jié)點(diǎn),刪除所述度最大節(jié)點(diǎn)的所有祖先節(jié)點(diǎn),查找所述原始數(shù)據(jù)集中保存的K-min集合,判斷所述K-min集合中是否有所述度最大節(jié)點(diǎn)的祖先,如果是,從所述K-min集合中刪除所述度最大節(jié)點(diǎn)的祖先;如果否,執(zhí)行步驟⑤所述度最大節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)都不是K-匿名節(jié)點(diǎn),刪除所述度最大節(jié)點(diǎn)以及所述度最大節(jié)點(diǎn)的所有子孫節(jié)點(diǎn);⑥計(jì)算所述K-min集合中所有節(jié)點(diǎn)的信息損失量,獲取最小信息損失量,將所述最小信息損失量對(duì)應(yīng)的節(jié)點(diǎn)作為全局最優(yōu)節(jié)點(diǎn),獲取所述第一泛化格;其中,計(jì)算所述K-min集合中所有節(jié)點(diǎn)的信息損失量具體為
      全文摘要
      本發(fā)明公開了一種K-匿名改進(jìn)方法,涉及數(shù)據(jù)挖掘領(lǐng)域,根據(jù)原始數(shù)據(jù)集選擇準(zhǔn)標(biāo)識(shí)符,確定泛化方式,并建立與泛化方式對(duì)應(yīng)的初始泛化格;判斷初始泛化格是否為空,如果否,根據(jù)最優(yōu)節(jié)點(diǎn)選擇方式從初始泛化格的所有節(jié)點(diǎn)中選擇出全局最優(yōu)節(jié)點(diǎn),獲取第一泛化格;根據(jù)全局最優(yōu)節(jié)點(diǎn)對(duì)待發(fā)布數(shù)據(jù)進(jìn)行匿名化處理,獲取匿名簇的數(shù)量;判斷匿名簇的數(shù)量是否小于預(yù)設(shè)數(shù)量,如果是,對(duì)第一泛化格進(jìn)行最優(yōu)節(jié)點(diǎn)選擇方式計(jì)算,獲取最優(yōu)節(jié)點(diǎn);如果否,匿名簇為孤立簇,對(duì)第一泛化格進(jìn)行二次K-匿名計(jì)算,獲取最優(yōu)節(jié)點(diǎn);將待發(fā)布數(shù)據(jù)按照最優(yōu)節(jié)點(diǎn)對(duì)應(yīng)的泛化方式進(jìn)行泛化,獲取泛化后的數(shù)據(jù),將泛化后的數(shù)據(jù)發(fā)布。本發(fā)明縮短了執(zhí)行時(shí)間,提高了信息的準(zhǔn)確性。
      文檔編號(hào)G06F17/30GK102156755SQ20111011730
      公開日2011年8月17日 申請(qǐng)日期2011年5月6日 優(yōu)先權(quán)日2011年5月6日
      發(fā)明者張靜 申請(qǐng)人:天津大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1