国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法

      文檔序號(hào):9471868閱讀:539來(lái)源:國(guó)知局
      一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于隱私保護(hù)領(lǐng)域,更具體地,設(shè)及一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方 法。
      【背景技術(shù)】
      [0002] 眾包(crowdsourcing)是指一個(gè)公司或機(jī)構(gòu)把過(guò)去由員工執(zhí)行的工作任務(wù),W 自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法,如亞馬遜的 MechanicalTurk。眾包的工作流程具體如下:1、公司將任務(wù)及相關(guān)數(shù)據(jù)發(fā)布到眾包平臺(tái); 2、眾包平臺(tái)上的注冊(cè)用戶(hù)化umanworker)接受任務(wù)后獲得相關(guān)數(shù)據(jù);3、humanworker完 成任務(wù),將結(jié)果返回給公司,并獲得相應(yīng)報(bào)酬。
      [0003] 近幾年,隨著眾包技術(shù)的流行,其被越來(lái)越多的用于處理那些對(duì)計(jì)算機(jī)較難而對(duì) 人較易的數(shù)據(jù)分析任務(wù)。于是,一種在眾包環(huán)境下由人參與的新型數(shù)據(jù)庫(kù)模型被提出,即眾 包數(shù)據(jù)庫(kù)。例如,人才招聘網(wǎng)站(如5U〇b、化inaHR),可W將其接收到的求職者簡(jiǎn)歷與公 司職位信息發(fā)布到眾包平臺(tái),并提供相應(yīng)的報(bào)酬讓humanworker完成職業(yè)推薦任務(wù)。 陽(yáng)004] 然而,由于眾包數(shù)據(jù)庫(kù)中humanworker可W直接獲得任務(wù)相關(guān)數(shù)據(jù),運(yùn)其中可能 包含應(yīng)聘用戶(hù)隱私信息(如用戶(hù)個(gè)人簡(jiǎn)歷中的聯(lián)系方式,健康狀況等)與公司隱私信息 (如薪金水平、加班情況及補(bǔ)貼等),因此,上述過(guò)程可能造成應(yīng)聘用戶(hù)隱私信息與公司隱 私信息的泄露,所W必須對(duì)眾包數(shù)據(jù)庫(kù)做隱私保護(hù)處理。
      [0005] 隱私保護(hù)處理的一個(gè)有效手段是數(shù)據(jù)匿名化,其基本思想是隱藏原始數(shù)據(jù)中的部 分信息。k-匿名是數(shù)據(jù)匿名化中最重要的模型之一,其保證數(shù)據(jù)匿名化后擁有相同準(zhǔn)標(biāo)識(shí) 符屬性的元組個(gè)數(shù)至少為k,從而使攻擊者無(wú)法推理出特定個(gè)體的隱私信息。但針對(duì)眾包數(shù) 據(jù)庫(kù)下設(shè)及供需求雙方的應(yīng)用場(chǎng)景,現(xiàn)有的k-匿名技術(shù)存在W下缺陷:(1)數(shù)據(jù)匿名化處 理后會(huì)造成原始數(shù)據(jù)中部分有效信息的丟失,從而導(dǎo)致humanworker完成眾包任務(wù)的正確 率降低,也就是說(shuō)數(shù)據(jù)匿名化處理后的可用性低;(2)由于眾包數(shù)據(jù)庫(kù)中可能包含應(yīng)聘用 戶(hù)及公司雙方的隱私信息,現(xiàn)有的k-匿名技術(shù)僅能保護(hù)一方的隱私信息,而不能同時(shí)保護(hù) 應(yīng)聘用戶(hù)與公司雙方的隱私信息。相應(yīng)地,本領(lǐng)域亟需尋找一種適用于眾包數(shù)據(jù)庫(kù)環(huán)境下 雙方隱私保護(hù)的方法。

      【發(fā)明內(nèi)容】

      [0006] 針對(duì)現(xiàn)有技術(shù)的W上缺陷或不足,本發(fā)明提供了一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿 名方法,其中通過(guò)雙向k-匿名機(jī)制分別對(duì)公司職位數(shù)據(jù)集和應(yīng)聘用戶(hù)的原始數(shù)據(jù)集執(zhí)行 匿名化處理,同時(shí),尤其是針對(duì)應(yīng)聘用戶(hù)的原始數(shù)據(jù)集,本發(fā)明進(jìn)行了專(zhuān)口的設(shè)計(jì),提出了 一種基于空間分割的兩階段k-匿名算法,相應(yīng)能夠有效解決匿名化處理后,導(dǎo)致原始數(shù)據(jù) 集中部分有效信息的丟失,及眾包數(shù)據(jù)庫(kù)環(huán)境下k-匿名技術(shù)無(wú)法同時(shí)保護(hù)雙方隱私的問(wèn) 題。通過(guò)執(zhí)行本發(fā)明中的方案,在同時(shí)保護(hù)雙方隱私的基礎(chǔ)上,還顯著提高了匿名數(shù)據(jù)的可 用性,因而尤其適用于眾包數(shù)據(jù)庫(kù)環(huán)境下包含供需求雙方之類(lèi)的應(yīng)用場(chǎng)合。
      [0007] 為實(shí)現(xiàn)上述目的,本發(fā)明提出了一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法,其特征在 于,所述方法具體包括W下步驟:
      [0008] S1 :首先,針對(duì)公司職位數(shù)據(jù)集,對(duì)其進(jìn)行k-匿名處理:具體包括將所述公司職位 數(shù)據(jù)集按屬性拆分為兩個(gè)數(shù)據(jù)集,其一是將所述公司職位數(shù)據(jù)集中除準(zhǔn)標(biāo)識(shí)符屬性外的其 他屬性匿名化為空,處理后得到的所述公司職位數(shù)據(jù)集中僅包含準(zhǔn)標(biāo)識(shí)符屬性;另一是將 所述公司職位數(shù)據(jù)集中準(zhǔn)標(biāo)識(shí)符屬性匿名化為空,處理后得到的所述公司職位數(shù)據(jù)集中包 含除準(zhǔn)標(biāo)識(shí)符屬性之外的其他所有屬性,由此獲得匿名化的僅包含準(zhǔn)標(biāo)識(shí)符屬性的第一公 司職位數(shù)據(jù)集和匿名化的不包含準(zhǔn)標(biāo)識(shí)符屬性的第二公司職位數(shù)據(jù)集;
      [0009] S2 :接著,繼續(xù)針對(duì)應(yīng)聘用戶(hù)的原始數(shù)據(jù)集進(jìn)行分階段的匿名化處理,具體包括: 通過(guò)獲取的所述原始數(shù)據(jù)集的樣本真實(shí)值對(duì)該原始數(shù)據(jù)集構(gòu)成的空間進(jìn)行虛擬分割,得到 最優(yōu)分割點(diǎn);繼而,根據(jù)上述獲得的該最優(yōu)分割點(diǎn)和獲取的所述原始數(shù)據(jù)集的樣本反饋值 遞歸地分割所述原始數(shù)據(jù)集構(gòu)成的空間,從而得到子空間集合,最后根據(jù)子空間集合中各 子空間的邊界對(duì)該原始數(shù)據(jù)集做匿名化處理,由此獲得匿名化的用戶(hù)數(shù)據(jù)集;
      [0010] S3:將得到的所述第一公司職位數(shù)據(jù)集和所述用戶(hù)數(shù)據(jù)集一同發(fā)布到眾包平臺(tái), 在注冊(cè)用戶(hù)做職業(yè)推薦任務(wù)后,得到用戶(hù)-公司職位關(guān)系表A;
      [0011] S4:將得到的所述第二公司職位數(shù)據(jù)集和所述用戶(hù)數(shù)據(jù)集一同發(fā)布到眾包平臺(tái), 在注冊(cè)用戶(hù)做職業(yè)推薦任務(wù)后,得到用戶(hù)-公司職位關(guān)系表B;
      [0012] S5 :最后,將上述步驟得到的所述用戶(hù)-公司職位關(guān)系表A和所述用戶(hù)-公司職位 關(guān)系表B,進(jìn)行交集運(yùn)算,得到最終確定的用戶(hù)-公司職位關(guān)系表。
      [0013] 作為進(jìn)一步優(yōu)選的,對(duì)于步驟S2而言,優(yōu)選采用基于空間分割的兩階段k-匿名算 法,該步驟具體包括W下子步驟:首先根據(jù)獲取的原始數(shù)據(jù)集的樣本真實(shí)值對(duì)用戶(hù)數(shù)據(jù)集 構(gòu)成的空間做第一階段的虛擬分割,具體包括:
      [0014] S211 :首先,針對(duì)應(yīng)聘用戶(hù)的原始數(shù)據(jù)集隨機(jī)抽樣,提取樣本數(shù)據(jù)中應(yīng)聘用戶(hù)的曾 經(jīng)職業(yè)或當(dāng)前職業(yè)作為所述應(yīng)聘用戶(hù)的真實(shí)值r,,其中rkGR,R為職業(yè)種類(lèi),即真實(shí)值值 域R= (r〇,ri,…,Tk,…,rj,k= 0, 1,…,n;
      [0015] S212:接著,將匿名化處理后具有相同準(zhǔn)標(biāo)識(shí)符屬性的應(yīng)聘用戶(hù)記為所述多維空 間的子空間cell,其中,每個(gè)cell均包含W下信息:位于該cell內(nèi)的應(yīng)聘用戶(hù)個(gè)數(shù)、樣本 個(gè)數(shù)和樣本真實(shí)值;繼而,得到該cell中樣本真實(shí)值分布T= (tu,ti,…,tk,…,t。)的方差 為:
      [0016]
      陽(yáng)017]其中tk表示該cell中真實(shí)值為fk的樣本個(gè)數(shù),其中k為樣本真實(shí)值分布中的 取值個(gè)數(shù),k= 0, 1,…,n;;所述樣本的準(zhǔn)標(biāo)識(shí)符屬性構(gòu)成該空間的候選分割點(diǎn)集合P= (Pil〇《i《山,其中i表示所述原始數(shù)據(jù)集構(gòu)成的多維空間的維度,即所述原始數(shù)據(jù)集中 各準(zhǔn)標(biāo)識(shí)符屬性;設(shè)第i維上候選分割點(diǎn)集合為Pi=(Pi。,P。,. . .,PU, . . .,Pim),其中j= 0, 1,…,m為候選分割點(diǎn)集合中的取值個(gè)數(shù),那么所述P沖p1,的估值函數(shù)為:
      [00化]val(Pi.j)=ETErVarCr)
      [0019] 其中r表示被Pi汾割后產(chǎn)生的所有cell對(duì)應(yīng)的T的集合;
      [0020] S213 :根據(jù)上述估值函數(shù)分別計(jì)算第0~n維上每個(gè)候選分割點(diǎn)Pi,p。的估值,得 到擁有最大估值的最優(yōu)分割點(diǎn)Pik,其中kG[0, 1,. . .,m];
      [0021]S214:將所述Pik從所述Pi中刪除,并添加Pik到第i維最優(yōu)分割點(diǎn)集合divider[i] 中,記dividers…d]為多維空間中最優(yōu)分割點(diǎn)的數(shù)組,i表示維度;
      [0022] S215:判斷候選分割點(diǎn)集合P中是否存在合法分割點(diǎn),即是否滿(mǎn)足k-匿名,若存 在,則執(zhí)行步驟S213 ;若不存在,則算法結(jié)束,divider[0…d]為產(chǎn)生結(jié)果。
      [0023] 繼而,針對(duì)上述步驟S211中得到的所述樣本數(shù)據(jù),將其發(fā)送到眾包平臺(tái),根據(jù)獲 取的反饋值進(jìn)行正式的空間分割,即執(zhí)行基于空間分割的兩階段的k-匿名算法中第二階 段正式的分割空間,具體包括如下步驟:
      [0024]S221 :將步驟S211中獲得的所述樣本數(shù)據(jù)發(fā)布到眾包平臺(tái),注冊(cè)用戶(hù)根據(jù)樣本精 確信息為應(yīng)聘用戶(hù)推薦職位,W獲得樣本反饋值F= (f。,fi,…,fk,…,f。),其值域仍為R= (r。,ri,…,r,,…,〇,k= 0, 1,…,n;繼而,根據(jù)獲得的所述樣本反饋值計(jì)算所述cell評(píng) 分函數(shù)為: 陽(yáng)0巧]
      [00%] 其中,fk表示所述cell中該樣本反饋值為rk的樣本個(gè)數(shù);由于每次分割均將原空 間分割為子空間celli和cell2,從步驟S214中的所述divide;r[0…d]取出分割點(diǎn)div,其 估值函數(shù)為:
      [0027]val(div) =scorebelli)+score(cells);
      [0028] S222 :針對(duì)當(dāng)前cell,判斷該divider[0…d]中是否存在滿(mǎn)足k-匿名的分割點(diǎn), 若存在,則執(zhí)行S223 ;若不存在,則執(zhí)行S226 ;
      [0029]S223:根據(jù)所述分割點(diǎn)div的估值函數(shù),在divider[0???(!]中計(jì)算擁有最大估值的 分割點(diǎn)divMax,若val(divMax)〉score(cell),貝Ij通過(guò)所述最大估值的divMax將當(dāng)前空間 分割為celli和cell2,然后針對(duì)celli和cell2分別對(duì)應(yīng)依次執(zhí)行S224及S225,否則,執(zhí)行 S226;
      [0030]S224:針對(duì)celli執(zhí)行S222; W31] 8225:針對(duì)〇6112執(zhí)行5222;
      [0032] S226 :將該cell插入到子空間集合C中,并遞歸上一層;
      [003引 S227:根據(jù)遞歸分割得到子空間集合C中各cell的邊界,對(duì)所述原始數(shù)據(jù)集的準(zhǔn) 標(biāo)識(shí)符屬性進(jìn)行匿名化處理,從而得到匿名化的用戶(hù)數(shù)據(jù)集。
      [0034] 總體而言,按照本發(fā)明點(diǎn)的W上技術(shù)方案與現(xiàn)有技術(shù)相比,主要具備W下的技術(shù) 優(yōu)點(diǎn):
      [0035]1、本申請(qǐng)中通過(guò)結(jié)合眾包數(shù)據(jù)庫(kù)下包含供需求雙方關(guān)系的運(yùn)用需求,相應(yīng)對(duì)用戶(hù) 數(shù)據(jù)集及公司職位數(shù)據(jù)集同時(shí)執(zhí)行k-匿名處理,由此,注冊(cè)用戶(hù)humanworker通過(guò)眾包數(shù) 據(jù)庫(kù)獲得的數(shù)據(jù)均是匿名處理后的數(shù)據(jù),能夠有效起到保護(hù)用戶(hù)及公司雙方隱私的作用;
      [0036] 2、此外,本發(fā)明中專(zhuān)口針對(duì)用戶(hù)數(shù)據(jù)集提出了基于空間分割的兩階段k-匿名算 法,運(yùn)樣能夠在確保用戶(hù)隱私和公司隱私得到有效保護(hù)的同時(shí),最大可能的保留原始數(shù)據(jù) 中的可用信息,顯著提高了匿名化后數(shù)據(jù)的可用性,使得humanworker完成眾包任務(wù)時(shí)的 正確率增加;
      [0037]3、按照本發(fā)明提出的眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法,在雙方隱私均達(dá)到有效 保護(hù)及匿名化數(shù)據(jù)可用性得到提高的同時(shí),并未存在過(guò)多的計(jì)算復(fù)雜度,便于操控,,因而 具有一定的可實(shí)施性及實(shí)用推廣價(jià)值。
      【附圖說(shuō)明】
      [003引圖1是本發(fā)明眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法的執(zhí)行流程圖;
      [0039] 圖2是本發(fā)明中提出的基于空間分割的兩階段k-匿名算法示意圖;
      [0040] 圖3是本發(fā)明中進(jìn)一步優(yōu)選的k-匿名算法第一階段流程圖;
      [0041] 圖4是本發(fā)明中進(jìn)一步優(yōu)選的k-匿名算法第二階段流程圖。
      【具體實(shí)施方式】
      [0042] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。
      [00創(chuàng)如圖1所示,本發(fā)明提供了一種眾包數(shù)據(jù)庫(kù)下的雙向k-匿名方法:
      [0044] (1)對(duì)公司職位數(shù)據(jù)集進(jìn)行兩種極端的k-匿名處理:第一種是將所述公司職位數(shù) 據(jù)集中準(zhǔn)標(biāo)識(shí)符屬性外的其他屬性匿名化為空,處理后得到僅包含準(zhǔn)標(biāo)識(shí)符屬性的第一公 司職位數(shù)據(jù)集;第二種是將所述公司職位數(shù)據(jù)集中準(zhǔn)標(biāo)識(shí)符屬性匿名化為空,處理后得到 包含除準(zhǔn)標(biāo)識(shí)符屬性之外的其他所有屬性的第二公司職位數(shù)據(jù)集;
      [0045] (2)對(duì)應(yīng)聘用戶(hù)的原始數(shù)據(jù)集做k-匿名處理,采用基于空間分割的兩階段的k-匿 名算法,如圖2所示,具體包括:
      [0
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1