一種MapReduce數(shù)據(jù)處理框架下的隱私保護(hù)方法
【專利摘要】本發(fā)明提供一種MapReduce數(shù)據(jù)處理框架下的隱私保護(hù)方法,屬于大數(shù)據(jù)領(lǐng)域,本發(fā)明執(zhí)行過(guò)程分為以下三步:(1)首先用戶根據(jù)應(yīng)用環(huán)境的特殊性來(lái)定義Mapper函數(shù)的最大輸出范圍MaxRange;(2)根據(jù)MaxRange和Mapper計(jì)算的結(jié)果,判斷結(jié)果是否在MaxRange范圍之內(nèi):(3)如果在范圍之內(nèi),則根據(jù)差分隱私保護(hù)的公式給Mapper的輸出結(jié)果增加Laplacian噪聲,如果不在范圍之內(nèi),則從MaxRange中隨機(jī)選取一個(gè)數(shù)字作為該Mapper的輸出結(jié)果。這種方法的好處在于減少了執(zhí)行差分隱私保護(hù)的Mapper的個(gè)數(shù),降低了算法運(yùn)行的時(shí)間。同時(shí)也避免了因?yàn)檫^(guò)高或者過(guò)低的Mapper輸出值導(dǎo)致的噪聲過(guò)大問(wèn)題,在滿足差分隱私保護(hù)規(guī)則的同時(shí)也提高了查詢的精度。
【專利說(shuō)明】-種MapReduce數(shù)據(jù)處理框架下的隱私保護(hù)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種MapReduce數(shù)據(jù)處理框架下的隱私保護(hù)方 法。利用差分隱私保護(hù)策略中添加Laplacian噪聲的方法來(lái)滿足Mapper輸出結(jié)果的隱私 保護(hù)和利用強(qiáng)制范圍檢查來(lái)剔除惡意代碼。
【背景技術(shù)】
[0002] 當(dāng)今,社會(huì)信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長(zhǎng)。據(jù)統(tǒng)計(jì),僅僅就中國(guó)的互 聯(lián)網(wǎng)數(shù)據(jù)量而言,百度每天訪問(wèn)超過(guò)10億次,保持并索引了超過(guò)千億的網(wǎng)頁(yè),每天的社交 活躍用戶超過(guò)5億,共享圖片45億張,阿里巴巴的日交易額查過(guò)200億,日交易峰值達(dá)1億 次。同時(shí),科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全 球信息總量已經(jīng)達(dá)到2. 7ZB,而到2015年這一數(shù)值預(yù)計(jì)會(huì)達(dá)到8ZB。
[0003] 海量的數(shù)據(jù)給社會(huì)發(fā)展帶來(lái)的新的機(jī)遇。隨著軟硬件的發(fā)展,數(shù)據(jù)為王的大數(shù)據(jù) 時(shí)代已經(jīng)到來(lái),戰(zhàn)略需求也發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),計(jì)算機(jī)行業(yè)正在轉(zhuǎn) 變?yōu)檎嬲男畔⑿袠I(yè),從追求計(jì)算速度轉(zhuǎn)變?yōu)榇髷?shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變 為以數(shù)據(jù)為中心。
[0004] 目前最為流行的大數(shù)據(jù)處理架構(gòu)便是MapReduce編程模型,MapReduce可以允許 數(shù)據(jù)處理能力極高的大量計(jì)算機(jī)在集群內(nèi)對(duì)數(shù)據(jù)進(jìn)行并行處理,同時(shí)進(jìn)行大批量的仿真、 比較、挖掘和篩選,大大提高了大數(shù)據(jù)的利用價(jià)值利用。
[0005] 然而,大數(shù)據(jù)相關(guān)的存儲(chǔ)、挖掘、分析等技術(shù)的發(fā)展使得人們?cè)诨ヂ?lián)網(wǎng)上的一言一 行都掌握在互聯(lián)網(wǎng)服務(wù)提供商手中,包括購(gòu)物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等 等。例如:當(dāng)一個(gè)電商數(shù)據(jù)提供者邀請(qǐng)一名數(shù)據(jù)分析專家進(jìn)行數(shù)據(jù)分析時(shí),該專家可能會(huì) 編寫惡意的代碼泄露個(gè)人的購(gòu)買信息,又或者即使這些代碼是正確的,攻擊者也有可能從 分析的結(jié)果結(jié)合其他的信息來(lái)獲得目標(biāo)用戶的隱私的信息。而隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 數(shù)據(jù)擁有者往往能從原來(lái)看似無(wú)害的海量數(shù)據(jù)中挖掘出個(gè)人的隱私信息。多項(xiàng)實(shí)際案例說(shuō) 明,即使無(wú)害的數(shù)據(jù)被大量收集后,也會(huì)暴露個(gè)人隱私。
[0006] 針對(duì)數(shù)據(jù)的隱私保護(hù)問(wèn)題,當(dāng)前主要流行的方法有數(shù)據(jù)發(fā)布的匿名保護(hù)技術(shù)、社 交網(wǎng)絡(luò)中匿名保護(hù)技術(shù)、數(shù)字水印技術(shù)、數(shù)據(jù)溯源技術(shù)和角色訪問(wèn)控制技術(shù)等等。然而, 這些方法基本都屬于傳統(tǒng)的數(shù)據(jù)隱私保護(hù)技術(shù),適用于小規(guī)模、關(guān)系型數(shù)據(jù)庫(kù)和文件系統(tǒng) 中,不適用于當(dāng)前的MapReduce計(jì)算框架。攻擊者很有可能在MapReduce框架的文件讀取 和Mapper階段就通過(guò)非法的手段獲取了目標(biāo)用戶的隱私信息。因此,如何在Map階段和 MapReduce框架中進(jìn)行數(shù)據(jù)隱私保護(hù)是一個(gè)關(guān)鍵問(wèn)題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提出一種面向MapReduce編程架構(gòu)的數(shù)據(jù)隱私保護(hù)策略(SeMap),通過(guò)在 Hadoop文件系統(tǒng)中應(yīng)用MAC(MandatoryAccessControl)和在Map的輸出端應(yīng)用差分隱 私保護(hù)策略來(lái)達(dá)到用戶的隱私保護(hù)。
[0008] MapReduce采用〃分而治之〃的思想,把對(duì)大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié) 點(diǎn)管理下的各個(gè)分節(jié)點(diǎn)共同完成,然后通過(guò)整合各個(gè)節(jié)點(diǎn)的中間結(jié)果,得到最終結(jié)果。當(dāng)前 的MapReduce數(shù)據(jù)處理要經(jīng)歷Map和Reduce兩個(gè)階段,每個(gè)階段都以Key/Value對(duì)作為輸 入和輸出,并由編碼提供者選擇他們的類型。
[0009] 本發(fā)明主要通過(guò)差分隱私技術(shù)和強(qiáng)制范圍檢查技術(shù)來(lái)對(duì)MapReduce中使用到的 數(shù)據(jù)實(shí)施隱私保護(hù)。(1)首先用戶根據(jù)應(yīng)用環(huán)境的特殊性來(lái)定義Mapper函數(shù)的最大輸出范 圍MaxRange; (2)根據(jù)MaxRange和Mapper計(jì)算的結(jié)果,判斷結(jié)果是否在MaxRange范圍之 內(nèi):(3)如果在范圍之內(nèi),則根據(jù)差分隱私保護(hù)的公式給Mapper的輸出結(jié)果增加Laplacian 噪聲,如果不在范圍之內(nèi),貝1J從MaxRange中隨機(jī)選取一個(gè)數(shù)字作為該Mapper的輸出結(jié)果。 [0010] 對(duì)Mapper的結(jié)果按照差分隱私保護(hù)規(guī)則添加噪聲主要分為兩種不同 的情況來(lái)處理;(1)對(duì)于可信的Mapper,我們只需要計(jì)算Mapper函數(shù)的敏感度 Δ/,然后利用Iaplacian分布來(lái)產(chǎn)生隨機(jī)噪聲ZqpCVVf),并將噪聲增加到輸出結(jié)果 上;(2)對(duì)于不可信的Mapper,我們要求Mapper函數(shù)的提供者提供一個(gè)估計(jì)的函數(shù)輸出范 圍(Aini^Afraas),然后根據(jù)該范圍確定Mapper函數(shù)的敏感度。如果敏感度過(guò)高,則拋棄這 個(gè)Mapper函數(shù)的輸出結(jié)果。強(qiáng)制范圍檢查是通過(guò)驗(yàn)證Mapper的輸出值是否在數(shù)據(jù)提供者 提供的的Mapper函數(shù)的輸出范圍之內(nèi)來(lái)防止過(guò)大或者過(guò)小的Mapper輸出值造成的隱私信 息泄露。在執(zhí)行添加噪聲之前,我們首先做一個(gè)數(shù)據(jù)的過(guò)濾,將不符合MaxRange范圍的數(shù) 據(jù)用隨機(jī)產(chǎn)生的MaxRange范圍內(nèi)的數(shù)進(jìn)行替換,并且直接只用替換后的Mapper輸出值作 為Reduce函數(shù)的輸出。
[0011] 這種方法的好處在于減少了執(zhí)行差分隱私保護(hù)的Mapper的個(gè)數(shù),降低了算法運(yùn) 行的時(shí)間。同時(shí)也避免了因?yàn)檫^(guò)高或者過(guò)低的Mapper輸出值導(dǎo)致的噪聲過(guò)大問(wèn)題,在滿足 差分隱私保護(hù)規(guī)則的同時(shí)也提高了查詢的精度。
【專利附圖】
【附圖說(shuō)明】
[0012] 附圖1為MapReduce框架結(jié)構(gòu)圖。
[0013] 附圖2為MapReduce框架下的隱私保護(hù)策略結(jié)構(gòu)圖。
[0014] 附圖3為強(qiáng)制范圍檢查流程處理圖。
【具體實(shí)施方式】
[0015] 以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用 技術(shù)手段來(lái)解決技術(shù)問(wèn)題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。需要說(shuō)明 的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征的相互均在本發(fā)明的保護(hù)范圍 之內(nèi)。
[0016] 本發(fā)明以大數(shù)據(jù)分析過(guò)程中典型的案例說(shuō)明實(shí)施方式。
[0017] 下面分別簡(jiǎn)要描述一下這兩種方法。
[0018] 1、強(qiáng)制范圍檢查: 事實(shí)上,有很多的應(yīng)用場(chǎng)景其Mapper的輸出范圍都是可以預(yù)知的,例如,豆瓣的電影 評(píng)分?jǐn)?shù)據(jù),其Mapper的輸出值必定在(1,10)的范圍之內(nèi)。數(shù)據(jù)提供者還可以根據(jù)實(shí)際應(yīng) 用場(chǎng)景的特性,給Mapper函數(shù)的輸出值預(yù)定義一個(gè)輸出范圍MaxRange,并且對(duì)Mapper函數(shù) 的輸出結(jié)果做強(qiáng)制性檢查,如果Mapper的輸出在MaxRange之內(nèi),那么對(duì)其增加噪聲,如果 Mapper的輸出來(lái)MaxRange之外,則將隨機(jī)選取一個(gè)MaxRange內(nèi)的值替換這個(gè)Mapper的輸 出值。其具體流程如附圖3所示。
[0019] 2、差分隱私保護(hù)策略: 在本發(fā)明中,針對(duì)Map階段的輸出結(jié)果無(wú)隱私保護(hù)機(jī)制的問(wèn)題,我們對(duì)每一個(gè)Mapper的輸出結(jié)果都進(jìn)行一次差分隱私保護(hù)計(jì)算。為了方便描述,這里做出如下定義: 定義I:Mapper函數(shù)敏感度。設(shè)D和D'是僅僅只有一個(gè)數(shù)據(jù)#同的兩個(gè)數(shù)據(jù)集 (d在D中,而不在D'中),那么一個(gè)函數(shù)的敏感度可以定義為:
【權(quán)利要求】
1. 一種MapReduce數(shù)據(jù)處理框架下的隱私保護(hù)方法,其特征在于執(zhí)行過(guò)程分為以下三 [K 少: (1) 首先用戶根據(jù)應(yīng)用環(huán)境的特殊性來(lái)定義Mapper函數(shù)的最大輸出范圍MaxRange; (2) 根據(jù)MaxRange和Mapper計(jì)算的結(jié)果,判斷結(jié)果是否在MaxRange范圍之內(nèi): (3) 如果在范圍之內(nèi),則根據(jù)差分隱私保護(hù)的公式給Mapper的輸出結(jié)果增加 Laplacian噪聲,如果不在范圍之內(nèi),貝U從MaxRange中隨機(jī)選取一個(gè)數(shù)字作為該Mapper的 輸出結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于 對(duì)Mapper的結(jié)果按照差分隱私保護(hù)規(guī)則添加噪聲主要分為兩種不 同的情況來(lái)處理;(1)對(duì)于可信的Mapper,計(jì)算Mapper函數(shù)的敏感度 A/,然后利用laplacian分布來(lái)產(chǎn)生隨機(jī)噪聲
,并將噪聲增加到輸出結(jié)果 上;(2)對(duì)于不可信的Mapper,要求Mapper函數(shù)的提供者提供一個(gè)估計(jì)的函數(shù)輸出范圍 然后根據(jù)該范圍確定Mappei函數(shù)的敏感度。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于如果敏感度過(guò)高,則拋棄這個(gè)Mapper函數(shù) 的輸出結(jié)果。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于在執(zhí)行添加噪聲之前,首先做一個(gè)數(shù)據(jù)的 過(guò)濾,將不符合MaxRange范圍的數(shù)據(jù)用隨機(jī)產(chǎn)生的MaxRange范圍內(nèi)的數(shù)進(jìn)行替換,并且直 接只用替換后的Mapper輸出值作為Reduce函數(shù)的輸出。
【文檔編號(hào)】G06F21/62GK104484616SQ201410721436
【公開日】2015年4月1日 申請(qǐng)日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】蘇志遠(yuǎn), 辛國(guó)茂, 亓開元, 劉偉, 曹連超, 金洪殿 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司