一種基于空間序列數(shù)據(jù)分析的用戶軌跡隱私保護方法
【技術領域】
[0001] 本發(fā)明涉及信息安全技術領域,特別涉及一種用戶軌跡隱私保護方法。
【背景技術】
[0002] 隨著位置服務(Location Based Service,LBS)的發(fā)展和智能設備的普及,產(chǎn)生了 大量的空間數(shù)據(jù)。空間數(shù)據(jù)通過實時發(fā)布或共享,不僅可以為個人生活提供便利,也可為政 府決策和企業(yè)生產(chǎn)提供服務。然而,用戶在使用空間數(shù)據(jù)獲取服務時,必然會在數(shù)據(jù)服務器 上留下大量的記錄,而附著在這些用戶記錄上的上下文信息往往包含著用戶的個人敏感信 息。在數(shù)據(jù)發(fā)布和共享過程中,除了需要考慮如何從數(shù)據(jù)角度進行分析之外,還需要考慮分 析對其統(tǒng)計和挖掘帶來的后果;理想狀況下的隱私保護是不泄露數(shù)據(jù)中的任何隱私信息, 但這樣的數(shù)據(jù)是弱可用的;因此如何在保護用戶隱私的同時又能為用戶提供高質量的數(shù)據(jù) 與信息服務,是空間數(shù)據(jù)服務過程中必須解決的重要科學問題。
[0003] 現(xiàn)有隱私保護技術的研究中,包含著從不同角度對空間數(shù)據(jù)進行表示和處理的方 法。Xiaokui Xia等人利用數(shù)據(jù)干擾的方法進行數(shù)據(jù)發(fā)布中的隱私保護;田豐等人利用 Hilbert曲線對空間數(shù)據(jù)進行轉換;Zohaib Riaz等人通過數(shù)據(jù)混淆的方式在非可信環(huán)境下 進行位置數(shù)據(jù)共享的隱私保護;在Gedik B等人提出的可擴展的位置隱私保護架構中,包含 了個性化的位置匿名模型和位置擾動算法;王璐等人采用基于概率的方法量化了位置大數(shù) 據(jù)的隱私;王彩梅等人用帶權無向圖描述用戶運動軌跡,從信息熵的角度計算用戶的軌跡 隱私水平;Domingo-Ferrer Josep等人提出了一種考慮時空因素的軌跡距離度量方法,使 用微聚集方式進行軌跡的匿名。但是,現(xiàn)有空間數(shù)據(jù)隱私保護方法很難保證空間大數(shù)據(jù)中 位置和軌跡數(shù)據(jù)的統(tǒng)計特征、聚類特征不變。
【發(fā)明內容】
[0004] 本發(fā)明的目的在于提供一種基于空間序列數(shù)據(jù)分析的用戶軌跡隱私保護方法,以 解決現(xiàn)有空間數(shù)據(jù)隱私保護方法很難保證空間大數(shù)據(jù)中位置和軌跡數(shù)據(jù)的統(tǒng)計特征與聚 類特征不變的問題。本發(fā)明首先對每個移動用戶的空間序列數(shù)據(jù)進行聚類分析,獲得每個 用戶的興趣點和興趣區(qū);然后,對指定區(qū)域內的全體用戶的興趣點和興趣區(qū)按照時間進行 迭代,得到不同時間范圍內的用戶公共興趣區(qū);最后,在每個公共興趣區(qū)內,采用位置隨機 交換方法實現(xiàn)用戶位置和軌跡隱私的動態(tài)保護。
[0005] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術方案:
[0006] -種基于空間序列數(shù)據(jù)分析的用戶軌跡隱私保護方法,包括以下步驟:
[0007] A.提取個人興趣點:對每個移動用戶的空間序列數(shù)據(jù)進行聚類分析;
[0008] B.構建公共興趣區(qū):對全體用戶的興趣點按時間分區(qū)進行聚類分析;
[0009] C.在公共興趣區(qū)內交換位置:對同一個興趣區(qū)內的用戶位置進行隨機交換。
[0010]進一步的,步驟A具體包括以下步驟:
[0011] A1:對于每個移動用戶一天內所有的采樣位置,使用基于密度的聚類方法對其進 行聚類,并根據(jù)聚類結果生成聚類索引;
[0012] A2:根據(jù)指定的時間閾值和漂移點個數(shù)閾值,使用基于時間序列的方法對每個移 動用戶的聚類索引進行分析,修改不能形成興趣區(qū)的采樣點的聚類索引、漂移點的聚類索 弓丨,生成每個用戶的個人興趣區(qū)索引;
[0013] A3:將個人興趣區(qū)索引中數(shù)值相同的采樣點按照指定的方式生成個人興趣點。
[0014] 進一步的,
[0015]步驟A1具體包括以下步驟:
[0016] 設置位置矩陣Mos表示某一天所有用戶的所有采樣位置,其中行向量代表一個用 戶,列向量代表某一采樣時刻;設采樣時間間隔為t,t的計量單位為秒;用戶總數(shù)為Nos;矩陣 Mos中元素為mosi,」,其中i = l,2,…,nos,j = l,2,…,則s,行數(shù)n〇s = Nos,列數(shù)則s為:
[0017] mos = [24 * 60 * 60/t] (1)
[0018] 設給定的時間閾值為Ts,給定的聚類半徑為RSP,采用DBSCAN進行聚類時設置Eps = Rsp;聚類區(qū)域中所包含的點數(shù)的最小值MinPts為:
[0019] MmPts = \TsJt] (2)
[0020] 根據(jù)DBSCAN聚類結果生成的聚類索引矩陣Icr;Icr的元素為icri,j,IcR大小與Mos相 同;
[0021]步驟A2具體包括以下步驟:
[0022] 根據(jù)指定的時間閾值和漂移點個數(shù)閾值,使用基于時間序列的方法對每個移動用 戶的聚類索引進行分析,修改不能形成興趣區(qū)的采樣點的聚類索引、漂移點的聚類索引,生 成每個用戶的個人興趣區(qū)索引;
[0023] 對于需要修改的聚類索引,通過矩陣約簡的過程發(fā)現(xiàn)并修改;矩陣約簡的具體方 法如下:構造以Ts為時間間隔的矩陣Idr和與Idr大小相同的矩陣Tdri和Tdr2,矩陣Idr、的行數(shù) 與Icr的行數(shù)相同,即加 R = ncR = n〇s = Nos,矩陣Idr的列數(shù)mDR為:
[0024] τη?Η = [24 * 60 * 60/Γ,] (3)
[0025] Idr中元素為idri, j,其中 i = 1,2,…,加 r,j = 1,2,…,mDR,使得:
[0027]其中k是與j*Ts最接近的采樣時刻;
[0028]在形成Idr的過程中,對每一個j*Ts到(j+l)*Ts時間段內的Ts/t列采樣數(shù)據(jù),僅保留 了2列,其中j = 1,2,…,mDR_l;引入與Idr相應大小的矩陣TDR1和TDR2來記錄idri, j在j*Ts到(j+ 1 )*TS內的結束時刻和idri,」+1在j*Ts到(j+1 )*TS內的開始時刻;
[0029] 在形成TDR1和TDR2的過程中,發(fā)現(xiàn)漂移點和一部分不能構成興趣區(qū)的采樣點;在形 成Tdri和Tdr2后,通過計算tdrli,j+i與tdr2i,j的差值,發(fā)現(xiàn)其他的不能構成興趣區(qū)的采樣點;
[0030] 對于漂移點,將其聚類索引值修改為鄰近采樣點的聚類索引值,對于不能構成興 趣區(qū)的采樣點,將其聚類索引值修改為噪聲點的索引值;修改聚類索引后生成的索引矩陣 Iia表示對應用戶的個人興趣區(qū)索引;索引矩陣Iia的元素為iiai,j,大小與Icr相同;
[0031] 步驟A3具體包括以下步驟:
[0032]索引矩陣IIA的每一行對應一個用戶的個人興趣區(qū)索引,個人興趣區(qū)索引值相同的 采樣點構成了此用戶的一個個人興趣區(qū);個人興趣區(qū)中所有采樣點的位置數(shù)據(jù)反映在二維 坐標平面上可形成一個區(qū)域,個人興趣點通過指定方式對區(qū)域中的采樣點進行處理得到; [0033]根據(jù)個人興趣區(qū)索引I IA將Mos中的采樣點位置變成相應的個人興趣點位置,即設 置與矩陣Mos大小相同的矩陣Mip,Mip的行數(shù)nip = n〇s = Nos,列數(shù)mip=m〇s,Mip中元素為mipi, j, 其中i = 1,2,…,nos,j = 1,2,…,則s,使得:
[0035]其中(xjh表示Mos中第i行的某個興趣點位置,表示此興趣點對應的興趣 區(qū),Pi表示第i行所有興趣點位置的集合。
[0036] 進一步的,步驟B具體包括以下步驟:
[0037] B1:對指定時間范圍內所有用戶的個人興趣點,使用基于密度的聚類方法對其進 行聚類,根據(jù)聚類結果生成指定時間范圍內每個采樣時刻的公共興趣區(qū)索引;
[0038] B2:將指定時間范圍內的公共興趣區(qū)索引中數(shù)值相同的個人興趣點按照指定的方 式生成公共興趣點。
[0039] 進一步的,步驟B1具體包括以下步驟:
[0040] 設SlPdtb,。)表示MIP中指定時間范圍內第i行所有興趣點的集合;其中,i = l, 2,…,nos,指定時間范圍為tb采樣時刻至te采樣時刻,SIPi(tb,te)中無重復元素;SPA(tb,t e) 表示所有SIPi的并集,即:
[0041] SPA(tb,te)= USIPi(tb,te) (6)
[0042] 對SPA( tb, te)的nspa個元素采用DBSCAN進行聚類,設置Eps = Rsp和MinPts = k,得到 3卩八(1^,1:(3)中所有元素8口311(1:1),1: (3)分別對應的聚類索引值18口311(1:1),1:(3) ;其中11=1,2,··, nspa;根據(jù)SPA(tb,U的聚類索引,生成tb采樣時刻至采樣時刻內每個采樣時刻的公共興 趣區(qū)索引 ,即 16, te)的元素為 ipa(tb,te)i,j;i = l,2^",nQS;j = b,b+l^",e-l, e,使得:
[0044] 步驟B2具體包括以下步驟:
[0045] 索引矩陣中公共興趣區(qū)索引值相同的個人興趣點構成了此時間范圍內 的一個公共興趣區(qū)。
[0046] 進一步的,步驟C具體包括以下步驟:
[0047] C1:根據(jù)指定交換時刻的公共興趣區(qū)索引,生成交換時刻的公共興趣區(qū);
[0048] C2:對于同一公共興趣區(qū)中的所有用戶,根據(jù)隨機生成的交換次序,交換所有用戶 從交換時刻開始的所有位置數(shù)據(jù)。
[0049] 進一步的,步驟C中設交換時刻t。生成的n