每個(gè)參數(shù)隨機(jī) 分布在0-1之間;
[0090] 4b3)計(jì)算當(dāng)前代價(jià)函數(shù)值;
[0091] (4c)計(jì)算未知類(lèi)型的用戶(hù)屬于每個(gè)類(lèi)型的概率:
[0092] 用已提取的未知類(lèi)型用戶(hù)的特征數(shù)據(jù),計(jì)算每個(gè)未知類(lèi)型用戶(hù)屬于每個(gè)類(lèi)型的概 率:
[0093]
[0094]
[0095] (4d)用全部用戶(hù)的特征數(shù)據(jù),重新計(jì)算上述每個(gè)參數(shù)μν、〇:、 p (unICqattadi,Θnb)和P(UnI\ΘJ,得到更新后的參數(shù):
[0096] (4e)判斷是否終止訓(xùn)練樸素貝葉斯分類(lèi)器:計(jì)算當(dāng)前代價(jià)函數(shù)值1^_,并將計(jì)算 結(jié)果與上一次代價(jià)函數(shù)值Ltefc]Ji行比較,如果Lεnb,則終止訓(xùn)練樸素貝葉斯 分類(lèi)器,否則,重復(fù)執(zhí)行步驟(4c)_步驟(4d),其中enb是指樸素貝葉斯分類(lèi)器停止訓(xùn)練的 閾值,其取值通過(guò)實(shí)驗(yàn)確定,本實(shí)例中,通過(guò)在MoviesLens和Netflix數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn) 證,取εnb= 50時(shí)訓(xùn)練時(shí)間與檢測(cè)效果達(dá)到均衡。
[0097] 步驟5,根據(jù)樸素貝葉斯分類(lèi)器計(jì)算每個(gè)未知類(lèi)型用戶(hù)屬于每個(gè)類(lèi)型的概率,再對(duì) 其進(jìn)行分類(lèi)找出托攻擊用戶(hù)。
[0098]根據(jù)ZhiangWu等人在 "HySAD:ASemi-SupervisedHybridShillingAttack DetectorforTrustworthyProductRecommendation',(《TheACMSIGKDDConference onKnowledgeDiscoveryandDataMining》,2012,pages985-993)提出的方法,本步驟 用該方法計(jì)算,其步驟如下:
[0099] (5a)計(jì)算每個(gè)未知類(lèi)型的用戶(hù)是q類(lèi)型托攻擊用戶(hù)的概率與是正常用戶(hù)的概率 的比值Ω,…(u?):
[0100]
[0101] 其中εattadi是指未知類(lèi)型用戶(hù)被判定為托攻擊用戶(hù)的閾值,其取值通過(guò)實(shí)驗(yàn)確 定,本實(shí)例中,通過(guò)在MoviesLens和Netflix數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,分別設(shè)為10和1015 時(shí)檢測(cè)效果最好。
[0102] (5b)將上述概率的比值與被判定為托攻擊用戶(hù)的閾值εattaA進(jìn)行比 較:
[0103] 如果(u") > ,則認(rèn)為用戶(hù)η是托攻擊用戶(hù),否則,是正常用戶(hù)。
[0104] 本發(fā)明的效果可以通過(guò)以下仿真進(jìn)一步說(shuō)明:
[0105] 1.仿真條件
[0106] 本實(shí)例在Intel(R)Core(TM)i5-2410MCPU2. 30GHz,Windows7 (χ64)系統(tǒng)下, Matlab2015a運(yùn)行平臺(tái)上,完成下面的仿真實(shí)驗(yàn)。
[0107] 分別選取兩個(gè)在學(xué)術(shù)界著名的數(shù)據(jù)集做測(cè)試,其一是MovieLens,見(jiàn)http://www. grouplens.org/,該數(shù)據(jù)集由1682部電影和943個(gè)用戶(hù)組成。另外一個(gè)數(shù)據(jù)集是Netflix, 見(jiàn)http://www.netflixprize.com/。本實(shí)驗(yàn)從Netflix數(shù)據(jù)集中隨機(jī)抽取2000個(gè)用戶(hù)與 2000部電影的記錄作為測(cè)試數(shù)據(jù)集,其稀疏度為1. 33%,兩個(gè)數(shù)據(jù)集的評(píng)分尺度均為1~ 5〇
[0108] 在進(jìn)行托攻擊時(shí),由于現(xiàn)有技術(shù)的阻礙,讓注冊(cè)新用戶(hù)的成本變得很大,使攻擊規(guī) 模顯著限制,攻擊規(guī)模就是托攻擊用戶(hù)數(shù)量占原先用戶(hù)數(shù)量的百分比。所以為了降低成本, 增大托攻擊用戶(hù)的裝填規(guī)模才是可取的,裝填規(guī)模就是托攻擊用戶(hù)評(píng)價(jià)的項(xiàng)目數(shù)量占項(xiàng)目 總數(shù)量的百分比。其中最難檢測(cè)的托攻擊用戶(hù)類(lèi)型,是多種類(lèi)型的托攻擊用戶(hù)一起進(jìn)行攻 擊和裝填規(guī)模變化的托攻擊用戶(hù)類(lèi)型,即混合托攻擊和多尺度托攻擊。
[0109] 衡量托攻擊檢測(cè)算法的性能常用的指標(biāo)是精確度P、召回率R和F-measure。其計(jì) 算公式分別為:
[0110]
[0111] 其中TP是指被正確分類(lèi)的托攻擊用戶(hù)數(shù)量,F(xiàn)P是指被錯(cuò)誤分類(lèi)為托攻擊用戶(hù)其 實(shí)為正常用戶(hù)的數(shù)量,F(xiàn)N是指沒(méi)有被識(shí)別出的托攻擊用戶(hù)數(shù)量。由公式可以看出,精確度 刻畫(huà)的是檢測(cè)算法結(jié)果的準(zhǔn)確性,召回率刻畫(huà)的是檢測(cè)算法是否能檢測(cè)出所有托攻擊用戶(hù) 的能力,所以?xún)蓚€(gè)指標(biāo)分別只能表達(dá)出檢測(cè)算法的一個(gè)方面,而指標(biāo)F-measure結(jié)合了兩 者,該指標(biāo)愈大,說(shuō)明托攻擊檢測(cè)算法的表現(xiàn)愈均衡,所以我們主要采用指標(biāo)F-measure以 作對(duì)比。
[0112] 2.仿真實(shí)驗(yàn)內(nèi)容
[0113] 仿真1,選取MovieLens中的test2子集,將其分為訓(xùn)練和測(cè)試兩個(gè)數(shù)據(jù)集部分, 前者標(biāo)為類(lèi)型用戶(hù),后者標(biāo)為未知類(lèi)型用戶(hù),數(shù)量分別與總用戶(hù)總數(shù)量的比例為90%和 10 %,對(duì)其中分別添加托攻擊用戶(hù)。托攻擊用戶(hù)的類(lèi)型與規(guī)模為,訓(xùn)練數(shù)據(jù)集中的混合托攻 擊用戶(hù)攻擊規(guī)模為5%,將100個(gè)混合托攻擊用戶(hù)測(cè)試數(shù)據(jù)集中,參數(shù)設(shè)置如下:
[0114] 棧式稀疏自編碼器共設(shè)為3層,隱層單元數(shù)分別為400,100和10,衰減項(xiàng)λ= 0. 05,學(xué)習(xí)率α=ο. 05,平均活躍度懲罰因子β= 0. 3,稀疏性參數(shù)p= 0. 01,初始化參 數(shù)所用高斯分布為N(0, 0. 01),未知類(lèi)型用戶(hù)權(quán)重衰減= 0. 5。
[0115] 分別用本發(fā)明與現(xiàn)有經(jīng)典屬性特征基于半監(jiān)督方式SNB方法分別測(cè)試裝填規(guī)模 為10%、15%、20%和25%時(shí)的檢測(cè)效果,即通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集在測(cè)試數(shù)據(jù)集中找出所 有托攻擊用戶(hù),結(jié)果如表1。
[0116] 表 1
[0117]
[0119] 從表中可以看出,當(dāng)托攻擊的裝填規(guī)模較小時(shí)本發(fā)明的表現(xiàn)比SNB稍差,但是當(dāng) 裝填規(guī)模僅僅上升到15%時(shí),兩者表現(xiàn)基本一致,但是在實(shí)際中裝填規(guī)模的比例是非常大 的,所以這個(gè)結(jié)果是合理的,這說(shuō)明本發(fā)明可以檢測(cè)出混合類(lèi)型托攻擊用戶(hù)。
[0120] 仿真2,選取MovieLens中的test2子集和Netflix數(shù)據(jù)集,數(shù)據(jù)集的劃分與仿真 1中相同,在test2子集和Netflix數(shù)據(jù)集中分別添加平均多尺度托攻擊用戶(hù),其中每個(gè)托 攻擊用戶(hù)的裝填規(guī)模在5%~50%之間等概率選擇。分別用本發(fā)明與現(xiàn)有SNB方法分別檢 測(cè)平均多尺度托攻擊用戶(hù),檢測(cè)結(jié)果如圖2中所示。其中:
[0121] 圖2 (a)表示在test2子集上的檢測(cè)效果,可以看出SNB面對(duì)平均多尺度托攻擊時(shí) 檢測(cè)性能急劇下滑,而本發(fā)明表現(xiàn)卻相對(duì)穩(wěn)定。這正說(shuō)明了本發(fā)明不針對(duì)具體的托攻擊類(lèi) 型用戶(hù),有較強(qiáng)的適應(yīng)性。
[0122] 圖2 (b)表示在Netflix數(shù)據(jù)集上的檢測(cè)效果,從結(jié)果中可以看出,本發(fā)明不針對(duì) 具體的數(shù)據(jù)集與托攻擊用戶(hù)類(lèi)型,表現(xiàn)相對(duì)穩(wěn)定,有較強(qiáng)的適應(yīng)性。
[0123] 仿真3,選取MovieLens中的test2子集和Netflix數(shù)據(jù)集,數(shù)據(jù)集的劃分與仿真 1中相同,在test2子集和Netflix數(shù)據(jù)中分別添加隨機(jī)多尺度托攻擊用戶(hù),其中每個(gè)托攻 擊用戶(hù)的裝填規(guī)模在5%~50%之間等概率選擇,分別用本發(fā)明與現(xiàn)有SNB方法分別檢測(cè) 隨機(jī)多尺度托攻擊用戶(hù),效果如圖3中所示。其中:
[0124] 圖3 (a)表示在MovieLens中的test2子集上的檢測(cè)效果,可以發(fā)現(xiàn)此時(shí)本發(fā)明表 現(xiàn)略遜于SNB,但是并沒(méi)有出現(xiàn)仿真2中SNB性能急劇下滑的現(xiàn)象。
[0125] 圖3(b)表示在Netflix數(shù)據(jù)集上的檢測(cè)效果,從圖中依然可以看出,本發(fā)明不針 對(duì)具體的數(shù)據(jù)集與托攻擊用戶(hù)類(lèi)型,表現(xiàn)相對(duì)穩(wěn)定,有較強(qiáng)的適應(yīng)性。
[0126] 綜上,本發(fā)明用棧式稀疏自編碼器直接對(duì)用戶(hù)的初始評(píng)分?jǐn)?shù)據(jù)進(jìn)行特征提取,然 后將提取的特征數(shù)據(jù)作為輸入,以半監(jiān)督的方式訓(xùn)練樸素貝葉斯分類(lèi)器,最終找出未知類(lèi) 型用戶(hù)中的托攻擊用戶(hù)。這種方法在處理不同類(lèi)型的托攻擊用戶(hù)時(shí),較現(xiàn)有方法具有更強(qiáng) 的適應(yīng)性,檢測(cè)結(jié)果整體表現(xiàn)均衡。
【主權(quán)項(xiàng)】
1. 一種基于棧式稀疏自編碼器的托攻擊檢測(cè)方法,其特征在于:包括下列步驟: (1) 輸入用戶(hù)對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù):R=IDIX111,其中R是指規(guī)模為IDIX111的評(píng)分矩 陣,D是指全體用戶(hù),I是指全體項(xiàng)目,|D|與|1|分別指D與I的數(shù)量,且D=DuUDiu… UDqU…UD%其中Du