本技術(shù)涉及用戶行為特征領(lǐng)域,特別是涉及一種面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別方法及其系統(tǒng)。
背景技術(shù):
1、當(dāng)前,鐵路互聯(lián)網(wǎng)售票系統(tǒng)是客運(yùn)的主要售票渠道,隨著旅客出行意愿的增加,部分線路運(yùn)力不足。第三方平臺(tái)利用供需矛盾推出各種搶票服務(wù),給互聯(lián)網(wǎng)售票系統(tǒng)帶來(lái)了極大的壓力,為了保障系統(tǒng)的穩(wěn)定性和旅客購(gòu)票的公平性,亟需對(duì)風(fēng)險(xiǎn)用戶進(jìn)行識(shí)別,保障正常用戶的購(gòu)票權(quán)益。為了能夠更好地識(shí)別風(fēng)險(xiǎn)用戶,需要收集用戶的行為軌跡信息,但是在數(shù)據(jù)的使用、共享、分析的過(guò)程中,存在著用戶個(gè)人隱私信息泄露的風(fēng)險(xiǎn)。為了滿足數(shù)據(jù)安全的要求,需要從兩方面加強(qiáng)數(shù)據(jù)的安全防護(hù),一是針對(duì)數(shù)據(jù)集的保護(hù),原始數(shù)據(jù)信息不能泄露,二是針對(duì)統(tǒng)計(jì)信息的保護(hù)。為了分析風(fēng)險(xiǎn)用戶的特征,必然要收集大量的用戶信息,必然存在著兩方面的問(wèn)題。
2、隨著數(shù)據(jù)智能時(shí)代的到來(lái),基于數(shù)據(jù)的風(fēng)險(xiǎn)防控變得更加熱門,多源數(shù)據(jù)的使用有利于提升風(fēng)險(xiǎn)用戶識(shí)別模型的效果,但是使用多方數(shù)據(jù)資產(chǎn),存在著隱私信息泄露的風(fēng)險(xiǎn)。目前針對(duì)用戶數(shù)據(jù)集可以采用加密、匿名化的方式處理,而對(duì)應(yīng)統(tǒng)計(jì)信息多數(shù)通過(guò)噪聲擾動(dòng)來(lái)保護(hù)。
3、風(fēng)險(xiǎn)用戶識(shí)別模型可以采用應(yīng)用廣泛的隨機(jī)森林算法。隨機(jī)森林作為一種集成算法,具有較好的分類效果,但是其節(jié)點(diǎn)可能會(huì)泄露用戶的統(tǒng)計(jì)信息?,F(xiàn)有技術(shù)中提出了一種新的隱私保護(hù)模型-差分隱私模型,該模型能夠通過(guò)極小的噪聲達(dá)到較高水平的隱私防護(hù)。
4、但是,目前仍然存在缺少面向鐵路售票系統(tǒng)的基于隱私保護(hù)模型的風(fēng)險(xiǎn)用戶識(shí)別方法的研究,因此,亟需提出一種基于隱私保護(hù)模型的風(fēng)險(xiǎn)用戶識(shí)別方法,利用差分隱私提升隨機(jī)森林算法的安全性,以降低數(shù)據(jù)信息泄露的風(fēng)險(xiǎn),從而能夠從數(shù)據(jù)集到模型全流程保護(hù)用戶個(gè)人信息,在滿足識(shí)別風(fēng)險(xiǎn)用戶業(yè)務(wù)需求的同時(shí)保護(hù)用戶數(shù)據(jù)的安全。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述現(xiàn)有技術(shù)的缺陷,本技術(shù)實(shí)施例提供了一種新的鐵路售票系統(tǒng)風(fēng)險(xiǎn)用戶識(shí)別方法,以降低用戶數(shù)據(jù)信息泄露的風(fēng)險(xiǎn)。
2、第一方面,本技術(shù)實(shí)施例提供了一種面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別方法,方法包括:
3、特征構(gòu)建步驟:針對(duì)鐵路售票系統(tǒng)多源樣本數(shù)據(jù),構(gòu)建購(gòu)票用戶特征并生成購(gòu)票用戶風(fēng)險(xiǎn)標(biāo)簽,其中,多源樣本數(shù)據(jù)包括:購(gòu)票用戶的屬性特征、訪問(wèn)特征及出行特征的數(shù)據(jù);
4、特征篩選及融合步驟:基于購(gòu)票用戶風(fēng)險(xiǎn)標(biāo)簽,采用加密方法加密用戶標(biāo)簽的隱私信息后,采用特征篩選算法篩選購(gòu)票用戶特征,將經(jīng)過(guò)篩選的購(gòu)票用戶特征融合,生成用戶訓(xùn)練數(shù)據(jù)集;
5、模型構(gòu)建步驟:采用用戶訓(xùn)練數(shù)據(jù)集構(gòu)建基于差分隱私的風(fēng)險(xiǎn)用戶識(shí)別模型;
6、風(fēng)險(xiǎn)用戶識(shí)別步驟:將待識(shí)別購(gòu)票用戶輸入風(fēng)險(xiǎn)用戶識(shí)別模型,輸出用戶的風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果。
7、作為一種可選的實(shí)施方式,本發(fā)明第一方面中,上述特征構(gòu)建步驟還包括:
8、第三方數(shù)據(jù)特征構(gòu)建步驟:針對(duì)購(gòu)票用戶特征采用第三方數(shù)據(jù)特征進(jìn)行補(bǔ)充,用戶特征包括:購(gòu)票用戶基礎(chǔ)特征和第三方數(shù)據(jù)特征。
9、作為一種可選的實(shí)施方式,本發(fā)明第一方面中,上述特征構(gòu)建步驟進(jìn)一步包括:
10、屬性特征構(gòu)建步驟:針對(duì)購(gòu)票用戶注冊(cè)的身份信息,提取風(fēng)險(xiǎn)用戶識(shí)別特征;
11、訪問(wèn)特征構(gòu)建步驟:針對(duì)購(gòu)票用戶訪問(wèn)使用的設(shè)備環(huán)境信息、用戶訪問(wèn)的內(nèi)容特征及用戶訪問(wèn)的時(shí)間特征中至少一種,提取風(fēng)險(xiǎn)用戶識(shí)別特征;
12、出行特征構(gòu)建步驟:針對(duì)購(gòu)票用戶與出行相關(guān)的行為特征,提取風(fēng)險(xiǎn)用戶識(shí)別特征。
13、作為一種可選的實(shí)施方式,本發(fā)明第一方面中,上述特征篩選及融合步驟包括:
14、特征篩選步驟:將購(gòu)票用戶風(fēng)險(xiǎn)標(biāo)簽采用同態(tài)加密算法進(jìn)行加密后,分別計(jì)算屬性特征、訪問(wèn)特征及出行特征的信息價(jià)值iv,完成用戶特征的篩選;
15、特征融合步驟:將完成了特征篩選之后的用戶特征進(jìn)行融合,形成用戶數(shù)據(jù)集,用戶數(shù)據(jù)集包括:用戶特征及用戶風(fēng)險(xiǎn)標(biāo)簽。
16、作為一種可選的實(shí)施方式,本發(fā)明第一方面中,上述特征篩選步驟包括:
17、標(biāo)簽加密步驟:將各個(gè)購(gòu)票用戶的風(fēng)險(xiǎn)標(biāo)簽,采用同態(tài)加密算法進(jìn)行加密;
18、計(jì)算iv值步驟:針對(duì)每個(gè)購(gòu)票用戶分組用戶特征進(jìn)行iv值計(jì)算,并針對(duì)iv值分別進(jìn)行排序篩選,輸出有效特征數(shù)據(jù)的最小數(shù)據(jù)集合。
19、作為一種可選的實(shí)施方式,本發(fā)明第一方面中,上述模型構(gòu)建步驟還包括:
20、采用隨機(jī)森林算法構(gòu)建模型,并結(jié)合差分隱私算法提升模型的安全性;其中,風(fēng)險(xiǎn)用戶識(shí)別模型利用cart決策樹(shù)作為隨機(jī)森林的單棵決策樹(shù),將連續(xù)性屬性按照分位點(diǎn)進(jìn)行分裂值的選擇,利用laplace機(jī)制給樣本集和葉子節(jié)點(diǎn)添加噪聲,并通過(guò)指數(shù)機(jī)制選擇最佳分裂屬性,指數(shù)機(jī)制的評(píng)價(jià)函數(shù)選擇基尼指數(shù)。
21、第二方面,本技術(shù)實(shí)施例提供了一種面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別系統(tǒng),采用如上所述面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別方法,系統(tǒng)包括:
22、數(shù)據(jù)提供模塊:用于提供鐵路售票系統(tǒng)多源樣本數(shù)據(jù),基于多源樣本數(shù)據(jù)構(gòu)建購(gòu)票用戶特征并生成購(gòu)票用戶風(fēng)險(xiǎn)標(biāo)簽,其中,多源樣本數(shù)據(jù)包括:購(gòu)票用戶的屬性特征、訪問(wèn)特征及出行特征的數(shù)據(jù);
23、標(biāo)簽擁有模塊:用于基于購(gòu)票用戶風(fēng)險(xiǎn)標(biāo)簽,采用加密方法加密用戶標(biāo)簽的隱私信息后,發(fā)送給數(shù)據(jù)提供模塊,采用特征篩選算法篩選購(gòu)票用戶特征,將經(jīng)過(guò)篩選的購(gòu)票用戶特征融合,生成用戶訓(xùn)練數(shù)據(jù)集;
24、模型構(gòu)建模塊:用于采用用戶訓(xùn)練數(shù)據(jù)集構(gòu)建基于差分隱私的風(fēng)險(xiǎn)用戶識(shí)別模型;
25、風(fēng)險(xiǎn)用戶識(shí)別模塊:用于將待識(shí)別購(gòu)票用戶輸入風(fēng)險(xiǎn)用戶識(shí)別模型,輸出用戶的風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果。
26、作為一種可選的實(shí)施方式,本發(fā)明第二方面中,上述數(shù)據(jù)提供模塊還包括:
27、第三方數(shù)據(jù)提供模塊:用于針對(duì)購(gòu)票用戶特征采用第三方數(shù)據(jù)特征進(jìn)行補(bǔ)充,用戶特征包括:購(gòu)票用戶基礎(chǔ)特征和第三方數(shù)據(jù)特征。
28、第三方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,裝置包括:存儲(chǔ)可執(zhí)行程序代碼的存儲(chǔ)器;與所述存儲(chǔ)器耦合的處理器;所述處理器調(diào)用所述存儲(chǔ)器中存儲(chǔ)的所述可執(zhí)行程序代碼,執(zhí)行如上所述面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別方法。
29、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被調(diào)用時(shí),用于執(zhí)行如上所述面向鐵路售票系統(tǒng)的風(fēng)險(xiǎn)用戶識(shí)別方法。
30、相比于相關(guān)現(xiàn)有技術(shù),具有以下突出的有益效果:
31、1、本發(fā)明支持多源數(shù)據(jù)的風(fēng)險(xiǎn)用戶識(shí)別模型訓(xùn)練,利用iv算法預(yù)先對(duì)多方數(shù)據(jù)特征篩選而無(wú)需將多方的全部特征整合;
32、2、本發(fā)明結(jié)合第三方數(shù)據(jù)構(gòu)建用戶的基礎(chǔ)特征,豐富了購(gòu)票用戶的訓(xùn)練特征;
33、3、本發(fā)明將重要數(shù)據(jù)進(jìn)行去標(biāo)識(shí)化處理,并利用同態(tài)加密技術(shù)計(jì)算iv值,保護(hù)了購(gòu)票用戶數(shù)據(jù)的安全性;
34、4、本發(fā)明使用結(jié)合差分隱私保護(hù)的隨機(jī)森林分類模型,保護(hù)了模型的安全性;
35、5、本發(fā)明數(shù)據(jù)集和模型都添加了安全防護(hù),從整體上提升了使用多源數(shù)據(jù)構(gòu)建風(fēng)險(xiǎn)用戶識(shí)別模型的安全性。