国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種惡意用戶識(shí)別方法及裝置與流程

      文檔序號(hào):12492894閱讀:501來源:國知局
      一種惡意用戶識(shí)別方法及裝置與流程

      本申請(qǐng)涉及計(jì)算機(jī)網(wǎng)絡(luò)與信息技術(shù)領(lǐng)域,尤其涉及一種惡意用戶識(shí)別方法及裝置。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,越來越多的服務(wù)方傾向于通過網(wǎng)絡(luò)為用戶提供業(yè)務(wù)服務(wù),但也同時(shí)帶來了很多不誠信的網(wǎng)絡(luò)行為。比如有的服務(wù)方會(huì)通過批量操作來達(dá)到提高自身信用度的目的,由于服務(wù)方的信用度并不真實(shí),從而降低了網(wǎng)絡(luò)服務(wù)的安全性。

      目前,一般通過識(shí)別批量操作中的批量注冊(cè)行為,以及識(shí)別批量交易行為來達(dá)到對(duì)上述批量操作行為的識(shí)別。但是,目前非法人員在進(jìn)行批量注冊(cè)時(shí)一般采用模擬器、社會(huì)化分工的方式來規(guī)避在注冊(cè)階段對(duì)批量操作行為的識(shí)別,而且,很多合法用戶也會(huì)體現(xiàn)出批量注冊(cè)的行為,比如,在網(wǎng)吧共用一臺(tái)電腦注冊(cè)的用戶,其注冊(cè)使用的互聯(lián)網(wǎng)協(xié)議(Internet Protocol,IP)地址、媒體接入控制(MediumAccessControl,MAC)地址都是相同的。另外,由于交易行為的實(shí)時(shí)性特點(diǎn),在交易中實(shí)時(shí)進(jìn)行批量操作行為識(shí)別的復(fù)雜度較高,而且容易造成對(duì)合法用戶的交易行為的攔截,解釋成本較高。



      技術(shù)實(shí)現(xiàn)要素:

      本申請(qǐng)實(shí)施例提供一種惡意用戶識(shí)別方法及裝置,用以解決在識(shí)別具有批量操作行為的惡意用戶時(shí),現(xiàn)有的基于批量注冊(cè)和批量交易行為的識(shí)別方式,對(duì)惡意用戶的識(shí)別準(zhǔn)確率較低的問題。

      本申請(qǐng)實(shí)施例提供一種惡意用戶識(shí)別方法,包括:

      根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄;

      針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為;

      若確定所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄為電子數(shù)據(jù)批量轉(zhuǎn)移行為,則確定所述待識(shí)別用戶為惡意用戶。

      可選地,根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量,包括:

      根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,確定待篩選的用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的多個(gè)特征變量的信息值IV,以及不同特征變量之間的相關(guān)性系數(shù);

      基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),對(duì)所述多個(gè)特征變量進(jìn)行篩選,使得篩選出的特征變量的IV大于第一閾值、且篩選出特征變量之間的相關(guān)性系數(shù)小于第二閾值。

      可選地,根據(jù)以下公式確定任一特征變量的信息值IV:

      其中,pni表示具有該特征變量的第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù)目占獲取的黑樣本總數(shù)目的比例,pyi表示具有該特征變量的第i個(gè)特征值區(qū)間中的特征值的白樣本數(shù)目占獲取的白樣本總數(shù)目的比例,WOEi表示該特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重,m為該種特征變量的特征值區(qū)間數(shù)目。

      可選地,根據(jù)以下公式確定任意兩個(gè)特征變量之間的相關(guān)系數(shù):

      其中,n為黑樣本和白樣本的總樣本個(gè)數(shù),Xi為第i個(gè)樣本在特征變量X下的特征值,為所有樣本在特征變量X下的特征值的平均值,Yi為第i個(gè)樣本在特征變量Y下的特征值,為所有樣本在特征變量Y下的特征值的平均值。

      可選地,基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),對(duì)所述多個(gè)特征變量進(jìn)行篩選,包括:

      基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),篩選出IV大于第一閾值、且兩兩之間的相關(guān)性系數(shù)大于第二閾值的特征變量;

      若篩選出的特征變量數(shù)量大于L,則從篩選出的特征變量中進(jìn)一步篩選出IV最大的L個(gè)特征變量,將進(jìn)一步篩選出的L個(gè)特征變量作為用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;所述IV最大的L個(gè)特征變量是指將特征變量按照IV從大到小的順序排列后,排列在前L名的L個(gè)特征變量,L為大于1的正整數(shù)。

      可選地,所述判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為,包括:

      根據(jù)所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,確定該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的證明力權(quán)重WOE匯總值;

      基于所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      可選地,根據(jù)待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中 每一種特征變量下的取值,確定該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,包括:

      根據(jù)所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的每一種特征變量下的取值,確定該取值所屬的特征值區(qū)間對(duì)應(yīng)的WOE;

      將所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在每一種特征變量下的WOE的和值,確定為該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值。

      可選地,針對(duì)任一特征變量,根據(jù)以下公式確定該特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重:

      WOEi=ln(pni/pyi);

      其中,pni=ni/N,pyi=y(tǒng)i/Y,ni為具有第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù)目,N為獲取的黑樣本總數(shù)目,yi為具有第i個(gè)特征值區(qū)間中的特征值的白樣本數(shù)目,Y為獲取的白樣本總數(shù)目。

      可選地,所述從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量之后,還包括:

      針對(duì)多個(gè)樣本中的每一個(gè)樣本,根據(jù)該樣本在篩選出的特征變量中每一種特征變量下的取值,確定該樣本的WOE匯總值;

      根據(jù)確定的每一個(gè)樣本的WOE匯總值,以及每一個(gè)樣本的屬性信息,確定對(duì)篩選出的特征變量的測(cè)試結(jié)果,若測(cè)試不通過,則重新確定待篩選的特征變量,并返回從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量的步驟;其中,每個(gè)樣本的屬性信息用于表示該樣本是白樣本或黑樣本。

      可選地,基于所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,包括:

      在所述WOE匯總值大于預(yù)設(shè)的WOE閾值后,確定所述待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      本申請(qǐng)實(shí)施例提供一種惡意用戶識(shí)別裝置,包括:

      篩選模塊,用于根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄;

      判斷模塊,用于針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為;

      確定模塊,用于在所述判斷模塊判斷出所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄為電子數(shù)據(jù)批量轉(zhuǎn)移行為時(shí),確定所述待識(shí)別用戶為惡意用戶。

      本申請(qǐng)實(shí)施例首先根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;然后針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為;若確定所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄為電子數(shù)據(jù)批量轉(zhuǎn)移行為,則確定所述待識(shí)別用戶為惡意用戶。

      可見,本申請(qǐng)實(shí)施例通過對(duì)電子數(shù)據(jù)批量轉(zhuǎn)移行為的識(shí)別來判斷待識(shí)別用戶是否為惡意用戶,惡意用戶的批量操作除涉及批量注冊(cè)及批量交易行為外,通常還會(huì)涉及電子數(shù)據(jù)的批量轉(zhuǎn)移,電子數(shù)據(jù)的批量轉(zhuǎn)移可以指批量轉(zhuǎn)賬行為,電子數(shù)據(jù)的批量轉(zhuǎn)移是為了給后續(xù)的批量交易行為提供必要的電子數(shù)據(jù)支持。由于合法用戶通常不會(huì)出現(xiàn)批量電子數(shù)據(jù)轉(zhuǎn)移的行為,因此通過對(duì)電子數(shù)據(jù)的批量轉(zhuǎn)移行為進(jìn)行識(shí)別,可以大大提高對(duì)非法的批量操作行為的識(shí)別率,并且識(shí)別過程復(fù)雜度較低。

      附圖說明

      圖1為本申請(qǐng)實(shí)施例一提供的惡意用戶識(shí)別方法流程圖;

      圖2為批量轉(zhuǎn)賬示意圖;

      圖3為本申請(qǐng)實(shí)施例二提供的惡意用戶識(shí)別方法流程圖;

      圖4為本申請(qǐng)實(shí)施例三提供的惡意用戶識(shí)別方法流程圖;

      圖5為訓(xùn)練特征變量的示意圖;

      圖6為本申請(qǐng)實(shí)施例提供的惡意用戶識(shí)別裝置結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      在網(wǎng)絡(luò)平臺(tái)(如電商平臺(tái))中,存在有作弊、炒信、黃牛等惡意行為的惡意用戶,惡意用戶通常具有批量操作行為。惡意用戶的批量操作除涉及批量注冊(cè)及批量交易行為外,通常還會(huì)涉及電子數(shù)據(jù)的批量轉(zhuǎn)移,電子數(shù)據(jù)的批量轉(zhuǎn)移可以指批量轉(zhuǎn)賬行為,電子數(shù)據(jù)的批量轉(zhuǎn)移是為了給后續(xù)的批量交易行為提供必要的電子數(shù)據(jù)支持。由于合法用戶通常不會(huì)出現(xiàn)批量電子數(shù)據(jù)轉(zhuǎn)移的行為,因此通過對(duì)電子數(shù)據(jù)的批量轉(zhuǎn)移行為進(jìn)行識(shí)別,可以大大提高對(duì)非法的批量操作行為的識(shí)別率。

      基于此,本申請(qǐng)?zhí)岢隽嘶趯?duì)電子數(shù)據(jù)批量轉(zhuǎn)移行為的識(shí)別來識(shí)別可能存在惡意行為的惡意用戶的方法。

      實(shí)施例一

      如圖1所示,為本申請(qǐng)實(shí)施例一提供的惡意用戶識(shí)別方法流程圖,包括:

      S101:服務(wù)器根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      在具體實(shí)施過程中,可以根據(jù)預(yù)設(shè)的黑樣本和白樣本的比例(比如5:95),從歷史操作行為中,提取多個(gè)電子數(shù)據(jù)批量轉(zhuǎn)移行為中每一個(gè)電子數(shù)據(jù)批量轉(zhuǎn) 移行為的多條電子數(shù)據(jù)轉(zhuǎn)移行為記錄作為黑樣本,提取多條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄作為白樣本,并基于對(duì)黑樣本的分析,確定多個(gè)待篩選的特征變量。這里的特征變量是與電子數(shù)據(jù)轉(zhuǎn)移行為記錄中的賬戶信息、網(wǎng)絡(luò)環(huán)境信息、設(shè)備信息等相關(guān)聯(lián)的特征,可以是連續(xù)型變量,也可以是離散型變量,若為連續(xù)型變量,則可以將該特征變量劃分為多個(gè)特征值區(qū)間,每個(gè)特征值區(qū)間作為一種統(tǒng)計(jì)數(shù)據(jù),若為離散型變量,則以下所述特征值區(qū)間可以指一個(gè)特定的特征值。比如,以電子數(shù)據(jù)轉(zhuǎn)移行為是轉(zhuǎn)賬行為為例,特征變量可以與黑樣本的以下異常特征相關(guān):1)個(gè)別賬戶向多個(gè)賬戶進(jìn)行轉(zhuǎn)賬;2)各筆轉(zhuǎn)賬的時(shí)間間隔極短;3)各筆轉(zhuǎn)賬的轉(zhuǎn)賬金額較為平均;4)各筆轉(zhuǎn)賬的網(wǎng)絡(luò)環(huán)境較為集中;5)轉(zhuǎn)賬收款方除該轉(zhuǎn)賬行為之外的其它行為較少。具體地,特征變量可以為:1)付款方轉(zhuǎn)賬5分鐘內(nèi)有過多少次小額轉(zhuǎn)賬;2)付款方轉(zhuǎn)賬60分鐘內(nèi)有過多少筆轉(zhuǎn)賬時(shí)間間隔小于3秒的轉(zhuǎn)賬行為;3)付款方當(dāng)天付款金額眾數(shù)(也即多次付款中付款金額相同時(shí)的付款金額,比如0.1元)及筆數(shù);4)IP地址相同的收款方數(shù)量;5)收款方過去90天內(nèi)每天登陸服務(wù)器的次數(shù)等。如圖2所示,為批量轉(zhuǎn)賬示意圖,從圖中可以看出,收款方收款金額都是相同的小額度,且轉(zhuǎn)賬時(shí)間間隔都很短。

      在確定多個(gè)待篩選的特征變量后,可以分別基于白樣本和黑樣本在每一個(gè)待篩選的特征變量下的取值,來篩選出對(duì)白樣本和黑樣本有區(qū)分作用的特征變量,比如,若白樣本和黑樣本在某一個(gè)特征變量下的取值差異很明顯(比如超過80%的白樣本的取值為0,而超過80%的黑樣本的取值為1),則可以將該特征變量作為篩選出的特征變量。

      需要說明的是,步驟S101可以是預(yù)先通過樣本訓(xùn)練的方式執(zhí)行的步驟,在識(shí)別惡意用戶的過程中,可以直接采用之前篩選好的特征變量及對(duì)應(yīng)的取值,無需在每一次識(shí)別過程中都執(zhí)行。

      S102:針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,判 斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為。

      在具體實(shí)施中,可以根據(jù)每一種特征變量的每一個(gè)取值區(qū)間所對(duì)應(yīng)的權(quán)重(該權(quán)重可以用于衡量該取值區(qū)間對(duì)證明是電子數(shù)據(jù)批量轉(zhuǎn)移行為的影響度),以及該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的每一種特征變量下的取值,來確定所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      S103:若確定所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄為電子數(shù)據(jù)批量轉(zhuǎn)移行為,則確定所述待識(shí)別用戶為惡意用戶,否則,進(jìn)入S104,可以基于其它方式繼續(xù)識(shí)別或確定所述待識(shí)別用戶為安全用戶。

      這里,在基于篩選出的特征變量,識(shí)別出用戶具有本申請(qǐng)中的電子數(shù)據(jù)批量轉(zhuǎn)移行為后,可以確定該用戶為惡意用戶。

      實(shí)施例二

      在本申請(qǐng)實(shí)施例二中,給出了特征變量篩選的優(yōu)選實(shí)施方式:基于特征變量的信息值IV及相關(guān)性系數(shù),進(jìn)行特征變量篩選,然后基于篩選出的特征變量,判斷待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為中的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      如圖3所示,為本申請(qǐng)實(shí)施例二提供的惡意用戶識(shí)別方法流程圖,包括:

      S301:選取記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,以及待篩選的多個(gè)特征變量;其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      S302:根據(jù)獲取的白樣本和黑樣本,確定所述待篩選的多個(gè)特征變量的信息值(IV,Information Value),以及不同特征變量之間的相關(guān)性系數(shù);所述IV用于表示對(duì)應(yīng)的特征變量對(duì)識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的貢獻(xiàn)程度。

      在具體實(shí)施中,可以根據(jù)以下公式確定任一特征變量的信息值IV:

      其中,pni表示具有該特征變量的第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù) 目占獲取的黑樣本總數(shù)目的比例,pyi表示具有該特征變量的第i個(gè)特征值區(qū)間中的特征值的白樣本數(shù)目占獲取的白樣本總數(shù)目的比例,WOEi表示該特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重,m為該種特征變量的特征值區(qū)間數(shù)目。

      關(guān)于WOEi的計(jì)算可參見關(guān)于S104的描述。

      另外,可以根據(jù)以下公式確定任意兩個(gè)特征變量之間的相關(guān)系數(shù):

      其中,n為黑樣本和白樣本的總樣本個(gè)數(shù),Xi為第i個(gè)樣本在特征變量X下的特征值,為所有樣本在特征變量X下的特征值的平均值,Yi為第i個(gè)樣本在特征變量Y下的特征值,為所有樣本在特征變量Y下的特征值的平均值。

      S303:基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),對(duì)所述多個(gè)特征變量進(jìn)行篩選,使得篩選出的特征變量的IV大于第一閾值、且篩選出特征變量之間的相關(guān)性系數(shù)小于第二閾值。

      具體地,可以根據(jù)以下步驟對(duì)所述多個(gè)特征變量進(jìn)行篩選,包括:

      基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),篩選出IV大于第一閾值、且兩兩之間的相關(guān)性系數(shù)大于第二閾值的特征變量;

      若篩選出的特征變量數(shù)量大于L,則從篩選出的特征變量中進(jìn)一步篩選出IV最大的L個(gè)特征變量,將進(jìn)一步篩選出的L個(gè)特征變量作為用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;所述IV最大的L個(gè)特征變量是指將特征變量按照IV從大到小的順序排列后,排列在前L名的L個(gè)特征變量。

      在具體實(shí)施過程中,可以首先篩選出IV大于第一閾值的特征變量,再針對(duì)篩選出的特征變量,確定兩兩之間的相關(guān)性系數(shù),若任意兩個(gè)特征變量之間 的相關(guān)性系數(shù)大于第二閾值,則可以保留其中IV較大的特征變量,篩除IV較小的特征變量。在執(zhí)行過程中,可以在完成一對(duì)特征變量之間的相關(guān)性系數(shù)的計(jì)算及篩選之后再選擇下一對(duì)特征變量進(jìn)行相關(guān)性系數(shù)的計(jì)算及篩選,以避免工作量的冗余及造成不必要的篩除,比如,若特征變量A與特征變量C之間的相關(guān)性系數(shù)大于第二閾值,則保留IV較大的特征變量A,篩除特征變量C,則接下來就不必再將特征變量C與其它特征變量之間進(jìn)行相關(guān)性系數(shù)的計(jì)算及篩選了。另外,本申請(qǐng)實(shí)施例在篩選出IV大于第一閾值、且兩兩之間的相關(guān)性系數(shù)大于第二閾值的特征變量后,若篩選出的特征變量數(shù)量大于L,則為了減少計(jì)算量及噪聲的干擾,可以進(jìn)一步篩選出IV最大的L個(gè)特征變量作為本次最終篩選出的特征變量。

      S304:針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,確定該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的證明力權(quán)重WOE匯總值。

      具體地,可以根據(jù)所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的每一種特征變量下的取值,確定該取值所屬的特征值區(qū)間對(duì)應(yīng)的WOE;將所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在每一種特征變量下的WOE的和值,確定為該待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值。

      這里,針對(duì)任一特征變量,根據(jù)以下公式確定該特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重:

      WOEi=ln(pni/pyi);

      其中,pni=ni/N,pyi=y(tǒng)i/Y,ni為具有第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù)目,N為獲取的黑樣本總數(shù)目,yi為具有第i個(gè)特征值區(qū)間中的特征值的白樣本數(shù)目,Y為獲取的白樣本總數(shù)目。

      S305:基于所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      在具體實(shí)施中,可以在所述WOE匯總值大于預(yù)設(shè)的WOE閾值后,確定待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,之后,可以對(duì)該記錄所涉及的賬戶的業(yè)務(wù)行為進(jìn)行一定的預(yù)先限制處理,比如屏蔽相關(guān)賬戶的活動(dòng)信息、降低賬戶購買優(yōu)先級(jí)等,這種方式下的解釋成本較低。

      實(shí)施例三

      相比實(shí)施例二,本申請(qǐng)實(shí)施例三增加了模型測(cè)試的步驟,在完成一次特征變量篩選后,基于已有的樣本對(duì)篩選出的特征變量的識(shí)別準(zhǔn)確率進(jìn)行測(cè)試,若測(cè)試通過,則將篩選出的特征變量投入使用,若測(cè)試不通過,則重新選擇待篩選的特征變量重復(fù)篩選過程。

      如圖4所示,為本申請(qǐng)實(shí)施例三提供的惡意用戶識(shí)別方法流程圖,圖5為訓(xùn)練特征變量的示意圖,包括:

      S401:根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,確定待篩選的多個(gè)特征變量的信息值IV,以及不同特征變量之間的相關(guān)性系數(shù);其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄;所述IV用于表示對(duì)應(yīng)的特征變量對(duì)識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的貢獻(xiàn)程度。

      S402:基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),對(duì)所述多個(gè)特征變量進(jìn)行篩選,使得篩選出的特征變量的IV大于第一閾值、且篩選出特征變量之間的相關(guān)性系數(shù)小于第二閾值。

      S403:針對(duì)多個(gè)樣本中的每一個(gè)樣本,根據(jù)該樣本在篩選出的特征變量中每一種特征變量下的取值,確定該樣本的WOE匯總值;根據(jù)確定的每一個(gè)樣本的WOE匯總值,以及每一個(gè)樣本的屬性信息,確定對(duì)篩選出的特征變量的測(cè)試結(jié)果,若測(cè)試通過,則確認(rèn)將篩選出的特征變量作為用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量,否則,重新確定待篩選的多個(gè)特征變量,返回S401;其中,每個(gè)樣本的屬性信息用于表示該樣本是白樣本或黑樣本。

      該步驟中,針對(duì)每一個(gè)樣本,計(jì)算該樣本的WOE匯總值,基于每個(gè)樣本的WOE匯總值及樣本屬性(白樣本還是黑樣本),判斷是否通過測(cè)試。比如,若在對(duì)應(yīng)的WOE匯總值大于預(yù)設(shè)值的樣本中,黑樣本與白樣本的比例大于預(yù)設(shè)比例,則認(rèn)為測(cè)試通過。

      另外,基于測(cè)試結(jié)果,還可以確定一個(gè)WOE閾值,用于對(duì)待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄進(jìn)行識(shí)別時(shí)使用,當(dāng)待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的證明力權(quán)重WOE匯總值大于該WOE閾值時(shí),認(rèn)為該待識(shí)別的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是電子數(shù)據(jù)批量轉(zhuǎn)移行為。

      S404:針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,確定該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的證明力權(quán)重WOE匯總值。

      S405:基于所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      采用本申請(qǐng)實(shí)施例,具有以下有益效果:

      1)識(shí)別面廣:由于非法用戶為了批量實(shí)現(xiàn)作弊、炒信、黃牛等行為,通常都會(huì)提前準(zhǔn)備小額資金,而這些資金必然需要背后大號(hào)通過轉(zhuǎn)賬的方式批量轉(zhuǎn)賬給小號(hào),因此惡意賬戶很難繞過本申請(qǐng)實(shí)施例提供的批量轉(zhuǎn)賬行為識(shí)別方法的識(shí)別。2)誤殺率低:惡意批量賬戶的批量轉(zhuǎn)賬行為,與正常賬戶的轉(zhuǎn)賬行為存在很大的不同,比如在金額、頻率、環(huán)境等特征上,因此,在轉(zhuǎn)賬行為上識(shí)別惡意批量賬戶,與在注冊(cè)環(huán)節(jié)及交易環(huán)節(jié)進(jìn)行識(shí)別相比,能有效降低誤殺的發(fā)生。3)模型部署技術(shù)要求低:由于批量轉(zhuǎn)賬行為識(shí)別算法是部署在賬戶進(jìn)行惡意行為之前的資金準(zhǔn)備階段,不需要實(shí)時(shí)環(huán)境,并且不需要對(duì)惡意行為實(shí)時(shí)攔截。所以,該算法可以部署在離線環(huán)境中,技術(shù)要求低。4)解釋成本低:惡意批量轉(zhuǎn)賬行為的識(shí)別發(fā)生在賬戶進(jìn)行惡意行為之前,所以可以直接通過屏蔽活動(dòng)信息、降低賬戶購買優(yōu)先級(jí)等方法提前部署限制策略,賬戶感知 自然,解釋成本低。

      基于同一發(fā)明構(gòu)思,本申請(qǐng)實(shí)施例中還提供了一種與惡意用戶識(shí)別方法對(duì)應(yīng)的惡意用戶識(shí)別裝置,由于該裝置解決問題的原理與本申請(qǐng)實(shí)施例惡意用戶識(shí)別方法相似,因此該裝置的實(shí)施可以參見方法的實(shí)施,重復(fù)之處不再贅述。

      如圖6所示,為本申請(qǐng)實(shí)施例提供的惡意用戶識(shí)別裝置結(jié)構(gòu)示意圖,包括:

      篩選模塊61,用于根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;其中,每個(gè)黑樣本為電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄,每個(gè)白樣本為一條非批量的電子數(shù)據(jù)轉(zhuǎn)移行為記錄;

      判斷模塊62,用于針對(duì)任一待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄,根據(jù)該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移行為,;

      確定模塊63,用于在所述判斷模塊62判斷出所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄為電子數(shù)據(jù)批量轉(zhuǎn)移行為時(shí),確定所述待識(shí)別用戶為惡意用戶。

      可選地,所述篩選模塊61具體用于:

      根據(jù)獲取的記錄電子數(shù)據(jù)轉(zhuǎn)移行為的白樣本和黑樣本,確定待篩選的用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的多個(gè)特征變量的信息值IV,以及不同特征變量之間的相關(guān)性系數(shù);基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),對(duì)所述多個(gè)特征變量進(jìn)行篩選,使得篩選出的特征變量的IV大于第一閾值、且篩選出特征變量之間的相關(guān)性系數(shù)小于第二閾值。

      可選地,所述篩選模塊61具體用于根據(jù)以下公式確定任一特征變量的信息值IV:

      其中,pni表示具有該特征變量的第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù)目占獲取的黑樣本總數(shù)目的比例,pyi表示具有該特征變量的第i個(gè)特征值區(qū)間 中的特征值的白樣本數(shù)目占獲取的白樣本總數(shù)目的比例,WOEi表示該特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重,m為該種特征變量的特征值區(qū)間數(shù)目。

      可選地,所述篩選模塊61具體用于根據(jù)以下公式確定任意兩個(gè)特征變量之間的相關(guān)系數(shù):

      其中,n為黑樣本和白樣本的總樣本個(gè)數(shù),Xi為第i個(gè)樣本在特征變量X下的特征值,為所有樣本在特征變量X下的特征值的平均值,Yi為第i個(gè)樣本在特征變量Y下的特征值,為所有樣本在特征變量Y下的特征值的平均值。

      可選地,所述篩選模塊61具體用于:

      基于確定的所述多個(gè)特征變量的IV,以及不同特征變量之間的相關(guān)性系數(shù),篩選出IV大于第一閾值、且兩兩之間的相關(guān)性系數(shù)大于第二閾值的特征變量;

      若篩選出的特征變量數(shù)量大于L,則從篩選出的特征變量中進(jìn)一步篩選出IV最大的L個(gè)特征變量,將進(jìn)一步篩選出的L個(gè)特征變量作為用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量;所述IV最大的L個(gè)特征變量是指將特征變量按照IV從大到小的順序排列后,排列在前L名的L個(gè)特征變量,L為大于1的正整數(shù)。

      可選地,所述判斷模塊62具體用于:

      根據(jù)所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的特征變量中每一種特征變量下的取值,確定該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的證明力權(quán)重WOE匯總值;基于所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值,判斷所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是否為電子數(shù)據(jù)批量轉(zhuǎn)移 行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      可選地,所述判斷模塊62具體用于:

      根據(jù)所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在篩選出的每一種特征變量下的取值,確定該取值所屬的特征值區(qū)間對(duì)應(yīng)的WOE;將所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄在每一種特征變量下的WOE的和值,確定為該待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄的WOE匯總值。

      可選地,任一特征變量的第i個(gè)特征值區(qū)間對(duì)應(yīng)的證明力權(quán)重為根據(jù)以下公式確定的:

      WOEi=ln(pni/pyi);

      其中,pni=ni/N,pyi=y(tǒng)i/Y,ni為具有第i個(gè)特征值區(qū)間中的特征值的黑樣本數(shù)目,N為獲取的黑樣本總數(shù)目,yi為具有第i個(gè)特征值區(qū)間中的特征值的白樣本數(shù)目,Y為獲取的白樣本總數(shù)目。

      可選地,所述裝置還包括:

      測(cè)試模塊64,用于在篩選模塊61從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量之后,針對(duì)多個(gè)樣本中的每一個(gè)樣本,根據(jù)該樣本在篩選出的特征變量中每一種特征變量下的取值,確定該樣本的WOE匯總值;根據(jù)確定的每一個(gè)樣本的WOE匯總值,以及每一個(gè)樣本的屬性信息,確定對(duì)篩選出的特征變量的測(cè)試結(jié)果,若測(cè)試不通過,則重新確定待篩選的特征變量,并返回從待篩選的多個(gè)特征變量中篩選出用于識(shí)別電子數(shù)據(jù)批量轉(zhuǎn)移行為的特征變量的步驟;其中,每個(gè)樣本的屬性信息用于表示該樣本是白樣本或黑樣本。

      可選地,所述判斷模塊62具體用于:

      在所述WOE匯總值大于預(yù)設(shè)的WOE閾值后,確定所述待識(shí)別用戶的電子數(shù)據(jù)轉(zhuǎn)移行為記錄是電子數(shù)據(jù)批量轉(zhuǎn)移行為的一條電子數(shù)據(jù)轉(zhuǎn)移行為記錄。

      本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié) 合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

      本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、裝置(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

      這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

      這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

      盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。

      顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1