本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種混合欺詐交易檢測(cè)分類器建立方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)金融的發(fā)展,人們的支付習(xí)慣發(fā)生了較大的改變,隨之而來的是日益猖獗的交易欺詐,這對(duì)現(xiàn)有的欺詐檢測(cè)系統(tǒng)帶來了前所未有的挑戰(zhàn)。很多基于規(guī)則或是機(jī)器學(xué)習(xí)訓(xùn)練的模型被提出用于欺詐檢測(cè)。
然而,現(xiàn)實(shí)交易中存在多種欺詐,例如偽卡欺詐、失竊卡欺詐、未達(dá)卡欺詐,而現(xiàn)如今的欺詐交易多為混合欺詐交易,即由多種類型的欺詐交易混合而成的欺詐交易,如果簡(jiǎn)單地將所有欺詐樣本和正常樣本進(jìn)行合并后統(tǒng)一訓(xùn)練模型,所得到的結(jié)果往往不甚理想。因此,目前一般的做法是只針對(duì)具體某一種欺詐交易進(jìn)行模型單獨(dú)訓(xùn)練。這樣在后續(xù)進(jìn)行交易欺詐識(shí)別的時(shí)候,還需要制定一系列復(fù)雜的策略甚至人工地選擇來進(jìn)行多個(gè)模型結(jié)果的整合,這會(huì)嚴(yán)重的影響欺詐檢測(cè)的速度和精度。此外,若要分類訓(xùn)練交易檢測(cè)模型,還會(huì)遇到嚴(yán)重的數(shù)據(jù)不平衡性的問題。要想達(dá)到良好的混合欺詐檢測(cè)的目的,必須解決數(shù)據(jù)不平衡的問題。傳統(tǒng)的方法是通過刪除部分正常交易樣本或者簡(jiǎn)單地重復(fù)增加欺詐樣本數(shù)據(jù)來達(dá)到欠采樣或者過采樣的目的來削弱數(shù)據(jù)的不平衡性。這樣的做法缺乏物理意義的支撐,具有較大的隨機(jī)性,因而效果提升并不顯著。
綜上所述,目前仍然缺少一種能夠提高混合欺詐交易檢測(cè)精度的模型訓(xùn)練方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種混合欺詐交易檢測(cè)分類器建立方法及裝置,用以解決現(xiàn)有技術(shù)中存在的缺少一種提高混合欺詐交易檢測(cè)精度的模型訓(xùn)練方法。
本發(fā)明實(shí)施例提供一種混合欺詐交易檢測(cè)分類器建立方法,包括:
獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;
從欺詐交易樣本中確定出典型欺詐交易樣本集;
對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);
將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;
將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。
可選地,從欺詐交易樣本中確定出典型欺詐交易樣本集,包括:
標(biāo)定欺詐交易樣本的欺詐交易類型;
根據(jù)欺詐交易樣本中的欺詐交易種類數(shù),根據(jù)各欺詐交易樣本之間的歐式距離,采用K均值(K-means)聚類算法對(duì)欺詐交易樣本進(jìn)行聚類;
針對(duì)聚類后的樣本,去除位于聚類邊緣的欺詐交易樣本,以及,去除聚類后所屬類型與標(biāo)定類型不一致的欺詐交易樣本;
將剩余的欺詐交易樣本確定為典型欺詐交易樣本。
可選地,對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集,包括:
針對(duì)正常交易樣本,根據(jù)各正常交易樣本之間的歐式距離,采用Canopy聚類算法對(duì)正常交易樣本進(jìn)行粗聚類,獲取N類粗聚類正常交易樣本集,N大于等于1;
針對(duì)每一類粗聚類正常交易樣本集,采用圖形交并集規(guī)劃獲取該類粗聚類正常交易樣本集的典型正常交易樣本。
可選地,采用如下方式確定屬于同類型的交易樣本中的各交易樣本之間的歐式距離,包括:
同類型的交易樣本為同為欺詐交易樣本或同為正常交易樣本;
根據(jù)同類型的交易樣本中的數(shù)值型特征屬性和數(shù)值化后的非數(shù)值型特征屬性構(gòu)造交易樣本矩陣;交易樣本矩陣的行數(shù)表示同類型的交易樣本的樣本數(shù)量,列數(shù)表示同類型的交易樣本中特征屬性的數(shù)量;
分別計(jì)算同類型的交易樣本的每一個(gè)特征屬性的信息熵;信息熵根據(jù)公式(一)得到:
其中,Hj表示交易樣本矩陣中第j特征屬性的信息熵,n表示同類型的交易樣本矩陣中的樣本數(shù),xij表示交易樣本矩陣中第i個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù);
根據(jù)每一個(gè)特征屬性的信息熵,確定該特征屬性的特征權(quán)值;特征權(quán)值代表了特征屬性對(duì)分類器訓(xùn)練的貢獻(xiàn)大??;特征權(quán)值由公式(二)得到:
其中,Wj為交易樣本矩陣中第j特征屬性的特征權(quán)值,Hj為交易樣本矩陣中第j特征屬性的信息熵;
分別根據(jù)同類型的交易樣本的各特征屬性的特征權(quán)值,采用公式(三)計(jì)算同類型的交易樣本間的歐式距離:
其中,d(p,q)表示同類型的交易樣本中任意兩個(gè)樣本之間的距離,m表示同類型的交易樣本中特征屬性的數(shù)量,Wj表示交易樣本矩陣中第j個(gè)特征屬性的特征權(quán)值,xpj和xqj表示任一兩個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù)。
可選地,獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù)之后,從欺詐交易樣本中確定出典型欺詐交易樣本集之前,還包括:
針對(duì)交易樣本數(shù)據(jù)中的每一個(gè)非數(shù)值型特征屬性數(shù)據(jù),確定包含該非數(shù)值型特征屬性數(shù)據(jù)的正常交易樣本數(shù)DRa和包含該非數(shù)值型特征屬性數(shù)據(jù)的欺詐交易樣本數(shù)DFa;通過公式(四)確定該非數(shù)值型特征屬性數(shù)據(jù)的數(shù)值形式:
其中,Wa為特征屬性數(shù)據(jù)a的數(shù)值形式,DFa為欺詐交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DF為欺詐交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量,DRa為正常交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DR為正常交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量;
對(duì)交易樣本數(shù)據(jù)中每個(gè)特征屬性進(jìn)行歸一化處理。
可選地,針對(duì)粗聚類后的每一類粗聚類正常交易樣本集,采用圖形交并集規(guī)劃獲取只屬于該類的最大正常交易樣本聚類作為該類粗聚類正常交易樣本集的典型正常交易樣本,包括:
采用公式
計(jì)算每一類粗聚類正常交易樣本集中只屬于該粗聚類正常交易樣本集的正常交易樣本,其中,K0表示任一個(gè)粗聚類正常交易樣本集,K0'為只屬于K0聚類的最大樣本集合,n為粗聚類后獲得的粗聚類正常交易樣本集的數(shù)量;
根據(jù)最大樣本集合中的正常交易樣本重新聚類,獲得最大樣本集合中的最大樣本聚類,作為最大樣本集合所屬的粗聚類正常交易樣本集所對(duì)應(yīng)的典型正常交易樣本集。
可選地,其特征在于,將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器,包括:
通過決策融合將N個(gè)分類器融合得到欺詐交易分類器。
本發(fā)明實(shí)施例提供一種混合欺詐交易檢測(cè)分類器建立裝置,包括:
采集模塊,用于獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;
欺詐樣本模塊,用于從欺詐交易樣本中確定出典型欺詐交易樣本集;
正常樣本模塊,用于對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);
訓(xùn)練模塊,用于將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;
融合模塊,用于將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。
可選地,欺詐樣本模塊,具體用于:
標(biāo)定欺詐交易樣本的欺詐交易類型;
根據(jù)欺詐交易樣本中的欺詐交易種類數(shù),根據(jù)各欺詐交易樣本之間的歐式距離,采用K均值(K-means)聚類算法對(duì)欺詐交易樣本進(jìn)行聚類;
針對(duì)聚類后的樣本,去除位于聚類邊緣的欺詐交易樣本,以及,去除聚類后所屬類型與標(biāo)定類型不一致的欺詐交易樣本;
將剩余的欺詐交易樣本確定為典型欺詐交易樣本。
可選地,正常樣本模塊,具體用于:
針對(duì)正常交易樣本,根據(jù)各正常交易樣本之間的歐式距離,采用Canopy聚類算法對(duì)正常交易樣本進(jìn)行粗聚類,獲取N類粗聚類正常交易樣本集,N大于等于1;
針對(duì)每一類粗聚類正常交易樣本集,采用圖形交并集規(guī)劃獲取該類粗聚類正常交易樣本集的典型正常交易樣本。
可選地,欺詐樣本模塊或正常樣本模塊采用如下方式確定屬于同類型的交易樣本中的各交易樣本之間的歐式距離,同類型的交易樣本為同為欺詐交易樣本或同為正常交易樣本;
根據(jù)同類型的交易樣本中的數(shù)值型特征屬性和數(shù)值化后的非數(shù)值型特征屬性構(gòu)造交易樣本矩陣;交易樣本矩陣的行數(shù)表示同類型的交易樣本的樣本數(shù)量,列數(shù)表示同類型的交易樣本中特征屬性的數(shù)量;
分別計(jì)算同類型的交易樣本的每一個(gè)特征屬性的信息熵;信息熵根據(jù)公式(一)得到:
其中,Hj表示交易樣本矩陣中第j特征屬性的信息熵,n表示同類型的交易樣本矩陣中的樣本數(shù),xij表示交易樣本矩陣中第i個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù);
根據(jù)每一個(gè)特征屬性的信息熵,確定該特征屬性的特征權(quán)值;特征權(quán)值代表了特征屬性對(duì)分類器訓(xùn)練的貢獻(xiàn)大??;特征權(quán)值由公式(二)得到:
其中,Wj為交易樣本矩陣中第j特征屬性的特征權(quán)值,Hj為交易樣本矩陣中第j特征屬性的信息熵;
分別根據(jù)同類型的交易樣本的各特征屬性的特征權(quán)值,采用公式(三)計(jì)算同類型的交易樣本間的歐式距離:
其中,d(p,q)表示同類型的交易樣本中任意兩個(gè)樣本之間的距離,m表示同類型的交易樣本中特征屬性的數(shù)量,Wj表示交易樣本矩陣中第j個(gè)特征屬性的特征權(quán)值,xpj和xqj表示任一兩個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù)。
可選地,還包括:
數(shù)值化模塊,用于針對(duì)交易樣本數(shù)據(jù)中的每一個(gè)非數(shù)值型特征屬性數(shù)據(jù),確定包含該非數(shù)值型特征屬性數(shù)據(jù)的正常交易樣本數(shù)DRa和包含該非數(shù)值型特征屬性數(shù)據(jù)的欺詐交易樣本數(shù)DFa;通過公式(四)確定該非數(shù)值型特征屬性數(shù)據(jù)的數(shù)值形式:
其中,Wa為特征屬性數(shù)據(jù)a的數(shù)值形式,DFa為欺詐交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DF為欺詐交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量,DRa為正常交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DR為正常交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量;
對(duì)交易樣本數(shù)據(jù)中每個(gè)特征屬性進(jìn)行歸一化處理。
可選地,正常樣本模塊具體用于:
采用公式
計(jì)算每一類粗聚類正常交易樣本集中只屬于該粗聚類正常交易樣本集的正常交易樣本,其中,K0表示任一個(gè)粗聚類正常交易樣本集,K0'為只屬于K0聚類的最大樣本集合,n為粗聚類后獲得的粗聚類正常交易樣本集的數(shù)量;
根據(jù)最大樣本集合中的正常交易樣本重新聚類,獲得最大樣本集合中的最大樣本聚類,作為最大樣本集合所屬的粗聚類正常交易樣本集所對(duì)應(yīng)的典型正常交易樣本集。
可選地,融合模塊,具體用于通過決策融合將N個(gè)分類器融合得到欺詐交易分類器。
綜上所述,本發(fā)明實(shí)施例提供了一種混合欺詐交易檢測(cè)分類器建立方法及裝置,包括:獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;從欺詐交易樣本中確定出典型欺詐交易樣本集;對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。通過提取典型欺詐交易樣本集可以將欺詐樣本中具有典型欺詐類型特點(diǎn)的欺詐樣本提取出來重新融合成典型欺詐樣本集,降低了分類器訓(xùn)練時(shí)混合欺詐交易樣本對(duì)分類器的混淆,從而提高了分類器對(duì)混合欺詐檢測(cè)的準(zhǔn)確度,通過圖形交并集方法對(duì)粗聚類后的正常樣本進(jìn)行快速再提取能夠大大緩解數(shù)據(jù)不平衡性帶來的不良影響,將多個(gè)子分類器融合為一個(gè)強(qiáng)分類器后即可用于混合欺詐交易的檢測(cè)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種混合欺詐交易檢測(cè)分類器建立方法流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種Canopy算法聚類結(jié)果示意圖;
圖3為本發(fā)明實(shí)施例提供的一種混合欺詐交易檢測(cè)分類器建立裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部份實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明實(shí)施例提供的一種混合欺詐交易檢測(cè)分類器建立方法流程示意圖,如圖1所示,包括以下步驟:
S101:獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;
S102:從欺詐交易樣本中確定出典型欺詐交易樣本集;
S103:對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);
S104:將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;
S105:將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。
具體實(shí)施過程中,欺詐交易指的是包括偽卡欺詐、失竊卡欺詐、未達(dá)卡欺詐在內(nèi)的多種異常交易情況,以及多種異常交易相融合的交易情況。
在步驟S101的具體實(shí)施過程中,獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù)具體指的是獲取一段時(shí)間內(nèi)發(fā)生的交易行為數(shù)據(jù),并把這些數(shù)據(jù)作為交易樣本,可選地,設(shè)定時(shí)長(zhǎng)可以是一段連續(xù)的時(shí)間,如獲取時(shí)間段T內(nèi)的交易行為數(shù)據(jù),設(shè)定時(shí)長(zhǎng)也可以是幾個(gè)間隔的時(shí)間段,如獲取時(shí)間段T1、T2和T3內(nèi)的交易行為數(shù)據(jù),后者更能適應(yīng)欺詐交易時(shí)間分布不均衡的問題??蛇x地,在獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù)之后,獲取后續(xù)時(shí)間段內(nèi)的交易樣本作為測(cè)試樣本,用來檢測(cè)分類器的準(zhǔn)確度,例如,獲取時(shí)間段T內(nèi)的交易行為數(shù)據(jù)作為交易樣本數(shù)據(jù)后,繼續(xù)獲取時(shí)間段T之后t時(shí)間段內(nèi)的交易行為數(shù)據(jù)作為測(cè)試樣本??蛇x地,獲取交易樣本數(shù)據(jù)之后,將正常交易樣本和欺詐交易樣本區(qū)分開來。
可選地,獲取交易樣本數(shù)據(jù)并區(qū)分開正常交易樣本和欺詐交易樣本之后,還需對(duì)交易樣本數(shù)據(jù)的非數(shù)值型特征屬性進(jìn)行數(shù)值化處理,包括:針對(duì)交易樣本數(shù)據(jù)中的每一個(gè)非數(shù)值型特征屬性數(shù)據(jù),確定包含該非數(shù)值型特征屬性數(shù)據(jù)的正常交易樣本數(shù)DRa和包含該非數(shù)值型特征屬性數(shù)據(jù)的欺詐交易樣本數(shù)DFa;通過公式(四)確定該非數(shù)值型特征屬性數(shù)據(jù)的數(shù)值形式:
其中,Wa為特征屬性數(shù)據(jù)a的數(shù)值形式,DFa為欺詐交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DF為欺詐交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量,DRa為正常交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DR為正常交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量;對(duì)交易樣本數(shù)據(jù)中每個(gè)特征屬性進(jìn)行歸一化處理。這里的特征屬性指的是能夠表征交易行為的特征變量,例如,交易金額、交易時(shí)間、交易地點(diǎn)等多種種類。交易特征屬性既有數(shù)值型特征,如交易金額,又有非數(shù)值型特征,如交易地點(diǎn),由于非數(shù)值型特征屬性的存在,使得分類器訓(xùn)練時(shí)無法有效利用非數(shù)值型特征屬性,因此需對(duì)非數(shù)值型特征屬性進(jìn)行數(shù)值化處理。在本發(fā)明實(shí)施例中,采用特征屬性數(shù)據(jù)的權(quán)值作為特征屬性數(shù)據(jù)的數(shù)據(jù)化結(jié)果,其權(quán)值計(jì)算公式如公式(四)所示。以交易地點(diǎn)為例,假設(shè)所有交易只有兩個(gè)交易地點(diǎn),北京和上海。在100筆交易樣本中,有20筆欺詐交易,其中5筆來自北京,15筆來自上海;有80筆正常交易,其中30筆來自北京,50筆來自上海,根據(jù)公式(四)計(jì)算地點(diǎn)屬性,對(duì)應(yīng)是北京的數(shù)值化結(jié)果為(5/20)/(30/80)=0.67,對(duì)應(yīng)是上海的數(shù)值化結(jié)果為(15/20)/(50/80)=1.2。
可選地,對(duì)于數(shù)值型特征屬性數(shù)據(jù)和數(shù)值化后的非數(shù)值型特征屬性數(shù)據(jù)采用最大-最小值(min-max)標(biāo)準(zhǔn)歸一化,使所有特征屬性數(shù)據(jù)都被規(guī)范為0-1之間的小數(shù)。將非數(shù)值型特征屬性數(shù)值化使得非數(shù)值型特征屬性也能夠參與后續(xù)的聚類過程,增加了獲得的分類器的準(zhǔn)確性,此外,對(duì)數(shù)值型特征屬性數(shù)據(jù)和數(shù)值化后的非數(shù)值型特征屬性數(shù)據(jù)進(jìn)行歸一化處理,更便于歐式距離的計(jì)算。
可選地,在對(duì)正常交易樣本和欺詐交易樣本進(jìn)行數(shù)值化和歸一化處理之后,還需分別計(jì)算正常交易樣本和欺詐交易樣本的歐式距離,計(jì)算所用原理一致,采用如下方式確定屬于同類型的交易樣本中的各交易樣本之間的歐式距離,包括:同類型的交易樣本為同為欺詐交易樣本或同為正常交易樣本;根據(jù)同類型的交易樣本中的數(shù)值型特征屬性和數(shù)值化后的非數(shù)值型特征屬性構(gòu)造交易樣本矩陣;交易樣本矩陣的行數(shù)表示同類型的交易樣本的樣本數(shù)量,列數(shù)表示同類型的交易樣本中特征屬性的數(shù)量;分別計(jì)算同類型的交易樣本的每一個(gè)特征屬性的信息熵;信息熵根據(jù)公式(一)得到:
其中,Hj表示交易樣本矩陣中第j特征屬性的信息熵,n表示同類型的交易樣本矩陣中的樣本數(shù),xij表示交易樣本矩陣中第i個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù);根據(jù)每一個(gè)特征屬性的信息熵,確定該特征屬性的特征權(quán)值;特征權(quán)值代表了特征屬性對(duì)分類器訓(xùn)練的貢獻(xiàn)大?。惶卣鳈?quán)值由公式(二)得到:
其中,Wj為交易樣本矩陣中第j特征屬性的特征權(quán)值,Hj為交易樣本矩陣中第j特征屬性的信息熵;分別根據(jù)同類型的交易樣本的各特征屬性的特征權(quán)值,采用公式(三)計(jì)算同類型的交易樣本間的歐式距離:
其中,d(p,q)表示同類型的交易樣本中任意兩個(gè)樣本之間的距離,m表示同類型的交易樣本中特征屬性的數(shù)量,Wj表示交易樣本矩陣中第j個(gè)特征屬性的特征權(quán)值,xpj和xqj表示任一兩個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù)。由于各個(gè)特征屬性對(duì)于模型訓(xùn)練的貢獻(xiàn)大小不同,不能簡(jiǎn)單地采用現(xiàn)有歐式距離計(jì)算公式計(jì)算同類型交易樣本間的歐式距離,可選地,根據(jù)每一個(gè)特征屬性的信息熵,確定該特征屬性的特征權(quán)值,通過特征權(quán)值來協(xié)調(diào)不同特征屬性之間對(duì)于模型訓(xùn)練的貢獻(xiàn)大小的差異。計(jì)算每一個(gè)特征屬性的信息熵,需根據(jù)同類型的交易樣本中的數(shù)值型特征屬性和數(shù)值化后的非數(shù)值型特征屬性構(gòu)造交易樣本矩陣,例如,同類型交易樣本數(shù)量為n,特征屬性數(shù)量為m,則,構(gòu)造矩陣如公式(六)所示:
根據(jù)如公式(六)所示的矩陣計(jì)算每一個(gè)特征屬性的信息熵,特征屬性的信息熵越小,表示交易行為受此特征屬性的變化的影響越大,其對(duì)公式的貢獻(xiàn)也就越大。針對(duì)每一個(gè)特征屬性,即公式(六)所示矩陣中的每一列數(shù)據(jù),采用公式(一)計(jì)算每一個(gè)特征屬性的信息熵。之后,根據(jù)每一個(gè)特征屬性的信息熵,利用公式(二)確定該特征屬性的特征權(quán)值,這里的特征權(quán)值其實(shí)是對(duì)特征屬性的信息熵的歸一化,也即將其數(shù)值范圍規(guī)范為0-1之間的小數(shù)。最后,根據(jù)本發(fā)明實(shí)施例提出的一種加權(quán)化歐氏距離計(jì)算公式,如公式(三)計(jì)算同類型的交易樣本中任意兩個(gè)樣本之間的歐式距離,以便于后續(xù)聚類處理。
在步驟S102的具體實(shí)施過程中,現(xiàn)實(shí)欺詐交易往往是由多種欺詐交易類型混合而成,這里的典型欺詐交易樣本集指的是能夠代表單一欺詐交易類型的交易樣本的集合,例如,欺詐類型為偽卡欺詐交易的典型欺詐交易樣本集中,各個(gè)交易樣本的全部或大部分特征符合偽卡欺詐交易的特點(diǎn),沒有或少部分特征符合其它欺詐交易類型的特點(diǎn)。
可選地,通過以下方法,從欺詐交易樣本中確定出典型欺詐交易樣本集:標(biāo)定欺詐交易樣本的欺詐交易類型;根據(jù)欺詐交易樣本中的欺詐交易種類數(shù),根據(jù)各欺詐交易樣本之間的歐式距離,采用K均值(K-means)聚類算法對(duì)欺詐交易樣本進(jìn)行聚類;針對(duì)聚類后的樣本,去除位于聚類邊緣的欺詐交易樣本,以及,去除聚類后所屬類型與標(biāo)定類型不一致的欺詐交易樣本;將剩余的欺詐交易樣本確定為典型欺詐交易樣本。K-means聚類算法需預(yù)先設(shè)定聚類參數(shù)K,在這里將已知的欺詐交易樣本中的欺詐交易類別數(shù)作為聚類參數(shù)K,經(jīng)K-means聚類算法聚類之后便可獲得K個(gè)聚類,這K個(gè)聚類也會(huì)與原始的K中欺詐類型間具有較大的相關(guān)性。具體實(shí)施過程中,先根據(jù)歐式距離計(jì)算出每一種欺詐交易類型的樣本在歐式空間的質(zhì)心點(diǎn),之后,在以這K個(gè)質(zhì)心點(diǎn)為起始的聚類中心點(diǎn),使用K-means聚類算法進(jìn)行聚類。聚類完成之后,每一種聚類的原始質(zhì)心點(diǎn)會(huì)發(fā)生偏移,偏移之后的聚類中心則代表了該欺詐交易樣本聚類中最為典型的欺詐交易樣本??蛇x地,聚類之后,會(huì)有部分欺詐交易樣本的聚類類別與預(yù)先標(biāo)定的欺詐交易類別不同,將這些標(biāo)定類別與聚類類別不同的欺詐交易從欺詐交易樣本中刪除??蛇x地,將每種聚類邊界處的噪聲點(diǎn)所對(duì)應(yīng)的樣本從欺詐交易樣本中刪除,以增強(qiáng)最后獲得的典型欺詐交易樣本集的代表性。此時(shí),共獲得了K種欺詐樣本聚類,分別為{F1,F(xiàn)2,…,F(xiàn)KF}。將留下的這K種欺詐樣本聚類再融合,獲得典型欺詐交易樣本。
在步驟S103的具體實(shí)施過程中,正常交易也存在多種類型,例如,對(duì)于日常交易頻繁的用戶的交易行為,其短時(shí)間內(nèi)的多次交易也有很大可能是正常交易,而對(duì)于很少交易的用戶的交易行為,其短時(shí)間內(nèi)的多次交易便很大可能是欺詐交易,因此,對(duì)于正常交易樣本也需進(jìn)行聚類,既可以避免對(duì)正常交易的誤判,也能夠解決數(shù)據(jù)不平衡的問題。
可選地,針對(duì)正常交易樣本,根據(jù)各正常交易樣本之間的歐式距離,采用冠(Canopy)聚類算法對(duì)正常交易樣本進(jìn)行粗聚類,獲取N類粗聚類正常交易樣本集,N大于等于1;針對(duì)每一類粗聚類正常交易樣本集,采用圖形交并集規(guī)劃獲取該類粗聚類正常交易樣本集的典型正常交易樣本。由于正常交易樣本的類型無法準(zhǔn)確判定,因此不需事先設(shè)定K值的Canopy聚類算法更適合于正常交易樣本的聚類。同時(shí),正常交易樣本的數(shù)據(jù)量遠(yuǎn)大于欺詐交易樣本的數(shù)據(jù)量,所以Canopy算法計(jì)算代價(jià)低,速度快的特點(diǎn)在這里非常適用。圖2為本發(fā)明實(shí)施例提供的一種Canopy算法聚類結(jié)果示意圖,如圖2所示,每一個(gè)Canopy聚類由虛線包圍的半徑為T2的圓和實(shí)線包圍的半徑為T1的圓組成。可選地,Canopy聚類的內(nèi)徑T1和外徑T2根據(jù)經(jīng)驗(yàn)或?qū)嶋H應(yīng)用情況確定,也可以根據(jù)道恩指數(shù)(Dunn index)進(jìn)行交叉驗(yàn)證(Cross Validation,CV),后者可以在一定程度上減少聚類的主觀程度。
通過上述方法獲得的Canopy聚類之間,很有可能是重疊的,可選地,圖形交并集規(guī)劃具體指的是:采用公式(五)
計(jì)算每一類粗聚類正常交易樣本集中只屬于該粗聚類正常交易樣本集的正常交易樣本,其中,K0表示任一個(gè)粗聚類正常交易樣本集,K0'為只屬于K0聚類的最大樣本集合,n為粗聚類后獲得的粗聚類正常交易樣本集的數(shù)量;根據(jù)最大樣本集合中的正常交易樣本重新聚類,獲得最大樣本集合中的最大樣本聚類,作為最大樣本集合所屬的粗聚類正常交易樣本集所對(duì)應(yīng)的典型正常交易樣本集。例如,經(jīng)過Canopy聚類算法之后,得到了K個(gè)聚類起始點(diǎn)和K個(gè)初始Canopy聚類??蛇x地,選取內(nèi)徑T1來表示聚類邊界,則圖形交并集規(guī)劃的目的便是確定典型正常交易樣本集的內(nèi)徑。以Canopy聚類K0為例,具體實(shí)施過程為:
定義在集合{K1,K2,…Kn}之中,任意抽取m項(xiàng),將這m項(xiàng)整體求交集,其結(jié)果定義為這樣的結(jié)果共有項(xiàng)。對(duì)這項(xiàng)的交集結(jié)果再進(jìn)行求并集,定義為可選地,使用遞歸法或者迭代的方法進(jìn)行求得集合本發(fā)明實(shí)施例提供一種遞歸方法的偽代碼,如下:
其中數(shù)組idx_arr保存了集合的序號(hào),以遞增方式排列,每個(gè)序號(hào)的范圍為從0到n-1。level為遞歸深度,取值范圍為0到m-1,當(dāng)level等于m-1時(shí),所有的m個(gè)元素已經(jīng)取到,求這m個(gè)集合的交集。求m個(gè)集合的交集在上述偽代碼中用MixCombo函數(shù)表示??蛇x地,MixCombo函數(shù)可以采用哈希(Hash)碰撞的辦法快速實(shí)現(xiàn),且時(shí)間復(fù)雜度僅隨樣本數(shù)量線性增長(zhǎng),將第一個(gè)集合映射到哈希表中,然后陸續(xù)將后續(xù)集合映射到哈希表中,如果發(fā)生哈希碰撞則統(tǒng)計(jì)加1,最后可以得出集合的交集。由于經(jīng)過Canopy算法之后的聚類類別有限,所以即使使用了遞歸算法也能在較快的時(shí)間內(nèi)求出。之后,將需要將K0與該集合再求交集,結(jié)果表示為
最后,可以根據(jù)通項(xiàng)公式求得K0與{K1,K2,…Kn}之間的差集,結(jié)果如公式(五)所示。
求得差集K0'之后,計(jì)算K0'集合的質(zhì)心。如圖3所示,K0'的質(zhì)心點(diǎn)由原集合K0的中心點(diǎn)A移動(dòng)到了新質(zhì)心點(diǎn)A'。再以A'為中心,分別求出它到其它所有集合{K1,K2,…Kn}的最短歐氏距離{L1,L2,…Ln}。令r=min({L1,L2,…Ln}),求出在整個(gè)K0'集合中,以r為半徑閾值的歐氏空間內(nèi)的所有點(diǎn),形成一個(gè)新的集合K0”。經(jīng)過上述步驟提取出來的集合K0”是最能代表原來canopy集合K0的典型正常交易樣本集。
對(duì)每一個(gè)Canopy聚類都進(jìn)行上述操作,便可以得到N個(gè)典型正常交易樣本集。
在步驟S104的具體實(shí)施過程中,將典型欺詐交易樣本與每個(gè)典型正常交易樣本分別融合,構(gòu)成多個(gè)訓(xùn)練樣本集。例如,典型欺詐交易樣本集為FTypical,N個(gè)典型正常交易樣本集{R1,R2,…,Rn},則構(gòu)成N個(gè)訓(xùn)練樣本集{T1,T2,…,Tn},其中,Tn=FTypical+Rn。分別訓(xùn)練這N個(gè)訓(xùn)練樣本集,便可得到N個(gè)分類器。可選地,使用測(cè)試樣本對(duì)每一個(gè)分類器進(jìn)行測(cè)試,獲取每一個(gè)分類的準(zhǔn)確率。
在步驟S105的具體實(shí)施過程中,將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器,可選地,通過決策融合將N個(gè)分類器融合得到欺詐交易分類器,例如,根據(jù)步驟S104中獲得的每一個(gè)分類器的準(zhǔn)確率,通過權(quán)重分配將上述N個(gè)分類器融合為欺詐交易分類器,又例如,采用投票機(jī)制將N個(gè)分類器融合為欺詐交易分類器,比如,訓(xùn)練獲得了10個(gè)分類器,若其中超過5個(gè)分類器判斷交易為欺詐交易,則認(rèn)為此交易為欺詐交易。
綜上所述,本發(fā)明實(shí)施例提供了一種混合欺詐交易檢測(cè)分類器建立方法,包括:獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;從欺詐交易樣本中確定出典型欺詐交易樣本集;對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。通過提取典型欺詐交易樣本集可以將欺詐樣本中具有典型欺詐類型特點(diǎn)的欺詐樣本提取出來重新融合成典型欺詐樣本集,降低了分類器訓(xùn)練時(shí)混合欺詐交易樣本對(duì)分類器的混淆,從而提高了分類器對(duì)混合欺詐檢測(cè)的準(zhǔn)確度,通過圖形交并集方法對(duì)粗聚類后的正常樣本進(jìn)行快速再提取能夠大大緩解數(shù)據(jù)不平衡性帶來的不良影響,將多個(gè)子分類器融合為一個(gè)強(qiáng)分類器后即可用于混合欺詐交易的檢測(cè)。
基于相同的技術(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種混合欺詐交易檢測(cè)分類器建立裝置,該裝置可執(zhí)行上述方法實(shí)施例。圖3為本發(fā)明實(shí)施例提供的一種混合欺詐交易檢測(cè)分類器建立裝置結(jié)構(gòu)示意圖,如圖3所述,裝置300包括:采集模塊301、欺詐樣本模塊302、正常樣本模塊303、訓(xùn)練模塊304和融合模塊305,其中,
采集模塊301,用于獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;
欺詐樣本模塊302,用于從欺詐交易樣本中確定出典型欺詐交易樣本集;
正常樣本模塊303,用于對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);
訓(xùn)練模塊304,用于將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;
融合模塊305,用于將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。
可選地,欺詐樣本模塊302,具體用于:
標(biāo)定欺詐交易樣本的欺詐交易類型;
根據(jù)欺詐交易樣本中的欺詐交易種類數(shù),根據(jù)各欺詐交易樣本之間的歐式距離,采用K均值(K-means)聚類算法對(duì)欺詐交易樣本進(jìn)行聚類;
針對(duì)聚類后的樣本,去除位于聚類邊緣的欺詐交易樣本,以及,去除聚類后所屬類型與標(biāo)定類型不一致的欺詐交易樣本;
將剩余的欺詐交易樣本確定為典型欺詐交易樣本。
可選地,正常樣本模塊303,具體用于:
針對(duì)正常交易樣本,根據(jù)各正常交易樣本之間的歐式距離,采用冠(Canopy)聚類算法對(duì)正常交易樣本進(jìn)行粗聚類,獲取N類粗聚類正常交易樣本集,N大于等于1;
針對(duì)每一類粗聚類正常交易樣本集,采用圖形交并集規(guī)劃獲取該類粗聚類正常交易樣本集的典型正常交易樣本。
可選地,欺詐樣本模塊302或正常樣本模塊303采用如下方式確定屬于同類型的交易樣本中的各交易樣本之間的歐式距離,同類型的交易樣本為同為欺詐交易樣本或同為正常交易樣本;
根據(jù)同類型的交易樣本中的數(shù)值型特征屬性和數(shù)值化后的非數(shù)值型特征屬性構(gòu)造交易樣本矩陣;交易樣本矩陣的行數(shù)表示同類型的交易樣本的樣本數(shù)量,列數(shù)表示同類型的交易樣本中特征屬性的數(shù)量;
分別計(jì)算同類型的交易樣本的每一個(gè)特征屬性的信息熵;信息熵根據(jù)公式(一)得到:
其中,Hj表示交易樣本矩陣中第j特征屬性的信息熵,n表示同類型的交易樣本矩陣中的樣本數(shù),xij表示交易樣本矩陣中第i個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù);
根據(jù)每一個(gè)特征屬性的信息熵,確定該特征屬性的特征權(quán)值;特征權(quán)值代表了特征屬性對(duì)分類器訓(xùn)練的貢獻(xiàn)大??;特征權(quán)值由公式(二)得到:
其中,Wj為交易樣本矩陣中第j特征屬性的特征權(quán)值,Hj為交易樣本矩陣中第j特征屬性的信息熵;
分別根據(jù)同類型的交易樣本的各特征屬性的特征權(quán)值,采用公式(三)計(jì)算同類型的交易樣本間的歐式距離:
其中,d(p,q)表示同類型的交易樣本中任意兩個(gè)樣本之間的距離,m表示同類型的交易樣本中特征屬性的數(shù)量,Wj表示交易樣本矩陣中第j個(gè)特征屬性的特征權(quán)值,xpj和xqj表示任一兩個(gè)樣本的第j個(gè)特征屬性的特征屬性數(shù)據(jù)。
可選地,還包括:
數(shù)值化模塊306,用于針對(duì)交易樣本數(shù)據(jù)中的每一個(gè)非數(shù)值型特征屬性數(shù)據(jù),確定包含該非數(shù)值型特征屬性數(shù)據(jù)的正常交易樣本數(shù)DRa和包含該非數(shù)值型特征屬性數(shù)據(jù)的欺詐交易樣本數(shù)DFa;通過公式(四)確定該非數(shù)值型特征屬性數(shù)據(jù)的數(shù)值形式:
其中,Wa為特征屬性數(shù)據(jù)a的數(shù)值形式,DFa為欺詐交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DF為欺詐交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量,DRa為正常交易樣本中包含特征屬性數(shù)據(jù)a的交易數(shù)量,DR為正常交易樣本中包含特征屬性數(shù)據(jù)a所屬的特征屬性的交易數(shù)量;
對(duì)交易樣本數(shù)據(jù)中每個(gè)特征屬性進(jìn)行歸一化處理。
可選地,正常樣本模塊303具體用于:
采用公式
計(jì)算每一類粗聚類正常交易樣本集中只屬于該粗聚類正常交易樣本集的正常交易樣本,其中,K0表示任一個(gè)粗聚類正常交易樣本集,K0'為只屬于K0聚類的最大樣本集合,n為粗聚類后獲得的粗聚類正常交易樣本集的數(shù)量;
根據(jù)最大樣本集合中的正常交易樣本重新聚類,獲得最大樣本集合中的最大樣本聚類,作為最大樣本集合所屬的粗聚類正常交易樣本集所對(duì)應(yīng)的典型正常交易樣本集。
可選地,融合模塊305,具體用于通過決策融合將N個(gè)分類器融合得到欺詐交易分類器。
綜上所述,本發(fā)明實(shí)施例提供了一種混合欺詐交易檢測(cè)分類器建立方法及裝置,包括:獲取設(shè)定時(shí)長(zhǎng)內(nèi)的交易樣本數(shù)據(jù),交易樣本數(shù)據(jù)包括正常交易樣本和欺詐交易樣本;從欺詐交易樣本中確定出典型欺詐交易樣本集;對(duì)正常交易樣本進(jìn)行聚類獲取N個(gè)典型正常交易樣本集;其中,N為正整數(shù);將典型欺詐交易樣本集與每個(gè)典型正常交易樣本集分別進(jìn)行訓(xùn)練,得到N個(gè)分類器;將N個(gè)分類器進(jìn)行融合得到欺詐交易分類器。通過提取典型欺詐交易樣本集可以將欺詐樣本中具有典型欺詐類型特點(diǎn)的欺詐樣本提取出來重新融合成典型欺詐樣本集,降低了分類器訓(xùn)練時(shí)混合欺詐交易樣本對(duì)分類器的混淆,從而提高了分類器對(duì)混合欺詐檢測(cè)的準(zhǔn)確度,通過圖形交并集方法對(duì)粗聚類后的正常樣本進(jìn)行快速再提取能夠大大緩解數(shù)據(jù)不平衡性帶來的不良影響,將多個(gè)子分類器融合為一個(gè)強(qiáng)分類器后即可用于混合欺詐交易的檢測(cè)。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。