本申請(qǐng)涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法及裝置。
背景技術(shù):
隨著信息化技術(shù)的發(fā)展,通常以“對(duì)象”的概念來(lái)區(qū)分各個(gè)進(jìn)入人們描述范疇的事物。
業(yè)務(wù),是需要完成的事務(wù)。業(yè)務(wù)往往由多個(gè)對(duì)象共同參與完成,不同對(duì)象(對(duì)象實(shí)體)在表現(xiàn)形態(tài)、特征屬性等方面各不相同。
由于業(yè)務(wù)可能存在風(fēng)險(xiǎn),而對(duì)存在風(fēng)險(xiǎn)的業(yè)務(wù)進(jìn)行處理可能會(huì)產(chǎn)生不好的結(jié)果,因此需要對(duì)業(yè)務(wù)進(jìn)行風(fēng)險(xiǎn)識(shí)別。其中,風(fēng)險(xiǎn)識(shí)別,是指在風(fēng)險(xiǎn)事故發(fā)生之前,認(rèn)識(shí)可能面臨的各種風(fēng)險(xiǎn);對(duì)業(yè)務(wù)進(jìn)行風(fēng)險(xiǎn)識(shí)別,是指運(yùn)用風(fēng)險(xiǎn)識(shí)別方法,識(shí)別業(yè)務(wù)是否存在風(fēng)險(xiǎn)。
目前,有一類業(yè)務(wù),主要是由兩類對(duì)象共同參與完成。為便于描述,所述兩類對(duì)象中,一類可稱為主導(dǎo)對(duì)象,而另一類則稱為主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象(后稱關(guān)聯(lián)對(duì)象)。比如,基于互聯(lián)網(wǎng)售賣商品的業(yè)務(wù),就由作為主導(dǎo)對(duì)象的賣家和作為關(guān)聯(lián)對(duì)象的買家這兩類對(duì)象共同參與完成。當(dāng)然,也可以將買家稱為主導(dǎo)對(duì)象,將賣家稱為關(guān)聯(lián)對(duì)象。
針對(duì)這類業(yè)務(wù)而言,主導(dǎo)對(duì)象可能通過(guò)偽造或串通關(guān)聯(lián)對(duì)象的方式來(lái)完成業(yè)務(wù),進(jìn)而獲得諸如電商平臺(tái)獎(jiǎng)勵(lì)的互聯(lián)網(wǎng)信息資源(如計(jì)算資源、存儲(chǔ)資源、營(yíng)銷資源或者流動(dòng)資金等)等資源。比如,當(dāng)電商平臺(tái)發(fā)起消費(fèi)者線下消費(fèi)滿20減5元的營(yíng)銷活動(dòng)時(shí),賣家有可能串通自己的親友對(duì)自己出售的商品進(jìn)行消費(fèi),從而騙取營(yíng)銷資源。
鑒于這類業(yè)務(wù)可能存在風(fēng)險(xiǎn),因此,有必要對(duì)該類業(yè)務(wù)進(jìn)行風(fēng)險(xiǎn)識(shí)別。對(duì)該類業(yè)務(wù)進(jìn)行風(fēng)險(xiǎn)識(shí)別的關(guān)鍵,是識(shí)別參與該類業(yè)務(wù)的主導(dǎo)對(duì)象或關(guān)聯(lián)對(duì)象是否存在風(fēng)險(xiǎn)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請(qǐng)實(shí)施例提供了一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法,用于識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
本申請(qǐng)實(shí)施例還提供一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,用于識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法,所述方法包括:
獲取主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;所述關(guān)聯(lián)對(duì)象,為分別與所述主導(dǎo)對(duì)象共同參與指定類型的業(yè)務(wù)的對(duì)象;所述指定類型的業(yè)務(wù),是由主導(dǎo)對(duì)象和關(guān)聯(lián)對(duì)象共同參與完成的業(yè)務(wù);
根據(jù)獲取到的所述指定特征的值,確定分別反映各類型的所述指定特征的值的第一分布情況的信息,作為所述主導(dǎo)對(duì)象的聚集性特征的值;所述類型,為所述指定特征的類型;
根據(jù)所述主導(dǎo)對(duì)象的聚集性特征的值,判斷所述主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,包括:
獲取單元,用于獲取主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;所述關(guān)聯(lián)對(duì)象,為分別與所述主導(dǎo)對(duì)象共同參與指定類型的業(yè)務(wù)的對(duì)象;所述指定類型的業(yè)務(wù),是由主導(dǎo)對(duì)象和關(guān)聯(lián)對(duì)象共同參與完成的業(yè)務(wù);
確定單元,用于根據(jù)獲取單元獲取到的所述指定特征的值,確定分別反映各類型的所述指定特征的值的第一分布情況的信息,作為所述主導(dǎo)對(duì)象的聚集性特征的值;所述類型,為所述指定特征的類型;
判斷單元,用于根據(jù)所述主導(dǎo)對(duì)象的聚集性特征的值,判斷所述主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法,所述方法包括:
獲取線下商戶的不同關(guān)聯(lián)買家的指定特征的值;所述關(guān)聯(lián)買家,為分別與所述線下商戶共同參與商品對(duì)象的買賣業(yè)務(wù)的買家;
根據(jù)獲取到的所述指定特征的值,確定分別反映各類型的所述指定特征的值的第一分布情況的信息,作為所述線下商戶的聚集性特征的值;
根據(jù)所述線下商戶的聚集性特征的值,判斷所述線下商戶是否存在風(fēng)險(xiǎn)。
一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,包括:
買家的指定特征的值獲取單元,用于獲取線下商戶的不同關(guān)聯(lián)買家的指定特征的值;所述關(guān)聯(lián)買家,為分別與所述線下商戶共同參與商品對(duì)象的買賣業(yè)務(wù)的買家;
信息確定單元,用于根據(jù)獲取到的所述指定特征的值,確定分別反映各類型的所述指定特征的值的第一分布情況的信息,作為所述線下商戶的聚集性特征的值;
風(fēng)險(xiǎn)判斷單元,用于根據(jù)所述線下商戶的聚集性特征的值,判斷所述線下商戶是否存在風(fēng)險(xiǎn)。
本申請(qǐng)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:
采用本申請(qǐng)實(shí)施例提供的方法,由于可以根據(jù)主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值,確定分別反映各類型的指定特征的值的分布情況的信息,作為主導(dǎo)對(duì)象的聚集性特征的值,該聚集性特征的值可以作為判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的依據(jù),通過(guò)該依據(jù)就可以完成對(duì)主導(dǎo)對(duì)象的風(fēng)險(xiǎn)識(shí)別,從而達(dá)到識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的目的。并且,由于反映各類型的指定特征的值的分布情況的信息,一般說(shuō)來(lái)是主導(dǎo)對(duì)象比較難以仿造的信息,因此,根據(jù)該信息對(duì)主導(dǎo)對(duì)象進(jìn)行風(fēng)險(xiǎn)識(shí)別,一般能夠得到較為可信的準(zhǔn)確結(jié)果。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)要介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提 下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本申請(qǐng)實(shí)施例提供的一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法的流程示意圖;
圖2為本申請(qǐng)實(shí)施例提供的一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
以下結(jié)合附圖,詳細(xì)說(shuō)明本申請(qǐng)各實(shí)施例提供的技術(shù)方案。
實(shí)施例1
本申請(qǐng)實(shí)施例提供一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法,用以識(shí)別業(yè)務(wù)參與對(duì)象是否存在風(fēng)險(xiǎn)。
本申請(qǐng)實(shí)施例提供的業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別方法的執(zhí)行主體可以是手機(jī)、平板電腦以及個(gè)人電腦(personalcomputer,pc)等終端設(shè)備中的至少一種。此外,該方法的執(zhí)行主體,也可以是安裝在終端設(shè)備上的應(yīng)用程序(application,app),或者還可以是服務(wù)器。所述的執(zhí)行主體并不構(gòu)成對(duì)本申請(qǐng)的限定。
該方法的具體實(shí)現(xiàn)流程示意圖如圖1所示,主要包括如下主要步驟:
步驟11,獲取主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;
其中,主導(dǎo)對(duì)象和關(guān)聯(lián)對(duì)象,為參與指定類型的業(yè)務(wù)的對(duì)象,在主導(dǎo)對(duì)象和主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象共同參與下可以完成指定類型的業(yè)務(wù)。比如:買賣雙方完成的針對(duì)商品的交易業(yè)務(wù),就是由作為主導(dǎo)對(duì)象的賣家和作為關(guān)聯(lián)對(duì)象的買 家共同參與完成的。當(dāng)然,也可以將買家稱為主導(dǎo)對(duì)象,將賣家稱為關(guān)聯(lián)對(duì)象。
獲取的關(guān)聯(lián)對(duì)象的指定特征,可以但不限于包括以下三種特征中的至少一種:
1、關(guān)聯(lián)對(duì)象自身的基本特征
比如以關(guān)聯(lián)對(duì)象為買家為例,買家的基本特征可以包括下述至少一種:買家的年齡、名稱、性別、地址、買家的賬戶注冊(cè)時(shí)間等等。
2、關(guān)聯(lián)對(duì)象與其他對(duì)象之間的關(guān)聯(lián)關(guān)系的指定特征
同樣以關(guān)聯(lián)對(duì)象為買家為例,假設(shè)買家之間的關(guān)聯(lián)關(guān)系包括:
a、與資金有關(guān)的關(guān)聯(lián)關(guān)系——如買家之間發(fā)生過(guò)轉(zhuǎn)賬等,則買家之間存在與資金有關(guān)的關(guān)聯(lián)關(guān)系。
該類型的關(guān)聯(lián)關(guān)系的指定特征,比如可以包括下述至少一種:
關(guān)聯(lián)關(guān)系的建立時(shí)間、關(guān)聯(lián)對(duì)象最近一次發(fā)生該類關(guān)聯(lián)關(guān)系的時(shí)間等。
b、與設(shè)備有關(guān)的關(guān)聯(lián)關(guān)系——如不同買家均使用過(guò)同一終端來(lái)分別與同一主導(dǎo)對(duì)象(賣家)完成所述指定類型的業(yè)務(wù)(針對(duì)商品的交易業(yè)務(wù)),則所述不同買家之間存在與設(shè)備有關(guān)的關(guān)聯(lián)關(guān)系;
該類型的關(guān)聯(lián)關(guān)系的指定特征,比如可以包括下述至少一種:
關(guān)聯(lián)對(duì)象發(fā)生該關(guān)聯(lián)關(guān)系的時(shí)間間隔、關(guān)聯(lián)對(duì)象發(fā)生該類型關(guān)聯(lián)關(guān)系的次數(shù)等。
c、與媒介有關(guān)的關(guān)聯(lián)關(guān)系——如不同買家均將同一個(gè)郵箱注冊(cè)為賬號(hào),或不同買家在注冊(cè)賬號(hào)時(shí)均使用了相同的身份認(rèn)證信息,則所述不同買家之間存在與媒介有關(guān)的關(guān)聯(lián)關(guān)系;
該類型的關(guān)聯(lián)關(guān)系的指定特征,比如可以包括關(guān)聯(lián)對(duì)象之間涉及的注冊(cè)信息等。
d、與位置有關(guān)的關(guān)聯(lián)關(guān)系——如不同買家處于相同的地理位置,或不同買家在網(wǎng)購(gòu)時(shí)使用過(guò)相同的收貨地址,則所述不同買家之間存在與位置有關(guān)的關(guān)聯(lián)關(guān)系;
該類型的關(guān)聯(lián)關(guān)系的指定特征,比如可以包括關(guān)聯(lián)對(duì)象之間涉及的地理位置信息等。
e、與社交關(guān)系有關(guān)的關(guān)聯(lián)關(guān)系——如不同買家具有相似的社交關(guān)系,具體而言,如不同買家屬于相同的即時(shí)通信群組,或者,不同買家在同一社交平臺(tái)中有相同的好友——那么,則所述不同買家之間存在與社交關(guān)系有關(guān)的關(guān)聯(lián)關(guān)系。
該類型的關(guān)聯(lián)關(guān)系的指定特征,比如可以包括關(guān)聯(lián)對(duì)象之間涉及的社交關(guān)系信息等。
需要說(shuō)明的是,關(guān)聯(lián)對(duì)象與其他對(duì)象之間的關(guān)聯(lián)關(guān)系的指定特征,還可以是關(guān)聯(lián)對(duì)象與其他對(duì)象之間存在的不同類型的關(guān)聯(lián)關(guān)系的類型總數(shù)。
3、關(guān)聯(lián)對(duì)象與其他關(guān)聯(lián)對(duì)象之間的關(guān)系網(wǎng)絡(luò)的指定特征
所述關(guān)系網(wǎng)絡(luò)是根據(jù)不同關(guān)聯(lián)對(duì)象之間的關(guān)聯(lián)關(guān)系(可以是前文所說(shuō)的任意類型的關(guān)聯(lián)關(guān)系)建立的,每個(gè)關(guān)聯(lián)對(duì)象在關(guān)系網(wǎng)絡(luò)中均可以看成是一個(gè)節(jié)點(diǎn),關(guān)系網(wǎng)絡(luò)中的邊,則表示由邊連接起來(lái)的節(jié)點(diǎn)(關(guān)聯(lián)對(duì)象)之間存在關(guān)聯(lián)關(guān)系。
所述關(guān)系網(wǎng)絡(luò)的指定特征,可以但不限于包括下述至少一種:
關(guān)系網(wǎng)絡(luò)是否存在孤立節(jié)點(diǎn)——其中,孤立節(jié)點(diǎn)是指與其他任何節(jié)點(diǎn)都沒(méi)有關(guān)聯(lián)關(guān)系的節(jié)點(diǎn);
關(guān)系網(wǎng)絡(luò)中三角形的數(shù)量——其中,三角形是指由兩兩之間都有關(guān)聯(lián)關(guān)系的三個(gè)節(jié)點(diǎn)所組成的節(jié)點(diǎn)集合;
關(guān)系網(wǎng)絡(luò)的稠密度——其中,稠密度,是根據(jù)各指定節(jié)點(diǎn)的鄰居節(jié)點(diǎn)之間的關(guān)系數(shù)量和節(jié)點(diǎn)鄰居數(shù)量的比值確定的,如稠密度可以是各比值之和,或可以是各比值的平均值。其中,各指定節(jié)點(diǎn),可以是關(guān)系網(wǎng)絡(luò)中的部分或全部節(jié)點(diǎn);指定節(jié)點(diǎn)的鄰居節(jié)點(diǎn),是指關(guān)系網(wǎng)絡(luò)中和該指定節(jié)點(diǎn)有關(guān)聯(lián)關(guān)系的其他節(jié)點(diǎn)。
本申請(qǐng)實(shí)施例中,可以預(yù)先將主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值保 存在數(shù)據(jù)庫(kù)中,以便后續(xù)進(jìn)行獲取。
步驟12,根據(jù)通過(guò)執(zhí)行步驟11獲取到的指定特征的值,確定分別反映各類型的指定特征的值的分布情況(后稱第一分布情況)的信息,作為主導(dǎo)對(duì)象的聚集性特征的值;
其中,所述類型是指定特征的類型。
在一些情況下,一些指標(biāo)的值可以反映指定特征的第一分布情況,因此可以確定這樣的指標(biāo)的值,作為主導(dǎo)對(duì)象的聚集性特征的值。比如,下述至少一種指標(biāo)的值,可以反映所述第一分布情況:
第一類指標(biāo):某類型的指定特征的值中出現(xiàn)的滿足第一預(yù)定條件的指定特征的值在獲取到的該類型的所有指定特征的值中的占比。
需要說(shuō)明的是,當(dāng)?shù)谝活A(yù)定條件為在某類型的指定特征上沒(méi)有取值時(shí),該第一類指標(biāo)也可以稱作占空比指標(biāo)。比如:對(duì)于“注冊(cè)郵箱后綴”這個(gè)指定特征,若10個(gè)關(guān)聯(lián)對(duì)象中僅有兩個(gè)關(guān)聯(lián)對(duì)象不具備注冊(cè)郵箱后綴這個(gè)指定特征,且第一預(yù)定條件為在注冊(cè)郵箱后綴這個(gè)指定特征上沒(méi)有取值時(shí),那么,此時(shí)的占空比指標(biāo)的值為2/10。
第二類指標(biāo):某類型的指定特征的值中出現(xiàn)的滿足第二預(yù)定條件的指定特征的值在指定的特征值集合中的占比;其中,指定的特征值集合,由獲取到的該類型的指定特征的值中的屬于指定特征值范圍內(nèi)的值構(gòu)成。
需要說(shuō)明的是,當(dāng)?shù)诙A(yù)定條件為在某類型的所有指定特征的值中的最大值,且指定的特征值集合為在某類型的指定特征上取值非空的指定特征的特征值集合時(shí),該第二類指標(biāo)即為眾數(shù)占比指標(biāo)。
信息熵指標(biāo):是指指定特征的值的信息熵。該指標(biāo)可以用來(lái)描述獲取到的該類型的指定特征的值的混亂程度。
針對(duì)以上占空比指標(biāo)、眾數(shù)占比指標(biāo)以及信息熵指標(biāo)的值,可以利用通過(guò)執(zhí)行步驟11獲取到的指定特征的值來(lái)計(jì)算。以下具體以獲取到的關(guān)聯(lián)對(duì)象的指定特征的值為作為買家賬戶名的郵箱地址的后綴為例,介紹如何根據(jù)獲取到 的指定特征的值計(jì)算占空比指標(biāo)、眾數(shù)占比指標(biāo)以及信息熵指標(biāo)的值:
假設(shè)一個(gè)作為主導(dǎo)對(duì)象的賣家在某一天有50個(gè)作為關(guān)聯(lián)對(duì)象的買家,在這50個(gè)買家中,有10個(gè)買家的賬戶名是后綴為“abc.com”的郵箱地址、35個(gè)買家的賬戶名是后綴為“123.com”的郵箱地址、5個(gè)買家的賬戶名不是郵箱地址。
那么,占空比指標(biāo)的值=賬戶名不是郵箱地址的買家的數(shù)量“5”/關(guān)聯(lián)對(duì)象總數(shù)量“50”=5/50=0.1;眾數(shù)占比指標(biāo)的值=郵箱地址后綴為“123.com”的買家的數(shù)量/采用郵箱地址后綴作為賬戶名的買家的數(shù)量=35/(10+35)=0.78;信息熵的值,則為0.527。
需要說(shuō)明的是,本申請(qǐng)實(shí)施例中除了可以通過(guò)上述三種指標(biāo)的值中的至少一種指標(biāo)的值反映指定特征的值的第一分布情況外,還可以有其他指標(biāo)的值來(lái)反映指定特征的值的第一分布情況,比如,其他指標(biāo)可以包括:眾數(shù)占比與信息熵之間的差異,等等,在此不一一進(jìn)行贅述。
分別反映各類型的指定特征的值的第一分布情況的信息(指標(biāo)的值),可以作為主導(dǎo)對(duì)象的聚集性特征的值。
步驟13,根據(jù)通過(guò)執(zhí)行步驟12確定出的主導(dǎo)對(duì)象的聚集性特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
需要說(shuō)明的是,通過(guò)執(zhí)行上述步驟12,可以是將分別反映各類型的指定特征的值的第一分布情況的各信息,分別作為主導(dǎo)對(duì)象的不同聚集性特征的值;也可以是將分別反映各類型的指定特征的值的第一分布情況的各信息,合成(比如采用求信息的加權(quán)和的方式)為主導(dǎo)對(duì)象的一個(gè)聚集性特征的值。針對(duì)前一種方式而言,當(dāng)?shù)玫降淖鳛橹鲗?dǎo)對(duì)象的不同聚集性特征的值有至少兩個(gè)時(shí),考慮到其中的一些聚集性特征的值,可能對(duì)判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的結(jié)果影響較小。在這樣的情況下,可以對(duì)這樣的聚集性特征的值進(jìn)行過(guò)濾。
一種可選的過(guò)濾方式如下:
在確定出的聚集性特征的值對(duì)應(yīng)的聚集性特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán) 重大于預(yù)設(shè)權(quán)重的聚集性特征。選取出的聚集性特征的值,可以作為判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的判斷依據(jù)。如何從確定出的聚集性特征的值對(duì)應(yīng)的聚集性特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性特征,可以參見(jiàn)后文描述的如何從聚集性轉(zhuǎn)換特征的值對(duì)應(yīng)的聚集性轉(zhuǎn)換特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征的實(shí)現(xiàn)方式,此處不再贅述。
無(wú)論是否對(duì)確定出的聚集性特征的值進(jìn)行過(guò)濾,都可以采用下述方式,來(lái)實(shí)現(xiàn)根據(jù)主導(dǎo)對(duì)象的聚集性特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。但需要說(shuō)明的是,若直接根據(jù)確定出的聚集性特征的值來(lái)判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn),而不進(jìn)行聚集性特征的值的過(guò)濾,那么,作為判斷依據(jù)的,一般是確定的所有聚集性特征的值;而若對(duì)聚集性特征的值進(jìn)行了上述過(guò)濾,則作為判斷依據(jù)的,一般是過(guò)濾后剩余的聚集性特征的值。
方式1:
根據(jù)預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值以及作為判斷依據(jù)的聚集性特征的值,來(lái)判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
比如,可以預(yù)先確定參與所述指定業(yè)務(wù)的、被識(shí)別出存在風(fēng)險(xiǎn)的其他主導(dǎo)對(duì)象的聚集性特征的值。具體的,預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值的確定流程所包含的步驟,比如可以與步驟11和步驟12類似,即:獲取被識(shí)別出存在風(fēng)險(xiǎn)的其他主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;根據(jù)獲取到的指定特征的值,確定分別反映各類型的指定特征的值的分布情況的信息(該信息比如是前文所述的某個(gè)指標(biāo)的值);將所述信息的均值(如前文所述的某個(gè)指標(biāo)的值的均值),作為所述預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值。
在確定出該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值后,通過(guò)比較所述判斷依據(jù)與該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值是否匹配,則可以確定主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
比如,若假設(shè)該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值是不存在風(fēng)險(xiǎn)的不同主導(dǎo)對(duì)象的聚集性特征的值的均值,那么,當(dāng)所述判斷依據(jù)與該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值之間的差異處于預(yù)定的差異范圍內(nèi)時(shí),可以確定主導(dǎo)對(duì)象不存在風(fēng)險(xiǎn);否則,則可以確定主導(dǎo)對(duì) 象存在風(fēng)險(xiǎn)。
方式2:
由上文可知,該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值,可以是不存在風(fēng)險(xiǎn)的不同主導(dǎo)對(duì)象的聚集性特征的值的均值,從而該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值反映的可以是不存在風(fēng)險(xiǎn)的不同主導(dǎo)對(duì)象的各類型的指定特征的值的常規(guī)分布情況。
這樣的情況下,考慮到待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象雖然不存在風(fēng)險(xiǎn),但它的聚集性特征的值可能不符合所述常規(guī)分布情況——比如以待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象為一線城市的線下o2o場(chǎng)景中的線下賣家、關(guān)聯(lián)對(duì)象為該場(chǎng)景中的買家為例,該場(chǎng)景下的預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值,可以是綜合一線、二線及三線城市的其他主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象的指定特征的值的分布情況而確定出的,它反映的是一線、二線及三線城市的關(guān)聯(lián)對(duì)象的指定特征的值的常規(guī)分布情況。那么,根據(jù)該預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值,來(lái)判斷一線城市的待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn),可能會(huì)導(dǎo)致識(shí)別結(jié)果準(zhǔn)確性不高。
為避免上述問(wèn)題,本申請(qǐng)實(shí)施例中,可以根據(jù)參與所述指定業(yè)務(wù)的、不同主導(dǎo)對(duì)象的聚集性特征的值,對(duì)待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象的聚集性特征的值進(jìn)行轉(zhuǎn)換,得到待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象的轉(zhuǎn)換后的聚集性特征的值(后稱聚集性轉(zhuǎn)換特征的值)。后續(xù)可以以聚集性轉(zhuǎn)換特征的值代替轉(zhuǎn)換前的該待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象的聚集性特征的值,作為判斷待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的依據(jù)。
其中,若不對(duì)待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象的聚集性特征的值進(jìn)行前文所述的過(guò)濾,則被轉(zhuǎn)換的聚集性特征的值,可以是通過(guò)執(zhí)行步驟12確定出的所有聚集性特征的值;若要進(jìn)行所述過(guò)濾,則被轉(zhuǎn)換的聚集性特征的值,可以是進(jìn)行所述過(guò)濾后剩余的聚集性特征的值。
此外,還需要說(shuō)明以下兩點(diǎn):
1、對(duì)聚集性特征的值進(jìn)行轉(zhuǎn)換的方式
若將待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象稱為第一主導(dǎo)對(duì)象,將參與所述指定 業(yè)務(wù)的其他主導(dǎo)對(duì)象稱為第二主導(dǎo)對(duì)象,則對(duì)聚集性特征的值進(jìn)行轉(zhuǎn)換的方式,比如可以包括:
根據(jù)第一主導(dǎo)對(duì)象的聚集性特征的值反映的不同關(guān)聯(lián)對(duì)象的指定特征的分布情況(第一分布情況),以及第二主導(dǎo)對(duì)象的聚集性特征的值反映的不同關(guān)聯(lián)對(duì)象的指定特征的值的分布情況(稱第二分布情況),確定反映第一分布情況和第二分布情況存在的差異的值。該差異的值,即可以作為第一主導(dǎo)對(duì)象的轉(zhuǎn)換后的聚集性特征的值(后稱聚集性轉(zhuǎn)換特征的值)。其中,第二主導(dǎo)對(duì)象的聚集性特征的值,是根據(jù)第二主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象的指定特征的值確定出的,具體確定方式,包括與步驟11和步驟12類似的步驟,不再贅述。
針對(duì)上述反映兩種主導(dǎo)對(duì)象分布情況存在的差異的值舉例而言:
比如假設(shè)第一主導(dǎo)對(duì)象的作為買家賬戶名的郵箱地址的占空比為x,第二主導(dǎo)對(duì)象的該占空比為y,那么反映第一主導(dǎo)對(duì)象和第二主導(dǎo)對(duì)象之間的占空比的差異的值為x′,的計(jì)算方式如下:
x′=|x-y|/y
需要說(shuō)明的是,這里所說(shuō)的第二主導(dǎo)對(duì)象,一般是跟第一主導(dǎo)對(duì)象之間存在指定關(guān)聯(lián)關(guān)系的對(duì)象。所述指定關(guān)聯(lián)關(guān)系可以是下述中的至少一種:
第一主導(dǎo)對(duì)象自身與第二主導(dǎo)對(duì)象自身分別具有的基本屬性滿足指定關(guān)聯(lián)條件——比如,第一主導(dǎo)對(duì)象與第二主導(dǎo)對(duì)象分別為兩個(gè)超市,若兩個(gè)超市所處地理位置相近(比如500米范圍內(nèi)),則這兩個(gè)超市滿足指定關(guān)聯(lián)條件。
第一主導(dǎo)對(duì)象與第二主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象中存在相同的關(guān)聯(lián)對(duì)象——同樣以第一主導(dǎo)對(duì)象與第二主導(dǎo)對(duì)象分別為兩個(gè)超市,若兩個(gè)超市分別對(duì)應(yīng)一些相同的買家,則這兩個(gè)超市滿足指定關(guān)聯(lián)條件。
第一主導(dǎo)對(duì)象與第二主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象中存在的相同的關(guān)聯(lián)對(duì)象的占比大于預(yù)定閾值;所述占比,為存在的相同的關(guān)聯(lián)對(duì)象的數(shù)量在第一主導(dǎo)對(duì)象與第二主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象的總數(shù)量中的占比。
2、預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值的設(shè)置方式
為了使得聚集性轉(zhuǎn)換特征的值與預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值具有較高的可比性,本申請(qǐng)實(shí)施例中,預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值的設(shè)置過(guò)程,可以包括:
針對(duì)作為樣本的主導(dǎo)對(duì)象(可以是隨機(jī)選取的、參與所述指定類型的業(yè)務(wù)的主導(dǎo)對(duì)象,后稱樣本主導(dǎo)對(duì)象)執(zhí)行與步驟11和步驟12類似的步驟,以及將通過(guò)執(zhí)行與步驟12類似的步驟后確定出的樣本主導(dǎo)對(duì)象的聚集性特征的值,轉(zhuǎn)換為樣本主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征的值,并以樣本主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征的值作為預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值。具體地,該設(shè)置過(guò)程比如包括:
獲取樣本主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;
根據(jù)獲取到的指定特征的值,確定分別反映各類型的指定特征的值的分布情況的信息(該信息比如是前文所述的某個(gè)指標(biāo)的值),作為樣本主導(dǎo)對(duì)象的聚集性特征的值;
將樣本主導(dǎo)對(duì)象的聚集性特征的值,轉(zhuǎn)換為相應(yīng)的聚集性轉(zhuǎn)換特征的值,并將所述相應(yīng)的聚集性轉(zhuǎn)換特征的值,作為所述預(yù)設(shè)風(fēng)險(xiǎn)指標(biāo)值。
將樣本主導(dǎo)對(duì)象的聚集性特征的值轉(zhuǎn)換為相應(yīng)的聚集性轉(zhuǎn)換特征的值的方式,與將第一主導(dǎo)對(duì)象的聚集性特征的值轉(zhuǎn)換為相應(yīng)的聚集性轉(zhuǎn)換特征的值的方式類似,此處不再贅述。
以下繼續(xù)對(duì)待識(shí)別是否存在風(fēng)險(xiǎn)的主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征的值轉(zhuǎn)化為聚集性轉(zhuǎn)換特征的值后進(jìn)行的其他步驟進(jìn)行介紹。
當(dāng)?shù)玫降木奂赞D(zhuǎn)換特征的值有至少兩個(gè)時(shí),考慮到其中的一些聚集性轉(zhuǎn)換特征的值,可能對(duì)判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的結(jié)果影響較小。在這樣的情況下,可以對(duì)這樣的聚集性轉(zhuǎn)換特征的值進(jìn)行過(guò)濾。
一種可選的過(guò)濾方式如下:
在確定出的聚集性轉(zhuǎn)換特征的值對(duì)應(yīng)的聚集性轉(zhuǎn)換特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征。選取出的聚集性轉(zhuǎn)換特征的值,可以作為判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的判斷依據(jù)。
以下具體以識(shí)別某個(gè)賣家(主導(dǎo)對(duì)象)是否存在作弊風(fēng)險(xiǎn)為例,說(shuō)明如何 從該賣家的聚集性轉(zhuǎn)換特征中,選取在作弊風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征。其中,這里所說(shuō)的作弊風(fēng)險(xiǎn),是指賣家自己注冊(cè)大量的買家賬號(hào),從而偽裝成買家購(gòu)買該賣家自己出售的商品,以騙取營(yíng)銷資源。具體地,該選取過(guò)程主要可以包括以下幾步:
第一步,構(gòu)造樣本;
選取一定數(shù)量的、已經(jīng)識(shí)別出的作弊賣家(即被識(shí)別出有騙取營(yíng)銷資源行為的賣家)作為黑樣本;隨機(jī)選取一定數(shù)量的、已經(jīng)識(shí)別出的非作弊賣家作為白樣本。
本申請(qǐng)實(shí)施例中,由于黑樣本可以不斷加入每天確認(rèn)的作弊賣家,從而使得樣本是動(dòng)態(tài)更新的。
第二步,特征篩選;
特征篩選方法有很多,如正態(tài)性檢驗(yàn)(kolmogorov-smirnovtest,簡(jiǎn)稱k-s)方法,基于信息熵的特征篩選方法等。在本申請(qǐng)實(shí)施例中,選用k-s方法。
需要說(shuō)明的是,采用k-s方法只是一種示例性的說(shuō)明,并不應(yīng)理解為對(duì)本申請(qǐng)實(shí)施例的限定。k-s方法基于累積分布函數(shù)實(shí)現(xiàn),用以檢驗(yàn)一個(gè)經(jīng)驗(yàn)分布是否符合某種理論分布或比較兩個(gè)經(jīng)驗(yàn)分布是否有顯著性差異。比如,比較黑白樣本在某個(gè)特征上的分布差異,如果差異較大,說(shuō)明該特征對(duì)于黑白樣本是有區(qū)分能力的。得到每個(gè)特征的ks分值后,根據(jù)設(shè)置的顯著性水平和得到的ks分值篩選滿足條件的特征。
在本例中,所述滿足條件的特征,即為在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征。
針對(duì)上述一些名詞需要進(jìn)行解釋的是:顯著水平,是估計(jì)總體參數(shù)落在某一區(qū)間內(nèi)可能犯錯(cuò)誤的概率。在本申請(qǐng)實(shí)施例中,顯著水平可以用來(lái)作為評(píng)判聚集性特征是否為可信的標(biāo)準(zhǔn)。
具體的,給定待識(shí)別是否存在作弊風(fēng)險(xiǎn)的該賣家(后稱該賣家一個(gè)指定的聚集性轉(zhuǎn)換特征(后稱特征t),黑白樣本的數(shù)量分別為n1和n2,判斷該特 征t是否為在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征的主要過(guò)程如下:
1、分別在黑白樣本上計(jì)算該賣家的特征t的累計(jì)概率密度函數(shù)值f1和f2;
該計(jì)算過(guò)程,可以看成是計(jì)算該賣家的特征t的某個(gè)取值相對(duì)于黑白樣本的特征t的所有值中的分布概率,該計(jì)算公式為f(x)=p(xp的),其中x為特征t的所有值,x為特征t的所述某個(gè)取值。
按照上述公式,可以計(jì)算出該賣家的特征t的各個(gè)取值i分別在黑樣本上的累計(jì)概率密度函數(shù)值f1(i),以及該賣家的特征t在白樣本上的累計(jì)概率密度函數(shù)值f2(i)。
2、針對(duì)特征t的各個(gè)取值i,計(jì)算相應(yīng)的累計(jì)概率密度函數(shù)值之差d(i);
計(jì)算公式如下:
d(i)=|f1(i)-f2(i)|
3、該賣家的特征t的ks值ks為特征t的累計(jì)概率密度函數(shù)值之差d(i)中的最大值,即ks=max([d(i)foriint]);
4、假設(shè)設(shè)定置信度為alpha=0.01,則按照下述公式計(jì)算該賣家的特征t的顯著水平:
sig=ks-1.63*((n1+n2)/(n1*n2))0.5,
上式中的常量“1.63”,是根據(jù)alpha=0.01查找置信度對(duì)應(yīng)表得到的。如果計(jì)算得到sig>0,則說(shuō)明該賣家的特征t是顯著的,從而選擇該賣家的特征t作為在作弊風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征。
以下繼續(xù)沿用識(shí)別某個(gè)賣家(主導(dǎo)對(duì)象)是否存在作弊風(fēng)險(xiǎn)的例子,對(duì)在選取完畢聚集性轉(zhuǎn)換特征后,如何識(shí)別賣家存在作弊風(fēng)險(xiǎn)進(jìn)行說(shuō)明:
具體的識(shí)別的方法有很多,一種簡(jiǎn)單的識(shí)別方法比如可以包括:
對(duì)賣家的采用上述方式選取出的各聚集性轉(zhuǎn)換特征的值和選取出的各聚集性轉(zhuǎn)換特征分別對(duì)應(yīng)的ks值進(jìn)行加權(quán)累加,并以得到的加權(quán)累加的結(jié)果, 作為賣家疑似作弊的分值;判斷該分值與預(yù)設(shè)的分值范圍之間的大小關(guān)系,并根據(jù)判斷結(jié)果,確定賣家是否存在作弊風(fēng)險(xiǎn)。比如,該分值落入預(yù)設(shè)的分值范圍,則確定賣家存在作弊風(fēng)險(xiǎn)。其中,對(duì)選取出的各聚集性轉(zhuǎn)換特征的值和所述對(duì)應(yīng)的ks值進(jìn)行加權(quán)累加,是指:計(jì)算選取出的各聚集性轉(zhuǎn)換特征的值與相應(yīng)的ks值的乘積之和。
該識(shí)別方法比較簡(jiǎn)單,易于實(shí)現(xiàn)。
另外一種識(shí)別方法,稱為無(wú)監(jiān)督的異常模式識(shí)別算法——如孤立森林算法。繼續(xù)沿用識(shí)別某個(gè)賣家(主導(dǎo)對(duì)象)是否存在作弊風(fēng)險(xiǎn)的例子,對(duì)在選取完畢聚集性轉(zhuǎn)換特征后,可以將選取出的該賣家的聚集性轉(zhuǎn)換特征的值輸入訓(xùn)練好的孤立森林,來(lái)判斷該賣家是否存在作弊風(fēng)險(xiǎn)。其中,所述孤立森林,是利用從參與指定類型的業(yè)務(wù)的不同主導(dǎo)對(duì)象的特征中隨機(jī)選取的特征的值訓(xùn)練的。
以下先對(duì)孤立森林的訓(xùn)練過(guò)程進(jìn)行簡(jiǎn)單介紹。需要說(shuō)明的是,由于孤立森林是由多個(gè)孤立樹組成的,孤立樹是一種簡(jiǎn)單的二叉樹,每個(gè)節(jié)點(diǎn)都可以有兩個(gè)子節(jié)點(diǎn)或者無(wú)節(jié)點(diǎn)。每個(gè)孤立樹的生成邏輯都是一致的,因此以下主要介紹單個(gè)孤立樹的生成邏輯。
首先給定一批數(shù)據(jù)集a(如,從參與指定類型的業(yè)務(wù)的不同主導(dǎo)對(duì)象的特征,以及特征值)作為樣本。需要說(shuō)明的是,當(dāng)后續(xù)是將聚集性轉(zhuǎn)換特征的值輸入孤立森林進(jìn)行時(shí),該數(shù)據(jù)集a中的特征以及特征值,可以是參與指定類型的業(yè)務(wù)的不同主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征以及聚集性轉(zhuǎn)換特征的特征值;當(dāng)后續(xù)是將聚集性特征的值輸入孤立森林進(jìn)行時(shí),該數(shù)據(jù)集a中的特征以及特征值,可以是參與指定類型的業(yè)務(wù)的不同主導(dǎo)對(duì)象的聚集性特征以及聚集性特征的特征值。
孤立樹e的生成過(guò)程如下:
1、從a中隨機(jī)選擇一個(gè)特征值對(duì)應(yīng)的特征fea,作為孤立樹的切分屬性t.splitfea;
2、從a中隨機(jī)選擇特征fea的一個(gè)值val,作為孤立樹e的切分屬性值 t.spiltfeaval;
3、根據(jù)特征fea以及val將所有樣本切分為兩部分;
具體而言,可以將包含特征fea以及val的記錄保存在某個(gè)節(jié)點(diǎn)中;然后以該節(jié)點(diǎn)作為基準(zhǔn)節(jié)點(diǎn),將包含有小于val的fea的值的每條記錄放在基準(zhǔn)節(jié)點(diǎn)的左邊子節(jié)點(diǎn)中,作為左邊子節(jié)點(diǎn)(t.left)中保存的記錄;將包含有大于val的fea的值的每條記錄放在基準(zhǔn)節(jié)點(diǎn)的右邊子節(jié)點(diǎn)中,作為右邊子節(jié)點(diǎn)(t.right)中保存的記錄。
其中,一條記錄,是指由數(shù)據(jù)集a中的單個(gè)主導(dǎo)對(duì)象的特征以及特征值構(gòu)成的集合。
4、按照遞歸的方法構(gòu)成更多的左右子節(jié)點(diǎn),直到滿足指定條件。
其中,按照遞歸的方法構(gòu)成更多的左右子節(jié)點(diǎn),是指針對(duì)除基準(zhǔn)節(jié)點(diǎn)外的其他各節(jié)點(diǎn)分別執(zhí)行:
從該節(jié)點(diǎn)所保存的記錄中,隨機(jī)選取一條記錄中的特征fea的特征值;將隨機(jī)選取的該特征值所屬記錄保留在該節(jié)點(diǎn)中,并按照前文所述的樣本切分方式,將該節(jié)點(diǎn)所保存的其他記錄保存在該節(jié)點(diǎn)的左邊子節(jié)點(diǎn)或右邊子節(jié)點(diǎn)中。
依上述方式進(jìn)行遞歸,直至每個(gè)子節(jié)點(diǎn)中僅保存一條記錄,或者,直至由基準(zhǔn)節(jié)點(diǎn)及各子節(jié)點(diǎn)共同構(gòu)成的該孤立樹的高度達(dá)到限定高度。
在各孤立樹分別訓(xùn)練完畢后,就可以基于所述各孤立樹構(gòu)成的孤立森林,來(lái)識(shí)別待識(shí)別是否存在作弊風(fēng)險(xiǎn)的賣家是否存在作弊風(fēng)險(xiǎn)。具體而言,以“以該賣家的聚集性轉(zhuǎn)換特征的值作為識(shí)別依據(jù)”為例,可以將該賣家的各聚集性轉(zhuǎn)換特征的值分別輸入訓(xùn)練好的各孤立樹,從而確定該賣家是否存在作弊風(fēng)險(xiǎn)。下文以該賣家的某聚集性轉(zhuǎn)換特征的值為例,說(shuō)明將該值輸入各孤立樹后會(huì)執(zhí)行怎樣的步驟。具體的,該些步驟包括:
步驟一:確定賣家的該聚集性轉(zhuǎn)換特征的值與該孤立樹中的哪個(gè)葉子節(jié)點(diǎn)中保存的記錄中的特征值相同,即確定該聚集性轉(zhuǎn)換特征的值會(huì)落在該孤立樹中的哪個(gè)葉子節(jié)點(diǎn)上。其中,葉子節(jié)點(diǎn),是指不存在左節(jié)點(diǎn)和右節(jié)點(diǎn)的節(jié)點(diǎn)。
步驟二:確定出該葉子節(jié)點(diǎn)后,計(jì)算從樹的根部到該葉子節(jié)點(diǎn)的路徑長(zhǎng)度。在一種實(shí)施方式中,若設(shè)定樹的根部的初始路徑長(zhǎng)度e為0,則確定從樹的根部到該葉子節(jié)點(diǎn)的路徑的算法的代碼如下。其中,針對(duì)算法的輸入需要說(shuō)明的是,x表示該聚集性轉(zhuǎn)換特征的值,t表示一棵孤立樹,e表示當(dāng)前孤立樹節(jié)點(diǎn)的路徑長(zhǎng)度,e初始為0。
針對(duì)上述代碼所實(shí)現(xiàn)的邏輯而言,簡(jiǎn)單來(lái)說(shuō)就是:
在確定出該聚集性轉(zhuǎn)換特征的值x與該孤立樹中的某個(gè)葉子節(jié)點(diǎn)(后稱該葉子節(jié)點(diǎn))中保存的記錄中的特征值相同后,比較x與該孤立樹t的切分屬性值val的大?。蝗魓<val,則遞歸遍歷t的“左孩子”,從而確定“左孩子”的數(shù)量——即確定該葉子節(jié)點(diǎn)與保存有該孤立樹t的切分屬性值的節(jié)點(diǎn)之間存在的左邊子節(jié)點(diǎn)的數(shù)量,并以該數(shù)量作為路徑長(zhǎng)度e的值;若x≥val,則遞歸遍歷t的“右孩子”,從而確定“右孩子”的數(shù)量——即確定該葉子節(jié)點(diǎn)與保存有該孤立樹t的切分屬性值的節(jié)點(diǎn)之間存在的右邊子節(jié)點(diǎn)的數(shù)量,并以該數(shù)量作為路徑長(zhǎng)度e的值。
步驟三:針對(duì)每棵孤立樹執(zhí)行上述步驟一和步驟二,從而得出賣家的該聚集性轉(zhuǎn)換特征的值所匹配的各孤立樹的葉子節(jié)點(diǎn)的路徑長(zhǎng)度后,按照下述公式,計(jì)算賣家的該聚集性轉(zhuǎn)換特征的值的風(fēng)險(xiǎn)分值score(x):
score(x)=2(-e(h(x))/c(m))
其中,e(h(x)表示該聚集性轉(zhuǎn)換特征的值所匹配的各孤立樹的葉子節(jié)點(diǎn)的路徑長(zhǎng)度的均值,m表示用于訓(xùn)練所述各孤立樹的樣本的總數(shù),比如可以是上文中提到的數(shù)據(jù)集a對(duì)應(yīng)的主導(dǎo)對(duì)象的總數(shù)。其中,c(m)=2*(ln(m-1)+0.5772156649)–2*(m-1)/m。
步驟四:通過(guò)比較該賣家的該聚集性轉(zhuǎn)換特征的值的風(fēng)險(xiǎn)分值score(x)與預(yù)先設(shè)置的風(fēng)險(xiǎn)閾值,確定該賣家是否存在作弊風(fēng)險(xiǎn)。
通過(guò)理論和實(shí)踐證明,當(dāng)score(x)大于預(yù)先設(shè)置的風(fēng)險(xiǎn)閾值0.5時(shí),可以說(shuō)明該聚集性轉(zhuǎn)換特征的值存在風(fēng)險(xiǎn),也即說(shuō)明該聚集性轉(zhuǎn)換特征所屬的主導(dǎo)對(duì)象(賣家)存在作弊風(fēng)險(xiǎn)。反之,則說(shuō)明該聚集性轉(zhuǎn)換特征的值不存在風(fēng)險(xiǎn),也即說(shuō)明該聚集性轉(zhuǎn)換特征所屬的主導(dǎo)對(duì)象(賣家)不存在作弊風(fēng)險(xiǎn)。
需要說(shuō)明的是,當(dāng)賣家的聚集性轉(zhuǎn)換特征有多個(gè),從而相應(yīng)的有賣家的多個(gè)聚集性轉(zhuǎn)換特征的值時(shí),可以將各聚集性轉(zhuǎn)換特征的值分別輸入各孤立樹,從而得到相應(yīng)的風(fēng)險(xiǎn)分值。最終可以求取得到的各風(fēng)險(xiǎn)分值的平均值,并通過(guò)比較該平均值與預(yù)先設(shè)置的風(fēng)險(xiǎn)閾值,確定該賣家是否存在作弊風(fēng)險(xiǎn);或者,也可以從得到的各風(fēng)險(xiǎn)分值中選取最大的風(fēng)險(xiǎn)分值與預(yù)先設(shè)置的風(fēng)險(xiǎn)閾值進(jìn)行比較,并根據(jù)比較結(jié)果確定該賣家是否存在作弊風(fēng)險(xiǎn)。
采用本申請(qǐng)實(shí)施例提供的方法,由于可以根據(jù)主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值,確定分別反映各類型的指定特征的值的分布情況的信息,作為主導(dǎo)對(duì)象的聚集性特征的值,該聚集性特征的值可以作為判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的依據(jù),通過(guò)該依據(jù)就可以完成對(duì)主導(dǎo)對(duì)象的風(fēng)險(xiǎn)識(shí)別,從而達(dá)到識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的目的。并且,由于反映各類型的指定特征的值的分布情況的信息,一般說(shuō)來(lái)是主導(dǎo)對(duì)象比較難以仿造的信息,因此,根 據(jù)該信息對(duì)主導(dǎo)對(duì)象進(jìn)行風(fēng)險(xiǎn)識(shí)別,一般能夠得到較為可信的準(zhǔn)確結(jié)果。
實(shí)施例2
為了識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn),本申請(qǐng)實(shí)施例提供一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置。該裝置的具體結(jié)構(gòu)示意圖如圖2所示,包括獲取單元21、確定單元22以及判斷單元23。
其中,獲取單元21,用于:獲取主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值;所述關(guān)聯(lián)對(duì)象,為分別與主導(dǎo)對(duì)象共同參與指定類型的業(yè)務(wù)的對(duì)象;所述指定類型的業(yè)務(wù),是由主導(dǎo)對(duì)象和關(guān)聯(lián)對(duì)象共同參與完成的業(yè)務(wù)。
確定單元22,用于:根據(jù)獲取單元21獲取到的指定特征的值,確定分別反映各類型的指定特征的值的第一分布情況的信息,作為主導(dǎo)對(duì)象的聚集性特征的值;所述類型,為所述指定特征的類型。
判斷單元23,用于:根據(jù)確定單元22確定的主導(dǎo)對(duì)象的聚集性特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
在一種方式中,關(guān)聯(lián)對(duì)象的指定特征,至少包括下述一種:
關(guān)聯(lián)對(duì)象自身的基本特征;
關(guān)聯(lián)對(duì)象與其他關(guān)聯(lián)對(duì)象之間的關(guān)聯(lián)關(guān)系的指定特征;
關(guān)聯(lián)對(duì)象與其他關(guān)聯(lián)對(duì)象之間的關(guān)系網(wǎng)絡(luò)的指定特征;
其中,所述其他關(guān)聯(lián)對(duì)象,為分別與所述主導(dǎo)對(duì)象共同參與指定類型的業(yè)務(wù)的對(duì)象。
在一種實(shí)施方式中,確定單元22,可以用于:針對(duì)獲取單元21獲取到的主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的各個(gè)類型的指定特征的值,分別執(zhí)行下述操作中的至少一種:
計(jì)算獲取到的該類型的滿足第一預(yù)定條件的指定特征的值在獲取到的該類型的所有指定特征的值中的占比,作為該類型的指定特征的第一分部情況的信息;
計(jì)算獲取到的該類型的滿足第二預(yù)定條件的指定特征的值在指定的特征值集合中的占比,作為該類型的指定特征的第一分部情況的信息;其中,所述特征值集合,由獲取到的該類型的指定特征的值中的屬于指定特征值范圍內(nèi)的值構(gòu)成;
計(jì)算獲取到的該類型的指定特征的值的信息熵,作為該類型的指定特征的第一分部情況的信息。
在一種實(shí)施方式中,判斷單元23,具體可以用于:
根據(jù)確定單元22確定出的主導(dǎo)對(duì)象的聚集性特征的值,以及反映其他主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象的各類型的指定特征的值的第二分布情況的信息,確定反映第一分布情況和第二分布情況的差異的值,作為主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征的值;其中,所述其他主導(dǎo)對(duì)象,是參與指定類型的業(yè)務(wù)且與主導(dǎo)對(duì)象存在指定關(guān)聯(lián)關(guān)系的其他主導(dǎo)對(duì)象;其他主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象,是與其他主導(dǎo)對(duì)象參與指定類型的業(yè)務(wù)的對(duì)象;反映其他主導(dǎo)對(duì)象的指定的特征的值的第二分布情況的信息,是根據(jù)其他主導(dǎo)對(duì)象的關(guān)聯(lián)對(duì)象的指定特征的值確定出的;
根據(jù)主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
在一種實(shí)施方式中,主導(dǎo)對(duì)象與其他主導(dǎo)對(duì)象存在的指定關(guān)聯(lián)關(guān)系,可以包括下述至少一種:
主導(dǎo)對(duì)象自身與其他主導(dǎo)對(duì)象自身分別具有的基本屬性滿足指定關(guān)聯(lián)條件;
主導(dǎo)對(duì)象與其他主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象中存在相同的關(guān)聯(lián)對(duì)象;
主導(dǎo)對(duì)象與其他主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象中存在的相同的關(guān)聯(lián)對(duì)象的占比大于預(yù)定閾值;所述占比,為主導(dǎo)對(duì)象與其他主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象中存在的相同的關(guān)聯(lián)對(duì)象的數(shù)量在主導(dǎo)對(duì)象與其他主導(dǎo)對(duì)象分別對(duì)應(yīng)的關(guān)聯(lián)對(duì)象的總數(shù)量中的占比。
在一種實(shí)施方式中,判斷單元23,具體可以用于:從主導(dǎo)對(duì)象的聚集性轉(zhuǎn)換特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性轉(zhuǎn)換特征;根據(jù)選 取出的聚集性轉(zhuǎn)換特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
在一種實(shí)施方式中,判斷單元23,可以用于:從主導(dǎo)對(duì)象的聚集性特征中,選取在風(fēng)險(xiǎn)識(shí)別中的權(quán)重大于預(yù)設(shè)權(quán)重的聚集性特征;根據(jù)選取出的聚集性特征的值,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
在一種實(shí)施方式中,判斷單元23,具體可以用于:通過(guò)將主導(dǎo)對(duì)象的聚集性特征的值輸入訓(xùn)練好的孤立森林,判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)。
其中,孤立森林,是利用從參與指定類型的業(yè)務(wù)的不同主導(dǎo)對(duì)象的特征中隨機(jī)選取的特征,以及隨機(jī)選取的特征的值訓(xùn)練的。
在一種實(shí)施方式中,業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,可以用以針對(duì)主導(dǎo)對(duì)象為線下商戶、關(guān)聯(lián)對(duì)象為商品對(duì)象的買家、指定類型的業(yè)務(wù)為商品對(duì)象的買家業(yè)務(wù)的場(chǎng)景中時(shí)使用。針對(duì)該場(chǎng)景,本申請(qǐng)實(shí)施例還特別的提供了一種業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,該裝置可以包括以下幾個(gè)單元:
買家的指定特征的值獲取單元,用于獲取線下商戶的不同關(guān)聯(lián)買家的指定特征的值;所述關(guān)聯(lián)買家,為分別與所述線下商戶共同參與商品對(duì)象的買賣業(yè)務(wù)的買家;
信息確定單元,用于根據(jù)獲取到的所述指定特征的值,確定分別反映各類型的所述指定特征的值的第一分布情況的信息,作為所述線下商戶的聚集性特征的值;
風(fēng)險(xiǎn)判斷單元,用于根據(jù)所述線下商戶的聚集性特征的值,判斷所述線下商戶是否存在風(fēng)險(xiǎn)。
采用本申請(qǐng)實(shí)施例提供的業(yè)務(wù)參與對(duì)象的風(fēng)險(xiǎn)識(shí)別裝置,由于可以根據(jù)主導(dǎo)對(duì)象的不同關(guān)聯(lián)對(duì)象的指定特征的值,確定分別反映各類型的指定特征的值的分布情況的信息,作為主導(dǎo)對(duì)象的聚集性特征的值,該聚集性特征的值可以作為判斷主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的依據(jù),通過(guò)該依據(jù)就可以完成對(duì)主導(dǎo)對(duì)象的風(fēng)險(xiǎn)識(shí)別,從而達(dá)到識(shí)別參與業(yè)務(wù)的主導(dǎo)對(duì)象是否存在風(fēng)險(xiǎn)的目的。并且,由于反映各類型的指定特征的值的分布情況的信息,一般說(shuō)來(lái)是主導(dǎo)對(duì)象比較難 以仿造的信息,因此,根據(jù)該信息對(duì)主導(dǎo)對(duì)象進(jìn)行風(fēng)險(xiǎn)識(shí)別,一般能夠得到較為可信的準(zhǔn)確結(jié)果。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。 內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。