国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      預測用戶是否存在惡意行為的方法和計算設備與流程

      文檔序號:11234487閱讀:278來源:國知局
      預測用戶是否存在惡意行為的方法和計算設備與流程

      本發(fā)明涉及信息安全技術領域,尤其涉及一種預測用戶是否存在惡意行為的方法和計算設備。



      背景技術:

      隨著網(wǎng)絡通信技術的迅速發(fā)展、互聯(lián)網(wǎng)應用的持續(xù)深化、所承載信息的日益豐富,互聯(lián)網(wǎng)已成為人類社會重要的基礎設施,與此同時,網(wǎng)絡安全問題也日益嚴重。其中,諸如網(wǎng)絡欺詐之類的網(wǎng)絡惡意行為正逐漸成為危害公眾財產安全的一種重要犯罪手段。

      目前,針對網(wǎng)絡惡意行為進行治理的主要方式是基于配置好的異常模式和用戶的基礎信息來檢測,基礎信息例如是用戶的征信評分、用戶的消費情況、用戶的歷史借貸情況等等。一方面由于用戶個人的基礎信息比較容易偽造,并且每個用戶的信息很大程度是孤立的,和其他信息缺乏關聯(lián)信息,導致對網(wǎng)絡異常的檢測準確度不高,誤檢和漏檢情況較多。另一方面異常模式內容較單一,也會導致漏檢情況,且多由人工配置,提高了成本。

      因此,迫切需要一種更先進更準確的預測用戶是否存在惡意行為的方案。



      技術實現(xiàn)要素:

      為此,本發(fā)明提供一種基于用戶關系圖來預測用戶是否存在惡意行為的方案,以力圖解決或者至少緩解上面存在的至少一個問題。

      根據(jù)本發(fā)明的一個方面,提供了一種基于用戶關系圖來預測用戶是否存在惡意行為的方法,適于在計算設備中執(zhí)行,用戶關系圖包括節(jié)點和連接關聯(lián)節(jié)點的邊,該方法包括步驟:獲取用戶的用戶數(shù)據(jù);根據(jù)所獲取的用戶數(shù)據(jù)來更新用戶關系圖;在更新后的用戶關系圖中,根據(jù)與用戶相關的節(jié)點以及通過邊與該節(jié)點相連的其它節(jié)點的屬性值,提取該用戶的至少一類關聯(lián)特征;根據(jù)所提取的關聯(lián)特征,利用預先建立的分類模型來確定該用戶是否存在惡意行為。

      根據(jù)本發(fā)明的另一方面,提供了一種計算設備,包括:一個或多個處理器;存儲器;以及一個或多個程序,其中一個或多個程序存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行,一個或多個程序包括用于執(zhí)行根據(jù)本發(fā)明的基于用戶關系圖來預測用戶是否存在惡意行為的方法中的任一方法的指令。

      根據(jù)本發(fā)明的還有一個方面,提供了一種存儲一個或多個程序的計算機可讀存儲介質,所述一個或多個程序包括指令,所述指令當由計算設備執(zhí)行時,使得所述計算設備執(zhí)行根據(jù)本發(fā)明的基于用戶關系圖來預測用戶是否存在惡意行為的方法中的任一方法。

      根據(jù)本發(fā)明的基于用戶關系圖來預測用戶是否存在惡意行為的方案,首先采用用戶關系圖更直觀地展現(xiàn)了用戶數(shù)據(jù),同時還體現(xiàn)了用戶數(shù)據(jù)之間的關聯(lián)性,繼而通過在用戶關系圖中提取出多維的關聯(lián)特征,并根據(jù)該關聯(lián)特征利用分類模型來有效地確定該用戶是否存在惡意行為,準確度高,且節(jié)省成本。

      附圖說明

      為了實現(xiàn)上述以及相關目的,本文結合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護的主題的范圍內。通過結合附圖閱讀下面的詳細描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開,相同的附圖標記通常指代相同的部件或元素。

      圖1示出了根據(jù)本發(fā)明的一個示例性實施方式的計算設備100的結構框圖;

      圖2示出了根據(jù)本發(fā)明的一個示例性實施方式的計算設備100的網(wǎng)絡環(huán)境的示意圖;

      圖3示出了根據(jù)本發(fā)明的一個示例性實施方式的用戶關系圖的示意圖;以及

      圖4示出了根據(jù)本發(fā)明的一個示例性實施方式的基于用戶關系圖來預測用戶是否存在惡意行為的方法400的流程圖。

      具體實施方式

      下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。

      圖1示出了根據(jù)本發(fā)明一個示例性實施例的計算設備100的結構框圖。該計算設備100可以實現(xiàn)為服務器,例如文件服務器、數(shù)據(jù)庫服務器、應用程序服務器和網(wǎng)絡服務器等,也可以實現(xiàn)為包括桌面計算機和筆記本計算機配置的個人計算機。此外,計算設備100還可以實現(xiàn)為小尺寸便攜(或者移動)電子設備的一部分,這些電子設備可以是諸如蜂窩電話、個人數(shù)字助理(pda)、個人媒體播放器設備、無線網(wǎng)絡瀏覽設備、個人頭戴設備、應用專用設備、或者可以包括上面任何功能的混合設備。

      在基本的配置102中,計算設備100典型地包括系統(tǒng)存儲器106和一個或者多個處理器104。存儲器總線108可以用于在處理器104和系統(tǒng)存儲器106之間的通信。

      取決于期望的配置,處理器104可以是任何類型的處理,包括但不限于:微處理器((μp)、微控制器(μc)、數(shù)字信息處理器(dsp)或者它們的任何組合。處理器104可以包括諸如一級高速緩存110和二級高速緩存112之類的一個或者多個級別的高速緩存、處理器核心114和寄存器116。示例的處理器核心114可以包括運算邏輯單元(alu)、浮點數(shù)單元(fpu)、數(shù)字信號處理核心(dsp核心)或者它們的任何組合。示例的存儲器控制器118可以與處理器104一起使用,或者在一些實現(xiàn)中,存儲器控制器218可以是處理器104的一個內部部分。

      取決于期望的配置,系統(tǒng)存儲器106可以是任意類型的存儲器,包括但不限于:易失性存儲器(諸如ram)、非易失性存儲器(諸如rom、閃存等)或者它們的任何組合。系統(tǒng)存儲器106可以包括操作系統(tǒng)120、一個或者多個程序122以及程序數(shù)據(jù)124。在一些實施方式中,程序122可以被配置為在操作系統(tǒng)上由一個或者多個處理器104利用程序數(shù)據(jù)124執(zhí)行指令。

      計算設備100還可以包括有助于從各種接口設備(例如,輸出設備142、外設接口144和通信設備146)到基本配置102經(jīng)由總線/接口控制器130的通信的接口總線140。示例的輸出設備142包括圖形處理單元148和音頻處理單元150。它們可以被配置為有助于經(jīng)由一個或者多個a/v端口152與諸如顯示器或者揚聲器之類的各種外部設備進行通信。示例外設接口144可以包括串行接口控制器154和并行接口控制器156,它們可以被配置為有助于經(jīng)由一個或者多個i/o端口158和諸如輸入設備(例如,鍵盤、鼠標、筆、語音輸入設備、觸摸輸入設備)或者其他外設(例如打印機、掃描儀等)之類的外部設備進行通信。示例的通信設備146可以包括網(wǎng)絡控制器160,其可以被布置為便于經(jīng)由一個或者多個通信端口164與一個或者多個其他計算設備162通過網(wǎng)絡通信鏈路的通信。

      網(wǎng)絡通信鏈路可以是通信介質的一個示例。通信介質通??梢泽w現(xiàn)為在諸如載波或者其他傳輸機制之類的調制數(shù)據(jù)信號中的計算機可讀指令、數(shù)據(jù)結構、程序模塊,并且可以包括任何信息遞送介質?!罢{制數(shù)據(jù)信號”可以這樣的信號,它的數(shù)據(jù)集中的一個或者多個或者它的改變可以在信號中編碼信息的方式進行。作為非限制性的示例,通信介質可以包括諸如有線網(wǎng)絡或者專線網(wǎng)絡之類的有線介質,以及諸如聲音、射頻(rf)、微波、紅外(ir)或者其它無線介質在內的各種無線介質。這里使用的術語計算機可讀介質可以包括存儲介質和通信介質二者。

      圖2示出了根據(jù)本發(fā)明的一個示例性實施方式的計算設備100的網(wǎng)絡環(huán)境的示意圖。如圖2所示,計算設備100可以從網(wǎng)絡中獲取用戶數(shù)據(jù),例如用戶在金融網(wǎng)站的注冊數(shù)據(jù),在銀行的銀行卡數(shù)據(jù)、征信數(shù)據(jù),在網(wǎng)絡貸款平臺的貸款數(shù)據(jù)等等。同時,計算設備100還與數(shù)據(jù)存儲設備相耦接,數(shù)據(jù)存儲設備可以實現(xiàn)為諸如neo4j和titan之類的圖數(shù)據(jù)庫(graphdatabase)管理系統(tǒng),并可以使用圖(graph)的概念來描述數(shù)據(jù)模型,把數(shù)據(jù)保存為圖中的節(jié)點以及節(jié)點之間的關系。這里,數(shù)據(jù)存儲設備存儲用戶關系圖,用戶關系圖以圖的形式存儲著多個用戶的用戶數(shù)據(jù)。

      圖3示出了根據(jù)本發(fā)明的一個示例性實施方式的用戶關系圖的示意圖。如圖3所示,用戶關系圖包括多個節(jié)點和連接關聯(lián)節(jié)點的邊,其中節(jié)點具有多種類型,例如可以包括人員節(jié)點、電話節(jié)點、貸款節(jié)點、貸款平臺節(jié)點、和銀行卡節(jié)點、公司節(jié)點等等。

      每個類型的節(jié)點均有相應的屬性值,例如人員節(jié)點具有以下屬性值:該人員的姓名、身份證號碼、銀行征信評分和是否存在惡意行為的標記,電話節(jié)點具有以下屬性值:該電話號碼的數(shù)值,貸款節(jié)點具有以下屬性值:該筆貸款的貸款時間、貸款金額和逾期次數(shù),貸款平臺具有以下屬性值:該貸款平臺的名稱,銀行卡節(jié)點具有以下屬性值:該銀行卡號碼,公司節(jié)點具有以下屬性值:該公司名稱??梢岳斫獾?,節(jié)點的類型也可以通過在節(jié)點的屬性值中添加指示其類型的標記來區(qū)分,例如人員節(jié)點的類型標記為1、電話節(jié)點的類型標記為2,以此類推。

      節(jié)點之間的邊可以指示兩個節(jié)點之間的關系,例如兩個人員節(jié)點之間的邊指示兩個人員之間存在關聯(lián),人員節(jié)點與電話節(jié)點之間的邊指示該電話屬于該人員,人員節(jié)點與公司節(jié)點之間的邊指示該人員任職于該公司,人員節(jié)點與貸款節(jié)點之間的邊指示該筆貸款屬于該人員,公司節(jié)點與電話節(jié)點之間的邊指示該電話屬于該公司,兩個電話節(jié)點之間的邊指示兩個電話之間存在呼叫記錄,貸款節(jié)點與貸款平臺節(jié)點之間的邊指示該筆貸款交易于該貸款平臺。

      計算設備100的一個或多個程序122包括用于執(zhí)行根據(jù)本發(fā)明的基于用戶關系圖來預測用戶是否存在惡意行為的方法中任一方法的指令。

      圖4示出了根據(jù)本發(fā)明一個示例性實施方式的基于用戶關系圖來預測用戶是否存在惡意行為的方法400的流程圖。如圖4所示,基于用戶關系圖來預測用戶是否存在惡意行為的方法400始于步驟s410。

      在步驟s410中,獲取用戶的用戶數(shù)據(jù),用戶數(shù)據(jù)可以包括用戶及其關聯(lián)人的基礎信息(姓名、身份證號碼、銀行征信評分等等)、用戶及其關聯(lián)人的電話號碼、用戶的通話記錄、用戶的貸款信息(貸款的貸款時間、貸款金額、逾期次數(shù))和貸款所在的貸款平臺、以及銀行卡信息等等。

      而后在步驟s420中,根據(jù)所獲取的用戶數(shù)據(jù)來更新數(shù)據(jù)存儲設備中的用戶關系圖。

      具體地,根據(jù)本發(fā)明的一個實施方式,對于用戶數(shù)據(jù)中的用戶及其每個關聯(lián)人,均可以將其作為一個人員節(jié)點添加至用戶關系圖,并將基礎信息中所包含的該人員的姓名、身份證號碼、銀行征信評分作為該人員節(jié)點的屬性值。然后建立用戶對應的人員節(jié)點與每個該用戶的關聯(lián)人對應的人員節(jié)點之間的邊。

      根據(jù)本發(fā)明的一個實施方式,對于用戶數(shù)據(jù)中的每個電話號碼,均可以將其作為一個電話節(jié)點添加至用戶關系圖,并將電話號碼數(shù)值作為該電話節(jié)點的屬性值。然后,可以建立該電話節(jié)點與該電話號碼所屬的人員對應的人員節(jié)點之間的邊。還可以根據(jù)用戶的通話記錄,建立用戶的電話號碼對應的電話節(jié)點與每個該電話號碼呼叫過的電話號碼對應的電話節(jié)點之間的邊。

      根據(jù)本發(fā)明的一個實施方式,對于用戶數(shù)據(jù)中的每個貸款平臺,均可以將其作為一個貸款平臺節(jié)點添加至用戶關系圖,并將該貸款平臺名稱作為該貸款平臺節(jié)點的屬性值。對于用戶數(shù)據(jù)中的每筆貸款,均可以將其作為一個貸款節(jié)點添加至用戶關系圖,并將貸款信息中所包含的該筆貸款的貸款時間、貸款金額、逾期次數(shù)作為該貸款節(jié)點的屬性值。然后,可以建立該貸款節(jié)點與該筆貸款所屬的人員對應的人員節(jié)點之間的邊,建立該貸款節(jié)點與該筆貸款所在的貸款平臺對應的貸款平臺節(jié)點之間的邊。

      根據(jù)本發(fā)明的一個實施方式,對于用戶數(shù)據(jù)中的每個銀行卡,均可以將其作為一個銀行卡節(jié)點添加至用戶關系圖,并將該銀行卡號碼作為該銀行卡節(jié)點的屬性值。然后可以建立該銀行卡節(jié)點與該銀行卡所屬的人員對應的人員節(jié)點之間的邊。

      當然,在進行上述更新之前,可以先查找在用戶關系圖中是否已存在需要更新的節(jié)點和邊,若已存在,則對該節(jié)點和邊不進行更新。

      更新完用戶關系圖之后,在步驟s430中,在更新后的用戶關系圖中,根據(jù)與用戶相關的節(jié)點以及通過邊與該節(jié)點相連的其它節(jié)點的屬性值,提取該用戶的至少一類關聯(lián)特征。

      根據(jù)本發(fā)明的一個實施方式,關聯(lián)特征可以包括以下中的至少一類:

      1)與該人員節(jié)點連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù);

      2)與該人員節(jié)點連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點占比;

      3)與該人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的總數(shù);

      4)與該人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的平均數(shù);

      5)與人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的中位數(shù);

      6)與該人員節(jié)點連接的電話節(jié)點的個數(shù);

      7)與該人員節(jié)點連接的電話節(jié)點,其連接的所有人員節(jié)點的個數(shù);

      8)與該人員節(jié)點連接的電話節(jié)點,其連接的所有人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù);

      9)與該人員節(jié)點連接的電話節(jié)點,其連接的電話節(jié)點連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點的個數(shù);

      10)與該人員節(jié)點連接的電話節(jié)點,其連接的電話節(jié)點連接的人員節(jié)點的銀行征信評分的均值;

      11)與該人員節(jié)點連接的電話節(jié)點,其連接的電話節(jié)點連接的人員節(jié)點的銀行征信評分的中位數(shù);

      12)與該人員節(jié)點連接的銀行卡節(jié)點的個數(shù);

      13)與該人員節(jié)點連接的銀行卡節(jié)點連接的人員節(jié)點個數(shù);

      14)與該人員節(jié)點連接的銀行卡節(jié)點連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù);

      15)與該人員節(jié)點連接的貸款節(jié)點中貸款時間位于預定時間范圍內的貸款節(jié)點個數(shù);

      16)與該人員節(jié)點連接的貸款節(jié)點中貸款時間位于預定時間范圍內的貸款節(jié)點連接的貸款平臺個數(shù);

      17)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù);

      18)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點占比;

      19)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的總數(shù);

      20)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的平均數(shù);

      21)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的中位數(shù);

      22)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點的銀行征信評分的均值;

      23)與該人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點的銀行征信評分的中位數(shù)。

      其中,預定時間范圍可以為近一個月、近三個月、近半年、以及近一年。

      而后在步驟s440中,根據(jù)所提取的關聯(lián)特征,利用預先建立的分類模型來確定該用戶是否存在惡意行為。

      其中,分類模型可以是邏輯回歸模型,該邏輯回歸模型可以由用戶的至少一類關聯(lián)特征以及該用戶是否存在惡意行為的預測結果為訓練樣本而訓練得到,并可以體現(xiàn)為以下公式:

      其中,hθ(x)為預測函數(shù),并表示用戶存在惡意行為的概率,θ為回歸參數(shù),x為由所提取的關聯(lián)特征所構成的特征向量,cost(hθ(x),y)為邏輯回歸模型基于對數(shù)似然估計的損失函數(shù),j(θ)為邏輯回歸模型的簡化損失函數(shù),m為訓練樣本條數(shù)。其中,可以針對每一條訓練樣本進行迭代,并采用梯度下降法對簡化損失函數(shù)j(θ)求解,得到使得簡化損失函數(shù)j(θ)最小化的回歸參數(shù)θ。

      可以將關聯(lián)特征所構成的特征向量輸入經(jīng)訓練得到的邏輯回歸模型,輸出得到相應的p(y=1|x)。若p(y=1|x)>0.5,則預測用戶存在惡意行為,若p(y=1|x)≤0.5,則預測用戶不存在惡意行為。當然,上述公式所示的分類模型僅是示例性的,本領域技術人員也可以采用其他公式來定義分類模型,本發(fā)明對此不做限制。

      分類模型還可以是隨機森林模型。隨機森林模型包括多個分類樹,并可以由用戶的至少一類關聯(lián)特征以及該用戶是否存在惡意行為的預測結果為訓練樣本而訓練得到,其訓練過程如下:

      首先,從包括預定數(shù)目個訓練樣本的樣本集中采取有放回的抽樣,以構造多個子樣本集,每個子樣本集的數(shù)目等于分類樹的數(shù)目,其包含的樣本數(shù)目與原始的樣本集相同。并且,不同子樣本集中的樣本可以重復,同一個子樣本集中的樣本也可以重復。

      而后,利用多個子樣本集分別來訓練多個分類樹,每個子樣本集對應一個分類樹。最初,分類樹上只有一個節(jié)點,即根節(jié)點。訓練分類樹的過程即為節(jié)點分裂的過程,即從根節(jié)點開始依次對子樣本集進行劃分。但分類樹的每一個分裂過程并未用到所有的關聯(lián)特征,而是從所有的關聯(lián)特征中隨機選取一定的關聯(lián)特征,之后再在隨機選取的特征中選取最優(yōu)的特征。這樣能夠使得隨機森林中的分類樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。

      其中,分類樹可以根據(jù)如下算法來進行最優(yōu)特征的選取,從而完成分裂:id3算法(采用信息增益最大的特征)、c4.5算法(采用信息增益比選擇特征)、以及cart算法(利用基尼指數(shù)最小化準則進行特征選擇)。

      以cart算法為例,對于每一個節(jié)點:將分裂前后gini指數(shù)增量最大的屬性作為最佳分裂屬性,將分裂后的gini指數(shù)最小的分裂條件作為最佳分裂條件,根據(jù)最佳分裂屬性和最佳分裂條件對該節(jié)點進行分裂,產生兩個子節(jié)點;當滿足設置的終止條件時,停止節(jié)點的分裂。

      根據(jù)本發(fā)明的一個實施方式,分裂前的gini指數(shù)按照以下公式計算:

      其中,d為節(jié)點所包括的樣本集,k為樣本集中所包括的預測結果的類別的數(shù)量,本發(fā)明中,預測結果包括存在和不存在惡意行為,則k=2。pi為預測結果的類別為i的樣本數(shù)量占d中所包括的所有樣本的比例。

      分裂后的gini指數(shù)按照以下公式計算:

      其中,a表示分裂屬性,j表示分裂條件,d1、d2分別為按照分裂屬性a和分裂條件j對節(jié)點進行分裂所得的兩個子節(jié)點所包括的樣本集,|d1|、|d2|為樣本集d1、d2中所包括的樣本的數(shù)量。

      分裂后的gini指數(shù)增量按照以下公式計算:

      δgini(a)=gini(d)-ginia(d)

      其中,a為分裂屬性,ginia(d)為giniaj(d)中的最小值。

      終止條件則可以是以下條件中的任意一種:節(jié)點中所包括的樣本的預測結果類別均相同;樹的深度達到了預設的深度閾值;節(jié)點中所包括的樣本的數(shù)量小于預設的第一閾值;節(jié)點中所包括的樣本數(shù)量的平方與分裂后的兩個子節(jié)點中的樣本數(shù)量的平方和之差小于預設的第二閾值。具體采用哪一種終止條件以及上述第一閾值和第二閾值的取值均可以由本領域技術人員根據(jù)實際情況自行設置,本發(fā)明對此不做限制。

      最后,將訓練得到的多個分類樹組成隨機森林模型,可以將關聯(lián)特征所構成的特征向量輸入隨機森林模型,用戶是否存在惡意行為的預測結果根據(jù)分類樹的投票多少而定。例如,假設隨機森林模型包括3個分類樹,其中2個分類樹的分類結果是存在惡意行為,1個分類樹的分類結果是不存在惡意行為,那么隨機森林模型的分類結果則是存在惡意行為。

      這樣,就通過提取出的與用戶關聯(lián)的、多維的關聯(lián)特征,采用高效的分類模型,實現(xiàn)了對惡意行為的準確檢測,并對團伙異常、信息偽造等相對復雜的惡意行為,也有很好的檢測效果。

      根據(jù)本發(fā)明的另一個實施方式,構成輸入分類模型的特征向量的特征不僅可以包括從用戶關系圖中提取的關聯(lián)特征,還可以包括從用戶數(shù)據(jù)中提取的基礎特征。那么,方法400還可以包括步驟:在用戶數(shù)據(jù)中,提取該用戶的基礎特征,其中,基礎特征至少包括以下一類:

      24)性別;

      25)學歷級別;

      26)年齡;

      27)職業(yè);

      28)地域;

      29)銀行征信評分;

      30)信用卡近半年的逾期次數(shù);

      31)信用卡近一年的逾期次數(shù);

      32)貸款近半年逾期次數(shù)。

      而后根據(jù)所提取的基礎特征和關聯(lián)特征,利用預先建立的分類模型來確定該用戶是否存在惡意行為。例如,輸入分類模型的特征向量可以包括上述特征1)~32)。

      應當理解,這里描述的各種技術可結合硬件或軟件,或者它們的組合一起實現(xiàn)。從而,本發(fā)明的方法和設備,或者本發(fā)明的方法和設備的某些方面或部分可采取嵌入有形媒介,例如軟盤、cd-rom、硬盤驅動器或者其它任意機器可讀的存儲介質中的程序代碼(即指令)的形式,其中當程序被載入諸如計算機之類的機器,并被該機器執(zhí)行時,該機器變成實踐本發(fā)明的設備。

      在程序代碼在可編程計算機上執(zhí)行的情況下,計算設備一般包括處理器、處理器可讀的存儲介質(包括易失性和非易失性存儲器和/或存儲元件),至少一個輸入裝置,和至少一個輸出裝置。其中,存儲器被配置用于存儲程序代碼;處理器被配置用于根據(jù)該存儲器中存儲的該程序代碼中的指令,執(zhí)行本發(fā)明的各種方法。

      以示例而非限制的方式,計算機可讀介質包括計算機存儲介質和通信介質。計算機可讀介質包括計算機存儲介質和通信介質。計算機存儲介質存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)等信息。通信介質一般以諸如載波或其它傳輸機制等已調制數(shù)據(jù)信號來體現(xiàn)計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù),并且包括任何信息傳遞介質。以上的任一種的組合也包括在計算機可讀介質的范圍之內。

      應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發(fā)明的單獨實施例。

      本領域那些技術人員應當理解在本文所公開的示例中的設備的模塊或單元或組件可以布置在如該實施例中所描述的設備中,或者可替換地可以定位在與該示例中的設備不同的一個或多個設備中。前述示例中的模塊可以組合為一個模塊或者此外可以分成多個子模塊。

      本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

      本發(fā)明還可以包括:a9、如a1-8中任一個所述的方法,其中,所述關聯(lián)特征至少包括以下一類:與所述人員節(jié)點連接的銀行卡節(jié)點連接的人員節(jié)點個數(shù);以及與所述人員節(jié)點連接的銀行卡節(jié)點連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù)。a10、如a1-9中任一個所述的方法,其中,所述關聯(lián)特征至少包括以下一類:與所述人員節(jié)點連接的貸款節(jié)點中貸款時間位于預定時間范圍內的貸款節(jié)點個數(shù);以及與所述人員節(jié)點連接的貸款節(jié)點中貸款時間位于預定時間范圍內的貸款節(jié)點連接的貸款平臺個數(shù)。a11、如a1-10中任一個所述的方法,其中,所述關聯(lián)特征至少包括以下一類:與所述人員節(jié)點連接的人員節(jié)點,其連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點個數(shù);其連接的人員節(jié)點中標記為存在惡意行為的人員節(jié)點占比;其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的總數(shù);其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的平均數(shù);其連接的人員節(jié)點連接的貸款節(jié)點的逾期次數(shù)的中位數(shù);其連接的人員節(jié)點的銀行征信評分的均值;以及其連接的人員節(jié)點的銀行征信評分的中位數(shù)。a12、如a1-11中任一個所述的方法,其中,分類模型包括邏輯回歸模型。a13、如a12所述的方法,其中,所述邏輯回歸模型的公式如下:

      其中,hθ(x)為預測函數(shù),并表示用戶存在惡意行為的概率,θ為回歸參數(shù),x為用戶的關聯(lián)特征所構成的特征向量,cost(hθ(x),y)為邏輯回歸模型基于對數(shù)似然估計的損失函數(shù),j(θ)為邏輯回歸模型的簡化損失函數(shù),m為訓練樣本條數(shù)。a14、如a1-11中任一個所述的方法,其中,所述分類模型包括隨機森林模型。a15、如a14所述的方法,其中,所述隨機森林模型包括多個分類樹,所述分類樹按照以下步驟訓練:對于每一個節(jié)點:將分裂前后gini指數(shù)增量最大的屬性作為最佳分裂屬性,將分裂后的gini指數(shù)最小的分裂條件作為最佳分裂條件,根據(jù)最佳分裂屬性和最佳分裂條件對該節(jié)點進行分裂,產生兩個子節(jié)點;當滿足設置的終止條件時,停止節(jié)點的分裂。a16、如a15所述的方法,其中,分裂前的gini指數(shù)按照以下公式計算:

      分裂后的gini指數(shù)按照以下公式計算:

      gini指數(shù)增量按照以下公式計算:

      δgini(a)=gini(d)-ginia(d)

      其中,a為分裂屬性,d為節(jié)點所包括的樣本集,k為樣本集中所包括的預測結果類別的數(shù)量,pi為預測結果類別為i的樣本數(shù)量占d中所包括的所有樣本的比例;ginia(d)為giniaj(d)中的最小值,j表示分裂條件,d1、d2分別為按照分裂屬性a和分裂條件j對節(jié)點進行分裂所得的兩個子節(jié)點所包括的樣本集,|d1|、|d2|為樣本集d1、d2中所包括的樣本的數(shù)量。a17、如a15或16所述的方法,其中,所述終止條件可以是以下條件中的任意一種:節(jié)點中所包括的樣本的預測結果類別均相同;樹的深度達到了預設的深度閾值;節(jié)點中所包括的樣本的數(shù)量小于預設的第一閾值;節(jié)點中所包括的樣本數(shù)量的平方與分裂后的兩個子節(jié)點中的樣本數(shù)量的平方和之差小于預設的第二閾值。a18、如a1-17中任一個所述的方法,其中,所述方法還包括:在用戶數(shù)據(jù)中,提取該用戶的基礎特征;根據(jù)所提取的基礎特征和關聯(lián)特征,利用預先建立的分類模型來確定該用戶是否存在惡意行為。a19、如a18所述的方法,其中,基礎特征至少包括以下一類:性別、學歷級別、年齡、職業(yè)、地域、銀行征信評分、信用卡近半年和近一年的逾期次數(shù)、貸款近半年逾期次數(shù)。

      此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

      此外,所述實施例中的一些在此被描述成可以由計算機系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實施的方法或方法元素的組合。因此,具有用于實施所述方法或方法元素的必要指令的處理器形成用于實施該方法或方法元素的裝置。此外,裝置實施例的在此所述的元素是如下裝置的例子:該裝置用于實施由為了實施該發(fā)明的目的的元素所執(zhí)行的功能。

      如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實例,并且并不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。

      盡管根據(jù)有限數(shù)量的實施例描述了本發(fā)明,但是受益于上面的描述,本技術領域內的技術人員明白,在由此描述的本發(fā)明的范圍內,可以設想其它實施例。此外,應當注意,本說明書中使用的語言主要是為了可讀性和教導的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權利要求書的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權利要求書限定。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1