国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)的制作方法

      文檔序號:10725754閱讀:569來源:國知局
      基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)的制作方法
      【專利摘要】提供了一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)。所述方法包括:(A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄;(B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度;(C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。通過上述方式,能夠克服現(xiàn)有的數(shù)據(jù)審核方式耗費(fèi)人力的缺陷。
      【專利說明】
      基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)
      技術(shù)領(lǐng)域
      [0001 ]本發(fā)明總體說來涉及數(shù)據(jù)科學(xué)領(lǐng)域,更具體地說,涉及一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]在現(xiàn)實(shí)生活中,常常需要對諸如客戶信息、項(xiàng)目信息、資產(chǎn)信息、交易信息等各種數(shù)據(jù)進(jìn)行審核,以基于審核結(jié)果來作出業(yè)務(wù)判斷。
      [0003]例如,在諸如申請事務(wù)、辦理交易、報名活動等各種場景中,會產(chǎn)生(手動填寫或通過其他方式來產(chǎn)生)關(guān)于身份、資產(chǎn)、聯(lián)系信息、事務(wù)特性、交易特性或活動特性等各種屬性信息。相應(yīng)地,有關(guān)單位、組織和機(jī)構(gòu)等需對這些信息數(shù)據(jù)進(jìn)行審核,從而作出關(guān)于申請是否合規(guī)、交易是否合法或是否準(zhǔn)許參加活動等的業(yè)務(wù)判斷。
      [0004]以申請信用卡作為示例,有關(guān)方面會審核申請者填寫的信息數(shù)據(jù)是否真實(shí)準(zhǔn)確,以判斷出申請者是否涉及欺詐行為。通常,為了審核出信用卡申請者是否為期望不當(dāng)獲利的欺詐客戶,信用卡中心的工作人員會人工核實(shí)申請者填寫的工作單位、職務(wù)、收入、聯(lián)系電話等信息是否準(zhǔn)確。具體說來,工作人員需要首先核查工作單位的信息是否有效,然后聯(lián)絡(luò)該單位的相關(guān)負(fù)責(zé)人員以詢問申請者的真實(shí)職務(wù)和收入等。此外,工作人員還需要手動撥打申請者或其緊急聯(lián)系人的聯(lián)系電話以核實(shí)該號碼是否屬于申請者或其緊急聯(lián)系人本人等。
      [0005]從上述示例可以看出,傳統(tǒng)的審核方式需要耗費(fèi)較大的人力成本,而且被審核主體可以通過串通等方式輕易地迷惑審核人員,從而達(dá)到不正當(dāng)?shù)哪康摹?br>
      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的示例性實(shí)施例旨在克服現(xiàn)有的數(shù)據(jù)審核方式耗費(fèi)人力的缺陷。
      [0007]根據(jù)本發(fā)明的示例性實(shí)施例,提供一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法,包括:(A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度;(C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0008]可選地,在所述方法中,所述至少一條驗(yàn)證數(shù)據(jù)記錄可分別產(chǎn)生自各個數(shù)據(jù)源和/或抽取自所述待審核數(shù)據(jù)記錄。
      [0009]可選地,在所述方法中,步驟(B)可包括:(BI)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息;(B2)針對所述每一個屬性,分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異,并且,基于針對所述至少一個屬性計(jì)算出的所有差異的集合來獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。
      [0010]可選地,在所述方法中,在步驟(B2)中,可通過基于所述每一個屬性的屬性信息分別與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差值各自的統(tǒng)計(jì)分布特性來分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異。
      [0011 ]可選地,在所述方法中,在步驟(BI)中,可將所述至少一條驗(yàn)證數(shù)據(jù)記錄分別輸入基于機(jī)器學(xué)習(xí)而訓(xùn)練出的至少一個屬性驗(yàn)證模型,以預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。
      [0012]可選地,在所述方法中,在步驟(BI)中,可將產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括的關(guān)于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關(guān)于所述每一個屬性的至少一個預(yù)測屬性信息。
      [0013]可選地,在所述方法中,在步驟(BI)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;并且,在所述驗(yàn)證數(shù)據(jù)記錄本身不包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0014]可選地,在所述方法中,在步驟(BI)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異未超出預(yù)設(shè)的時間間隔時,可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異超出所述時間間隔時,可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0015]優(yōu)選地,在步驟(C)之后,所述方法可還包括:(D)將預(yù)測結(jié)果連同屬性真實(shí)度特征展示給用戶。
      [0016]優(yōu)選地,在所述方法中,在步驟(D)中,可向用戶展示與屬性真實(shí)度特征之中的較大差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息;并且/或者,可向用戶展示與屬性真實(shí)度特征之中起主要預(yù)測作用的差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息。
      [0017]優(yōu)選地,在所述方法中,在步驟(D)中,可將所展示的預(yù)測屬性信息顯示在所述預(yù)測屬性信息的統(tǒng)計(jì)分布示圖中。
      [0018]優(yōu)選地,在步驟(D)之后,所述方法可還包括:(E)從用戶接收關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果的反饋,其中,所述反饋被用于訓(xùn)練目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型。
      [0019]優(yōu)選地,在所述方法中,在步驟(C)中,可根據(jù)計(jì)算出的屬性真實(shí)度特征連同基于待審核數(shù)據(jù)記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0020]根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng),包括:數(shù)據(jù)獲取裝置,用于獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息;屬性驗(yàn)證裝置,用于基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度;目標(biāo)預(yù)測裝置,用于利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0021]優(yōu)選地,在所述系統(tǒng)中,所述至少一條驗(yàn)證數(shù)據(jù)記錄可分別產(chǎn)生自各個數(shù)據(jù)源和/或抽取自所述待審核數(shù)據(jù)記錄。
      [0022]優(yōu)選地,在所述系統(tǒng)中,屬性驗(yàn)證裝置可基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息;并且,屬性驗(yàn)證裝置可針對所述每一個屬性,分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異,并基于針對所述至少一個屬性計(jì)算出的所有差異的集合來獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。
      [0023]優(yōu)選地,在所述系統(tǒng)中,屬性驗(yàn)證裝置可針對所述每一個屬性,通過基于所述每一個屬性的屬性信息分別與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差值各自的統(tǒng)計(jì)分布特性來分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異。
      [0024]優(yōu)選地,在所述系統(tǒng)中,屬性驗(yàn)證裝置可將所述至少一條驗(yàn)證數(shù)據(jù)記錄分別輸入基于機(jī)器學(xué)習(xí)而訓(xùn)練出的至少一個屬性驗(yàn)證模型,以預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。
      [0025]優(yōu)選地,在所述系統(tǒng)中,屬性驗(yàn)證裝置可將產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括的關(guān)于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關(guān)于所述每一個屬性的至少一個預(yù)測屬性信息。
      [0026]優(yōu)選地,在所述系統(tǒng)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗(yàn)證裝置可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;并且,在所述驗(yàn)證數(shù)據(jù)記錄本身不包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗(yàn)證裝置可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0027]優(yōu)選地,在所述系統(tǒng)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異未超出預(yù)設(shè)的時間間隔時,屬性驗(yàn)證裝置可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異超出所述時間間隔時,屬性驗(yàn)證裝置可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0028]優(yōu)選地,所述系統(tǒng)可還包括:展示裝置,用于將預(yù)測結(jié)果連同屬性真實(shí)度特征展示給用戶。
      [0029]優(yōu)選地,在所述系統(tǒng)中,展示裝置可還向用戶展示與屬性真實(shí)度特征之中的較大差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息;并且/或者,展示裝置可還向用戶展示與屬性真實(shí)度特征之中起主要預(yù)測作用的差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息。
      [0030]優(yōu)選地,在所述系統(tǒng)中,展示裝置可將所展示的預(yù)測屬性信息顯示在所述預(yù)測屬性信息的統(tǒng)計(jì)分布示圖中。
      [0031]優(yōu)選地,所述系統(tǒng)可還包括:反饋裝置,用于從用戶接收關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果的反饋,其中,所述反饋被用于訓(xùn)練目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型。
      [0032]優(yōu)選地,在所述系統(tǒng)中,目標(biāo)預(yù)測裝置可根據(jù)計(jì)算出的屬性真實(shí)度特征連同基于待審核數(shù)據(jù)記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0033]根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的計(jì)算裝置,包括存儲部件和處理器,存儲部件中存儲有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度;
      (C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0034]可選地,在所述計(jì)算裝置中,所述至少一條驗(yàn)證數(shù)據(jù)記錄可分別產(chǎn)生自各個數(shù)據(jù)源和/或抽取自所述待審核數(shù)據(jù)記錄。
      [0035]可選地,在所述計(jì)算裝置中,步驟(B)可包括:(BI)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息;(B2)針對所述每一個屬性,分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異,并且,基于針對所述至少一個屬性計(jì)算出的所有差異的集合來獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。
      [0036]可選地,在所述計(jì)算裝置中,在步驟(B2)中,可通過基于所述每一個屬性的屬性信息分別與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差值各自的統(tǒng)計(jì)分布特性來分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異。
      [0037]可選地,在所述計(jì)算裝置中,在步驟(BI)中,可將所述至少一條驗(yàn)證數(shù)據(jù)記錄分別輸入基于機(jī)器學(xué)習(xí)而訓(xùn)練出的至少一個屬性驗(yàn)證模型,以預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。
      [0038]可選地,在所述計(jì)算裝置中,在步驟(BI)中,可將產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括的關(guān)于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關(guān)于所述每一個屬性的至少一個預(yù)測屬性信息。
      [0039]可選地,在所述計(jì)算裝置中,在步驟(BI)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;并且,在所述驗(yàn)證數(shù)據(jù)記錄本身不包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0040]可選地,在所述計(jì)算裝置中,在步驟(BI)中,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異未超出預(yù)設(shè)的時間間隔時,可將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異超出所述時間間隔時,可將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0041]可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,在步驟(C)之后,還可執(zhí)行以下步驟:(D)將預(yù)測結(jié)果連同屬性真實(shí)度特征展示給用戶。
      [0042]可選地,在所述計(jì)算裝置中,在步驟(D)中,可向用戶展示與屬性真實(shí)度特征之中的較大差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息;并且/或者,可向用戶展示與屬性真實(shí)度特征之中起主要預(yù)測作用的差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息。
      [0043]可選地,在所述計(jì)算裝置中,在步驟(D)中,可將所展示的預(yù)測屬性信息顯示在所述預(yù)測屬性信息的統(tǒng)計(jì)分布示圖中。
      [0044]可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,在步驟(D)之后,還可執(zhí)行以下步驟:(E)從用戶接收關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果的反饋,其中,所述反饋被用于訓(xùn)練目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型。
      [0045]可選地,在所述計(jì)算裝置中,在步驟(C)中,可根據(jù)計(jì)算出的屬性真實(shí)度特征連同基于待審核數(shù)據(jù)記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0046]在根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法及系統(tǒng)中,能夠借助額外的驗(yàn)證數(shù)據(jù)記錄,基于機(jī)器學(xué)習(xí)模型來實(shí)現(xiàn)對待審核數(shù)據(jù)記錄的自動審核。
      【附圖說明】
      [0047]從下面結(jié)合附圖對本發(fā)明實(shí)施例的詳細(xì)描述中,本發(fā)明的這些和/或其他方面和優(yōu)點(diǎn)將變得更加清楚并更容易理解,其中:
      [0048]圖1示出根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng)的框圖;
      [0049]圖2示出根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法的流程圖;
      [0050]圖3示出根據(jù)本發(fā)明示例性實(shí)施例的獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征的示例;以及
      [0051]圖4示出根據(jù)本發(fā)明另一示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng)的框圖。
      【具體實(shí)施方式】
      [0052]為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明的示例性實(shí)施例作進(jìn)一步詳細(xì)說明。
      [0053]在本發(fā)明的示例性實(shí)施例中,通過以下方式來實(shí)現(xiàn)數(shù)據(jù)審核:利用基于機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練出的目標(biāo)預(yù)測模型,針對融合有待審核數(shù)據(jù)和驗(yàn)證數(shù)據(jù)兩者的預(yù)測樣本特征給出關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。機(jī)器學(xué)習(xí)是人工智能研究發(fā)展到一定階段的必然產(chǎn)物,其致力于通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常以“數(shù)據(jù)”形式存在,通過機(jī)器學(xué)習(xí)算法,可從數(shù)據(jù)中產(chǎn)生“模型”,也就是說,將經(jīng)驗(yàn)數(shù)據(jù)提供給機(jī)器學(xué)習(xí)算法,就能基于這些經(jīng)驗(yàn)數(shù)據(jù)產(chǎn)生模型,在面對新的情況時,模型會提供相應(yīng)的判斷,即,預(yù)測結(jié)果。機(jī)器學(xué)習(xí)可被實(shí)現(xiàn)為“有監(jiān)督學(xué)習(xí)”、“無監(jiān)督學(xué)習(xí)”或“半監(jiān)督學(xué)習(xí)”的形式,應(yīng)注意,本發(fā)明對具體的機(jī)器學(xué)習(xí)算法并不進(jìn)行特定限制。此外,還應(yīng)注意,在訓(xùn)練和應(yīng)用所述目標(biāo)預(yù)測模型的過程中,還可利用統(tǒng)計(jì)算法、業(yè)務(wù)規(guī)則和/或?qū)<抑R等,以進(jìn)一步提高預(yù)測結(jié)果的準(zhǔn)確性。
      [0054]圖1示出根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng)的框圖。具體說來,所述預(yù)測系統(tǒng)提出了一種基于待審核數(shù)據(jù)和驗(yàn)證數(shù)據(jù)來預(yù)測數(shù)據(jù)審核目標(biāo)的處理體系結(jié)構(gòu),其中,驗(yàn)證數(shù)據(jù)被用于驗(yàn)證待審核數(shù)據(jù)的屬性信息。圖1所示的系統(tǒng)可全部通過計(jì)算機(jī)程序以軟件方式來實(shí)現(xiàn),也可由專門的硬件裝置來實(shí)現(xiàn),還可通過軟硬件結(jié)合的方式來實(shí)現(xiàn)。相應(yīng)地,組成圖1所示的系統(tǒng)的各個裝置可以是僅依靠計(jì)算機(jī)程序來實(shí)現(xiàn)相應(yīng)功能的虛擬模塊,也可以是依靠硬件結(jié)構(gòu)來實(shí)現(xiàn)所述功能的通用或?qū)S闷骷?,還可以是運(yùn)行有相應(yīng)計(jì)算機(jī)程序的處理器等。利用所述系統(tǒng),不僅能夠幫助用戶自動審核數(shù)據(jù),而且在自動審核過程中,能夠充分利用驗(yàn)證數(shù)據(jù)的原始信息,從而較為有效地預(yù)測出審核目標(biāo)。
      [0055]如圖1所示,數(shù)據(jù)獲取裝置10用于獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息。
      [0056]根據(jù)本發(fā)明的示例性實(shí)施例,數(shù)據(jù)審核是指對待審核數(shù)據(jù)記錄的屬性信息內(nèi)容進(jìn)行審查,這些數(shù)據(jù)可以是客戶手動填寫的數(shù)據(jù)、客戶在線提交的數(shù)據(jù)、預(yù)先存儲或生成的數(shù)據(jù)、也可以是從外部接收的數(shù)據(jù)。這些數(shù)據(jù)可涉及客戶自身的信息,例如,身份、學(xué)歷、職業(yè)、資產(chǎn)、聯(lián)系方式等信息?;蛘撸@些數(shù)據(jù)也可涉及業(yè)務(wù)相關(guān)項(xiàng)目的信息,例如,關(guān)于買賣合同的交易額、交易雙方、標(biāo)的物、交易地點(diǎn)等信息。應(yīng)注意,本發(fā)明的示例性實(shí)施例中提到的信息內(nèi)容可涉及任何對象或事務(wù)在某方面的表現(xiàn)或性質(zhì),而不限于對個人、物體、組織、單位、機(jī)構(gòu)、項(xiàng)目、事件等進(jìn)行限定或描述。實(shí)際上,任何能夠通過對其進(jìn)行審核而作出業(yè)務(wù)判斷的信息數(shù)據(jù)均可應(yīng)用于本發(fā)明的示例性實(shí)施例。
      [0057]具體說來,在本發(fā)明的示例性實(shí)施例中,對數(shù)據(jù)進(jìn)行審核,主要是為了基于數(shù)據(jù)的屬性信息來作出業(yè)務(wù)判斷。也就是說,這里的數(shù)據(jù)審核目標(biāo)旨在作出某項(xiàng)業(yè)務(wù)判斷,而該業(yè)務(wù)判斷的依據(jù)是被審核的屬性信息。
      [0058]作為示例,這里的業(yè)務(wù)判斷可以是關(guān)于屬性信息的真實(shí)性的結(jié)論,S卩,判斷待審核數(shù)據(jù)記錄是否涉及欺詐。相應(yīng)地,數(shù)據(jù)審核目標(biāo)可指示信用卡申請的欺詐判斷、信用卡交易的欺詐判斷等。例如,申請信用卡的客戶需要填寫自己的身份、職業(yè)、學(xué)歷、收入、聯(lián)系方式、緊急聯(lián)系人等各種信息數(shù)據(jù),通過對填寫的這些信息數(shù)據(jù)進(jìn)行審核可判斷該客戶是否為欺詐客戶。又例如,在客戶試圖使用信用卡付款來完成交易時,可對交易相關(guān)的信息進(jìn)行審核以判斷該交易是否為欺詐交易。此外,又例如,為了在大量項(xiàng)目(例如,申請資助的項(xiàng)目等)中判斷出欺詐項(xiàng)目,可對關(guān)于項(xiàng)目的各項(xiàng)信息進(jìn)行審核以判斷出該項(xiàng)目是否為旨在獲得不當(dāng)?shù)美珜?shí)際上并不實(shí)施的欺詐項(xiàng)目。
      [0059]作為另一示例,所述業(yè)務(wù)判斷也可以是依據(jù)屬性信息的真實(shí)性(或信息真實(shí)性與信息內(nèi)容等的組合)來作出的進(jìn)一步判斷,例如,判斷待審核數(shù)據(jù)記錄所涉及的信用狀況等。相應(yīng)地,數(shù)據(jù)審核目標(biāo)可指示信用卡的額度判斷。
      [0060]也就是說,本發(fā)明的示例性實(shí)施例并不限于對信息數(shù)據(jù)進(jìn)行審核以判斷出相關(guān)數(shù)據(jù)記錄所涉及的欺詐風(fēng)險,任何可基于信息數(shù)據(jù)的審核結(jié)果作出業(yè)務(wù)判斷的情形均適用于本發(fā)明的示例性實(shí)施例。相應(yīng)地,在本發(fā)明的示例性實(shí)施例中,可對各種格式和類型的信息數(shù)據(jù)進(jìn)行審核,以作出相應(yīng)的業(yè)務(wù)判斷。這里,審核的目的在于對各項(xiàng)信息數(shù)據(jù)的真實(shí)性進(jìn)行度量以判斷出相關(guān)數(shù)據(jù)記錄的真實(shí)性,或進(jìn)而基于各信息數(shù)據(jù)的真實(shí)度來得到其他的業(yè)務(wù)決策。
      [0061]數(shù)據(jù)獲取裝置10可獲取不同來源的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),例如,文本數(shù)據(jù)或數(shù)值數(shù)據(jù)等。具體說來,數(shù)據(jù)獲取裝置10可獲取待審核的數(shù)據(jù),如上所述,待審核數(shù)據(jù)記錄可包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息。除此之外,數(shù)據(jù)獲取裝置10還可獲取用于幫助驗(yàn)證待審核數(shù)據(jù)的驗(yàn)證數(shù)據(jù),具體說來,數(shù)據(jù)獲取裝置10可獲取一條或多條驗(yàn)證數(shù)據(jù)記錄,這些驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證待審核數(shù)據(jù)的至少一個屬性信息的真實(shí)性。這里,驗(yàn)證數(shù)據(jù)可包括來源于審核部門內(nèi)部的其他信息數(shù)據(jù)以及來源于外部數(shù)據(jù)源的信息數(shù)據(jù)(例如,來源于數(shù)據(jù)提供商的數(shù)據(jù)、來源于互聯(lián)網(wǎng)(例如,社交網(wǎng)站)的數(shù)據(jù)、來源于移動運(yùn)營商的數(shù)據(jù)、來源于APP運(yùn)營商的數(shù)據(jù)、來源于快遞公司的數(shù)據(jù)、來源于信用機(jī)構(gòu)的數(shù)據(jù)等等),除此之夕卜,驗(yàn)證數(shù)據(jù)還可以是由從待審核數(shù)據(jù)的各個屬性信息中抽取出來的一部分屬性信息所組成的數(shù)據(jù),即,可以是從待審核數(shù)據(jù)的各個屬性信息中至少排除作為驗(yàn)證目標(biāo)的屬性信息之后得到的驗(yàn)證數(shù)據(jù)。這些待審核數(shù)據(jù)和驗(yàn)證數(shù)據(jù)可通過輸入裝置輸入到數(shù)據(jù)獲取裝置10,或者由數(shù)據(jù)獲取裝置10根據(jù)已有的數(shù)據(jù)來自動生成,或者可由數(shù)據(jù)獲取裝置10從網(wǎng)絡(luò)上(例如,網(wǎng)絡(luò)上的存儲介質(zhì)(例如,數(shù)據(jù)倉庫))獲得,此外,諸如服務(wù)器的中間數(shù)據(jù)交換裝置可有助于數(shù)據(jù)獲取裝置10從外部數(shù)據(jù)源獲取相應(yīng)的數(shù)據(jù)。這里,獲取的數(shù)據(jù)可被數(shù)據(jù)獲取裝置10中的文本分析模塊等數(shù)據(jù)轉(zhuǎn)換模塊轉(zhuǎn)換為容易處理的格式。應(yīng)注意,數(shù)據(jù)獲取裝置10可被配置為由軟件、硬件和/或固件組成的各個模塊,這些模塊中的某些模塊或全部模塊可被集成為一體或共同協(xié)作以完成特定功能。
      [0062]屬性驗(yàn)證裝置20用于基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度。
      [0063]這里,作為示例,對于產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄,屬性驗(yàn)證裝置20可在機(jī)器學(xué)習(xí)模型的特征層面將這樣的驗(yàn)證數(shù)據(jù)記錄與待審核數(shù)據(jù)記錄進(jìn)行融合,使得驗(yàn)證數(shù)據(jù)記錄的原始信息在預(yù)測數(shù)據(jù)審核目標(biāo)這方面能夠得到充分的利用。另外,對于抽取自待審核數(shù)據(jù)記錄自身的驗(yàn)證數(shù)據(jù)記錄,屬性驗(yàn)證裝置20可通過利用這樣的驗(yàn)證數(shù)據(jù)記錄進(jìn)行自洽性校驗(yàn),來方便地預(yù)測數(shù)據(jù)審核目標(biāo)。應(yīng)注意,根據(jù)本發(fā)明的示例性實(shí)施例,上述兩種驗(yàn)證數(shù)據(jù)記錄可單獨(dú)或共同使用。
      [0064]具體說來,屬性驗(yàn)證裝置20可利用一條或多條驗(yàn)證數(shù)據(jù)來推算出待審核數(shù)據(jù)記錄的至少一個屬性信息的真實(shí)程度。也就是說,屬性驗(yàn)證裝置20可利用驗(yàn)證數(shù)據(jù)記錄所包括的屬性信息的內(nèi)容來衡量待審核數(shù)據(jù)記錄中的某個屬性信息的真實(shí)度。作為示例,如果驗(yàn)證數(shù)據(jù)記錄已包括關(guān)于待審核數(shù)據(jù)記錄中的某個屬性的屬性信息,則可直接利用驗(yàn)證數(shù)據(jù)記錄中的屬性信息來衡量所述待審核數(shù)據(jù)記錄中的相關(guān)屬性信息的真實(shí)度。例如,在需要對待審核數(shù)據(jù)記錄中的客戶性別進(jìn)行審核的情況下,如果驗(yàn)證數(shù)據(jù)記錄已包括客戶的性別信息,則可直接利用驗(yàn)證數(shù)據(jù)記錄的客戶性別信息來衡量待審核數(shù)據(jù)記錄匯總的客戶性別信息的真實(shí)程度。
      [0065]此外,根據(jù)本發(fā)明的示例性實(shí)施例,如果驗(yàn)證數(shù)據(jù)記錄并不包括關(guān)于待審核數(shù)據(jù)記錄中的某個屬性的屬性信息,則可通過預(yù)先訓(xùn)練出的機(jī)器學(xué)習(xí)模型,基于驗(yàn)證數(shù)據(jù)記錄來預(yù)測出待審核數(shù)據(jù)記錄中的相關(guān)屬性信息,進(jìn)而基于預(yù)測值來衡量待審核數(shù)據(jù)記錄中的相關(guān)屬性信息的真實(shí)度。例如,在需要對待審核的信用卡申請信息數(shù)據(jù)記錄中的客戶收入進(jìn)行審核的情況下,如果同樣來自銀行的驗(yàn)證數(shù)據(jù)記錄并不包括客戶收入,而是包括了客戶的一些資產(chǎn)信息或日常交易信息,則可通過預(yù)先訓(xùn)練出的利用這些資產(chǎn)信息或日常交易信息來預(yù)測客戶收入的機(jī)器學(xué)習(xí)模型,基于驗(yàn)證數(shù)據(jù)記錄的資產(chǎn)信息或日常交易信息特征來獲得客戶收入預(yù)測值,進(jìn)而基于客戶收入預(yù)測值來衡量待審核數(shù)據(jù)記錄中的客戶收入的真實(shí)度。
      [0066]通過上述方式,屬性驗(yàn)證裝置20可利用每一條獲取的驗(yàn)證數(shù)據(jù)記錄,分別計(jì)算待審核數(shù)據(jù)記錄中相應(yīng)的一個或多個屬性信息的真實(shí)度,進(jìn)而將利用所有驗(yàn)證數(shù)據(jù)記錄針對相關(guān)屬性信息計(jì)算出的所有真實(shí)度整合為待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,這個屬性真實(shí)度特征用于從整體上反映所使用的全部驗(yàn)證數(shù)據(jù)記錄針對待審核數(shù)據(jù)記錄的真實(shí)度交叉驗(yàn)證結(jié)果。
      [0067]目標(biāo)預(yù)測裝置30用于利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0068]具體說來,在獲取了待審核數(shù)據(jù)記錄的屬性真實(shí)度特征之后,目標(biāo)預(yù)測裝置30可使用之前基于機(jī)器學(xué)習(xí)技術(shù)所訓(xùn)練出的機(jī)器學(xué)習(xí)模型(即,目標(biāo)預(yù)測模型)來預(yù)測相應(yīng)待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。這里,所述目標(biāo)預(yù)測模型是基于機(jī)器學(xué)習(xí)算法訓(xùn)練得到的,具體說來,可使用大量的歷史數(shù)據(jù)作為訓(xùn)練樣本,基于特定的機(jī)器學(xué)習(xí)算法,訓(xùn)練出目標(biāo)預(yù)測模型,其中,所述歷史數(shù)據(jù)包括歷史上存在的屬性真實(shí)度特征和相應(yīng)的數(shù)據(jù)審核目標(biāo),屬性真實(shí)度特征作為訓(xùn)練樣本的特征,相應(yīng)的數(shù)據(jù)審核目標(biāo)作為標(biāo)記(label)。
      [0069]相應(yīng)地,當(dāng)新的待審核數(shù)據(jù)記錄的屬性真實(shí)度特征到來時,目標(biāo)預(yù)測裝置30可將該屬性真實(shí)度特征作為預(yù)測樣本的特征輸入到目標(biāo)預(yù)測模型,即可得到所述新的待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0070]應(yīng)理解,上述裝置可被分別配置為執(zhí)行特定功能的軟件、硬件、固件或上述項(xiàng)的任意組合。例如,這些裝置可對應(yīng)于專用的集成電路,也可對應(yīng)于純粹的軟件代碼,還可對應(yīng)于軟件與硬件相結(jié)合的單元或模塊。此外,這些裝置所實(shí)現(xiàn)的一個或多個功能也可由物理實(shí)體設(shè)備(例如,處理器、客戶端或服務(wù)器等)中的組件來統(tǒng)一執(zhí)行。
      [0071]可以看出,屬性驗(yàn)證裝置20和目標(biāo)預(yù)測裝置30構(gòu)成了一個用于利用驗(yàn)證數(shù)據(jù)來預(yù)測待審核數(shù)據(jù)的數(shù)據(jù)審核目標(biāo)的雙層架構(gòu),在此架構(gòu)下,針對目標(biāo)預(yù)測模型而言,待審核數(shù)據(jù)和驗(yàn)證數(shù)據(jù)在特征層面進(jìn)行了融合和/或?qū)崿F(xiàn)了自洽性校驗(yàn),使得驗(yàn)證數(shù)據(jù)和/或待審核數(shù)據(jù)的原始信息得到了充分的利用。這種方式與傳統(tǒng)的外部數(shù)據(jù)使用方式相比,在驗(yàn)證階段設(shè)置了統(tǒng)一的屬性真實(shí)度特征計(jì)算方式,使得擴(kuò)充數(shù)據(jù)源變得更加容易和便利,由于驗(yàn)證數(shù)據(jù)僅用于獲取待審核數(shù)據(jù)的真實(shí)度,而非直接作為預(yù)測數(shù)據(jù)審核目標(biāo)的特征,因此能夠在充分地交叉融合各個數(shù)據(jù)原始信息的同時,保持預(yù)測模型的設(shè)計(jì)一致性。
      [0072]除此之外,在使用其他來源驗(yàn)證數(shù)據(jù)來獲取待審核數(shù)據(jù)記錄的屬性真實(shí)度特征的過程中,作為優(yōu)選方式,還可進(jìn)一步引入基于機(jī)器學(xué)習(xí)技術(shù)的預(yù)測方式,也就是說,即使產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身并不包括待審核的屬性信息,也可通過機(jī)器學(xué)習(xí)方式來得到相應(yīng)的預(yù)測值,進(jìn)而基于該預(yù)測值來推算待審核屬性信息的真實(shí)度,相應(yīng)地,可有助于引入各種來源的外部數(shù)據(jù)來幫助完成最終的數(shù)據(jù)審核目標(biāo)。
      [0073]以下參照圖2來描述根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法的流程圖。這里,作為示例,圖2所示的方法可由圖1所示的預(yù)測系統(tǒng)來執(zhí)行,也可完全通過計(jì)算機(jī)程序以軟件方式實(shí)現(xiàn),還可通過特定配置的計(jì)算裝置來執(zhí)行圖2所示的方法。
      [0074]為了描述方便,假設(shè)圖2所示的方法由圖1所示的預(yù)測系統(tǒng)來執(zhí)行,并且,以關(guān)于數(shù)據(jù)記錄真實(shí)性的欺詐作為數(shù)據(jù)審核目標(biāo)的示例,相應(yīng)地,所述方法可適用于從待審核數(shù)據(jù)中檢測或識別出潛在的欺詐風(fēng)險,該欺詐風(fēng)險的潛在性可被表示為出現(xiàn)欺詐情形的概率,這里的欺詐情形可包括但不限于冒名申請信用卡、盜用他人信用卡、偽造他人信息進(jìn)行交易等,例如,可利用[O,I ]之間的數(shù)值來表示這種欺詐概率的大小。
      [0075]如圖所示,在步驟SlO中,由數(shù)據(jù)獲取裝置10獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷。
      [0076]這里,作為示例,每條待審核數(shù)據(jù)記錄可對應(yīng)于一個待審核項(xiàng)(例如,事件或?qū)ο?,相應(yīng)地,待審核數(shù)據(jù)記錄可包括各種反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)(即,屬性)的屬性字段??蓪@些屬性字段進(jìn)行相應(yīng)的篩選或處理,以進(jìn)一步獲取用于進(jìn)行機(jī)器學(xué)習(xí)的樣本特征。這里,數(shù)據(jù)獲取裝置10可通過手動、半自動或全自動的方式來采集數(shù)據(jù),或?qū)Σ杉脑紨?shù)據(jù)進(jìn)行初步處理以生成可作為樣本特征的各種處理后的屬性信息。作為示例,數(shù)據(jù)獲取裝置10可批量地采集數(shù)據(jù)。
      [0077]這里,數(shù)據(jù)獲取裝置10可通過輸入裝置(例如,工作站)接收用戶手動輸入的待審核數(shù)據(jù)記錄。此外,數(shù)據(jù)獲取裝置10可通過全自動的方式從數(shù)據(jù)源系統(tǒng)地取出待審核數(shù)據(jù)記錄,例如,通過以軟件、固件、硬件或其組合實(shí)現(xiàn)的定時器機(jī)制來系統(tǒng)地請求數(shù)據(jù)源并從響應(yīng)中得到所請求的數(shù)據(jù)。所述數(shù)據(jù)源可包括一個或多個數(shù)據(jù)庫或其他服務(wù)器??山?jīng)由內(nèi)部網(wǎng)絡(luò)和/或外部網(wǎng)絡(luò)來實(shí)現(xiàn)全自動獲取數(shù)據(jù)的方式,其中可包括通過互聯(lián)網(wǎng)來傳送加密的數(shù)據(jù)。在服務(wù)器、數(shù)據(jù)庫、網(wǎng)絡(luò)等被配置為彼此通信的情況下,可在沒有人工干預(yù)的情況下自動進(jìn)行數(shù)據(jù)采集,但應(yīng)注意,在這種方式下仍舊可存在一定的用戶輸入操作。半自動方式介于手動方式與全自動方式之間。半自動方式與全自動方式的區(qū)別在于由用戶激活的觸發(fā)機(jī)制代替了定時器機(jī)制。在這種情況下,在接收到特定的用戶輸入的情況下,才產(chǎn)生提取數(shù)據(jù)的請求。每次獲取數(shù)據(jù)時,優(yōu)選地,可將捕獲的數(shù)據(jù)存儲在非易失性存儲器中。作為示例,可利用數(shù)據(jù)倉庫來存儲在獲取期間采集的原始數(shù)據(jù)以及處理后的數(shù)據(jù)。
      [0078]與現(xiàn)有的數(shù)據(jù)審核方案僅獲取和分析待審核的數(shù)據(jù)信息不同,根據(jù)本發(fā)明的示例性實(shí)施例,數(shù)據(jù)獲取裝置10還獲取至少一條驗(yàn)證數(shù)據(jù)記錄,其用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息。
      [0079]作為示例,所述至少一條驗(yàn)證數(shù)據(jù)記錄可分別產(chǎn)生自各個數(shù)據(jù)源。具體說來,這些驗(yàn)證數(shù)據(jù)的來源可以與待審核數(shù)據(jù)的來源相同,例如,為了審核客戶向銀行申請開通信用卡時填寫的信息數(shù)據(jù),例如,收入、學(xué)歷、職務(wù)、資產(chǎn)情況等,作為示例,數(shù)據(jù)獲取裝置10可獲取該客戶在該銀行的其他數(shù)據(jù)記錄,例如,貸款記錄、日常交易數(shù)據(jù)等。此外,所述驗(yàn)證數(shù)據(jù)也可以是來源于其他私有源或公共源的數(shù)據(jù),例如,來源于數(shù)據(jù)提供商的數(shù)據(jù)、來源于互聯(lián)網(wǎng)(例如,社交網(wǎng)站)的數(shù)據(jù)、來源于移動運(yùn)營商的數(shù)據(jù)、來源于APP運(yùn)營商的數(shù)據(jù)、來源于快遞公司的數(shù)據(jù)、來源于信用機(jī)構(gòu)的數(shù)據(jù)等等。相應(yīng)地,為了審核客戶向銀行申請開通信用卡時填寫的信息數(shù)據(jù),數(shù)據(jù)獲取裝置10還可獲取該客戶在社交網(wǎng)站、快遞公司、移動運(yùn)營商、APP運(yùn)營商的數(shù)據(jù)記錄等。
      [0080]在本發(fā)明的示例性實(shí)施例中,借助于其他驗(yàn)證數(shù)據(jù)在特征層面的融合,能夠充分地利用這些數(shù)據(jù)的原始信息來共同對待審核數(shù)據(jù)的真實(shí)性進(jìn)行審核。這里,數(shù)據(jù)獲取裝置10可針對待審核的數(shù)據(jù)記錄從待審核數(shù)據(jù)的數(shù)據(jù)源和/或至少一個其他數(shù)據(jù)源查詢并取回相應(yīng)的驗(yàn)證數(shù)據(jù)記錄;或者,數(shù)據(jù)獲取裝置100可從維持來自所述待審核數(shù)據(jù)的數(shù)據(jù)源和/或至少一個其他數(shù)據(jù)源的數(shù)據(jù)記錄的數(shù)據(jù)倉庫中查詢并取回相應(yīng)的驗(yàn)證數(shù)據(jù)記錄。
      [0081]此外,作為另一示例,所述至少一條驗(yàn)證數(shù)據(jù)記錄還可分別抽取自所述待審核數(shù)據(jù)記錄,相應(yīng)地,數(shù)據(jù)獲取裝置10可通過從待審核數(shù)據(jù)記錄中排除預(yù)定屬性的屬性信息來抽取出與所述預(yù)定屬性相應(yīng)的驗(yàn)證數(shù)據(jù)記錄,該驗(yàn)證數(shù)據(jù)記錄可用于針對所述預(yù)定屬性的屬性信息進(jìn)行自洽性檢驗(yàn)。例如,為了審核客戶向銀行申請開通信用卡時填寫的信息數(shù)據(jù)中的收入,假設(shè)待審核數(shù)據(jù)記錄包括收入、學(xué)歷、職務(wù)和資產(chǎn)情況這四個屬性信息,則相應(yīng)的驗(yàn)證數(shù)據(jù)記錄可包括排除了收入之外的學(xué)歷、職務(wù)和資產(chǎn)情況這三個屬性信息之中的至少一個屬性信息。可以看出,除了所述預(yù)定屬性之外,還可從待審核數(shù)據(jù)記錄中排除其他一些屬性信息而僅保留后續(xù)可用作屬性驗(yàn)證模型的預(yù)測樣本特征的屬性信息。應(yīng)注意,實(shí)踐中的待審核數(shù)據(jù)記錄往往包含更多的屬性信息,針對每一種待審核的屬性信息,可相應(yīng)地通過抽取方式來產(chǎn)生至少一條驗(yàn)證數(shù)據(jù)記錄。此外,根據(jù)本發(fā)明的示例性實(shí)施例,驗(yàn)證數(shù)據(jù)記錄還可同時包含產(chǎn)生自數(shù)據(jù)源的數(shù)據(jù)記錄和抽取自待審核數(shù)據(jù)記錄的數(shù)據(jù)記錄。
      [0082]可選地,數(shù)據(jù)獲取裝置10可借助硬件集群(諸如Hadoop集群)對采集到的數(shù)據(jù)進(jìn)行存儲和/或處理,例如,存儲、分類和其他離線操作。此外,數(shù)據(jù)獲取裝置10也可對采集的數(shù)據(jù)進(jìn)行在線的流處理。
      [0083]作為示例,數(shù)據(jù)獲取裝置10中可包括文本分析模塊等數(shù)據(jù)轉(zhuǎn)換模塊,用于將文本等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為更易于使用的結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行進(jìn)一步的處理或引用。基于文本的數(shù)據(jù)可包括電子郵件、文檔、網(wǎng)頁、圖形、電子數(shù)據(jù)表、呼叫中心日志、可疑交易報告等。
      [0084]根據(jù)本發(fā)明的示例性實(shí)施例,作為可選方式,數(shù)據(jù)獲取裝置10可對獲取的數(shù)據(jù)記錄進(jìn)行特征工程處理,即,對數(shù)據(jù)記錄的屬性字段值進(jìn)行處理以獲取可用于進(jìn)行機(jī)器學(xué)習(xí)的樣本特征的屬性信息。例如,數(shù)據(jù)獲取裝置10可對接收到的數(shù)據(jù)記錄的原始屬性字段進(jìn)行諸如離散化、字段組合、提取部分字段值、取整等各種特征工程的處理,從而將原始屬性值轉(zhuǎn)換為可作為機(jī)器學(xué)習(xí)特征的屬性信息。
      [0085]在步驟S20中,由屬性驗(yàn)證裝置20基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度。
      [0086]具體說來,屬性驗(yàn)證裝置20可針對待審核數(shù)據(jù)記錄的任一屬性信息,基于一條或多條驗(yàn)證數(shù)據(jù)記錄來相應(yīng)地獲取該屬性信息的一個或多個真實(shí)度。
      [0087]假設(shè)待審核數(shù)據(jù)記錄的集合為X,每條待審核數(shù)據(jù)記錄可具有d個屬性信息,S卩,第i個待審核數(shù)據(jù)記錄XiGX,可表示為Xi = (Xil ;xi2;…;Xid),其中,i和d為正整數(shù)。這里,針對X1的第j個屬性信息X小I彡j彡d,屬性驗(yàn)證裝置20可基于來自第k種來源(包括產(chǎn)生驗(yàn)證數(shù)據(jù)的數(shù)據(jù)源和/或從待審核數(shù)據(jù)中抽取驗(yàn)證數(shù)據(jù)的某種特定方式)的驗(yàn)證數(shù)據(jù)Mk之中的第i個驗(yàn)證數(shù)據(jù)記錄Mk1來獲取Xlj的一個真實(shí)度,其中,l<k<K,K為驗(yàn)證數(shù)據(jù)的來源的總數(shù),并且,MkjPx^分別指示同一個示例(S卩,第i個示例)在不同數(shù)據(jù)來源(S卩,第k種來源和待審核數(shù)據(jù)源)的相應(yīng)數(shù)據(jù)記錄。
      [0088]作為示例,屬性驗(yàn)證裝置20可基于至少一條驗(yàn)證數(shù)據(jù)記錄來預(yù)測關(guān)于待審核數(shù)據(jù)記錄的至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。
      [0089]例如,屬性驗(yàn)證裝置20可將產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括的關(guān)于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關(guān)于所述每一個屬性的至少一個預(yù)測屬性信息。比如,為了獲得關(guān)于客戶申請信用卡時填寫的信息數(shù)據(jù)記錄之中的學(xué)歷信息的預(yù)測值,如果某條來自招聘網(wǎng)站的驗(yàn)證數(shù)據(jù)(例如,該客戶的簡歷數(shù)據(jù))中包括學(xué)歷信息,則屬性驗(yàn)證裝置20可將客戶簡歷數(shù)據(jù)中的學(xué)歷信息作為關(guān)于該客戶待審核的申請信息之中的學(xué)歷信息的預(yù)測值。
      [0090]又例如,屬性驗(yàn)證裝置20可將所述至少一條驗(yàn)證數(shù)據(jù)記錄分別輸入基于機(jī)器學(xué)習(xí)而訓(xùn)練出的至少一個屬性驗(yàn)證模型,以預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。這里的驗(yàn)證數(shù)據(jù)記錄可以是產(chǎn)生自另外的數(shù)據(jù)來源的數(shù)據(jù)記錄,其可以包含或不包含關(guān)于待預(yù)測的屬性的屬性信息。或者,這里的驗(yàn)證數(shù)據(jù)也可以是從待審核數(shù)據(jù)記錄中抽取的數(shù)據(jù)記錄,其優(yōu)選地不包含待預(yù)測的屬性信息。
      [0091]具體說來,屬性驗(yàn)證裝置20可使用預(yù)先訓(xùn)練出的一個或多個屬性驗(yàn)證模型來預(yù)測待審核數(shù)據(jù)記錄的每一個屬性的屬性信息。這里,屬性驗(yàn)證模型被訓(xùn)練為基于特定驗(yàn)證數(shù)據(jù)來預(yù)測出相應(yīng)的待審核屬性信息。作為示例,對于來自外部數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄而言,這里的屬性驗(yàn)證模型的特征可以是經(jīng)過哈希變換的驗(yàn)證數(shù)據(jù)的屬性信息,通過這種方式,數(shù)據(jù)獲取裝置10從外部數(shù)據(jù)源獲取的驗(yàn)證數(shù)據(jù)可以是經(jīng)過哈希變換的非明文數(shù)據(jù),有助于保證數(shù)據(jù)共享時的安全性和隱秘性。
      [0092]例如,針對每一個Xij,屬性驗(yàn)證裝置20可選取預(yù)先訓(xùn)練出的基于第k種來源的驗(yàn)證數(shù)據(jù)Mk來預(yù)測第j個屬性信息的屬性驗(yàn)證模型,將所述驗(yàn)證數(shù)據(jù)Mk之中的第i個驗(yàn)證數(shù)據(jù)記錄MkHt為預(yù)測樣本輸入所述屬性驗(yàn)證模型,得到關(guān)于X1的第j個屬性信息的預(yù)測值Mklj。這里,任何一條驗(yàn)證數(shù)據(jù)記錄可用于分別針對一個或多個待審核的屬性信息進(jìn)行預(yù)測,優(yōu)選地,抽取自待審核數(shù)據(jù)記錄的驗(yàn)證數(shù)據(jù)記錄僅能夠用于對其所不具有的屬性信息進(jìn)行預(yù)測。相應(yīng)地,屬性驗(yàn)證裝置20可基于K種來源之中的部分或全部來源的驗(yàn)證數(shù)據(jù)來分別獲取各個屬性信息的預(yù)測值,也就是說,針對不同屬性的屬性信息,屬性驗(yàn)證裝置20可使用相應(yīng)的一個或多個屬性驗(yàn)證模型,這些屬性驗(yàn)證模型用于基于來自一個或多個來源的驗(yàn)證數(shù)據(jù)來預(yù)測所述屬性信息。
      [0093]應(yīng)注意,屬性驗(yàn)證裝置20獲取預(yù)測屬性信息的方式并不受限于上述兩種。作為優(yōu)選方式,屬性驗(yàn)證裝置20還可將上述兩種方式進(jìn)行有效的融合。
      [0094]作為示例,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗(yàn)證裝置20將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;并且,在所述驗(yàn)證數(shù)據(jù)記錄本身不包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗(yàn)證裝置20將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0095]例如,在上述基于簡歷數(shù)據(jù)來預(yù)測信用卡申請信息中的學(xué)歷屬性值的示例中,也可存在基于簡歷數(shù)據(jù)來預(yù)測學(xué)歷屬性的屬性驗(yàn)證模型。相應(yīng)地,屬性驗(yàn)證裝置20可通過判斷某條具體的簡歷數(shù)據(jù)記錄中是否包括了學(xué)歷字段來選擇相應(yīng)的預(yù)測方式。例如,如果某條簡歷數(shù)據(jù)記錄中已經(jīng)包括了學(xué)歷信息,則屬性驗(yàn)證裝置20可直接將該簡歷數(shù)據(jù)記錄中的學(xué)歷信息作為待審核的學(xué)歷信息的預(yù)測值;而如果該條簡歷數(shù)據(jù)記錄中缺失了學(xué)歷信息,則屬性驗(yàn)證裝置20可將該條簡歷數(shù)據(jù)記錄輸入預(yù)先訓(xùn)練出的基于簡歷來預(yù)測學(xué)歷的屬性驗(yàn)證模型,以通過機(jī)器學(xué)習(xí)預(yù)測的方式來得到關(guān)于學(xué)歷信息的預(yù)測值。
      [0096]此外,由于在利用驗(yàn)證數(shù)據(jù)記錄來預(yù)測待審核數(shù)據(jù)的屬性信息時,很可能遇到時間不匹配的問題,例如,簡歷數(shù)據(jù)記錄可能是較長時間之前生成的信息,已無法準(zhǔn)確反映客戶申請信用卡時的收入信息,因此,作為優(yōu)選方式,屬性驗(yàn)證裝置20在執(zhí)行預(yù)測時,可基于時間因素來選擇相應(yīng)的預(yù)測方式。
      [0097]具體說來,在將輸入任一屬性驗(yàn)證模型的產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括關(guān)于所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異未超出預(yù)設(shè)的時間間隔時,屬性驗(yàn)證裝置20將所述驗(yàn)證數(shù)據(jù)記錄本身所包括的所述屬性信息作為所述任一屬性驗(yàn)證模型將預(yù)測的預(yù)測屬性信息;在生成所述驗(yàn)證數(shù)據(jù)記錄的時間點(diǎn)與生成待審核數(shù)據(jù)記錄的時間點(diǎn)之間的差異超出所述時間間隔時,屬性驗(yàn)證裝置20將所述驗(yàn)證數(shù)據(jù)記錄輸入所述任一屬性驗(yàn)證模型。
      [0098]例如,在基于簡歷數(shù)據(jù)來預(yù)測信用卡申請信息中的收入字段的情況下,即使某條具體的簡歷數(shù)據(jù)記錄本身包括了收入字段,屬性驗(yàn)證裝置20還將判斷生成這條簡歷時間記錄的時間與生成待審核的申請信息的時間之間的差異是否超出了預(yù)設(shè)的時間間隔。如果信息生成的時間差未超出所述時間間隔,則屬性驗(yàn)證裝置20可直接將該簡歷數(shù)據(jù)記錄中的收入信息作為待審核的收入信息的預(yù)測值;而如果信息生成的時間差超出了所述時間間隔,則屬性驗(yàn)證裝置20可將該條簡歷數(shù)據(jù)記錄輸入預(yù)先訓(xùn)練出的基于簡歷數(shù)據(jù)來預(yù)測收入的屬性驗(yàn)證模型,以通過機(jī)器學(xué)習(xí)預(yù)測的方式來得到關(guān)于收入信息的預(yù)測值。
      [0099]在獲得關(guān)于各個待審核屬性之中的每一個屬性的屬性預(yù)測信息之后,針對所述每一個屬性,屬性驗(yàn)證裝置20可分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異,并且,基于針對所述至少一個屬性計(jì)算出的所有差異的集合來獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。這里,作為優(yōu)選方式,可通過基于所述每一個屬性的屬性信息分別與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差值各自的統(tǒng)計(jì)分布特性來分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異。通過這種方式,可使得所得到的屬性真實(shí)度特征能夠直接反應(yīng)出針對各屬性信息的各種預(yù)測差值的統(tǒng)計(jì)特性,即,更為有效地將預(yù)測差值轉(zhuǎn)換為機(jī)器學(xué)習(xí)的相關(guān)特征,從而進(jìn)一步確保了屬性驗(yàn)證模型的預(yù)測性能。
      [0100]例如,針對第i個待審核數(shù)據(jù)記錄X1的第j屬性信息Xlp屬性驗(yàn)證裝置20可分別計(jì)算基于一個或多個驗(yàn)證數(shù)據(jù)記錄Mk^預(yù)測出的一個或多個屬性值Mklj與Xlj之間的差異,以作為XU的一個或多個真實(shí)度差異。在針對所有待審核屬性計(jì)算出其相應(yīng)的各個差異之后,屬性驗(yàn)證裝置20可將所有差異的集合作為待審核數(shù)據(jù)記錄X1的屬性真實(shí)度特征。
      [0101]圖3示出根據(jù)本發(fā)明示例性實(shí)施例的獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征的示例。在該示例中,驗(yàn)證數(shù)據(jù)記錄全部來自于各個數(shù)據(jù)源,而不包含抽取自待審核數(shù)據(jù)記錄的驗(yàn)證數(shù)據(jù)記錄。應(yīng)注意,上述方式僅作為本發(fā)明的示例性實(shí)施例,本發(fā)明所采用的驗(yàn)證數(shù)據(jù)記錄并不受限于此。
      [0102]可以看出,在圖3所示的示例中,待審核數(shù)據(jù)記錄可以是客戶申請信用卡時填寫的個人信息,例如,可包括客戶的性別、住址、學(xué)歷等屬性信息。在這種情況下,屬性驗(yàn)證裝置20可利用各種外部數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄來獲取上述待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,在這一過程中,實(shí)現(xiàn)了客戶的待審核數(shù)據(jù)與該客戶的其他驗(yàn)證數(shù)據(jù)之間的充分融合,進(jìn)而可在后續(xù)更有效地對待審核數(shù)據(jù)記錄進(jìn)行審核。
      [0103]作為示例,屬性驗(yàn)證裝置20可利用社交網(wǎng)站數(shù)據(jù)來獲取關(guān)于客戶性別和學(xué)歷的預(yù)估真實(shí)度(該預(yù)估真實(shí)度用于表示待審核屬性信息與預(yù)測屬性信息之間的差異)。這里,應(yīng)注意,根據(jù)本發(fā)明的示例性實(shí)施例,屬性驗(yàn)證裝置20可根據(jù)需要來利用某一來源的驗(yàn)證數(shù)據(jù)來獲取待審核數(shù)據(jù)的一個或多個屬性信息的預(yù)估真實(shí)度,而不受任何限制。例如,屬性驗(yàn)證裝置20也可僅利用社交網(wǎng)站數(shù)據(jù)來獲取關(guān)于客戶性別的預(yù)估真實(shí)度,也可利用社交網(wǎng)站數(shù)據(jù)來分別獲取關(guān)于客戶所有屬性信息的預(yù)估真實(shí)度。此外,屬性驗(yàn)證裝置20對于其他驗(yàn)證數(shù)據(jù)的使用方式也是如此。
      [0104]以下將屬性驗(yàn)證裝置20利用社交網(wǎng)站數(shù)據(jù)來獲取客戶性別的預(yù)估真實(shí)度作為示例進(jìn)行描述。
      [0105]具體說來,假設(shè)社交網(wǎng)站為第k種驗(yàn)證數(shù)據(jù)來源,針對第i個客戶的待審核數(shù)據(jù)記錄^,為了得到其第j個屬性Xlj(即,性別)的預(yù)估真實(shí)度,屬性驗(yàn)證裝置20可獲取由數(shù)據(jù)獲取裝置10提供的相應(yīng)社交網(wǎng)站數(shù)據(jù)記錄Mki,這里,Xi和Mki可具有相同的用戶ID。在獲取Mki之后,作為示例,屬性驗(yàn)證裝置20可將Mk1作為預(yù)測樣本,輸入預(yù)先訓(xùn)練出的用于基于社交網(wǎng)站數(shù)據(jù)來預(yù)測客戶性別的模型,以得到預(yù)測出的第i個客戶的性別Mklj。相應(yīng)地,屬性驗(yàn)證裝置20可基于Mkij與Xij之間的差值來得到Xij的一個預(yù)估真實(shí)度Tkij,例如,Tkij = fkj (Mkij-XlJ),這里,函數(shù)fw可用于將Mklj與Xlj之間的差值轉(zhuǎn)換為可適當(dāng)?shù)胤从痴鎸?shí)度的數(shù)值。作為優(yōu)選方式,函數(shù)fw可被設(shè)計(jì)為反映出(Mklj-Xlj)在整個或部分客戶示例空間的統(tǒng)計(jì)分布。然而,應(yīng)注意,本發(fā)明并不受限于此,而是可以按照任何適當(dāng)?shù)姆绞絹碓O(shè)計(jì)函數(shù)fkp以滿足模型運(yùn)算和/或模型性能的需求。例如,對于性別這一屬性而言,當(dāng)Mkij與Xij相等(S卩,Mkij-Xij等于O)時,Tkij = ?(Mkij-xij) = al ;當(dāng)Mkij與Xij不相等(即,Mkij_xij不等于O)時,Tkij = fkj(Mklj-XU) = a2,其中,al和a2均可為便于進(jìn)行數(shù)值運(yùn)算的常數(shù)。
      [0106]應(yīng)注意,上述預(yù)估性別真實(shí)度的示例僅用于描述和解釋本發(fā)明的示例性實(shí)施例,而非用于限制本發(fā)明的范圍。實(shí)際上,本領(lǐng)域技術(shù)人員可根據(jù)需要,針對待審核數(shù)據(jù)的任一屬性信息,選擇適合的一個或多個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)對該屬性分別進(jìn)行預(yù)測,并對預(yù)測值與實(shí)際值之間的差值進(jìn)行適當(dāng)?shù)臄?shù)值處理,從而得到反映所述屬性信息真實(shí)性的一個或多個真實(shí)度值。
      [0107]例如,在屬性驗(yàn)證裝置20利用社交網(wǎng)站數(shù)據(jù)來獲取用戶住址的預(yù)估真實(shí)度時,實(shí)際住址值和預(yù)測出的住址值可分別以地理坐標(biāo)的形式來表示,相應(yīng)地,兩者之間的差值可通過函數(shù)fkj轉(zhuǎn)換為適當(dāng)?shù)恼鎸?shí)度值。
      [0108]屬性驗(yàn)證裝置20可采用類似的方式,利用諸如快遞公司數(shù)據(jù)、App數(shù)據(jù)、移動運(yùn)營商數(shù)據(jù)等不同外部數(shù)據(jù)源的數(shù)據(jù)分別對待審核數(shù)據(jù)記錄的一個或多個屬性信息進(jìn)行驗(yàn)證。例如,屬性驗(yàn)證裝置20可使用與驗(yàn)證數(shù)據(jù)的數(shù)據(jù)源和待預(yù)測屬性相對應(yīng)的屬性驗(yàn)證模型,基于驗(yàn)證數(shù)據(jù)記錄的特征來預(yù)測所述待預(yù)測屬性信息,并基于預(yù)測值與實(shí)際值之間的差值來獲得反映屬性真實(shí)性的真實(shí)度值。
      [0109]這里,作為可選方式,在某個外部數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)本身已經(jīng)包含待審核數(shù)據(jù)中將進(jìn)行真實(shí)性判斷的某個屬性的屬性信息的情況下,屬性驗(yàn)證裝置20可選擇不使用屬性驗(yàn)證模型來獲取關(guān)于所述某個屬性的真實(shí)度值。例如,如果社交網(wǎng)站數(shù)據(jù)記錄Mk1已經(jīng)包含第i客戶的性別屬性,則屬性驗(yàn)證裝置20可在不使用屬性驗(yàn)證模型的情況下,直接將Mk1所包含的性別屬性作為預(yù)測出的第i個客戶的性別Mklj,進(jìn)而基于預(yù)測值Mklj與實(shí)際值Xlj之間的差值來獲得真實(shí)度值。這里,如果社交網(wǎng)站數(shù)據(jù)記錄Mk1缺少性別屬性(S卩,數(shù)據(jù)記錄本身不完整),則屬性驗(yàn)證裝置20可使用預(yù)先訓(xùn)練出的屬性驗(yàn)證模型來預(yù)測第i個客戶的性別屬性,這里,所述預(yù)先訓(xùn)練出的屬性驗(yàn)證模型可用于基于社交網(wǎng)站數(shù)據(jù)的包括性別或除了性別之外的至少一個屬性(或經(jīng)過哈希變換和/或特征工程處理的屬性)來預(yù)測客戶性別。在這種情況下,屬性驗(yàn)證裝置20可將缺少性別屬性值的社交網(wǎng)站數(shù)據(jù)記錄Mk1作為預(yù)測樣本輸入所述屬性驗(yàn)證模型,以基于預(yù)測樣本的各個特征來預(yù)測客戶的性別。
      [0110]可以看出,通過上述方式,屬性驗(yàn)證裝置20可基于不同來源的驗(yàn)證數(shù)據(jù),分別獲取相應(yīng)的待審核數(shù)據(jù)記錄的各個屬性的至少一個真實(shí)度。在此基礎(chǔ)上,屬性驗(yàn)證裝置20可通過綜合獲取的所有真實(shí)度而得到待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。
      [0111]這里,作為示例,可基于某種來源的驗(yàn)證數(shù)據(jù)來預(yù)測待審核數(shù)據(jù)的某個屬性的屬性驗(yàn)證模型可以是基于機(jī)器學(xué)習(xí)技術(shù)所訓(xùn)練出的預(yù)測模型。具體說來,對于歷史上經(jīng)過真實(shí)性確認(rèn)的數(shù)據(jù)記錄(作為示例,可以是歷史上經(jīng)過同樣的數(shù)據(jù)審核且作出的業(yè)務(wù)判斷確認(rèn)了其真實(shí)性的數(shù)據(jù)記錄,例如,歷史上確認(rèn)為非欺詐的信用卡申請客戶填寫的申請信息數(shù)據(jù)),可認(rèn)為這些數(shù)據(jù)的各個屬性均為真實(shí)值,將這些真實(shí)值作為有監(jiān)督學(xué)習(xí)下的標(biāo)記(label),并將對應(yīng)的驗(yàn)證數(shù)據(jù)記錄的各個屬性作為相應(yīng)的特征,進(jìn)而可訓(xùn)練出用于基于驗(yàn)證數(shù)據(jù)來預(yù)測屬性值的屬性驗(yàn)證模型。
      [0112]這些屬性驗(yàn)證模型可以由屬性驗(yàn)證裝置20預(yù)先訓(xùn)練得出。此外,屬性驗(yàn)證模型也可以由設(shè)置在圖1所示的系統(tǒng)中的模型訓(xùn)練裝置(未示出)預(yù)先訓(xùn)練得出,或可以由圖1所示的系統(tǒng)以外的外部裝置預(yù)先訓(xùn)練得出,在這樣的情況下,屬性驗(yàn)證裝置20可從模型訓(xùn)練裝置或外部裝置接收其所訓(xùn)練出的屬性驗(yàn)證模型。
      [0113]應(yīng)注意,以上示出了利用產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄來獲得屬性真實(shí)度特征的示例,還可將注入抽取自述待審核數(shù)據(jù)記錄的驗(yàn)證數(shù)據(jù)記錄等其他類型的驗(yàn)證數(shù)據(jù)記錄應(yīng)用于本發(fā)明,而不同類型的驗(yàn)證數(shù)據(jù)記錄也可共同用來獲得屬性真實(shí)度特征。這里,作為示例,針對各驗(yàn)證數(shù)據(jù)記錄,可使用相應(yīng)的屬性驗(yàn)證模型或其他方式來確定對應(yīng)的待審核屬性的預(yù)測值。
      [0114]再次參照圖2,在步驟S30中,由目標(biāo)預(yù)測裝置30利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0115]如上所述,根據(jù)本發(fā)明的示例性實(shí)施例,不同于直接對待審核數(shù)據(jù)記錄的各個屬性信息進(jìn)行人工審核的傳統(tǒng)方式,也并非簡單地擴(kuò)展被審核對象數(shù)據(jù)(例如,引入用戶的外部數(shù)據(jù)來直接預(yù)測審核目標(biāo)),而是首先利用各種來源的驗(yàn)證數(shù)據(jù)從不同方面驗(yàn)證待審核數(shù)據(jù)的真實(shí)性,并依據(jù)經(jīng)多方驗(yàn)證所得出的真實(shí)度來預(yù)測出數(shù)據(jù)審核目標(biāo)。相應(yīng)地,對于目標(biāo)預(yù)測模型而言,其特征層面充分融合了各種來源的數(shù)據(jù)信息(包括待審核數(shù)據(jù)自身的各種信息和/或來源于各種數(shù)據(jù)源的其他信息),從而顯著提高了針對審核目標(biāo)的預(yù)測性能。
      [0116]作為示例,針對第i個待審核數(shù)據(jù)記錄X1而言,如上所述,屬性驗(yàn)證裝置20可獲取的各個屬性信息的真實(shí)度Tklj組成的屬性真實(shí)度特征,這里,k指示驗(yàn)證數(shù)據(jù)來源的序號,j指示待審核數(shù)據(jù)的屬性序號。相應(yīng)地,目標(biāo)預(yù)測裝置30可將由上述真實(shí)度特征構(gòu)成的預(yù)測樣本輸入目標(biāo)預(yù)測模型,進(jìn)而得到關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0117]作為示例,假設(shè)數(shù)據(jù)審核目標(biāo)是基于客戶申請開通信用卡時填寫的個人信息來作出關(guān)于是否屬于開卡欺詐的業(yè)務(wù)判斷,具體說來,需要判斷出客戶填寫的信息數(shù)據(jù)中是否存在虛假信息。為此,屬性驗(yàn)證裝置20可基于各種來源的驗(yàn)證數(shù)據(jù)來獲取客戶填寫的個人信息的真實(shí)度值,并綜合出待審核客戶的屬性真實(shí)度特征。相應(yīng)地,目標(biāo)預(yù)測裝置30將屬性真實(shí)度特征作為預(yù)測樣本輸入目標(biāo)預(yù)測模型,進(jìn)而得到關(guān)于客戶是否涉嫌開卡欺詐的預(yù)測結(jié)果。
      [0118]這里,目標(biāo)預(yù)測模型可以是基于機(jī)器學(xué)習(xí)技術(shù)所訓(xùn)練出的預(yù)測模型。具體說來,對于歷史上得到過數(shù)據(jù)審核結(jié)果的數(shù)據(jù)記錄(例如,最終確定的欺詐數(shù)據(jù)記錄和非欺詐數(shù)據(jù)記錄等),將這些審核結(jié)果作為有監(jiān)督學(xué)習(xí)下的標(biāo)記(label),并將對應(yīng)的屬性真實(shí)度特征作為相應(yīng)的訓(xùn)練樣本特征,進(jìn)而可訓(xùn)練出用于基于屬性真實(shí)度特征來預(yù)測數(shù)據(jù)審核目標(biāo)的目標(biāo)預(yù)測模型。
      [0119]應(yīng)注意,根據(jù)本發(fā)明的示例性實(shí)施例,數(shù)據(jù)審核目標(biāo)不限于關(guān)于待審核數(shù)據(jù)的屬性信息真實(shí)性的欺詐問題,還可以是與屬性信息真實(shí)性相關(guān)的其他業(yè)務(wù)判斷或基于屬性信息真實(shí)性連同其他信息的進(jìn)一步業(yè)務(wù)判斷。在這種情況下,目標(biāo)預(yù)測模型可被訓(xùn)練為基于待審核數(shù)據(jù)記錄的屬性真實(shí)度特征連同待審核數(shù)據(jù)記錄的至少一部分屬性信息來預(yù)測數(shù)據(jù)審核目標(biāo)。例如,目標(biāo)預(yù)測模型可被訓(xùn)練為基于屬性真實(shí)度特征以及某些屬性信息的內(nèi)容來預(yù)測信用卡的信用額度。相應(yīng)地,在步驟S30中,目標(biāo)預(yù)測裝置30可根據(jù)計(jì)算出的屬性真實(shí)度特征連同基于待審核數(shù)據(jù)記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。
      [0120]類似地,目標(biāo)預(yù)測模型可以由目標(biāo)預(yù)測裝置30預(yù)先訓(xùn)練得出。此外,目標(biāo)預(yù)測模型也可以由設(shè)置在圖1所示的系統(tǒng)中的模型訓(xùn)練裝置(未示出)預(yù)先訓(xùn)練得出,或可以由圖1所示的系統(tǒng)以外的外部裝置預(yù)先訓(xùn)練得出,在這樣的情況下,目標(biāo)預(yù)測裝置30可從模型訓(xùn)練裝置或外部裝置接收其所訓(xùn)練出的目標(biāo)預(yù)測模型。
      [0121]在步驟S30中獲得關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果之后,目標(biāo)預(yù)測裝置30可將預(yù)測結(jié)果存儲在相應(yīng)的存儲器中以在后續(xù)進(jìn)行進(jìn)一步的處理,或者,這些預(yù)測結(jié)果可被發(fā)送到外部的調(diào)查裝置。此外,也可通過輸出裝置將預(yù)測結(jié)果展示給審核用戶,進(jìn)一步地,作為可選方式,還可從審核用戶接收反饋信息。
      [0122]圖4示出根據(jù)本發(fā)明另一示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng)的框圖。這里,圖4中所示的數(shù)據(jù)獲取裝置10、屬性驗(yàn)證裝置20和目標(biāo)預(yù)測裝置30可按照與圖1所示的各個裝置按照相似的方式進(jìn)行操作,只是圖4的系統(tǒng)還包括展示裝置40。
      [0123]具體說來,在目標(biāo)預(yù)測裝置30獲取了待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果之后,展示裝置40可將預(yù)測結(jié)果展示給用戶,例如,展示裝置40通過顯示屏將預(yù)測結(jié)果展示給用戶,相應(yīng)地,用戶可根據(jù)這些預(yù)測結(jié)果直接作出最終的業(yè)務(wù)決策,或者,用戶可根據(jù)這些預(yù)測結(jié)果來人工核查一些重要信息,并在核查了重要信息之后再作出最終的業(yè)務(wù)決策。
      [0124]這里,為了更好地幫助用戶作出業(yè)務(wù)決策,作為可選方式,展示裝置40可不僅將預(yù)測結(jié)果提供給用戶,還提供一些有助于用戶進(jìn)行業(yè)務(wù)判斷的輔助信息,以便于用戶重點(diǎn)核查這些屬性信息,從而作出業(yè)務(wù)判斷。例如,展示裝置40可將預(yù)測結(jié)果連同屬性真實(shí)度特征展示給用戶。由于屬性真實(shí)度特征能夠反映待審核數(shù)據(jù)記錄中各個屬性信息的預(yù)估真實(shí)度值,因此使得用戶能夠結(jié)合預(yù)測結(jié)果來選擇性地人工核實(shí)一些真實(shí)度偏差較大的屬性信息。這里,在向用戶展示相關(guān)信息時,可對展示的信息進(jìn)行圖形和/或圖表化處理以增強(qiáng)其可讀性。
      [0125]作為優(yōu)選方式,展示裝置40可向用戶展示與屬性真實(shí)度特征之中的較大差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息;并且/或者,向用戶展示與屬性真實(shí)度特征之中起主要預(yù)測作用的差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息。
      [0126]具體說來,展示裝置40可將與屬性真實(shí)度特征之中的較大差異相應(yīng)的屬性信息和關(guān)于所述屬性信息的預(yù)測屬性信息進(jìn)行單獨(dú)顯示和/或突出顯示,以便于用戶容易觀察到這些較不真實(shí)的屬性信息。此外,對于其主要預(yù)測作用的差異(例如,在目標(biāo)預(yù)測模型的目標(biāo)函數(shù)中,與該差異相應(yīng)的特征具有較高的權(quán)重;或者,對于某個待審核數(shù)據(jù)記錄而言,與差異相應(yīng)的特征主要影響預(yù)測結(jié)果),展示裝置40也可進(jìn)行單獨(dú)顯示和/或突出顯示。這里,作為示例,展示裝置40可將所展示的預(yù)測屬性信息顯示在所述預(yù)測屬性信息的統(tǒng)計(jì)分布示圖中。通過這種方式,可使得用戶更加直觀地了解到相關(guān)信息的統(tǒng)計(jì)特點(diǎn),有助于用戶作出判斷以進(jìn)行后續(xù)操作。
      [0127]例如,在觀察到這樣的重要屬性信息之后,用戶可對這些屬性信息進(jìn)行進(jìn)一步的核查,并基于核查結(jié)果來作出最終的業(yè)務(wù)決策,即,關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果。
      [0128]作為可選方式,根據(jù)本發(fā)明示例性實(shí)施例的預(yù)測系統(tǒng)可從用戶接收關(guān)于這些業(yè)務(wù)決策的反饋,這些反饋本身連同相應(yīng)的屬性真實(shí)度特征等預(yù)測特征可作為目標(biāo)預(yù)測模型的訓(xùn)練樣本,其中,反饋所代表的業(yè)務(wù)決策可作為目標(biāo)預(yù)測模型中關(guān)于數(shù)據(jù)審核目標(biāo)的標(biāo)記,相應(yīng)的預(yù)測樣本特征可作為訓(xùn)練樣本的特征。
      [0129]除此之外,在業(yè)務(wù)決策的過程中真實(shí)性得到確認(rèn)的屬性信息也可被反饋給屬性驗(yàn)證模型,作為與相應(yīng)的驗(yàn)證數(shù)據(jù)記錄對應(yīng)的標(biāo)記,相應(yīng)的驗(yàn)證數(shù)據(jù)記錄的屬性信息可作為訓(xùn)練特征。然而,應(yīng)注意,獲取屬性驗(yàn)證模型的標(biāo)記的方式并不受限于此。
      [0130]通過上述方式,使得預(yù)測系統(tǒng)能夠有效地根據(jù)新增的待審核數(shù)據(jù)記錄及其實(shí)際審核結(jié)果來進(jìn)行增量學(xué)習(xí),從而及時更新模型。
      [0131]相應(yīng)地,圖1或圖4所述的系統(tǒng)可還包括反饋裝置(未示出),用于從用戶接收關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果的反饋,其中,所述反饋被用于訓(xùn)練目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型。作為可選方式,反饋裝置可與展示裝置集成為一體的交互裝置。
      [0132]具體說來,審核人員在作出最終的實(shí)際業(yè)務(wù)決策之后,可將決策的實(shí)際結(jié)果輸入到反饋裝置,該反饋裝置可利用這些實(shí)際業(yè)務(wù)決策和/或相關(guān)的數(shù)據(jù)屬性信息作為目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型的新增訓(xùn)練樣本,從而使得模型可以從新增的數(shù)據(jù)樣本中不斷學(xué)習(xí),及時自我修正,適應(yīng)變化。例如,這種自學(xué)習(xí)能力可以有效地解決層出不窮的新的欺詐偽冒手段,避免專家需要不斷的根據(jù)新的欺詐行為制定新的規(guī)則。
      [0133]應(yīng)注意,上述數(shù)據(jù)審核目標(biāo)的預(yù)測系統(tǒng)可完全依賴計(jì)算機(jī)程序的運(yùn)行來實(shí)現(xiàn)相應(yīng)的功能,即,各個裝置與計(jì)算機(jī)程序的功能架構(gòu)中與各步驟相應(yīng),使得整個系統(tǒng)通過專門的軟件包(例如,Iib庫)而被調(diào)用,以實(shí)現(xiàn)相應(yīng)的預(yù)測功能。
      [0134]另一方面,圖1或圖4所示的各個裝置也可以通過硬件、軟件、固件、中間件、微代碼或其任意組合來實(shí)現(xiàn)。當(dāng)以軟件、固件、中間件或微代碼實(shí)現(xiàn)時,用于執(zhí)行相應(yīng)操作的程序代碼或者代碼段可以存儲在諸如存儲介質(zhì)的計(jì)算機(jī)可讀介質(zhì)中,使得處理器可通過讀取并運(yùn)行相應(yīng)的程序代碼或者代碼段來執(zhí)行相應(yīng)的操作。
      [0135]這里,本發(fā)明的示例性實(shí)施例還可以實(shí)現(xiàn)為計(jì)算裝置,該計(jì)算裝置包括存儲部件和處理器,存儲部件中存儲有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行上述數(shù)據(jù)審核目標(biāo)的預(yù)測方法。
      [0136]具體說來,所述計(jì)算裝置可以部署在服務(wù)器或客戶端中,也可以部署在分布式網(wǎng)絡(luò)環(huán)境中的節(jié)點(diǎn)裝置上。此外,所述計(jì)算裝置可以是PC計(jì)算機(jī)、平板裝置、個人數(shù)字助理、智能手機(jī)、web應(yīng)用或其他能夠執(zhí)行上述指令集合的裝置。
      [0137]這里,所述計(jì)算裝置并非必須是單個的計(jì)算裝置,還可以是任何能夠單獨(dú)或聯(lián)合執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計(jì)算裝置還可以是集成控制系統(tǒng)或系統(tǒng)管理器的一部分,或者可被配置為與本地或遠(yuǎn)程(例如,經(jīng)由無線傳輸)以接口互聯(lián)的便攜式電子裝置。
      [0138]在所述計(jì)算裝置中,處理器可包括中央處理器(CPU)、圖形處理器(GPU)、可編程邏輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬處理器、數(shù)字處理器、微處理器、多核處理器、處理器陣列、網(wǎng)絡(luò)處理器等。
      [0139]上述關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測方法中所描述的某些操作可通過軟件方式來實(shí)現(xiàn),某些操作可通過硬件方式來實(shí)現(xiàn),此外,還可通過軟硬件結(jié)合的方式來實(shí)現(xiàn)這些操作。
      [0140]處理器可運(yùn)行存儲在存儲部件之一中的指令或代碼,其中,所述存儲部件還可以存儲數(shù)據(jù)。指令和數(shù)據(jù)還可經(jīng)由網(wǎng)絡(luò)接口裝置而通過網(wǎng)絡(luò)被發(fā)送和接收,其中,所述網(wǎng)絡(luò)接口裝置可采用任何已知的傳輸協(xié)議。
      [0141]存儲部件可與處理器集成為一體,例如,將RAM或閃存布置在集成電路微處理器等之內(nèi)。此外,存儲部件可包括獨(dú)立的裝置,諸如,外部盤驅(qū)動、存儲陣列或任何數(shù)據(jù)庫系統(tǒng)可使用的其他存儲裝置。存儲部件和處理器可在操作上進(jìn)行耦合,或者可例如通過I/o端口、網(wǎng)絡(luò)連接等互相通信,使得處理器能夠讀取存儲在存儲部件中的文件。
      [0142]此外,所述計(jì)算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸如,鍵盤、鼠標(biāo)、觸摸輸入裝置等)。計(jì)算裝置的所有組件可經(jīng)由總線和/或網(wǎng)絡(luò)而彼此連接。
      [0143]上述關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示圖。然而,這些功能塊或功能示圖可被均等地集成為單個的邏輯裝置或按照非確切的邊界進(jìn)行操作。
      [0144]具體說來,如上所述,根據(jù)本發(fā)明示例性實(shí)施例的基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的計(jì)算裝置可包括存儲部件和處理器,存儲部件中存儲有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度;(C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      [0145]應(yīng)注意,以上已經(jīng)結(jié)合圖2到圖4描述了根據(jù)本發(fā)明示例性實(shí)施例的關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測方法的各處理細(xì)節(jié),這里將不再贅述計(jì)算裝置執(zhí)行各步驟時的處理細(xì)節(jié)。
      [0146]以上已經(jīng)描述了本發(fā)明的各示例性實(shí)施例,應(yīng)理解,上述描述僅是示例性的,并非窮盡性的,并且本發(fā)明也不限于所披露的各示例性實(shí)施例。在不偏離本發(fā)明的范圍和精神的情況下,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的范圍為準(zhǔn)。
      【主權(quán)項(xiàng)】
      1.一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的方法,包括: (A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息; (B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度; (C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。2.如權(quán)利要求1所述的方法,其中,步驟(B)包括: (BI)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息; (B2)針對所述每一個屬性,分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異,并且,基于針對所述至少一個屬性計(jì)算出的所有差異的集合來獲得待審核數(shù)據(jù)記錄的屬性真實(shí)度特征。3.如權(quán)利要求2所述的方法,其中,在步驟(B2)中,通過基于所述每一個屬性的屬性信息分別與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差值各自的統(tǒng)計(jì)分布特性來分別計(jì)算所述每一個屬性的屬性信息與預(yù)測出的所述至少一個預(yù)測屬性信息之間的差異。4.如權(quán)利要求2所述的方法,其中,在步驟(BI)中,將所述至少一條驗(yàn)證數(shù)據(jù)記錄分別輸入基于機(jī)器學(xué)習(xí)而訓(xùn)練出的至少一個屬性驗(yàn)證模型,以預(yù)測關(guān)于所述至少一個屬性之中的每一個屬性的至少一個預(yù)測屬性信息。5.如權(quán)利要求2所述的方法,其中,在步驟(BI)中,將產(chǎn)生自各個數(shù)據(jù)源的驗(yàn)證數(shù)據(jù)記錄本身包括的關(guān)于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關(guān)于所述每一個屬性的至少一個預(yù)測屬性信息。6.如權(quán)利要求1或4所述的方法,在步驟(C)之后,還包括: (D)將預(yù)測結(jié)果連同屬性真實(shí)度特征展示給用戶。7.如權(quán)利要求6所述的方法,在步驟(D)之后,還包括: (E)從用戶接收關(guān)于數(shù)據(jù)審核目標(biāo)的實(shí)際結(jié)果的反饋,其中,所述反饋被用于訓(xùn)練目標(biāo)預(yù)測模型和/或?qū)傩则?yàn)證模型。8.如權(quán)利要求1所述的方法,其中,在步驟(C)中,根據(jù)計(jì)算出的屬性真實(shí)度特征連同基于待審核數(shù)據(jù)記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果。9.一種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的系統(tǒng),包括: 數(shù)據(jù)獲取裝置,用于獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息; 屬性驗(yàn)證裝置,用于基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度; 目標(biāo)預(yù)測裝置,用于利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。10.—種基于機(jī)器學(xué)習(xí)來預(yù)測數(shù)據(jù)審核目標(biāo)的計(jì)算裝置,包括存儲部件和處理器,存儲部件中存儲有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟: (A)獲取待審核數(shù)據(jù)記錄和至少一條驗(yàn)證數(shù)據(jù)記錄,其中,所述待審核數(shù)據(jù)記錄包括關(guān)于待審核項(xiàng)的各個屬性的屬性信息,數(shù)據(jù)審核目標(biāo)是指通過對待審核數(shù)據(jù)記錄所包括的屬性信息進(jìn)行審核而作出的業(yè)務(wù)判斷,所述至少一條驗(yàn)證數(shù)據(jù)記錄用于驗(yàn)證所述屬性信息之中關(guān)于所述各個屬性之中的至少一個屬性的至少一個屬性信息; (B)基于所述至少一條驗(yàn)證數(shù)據(jù)記錄來計(jì)算待審核數(shù)據(jù)記錄的屬性真實(shí)度特征,其中,所述屬性真實(shí)度特征用于衡量所述至少一個屬性信息的真實(shí)程度; (C)利用基于機(jī)器學(xué)習(xí)而訓(xùn)練出的目標(biāo)預(yù)測模型,根據(jù)計(jì)算出的屬性真實(shí)度特征來獲取待審核數(shù)據(jù)記錄關(guān)于數(shù)據(jù)審核目標(biāo)的預(yù)測結(jié)果,其中,所述目標(biāo)預(yù)測模型被訓(xùn)練為基于屬性真實(shí)度特征來預(yù)測關(guān)于相應(yīng)的待審核數(shù)據(jù)記錄的數(shù)據(jù)審核目標(biāo)。
      【文檔編號】G06F15/18GK106096657SQ201610420714
      【公開日】2016年11月9日
      【申請日】2016年6月13日 公開號201610420714.7, CN 106096657 A, CN 106096657A, CN 201610420714, CN-A-106096657, CN106096657 A, CN106096657A, CN201610420714, CN201610420714.7
      【發(fā)明人】黃晶, 涂威威, 陳雨強(qiáng)
      【申請人】北京物思創(chuàng)想科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1