本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種針對(duì)不平衡樣本集的模型訓(xùn)練方法及裝置、一種針對(duì)不平衡樣本集的樣本平衡方法及裝置、以及一種個(gè)人信用評(píng)分系統(tǒng)。
背景技術(shù):
隨著大數(shù)據(jù)時(shí)代的到來(lái),可以根據(jù)歷史數(shù)據(jù)以及歷史數(shù)據(jù)對(duì)應(yīng)的結(jié)果進(jìn)行分析,從而預(yù)測(cè)未來(lái)可能發(fā)生的事。比如,根據(jù)歷史數(shù)據(jù)以及對(duì)應(yīng)的結(jié)果生成至少包含正負(fù)兩種樣本的樣本集,根據(jù)樣本集訓(xùn)練特定的模型。當(dāng)模型接收到現(xiàn)有的數(shù)據(jù)時(shí),就可以預(yù)測(cè)現(xiàn)有數(shù)據(jù)對(duì)應(yīng)的結(jié)果。具體比如,根據(jù)癌癥患者與健康人的歷史數(shù)據(jù)(包括:病歷、飲食、作息等等)生成包含正樣本(癌癥患者)和負(fù)樣本(健康人)的樣本集,并根據(jù)該樣本集訓(xùn)練癌癥預(yù)測(cè)模型,當(dāng)癌癥預(yù)測(cè)模型接收到疑似癌癥患者的歷史數(shù)據(jù)時(shí),就可以預(yù)測(cè)出患癌癥的可能性,從而及早治療。
在訓(xùn)練模型時(shí)如果基于平衡樣本集進(jìn)行訓(xùn)練,通常都會(huì)得到較好的性能,平衡樣本集是指樣本中包含的種類(lèi)的數(shù)量相差不多,比如,新生兒樣本的男女比例會(huì)接近1:1。然而,隨著信息化的發(fā)展,預(yù)測(cè)小概率事件成為了各行各業(yè)的焦點(diǎn),比如預(yù)測(cè)患癌癥的概率,預(yù)測(cè)用戶信用卡逾期的概率,預(yù)測(cè)金融市場(chǎng)突變的概率等。但這些小概率事件的樣本都存在一個(gè)共性,就是樣本集的嚴(yán)重失衡,癌癥患者是少數(shù),信用卡逾期的人是少數(shù),金融市場(chǎng)的突變也是少有的,在根據(jù)不平衡樣本集進(jìn)行模型訓(xùn)練時(shí),往往會(huì)存在偏性,從而影響模型的性能。
現(xiàn)有技術(shù)為了實(shí)現(xiàn)樣本平衡,采用的方式多為過(guò)抽樣處理,即隨機(jī)復(fù)制少數(shù)類(lèi)樣本,從而達(dá)到少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本的數(shù)量達(dá)到平衡的目的,但是隨 機(jī)復(fù)制的結(jié)果就是會(huì)出現(xiàn)完全相同的至少兩個(gè)樣本,但在實(shí)際應(yīng)用中,一般不會(huì)出現(xiàn)完全相同的兩個(gè)樣本,所以?xún)H僅是簡(jiǎn)單復(fù)制的處理方式,顯然會(huì)導(dǎo)致樣本的真實(shí)性較低?;谡鎸?shí)性較低的樣本進(jìn)行模型訓(xùn)練也勢(shì)必會(huì)影響模型的性能。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)實(shí)施例提供一種針對(duì)不平衡樣本集的模型訓(xùn)練方法,對(duì)不平衡樣本集進(jìn)行樣本平衡后再訓(xùn)練模型,從而提高模型的性能。
本申請(qǐng)實(shí)施例提供一種針對(duì)不平衡樣本集的模型訓(xùn)練裝置,對(duì)不平衡樣本集進(jìn)行樣本平衡后再訓(xùn)練模型,從而提高模型的性能。
本申請(qǐng)實(shí)施例提供一種針對(duì)不平衡樣本集的樣本平衡方法,用于在對(duì)不平衡樣本集進(jìn)行過(guò)抽樣處理時(shí),提高處理后的樣本集的真實(shí)性。
本申請(qǐng)實(shí)施例提供一種針對(duì)不平衡樣本集的樣本平衡裝置,用于在對(duì)不平衡樣本集進(jìn)行過(guò)抽樣處理時(shí),提高處理后的樣本集的真實(shí)性。
本申請(qǐng)實(shí)施例提供一種個(gè)人信用評(píng)分系統(tǒng),用于提高個(gè)人信用評(píng)分的真實(shí)性。
本申請(qǐng)實(shí)施例采用下述技術(shù)方案:
一種針對(duì)不平衡樣本集的模型訓(xùn)練方法,包括:
獲取不平衡樣本集,所述不平衡樣本集中包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值,所述不平衡閾值大于1;
根據(jù)所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的樣本,建立合成正樣本,所述與所述正樣本相鄰的樣本包含負(fù)樣本和/或正樣本;
當(dāng)合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值在平衡閾值區(qū)間內(nèi)時(shí),將合成正樣本修改為正樣本,生成平衡樣本集;
根據(jù)所述平衡樣本集進(jìn)行模型訓(xùn)練。
優(yōu)選地,根據(jù)所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的 樣本,建立合成正樣本,包括:從所述不平衡樣本集中選取一個(gè)正樣本;以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合,所述樣本集合中包含負(fù)樣本和/或正樣本;根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本之間建立合成正樣本。
優(yōu)選地,當(dāng)合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值在平衡閾值區(qū)間內(nèi)時(shí),將合成正樣本修改為正樣本,生成平衡樣本集,包括:判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);當(dāng)是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集。
優(yōu)選地,所述方法還包括:當(dāng)否,且小于所述平衡閾值區(qū)間的最小值時(shí),從所述不平衡樣本集中再選取一個(gè)正樣本,重復(fù)執(zhí)行所述以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合。
優(yōu)選地,以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合,包括:根據(jù)所述樣本數(shù)量比,以及所述一個(gè)正樣本在樣本空間中與至少一個(gè)正樣本之間的距離,確定相鄰距離閾值;根據(jù)所述相鄰距離閾值以及所述樣本數(shù)量比,以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合。
優(yōu)選地,根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本之間建立合成正樣本,包括:根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本的中間位置建立合成正樣本。
優(yōu)選地,所述方法應(yīng)用于針對(duì)不平衡的原始個(gè)人信用樣本集,正樣本為逾期樣本,負(fù)樣本為非逾期樣本。一種針對(duì)不平衡樣本集的模型訓(xùn)練裝置,包括:樣本集獲取單元、樣本建立單元、樣本集生成單元以及模型訓(xùn)練單元,其中,
所述樣本集獲取單元,用于獲取不平衡樣本集,所述不平衡樣本集中包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值,所述不平衡閾值大于1;
所述樣本建立單元,用于根據(jù)所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的樣本,建立合成正樣本,所述與所述正樣本相鄰的樣本包含負(fù)樣本和/或正樣本;
所述樣本集生成單元,用于當(dāng)合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值在平衡閾值區(qū)間內(nèi)時(shí),將合成正樣本修改為正樣本,生成平衡樣本集;
所述模型訓(xùn)練單元,用于根據(jù)所述平衡樣本集進(jìn)行模型訓(xùn)練。
優(yōu)選地,所述樣本建立單元包括:正樣本選取單元、樣本集合選取單元以及合成正樣本建立單元,其中,
所述正樣本選取單元,用于從所述不平衡樣本集中選取一個(gè)正樣本;
所述樣本集合選取單元,用于以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合,所述樣本集合中包含負(fù)樣本和/或正樣本;
所述合成正樣本建立單元,用于根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本之間建立合成正樣本。
優(yōu)選地,所述樣本集生成單元包括:判斷單元、平衡樣本集生成單元以及跳轉(zhuǎn)單元,其中,
所述判斷單元,用于判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);
所述平衡樣本集生成單元,用于當(dāng)判斷結(jié)果為否是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集;
所述跳轉(zhuǎn)單元,用于當(dāng)判斷結(jié)果為否,且小于所述平衡閾值區(qū)間的最小 值是時(shí),跳轉(zhuǎn)執(zhí)行所述樣本建立單元。
優(yōu)選地,樣本集合選取單元,具體用于:根據(jù)所述樣本數(shù)量比,以及所述一個(gè)正樣本在樣本空間中與至少一個(gè)正樣本之間的距離,確定相鄰距離閾值;根據(jù)所述相鄰距離閾值以及所述樣本數(shù)量比,以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合。
優(yōu)選地,合成正樣本建立單元,具體用于:根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本的中間位置建立合成正樣本。
一種針對(duì)不平衡樣本集的樣本平衡方法,其特征在于,所述不平衡樣本集中包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值,所述不平衡閾值大于1,所述方法包括:
從所述不平衡樣本集中選取一個(gè)正樣本;
以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合,所述樣本集合中包含負(fù)樣本和/或正樣本;
根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本之間建立合成正樣本;
判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);
當(dāng)是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集。
一種針對(duì)不平衡樣本集的樣本平衡裝置,包括:正樣本選取單元、樣本集合選取單元、合成正樣本建立單元、判斷單元以及平衡樣本集生成單元,其中,
所述正樣本選取單元,用于從所述不平衡樣本集中選取一個(gè)正樣本;
所述樣本集合選取單元,用于以所述一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與所述一個(gè)正樣本相鄰的樣本集合,所述樣本集合中包含負(fù)樣本和/或正 樣本;
所述合成正樣本建立單元,用于根據(jù)所述一個(gè)正樣本與所述樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在所述一個(gè)正樣本與所述樣本集合中的樣本之間建立合成正樣本;
所述判斷單元,用于判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);
所述平衡樣本集生成單元,用于當(dāng)判斷結(jié)果為是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集。
優(yōu)選地,所述裝置還包括跳轉(zhuǎn)單元,具體用于:當(dāng)判斷結(jié)果為否,且小于所述平衡閾值區(qū)間的最小值是時(shí),跳轉(zhuǎn)執(zhí)行所述正樣本選取單元。
一種個(gè)人信用評(píng)分系統(tǒng),包括:原始個(gè)人信用建立系統(tǒng)、樣本平衡系統(tǒng)、信用模型訓(xùn)練系統(tǒng)、個(gè)人信用評(píng)分系統(tǒng),其中,
所述原始個(gè)人信用建立系統(tǒng),用于根據(jù)用戶對(duì)應(yīng)的特征和特征值,建立原始個(gè)人信用樣本集;
所述樣本平衡系統(tǒng),用于對(duì)原始個(gè)人信用樣本集進(jìn)行樣本平衡;
所述信用模型訓(xùn)練系統(tǒng),用于根據(jù)平衡后的個(gè)人信用樣本集訓(xùn)練信用模型;
所述個(gè)人信用評(píng)分系統(tǒng),用于根據(jù)用戶對(duì)應(yīng)的特征和特征值,利用信用模型對(duì)用戶的逾期情況進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行個(gè)人信用評(píng)分。
本申請(qǐng)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:由于在不平衡本集中,少數(shù)類(lèi)樣本(正樣本)是較少的,但是與正樣本相鄰不遠(yuǎn)的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準(zhǔn)選取與該正樣本相鄰的樣本集合,再?gòu)臉颖炯现羞x取樣本,并根據(jù)特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對(duì)于現(xiàn)有技術(shù)針對(duì)不平衡樣本集進(jìn)行簡(jiǎn)單復(fù)制某些正樣本的過(guò)抽樣處理方法而言,提高了平衡樣本集的真實(shí)性。根據(jù)本申請(qǐng)生成的真實(shí)性較高的平衡樣本集 進(jìn)行模型訓(xùn)練后,模型的性能也會(huì)得到提升。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1為本申請(qǐng)實(shí)施例1提供的一種針對(duì)不平衡樣本集的樣本平衡方法的流程示意圖;
圖2為本申請(qǐng)實(shí)施例1提供的選取一個(gè)正樣本示意圖;
圖3為本申請(qǐng)實(shí)施例1提供的根據(jù)鄰居距離閾值選取相鄰的樣本集合的示意圖;
圖4為本申請(qǐng)實(shí)施例1提供的確定相鄰距離閾值的示意圖;
圖5為本申請(qǐng)實(shí)施例1提供的確定相鄰距離閾值的示意圖;
圖6為本申請(qǐng)實(shí)施例1提供的根據(jù)確定出的鄰居距離閾值選取相鄰的樣本集合示意圖;
圖7為本申請(qǐng)實(shí)施例1提供的建立合成正樣本的示意圖;
圖8為本申請(qǐng)實(shí)施例1提供的建立合成正樣本并達(dá)到樣本平衡的示意圖;
圖9為本申請(qǐng)實(shí)施例1提供的將合成正樣本修改為正樣本并生成平衡樣本集的示意圖;
圖10為本申請(qǐng)實(shí)施例2提供的一種針對(duì)不平衡信用樣本進(jìn)行信用模型訓(xùn)練的方法的流程示意圖;
圖11為本申請(qǐng)實(shí)施例3提供的一種針對(duì)不平衡樣本集的樣本平衡裝置的結(jié)構(gòu)框圖;
圖12為本申請(qǐng)實(shí)施例4提供的一種針對(duì)不平衡樣本集的模型訓(xùn)練方法的流程示意圖;
圖13為本申請(qǐng)實(shí)施例5提供的一種針對(duì)不平衡樣本集的模型訓(xùn)練裝置的結(jié)構(gòu)框圖;
圖14為本申請(qǐng)實(shí)施例6提供的一種個(gè)人信用評(píng)分系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
在進(jìn)行本申請(qǐng)的技術(shù)方案的詳細(xì)介紹之前,為了明確起見(jiàn),這里先對(duì)幾個(gè)術(shù)語(yǔ)作簡(jiǎn)要說(shuō)明。在本申請(qǐng)實(shí)施例中將涉及不平衡樣本集和平衡樣本集,負(fù)樣本和正樣本,以及樣本空間和特征值。樣本集中包含正樣本和負(fù)樣本,每個(gè)樣本表示一個(gè)對(duì)象。比如,當(dāng)需要建立健康人群與癌癥患者的樣本集時(shí),每個(gè)人就是一個(gè)樣本,健康的人是負(fù)樣本,癌癥患者就是正樣本,這里的負(fù)樣本就是代表多數(shù)類(lèi)樣本,正樣本代表少數(shù)類(lèi)樣本。由于癌癥患者畢竟是少數(shù),所以負(fù)樣本與正樣本的樣本數(shù)量比一定大于1,可以設(shè)定一個(gè)不平衡閾值,比如1.2,當(dāng)樣本集中負(fù)樣本與正樣本的樣本數(shù)量比大于1.2時(shí),即可認(rèn)為該樣本集是不平衡樣本??梢灶A(yù)設(shè)一個(gè)平衡樣本閾值區(qū)間,該區(qū)間為有界區(qū)間,比如該區(qū)間為(0.9,1.1),即表示當(dāng)樣本集中負(fù)樣本與正樣本的樣本數(shù)量比在(0.9,1.1)范圍內(nèi)時(shí),可認(rèn)為該樣本集是平衡樣本。每個(gè)樣本都有自己的特征和特征值,比如一個(gè)胃癌患者正樣本中,會(huì)有早期癥狀:嘔吐、胃潰瘍等,“早期癥狀”就是特征,“嘔吐、胃潰瘍等”就是特征值。每個(gè)樣本會(huì)有多維度的特征和特征值,可以根據(jù)多維度的特征和特征值建立多維度的樣本空間,根據(jù)每個(gè)維度的特征值將每個(gè)樣本放置在樣本空間的某個(gè)位置中,并可以根據(jù)指定的距離度量方法確定出每?jī)蓚€(gè)樣本之間的距離。
以下結(jié)合附圖,詳細(xì)說(shuō)明本申請(qǐng)各實(shí)施例提供的技術(shù)方案。
實(shí)施例1
如前所述,隨著信息化的發(fā)展,預(yù)測(cè)小概率事件成為了各行各業(yè)的焦點(diǎn),比如預(yù)測(cè)患癌癥的概率,預(yù)測(cè)用戶信用卡逾期的概率,預(yù)測(cè)金融市場(chǎng)突變的概率等。但這些小概率事件的樣本集都是嚴(yán)重失衡的,比如(1000:1,即每1000個(gè)人里才有一個(gè)逾期不還信用卡的人),在根據(jù)不平衡樣本集進(jìn)行模型訓(xùn)練時(shí),往往會(huì)存在偏性,從而影響模型的性能?,F(xiàn)有技術(shù)為了解決這一問(wèn)題,采用的方式多為過(guò)抽樣處理,即隨機(jī)復(fù)制少數(shù)類(lèi)樣本,從而達(dá)到少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本的數(shù)量達(dá)到平衡的目的,比如對(duì)于樣本集中的少數(shù)類(lèi)樣本中的樣本1而言,復(fù)制了兩次,那么在樣本空間中樣本1的位置上就會(huì)有樣本1、樣本1’以及樣本1”這3個(gè)的樣本,但在實(shí)際應(yīng)用中,一般不會(huì)出現(xiàn)完全相同的兩個(gè)樣本,就像每位癌癥患者的患病原因、早期癥狀等都不盡相同,每個(gè)不還信用卡的人的歷史行為以及個(gè)人本身也是不是完成相同的,所以如果僅僅是對(duì)若干個(gè)少數(shù)類(lèi)樣本進(jìn)行簡(jiǎn)單地復(fù)制,顯然會(huì)導(dǎo)致樣本的真實(shí)性較低。在訓(xùn)練模型時(shí)由于出現(xiàn)多個(gè)相同的樣本,也會(huì)導(dǎo)致這些樣本的權(quán)重較高,從而造成過(guò)度擬合的問(wèn)題,進(jìn)而影響模型的訓(xùn)練效果。基于此缺陷,本發(fā)明人提出了一種針對(duì)不平衡樣本集的樣本平衡方法,用于在對(duì)不平衡樣本集進(jìn)行過(guò)抽樣處理時(shí),提高處理后的樣本集的真實(shí)性。該方法是針對(duì)不平衡樣本集進(jìn)行的一種過(guò)抽樣處理方法,樣本集中包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值,該不平衡閾值可以是預(yù)先設(shè)定的(比如1.2或1.5等),由于建立樣本集的步驟不是本方案重點(diǎn),所以不過(guò)多介紹。該方法的流程示意圖如圖1所示,包括下述步驟:
步驟11:從不平衡樣本集中選取一個(gè)正樣本。
由于過(guò)抽樣處理是針對(duì)少數(shù)類(lèi)樣本的,所以可以從不平衡樣本集中選取一個(gè)正樣本,選取的方式可以是隨機(jī)選取,也可以是按照樣本空間中的位置進(jìn)行 選取,比如,對(duì)于二維樣本平面,可以根據(jù)特征值由小到大的順序進(jìn)行選取,對(duì)于三維樣本空間,可以根據(jù)特征值在樣本空間中由中心向四周進(jìn)行選取,等。需要說(shuō)明的是,本實(shí)施例中所說(shuō)的樣本空間包括二維樣本平面以及多位樣本空間。
需要說(shuō)明的是,在對(duì)術(shù)語(yǔ)作簡(jiǎn)要說(shuō)明時(shí),已經(jīng)介紹這里的負(fù)樣本就是代表多數(shù)類(lèi)樣本,正樣本代表少數(shù)類(lèi)樣本。在實(shí)際應(yīng)用中,可以自行定義正負(fù)樣本,比如也可以把正樣本定義為多數(shù)類(lèi)樣本。這兩個(gè)定義是預(yù)先定好的,且在一個(gè)流程中,一旦定好是不可更改的。如果在實(shí)際應(yīng)用中將負(fù)樣本定義為少數(shù)類(lèi)樣本,那么該步驟就是選取一個(gè)負(fù)樣本。本申請(qǐng)將正樣本定義為少數(shù)類(lèi)樣本,此后不再贅述。
以二維樣本平面為例,如圖2所示,“○”為負(fù)樣本,“□”為正樣本,可以從5個(gè)正樣本中隨機(jī)選取一個(gè),比如選取了正樣本1。
步驟12:以這個(gè)正樣本為基準(zhǔn),從樣本空間中選取與這個(gè)正樣本相鄰的樣本集合。
因?yàn)樵跇颖究臻g中,樣本之間的相對(duì)位置是根據(jù)樣本的特征值確定出來(lái)的,可以認(rèn)為距離越近的兩個(gè)樣本,它們之間的關(guān)系越緊密,它們的特征值的差別越小,所以,可以根據(jù)距離來(lái)選取與這個(gè)正樣本相鄰的樣本集合。
該步驟中,可以預(yù)設(shè)一個(gè)相鄰距離閾值,這個(gè)相鄰距離閾值可以是預(yù)先設(shè)定的,以步驟11中選取到的這個(gè)正樣本為基準(zhǔn),與該正樣本的距離小于相鄰距離閾值的樣本都可以被選取到樣本集合中,樣本集合中可以包含負(fù)樣本和/或正樣本。比如,如圖3所示,對(duì)于正樣本1而言,預(yù)先設(shè)定的相鄰距離閾值為r,則可以從以這個(gè)樣本的位置為圓心,以r為半徑的范圍內(nèi),從二維樣本平面中選取與這個(gè)正樣本相鄰的樣本集合,該樣本集合中包括3個(gè)負(fù)樣本(標(biāo)識(shí)為“√”的3個(gè)“○”)。
需要說(shuō)明的是,本申請(qǐng)中的距離,是按照指定的距離度量方法確定的,比如,歐氏距離(Euclidean Distance),曼哈頓距離(Manhattan Distance),標(biāo)準(zhǔn)化歐 氏距離(Standardized Euclidean distance),等等。
在實(shí)際應(yīng)用中,預(yù)先設(shè)定相鄰距離閾值不一定適用于全部的正樣本,比如,某個(gè)正樣本與其它樣本的距離都很遠(yuǎn),那么再根據(jù)預(yù)先設(shè)定相鄰距離閾值區(qū)選取與之相鄰的樣本集合就有可能選不出來(lái),所以,在一定實(shí)施方式中,為了能夠根據(jù)正樣本本身的位置自適應(yīng)的調(diào)節(jié)相鄰距離閾值,以這個(gè)正樣本為基準(zhǔn),利用相鄰距離閾值從樣本空間中選取與這個(gè)正樣本相鄰的樣本集合,可以包括:
根據(jù)樣本數(shù)量比,以及這個(gè)正樣本在樣本空間中與至少一個(gè)其它正樣本之間的距離,確定相鄰距離閾值;根據(jù)相鄰距離閾值以及樣本數(shù)量比,以這個(gè)正樣本為基準(zhǔn),從樣本空間中選取與這個(gè)正樣本相鄰的樣本集合。
具體地,可以根據(jù)下述公式確定相鄰距離閾值:
其中,K為選取的一個(gè)正樣本與至少一個(gè)其它正樣本的總數(shù)量,
N=樣本數(shù)量比-1,d為第i個(gè)正樣本到第k個(gè)正樣本之間的距離。
當(dāng)確定出相鄰距離閾值后,可以根據(jù)相鄰距離閾值以及N,從不平衡樣本集中選取與這個(gè)正樣本相鄰的樣本集合。
具體地,比如,如圖4所示,K可以取3,由于已經(jīng)選取一個(gè)正樣本1,所以再選取兩個(gè)正樣本,選取方式可以是隨機(jī)選取,也可以是選取相鄰的,比如,選取了正樣本2和正樣本3。在圖4中,負(fù)樣本有15個(gè),正樣本有5個(gè),所以N=15:5-1=2,可以認(rèn)為當(dāng)根據(jù)每個(gè)正樣本復(fù)制出2個(gè)正樣本時(shí),可以達(dá)到樣本平衡??梢詮腒個(gè)正樣本中隨機(jī)選取2個(gè),作為i=1和i=2,將K個(gè)正樣本作為k=1、k=2以及k=3。
如圖5所示,d(i=1,k=1)=L1;d(1,2)=L3;d(1,3)=0;
d(2,1)=0;d(2,2)=L2;d(2,3)=L1;
所以,D=(L1+L1+L2+L3)/(2×3)
以圖5為例,L1=872(單位),L2=L1=738(單位),L3=1144(單位),“(單位)”表示在二維樣本平面中的距離單位。則D=605(單位)。
如圖6所示,在以正樣本1為圓心,D為半徑的圓的范圍內(nèi),從不平衡樣本集中選取(隨機(jī)或按照距離大小)與這個(gè)正樣本相鄰的N=2個(gè)樣本(標(biāo)識(shí)為“√”的2個(gè)“○”),組成樣本集合。
需要說(shuō)明的是,在選取與這個(gè)正樣本相鄰的樣本集合時(shí),也可以選取正樣本,因?yàn)檎龢颖揪嚯x很近的周?chē)臉颖局?不管是正樣本還是負(fù)樣本)均會(huì)有與正樣本相同或相似的一些特征。
步驟13:根據(jù)這個(gè)正樣本與樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在這個(gè)正樣本與樣本集合中的樣本之間建立合成正樣本。
由于在不平衡樣本集中,正樣本的數(shù)量較少,在一些場(chǎng)景中(癌癥患者、信用卡逾期用戶)正樣本的數(shù)量更是極少的,所以?xún)蓚€(gè)正樣本之間的距離一般情況下會(huì)大于兩個(gè)負(fù)樣本之間的距離,但是如前所示,與正樣本距離很近的周?chē)臉颖局芯鶗?huì)有與正樣本相同或相似的一些特征。類(lèi)似的,比如罪犯周?chē)娜?,可能或多或少的有著與罪犯相似的特征,比如,學(xué)歷,生活條件,家庭,不良嗜好等。雖然罪犯周?chē)娜瞬灰欢〞?huì)犯罪,但是會(huì)有潛在的可能性,所以在本步驟中,可以根據(jù)選取的一個(gè)樣本,與步驟12中選取的樣本集合中的樣本分別對(duì)應(yīng)的特征和特征值,在這個(gè)正樣本與樣本集合中的樣本之間建立合成正樣本。需要說(shuō)明的是,在建立合成樣本時(shí),特征和特征值要一一對(duì)應(yīng),比如,要根據(jù)選取的這個(gè)正樣本的年收入:5萬(wàn),與樣本集合中的樣本的年收入:6萬(wàn)進(jìn)行對(duì)應(yīng)。
在一種實(shí)施方式中,可以在這個(gè)正樣本與樣本集合中的樣本的中間位置建立合成正樣本,比如針對(duì)上述的“年收入”的例子,建立合成正樣本的年收入為5.5萬(wàn)。如圖7所示,為建立的兩個(gè)合成正樣本“△”。
需要說(shuō)明的是,在實(shí)際應(yīng)用中,往往N不是整數(shù),在這種情況下,有兩種處理方式:
第一種,以多個(gè)正樣本為,進(jìn)行局部湊整,比如,N為0.7,那么可以根據(jù)10個(gè)正樣本建立7個(gè)合成正樣本。
第二種,以四舍五入為基準(zhǔn),當(dāng)N為3.3時(shí),根據(jù)一個(gè)正樣本建立3個(gè)合成正樣本,直到樣本集達(dá)到平衡為止,或當(dāng)N為1.56時(shí),根據(jù)一個(gè)正樣本建立2個(gè)合成正樣本,直到樣本集達(dá)到平衡為止。
步驟14:判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi)。
由于合成正樣本就可以當(dāng)作是正樣本,所以可以將合成正樣本于正樣本一起累加起來(lái),確定出數(shù)量之和,判斷數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi),當(dāng)不在,且小于該平衡閾值區(qū)間的最小值時(shí),從不平衡樣本集中再選取一個(gè)正樣本,重復(fù)執(zhí)行步驟12到步驟14,也就是繼續(xù)建立合成正樣本,需要說(shuō)明的是,從不平衡樣本集中再選取一個(gè)正樣本,實(shí)際上可以與步驟11中選取的那個(gè)正樣本相同,也可以不同,但在實(shí)際操作中,就是通過(guò)執(zhí)行步驟11再選取一個(gè)正樣本,所以當(dāng)不在,且小于該平衡閾值區(qū)間的最小值時(shí),也可以直接執(zhí)行步驟11,并再重復(fù)執(zhí)行步驟12到步驟14。
當(dāng)比值在該平衡閾值區(qū)間內(nèi)時(shí),則可以認(rèn)為此時(shí)的正樣本(包括合成正樣本)與負(fù)樣本之間達(dá)到平衡,如圖8所示,根據(jù)每個(gè)正樣本建立2個(gè)合成正樣本,此時(shí),正樣本(包括合成正樣本)與負(fù)樣本的數(shù)量都是15個(gè),比值就是1:1,達(dá)到了完全平衡,就可以將合成正樣本修改為正樣本,生成平衡樣本集,也就是如圖9所示的結(jié)果。
在實(shí)際應(yīng)用中,往往是一次選取出多個(gè)正樣本,根據(jù)每個(gè)正樣本,并行建立合成樣本,所以,就有可能出現(xiàn),合成正樣本與正樣本的數(shù)量又多余負(fù)樣本,此時(shí),這個(gè)樣本集就又是不平衡的了。比如,就以圖2至圖9的例子來(lái)說(shuō),最開(kāi)始負(fù)樣本有15個(gè),正樣本只有5個(gè),再根據(jù)正樣本建立合成正樣本時(shí),如果合成正樣本與正樣本的數(shù)量變?yōu)榱?0個(gè),那么又不平衡了,所以,在一種實(shí)施方式中,如果合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值不在平 衡閾值區(qū)間內(nèi),且大于該平衡閾值區(qū)間的最大值時(shí),刪除指定數(shù)量的合成正樣本,并判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi)。
所以,在實(shí)際應(yīng)用對(duì)不平衡樣本集進(jìn)行平衡樣本時(shí),根據(jù)預(yù)先設(shè)定的平衡閾值區(qū)間對(duì)建立合成正樣本還是刪除合成正樣本進(jìn)行控制,最終目的是為了達(dá)到樣本平衡。比如,不平衡閾值設(shè)置為2,即獲取到的樣本集中負(fù)樣本是正樣本的至少兩倍時(shí),開(kāi)始對(duì)其進(jìn)行樣本平衡的操作,平衡閾值區(qū)間為[0.95,1.05],當(dāng)0.95≤負(fù)樣本數(shù)/(合成正樣本數(shù)+正樣本數(shù))≤1.05時(shí),生成平衡樣本集。
得到平衡樣本集后,最終的目的可以是為了訓(xùn)練模型,使訓(xùn)練出的模型性能更好,所以,在一種實(shí)施方式中,該方法還可以包括:根據(jù)平衡樣本集進(jìn)行模型訓(xùn)練。由于訓(xùn)練的過(guò)程不是本申請(qǐng)的重點(diǎn),所以不再贅述。
采用實(shí)施例1提供的該方法,由于在不平衡本集中,少數(shù)類(lèi)樣本(正樣本)是較少的,但是與正樣本相鄰不遠(yuǎn)的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準(zhǔn)選取與該正樣本相鄰的樣本集合,再?gòu)臉颖炯现羞x取樣本,并根據(jù)特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對(duì)于現(xiàn)有技術(shù)針對(duì)不平衡樣本集進(jìn)行簡(jiǎn)單復(fù)制某些正樣本的過(guò)抽樣處理方法而言,提高了平衡樣本集的真實(shí)性。根據(jù)本申請(qǐng)生成的真實(shí)性較高的平衡樣本集進(jìn)行模型訓(xùn)練后,模型的性能也會(huì)得到提升。
在實(shí)際應(yīng)用中,還有一種現(xiàn)有技術(shù),也是對(duì)不平衡樣本集進(jìn)行合成少數(shù)類(lèi)樣本的過(guò)抽樣方法,即SMOTE(Synthetic Minority Over-Sampling Technique)算法,該算法是在不平衡樣本集中,先隨機(jī)選取一個(gè)正樣本,再選取與該正樣本最近的另一個(gè)正樣本,在這兩正樣本之間隨機(jī)選取一點(diǎn)建立合成正樣本,該算法雖然與本申請(qǐng)類(lèi)似,但是如前所述,對(duì)于不平衡樣本集而言,正樣本之間的距離比較遠(yuǎn)(且失衡越嚴(yán)重,正樣本之間的距離往往越大),所以正樣本之間大多沒(méi)有什么相似特征,所以在兩正樣本之間建立的正樣本從特征值上看與哪個(gè)正樣本都有較大差異,也是比較盲目地進(jìn)行過(guò)抽樣處理方法。舉實(shí)例來(lái)說(shuō), 住在中國(guó)北京的一位市民與住在澳大利亞堪培拉的一位市民,雖然都存在逾期不還信用卡的行為(即逾期樣本),但是無(wú)論從消費(fèi)習(xí)慣、貨幣購(gòu)買(mǎi)力,還是從人種、社會(huì)背景上都存在較大差異,所以不能輕易的認(rèn)為在這兩位市民之間的帕勞共和國(guó)某個(gè)城市的市民就為逾期樣本。然而本申請(qǐng)中,會(huì)找住在中國(guó)上海的一位市民(逾期樣本或非逾期樣本),在這兩位市民之間如山東省濟(jì)南市建立合成逾期樣本,由于無(wú)論從消費(fèi)習(xí)慣、貨幣購(gòu)買(mǎi)力,還是從人種、社會(huì)背景上都不存較大差異,所以建立出的合成逾期樣本,才更加真實(shí)可信。
實(shí)施例2
隨著個(gè)人征信體系的發(fā)展,可以為每個(gè)人建立“信用檔案”,信用檔案中包括用戶的歷史信用信息,比如,多維度的與信用有關(guān)的數(shù)據(jù)(年齡、教育、個(gè)人檔案、工作、工資收入等)。通過(guò)對(duì)歷史信用信息的分析,就可以預(yù)測(cè)出未來(lái)這個(gè)人是否可信。然而在建立樣本集時(shí),由于不還信用卡的人畢竟是少數(shù),所以逾期樣本相對(duì)于非逾期樣本是非常少的,這就形成了不平衡樣本集,如前所述,現(xiàn)有技術(shù)只是簡(jiǎn)單的復(fù)制某些逾期樣本來(lái)進(jìn)行過(guò)抽樣處理,但是每個(gè)人(作為一個(gè)樣本)的特征值都不盡相同(沒(méi)有完全相同的兩個(gè)人),所以簡(jiǎn)單復(fù)制就會(huì)導(dǎo)致建立的合成逾期樣本的真實(shí)性較差。在利用SMOTE算法進(jìn)行過(guò)抽樣處理時(shí),由于兩逾期樣本一般相距較遠(yuǎn),在它們之間建立的逾期樣本也不具有較高的真實(shí)性,具體原因可以參考實(shí)施例1中描述。所以針對(duì)現(xiàn)有技術(shù)對(duì)不平衡的個(gè)人信用樣本集進(jìn)行過(guò)抽樣處理而達(dá)到樣本平衡的方法的缺陷,且基于與實(shí)施例1相同的發(fā)明構(gòu)思,實(shí)施例2提供了一種針對(duì)不平衡信用樣本進(jìn)行信用模型訓(xùn)練的方法,用于提高信用模型的性能。該方法的流程示意圖如圖10所示,包括下述步驟:
步驟21:根據(jù)用戶對(duì)應(yīng)的特征和特征值,建立原始個(gè)人信用樣本集。
該步驟中,可以先獲取用戶對(duì)應(yīng)的所有特征和特征值,再進(jìn)行預(yù)處理的操作,在這個(gè)過(guò)程中,不同的數(shù)據(jù)源首先經(jīng)過(guò)數(shù)據(jù)清洗,消除錯(cuò)誤數(shù)據(jù)和無(wú)關(guān)數(shù) 據(jù),然后經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換而成為系統(tǒng)可以識(shí)別和支持的格式,最后通過(guò)每一個(gè)用戶的數(shù)據(jù)唯一標(biāo)識(shí)而將同一用戶在不同數(shù)據(jù)來(lái)源中的數(shù)據(jù)融合為一條數(shù)據(jù)。在完成預(yù)處理操作后,就可以根據(jù)用戶對(duì)應(yīng)的特征和特征值建立原始個(gè)人信用樣本集。該樣本集中包含逾期樣本(到期不還信用卡的用戶)和非逾期樣本(到期還清信用卡的用戶),由于逾期樣本一定是少數(shù)的,所以該原始個(gè)人信用樣本集一定是不平衡的樣本集。
步驟22:從原始個(gè)人信用樣本集中選取一個(gè)逾期樣本。
步驟23:根據(jù)樣本數(shù)量比,以及該逾期樣本在樣本空間中與至少一個(gè)其它逾期樣本之間的距離,確定相鄰距離閾值。
步驟24:根據(jù)確定出的相鄰距離閾值以及樣本數(shù)量比,以該逾期樣本為基準(zhǔn),從樣本空間中選取與該逾期樣本相鄰的樣本集合。
樣本集合中可以包含逾期樣本,也可以包含非逾期樣本。
步驟25:根據(jù)該逾期樣本與樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在該逾期樣本與樣本集合中的樣本的中間位置建立合成逾期樣本。
步驟26:判斷合成逾期樣本與逾期樣本的數(shù)量之和與非逾期樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi)。
當(dāng)不在,且小于該平衡閾值區(qū)間的最小值時(shí),從原始個(gè)人信用樣本集中再選取一個(gè)逾期樣本,重復(fù)執(zhí)行步驟22到步驟26,也就是繼續(xù)建立合成逾期樣本。
當(dāng)在該平衡閾值區(qū)間內(nèi)時(shí),則可以認(rèn)為此時(shí)的逾期樣本(包括合成逾期樣本)非逾期負(fù)樣本之間達(dá)到平衡。所以可以將合成逾期樣本修改為逾期樣本,并生成平衡的個(gè)人信用樣本集。
步驟27:根據(jù)平衡的個(gè)人信用樣本集訓(xùn)練信用模型。
在實(shí)際應(yīng)用中,可以獲取用戶一年內(nèi)的信用數(shù)據(jù)以及對(duì)應(yīng)的信用記錄,取前三季度的信用數(shù)據(jù)以及對(duì)應(yīng)的信用記錄用于訓(xùn)練信用模型,最后一個(gè)季度用于驗(yàn)證信用模型的性能。如果性能未達(dá)到預(yù)期要求,可以適當(dāng)調(diào)整比如選取相 鄰樣本集合過(guò)程中的參數(shù)(比如對(duì)K、N和/或D進(jìn)行系數(shù)加成)等。
采用實(shí)施例2提供的該方法,由于在不平衡的個(gè)人信用樣本集中,逾期樣本是很少的,但是與逾期樣本相鄰不遠(yuǎn)的樣本往往存在與該逾期樣本相同或相似的特征,以該逾期樣本為基準(zhǔn)選取與該逾期樣本相鄰的樣本集合,再?gòu)臉颖炯现羞x取逾期或非逾期樣本,并根據(jù)特征和特征值與該樣本集合中的這個(gè)樣本建立合成逾期樣本,使得合成逾期樣本也與逾期樣本存在特征值上的相似性,相對(duì)于現(xiàn)有技術(shù)針對(duì)不平衡的個(gè)人信用樣本集進(jìn)行簡(jiǎn)單復(fù)制某些逾期樣本的過(guò)抽樣處理方法而言,提高了個(gè)人信用樣本集的真實(shí)性,在根據(jù)真實(shí)性較高的平衡的個(gè)人信用樣本集對(duì)信用模型進(jìn)行訓(xùn)練后,信用模型的性能也會(huì)得到提升。
實(shí)施例3
基于相同的發(fā)明構(gòu)思,實(shí)施例3提供了一種針對(duì)不平衡樣本集的樣本平衡裝置,用于在對(duì)不平衡樣本集進(jìn)行過(guò)抽樣處理時(shí),提高樣本的真實(shí)性。圖11為該裝置的結(jié)構(gòu)框圖,該裝置包括:
正樣本選取單元31、樣本集合選取單元32、合成正樣本建立單元33、判斷單元34以及平衡樣本集生成單元35,其中,
正樣本選取單元31,可以用于從不平衡樣本集中選取一個(gè)正樣本;
樣本集合選取單元32,可以用于以一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與一個(gè)正樣本相鄰的樣本集合,樣本集合中包含負(fù)樣本和/或正樣本;
合成正樣本建立單元33,可以用于根據(jù)一個(gè)正樣本與樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在一個(gè)正樣本與樣本集合中的樣本之間建立合成正樣本;
判斷單元34,可以用于判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);
平衡樣本集生成單元35,可以用于當(dāng)判斷結(jié)果為是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集。
在一種實(shí)施方式中,該裝置還包括跳轉(zhuǎn)單元,可以用于:
當(dāng)判斷結(jié)果為否,且小于平衡閾值區(qū)間的最小值是時(shí),跳轉(zhuǎn)執(zhí)行正樣本選取單元。
采用實(shí)施例3提供的該裝置,由于在不平衡本集中,少數(shù)類(lèi)樣本(正樣本)是較少的,但是與正樣本相鄰不遠(yuǎn)的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準(zhǔn)選取與該正樣本相鄰的樣本集合,再?gòu)臉颖炯现羞x取樣本,并根據(jù)特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對(duì)于現(xiàn)有技術(shù)針對(duì)不平衡樣本集進(jìn)行簡(jiǎn)單復(fù)制某些正樣本的過(guò)抽樣處理方法而言,提高了平衡樣本集的真實(shí)性。根據(jù)本申請(qǐng)生成的真實(shí)性較高的平衡樣本集進(jìn)行模型訓(xùn)練后,模型的性能也會(huì)得到提升。
實(shí)施例4
在實(shí)施例2中已經(jīng)介紹了一種針對(duì)不平衡信用樣本進(jìn)行信用模型訓(xùn)練的方法,并且在實(shí)際應(yīng)用中,平衡樣本的目的大部分還是用在訓(xùn)練模型上,所以,基于相同的發(fā)明構(gòu)思,本實(shí)施例4提供一種針對(duì)不平衡樣本集的模型訓(xùn)練方法,對(duì)不平衡樣本集進(jìn)行樣本平衡后再訓(xùn)練模型,從而提高模型的性能。該方法的流程示意圖如圖12所示,包括下述步驟:
步驟41:獲取不平衡樣本集。
該步驟中,不平衡樣本集中可以包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值。在實(shí)際應(yīng)用中,也可以以包含的內(nèi)容為條件,判斷樣本集是否為不平衡樣本集,比如,接收到某個(gè)樣本集,判斷該樣本集中是否只包含兩種樣本,再判斷出負(fù)樣本與正樣本的樣本數(shù)量比是否大于不平衡閾值(如1.2),根據(jù)判斷結(jié)果確定出是否為不平衡樣本,以便再進(jìn)行后續(xù)操作。
步驟42:根據(jù)不平衡樣本集中的正樣本,以及與正樣本相鄰的樣本,建立合成正樣本。
該步驟中,可以分解為三個(gè)子步驟,即實(shí)施例1中介紹的步驟11、步驟12 和步驟13,目的就是通過(guò)正樣本以及與每個(gè)正樣本相鄰的負(fù)樣本和/或正樣本,建立合成正樣本,從而達(dá)到樣本平衡的目的。詳細(xì)步驟已經(jīng)在實(shí)施例1中介紹,此處不再贅述。
步驟43:當(dāng)合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值在平衡閾值區(qū)間內(nèi)時(shí),將合成正樣本修改為正樣本,生成平衡樣本集。
該步驟就是利用步驟42建立的合成正樣本,通過(guò)判斷代表正樣本的合成正樣本與正樣本的數(shù)量之和是否與負(fù)樣本達(dá)到平衡,來(lái)生成平衡樣本集的過(guò)程,詳細(xì)步驟已經(jīng)在實(shí)施例1中介紹,此處不再贅述。
步驟44:根據(jù)平衡樣本集進(jìn)行模型訓(xùn)練。
采用實(shí)施例4提供的該方法,對(duì)于獲取到的不平衡樣本集,利用與正樣本相鄰的樣本建立與正樣本相關(guān)的樣本,從而提高了平衡樣本集的真實(shí)性。再根據(jù)真實(shí)性較高的平衡樣本集進(jìn)行模型訓(xùn)練,模型的性能也會(huì)得到提升。
實(shí)施例5
基于相同的發(fā)明構(gòu)思,實(shí)施例5提供了一種針對(duì)不平衡樣本集的模型訓(xùn)練裝置,對(duì)不平衡樣本集進(jìn)行樣本平衡后再訓(xùn)練模型,從而提高模型的性能。圖13為該裝置的結(jié)構(gòu)框圖,該裝置包括:
樣本集獲取單元51、樣本建立單元52、樣本集生成單元53以及模型訓(xùn)練單元54,其中,
樣本集獲取單元51,可以用于獲取不平衡樣本集,不平衡樣本集中包含負(fù)樣本和正樣本,且負(fù)樣本與正樣本的樣本數(shù)量比大于不平衡閾值,所述不平衡閾值大于1;
樣本建立單元52,可以用于根據(jù)不平衡樣本集中的正樣本,以及與正樣本相鄰的樣本,建立合成正樣本,與正樣本相鄰的樣本包含負(fù)樣本和/或正樣本;
樣本集生成單元53,可以用于當(dāng)合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值在平衡閾值區(qū)間內(nèi)時(shí),將合成正樣本修改為正樣本,生成平衡樣本 集;
模型訓(xùn)練單元54,可以用于根據(jù)平衡樣本集進(jìn)行模型訓(xùn)練。
在一種實(shí)施方式中,樣本建立單元52包括:正樣本選取單元31、樣本集合選取單元32以及合成正樣本建立單元33,其中,
正樣本選取單元31,可以用于從不平衡樣本集中選取一個(gè)正樣本;
樣本集合選取單元32,可以用于以一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與一個(gè)正樣本相鄰的樣本集合,樣本集合中包含負(fù)樣本和/或正樣本;
合成正樣本建立單元33,可以用于根據(jù)一個(gè)正樣本與樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征和特征值,在一個(gè)正樣本與樣本集合中的樣本之間建立合成正樣本。
在一種實(shí)施方式中,樣本集生成單元53包括:判斷單元34、平衡樣本集生成單元35以及跳轉(zhuǎn)單元,其中,
判斷單元34,可以用于判斷合成正樣本與正樣本的數(shù)量之和與負(fù)樣本數(shù)量的比值是否在平衡閾值區(qū)間內(nèi);
平衡樣本集生成單元35,可以用于當(dāng)判斷結(jié)果為是時(shí),將合成正樣本修改為正樣本,生成平衡樣本集;
跳轉(zhuǎn)單元,可以用于當(dāng)判斷結(jié)果為否,且小于所述平衡閾值區(qū)間的最小值時(shí),跳轉(zhuǎn)執(zhí)行所述樣本建立單元。
在一種實(shí)施方式中,樣本集合選取單元32,可以用于:
根據(jù)樣本數(shù)量比,以及一個(gè)正樣本在樣本空間中與至少一個(gè)正樣本之間的距離,確定相鄰距離閾值;
根據(jù)相鄰距離閾值以及樣本數(shù)量比,以一個(gè)正樣本為基準(zhǔn),從樣本空間中選取與一個(gè)正樣本相鄰的樣本集合。
在一種實(shí)施方式中,合成正樣本建立單元33,可以用于:
根據(jù)一個(gè)正樣本與樣本集合中的樣本在樣本空間中分別對(duì)應(yīng)的特征值,在一個(gè)正樣本與樣本集合中的樣本的中間位置建立合成正樣本。
采用實(shí)施例5提供的該裝置,對(duì)于獲取到的不平衡樣本集,利用與正樣本相鄰的樣本建立與正樣本相關(guān)的樣本,從而提高了平衡樣本集的真實(shí)性。再根據(jù)真實(shí)性較高的平衡樣本集進(jìn)行模型訓(xùn)練,模型的性能也會(huì)得到提升。
實(shí)施例6
現(xiàn)有技術(shù),對(duì)個(gè)人信用的評(píng)分方法是基于簡(jiǎn)單的規(guī)則,比如,新的個(gè)人信用分?jǐn)?shù)為1,如果當(dāng)月按期還款,則在原有基礎(chǔ)上加0.1的分?jǐn)?shù),當(dāng)季度基、當(dāng)半年、當(dāng)年全部按期還款,會(huì)有分?jǐn)?shù)不等的加成。但是隨著大數(shù)據(jù)時(shí)代的到來(lái),這種簡(jiǎn)單的評(píng)分方法已經(jīng)不能適應(yīng)大數(shù)據(jù)、多維度、多場(chǎng)景的信用評(píng)分要求。所以基于與前述實(shí)施例相同的發(fā)明構(gòu)思,實(shí)施例6提供了一種個(gè)人信用評(píng)分系統(tǒng),用于提高個(gè)人信用評(píng)分的真實(shí)性。圖14為該系統(tǒng)的結(jié)構(gòu)框圖,該系統(tǒng)包括:
原始個(gè)人信用建立系統(tǒng)61、樣本平衡系統(tǒng)62、信用模型訓(xùn)練系統(tǒng)63、個(gè)人信用評(píng)分系統(tǒng)64,其中,
原始個(gè)人信用建立系統(tǒng)61,可以用于根據(jù)用戶對(duì)應(yīng)的特征和特征值,建立原始個(gè)人信用樣本集。
比如,可以在當(dāng)日獲取還款日為前一日的所有用戶在前個(gè)月對(duì)應(yīng)的特征和特征值,建立原始個(gè)人信用樣本集。具體地,還款日為10日,在9月11日時(shí),獲取用戶在8月11日至9月10日的信用數(shù)據(jù)以及對(duì)應(yīng)的信用記錄(逾期或非逾期)。
樣本平衡系統(tǒng)62,可以用于對(duì)原始個(gè)人信用樣本集進(jìn)行樣本平衡。
由于逾期畢竟是少數(shù),所以可以根據(jù)實(shí)施例1中的平衡樣本的方式,對(duì)原始個(gè)人信用樣本集進(jìn)行平衡。
信用模型訓(xùn)練系統(tǒng)63,可以用于根據(jù)平衡后的個(gè)人信用樣本集訓(xùn)練信用模型。
個(gè)人信用評(píng)分系統(tǒng)64,可以用于根據(jù)用戶對(duì)應(yīng)的特征和特征值,利用信 用模型對(duì)用戶的逾期情況進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行個(gè)人信用評(píng)分。
比如,可以在還款日的前若干天,根據(jù)用戶當(dāng)月的信用數(shù)據(jù),利用信用模型,對(duì)用戶的逾期情況進(jìn)行預(yù)測(cè),比如99%會(huì)還款,或72%會(huì)還款,根據(jù)預(yù)測(cè)的結(jié)果,可以在原有分?jǐn)?shù)的基礎(chǔ)上進(jìn)行加成,可以利用邏輯回歸算法,計(jì)算分值,具體比如95%以上,可以加1分,60%以下,會(huì)減1分,等等。
采用實(shí)施例4提供的該系統(tǒng),由于按照本申請(qǐng)的平衡樣本的方法對(duì)不平衡的原始個(gè)人信用樣本集進(jìn)行平衡,即修正,形成更加真實(shí)的多維度的平衡樣本,所以相對(duì)于現(xiàn)技術(shù)僅靠簡(jiǎn)單的規(guī)則進(jìn)行評(píng)分而言,提高了個(gè)人信用分?jǐn)?shù)的真實(shí)性,也就更能真實(shí)地體現(xiàn)用戶的信用度。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性?xún)?nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程 序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。