本公開(kāi)涉及線性模型特征處理技術(shù)領(lǐng)域,尤其涉及特征工程策略確定方法及裝置。
背景技術(shù):
目前在建立芝麻信用分?jǐn)?shù)據(jù)模型的過(guò)程中,需要利用大規(guī)模機(jī)器學(xué)習(xí)算法對(duì)海量數(shù)據(jù)進(jìn)行分類或回歸計(jì)算,在將海量數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)算法之前,需要首先對(duì)海量數(shù)據(jù)利用特征工程策略進(jìn)行處理,再將處理后的海量數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)算法中。
由于不同特征的特征值有不同的特點(diǎn),不同的特征工程策略也有不同的特點(diǎn),這樣如果對(duì)所有特征都采用單一的特征工程策略進(jìn)行處理,將特征工程策略應(yīng)用在不適合的特征上,可能導(dǎo)致模型的訓(xùn)練效果不理想。
而且,由于能夠運(yùn)用到可能與建模目標(biāo)有因果關(guān)系的特征種類繁多,具初步統(tǒng)計(jì),能夠用來(lái)進(jìn)入芝麻信用分?jǐn)?shù)據(jù)模型訓(xùn)練的特征數(shù)量有上千個(gè)甚至上萬(wàn)個(gè),這樣如果利用目前常用的人工觀察的方法選擇特征工程策略將導(dǎo)致效率非常低。
技術(shù)實(shí)現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種特征工程策略確定方法及裝置。
根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種特征工程策略確定方法,包括:
獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值;
根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間;
獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例;
計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率;
根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
可選地,所述根據(jù)多個(gè)特征值的排序確定多個(gè)分位區(qū)間,包括:
將多個(gè)特征值進(jìn)行排序;
根據(jù)預(yù)設(shè)區(qū)間數(shù)量將至少一個(gè)的特征值確定為分位點(diǎn),以及,每個(gè)分位點(diǎn)的位置信息;
按照每個(gè)分位點(diǎn)的位置信息,利用分位點(diǎn)將排序后的多個(gè)特征值分隔成預(yù)設(shè)區(qū)間數(shù)量個(gè)分位區(qū)間,每個(gè)所述分位區(qū)間包含相同數(shù)量個(gè)所述特征值。
可選地,所述確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略,包括:
判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件;
當(dāng)所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件時(shí),計(jì)算多個(gè)特征值的離差系數(shù);
判斷所述離差系數(shù)是否大于第一預(yù)設(shè)閾值;
當(dāng)所述離差系數(shù)大于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等頻率連續(xù)歸一方式;
當(dāng)所述離差系數(shù)小于或等于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等域?qū)掃B續(xù)歸一方式。
可選地,所述判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件,包括:
按照預(yù)設(shè)先后順序依次判斷所有正樣本變化率是否均大于預(yù)設(shè)變化率閾值;
當(dāng)所有正樣本變化率均大于預(yù)設(shè)變化率閾值時(shí),確定滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件;
當(dāng)存在小于或等于預(yù)設(shè)變化率閾值的正樣本變化率時(shí),將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并;判斷合并后的分位區(qū)間的正樣本變化率是否大于預(yù)設(shè)變化率閾值,當(dāng)合并后分位區(qū)間的變化率大于預(yù)設(shè)變化率閾值時(shí),確定所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
可選地,所述將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并,包括:
當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將所述第一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并;
當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率不是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將當(dāng)前正樣本變化率在預(yù)設(shè)先后順序的前一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
可選地,所述確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略,還包括:
當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),判斷所述正樣本變化率是否滿足預(yù)設(shè)離散化處理?xiàng)l件;
當(dāng)所述正樣本變化率滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),獲取用于分隔所述正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間的分位點(diǎn),并將所述分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中;
判斷所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量是否大于第二預(yù)設(shè)閾值;
當(dāng)所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量大于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為多特征離散方式;
當(dāng)所述分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量小于或等于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為單一特征離散方式。
可選地,所述確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略,還包括:
當(dāng)所述正樣本變化率不滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),確定預(yù)設(shè)特征工程策略為woe方式。
可選地,所述獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例,包括:
獲取預(yù)設(shè)模型的目標(biāo)維度特征;
將每個(gè)分位區(qū)間中滿足目標(biāo)維度特征的至少一個(gè)特征值確定為正樣本;
統(tǒng)計(jì)每個(gè)分位區(qū)間中正樣本的數(shù)量,以及,分位區(qū)間中特征值的數(shù)量;
將每個(gè)分位區(qū)間中正樣本的數(shù)量與分位區(qū)間中特征值的數(shù)量的比值確定為正樣本比例。
根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種特征工程策略確定裝置,包括:
第一獲取模塊,用于獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值;
第一確定模塊,用于根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間;
第二獲取模塊,用于獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例;
計(jì)算模塊,用于計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率;
第二確定模塊,用于根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
可選地,所述第一確定模塊包括:
排序子模塊,用于將多個(gè)特征值進(jìn)行排序;
第一確定子模塊,用于根據(jù)預(yù)設(shè)區(qū)間數(shù)量將至少一個(gè)的特征值確定為分位點(diǎn),以及,每個(gè)分位點(diǎn)的位置信息;
分隔子模塊,用于按照每個(gè)分位點(diǎn)的位置信息,利用分位點(diǎn)將排序后的多個(gè)特征值分隔成預(yù)設(shè)區(qū)間數(shù)量個(gè)分位區(qū)間,每個(gè)所述分位區(qū)間包含相同數(shù)量個(gè)所述特征值。
可選地,所述第二確定模塊包括:
第一判斷子模塊,用于判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件;
計(jì)算子模塊,用于當(dāng)所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件時(shí),計(jì)算多個(gè)特征值的離差系數(shù);
第二判斷子模塊,用于判斷所述離差系數(shù)是否大于第一預(yù)設(shè)閾值;
第二確定子模塊,用于當(dāng)所述離差系數(shù)大于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等頻率連續(xù)歸一方式;
第三確定子模塊,用于當(dāng)所述離差系數(shù)小于或等于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等域?qū)掃B續(xù)歸一方式。
可選地,所述第一判斷子模塊包括:
判斷單元,用于按照預(yù)設(shè)先后順序依次判斷所有正樣本變化率是否均大于預(yù)設(shè)變化率閾值;
確定單元,用于當(dāng)所有正樣本變化率均大于預(yù)設(shè)變化率閾值時(shí),確定滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件;
合并確定單元,用于當(dāng)存在小于或等于預(yù)設(shè)變化率閾值的正樣本變化率時(shí),將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并;判斷合并后的分位區(qū)間的正樣本變化率是否大于預(yù)設(shè)變化率閾值,當(dāng)合并后分位區(qū)間的變化率大于預(yù)設(shè)變化率閾值時(shí),確定所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
可選地,所述合并確定單元包括:
第一合并子單元,用于當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將所述第一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并;
第二合并子單元,用于當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率不是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將當(dāng)前正樣本變化率在預(yù)設(shè)先后順序的前一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
可選地,第二確定模塊還包括:
第三判斷子模塊,用于當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),判斷所述正樣本變化率是否滿足預(yù)設(shè)離散化處理?xiàng)l件;
第一獲取子模塊,用于當(dāng)所述正樣本變化率滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),獲取用于分隔所述正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間的分位點(diǎn),并將所述分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中;
第四判斷子模塊,用于判斷所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量是否大于第二預(yù)設(shè)閾值;
第四確定子模塊,用于當(dāng)所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量大于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為多特征離散方式;
第五確定子模塊,用于當(dāng)所述分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量小于或等于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為單一特征離散方式。
可選地,所述第二確定模塊還包括:
第六確定子模塊,用于當(dāng)所述正樣本變化率不滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),確定預(yù)設(shè)特征工程策略為woe方式。
可選地,所述第二獲取模塊包括:
第二獲取子模塊,用于獲取預(yù)設(shè)模型的目標(biāo)維度特征;
第七確定子模塊,用于將每個(gè)分位區(qū)間中滿足目標(biāo)維度特征的至少一個(gè)特征值確定為正樣本;
統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)每個(gè)分位區(qū)間中正樣本的數(shù)量,以及,分位區(qū)間中特征值的數(shù)量;
第八確定子模塊,用于將每個(gè)分位區(qū)間中正樣本的數(shù)量與分位區(qū)間中特征值的數(shù)量的比值確定為正樣本比例。
本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
本公開(kāi)通過(guò)獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值;根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間;獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例;計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率;根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,可以確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
本公開(kāi)實(shí)施例提供的該方法,能夠挖掘每個(gè)特征的本質(zhì)屬性,根據(jù)每個(gè)特征的本質(zhì)屬性自動(dòng)的選擇最適合該特征的特征工程策略,這樣不僅可以發(fā)揮每個(gè)特征最大的“潛能”,最重要的是數(shù)據(jù)模型的預(yù)測(cè)精度將大大提高,并且提高處理效率。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
附圖說(shuō)明
此處的附圖被并入說(shuō)明書中并構(gòu)成本說(shuō)明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說(shuō)明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實(shí)施例示出的一種特征工程策略確定方法的流程圖;
圖2是圖1中步驟s105的一種流程圖;
圖3是圖2中步驟s201的流程圖;
圖4是圖1中步驟s105的另一種流程圖;
圖5是圖1中步驟s105的另一種流程圖;
圖6是根據(jù)一示例性實(shí)施例示出的一種特征工程策略確定裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
如圖1所示,在本公開(kāi)的一個(gè)實(shí)施例中,提供一種特征工程策略確定方法,包括以下步驟。
在步驟s101中,獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值。
在本公開(kāi)實(shí)施例中,預(yù)設(shè)模型可以用于根據(jù)輸入的預(yù)設(shè)維度特征及特征值判斷用戶是否滿足目標(biāo)維度特征的人群,例如,預(yù)設(shè)維度特征可以為身高、體重、消費(fèi)數(shù)額和購(gòu)物對(duì)象等等,當(dāng)預(yù)設(shè)維度特征為身高時(shí),特征值可以為160cm、150cm、170cm和180cm等等,當(dāng)預(yù)設(shè)維度特征為體重時(shí),特征值可以為60kg、40kg、80kg、50kg、90kg和70kg等等,目標(biāo)維度特征可以為男人和女人或者好人和壞人等等,當(dāng)目標(biāo)特征為男人和女人時(shí),可以用多個(gè)維度的預(yù)設(shè)維度特征訓(xùn)練預(yù)設(shè)模型,例如:身高、體重和購(gòu)物對(duì)象等。
在該步驟中,可以在事先采集的多個(gè)用于訓(xùn)練預(yù)設(shè)模型的多個(gè)不同的預(yù)設(shè)維度特征中選擇一個(gè)預(yù)設(shè)維度特征,并獲取該預(yù)設(shè)維度特征的特征值,例如:獲取身高特征的多個(gè)特征值。
在步驟s102中,根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間。
在本公開(kāi)實(shí)施例中,排序可以指按照從小到大排序,從大到小排序等等,預(yù)設(shè)區(qū)間數(shù)量可以指根據(jù)特征值的數(shù)量確定的分位區(qū)間數(shù)量,或者是根據(jù)實(shí)際需要設(shè)置的分位區(qū)間數(shù)量,例如:10個(gè)、5個(gè)等。
在該步驟中,可以將獲取的多個(gè)特征值進(jìn)行排序,根據(jù)預(yù)設(shè)區(qū)間數(shù)量將至少一個(gè)的特征值確定為分位點(diǎn),以及,每個(gè)分位點(diǎn)的位置信息,按照每個(gè)分位點(diǎn)的位置信息,利用分位點(diǎn)將排序后的多個(gè)特征值分隔成預(yù)設(shè)區(qū)間數(shù)量個(gè)分位區(qū)間,每個(gè)所述分位區(qū)間包含相同數(shù)量個(gè)所述特征值。
在實(shí)際應(yīng)用中,假如有100個(gè)人,將這100人按身高特征從大到小排序,當(dāng)預(yù)設(shè)區(qū)間數(shù)量為10時(shí),則9個(gè)分位點(diǎn)分別就是100個(gè)人中第10名、第20名,…第90名的那個(gè)人所在的特征值,這樣可以把這100個(gè)人劃分為10個(gè)區(qū)間,每個(gè)區(qū)間10個(gè)人。
在步驟s103中,獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例。
在本公開(kāi)實(shí)施例中,作為正樣本的特征值可以指滿足目標(biāo)維度特征的特征值,例如目標(biāo)維度特征為男生和女生,這是可以將100個(gè)人中為男生的人的身高特征值作為正樣本,其余的女生為負(fù)樣本,或者,將等100個(gè)人中為女生的人的身高特征值作為正樣本,其余的男生為正樣本等。
在該步驟中,可以獲取預(yù)設(shè)模型的目標(biāo)維度特征,將每個(gè)分位區(qū)間中滿足目標(biāo)維度特征的至少一個(gè)特征值確定為正樣本,統(tǒng)計(jì)每個(gè)分位區(qū)間中正樣本的數(shù)量,以及,分位區(qū)間中特征值的數(shù)量,將每個(gè)分位區(qū)間中正樣本的數(shù)量與分位區(qū)間中特征值的數(shù)量的比值確定為正樣本比例。
在實(shí)際應(yīng)用中,假如按身高從大到小排序的100個(gè)人中,第一個(gè)區(qū)間是第1-10名,10個(gè)全是男生,這時(shí)第一個(gè)區(qū)間的正樣本比例為10/10等于1,第二個(gè)區(qū)間是第11-20名,有8個(gè)男生2個(gè)女生,這時(shí)第二個(gè)區(qū)間的正樣本比例為8/10等于0.8,隨著區(qū)間往后,男生的比例越來(lái)越少,正樣本比例也越來(lái)越小,這說(shuō)明,身高是判斷男女生的有效特征,比如一個(gè)人的身高在最矮的那10個(gè)人也就是第10個(gè)區(qū)間里面,那這個(gè)人是女生的概率就非常大。
在步驟s104中,計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率。
在本公開(kāi)實(shí)施例中,正樣本變化率可以指相鄰的兩個(gè)分位區(qū)間的正樣本比例之間的差值等,計(jì)算公式如下:
αi→i+1=pi+1-pii=1,2,...n-1
其中,特征中各分位點(diǎn)區(qū)間的正樣本比例為p1、p2…pn,其中n為分位點(diǎn)區(qū)間個(gè)數(shù)。pn-p1>0時(shí)表示該特征為正向特征,反之為負(fù)向特征。
在該步驟中,可以分別計(jì)算多個(gè)分位區(qū)間中每?jī)蓚€(gè)相鄰的分位區(qū)間的、正樣本比例之間的差值,例如可以首先計(jì)算第一個(gè)分位區(qū)間和第二個(gè)分位區(qū)間的正樣本比例之間的差值0.8-1=-0.2,再計(jì)算第二個(gè)分位區(qū)間和第三個(gè)分位區(qū)間的正樣本比例之間的差值……最后計(jì)算第九個(gè)分位區(qū)間和第十個(gè)分位區(qū)間的正樣本比例之間的差值等。
在步驟s105中,根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
在本公開(kāi)實(shí)施例中,目標(biāo)特征工程策略可以指等域?qū)掃B續(xù)歸一方式、等頻率連續(xù)歸一方式、多特征離散方式、單一特征離散方式、woe(weightofevidence,權(quán)重證據(jù)法)方式等。
在該步驟中,可以根據(jù)正樣本變化率數(shù)值的特點(diǎn),例如正值,負(fù)值以及相對(duì)于平均值變化范圍的大小等,確定一個(gè)或多個(gè)用于處理預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
本公開(kāi)通過(guò)獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值;根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間;獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例;計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率;根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,可以確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
本公開(kāi)實(shí)施例提供的該方法,能夠挖掘每個(gè)特征的本質(zhì)屬性,根據(jù)每個(gè)特征的本質(zhì)屬性自動(dòng)的選擇最適合該特征的特征工程策略,這樣不僅可以發(fā)揮每個(gè)特征最大的“潛能”,最重要的是數(shù)據(jù)模型的預(yù)測(cè)精度將大大提高,并且提高處理效率。
如圖2所示,在本公開(kāi)的又一實(shí)施例中,所述步驟s105包括以下步驟。
在步驟s201中,判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
在本公開(kāi)實(shí)施例中預(yù)設(shè)連續(xù)化處理?xiàng)l件可以指所有正樣本變化率均為正數(shù)。
在該步驟中,可以按照預(yù)設(shè)先后順序從第一正樣本變化率起始,最后一個(gè)正樣本變化率截止,逐一判斷每個(gè)正樣本變化率。
當(dāng)所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件時(shí),在步驟s202中,計(jì)算多個(gè)特征值的離差系數(shù)。
在本公開(kāi)實(shí)施例中,離差系數(shù)可以表示標(biāo)準(zhǔn)差相對(duì)于平均數(shù)大小的相對(duì)量,其計(jì)算公式如下:
其中,cv表示離差系數(shù),
在步驟s203中,判斷所述離差系數(shù)是否大于第一預(yù)設(shè)閾值。
在本公開(kāi)實(shí)施例中,第一預(yù)設(shè)閾值可以為1。
在該步驟中,可以判斷離差系數(shù)是否大于1。
當(dāng)所述離差系數(shù)大于第一預(yù)設(shè)閾值時(shí),在步驟s204中,確定預(yù)設(shè)特征工程策略為等頻率連續(xù)歸一方式。
在本公開(kāi)實(shí)施例中,等頻率連續(xù)歸一方式可以指后一分位區(qū)間與前一分位區(qū)間的頻率之間的差值是相同的,可以利用頻率=1/區(qū)間個(gè)數(shù)的方式計(jì)算得到第一個(gè)分位區(qū)間的第一頻率,第二個(gè)分位區(qū)間的第二頻率可以在第一頻率的基礎(chǔ)上再加上第一頻率,第三個(gè)分位區(qū)間的第三頻率可以在第二頻率的基礎(chǔ)上再加上第一頻率,……,依此類推,這樣,就可以確定出所有分位區(qū)間的頻率,再利用每個(gè)分位區(qū)間對(duì)應(yīng)的頻率乘以對(duì)應(yīng)分位區(qū)間中的特征值。
當(dāng)所述離差系數(shù)小于或等于第一預(yù)設(shè)閾值時(shí),在步驟s205中,確定預(yù)設(shè)特征工程策略為等域?qū)掃B續(xù)歸一方式。
在本公開(kāi)實(shí)施例中,等域?qū)掃B續(xù)歸一方式可以指等域?qū)掃B續(xù)歸一法的生成公式為:
其中,fold表示未經(jīng)等域?qū)掃B續(xù)歸一法處理的特征值,max和min分別表示所有特征值中的最大值與最小值,fnew表示構(gòu)造完歸一化的特征取值。該方法的可以將fnew的取值范圍映射到0到1之間,并且值與值之間依然保持按比例縮小的距離。
本公開(kāi)通過(guò)判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件,當(dāng)所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件時(shí),計(jì)算多個(gè)特征值的離差系數(shù),判斷所述離差系數(shù)是否大于第一預(yù)設(shè)閾值,當(dāng)所述離差系數(shù)大于第一預(yù)設(shè)閾值時(shí),可以確定預(yù)設(shè)特征工程策略為等頻率連續(xù)歸一方式,當(dāng)所述離差系數(shù)小于或等于第一預(yù)設(shè)閾值時(shí),可以確定預(yù)設(shè)特征工程策略為等域?qū)掃B續(xù)歸一方式。
本公開(kāi)實(shí)施例提供的該方法,能夠利用等域?qū)掃B續(xù)歸一法將fnew的取值范圍映射到0到1之間,并且值與值之間依然保持按比例縮小的距離,但是由于當(dāng)特征值中存在個(gè)別“臟數(shù)據(jù)”(超大或超小值),會(huì)讓特征大部分值集中在一個(gè)很小的范圍內(nèi),影響處理效果,所以本申請(qǐng)?jiān)谟锌赡苡小芭K數(shù)據(jù)”時(shí),還提供一種等頻率連續(xù)歸一法,等頻率連續(xù)歸一法可以完美地克服“臟數(shù)據(jù)”問(wèn)題。
如圖3所示,在本公開(kāi)的又一實(shí)施例中,所述步驟s201包括以下步驟。
在步驟s301中,按照預(yù)設(shè)先后順序依次判斷所有正樣本變化率是否均大于預(yù)設(shè)變化率閾值。
在本公開(kāi)實(shí)施例中,預(yù)設(shè)先后順序可以指從最左邊第一個(gè)正樣本變化率到最右邊的正樣本變化率,也可以指從最右邊第一個(gè)正樣本變化率到最左邊的正樣本變化率等,預(yù)設(shè)變化率閾值可以為0。
在步驟s302中,當(dāng)所有正樣本變化率均大于預(yù)設(shè)變化率閾值時(shí),確定滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
在步驟s303中,當(dāng)存在小于或等于預(yù)設(shè)變化率閾值的正樣本變化率時(shí),將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并;判斷合并后的分位區(qū)間的正樣本變化率是否大于預(yù)設(shè)變化率閾值,當(dāng)合并后分位區(qū)間的變化率大于預(yù)設(shè)變化率閾值時(shí),確定所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
在本公開(kāi)實(shí)施例中,合并的目的是為了判斷特征是否滿足線性性,就是看合并后的分位區(qū)間是否能構(gòu)成一條單調(diào)曲線,如果能,就做連續(xù)化處理,如果不能就做離散化處理。
例如:就判別男女生而言,身高特征可以是一個(gè)滿足單調(diào)性的特征,身高越高,是男生的概率越大,可以做連續(xù)化處理。
在本公開(kāi)實(shí)施例中,所述步驟s303可以包括以下步驟。
當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將所述第一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
例如:如果第一個(gè)分位區(qū)間為a,第二個(gè)分位區(qū)間為b,第三個(gè)分位區(qū)間為c,第四個(gè)分位區(qū)間為d,第五個(gè)分位區(qū)間為e,預(yù)先順序可以指a到e,如果a、b之間的正樣本變化率小于0,可以將ab合并,合并后的ab兩個(gè)分位區(qū)間形成一個(gè)新的分位區(qū)間m,假如,a的兩端為130cm-140cm,b的兩端為140cm-150cm,則合并后的m的兩端為130cm-150cm。
當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率不是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將當(dāng)前正樣本變化率在預(yù)設(shè)先后順序的前一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
例如:在將ab合并完得到m后,此時(shí)分位區(qū)間為mcde,再將m和c比較,如果m和c之間的正樣本變化率大于0,則m與c不需要合并,此時(shí)分位區(qū)間仍為mcde,這時(shí)可以以c為基礎(chǔ),與d比較,如果c和d之間的正樣本變化率小于0,這時(shí)可以將m與c合并,得到新的區(qū)間n,此時(shí)分位區(qū)間為nde,再將n與d繼續(xù)比較,……,直至最后形成1個(gè)或多個(gè)分位區(qū)間。
本公開(kāi)通過(guò)按照預(yù)設(shè)先后順序依次判斷所有正樣本變化率是否均大于預(yù)設(shè)變化率閾值,當(dāng)所有正樣本變化率均大于預(yù)設(shè)變化率閾值時(shí),確定滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件,當(dāng)存在小于或等于預(yù)設(shè)變化率閾值的正樣本變化率時(shí),將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并;判斷合并后的分位區(qū)間的正樣本變化率是否大于預(yù)設(shè)變化率閾值,當(dāng)合并后分位區(qū)間的變化率大于預(yù)設(shè)變化率閾值時(shí),可以確定所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
本公開(kāi)實(shí)施例提供的該方法,能夠自動(dòng)判斷正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
如圖4所示,在本公開(kāi)的又一實(shí)施例中,所述步驟s105還包括以下步驟。
當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),在步驟s401中,判斷所述正樣本變化率是否滿足預(yù)設(shè)離散化處理?xiàng)l件。
在本公開(kāi)實(shí)施例中,當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),即存在小于0的正樣本變化率時(shí);預(yù)設(shè)離散化處理?xiàng)l件可以指該不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率大于2倍的正樣本變化率平均值等;不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率可以為至少0個(gè)。
在該步驟中,可以將該不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率與預(yù)設(shè)離散化處理?xiàng)l件進(jìn)行比較,記αi為第i個(gè)分位區(qū)間到第i+1個(gè)分位區(qū)間的變化率,
當(dāng)所述正樣本變化率滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),在步驟s402中,獲取用于分隔所述正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間的分位點(diǎn),并將所述分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中。
在本公開(kāi)實(shí)施例中,當(dāng)存在滿足預(yù)設(shè)離散化處理?xiàng)l件的正樣本變化率時(shí),這樣的正樣本變化率可以為至少一個(gè),預(yù)設(shè)分位點(diǎn)集合可以指一塊預(yù)設(shè)的存儲(chǔ)空間,或者一個(gè)預(yù)先設(shè)置好的空的數(shù)據(jù)集合等。
在該步驟中,由于正樣本變化率為任意兩個(gè)相鄰的分位區(qū)間之間的正樣本變化率,這時(shí)可以將兩個(gè)相鄰的分位區(qū)間之間的分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中。
在步驟s403中,判斷所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量是否大于第二預(yù)設(shè)閾值。
在本公開(kāi)實(shí)施例中,第二預(yù)設(shè)閾值可以為2等。
在該步驟中,可以統(tǒng)計(jì)預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)數(shù)量,并將分位點(diǎn)數(shù)量與第二預(yù)設(shè)閾值進(jìn)行比較,例如:當(dāng)分位點(diǎn)數(shù)量為3個(gè)時(shí),3>2,則可以確定預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)數(shù)量大于第二預(yù)設(shè)閾值。
當(dāng)所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量大于第二預(yù)設(shè)閾值時(shí),在步驟s404中,確定預(yù)設(shè)特征工程策略為多特征離散方式。
在本公開(kāi)實(shí)施例中,多特征離散方式可以指將預(yù)設(shè)維度特征離散成分位點(diǎn)數(shù)量加一數(shù)量個(gè)特征,例如:當(dāng)預(yù)設(shè)維度特征為身高特征時(shí),且當(dāng)分位點(diǎn)數(shù)量為3個(gè)時(shí),離散后的特征可以為4個(gè)身高區(qū)間:身高130cm-155cm,身高155cm-180cm,身高180cm-205cm,身高205cm-230cm,這時(shí),可以將每個(gè)分位點(diǎn)兩端的分位區(qū)間中的身高依次與離散后的身高特征進(jìn)行比較,當(dāng)一個(gè)人的身高落入任意一個(gè)離散后的身高區(qū)間中時(shí),在該身高區(qū)間對(duì)應(yīng)的特征值即為1,未落入其余3個(gè)身高區(qū)間對(duì)應(yīng)的特征值均為0,例如:當(dāng)一個(gè)人身高為160cm時(shí),其對(duì)應(yīng)的4個(gè)特征值為0,1,0,0,每個(gè)分位點(diǎn)兩端的分位區(qū)間中所有人均可以按照同樣的方法進(jìn)行計(jì)算。
當(dāng)所述分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量小于或等于第二預(yù)設(shè)閾值時(shí),在步驟s405中,確定預(yù)設(shè)特征工程策略為單一特征離散方式。
在本公開(kāi)實(shí)施例中,單一特征離散方式可以指所述分位點(diǎn)集合中包含的分位點(diǎn)數(shù)量小于或等于第二預(yù)設(shè)閾值,并且大于或等于1(因?yàn)槿舸嬖跐M足預(yù)設(shè)離散化處理?xiàng)l件的正樣本變化率,則這樣的正樣本變化率應(yīng)至少為1個(gè))時(shí),可以以分位點(diǎn)為界,分別求出分位點(diǎn)兩端的分位區(qū)間的正樣本比例,落入正樣本比例較高區(qū)間的特征值取1,落入正樣本比例較低區(qū)間的所有值則取0,例如:當(dāng)預(yù)設(shè)維度特征為身高特征時(shí),且當(dāng)分位點(diǎn)數(shù)量為1個(gè)時(shí),如果分位點(diǎn)為140cm時(shí),其左側(cè)分位區(qū)間為身高小于140cm,其右側(cè)分位區(qū)間為身高大于等于140cm,其中右側(cè)分位區(qū)間正樣本比例較高,左側(cè)分位區(qū)間正樣本比例較低,則可以將分位點(diǎn)兩端的分位區(qū)間中的所有身高依次與該分位點(diǎn)進(jìn)行比較,當(dāng)?shù)谝粋€(gè)人的身高落入右側(cè)分位區(qū)間中時(shí),在該分位區(qū)間對(duì)應(yīng)的特征值為1,未落入的左分位區(qū)間對(duì)應(yīng)的特征值為0,例如:當(dāng)一個(gè)人身高為160cm時(shí),其對(duì)應(yīng)的2個(gè)特征值為0,1,分位點(diǎn)兩端的分位區(qū)間中所有人均可以按照同樣的方法進(jìn)行計(jì)算。
本公開(kāi)通過(guò)當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),判斷所述正樣本變化率是否滿足預(yù)設(shè)離散化處理?xiàng)l件,當(dāng)所述正樣本變化率滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),獲取用于分隔所述正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間的分位點(diǎn),并將所述分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中,判斷所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量是否大于第二預(yù)設(shè)閾值,當(dāng)所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量大于第二預(yù)設(shè)閾值時(shí),可以確定預(yù)設(shè)特征工程策略為多特征離散方式,當(dāng)所述分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量小于或等于第二預(yù)設(shè)閾值時(shí),可以確定預(yù)設(shè)特征工程策略為單一特征離散方式。
本公開(kāi)實(shí)施例提供的該方法,能夠?qū)⒄龢颖咀兓蚀笥?倍的正樣本變化率平均值時(shí),可以確定正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間適合做離散處理,并根據(jù)適合做離散處理的正樣本變化率的個(gè)數(shù),也就是分位點(diǎn)的個(gè)數(shù),自動(dòng)選擇對(duì)應(yīng)的離散處理方式。
如圖5所示,在本公開(kāi)的又一實(shí)施例中,所述步驟s105還包括以下步驟。
當(dāng)所述正樣本變化率不滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),在步驟s501中,確定預(yù)設(shè)特征工程策略為woe方式。
在本公開(kāi)實(shí)施例中,woe方式可以很好的貼合線性模型訓(xùn)練,其計(jì)算公式如下:
其中,badi%表示第i個(gè)分位區(qū)間的正樣本比例,goodi%表示第i個(gè)分位區(qū)間的負(fù)樣本比例。
如圖6所示,在本公開(kāi)的又一實(shí)施例中,提供一種特征工程策略確定裝置,包括:第一獲取模塊601、第一確定模塊602、第二獲取模塊603、計(jì)算模塊604和第二確定模塊605。
第一獲取模塊601,用于獲取用于訓(xùn)練預(yù)設(shè)模型的預(yù)設(shè)維度特征的多個(gè)特征值。
第一確定模塊602,用于根據(jù)所述多個(gè)特征值的排序確定多個(gè)分位區(qū)間。
在本公開(kāi)實(shí)施例中,所述第一確定模塊602包括:排序子模塊、第一確定子模塊和分隔子模塊。
其中,排序子模塊,用于將多個(gè)特征值進(jìn)行排序;第一確定子模塊,用于根據(jù)預(yù)設(shè)區(qū)間數(shù)量將至少一個(gè)的特征值確定為分位點(diǎn),以及,每個(gè)分位點(diǎn)的位置信息;分隔子模塊,用于按照每個(gè)分位點(diǎn)的位置信息,利用分位點(diǎn)將排序后的多個(gè)特征值分隔成預(yù)設(shè)區(qū)間數(shù)量個(gè)分位區(qū)間,每個(gè)所述分位區(qū)間包含相同數(shù)量個(gè)所述特征值。
第二獲取模塊603,用于獲取每個(gè)分位區(qū)間中作為正樣本的特征值的數(shù)量與所在區(qū)間內(nèi)所有特征值的數(shù)量的正樣本比例。
在本公開(kāi)實(shí)施例中,所述第二獲取模塊包括:第二獲取子模塊、第七確定子模塊、統(tǒng)計(jì)子模塊和第八確定子模塊。
其中,第二獲取子模塊,用于獲取預(yù)設(shè)模型的目標(biāo)維度特征;第七確定子模塊,用于將每個(gè)分位區(qū)間中滿足目標(biāo)維度特征的至少一個(gè)特征值確定為正樣本;統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)每個(gè)分位區(qū)間中正樣本的數(shù)量,以及,分位區(qū)間中特征值的數(shù)量;第八確定子模塊,用于將每個(gè)分位區(qū)間中正樣本的數(shù)量與分位區(qū)間中特征值的數(shù)量的比值確定為正樣本比例。
計(jì)算模塊604,用于計(jì)算任意兩個(gè)相鄰的所述分位區(qū)間的所述正樣本比例之間的正樣本變化率。
第二確定模塊605,用于根據(jù)所有分位區(qū)間對(duì)應(yīng)的所述正樣本比例之間的正樣本變化率,確定用于處理所述預(yù)設(shè)維度特征的目標(biāo)特征工程策略。
在本公開(kāi)的又一實(shí)施例中,所述第二確定模塊605包括:第一判斷子模塊、計(jì)算子模塊、第二判斷子模塊、第二確定子模塊和第三確定子模塊。
第一判斷子模塊,用于判斷所有正樣本變化率是否滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
計(jì)算子模塊,用于當(dāng)所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件時(shí),計(jì)算多個(gè)特征值的離差系數(shù)。
第二判斷子模塊,用于判斷所述離差系數(shù)是否大于第一預(yù)設(shè)閾值。
第二確定子模塊,用于當(dāng)所述離差系數(shù)大于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等頻率連續(xù)歸一方式。
第三確定子模塊,用于當(dāng)所述離差系數(shù)小于或等于第一預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為等域?qū)掃B續(xù)歸一方式。
在本公開(kāi)的又一實(shí)施例中,所述第一判斷子模塊包括:判斷單元、確定單元和合并確定單元。
判斷單元,用于按照預(yù)設(shè)先后順序依次判斷所有正樣本變化率是否均大于預(yù)設(shè)變化率閾值。
確定單元,用于當(dāng)所有正樣本變化率均大于預(yù)設(shè)變化率閾值時(shí),確定滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
合并確定單元,用于當(dāng)存在小于或等于預(yù)設(shè)變化率閾值的正樣本變化率時(shí),將小于預(yù)設(shè)變化率閾值的正樣本變化率相關(guān)聯(lián)的兩個(gè)分位區(qū)間合并;判斷合并后的分位區(qū)間的正樣本變化率是否大于預(yù)設(shè)變化率閾值,當(dāng)合并后分位區(qū)間的變化率大于預(yù)設(shè)變化率閾值時(shí),確定所有正樣本變化率滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件。
在本公開(kāi)的又一實(shí)施例中,所述合并確定單元包括:第一合并子單元和第二合并子單元。
第一合并子單元,用于當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將所述第一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
第二合并子單元,用于當(dāng)小于或等于預(yù)設(shè)變化率閾值的正樣本變化率不是預(yù)設(shè)先后順序中第一個(gè)正樣本變化率時(shí),將當(dāng)前正樣本變化率在預(yù)設(shè)先后順序的前一個(gè)正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間合并。
在本公開(kāi)的又一實(shí)施例中,第二確定模塊605還包括:第三判斷子模塊、第一獲取子模塊、第四判斷子模塊、第四確定子模塊和第五確定子模塊。
第三判斷子模塊,用于當(dāng)存在不滿足預(yù)設(shè)連續(xù)化處理?xiàng)l件的正樣本變化率時(shí),判斷所述正樣本變化率是否滿足預(yù)設(shè)離散化處理?xiàng)l件。
第一獲取子模塊,用于當(dāng)所述正樣本變化率滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),獲取用于分隔所述正樣本變化率對(duì)應(yīng)的兩個(gè)分位區(qū)間的分位點(diǎn),并將所述分位點(diǎn)存入預(yù)設(shè)分位點(diǎn)集合中。
第四判斷子模塊,用于判斷所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量是否大于第二預(yù)設(shè)閾值。
第四確定子模塊,用于當(dāng)所述預(yù)設(shè)分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量大于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為多特征離散方式。
第五確定子模塊,用于當(dāng)所述分位點(diǎn)集合中包含的分位點(diǎn)的數(shù)量小于或等于第二預(yù)設(shè)閾值時(shí),確定預(yù)設(shè)特征工程策略為單一特征離散方式。
在本公開(kāi)的又一實(shí)施例中,所述第二確定模塊605還包括:第六確定子模塊。
第六確定子模塊,用于當(dāng)所述正樣本變化率不滿足預(yù)設(shè)離散化處理?xiàng)l件時(shí),確定預(yù)設(shè)特征工程策略為woe方式。
本領(lǐng)域技術(shù)人員在考慮說(shuō)明書及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開(kāi)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。