一種有向鏈接式分類器構(gòu)造方法及分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種有向鏈接式分類器構(gòu)造方法及分類方法,屬于計(jì)算機(jī)軟件技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 在信息智能分析領(lǐng)域,許多典型應(yīng)用本質(zhì)上都可以歸結(jié)為分類問題,如惡意代碼 識別、入侵檢測等。傳統(tǒng)的分類方法或高度依賴于人工判定,或基于簡單直接的經(jīng)驗(yàn)性規(guī) 貝1J,分類的效果和效率都亟待提升。在這種情況下,智能化、自動化的分類方法被視為一種 有效的解決方案,而分類器的選擇是一個至關(guān)重要的環(huán)節(jié)。Boosting算法因其構(gòu)造簡單、提 升效果明顯等優(yōu)點(diǎn),成為一種被廣泛應(yīng)用的方法;其中,AdaBoost (Adaptive Boosting)最 具代表性。
[0003] 從機(jī)器學(xué)習(xí)的角度出發(fā),傳統(tǒng)的自動分類方法屬于監(jiān)督學(xué)習(xí)(supervised learning),這類方法完全基于已標(biāo)注樣本作為訓(xùn)練集構(gòu)建分類模型。與之相對應(yīng)的是非監(jiān) 督學(xué)習(xí)(unsupervisedlearning),即從未標(biāo)注樣本出發(fā)挖掘數(shù)據(jù)中隱含的結(jié)構(gòu)化信息的 過程。監(jiān)督學(xué)習(xí)對于已標(biāo)注樣本集的規(guī)模依賴較大,已標(biāo)注樣本越多則分類模型越可靠。但 是在很多實(shí)際分類問題中,由于人力成本、時間代價高昂,往往無法獲得模型訓(xùn)練所需的大 量而充分的樣本類別信息;通常,只能得到一小部分已標(biāo)注樣本,而其余大部分樣本都是未 標(biāo)注的。因此,即便是諸如AdaBoost之類的高效分類器,在訓(xùn)練樣本極為稀少的情況下,也 難以準(zhǔn)確刻畫與揭示出真實(shí)的分類模型。
【背景技術(shù)】 [0004] 的缺陷
[0005] 在傳統(tǒng)AdaBoost分類器構(gòu)造方法中,各個弱分類器僅僅通過由錯誤率而獲得的 訓(xùn)練權(quán)重組合構(gòu)成強(qiáng)分類器,但在弱分類器之間卻不存在直接的聯(lián)系。如果將各個弱分類 器看成是圖模型中的節(jié)點(diǎn),則在傳統(tǒng)AdaBoost分類方法中這些節(jié)點(diǎn)之間并不存在相互鏈 接的邊,換言之這些節(jié)點(diǎn)是相對孤立的。從信息流轉(zhuǎn)角度看,也即不存在弱分類器之間的信 息交互,這就導(dǎo)致先前弱分類器中學(xué)習(xí)獲得的知識無法直接為后續(xù)弱分類器的構(gòu)造提供有 效指導(dǎo),從而浪費(fèi)了有價值信息。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種有向鏈接式分類器構(gòu)造方法及分類方法,通過在弱分 類器之間設(shè)計(jì)有向鏈接信息通路,實(shí)現(xiàn)模型知識的共享傳遞和協(xié)同指導(dǎo)。使用該方法,可以 充分利用有限已標(biāo)注樣本以獲得更優(yōu)的分類結(jié)果,為"已標(biāo)注樣本獲取代價高、數(shù)量少而未 標(biāo)注樣本數(shù)量龐大、普遍存在"的數(shù)據(jù)分類應(yīng)用場景提供了一種有效的解決方案。
[0007] 本發(fā)明針對傳統(tǒng)AdaBoost框架的局限性,設(shè)計(jì)了一種弱分類器協(xié)同指導(dǎo)結(jié)構(gòu)框 架,提出了一種有向鏈接式AdaBoost分類器構(gòu)造方法。該方法在弱分類器之間設(shè)計(jì)有向鏈 接信息通路,通過有價值知識的共享傳遞與協(xié)同指導(dǎo),充分挖掘與利用已標(biāo)注和未標(biāo)注這 兩種樣本,實(shí)現(xiàn)了模型信息的有效利用與融合增強(qiáng)。
[0008] 有向鏈接式AdaBoost分類器構(gòu)造方法的核心思想是:利用先前訓(xùn)練出的弱分類 器對未標(biāo)注集進(jìn)行分類,并將預(yù)測置信度最高的若干樣本推薦給后續(xù)弱分類器,利用這種 方式一方面把具有高可靠性的信息傳遞給后續(xù)弱分類器,指導(dǎo)后續(xù)弱分類器的構(gòu)造,另一 方面也通過有價值信息的共享有效"擴(kuò)充"了訓(xùn)練集,從而能夠在充分利用有限訓(xùn)練數(shù)據(jù)的 同時提升整體分類性能。具體而言:在有向鏈接式AdaBoost分類方法的每一輪循環(huán)迭代 中,訓(xùn)練出的弱分類器Gm(X)除了作用于已標(biāo)注集以求得融合權(quán)重系數(shù)之外,還作用于未標(biāo) 注集以選取出其中預(yù)測置信度最高的前K個樣本,將這些樣本連同對應(yīng)的預(yù)測標(biāo)注構(gòu)成增 量訓(xùn)練集△ ^并推薦給后續(xù)弱分類器,從而在擴(kuò)展現(xiàn)有訓(xùn)練集的同時有針對性地指導(dǎo)后續(xù) 弱分類器的構(gòu)建。有向鏈接式AdaBoost分類方法流程如圖1所示。
[0009] 根據(jù)增量訓(xùn)練集的推薦范圍,有向鏈接式AdaBoost分類方法可以進(jìn)一步劃分為 "更新型"和"累積型"兩種模式。為表述清楚起見,本發(fā)明文檔用AeJTGf表示樣本輸入 特征,用yie{-1,+1}表示其對應(yīng)的類別標(biāo)簽;樣本集X按照標(biāo)注與否分為已標(biāo)注集L和 未標(biāo)注集U,其中已標(biāo)注集L中的樣本連同其對應(yīng)標(biāo)簽構(gòu)成模型學(xué)習(xí)的訓(xùn)練集T。
[0010] ?更新型:該模式下,當(dāng)前增量訓(xùn)練集只推薦給下一個弱分類器,因此信息交互只 存在于相鄰弱分類器之間(如圖2所示)。用T(m)表示構(gòu)建弱分類器Gm(x)所采用的擴(kuò)展 訓(xùn)練集,用ATm表示弱分類器Gm(x)所生成的增量訓(xùn)練集,則公式化表示為:
[0011]
【主權(quán)項(xiàng)】
1. 一種有向鏈接式AdaBoost分類器構(gòu)造方法,其步驟為: 1) 初始化一已標(biāo)注訓(xùn)練數(shù)據(jù)集T的權(quán)值分布、一增量集和迭代截止條件; 2) 對于第m次迭代,采用已標(biāo)注訓(xùn)練集Tw訓(xùn)練一弱分類器Gm(X),并用當(dāng)前的弱分類 器Gm(X)的分類誤差率和系數(shù)更新已標(biāo)注訓(xùn)練集Tw的權(quán)值分布;并且利用當(dāng)前的弱分類 器Gm(X)對一未標(biāo)注集U進(jìn)行預(yù)測,然后從預(yù)測結(jié)果中選出置信度最高的前K個樣本及其 對應(yīng)的預(yù)測標(biāo)簽放入所述增量集中,記為ATm;其中,T(m)=T+ATm; 3) 當(dāng)滿足迭代截止條件時,停止迭代并根據(jù)每次迭代得到的弱分類器構(gòu)建一強(qiáng)分類器 G(x) 〇
2. 如權(quán)利要求1所述的方法,其特征在于,所述迭代截止條件為迭代M次。
3. 如權(quán)利要求1所述的方法,其特征在于,所述迭代截止條件為設(shè)定的收斂條件。
4. 如權(quán)利要求1或2或3所述的方法,其特征在于,所述強(qiáng)分類器G(X)的構(gòu)建方法為: 將每次迭代得到的弱分類器線性進(jìn)行加權(quán)疊加,構(gòu)成所述強(qiáng)分類器G(X)。
5. -種有向鏈接式AdaBoost分類器構(gòu)造方法,其步驟為: 1) 初始化一已標(biāo)注訓(xùn)練數(shù)據(jù)集T的權(quán)值分布、一增量集和迭代截止條件; 2) 對于第m次迭代,采用已標(biāo)注訓(xùn)練集Tw訓(xùn)練一弱分類器Gm(X),并用當(dāng)前的弱分類 器Gm(X)的分類誤差率和系數(shù)更新已標(biāo)注訓(xùn)練集Tw的權(quán)值分布;并且利用當(dāng)前的弱分類 器Gm(X)對一未標(biāo)注集U進(jìn)行預(yù)測,然后從預(yù)測結(jié)果中選出置信度最高的前K個樣本及其 對應(yīng)的預(yù)測標(biāo)簽更新所述增量集內(nèi)的樣本,記為ATm;其中,Tw=T+ATm; 3) 當(dāng)滿足迭代截止條件時,停止迭代并根據(jù)每次迭代得到的弱分類器構(gòu)建一強(qiáng)分類器 G(x) 〇
6. 如權(quán)利要求1所述的方法,其特征在于,所述迭代截止條件為迭代M次。
7. 如權(quán)利要求1所述的方法,其特征在于,所述迭代截止條件為設(shè)定的收斂條件。
8. 如權(quán)利要求1或2或3所述的方法,其特征在于,所述強(qiáng)分類器G(X)的構(gòu)建方法為: 將每次迭代得到的弱分類器線性進(jìn)行加權(quán)疊加,構(gòu)成所述強(qiáng)分類器G(X)。
9. 一種有向鏈接式AdaBoost分類方法,其特征在于,采用權(quán)利要求1或5所述方法構(gòu) 造的強(qiáng)分類器G(X)對未標(biāo)注集U進(jìn)行預(yù)測,輸出預(yù)測結(jié)果。
【專利摘要】本發(fā)明公開了一種有向鏈接式分類器構(gòu)造方法及分類方法。本方法為:1)初始化一已標(biāo)注訓(xùn)練數(shù)據(jù)集T的權(quán)值分布、一增量集和迭代截止條件;2)對于第m次迭代,采用已標(biāo)注訓(xùn)練集T(m)訓(xùn)練一弱分類器Gm(x),并用當(dāng)前的Gm(x)的分類誤差率和系數(shù)更新已標(biāo)注訓(xùn)練集T(m)的權(quán)值分布;并且利用當(dāng)前的Gm(x)對一未標(biāo)注集U進(jìn)行預(yù)測,然后從預(yù)測結(jié)果中選出置信度最高的前K個樣本及其對應(yīng)的預(yù)測標(biāo)簽放入或更新到增量集中;3)當(dāng)滿足迭代截止條件時,停止迭代并根據(jù)每次迭代得到的弱分類器構(gòu)建一強(qiáng)分類器G(x)。該方法通過有價值知識的共享傳遞與協(xié)同指導(dǎo),充分挖掘與利用已標(biāo)注和未標(biāo)注這兩種樣本,實(shí)現(xiàn)了模型信息的有效利用與融合增強(qiáng)。
【IPC分類】G06F17-30, G06K9-62
【公開號】CN104820687
【申請?zhí)枴緾N201510192537
【發(fā)明人】張曉宇, 侯子驕, 王樹鵬
【申請人】中國科學(xué)院信息工程研究所
【公開日】2015年8月5日
【申請日】2015年4月22日