一種基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法
【專利摘要】本發(fā)明公開(kāi)了一種基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,充分考慮未標(biāo)注樣本的當(dāng)前價(jià)值和預(yù)期價(jià)值,挑選高價(jià)值的樣本。首先利用樣本的最優(yōu)和次優(yōu)類別信息計(jì)算樣本的當(dāng)前價(jià)值,根據(jù)樣本的當(dāng)前價(jià)值的高低選出一部分價(jià)值高的樣本組成候選樣本集,然后計(jì)算候選樣本集中樣本的預(yù)期價(jià)值,結(jié)合樣本的當(dāng)前價(jià)值,得到樣本的總價(jià)值,最后根據(jù)樣本的總價(jià)值,挑選高價(jià)值的未標(biāo)注樣本進(jìn)行標(biāo)注,添加到訓(xùn)練樣本集中,更新分類器。根據(jù)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本發(fā)明的方法能夠在選擇相同數(shù)量樣本的條件下,得到較高分類正確率的分類器。
【專利說(shuō)明】—種基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種采用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分類的方法,具體涉及基于主動(dòng)學(xué)習(xí)方法從大量樣本中選擇生成訓(xùn)練樣本集,并構(gòu)建經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)分類器的方法。
【背景技術(shù)】
[0002]數(shù)據(jù)的自動(dòng)分類是計(jì)算機(jī)自動(dòng)處理中的一項(xiàng)重要技術(shù),廣泛應(yīng)用于數(shù)據(jù)挖掘、醫(yī)學(xué)診斷、交通管理、人體特征識(shí)別等領(lǐng)域。計(jì)算機(jī)處理中的數(shù)據(jù)分類方法,通常包括構(gòu)建分類器模型并采用訓(xùn)練樣本集對(duì)分類器模型進(jìn)行訓(xùn)練,獲得經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)分類器。
[0003]數(shù)據(jù)分類方法中訓(xùn)練分類器模型是關(guān)鍵的難點(diǎn),主要是原因是由于分類器模型需要用戶標(biāo)注大量的數(shù)據(jù)訓(xùn)練樣本,而標(biāo)注大量的數(shù)據(jù)樣本需要花費(fèi)大量的人力和時(shí)間。且在實(shí)際的應(yīng)用中,有大量的圖像標(biāo)注工作比較困難,需要專家進(jìn)行標(biāo)注。
[0004]為了解決標(biāo)注大量樣本困難的問(wèn)題,主動(dòng)學(xué)習(xí)算法已經(jīng)在機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域收到廣大研究學(xué)者的廣泛關(guān)注和深入研究。在主動(dòng)學(xué)習(xí)算法中,不是被動(dòng)地接受訓(xùn)練樣本,而是利用一定的準(zhǔn)則主動(dòng)選擇有價(jià)值的樣本去訓(xùn)練學(xué)習(xí)器。因此,主動(dòng)學(xué)習(xí)算法主要通過(guò)選擇少量高價(jià)值的訓(xùn)練樣本來(lái)提高學(xué)習(xí)器的分類性能,減少人工標(biāo)注的工作量,提高效率。
[0005]主動(dòng)學(xué)習(xí)算法主要包括學(xué)習(xí)和采樣兩部分。學(xué)習(xí)即是利用得到的訓(xùn)練樣本學(xué)習(xí)得到相應(yīng)的學(xué)習(xí)器。采樣策略就是從大量的未標(biāo)注樣本中挑選出少量的有價(jià)值的樣本,降低分類算法的標(biāo)記代價(jià),利用少量的訓(xùn)練樣本得到高性能的學(xué)習(xí)器。所以,采樣策略是主動(dòng)學(xué)習(xí)算法的關(guān)鍵部分。
[0006]現(xiàn)有技術(shù)中,提出了基于樣本最優(yōu)次優(yōu)類別(Best vs Second Best, BvSB)的主動(dòng)學(xué)習(xí)算法,該算法僅考慮對(duì)樣本的不確定性影響較大的部分類別,較好地改進(jìn)了信息熵的不足。但是,BvSB算法僅考慮對(duì)于當(dāng)前分類器不確定的樣本,實(shí)際使用中,當(dāng)樣本添加到訓(xùn)練樣本集后,添加的樣本的不確定性對(duì)于更新之后的分類器會(huì)產(chǎn)生影響,導(dǎo)致訓(xùn)練結(jié)果不能達(dá)到預(yù)期目標(biāo)。因此,采用BvSB算法構(gòu)建的分類器存在一定的缺陷。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的發(fā)明目的是提供一種基于主動(dòng)學(xué)習(xí)生成訓(xùn)練樣本集并構(gòu)建數(shù)據(jù)分類器的方法,以解決現(xiàn)有技術(shù)中訓(xùn)練樣本集生成中存在的缺陷,獲得高價(jià)值的樣本,提高數(shù)據(jù)分類器的分類性能。
[0008]為達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是:一種基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,根據(jù)未標(biāo)注樣本和數(shù)據(jù)特征生成訓(xùn)練樣本集并訓(xùn)練分類器,包括下列步驟:
(1)從未標(biāo)注樣本集中隨機(jī)選擇20-50個(gè)樣本進(jìn)行人工標(biāo)注,構(gòu)建初始訓(xùn)練樣本集,然后根據(jù)初始訓(xùn)練樣本集的數(shù)據(jù)特征構(gòu)建初始分類器H? ;
(2)采用上一步獲得的分類器Ηω計(jì)算每一個(gè)未標(biāo)注樣本的BvSB值,BvSB值的計(jì)算方法是:
【權(quán)利要求】
1.一種基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,根據(jù)未標(biāo)注樣本和數(shù)據(jù)特征生成訓(xùn)練樣本集并訓(xùn)練分類器,包括下列步驟: (1)從未標(biāo)注樣本集中隨機(jī)選擇20-50個(gè)樣本進(jìn)行人工標(biāo)注,構(gòu)建初始訓(xùn)練樣本集,然后根據(jù)初始訓(xùn)練樣本集的數(shù)據(jù)特征構(gòu)建初始分類器H? ; (2)采用上一步獲得的分類器Ηω計(jì)算每一個(gè)未標(biāo)注樣本的BvSB值,BvSB值的計(jì)算方法是:
2.根據(jù)權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,其特征在于:步驟(3)中,h為步驟(5)中選擇的樣本個(gè)數(shù)的2~3倍。
3.根據(jù)權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,其特征在于:步驟(5)中,在候選樣本集中選擇2~5個(gè)Opt值最小的未標(biāo)注樣本進(jìn)行人工標(biāo)注。
4.根據(jù)權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)的分類器構(gòu)建方法,其特征在于:步驟(7)中,分類器訓(xùn)練的停止條件是,分類正確率>95%,或者訓(xùn)練樣本集中的樣本數(shù)>總樣本數(shù) X 70%ο
【文檔編號(hào)】G06F17/30GK103793510SQ201410042498
【公開(kāi)日】2014年5月14日 申請(qǐng)日期:2014年1月29日 優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】吳健, 張宇, 徐在俊 申請(qǐng)人:蘇州融希信息科技有限公司