專利名稱:一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別是一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法。
背景技術(shù):
在機(jī)器學(xué)習(xí)領(lǐng)域,訓(xùn)練一個(gè)具有良好分類性能的分類器需要大量已經(jīng)標(biāo)注好的樣本參與訓(xùn)練。然而標(biāo)注樣本并不是越多越好,過多的標(biāo)注樣本可能會(huì)產(chǎn)生冗余,增加計(jì)算的工作量;而且,大量的已標(biāo)注樣本中并不是每個(gè)樣本都是對(duì)分類器的訓(xùn)練有用的。那些信息含量大的樣本,由于其對(duì)提高分類器性能的貢獻(xiàn)大,因而是有用的樣本,是值得我們標(biāo)注的樣本。因此,在進(jìn)行樣本標(biāo)注時(shí),除了要保證一定的數(shù)量以外,還應(yīng)該保證標(biāo)注樣本的質(zhì)量,這樣不但能提高分類器的分類性能,而且可以減少人工標(biāo)注的工作量。挑選最有用的樣本進(jìn)行人工標(biāo)注,這正是主動(dòng)學(xué)習(xí)技術(shù)的核心所在。主動(dòng)學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)。所有的主動(dòng)學(xué)習(xí)方法都需要對(duì)未標(biāo)注樣本的信息量大小進(jìn)行評(píng)價(jià),以挑選信息量大的樣本交由專家標(biāo)注。根據(jù)評(píng)價(jià)策略的不同,主動(dòng)學(xué)習(xí)方法主要分為以下幾類:( I)基于不確定性米樣的主動(dòng)學(xué)習(xí);(2)基于委員會(huì)的主動(dòng)學(xué)習(xí);(3)基于預(yù)期誤差縮減的主動(dòng)學(xué)習(xí);本發(fā)明是基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,屬于基于不確定性采樣的主動(dòng)學(xué)習(xí)范疇。支持向量機(jī)(supportvector machines, SVM)是一個(gè)二值分類器。Tong&Koller在對(duì)稱版本空間的假設(shè)下證明了距離SVM的分類面最近的樣本其信息含量最大,因?yàn)榇藰颖灸苎杆倏s減版本空間。但是herbrich指出,現(xiàn)實(shí)中許多情況都難以很好地滿足對(duì)稱版本空間這一假設(shè),因此距離分類面最近的樣本的信息含量并沒有我們預(yù)期的那么大。有鑒于此,本發(fā)明在樣本與分類面距離的基礎(chǔ)上進(jìn)一步挖掘樣本的信息量,以找到信息量更大的樣本交由專家標(biāo)注。
發(fā)明內(nèi)容
為了在樣本與分類面距離的基礎(chǔ)上進(jìn)一步挖掘樣本的信息量,以采樣信息量更大的樣本,本發(fā)明具體公開了一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法。本發(fā)明采用的技術(shù)方案如下:一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,包括以下步驟:步驟I用初始已標(biāo)注樣本集L訓(xùn)練初始SVM分類器;步驟2用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S ;步驟3從候選樣本集S中挑選信息含量最大的樣本交給專家標(biāo)注;步驟4將專家標(biāo)注后的樣本放入已標(biāo)注樣本集L中;
步驟5用更新的已標(biāo)注樣本集L重新訓(xùn)練SVM分類器;步驟6根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代。所述的步驟2中,用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S的方法如下:以SVM分類器邊界(margin)內(nèi)的樣本作為候選樣本,組成候選樣本集S,即:S= UiIxi e U,且 If(Xi) I < 1}放入候選樣本集S中的樣本應(yīng)同時(shí)從未標(biāo)注樣本集U中移除。所述步驟3中,從候選樣本集S中挑選信息含量最大的樣本的方法如下:首先對(duì)候選樣本集S中的每個(gè)樣本Xi,從已標(biāo)注樣本集L中尋找其K個(gè)最近鄰樣本,記作
權(quán)利要求
1.一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,其特征在于,包括以下步驟: 步驟I用初始已標(biāo)注樣本集L訓(xùn)練初始SVM分類器; 步驟2用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S ; 步驟3從候選樣本集S中挑選信息含量最大的樣本交給專家標(biāo)注; 步驟4將專家標(biāo)注后的樣本放入已標(biāo)注樣本集L中; 步驟5用更新的已標(biāo)注樣本集L重新訓(xùn)練SVM分 類器; 步驟6根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代。
2.如權(quán)利要求1所述的一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,其特征在于,用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S的方法如下:以SVM分類器邊界內(nèi)的樣本作為候選樣本,組成候選樣本集S,即:S= (Xi Ixi e U,且 I f (Xi) I < 1} 放入候選樣本集S中的樣本應(yīng)同時(shí)從未標(biāo)注樣本集U中移除。
3.如權(quán)利要求1所述的一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,其特征在于,所述步驟3中,從候選樣本集S中挑選信息含量最大的樣本的方法如下:首先對(duì)候選樣本集S中的每個(gè)樣本Xi,從已標(biāo)注樣本集L中尋找其K個(gè)最近鄰樣本,記作|4,4,*-,1丨1;假設(shè)這K個(gè)最近鄰樣本中,正類樣本的數(shù)目為kV,負(fù)類樣本的數(shù)目為kL,求兩者中的最小值,即: kl =minm 最后,從候選樣本集S中尋找Ici值最大的那個(gè)未標(biāo)注樣本作為信息含量最大的樣本,并將其交由專家進(jìn)行人工標(biāo)注,而對(duì)于候選樣本集S中其余的樣本,應(yīng)當(dāng)將其從候選樣本集S中移除,并重新放回未標(biāo)注樣本集U中。
4.如權(quán)利要求1所述的一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,其特征在于,所述步驟6中,停止準(zhǔn)則的設(shè)定方法如下:采用最大迭代次數(shù)作為停止準(zhǔn)則,即設(shè)定迭代次數(shù)的最大值,當(dāng)?shù)螖?shù)達(dá)到此最大值時(shí)則停止迭代;最大迭代次數(shù)的取值可以根據(jù)標(biāo)注專家對(duì)標(biāo)注工作量的接受程度來定,即,如果標(biāo)注專家在主動(dòng)學(xué)習(xí)的迭代過程中最多愿意標(biāo)注I個(gè)樣本,則最大迭代次數(shù)的取值即設(shè)定為I。
全文摘要
本發(fā)明具體公開了一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法。該方法在主動(dòng)學(xué)習(xí)的每輪迭代過程中,從距離支持向量機(jī)分類器的分類面較近的樣本中進(jìn)一步挖掘樣本的信息量,進(jìn)而挑選信息含量更大的樣本進(jìn)行人工標(biāo)注,以達(dá)到提高分類器的分類性能,減少人工標(biāo)注工作量的目的。考慮到支持向量機(jī)邊界(margin)內(nèi)的樣本距離分類面較近,本發(fā)明實(shí)施例將支持向量機(jī)邊界內(nèi)的樣本作為信息含量較大的候選樣本。在這些候選樣本中,本發(fā)明實(shí)施例進(jìn)一步選擇那些處在兩類邊界概率較大的樣本作為信息含量更大的樣本交由專家進(jìn)行人工標(biāo)注。
文檔編號(hào)G06F15/18GK103198052SQ20131012224
公開日2013年7月10日 申請(qǐng)日期2013年4月9日 優(yōu)先權(quán)日2013年4月9日
發(fā)明者冷嚴(yán), 徐新艷 申請(qǐng)人:山東師范大學(xué)