基于核局部線(xiàn)性表示的分類(lèi)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了基于核局部線(xiàn)性表示的分類(lèi)方法,利用訓(xùn)練樣本集識(shí)別測(cè)試樣本所屬的類(lèi)別。首先對(duì)訓(xùn)練樣本集和測(cè)試樣本中的所有樣本分別進(jìn)行預(yù)處理,得到新的訓(xùn)練樣本集和新的測(cè)試樣本,然后從新的訓(xùn)練樣本集中選取一部分距離新的測(cè)試樣本最近的訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集,各個(gè)樣本類(lèi)別的近鄰訓(xùn)練樣本構(gòu)成子近鄰訓(xùn)練樣本集,再使用近鄰訓(xùn)練樣本集中的樣本去線(xiàn)性表示新的測(cè)試樣本,得到一組線(xiàn)性表示系數(shù),并計(jì)算新的測(cè)試樣本在各個(gè)子近鄰訓(xùn)練樣本集中的重構(gòu)誤差,最后將測(cè)試樣本歸為重構(gòu)誤差最小的子近鄰訓(xùn)練樣本集所對(duì)應(yīng)的那一類(lèi)。本發(fā)明基于核局部線(xiàn)性表示的分類(lèi)方法相較于現(xiàn)有技術(shù)大大提高了識(shí)別精度。
【專(zhuān)利說(shuō)明】基于核局部線(xiàn)性表示的分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于核局部線(xiàn)性表示的分類(lèi)方法,屬于模式識(shí)別的【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]模式分類(lèi)是指對(duì)表征事物或現(xiàn)象的各種形式的信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類(lèi)和解釋的過(guò)程,是信息科學(xué)和人工智能的重要組成部分。模式分類(lèi)可以應(yīng)用到文字識(shí)別、語(yǔ)音識(shí)別、指紋識(shí)別、數(shù)據(jù)挖掘、遙感圖像識(shí)別、醫(yī)學(xué)診斷等多個(gè)領(lǐng)域。 [0003]用于模式分類(lèi)的方法很多,比如,中國(guó)專(zhuān)利申請(qǐng)201310059766.2于2013年2月26日公開(kāi)的“基于局部線(xiàn)性表示的模式分類(lèi)方法”,首先使用測(cè)試樣本的部分近鄰訓(xùn)練樣本去線(xiàn)性表示該測(cè)試樣本,得到一組線(xiàn)性表示系數(shù);然后計(jì)算使用這些近鄰訓(xùn)練樣本中每個(gè)類(lèi)的樣本和相應(yīng)的線(xiàn)性表示系數(shù)去重構(gòu)測(cè)試樣本的重構(gòu)誤差;最后根據(jù)重構(gòu)誤差來(lái)對(duì)測(cè)試樣本進(jìn)行分類(lèi)。通過(guò)減少訓(xùn)練樣本數(shù)目,降低了計(jì)算難度,但是識(shí)別率不高。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的,在于提供一種基于核局部線(xiàn)性表示的分類(lèi)方法,提高了識(shí)別精度。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006]基于核局部線(xiàn)性表示的分類(lèi)方法,利用訓(xùn)練樣本集識(shí)別測(cè)試樣本所屬的類(lèi)別,首先對(duì)訓(xùn)練樣本集和測(cè)試樣本中的所有樣本分別進(jìn)行預(yù)處理,得到新的訓(xùn)練樣本集和新的測(cè)試樣本,然后從新的訓(xùn)練樣本集中選取一部分距離新的測(cè)試樣本最近的訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集,各個(gè)樣本類(lèi)別的近鄰訓(xùn)練樣本構(gòu)成子近鄰訓(xùn)練樣本集,再使用近鄰訓(xùn)練樣本集中的樣本去線(xiàn)性表示新的測(cè)試樣本,得到一組線(xiàn)性表示系數(shù),并計(jì)算新的測(cè)試樣本在各個(gè)子近鄰訓(xùn)練樣本集中的重構(gòu)誤差,最后將測(cè)試樣本歸為重構(gòu)誤差最小的子近鄰訓(xùn)練樣本集所對(duì)應(yīng)的那一類(lèi),所述預(yù)處理為采用核主成分分析方法(Kernel Principal ComponentAnalysis, KPCA)對(duì)待處理樣本做降維運(yùn)算,再對(duì)降維后的所有樣本做歸一化運(yùn)算。
[0007]所述選取一部分距離新的測(cè)試樣本最近的訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集的方法如下:
[0008]在新的訓(xùn)練樣本集中提取前K個(gè)最近鄰訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集,其中:K的取值如下:
[0009]當(dāng)mirKNpNy …,Nc) >50 時(shí),K=max (N1, N2,...,NC);
[0010]當(dāng)20〈max(N1, N2,...,NC) < 50 時(shí),K=3Xmax(N1, N2,...,NC);
[0011]^ max(N1, N2, Nc) < 20 且 c>10 時(shí),Ι^δΧηκχ^, N2,…,Nc);
[0012]^max(N1, N2,…,Nc)≤ 20 且 c ≤ 10 時(shí),K=N/2 ;
[0013]其中,Ni為訓(xùn)練樣本集中第i類(lèi)別的樣本個(gè)數(shù),i=l,2,…,c,c為訓(xùn)練樣本總類(lèi)別,N為訓(xùn)練樣本總數(shù)。
[0014]優(yōu)選的,所述歸一化運(yùn)算采用的方法為L(zhǎng)2-norm歸一化方法。[0015]一種人臉識(shí)別方法,對(duì)人臉數(shù)據(jù)庫(kù)中的人臉圖像進(jìn)行預(yù)處理,從預(yù)處理后的人臉圖像中選取訓(xùn)練樣本和測(cè)試樣本,對(duì)訓(xùn)練樣本和測(cè)試樣本數(shù)字化和列向量化,利用數(shù)字化和列向量化后得到的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),使用如上所述基于核局部線(xiàn)性表示的分類(lèi)方法識(shí)別測(cè)試樣本所屬的類(lèi)別。
[0016]一種手寫(xiě)體數(shù)字識(shí)別方法,對(duì)手寫(xiě)體數(shù)字?jǐn)?shù)據(jù)庫(kù)中的數(shù)字圖像進(jìn)行預(yù)處理,從預(yù)處理后的數(shù)字圖像中選取訓(xùn)練樣本和測(cè)試樣本,對(duì)訓(xùn)練樣本和測(cè)試樣本數(shù)字化和列向量化,利用數(shù)字化和列向量化后得到的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),使用如上所述基于核局部線(xiàn)性表示的分類(lèi)方法識(shí)別測(cè)試樣本所屬的類(lèi)別。
[0017]采用上述方案后,本發(fā)明的基于核局部線(xiàn)性表示的分類(lèi)方法相比于現(xiàn)有技術(shù),將訓(xùn)練樣本集和測(cè)試樣本中的所有樣本預(yù)先分別進(jìn)行核化處理后再進(jìn)行模式分類(lèi),進(jìn)一步提高了識(shí)別精度。
【具體實(shí)施方式】
[0018]下面對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)的說(shuō)明。
[0019]利用包括C個(gè)類(lèi)別的訓(xùn)練樣本集X識(shí)別測(cè)試樣本y所屬的類(lèi)別,包括如下步驟。
[0020]令X= [X1, X2,…,XJ,4 Xi2,…,Xw,]表示第i類(lèi)訓(xùn)練樣本集,Xi包含Ni個(gè)樣本,Xij e Rd(Rd表示d維的實(shí)向量集合)表示第i類(lèi)的第j個(gè)訓(xùn)練樣本,(i = I, 2,…,c ;
【權(quán)利要求】
1.基于核局部線(xiàn)性表示的分類(lèi)方法,利用訓(xùn)練樣本集識(shí)別測(cè)試樣本所屬的類(lèi)別,首先對(duì)訓(xùn)練樣本集和測(cè)試樣本中的所有樣本分別進(jìn)行預(yù)處理,得到新的訓(xùn)練樣本集和新的測(cè)試樣本,然后從新的訓(xùn)練樣本集中選取一部分距離新的測(cè)試樣本最近的訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集,各個(gè)樣本類(lèi)別的近鄰訓(xùn)練樣本構(gòu)成子近鄰訓(xùn)練樣本集,再使用近鄰訓(xùn)練樣本集中的樣本去線(xiàn)性表示新的測(cè)試樣本,得到一組線(xiàn)性表示系數(shù),并計(jì)算新的測(cè)試樣本在各個(gè)子近鄰訓(xùn)練樣本集中的重構(gòu)誤差,最后將測(cè)試樣本歸為重構(gòu)誤差最小的子近鄰訓(xùn)練樣本集所對(duì)應(yīng)的那一類(lèi),其特征在于:所述預(yù)處理為采用核主成分分析方法對(duì)待處理樣本做降維運(yùn)算,再對(duì)降維后的所有樣本做歸一化運(yùn)算。
2.如權(quán)利要求1所述基于核局部線(xiàn)性表示的分類(lèi)方法,其特征在于:所述選取一部分距離新的測(cè)試樣本最近的訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集的方法如下: 在新的訓(xùn)練樣本集中提取前K個(gè)最近鄰訓(xùn)練樣本構(gòu)成近鄰訓(xùn)練樣本集,其中:K的取值如下:
當(dāng) mirKNpNr …,Nc) >50 時(shí),K=max (N1, N2,…,Nc); ^ 20^βχ(Ν!, N2,…,Nc)≤50 時(shí),I^SXmaxd N2,…,Nc); ^ max(N1, N2,…,Nc)≤ 20 且 c>10 時(shí),I^SXmaxd N2,…,Nc);
當(dāng) max (N1, N2,…,Nc)≤ 20 且 c ≤ 10 時(shí),K=N/2 ; 其中,Ni為訓(xùn)練樣本集中第i類(lèi)別的樣本個(gè)數(shù),i=l, 2,…,c,c為訓(xùn)練樣本總類(lèi)別,N為訓(xùn)練樣本總數(shù)。
3.如權(quán)利要求1所述基于核局部線(xiàn)性表示的分類(lèi)方法,其特征在于:所述歸一化運(yùn)算采用的方法為L(zhǎng)2-norm歸一化方法。
4.一種人臉識(shí)別方法,其特征在于:對(duì)人臉數(shù)據(jù)庫(kù)中的人臉圖像進(jìn)行預(yù)處理,從預(yù)處理后的人臉圖像中選取訓(xùn)練樣本和測(cè)試樣本,對(duì)訓(xùn)練樣本和測(cè)試樣本數(shù)字化和列向量化,利用數(shù)字化和列向量化后得到的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),使用如權(quán)利要求1-3任一項(xiàng)所述基于核局部線(xiàn)性表示的分類(lèi)方法識(shí)別測(cè)試樣本所屬的類(lèi)別。
5.一種手寫(xiě)體數(shù)字識(shí)別方法,其特征在于:對(duì)手寫(xiě)體數(shù)字?jǐn)?shù)據(jù)庫(kù)中的數(shù)字圖像進(jìn)行預(yù)處理,從預(yù)處理后的數(shù)字圖像中選取訓(xùn)練樣本和測(cè)試樣本,對(duì)訓(xùn)練樣本和測(cè)試樣本數(shù)字化和列向量化,利用數(shù)字化和列向量化后得到的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),使用如權(quán)利要求1-3任一項(xiàng)所述基于核局部線(xiàn)性表示的分類(lèi)方法識(shí)別測(cè)試樣本所屬的類(lèi)別。
【文檔編號(hào)】G06K9/62GK103778438SQ201410026849
【公開(kāi)日】2014年5月7日 申請(qǐng)日期:2014年1月21日 優(yōu)先權(quán)日:2014年1月21日
【發(fā)明者】劉茜 申請(qǐng)人:南京信息工程大學(xué)