本發(fā)明涉及計(jì)算機(jī)視覺和圖像識別技術(shù)領(lǐng)域,特別涉及一種手寫體字符圖像特征識別的方法及系統(tǒng)。
背景技術(shù):
高維數(shù)據(jù)例如圖像、音頻等在日常生活中愈發(fā)普遍,因而可對其提取有用信息的特征學(xué)習(xí)方法顯得尤為重要。離線手寫體識別即是對其中某種高維信息進(jìn)行特征提取并利用的一個實(shí)例。它通過電子專用設(shè)備將紙質(zhì)手寫文本電子化,得到計(jì)算機(jī)存儲的字符圖像,之后通過一系列特征學(xué)習(xí)的方法提取圖像特征、分類等操作得到最終識別的字符。一旦得出高效準(zhǔn)確識別字符的方法,可應(yīng)用到辦公自動化、機(jī)器翻譯等領(lǐng)域,即可帶來巨大的社會和經(jīng)濟(jì)效益。但是有效地抽取手寫體圖像特征的過程具有一定難度,到目前為止,離線手寫體(簡稱手寫體)字符識別距實(shí)用要求還有一定距離。目前的大部分研究工作都集中在處理手寫體圖像特征提取問題,且也已取得一定的成果。但是從真實(shí)世界中采集的圖像通常存在包含噪聲、數(shù)據(jù)缺失等問題,因此需要提出一種更魯棒的算法來進(jìn)行特征提取。
近年來,為解決圖像噪聲帶來的特征提取偏差的問題,一些基于1-范數(shù)的算法被提出,例如基于1-范數(shù)的主成分分析算法(PCA-L1)、基于1-范數(shù)的線性判別分析法(LDA-L1)等。鑒于傳統(tǒng)的基于距離即2-范數(shù)的算法對于噪聲更加敏感,而通過使用已被證實(shí)對于噪聲更加魯棒的1-范數(shù)來衡量樣本相似度。這些算法使得結(jié)果更加魯棒于其相應(yīng)的基于2-范數(shù)的算法,但由于目前只存在無監(jiān)督與監(jiān)督算法,無法充分利用有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)信息,因此特征提取的信息量還有很大的提升空間;另外,普通算法中的一些經(jīng)驗(yàn)參數(shù)也非常難以確定。
因此,如何實(shí)現(xiàn)自動提取手寫體字符圖像特征,同時提高手寫體字符圖像表征能力與識別的準(zhǔn)確度,是本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種手寫體字符圖像特征識別的方法及系統(tǒng),以克服現(xiàn)有技術(shù)中僅使用有標(biāo)簽或無標(biāo)簽數(shù)據(jù)而沒有充分利用現(xiàn)實(shí)中信息、對于噪聲敏感的缺點(diǎn)。
為解決上述技術(shù)問題,本發(fā)明提供一種手寫體字符圖像特征識別的方法,所述方法包括:
輸入手寫體字符圖像訓(xùn)練樣本和手寫體字符圖像測試樣本;
將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣;其中,所述軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型利用1-范數(shù)規(guī)則構(gòu)造樣本之間的加權(quán)相似圖,并利用比例模型在緊湊局部軟標(biāo)簽類內(nèi)散度和分離局部軟標(biāo)簽類間散度的同時保持所有手寫體字符圖像訓(xùn)練樣本進(jìn)行局部保持特征提取,通過迭代過程得到描述矩陣;
利用所述描述矩陣提取所述手寫體字符圖像測試樣本的特征,生成新測試特征集;
將所述新測試特征集利用最近鄰分類器進(jìn)行歸類,確定各所述手寫體字符圖像測試樣本對應(yīng)的歐式距離中最小值的位置,并將所述位置對應(yīng)的類別作為各所述手寫體字符圖像測試樣本的字符識別結(jié)果輸出。
可選的,將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣,包括:
根據(jù)所述手寫體字符圖像訓(xùn)練樣本計(jì)算局部保持矩陣;
根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算預(yù)定矩陣;其中,所述預(yù)定矩陣包括軟標(biāo)簽權(quán)值矩陣,軟標(biāo)簽各類均值矩陣,軟標(biāo)簽全樣本均值矩陣,權(quán)值矩陣;
根據(jù)所述預(yù)定矩陣,利用所述比例模型通過迭代過程得到描述矩陣。
可選的,根據(jù)所述手寫體字符圖像訓(xùn)練樣本計(jì)算局部保持矩陣,包括:
利用公式計(jì)算局部保持矩陣M;
其中,||·||為2-范數(shù),xi為第i個樣本。
可選的,根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算軟標(biāo)簽權(quán)值矩陣,包括:
利用公式計(jì)算軟標(biāo)簽權(quán)值矩陣FS;
其中,是F矩陣的第i列;是樣本xi的K近鄰集合;W是一個正規(guī)化的對稱相似性矩陣,是矩陣FT的第i行;D是一個對角矩陣,其中的元素μi和ψ是相關(guān)權(quán)衡參數(shù)。
可選的,根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算軟標(biāo)簽各類均值矩陣,包括:
利用公式計(jì)算軟標(biāo)簽各類均值矩陣μi。
可選的,根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算軟標(biāo)簽全樣本均值矩陣,包括:
利用公式計(jì)算軟標(biāo)簽全樣本均值矩陣μ。
可選的,根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算權(quán)值矩陣,包括:
利用公式計(jì)算權(quán)值矩陣
其中,γ∈[0,1]為軟標(biāo)簽類內(nèi)散度和局部保持投影權(quán)衡參數(shù),軟相似度矩陣定義為:
可選的,利用所述描述矩陣提取所述手寫體字符圖像測試樣本的特征,生成新測試特征集,包括:
將所述手寫體字符圖像測試樣本向所述描述矩陣進(jìn)行映射,生成新測試特征集。
本發(fā)明還提供一種手寫體字符圖像特征識別的系統(tǒng),包括:
輸入模塊,用于輸入手寫體字符圖像訓(xùn)練樣本和手寫體字符圖像測試樣本;
訓(xùn)練模塊,用于將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣;其中,所述軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型利用1-范數(shù)規(guī)則構(gòu)造樣本之間的加權(quán)相似圖,并利用比例模型在緊湊局部軟標(biāo)簽類內(nèi)散度和分離局部軟標(biāo)簽類間散度的同時保持所有手寫體字符圖像訓(xùn)練樣本進(jìn)行局部保持特征提取,通過迭代過程得到描述矩陣;
測試預(yù)處理模塊,用于利用所述描述矩陣提取所述手寫體字符圖像測試樣本的特征,生成新測試特征集;
測試模塊,用于將所述新測試特征集利用最近鄰分類器進(jìn)行歸類,確定各所述手寫體字符圖像測試樣本對應(yīng)的歐式距離中最小值的位置,并將所述位置對應(yīng)的類別作為各所述手寫體字符圖像測試樣本的字符識別結(jié)果輸出。
可選的,所述訓(xùn)練模塊,包括:
第一計(jì)算單元,用于根據(jù)所述手寫體字符圖像訓(xùn)練樣本計(jì)算局部保持矩陣;
第二計(jì)算單元,用于根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算預(yù)定矩陣;其中,所述預(yù)定矩陣包括軟標(biāo)簽權(quán)值矩陣,軟標(biāo)簽各類均值矩陣,軟標(biāo)簽全樣本均值矩陣,權(quán)值矩陣;
第三計(jì)算單元,用于根據(jù)所述預(yù)定矩陣,利用所述比例模型通過迭代過程得到描述矩陣。
經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明提供的手寫體字符圖像特征識別的方法及系統(tǒng),在特征學(xué)習(xí)方面,其目標(biāo)在于緊湊局部軟標(biāo)簽類內(nèi)散度并分離局部軟標(biāo)簽類間散度,同時在所有訓(xùn)練數(shù)據(jù)(即手寫體字符圖像訓(xùn)練樣本)上進(jìn)行局部保持特征提取。為了使得提出的方法及系統(tǒng)在特征提取和展示方面對于噪聲魯棒,對于噪聲魯棒的1-范數(shù)規(guī)則被用于構(gòu)造樣本間的相似度,使得在識別中圖像展示的能力可得到顯著提升?;诒壤P涂赏ㄟ^一個迭代的方法得到描述矩陣,該描述矩陣具有判別性與局部保持的特點(diǎn),且具有正交特性。樣本外圖像的歸納通過將測試圖像樣本(即手寫體字符圖像測試樣本)向描述矩陣進(jìn)行投影,進(jìn)而將提取的特征輸入最近鄰分類器進(jìn)行歸類,取對應(yīng)歐式距離最小值的位置,用于測試圖像的類別鑒定,得到最準(zhǔn)確的識別結(jié)果。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例所提供的手寫體字符圖像特征識別的方法的流程圖;
圖2為本發(fā)明實(shí)施例所提供的手寫體字符圖像特征識別的系統(tǒng)的結(jié)構(gòu)框圖;
圖3為本發(fā)明實(shí)施例所提供的一種手寫體識別預(yù)測示意圖。
具體實(shí)施方式
本發(fā)明的核心是提供一張手寫體字符圖像特征識別的方法及系統(tǒng),以克服現(xiàn)有技術(shù)中僅使用有標(biāo)簽或無標(biāo)簽數(shù)據(jù)而沒有充分利用現(xiàn)實(shí)中信息、對于噪聲敏感的缺點(diǎn)。
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本實(shí)施例中手寫體字符圖像特征識別的類別c>2,本實(shí)施例在三個手寫體字符圖像數(shù)據(jù)庫進(jìn)行了測試:USPS、CASIA-HWDB1.1和MNIST。CASIA-HWDB1.1是中科院自動化所手寫體數(shù)據(jù)庫,包括3755個中文字符以及171個字母、數(shù)字或符號;USPS是美國郵政系統(tǒng)的手寫數(shù)字?jǐn)?shù)據(jù)庫,包含9298個手寫體數(shù)字0-9;MNIST數(shù)據(jù)庫共有60000個訓(xùn)練樣本與10000個測試樣本。這些數(shù)據(jù)庫從多方面收集,因而測試結(jié)果具有普遍說明性。具體請參考圖1,手寫體字符圖像特征識別的方法,其特征在于,所述方法包括:
S100、輸入手寫體字符圖像訓(xùn)練樣本和手寫體字符圖像測試樣本;
S110、將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣;其中,所述軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型利用1-范數(shù)規(guī)則構(gòu)造樣本之間的加權(quán)相似圖,并利用比例模型在緊湊局部軟標(biāo)簽類內(nèi)散度和分離局部軟標(biāo)簽類間散度的同時保持所有手寫體字符圖像訓(xùn)練樣本進(jìn)行局部保持特征提取,通過迭代過程得到描述矩陣;
具體的,本實(shí)施例對手寫體訓(xùn)練圖像(即手寫體字符圖像訓(xùn)練樣本)進(jìn)行判別與幾何結(jié)構(gòu)保持學(xué)習(xí),提出基于1-范數(shù)度量的魯棒的軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型,優(yōu)化輸出一個可用于樣本外測試圖像特征提取的描述矩陣。
對于給定的一個可能存在噪聲的手寫體向量集合(即手寫體字符圖像訓(xùn)練樣本)(其中,n是手寫體樣本的維度,N是樣本的數(shù)量),其中包含有類別標(biāo)簽(共c個類別,c>2)的樣本集和無任何標(biāo)簽的樣本集且滿足樣本數(shù)量l+u=N。設(shè)為l個有標(biāo)簽樣本的標(biāo)簽,且樣本xi的標(biāo)簽為yi(i≤l)。所述根據(jù)原始訓(xùn)練集計(jì)算得到一個具有判別性特征與局部保持特征的投影矩陣也稱為描述矩陣需解決以下優(yōu)化問題:
s.t.PTP=Id
其中||·||1為1-范數(shù),即其中Si,j表示S矩陣的第(i,j)號元素,表示權(quán)值矩陣中第i行第j列的元素;表示軟標(biāo)簽權(quán)值矩陣中第i行第j列的元素;x表示樣本。
即可選的,本實(shí)施例中將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣可以包括:
根據(jù)所述手寫體字符圖像訓(xùn)練樣本計(jì)算局部保持矩陣;
根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算預(yù)定矩陣;其中,所述預(yù)定矩陣包括軟標(biāo)簽權(quán)值矩陣,軟標(biāo)簽各類均值矩陣,軟標(biāo)簽全樣本均值矩陣,權(quán)值矩陣;
根據(jù)所述預(yù)定矩陣,利用所述比例模型通過迭代過程得到描述矩陣。
具體的,軟標(biāo)簽權(quán)值矩陣FS可通過如下優(yōu)化方式得到:
其中,是F矩陣的第i列;是樣本xi的K近鄰集合。W是一個正規(guī)化的對稱相似性矩陣,Wi,j表示矩陣W中第i行第j列的元素,是矩陣FT的第i行;D是一個對角矩陣,其中的元素μi和ψ是相關(guān)權(quán)衡參數(shù);
軟標(biāo)簽各類均值矩陣μi、軟標(biāo)簽全樣本均值矩陣μ定義如下:
其中,c表示類別。
權(quán)值矩陣定義為:其中,γ∈[0,1]為軟標(biāo)簽類內(nèi)散度和局部保持投影權(quán)衡參數(shù),M為局部保持矩陣。軟相似度矩陣定義如下:
局部保持矩陣M可通過求解以下優(yōu)化問題得到:
其中,||·||為2-范數(shù),即Mi,j表示矩陣M中第i行第j列的元素。
下面具體說明1-范數(shù)優(yōu)化求解過程。令極性函數(shù)q:
代入原優(yōu)化函數(shù)H(p(t))得到:
再令增量δ(t)
之后更新p(t+1)=p(t)+βδ(t)。其中,β是一個很小的正數(shù)。如果H(p(t+1))的值增長不明顯,則輸出p*=p(t+1),否則一直迭代直到收斂。
上述說明的是降至1維即d=1的情況,以下進(jìn)一步說明降至多維即d>1的情況。
首先設(shè)置p0=0,(xi)0=xi(i=1,2,...,N),(μ)0=μ,(μj)0=μj(j=1,2,...,c);之后每次迭代時計(jì)算:
以及對于i=1,2,...,N中的每一個i和j=1,2,...,c中的每一個j,計(jì)算如下公式:
將(xi)k,(μ)k,(μj)k代入前述迭代方法計(jì)算pk。
具體算法如下:
軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法:
輸入:原始數(shù)據(jù)矩陣控制參數(shù)γ,β,d。
輸出:投影矩陣P*。
初始化:k=0,p0=0,(xi)0=xi,k=0,γ=0.2,β=0.01,ε=10-6
step1:求解并計(jì)算
step2:求解并計(jì)算相關(guān)軟標(biāo)簽均值矩陣、權(quán)值矩陣:
step3:當(dāng)k<d時,k←k+1,計(jì)算以及對于i=1,2,...,N中的每一個i和j=1,2,...,c中的每一個j,計(jì)算如下公式:
否則輸出P*=P
step4:令(mi代表第i類樣本的均值),并規(guī)范化
pk(0)=pk(0)/||pk(0)||
step5:while還未收斂時do
計(jì)算極性函數(shù):
計(jì)算增量:
更新pk(t+1)=pk(t)+βδ(t)
檢查是否收斂:若H(pk(t+1))-H(pk(t))<ε則停止,設(shè)置
P(:,k)=p(t+1);
否則t=t+1
end while
step6:繼續(xù)執(zhí)行step3。
迭代過程結(jié)束后可以得到手寫體字符圖像特征描述矩陣P。
本實(shí)施例中并不對參數(shù)的具體數(shù)據(jù)進(jìn)行限定,上述過程中迭代初始值的選擇:γ=0.2;β=0.01為初始值,迭代過程中不斷減小。
S120、利用所述描述矩陣提取所述手寫體字符圖像測試樣本的特征,生成新測試特征集;
具體的,將所述手寫體字符圖像測試樣本向所述描述矩陣進(jìn)行映射,生成新測試特征集。
例如,基于訓(xùn)練集,可通過步驟110得到局部保持的投影矩陣再將訓(xùn)練樣本和測試樣本嵌入得到投影空間,完成手寫體字符圖像特征提取,生成特征提取后的訓(xùn)練集和測試集。訓(xùn)練樣本xtrain及測試樣本xtest的特征提取結(jié)果表達(dá)如下:其中分別為原始訓(xùn)練樣本和測試樣本的特征提取結(jié)果即新測試特征集。
S130、將所述新測試特征集利用最近鄰分類器進(jìn)行歸類,確定各所述手寫體字符圖像測試樣本對應(yīng)的歐式距離中最小值的位置,并將所述位置對應(yīng)的類別作為各所述手寫體字符圖像測試樣本的字符識別結(jié)果輸出。
具體的,通過步驟120提取得到原始訓(xùn)練圖像和測試圖像的特征即得到新測試特征集后,容易構(gòu)造手寫體樣本特征測試集和訓(xùn)練集其中對應(yīng)每一個原始樣本xi提取出的特征。對于任意給定的兩個手寫體樣本特征和計(jì)算歐式距離即:
其中||·||為2-范數(shù),各實(shí)施例中·均表示任意字符,既可以理解為通配符的意思。
給定中的任意一個測試樣本可通過下列分類準(zhǔn)則確定測試樣本的類別標(biāo)簽:
若且的類別為lab(lab∈{1,2,...,c}),則判定測試樣本的類別也為lab,完成測試樣本的分類過程。
基于上述技術(shù)方案,本發(fā)明實(shí)施例提的手寫體字符圖像特征識別的方法,在特征學(xué)習(xí)方面,其目標(biāo)在于緊湊局部軟標(biāo)簽類內(nèi)散度并分離局部軟標(biāo)簽類間散度,同時在所有訓(xùn)練數(shù)據(jù)(即手寫體字符圖像訓(xùn)練樣本)上進(jìn)行局部保持特征提取。為了使得提出的方法及系統(tǒng)在特征提取和展示方面對于噪聲魯棒,對于噪聲魯棒的1-范數(shù)規(guī)則被用于構(gòu)造樣本間的相似度,使得在識別中圖像展示的能力可得到顯著提升?;诒壤P涂赏ㄟ^一個迭代的方法得到描述矩陣,該描述矩陣具有判別性與局部保持的特點(diǎn),且具有正交特性。樣本外圖像的歸納通過將測試圖像樣本(即手寫體字符圖像測試樣本)向描述矩陣進(jìn)行投影,進(jìn)而將提取的特征輸入最近鄰分類器進(jìn)行歸類,取對應(yīng)歐式距離最小值的位置,用于測試圖像的類別鑒定,得到最準(zhǔn)確的識別結(jié)果。
下面對本發(fā)明實(shí)施例提供的手寫體字符圖像特征識別的系統(tǒng)進(jìn)行介紹,下文描述的手寫體字符圖像特征識別的系統(tǒng)與上文描述的手寫體字符圖像特征識別的方法可相互對應(yīng)參照。
請參考圖2,圖2為本發(fā)明實(shí)施例所提供的手寫體字符圖像特征識別的系統(tǒng)的結(jié)構(gòu)框圖;該系統(tǒng)可以包括:
輸入模塊100,用于輸入手寫體字符圖像訓(xùn)練樣本和手寫體字符圖像測試樣本;
訓(xùn)練模塊200,用于將所述手寫體字符圖像訓(xùn)練樣本輸入軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型中,輸出用于特征提取的描述矩陣;其中,所述軟半監(jiān)督判別手寫體圖像特征學(xué)習(xí)算法模型利用1-范數(shù)規(guī)則構(gòu)造樣本之間的加權(quán)相似圖,并利用比例模型在緊湊局部軟標(biāo)簽類內(nèi)散度和分離局部軟標(biāo)簽類間散度的同時保持所有手寫體字符圖像訓(xùn)練樣本進(jìn)行局部保持特征提取,通過迭代過程得到描述矩陣;
測試預(yù)處理模塊300,用于利用所述描述矩陣提取所述手寫體字符圖像測試樣本的特征,生成新測試特征集;
測試模塊400,用于將所述新測試特征集利用最近鄰分類器進(jìn)行歸類,確定各所述手寫體字符圖像測試樣本對應(yīng)的歐式距離中最小值的位置,并將所述位置對應(yīng)的類別作為各所述手寫體字符圖像測試樣本的字符識別結(jié)果輸出。
具體的,訓(xùn)練模塊200采用將1-范數(shù)度量應(yīng)用于半監(jiān)督手寫體字符圖像特征學(xué)習(xí)模型,用于對手寫體訓(xùn)練圖像進(jìn)行相似性學(xué)習(xí),構(gòu)造加權(quán)相似圖,通過比率模型在緊湊局部類內(nèi)軟標(biāo)簽散度和分離局部類間軟標(biāo)簽散度的同時保持所有訓(xùn)練樣本的局部特性。測試預(yù)處理模塊300,用于將手寫體字符圖像數(shù)據(jù)采用所述方法進(jìn)行特征提取,樣本外圖像的歸納主要通過將測試圖像向描述矩陣進(jìn)行映射。測試模塊400,用于將降維后的手寫體字符圖像特征利用最近鄰分類器完成測試,取對應(yīng)歐式距離最小值的位置,進(jìn)行測試圖像的類別鑒定。
基于上述實(shí)施例,所述訓(xùn)練模塊200可以包括:
第一計(jì)算單元,用于根據(jù)所述手寫體字符圖像訓(xùn)練樣本計(jì)算局部保持矩陣;
第二計(jì)算單元,用于根據(jù)所述手寫體字符圖像訓(xùn)練樣本及所述局部保持矩陣,計(jì)算預(yù)定矩陣;其中,所述預(yù)定矩陣包括軟標(biāo)簽權(quán)值矩陣,軟標(biāo)簽各類均值矩陣,軟標(biāo)簽全樣本均值矩陣,權(quán)值矩陣;
第三計(jì)算單元,用于根據(jù)所述預(yù)定矩陣,利用所述比例模型通過迭代過程得到描述矩陣。
請參閱表1,為本實(shí)施例提供的方法和半監(jiān)督的最大間距準(zhǔn)則算法(SSMMC)、半監(jiān)督的線性判別分析算法(SSLDA)、基于1-范數(shù)的判別性局部保持投影算法(DLPP-L1)方法,基于1-范數(shù)的主成分分析(PCA-L1)識別結(jié)果對比表,給出了各方法實(shí)驗(yàn)的平均識別率和最高識別率。本例中,參與比較的SSMMC、SSLDA、PCA-L1和DLPP-L1方法使用各自計(jì)算得到的投影矩陣用于測試樣本的特征提取,且分類均采用最近鄰分類器。
表1.本發(fā)明和SSMMC、SSLDA、DLPP-L1、PCA-L1方法識別結(jié)果對比
通過三個真實(shí)數(shù)據(jù)集,即(a)USPS,(b)CASIA-HWDB1.1和(c)MNIST上的實(shí)例實(shí)驗(yàn)結(jié)果顯示,本發(fā)明方法可有效用于手寫體的自動特征提取。
請參參考3,為本發(fā)明實(shí)施例公開的一種手寫體識別預(yù)測示意圖。
通過實(shí)驗(yàn)結(jié)果可以看出本發(fā)明的手寫體字符圖像特征提取及識別效果明顯優(yōu)于相關(guān)的SSMMC、SSLDA、PCA-L1以及DLPP-L1方法,且表現(xiàn)出了較強(qiáng)的穩(wěn)定性,具有一定的優(yōu)勢。
基于上述技術(shù)方案,本發(fā)明實(shí)施例提的手寫體字符圖像特征識別的系統(tǒng),特征學(xué)習(xí)方面,其在目標(biāo)在于緊湊局部軟標(biāo)簽類內(nèi)散度并分離局部軟標(biāo)簽類間散度,同時在所有訓(xùn)練數(shù)據(jù)上進(jìn)行局部保持特征提取。為了使得提出的方法在特征提取和展示方面對于噪聲魯棒,對于噪聲魯棒的1-范數(shù)規(guī)則被用于構(gòu)造樣本間的相似度,使得在識別中圖像展示的能力可得到顯著提升?;诒壤哪P涂赏ㄟ^一個迭代的方法得到投影矩陣,該矩陣具有判別性與局部保持的特點(diǎn),且具有正交特性。樣本外圖像的歸納通過將測試圖像樣本向描述矩陣進(jìn)行投影,進(jìn)而將提取的特征輸入最近鄰分類器進(jìn)行歸類,取對應(yīng)歐式距離最小值的位置,用于測試圖像的類別鑒定,得到最準(zhǔn)確的識別結(jié)果。
說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上對本發(fā)明所提供的手寫體字符圖像特征識別的方法及系統(tǒng)進(jìn)行了詳細(xì)介紹。本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。