專利名稱:一種實時ic卡數(shù)字字符識別與校驗系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及IC卡數(shù)字字符識別與校驗技術(shù)領(lǐng)域,特別是一種實時IC卡數(shù)字字符識別與校驗系統(tǒng)及方法。
背景技術(shù):
目前印刷體字符識別的研究比較成熟,已在實際生活中得到廣泛的應(yīng)用。但是大多OCR系統(tǒng)都基于這樣的假定待識別字符能容易地從背景圖像中提取出來。比如漢字字符識別主要考慮的是大字符集分類問題,而不是字符的提取問題。IC卡印刷字符實時檢測的目的是要根據(jù)已知的參考數(shù)字(打印時給定的數(shù)字字符),檢測在卡片上打印的數(shù)字字符是否正確。然而由于待識別數(shù)字字符較小,難以清晰提取字符的輪廓,要實時識別出卡片上的數(shù)字字符,就要綜合考慮字符提取、分類策略等多種問題。
需要檢測的IC卡數(shù)字字符有卡號、密碼等,一般由多個阿拉伯?dāng)?shù)字組合而成,在同一卡片中卡號或者密碼的字體和大小固定。由于放置卡片的傳送帶以一定的速度勻速運動,如果要在運動的傳送帶上捕捉到每一張卡片,除了要求在卡片運動方向上采集的圖像寬度應(yīng)大于實際卡片寬度以外,還要求字符識別在很短的時間內(nèi)完成。由于待識別字符在卡片上的位置是任意的,圖象采集時要求把整張卡片都采集到圖象中,因此采集到的卡片數(shù)字字符的高度往往只有幾個象素點,字符較小。由于成像時光的干擾,使得字符圖象輪廓不夠清晰。校驗參考字符(如給定卡號)由上位機給定,校驗的準(zhǔn)確率要求大于99.9%。
因此,IC卡數(shù)字字符的識別與校驗不僅僅是一個字符識別問題,而且也是一個校驗問題。在工業(yè)上也有其他一些類似的字符識別應(yīng)用的例子,如產(chǎn)品的編號識別,生產(chǎn)線上一些特定字符的識別等。一般在這些字符識別中,字符較容易提取,字符尺寸足夠大,和IC卡數(shù)字字符的識別與校驗有一定的差異。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種實時IC卡數(shù)字字符識別與校驗系統(tǒng)及方法。
實時IC卡數(shù)字字符識別與校驗系統(tǒng)是OCR(光學(xué)字符識別)技術(shù)在IC卡印刷字符實時檢測中的應(yīng)用。在檢測時采集到的IC卡數(shù)字字符具有以下特點字符小,提取到的字符輪廓不穩(wěn)定;實時性要求高;用于校驗的參考字符(如卡號)可以事先給定;校驗的準(zhǔn)確率要求大于99.9%。因此本發(fā)明是一個識別校驗系統(tǒng),目的上和一般OCR系統(tǒng)有所區(qū)別。
一般的字符識別系統(tǒng)包括以下幾個步驟預(yù)處理、字符分割、特征提取、分類和后處理等,是一個順序結(jié)構(gòu)的系統(tǒng),如圖1所示。這種系統(tǒng)的缺點在于字符分割的結(jié)果將直接影響到分類的可靠性。一般的字符識別系統(tǒng)采用單閾值對圖象進(jìn)行分割,由于字符輪廓的不穩(wěn)定性容易導(dǎo)致字符誤識別。為此,我們使用多個閾值對字符同時進(jìn)行分割,并將分類后的結(jié)果進(jìn)行融合求平均的方法,消除偶然出現(xiàn)的誤識別,以達(dá)到提高識別穩(wěn)定性的目的。在這一方法的基礎(chǔ)上,我們提出了實時IC卡數(shù)字字符識別與校驗系統(tǒng),如圖2所示。
在圖2中,整個系統(tǒng)包含以下部分預(yù)處理、字符提取、特征提取、分類、融合和校驗。字符提取、特征提取和分類是個并行的過程,在多閾值分割的情況下,這三個過程并行執(zhí)行。預(yù)處理包括數(shù)字字符位置的確定和字符二值化。當(dāng)采集到一幀圖象以后,首先檢測出圖象中卡片的位置,然后確定待識別數(shù)字字符區(qū)域的位置,并在字符區(qū)域內(nèi)選取多個合適的閾值。對應(yīng)每一個閾值對字符分別進(jìn)行二值化。字符提取是在二值化的基礎(chǔ)上提取出每一個字符,并把每個字符變換到約定的尺寸。特征提取就是把字符中的特征信息提取出來進(jìn)行分類。由于待識別字符小且輪廓不穩(wěn)定,這里采用了基于多分類器融合的分類策略。校驗就是在給定的參考數(shù)字字符、分類結(jié)果和分類權(quán)值矩陣已獲得的基礎(chǔ)上,根據(jù)相似性規(guī)則判斷待識別的字符是否與已知字符相似。
取多次分割結(jié)果進(jìn)行分類融合可以消除某一個閾值可能引起的誤識別。在分類融合時采用多次分類結(jié)果求平均值的方法,則偶然出現(xiàn)的誤識別就會被過濾,提高了系統(tǒng)的魯棒性。在參考數(shù)字字符和數(shù)字字符識別結(jié)果已經(jīng)得到的前提下,檢驗打印的數(shù)字字符是否正確是本文識別與校驗系統(tǒng)的最終目的。我們基于參考數(shù)字字符、識別結(jié)果和分類權(quán)向量,提出了一種相似規(guī)則來校驗打印的數(shù)字字符是否正確。
經(jīng)實驗得出,單閾值分割和多閾值分割下識別校驗的計算時間相差很小,但是多閾值分割能明顯的提高識別校驗準(zhǔn)確率。實驗結(jié)果顯示,選擇6個閾值進(jìn)行分割字符已經(jīng)能滿足實時性要求也能滿足識別校驗準(zhǔn)確性的要求。我們在實驗中使用的卡片字符之間的間隙比較小,而實際中的卡片字符間隔要大一些,一般不會出現(xiàn)字符粘連的現(xiàn)象,因此實際效果可能要好于實驗效果。
綜上所述,與一般的OCR系統(tǒng)相比,本發(fā)明具有以下不同之處●采用了多閾值下的字符分割并通過對所有不同閾值下的分類權(quán)值取平均的方法,來消除提取的字符輪廓不穩(wěn)定帶來的影響,使系統(tǒng)具有更好的魯棒性。
●通過已識別的數(shù)字字符和已知的參考數(shù)字字符之間的相似性判斷來確定打印的數(shù)字字符是否錯誤。
●本發(fā)明提出的IC卡數(shù)字字符識別和校驗系統(tǒng)不但能滿足校驗準(zhǔn)確性的要求,而且還滿足實時性的要求。
發(fā)明技術(shù)方案一種實時IC卡數(shù)字字符識別與校驗系統(tǒng),包含以下部分預(yù)處理、字符提取、特征提取、分類、融合和校驗;字符提取、特征提取、分類串聯(lián)再并聯(lián)連接在預(yù)處理和融合之間,字符提取、特征提取和分類是個并行的過程。
圖1是一般的字符識別系統(tǒng)。
圖2是本發(fā)明的IC卡數(shù)字字符識別與校驗系統(tǒng)。
圖3是本發(fā)明的IC卡數(shù)字字符識別與校驗的方法流程圖。
具體實施例方式
圖1的一般的字符識別系統(tǒng)整個系統(tǒng)包括5個部分預(yù)處理、字符分割、特征提取、分類和后處理。
本發(fā)明系統(tǒng)框圖如圖2所示。整個系統(tǒng)包含六個部分預(yù)處理、字符提取、特征提取、分類、融合和后處理。
以下結(jié)合附圖3對本發(fā)明的流程做進(jìn)一步的描述。
首先,步驟S1,由圖象采集卡采集一幀灰度圖象到計算機內(nèi)存,根據(jù)區(qū)域分割的方法找到卡片區(qū)域;由于卡片在圖象中的位置可能移動,這就需要首先提取出圖象中的卡片。一般卡片和背景顏色灰度相差都很明顯,可以根據(jù)區(qū)域分割的方法找到卡片區(qū)域。然后,步驟S2,根據(jù)卡片上印刷字符的位置幾何關(guān)系,先確定數(shù)字字符的預(yù)選區(qū)域,進(jìn)一步確定出數(shù)字字符的區(qū)域。步驟S3,字符區(qū)域確定以后,需要提取出每一個字符。選擇閾值Tn分割字符區(qū)域,切分字符,提取字符特征,對所有待識別字符進(jìn)行分類。由于字符都是等寬的,因此我們可以采用平均切分的方法,按平均比例切分字符。在提取單個字符時,首先從左到右和從右到左分別提出那些不粘連的字符,然后對那些粘連的字符用等分的方法切分。步驟S4,對待識別字符的不同分類結(jié)果進(jìn)行融合。為了提高識別效果,我們采用了能反應(yīng)字符內(nèi)外部結(jié)構(gòu)的二次粗外圍特征,以及將每個字符標(biāo)準(zhǔn)化為同一尺寸并以整個字符作為特征。在每一個閾值下對每一個字符分別用兩組特征進(jìn)行分類融合。分類器融合包括兩組一組是每一個閾值下基于兩組特征分類的融合;另一組是不同閾值下分類結(jié)果的融合。步驟S5,根據(jù)給定卡號進(jìn)行校驗。經(jīng)多分類器融合,可以得到一個識別結(jié)果和一個參考分類權(quán)向量。在參考數(shù)字字符已知和卡號識別結(jié)果已經(jīng)得到的前提下,就可以基于已知的參考數(shù)字字符、識別結(jié)果和參考分類權(quán)向量,采用本發(fā)明提出的相似規(guī)則來校驗打印的卡號是否正確。如果校驗的卡號不正確,則記錄結(jié)果并剔除卡片。如果校驗的結(jié)果正確,則同樣記錄結(jié)果,并選擇是否結(jié)束任務(wù)。
本發(fā)明的特點與效果有1)使IC卡數(shù)字字符識別與校驗系統(tǒng)具有較好的魯棒性。由于IC卡數(shù)字字符小,提取的字符輪廓不穩(wěn)定,會出現(xiàn)偶然的識別錯誤,通過多閾值下的字符分割識別,并對分類結(jié)果取平均的方法可以消除偶然識別錯誤的影響,使系統(tǒng)能在實際環(huán)境中使用。
2)使IC卡數(shù)字字符識別與校驗系統(tǒng)的校驗準(zhǔn)確率達(dá)到了實際應(yīng)用的要求。在實驗的基礎(chǔ)上,給出了IC卡數(shù)字字符校驗規(guī)則,對5000張卡片實驗的結(jié)果顯示,系統(tǒng)已能達(dá)到99.98%的校驗正確率。
3)本發(fā)明提出的IC卡數(shù)字字符識別與校驗系統(tǒng)已達(dá)到了實際應(yīng)用對實時性的要求。實際要求每秒鐘需要處理6張卡片,在采用已有的實驗設(shè)備的情況下,每張卡片的處理時間(包括采集和識別校驗)在110毫秒以內(nèi),完全能滿足實際使用的要求。
權(quán)利要求
1.一種實時IC卡數(shù)字字符識別與校驗系統(tǒng),包含以下部分預(yù)處理、字符提取、特征提取、分類、融合和校驗;字符提取、特征提取、分類串聯(lián)再并聯(lián)連接在預(yù)處理和融合之間,字符提取、特征提取和分類是個并行的過程。
2.根據(jù)權(quán)利要求1的實時IC卡數(shù)字字符識別與校驗系統(tǒng),其特征在于,字符提取、特征提取、分類串聯(lián)再并聯(lián)連接在預(yù)處理和融合之間,字符提取、特征提取、分類串聯(lián)可以是多個。
3.根據(jù)權(quán)利要求1的實時IC卡數(shù)字字符識別與校驗系統(tǒng),其特征在于,預(yù)處理包括數(shù)字字符位置的確定和字符二值化。
4.根據(jù)權(quán)利要求1的實時IC卡數(shù)字字符識別與校驗系統(tǒng),其特征在于,字符提取部分是在二值化的基礎(chǔ)上提取出每一個字符,并把每個字符變換到約定的尺寸。
5.根據(jù)權(quán)利要求1的實時IC卡數(shù)字字符識別與校驗系統(tǒng),其特征在于,特征提取部分就是把字符中的特征信息提取出來進(jìn)行分類。
6.一種實時IC卡數(shù)字字符識別與校驗的方法,其步驟如下步驟S1,由圖象采集卡采集一幀灰度圖象到計算機內(nèi)存,根據(jù)區(qū)域分割的方法找到卡片區(qū)域;步驟S2,根據(jù)卡片上印刷字符的位置幾何關(guān)系,先確定數(shù)字字符的預(yù)選區(qū)域,進(jìn)一步確定出數(shù)字字符的區(qū)域;步驟S3,選擇閾值Tn分割字符區(qū)域,切分字符,提取字符特征,對所有待識別字符進(jìn)行分類;步驟S4,對待識別字符的不同分類結(jié)果進(jìn)行融合,在每一個閾值下對每一個字符分別用兩組特征進(jìn)行分類融合;步驟S5,根據(jù)給定卡號進(jìn)行校驗。
7.根據(jù)權(quán)利要求6的實時IC卡數(shù)字字符識別與校驗的方法,其特征在于,在提取單個字符時,首先從左到右和從右到左分別提出那些不粘連的字符,然后對那些粘連的字符用等分的方法切分。
8.根據(jù)權(quán)利要求6的實時IC卡數(shù)字字符識別與校驗的方法,其特征在于,包括融合和校驗,校驗就是在給定的參考數(shù)字字符、分類結(jié)果和分類權(quán)值矩陣已獲得的基礎(chǔ)上,根據(jù)相似性規(guī)則判斷待識別的字符是否與已知字符相似。
全文摘要
本發(fā)明涉及IC卡數(shù)字字符識別與校驗技術(shù)領(lǐng)域的一種實時IC卡數(shù)字字符識別與校驗系統(tǒng)及方法。系統(tǒng)包括預(yù)處理、字符提取、特征提取、分類、融合和校驗;方法包括步驟S1,由圖象采集卡采集一幀灰度圖象到內(nèi)存;步驟S2,根據(jù)卡片上印刷字符的位置幾何關(guān)系,確定出數(shù)字字符的區(qū)域;步驟S3,提取出每一個字符,并對字符進(jìn)行分類;步驟S4,對待識別字符的不同分類結(jié)果進(jìn)行融合;步驟S5,根據(jù)給定卡號進(jìn)行校驗。實時IC卡數(shù)字字符識別與校驗系統(tǒng)及方法用于IC卡印刷生產(chǎn)線上,對IC卡上的印刷字符進(jìn)行實時識別校驗,把印刷錯誤的卡片挑選出來,達(dá)到用機器取代人工操作以及提高印刷生產(chǎn)效率的目的。
文檔編號G06K9/00GK1684097SQ20041003486
公開日2005年10月19日 申請日期2004年4月16日 優(yōu)先權(quán)日2004年4月16日
發(fā)明者易建強, 洪義平, 趙冬斌 申請人:中國科學(xué)院自動化研究所