專利名稱:基于邊界特征的印刷體阿拉伯字母識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種光學(xué)字符識別方法,特別是涉及一種印刷體阿拉伯字母識別方法。
背景技術(shù):
在各種語言文字中,阿拉伯文是應(yīng)用最廣泛的文字之一。包括字母Lam-Alif在內(nèi),阿拉伯字母共有29個。簡單來說,阿拉伯字母具有如下特點1.每一個阿拉伯字母根據(jù)在單詞中的不同位置具有2~4種不同形式,分別為獨立、開頭、中間和結(jié)尾形式;2.阿拉伯文沒有元音字母,元音是通過給輔音字母標(biāo)注稱為“動符”的輔助字符的方法體現(xiàn)的。在阿拉伯文中有兩個表示元音的“動符”,分別為Hamaza和Madda;3.字母Lam和字母Alif可以連在一起形成一個新字母Lam-Alif;4.字母寬度不相等,不僅不同字母的可能不等寬,而且某字母的四種形式也不等寬;5.大部分阿拉伯字母含有輔助部分,這些輔助部分可能位于字母主體部分的上面、下面或者位于字母內(nèi)部;6.在字母表中相鄰的幾個阿拉伯字母可能具有相同的主體形式,而僅用輔助部分加以區(qū)別,這使得對于輔助部分的識別變得十分重要。
對于阿拉伯文識別的研究最早可以追溯到1975年,Nazif在其碩士學(xué)位論文中實現(xiàn)了一種印刷體阿拉伯文識別系統(tǒng)。此后對于阿拉伯文的研究一直沒有什么進(jìn)展,直到1980年,興起了一股阿拉伯文識別研究的熱潮,這一熱潮一直延續(xù)到90年代初。這一時期,Amin、Shoukry、Jambi等人都對阿拉伯文識別進(jìn)行了大量研究。目前,研究者們提出的印刷體阿拉伯字母識別方法主要包括基于圖像密度的識別方法;基于矩不變特征和神經(jīng)網(wǎng)絡(luò)的識別方法;基于基元特征和決策樹的識別方法。這些方法當(dāng)中,基于圖像密度和基于矩不變特征的識別方法雖然比較簡單,但是算法速度慢,并且這些方法沒有充分利用阿拉伯字母豐富的外形特征;基于基元特征的識別方法需要細(xì)化過程,其識別速度慢,同時由于阿拉伯字母結(jié)構(gòu)復(fù)雜,在細(xì)化過程中會出現(xiàn)斷裂、毛刺等現(xiàn)象,導(dǎo)致該方法的識別率低。對于印刷體阿拉伯字母識別來說,急需一種簡單、識別率高、速度快的方法,為提高現(xiàn)有商用阿拉伯文自動識別系統(tǒng)的性能打下良好的基礎(chǔ)。
發(fā)明內(nèi)容本發(fā)明的目的在于提出一種基于邊界特征的印刷體阿拉伯字母識別方法。
本發(fā)明所采用的技術(shù)方案是,第一步,計算字母的上、下、左、右四個邊界;第二步,將每一個邊界看作一個波,將每一個邊界表示為一系列波元的集合;第三步,從波元集合中提取波元個數(shù)、零直線個數(shù)、最長零直線長度作為識別特征;最后,采用決策樹識別每一個印刷體阿拉伯字母。為了提高算法速度,采用從上到下、從下到上、從左到右、從右到左四個方向掃描的方式計算字母的四個邊界。這種邊界計算方法不僅簡單,而且計算速度要大大快于傳統(tǒng)的邊界跟蹤算法。為了簡化識別過程,將每一條邊界表示為零直線、正直線和負(fù)直線三種波元的集合,并對其進(jìn)行合并、刪除操作以提高算法的魯棒性。在特征提取階段,提取波元個數(shù)、零直線數(shù)目、零直線長度、字母高寬比等作為識別特征,這些特征不僅簡單,并且可以很快從邊界集合或者字母圖像中直接得到。決策樹首先利用字母高寬比將印刷體阿拉伯字母分為三類,對于每一類,再利用如下特征字母輔助部分的高寬比、各個邊界中的波元個數(shù)、各個邊界中的零直線個數(shù)、右邊界中第一條零直線的長度、下邊界中第一條零直線的長度、上邊界中最長零直線的長度、右邊界中最長零直線的長度、下邊界中最長零直線的長度和上邊界中正直線的個數(shù)識別印刷體阿拉伯字母。
本發(fā)明克服了現(xiàn)有的印刷體阿拉伯字母識別方法速度慢、算法復(fù)雜的缺點,其有益效果是,將字母邊界表示為各種波元的集合并從中提取各種波元的特征,特征提取過程簡單明了,算法速度快、易于實現(xiàn)。
圖1是識別獨立形式的印刷體阿拉伯字母的決策樹;圖2是識別開頭形式的印刷體阿拉伯字母的決策樹;圖3是識別中間形式的印刷體阿拉伯字母的決策樹;圖4是識別結(jié)尾形式的印刷體阿拉伯字母的決策樹。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明結(jié)合圖1-圖4,其中,HW為字母高寬比,W為字母寬度,H為字母高度,LN1為左邊界中的波元個數(shù),LN2為上邊界中的波元個數(shù),LN3為右邊界中的波元個數(shù),LN4為下邊界中的波元個數(shù),SN1為左邊界中的零直線個數(shù),SN2為上邊界中的零直線個數(shù),SN3為右邊界中的零直線個數(shù),SN4為下邊界中的零直線個數(shù),SL31為右邊界中第一條零直線的長度,SL41為下邊界中第一條零直線的長度,MSL2為上邊界中最長零直線的長度,MSL3為右邊界中最長零直線的長度,MSL4為下邊界中最長零直線的長度,PN2為上邊界中正直線的個數(shù),SHW為輔助部分的高寬比。
本實施例中為了提取邊界特征,首先從字母圖像中計算字母的四個邊界。字母邊界的計算方法如下(以左邊界為例)從左到右掃描字母圖像,設(shè)ep為從字母圖像第p行左側(cè)開始向右掃描遇到第一個黑象素時的連續(xù)白像素的個數(shù),則字母的左邊界E可以表示為E={ep|p=1,2,....,N},其中N為字母高度。其余三個邊界的計算方法類似,只是掃描方向不同。上邊界的掃描方向為從上到下,右邊界為從右到左,下邊界為從下到上。
然后,利用如下步驟將每一個邊界表示為波元集合(以左邊界為例)。
步驟1,計算邊界E的差分dE={dep|p=2,3,...,N},其中dep的計算方法如式(1)所示。
步驟2,使用式(2)對dE進(jìn)行平滑。
dep=dep-1若dep-1=dep+1(2)步驟3,利用規(guī)則1,2,3找到邊界中三種類型的波元——零直線、正直線和負(fù)直線。
規(guī)則1若存在p和q滿足p<q,dep-1≠0,deq+1≠0,并且dep=dep+1=....=deq-1=0,則p和q之間的邊界為一條零直線,其長度為q-p。
規(guī)則2若存在p和q滿足p<q,dep-1>=0,deq+1>=0,并且dep=dep+1=....=deq-1=-1,則p和q之間的邊界為一條正直線,其長度為q-p。
規(guī)則3若存在p和q滿足p<q,dep-1<=0,deq+1<=0,,并且dep=dep+1=....=deq-1=-1,則p和q之間的邊界為一條負(fù)直線,其長度為q-p。
步驟4,若波元的長度大于2,則記錄該波元的類型、起始點、結(jié)束點及其長度。
步驟5,將邊界E用如下集合S表示,S={(tm,sm,em,lm)|m=1,2,....,M},其中,tm為E中第m個波元的類型,取值為0,1,2,分別表示零直線、正直線和負(fù)直線;sm、em以及l(fā)m分別為第m個波元的起點、終點和長度;M為E中波元的個數(shù)。
步驟6,根據(jù)規(guī)則4,5,6將連續(xù)波元合并。
規(guī)則4若tp=tp+1,|E(ep)-E(sp+1)|<3,且sp+1-ep<2,則將這兩個波元合并,同時令M=M-1。
規(guī)則5若tp=tp+2,|E(ep)-E(sp+2)|<3,且lp+1<3,則將第p、p+1、p+2三個波元合并,同時令M=M-2。
規(guī)則6若|E(sp)-E(ep)|ep-sp>4,]]>則將此波元刪除,同時令M=M-1。
然后,從經(jīng)過上述處理所得到的字母邊界集合中提取如下識別特征字母高寬比(HW)、字母輔助部分的高寬比、各個邊界中的波元個數(shù)、各個邊界中的零直線個數(shù)、右邊界中第一條零直線的長度、下邊界中第一條零直線的長度、上邊界中最長零直線的長度、右邊界中最長零直線的長度、下邊界中最長零直線的長度、上邊界中正直線的個數(shù)。
本實施例分別采用圖1~圖4所示的決策樹識別獨立形式、開頭形式、中間形式、結(jié)尾形式的印刷體阿拉伯字母。識別時,首先,利用字母高寬比將阿拉伯字母分成三類,然后對于字母個數(shù)大于1的類別,利用所提取的特征對其進(jìn)行進(jìn)一步細(xì)分,直到識別出該字母為止。以圖1為例,獨立形式的阿拉伯字母識別規(guī)則如下R1.若HW<1,且LN4≠1,則為字母Baa;R2.若HW<1,且LN4=1,且0.5W<MSL4<0.7W,且LN3=2,則為字母Sad;R3.若HW<1,且LN4=1,且0.5W<MSL4<0.5W,且LN3≠2,則為字母Dhad;R4.若HW<1,且LN4=1,且MSL4<=0.5W,且LN3≠2,則為字母Sheen;R5.若HW<1,且LN4=1,且MSL4<=0.5W,且LN3=2,則為字母Seen;R6.若HW<1,且LN4=1,且MSL4>=0.7W,且MSL2>0.4W,則為字母Faa;R7.若HW<1,且LN4=1,且MSL4>=0.7W,且MSL2<=0.4W,且SHW>0.9,則為字母Thaa;R8.若HW<1,且LN4=1,且MSL4>=0.7W,且MSL2<=0.4W,且SHW<=0.9,則為字母Taa;R9.若HW>3,則為字母Alif;R10.若1<HW<3,且LN1=LN3=LN4=1,且MSL4>0.7W,則為字母Dal;R11.若1<HW<3,且LN1=LN3=LN4=1,且MSL4<=0.7W,且LN2≠1,則為字母Waw;R12.若1<HW<3,且LN1=LN3=LN4=1,且MSL4<=0.7W,且LN2=1,且MSL2>0.7W,則為字母Hha;R13.若1<HW<3,且LN1=LN3=LN4=1,且MSL4<=0.7W,且LN2=1,且MSL2<=0.7W,且SN2=1,則為字母Raa;R14.若1<HW<3,且LN1=LN3=LN4=1,且MSL4<=0.7W,且LN2=1,且MSL2<=0.7W,且SN2≠1,則為字母Ha;R15.若1<HW<3,且LN3=LN4=1,且LN1≠1,且MSL2>0.4W,則為字母Lam;R16.若1<HW<3,且LN3=LN4=1,且LN1≠1,且MSL2<=0.4W,則為字母Kaf;R17.若1<HW<3,且LN1=LN4=1,且LN3≠1,且MSL2>0.8W,則為字母Jeem;R18.若1<HW<3,且LN1=LN4=1,且LN3≠1,且MSL2<=0.8W,且MSL4>0.8W,且MSL3>0.5H則為字母Tta;R19.若1<HW<3,且LN1=LN4=1,且LN3≠1,且MSL2<=0.8W,且MSL4>0.8W,且MSL3<=0.5H,則為字母Ttha;R20.若1<HW<3,且LN1=LN4=1,且LN3≠1,且MSL2<=0.8W,且MSL4<=0.8W,則為字母Ain;R21.若1<HW<3,且LN4=1,且LN1≠1,且LN3≠1,且MSL4>0.8W,則為字母Thal;R22.若1<HW<3,且LN4=1,且LN1≠1,且LN3=2,且0.4W<MSL4<=0.8W,且MSL3>0.6H,且PN2=1,則為字母Gaf;R23.若1<HW<3,且LN4=1,且LN1≠1,且LN3=2,且0.4W<MSL4<=0.8W,且MSL3>0.6H,且PN2≠1,則為字母Noon;R24.若1<HW<3,且LN4=1,且LN1≠1,且LN3=2,且0.4W<MSL4<=0.8W,且MSL3<=0.6H,則為字母Meem;R25.若1<HW<3,且LN4=1,且LN1≠1,且LN3=2,且MSL4<=0.4W則為字母Zay;R26.若1<HW<3,且LN4=1,且LN1≠1,且LN3≠2,且LN3≠1,且SN1=2,則為字母Ghain;R27.若1<HW<3,且LN4=1,且LN1≠1,且LN3≠2,且LN3≠1,且SN1≠2,則為字母Kha;R28.若1<HW<3,且LN4≠1,且LN3≠1,則為字母Yaa;R29.若1<HW<3,且LN4≠1,且LN3=1,則為字母Lam-Alif。
結(jié)合圖2-圖4,開頭、中間和結(jié)尾形式的阿拉伯字母的識別方法與獨立形式的識別方法相同。
權(quán)利要求
1.一種基于邊界特征的印刷體阿拉伯字母識別方法,其特征是第一步,計算字母的上、下、左、右四個邊界;第二步,將每一個邊界表示為一系列波元的集合;第三步,從波元集合中提取波元個數(shù)、零直線個數(shù)、最長零直線長度作為識別特征;最后,采用決策樹識別每一個印刷體阿拉伯字母。
2.根據(jù)權(quán)利要求1所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是所述的計算字母的上、下、左、右四個邊界是采用從上到下、從下到上、從左到右、從右到左四個方向掃描的方式計算字母的四個邊界。
3.根據(jù)權(quán)利要求2所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是字母邊界的計算方法如下左邊界從左到右掃描字母圖像,設(shè)ep為從字母圖像第p行左側(cè)開始向右掃描遇到第一個黑象素時的連續(xù)白像素的個數(shù),則字母的左邊界E可以表示為E={ep|p=1,2,....,N},其中N為字母高度,其余三個邊界的計算方法相同,只是掃描方向不同,上邊界的掃描方向為從上到下,右邊界為從右到左,下邊界為從下到上。
4.根據(jù)權(quán)利要求1所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是將字母的上下左右四個邊界表示為零直線、正直線、負(fù)直線三種波元的集合,并對其進(jìn)行合并、刪除操作。
5.根據(jù)權(quán)利要求4所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是將每一個邊界表示為波元集合的步驟為左邊界表示為波元集合的步驟為步驟1,計算邊界E的差分dE={dep|p=2,3,...,N},其中dep的計算方法為 步驟2,對dE進(jìn)行平滑dep=dep-1若dep-1=dep+1步驟3,利用規(guī)則1,2,3找到邊界中三種類型的波元——零直線、正直線和負(fù)直線規(guī)則1若存在p和q滿足p<q,dep-1≠0,deq+1≠0,并且dep=dep+1=....=deq-1=0,則p和q之間的邊界為一條零直線,其長度為q-p;規(guī)則2若存在p和q滿足p<q,dep-1>=0,deq+1>=0,并且dep=dep+1=....=deq-1=-1,則p和q之間的邊界為一條正直線,其長度為q-p;規(guī)則3若存在p和q滿足p<q,dep-1<=0,deq+1<=0,,并且dep=dep+1=....=deq-1=-1,則p和q之間的邊界為一條負(fù)直線,其長度為q-p;步驟4,若波元的長度大于2,則記錄該波元的類型、起始點、結(jié)束點及其長度;步驟5,將邊界E用如下集合S表示,S={tm,sm,em,lm)|m=1,2,...,M},其中,tm為E中第m個波元的類型,取值為0,1,2,分別表示零直線、正直線和負(fù)直線;sm、em以及l(fā)m分別為第m個波元的起點、終點和長度;M為E中波元的個數(shù);步驟6,根據(jù)規(guī)則4,5,6將連續(xù)波元合并規(guī)則4若tp=tp+1,|E(ep)-E(sp+1)|<3,且sp+1-ep<2,則將這兩個波元合并,同時令M=M-1;規(guī)則5若tp=tp+2,|E(ep)-E(sp+2)|<3,且lp+1<3,則將第p、p+1、p+2三個波元合并,同時令M=M-2;規(guī)則6若|E(sp)-E(ep)|ep-sp>4,]]>則將此波元刪除,同時令M=M-1;其余三個邊界的計算方法相同。
6.根據(jù)權(quán)利要求1所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是所述的采用決策樹識別每一個印刷體阿拉伯字母是首先利用字母高寬比將印刷體阿拉伯字母分為三類,對于每一類,再利用如下特征字母輔助部分的高寬比、各個邊界中的波元個數(shù)、各個邊界中的零直線個數(shù)、右邊界中第一條零直線的長度、下邊界中第一條零直線的長度、上邊界中最長零直線的長度、右邊界中最長零直線的長度、下邊界中最長零直線的長度和上邊界中正直線的個數(shù),并結(jié)合字母高寬比、字母輔助部分的高寬比共同作為識別特征識別印刷體阿拉伯字母。
7.根據(jù)權(quán)利要求6所述的基于邊界特征的印刷體阿拉伯字母識別方法,其特征是按照字母的四種形式獨立、開頭、中間、結(jié)尾,分別采用四個決策樹識別每一個印刷體阿拉伯字母。
全文摘要
本發(fā)明提供了一種基于邊界特征的印刷體阿拉伯字母識別方法。該方法將字母的上、下、左、右四個邊界看作一個波,將每一個邊界表示為一系列波元的集合;然后,從這些集合中提取如下邊界特征波元個數(shù)、零直線的個數(shù)、右邊界中第一條零直線的長度、下邊界中第一條零直線的長度、上邊界中最長零直線的長度、右邊界中最長零直線的長度、下邊界中最長零直線的長度、上邊界中正直線的個數(shù),并結(jié)合字母高寬比、字母輔助部分的高寬比共同作為識別特征;最后,按照字母的四種形式——獨立、開頭、中間、結(jié)尾分別采用四個決策樹識別每一個印刷體阿拉伯字母。
文檔編號G06K9/72GK101038627SQ20071007216
公開日2007年9月19日 申請日期2007年4月30日 優(yōu)先權(quán)日2007年4月30日
發(fā)明者鄭麗穎, 田凱, 唐降龍 申請人:哈爾濱工程大學(xué)