滿文單詞中軸線的定位方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種文字處理方法,特別是一種滿文單詞中軸線的定位方法。
【背景技術(shù)】
[0002] 隨著科學(xué)技術(shù)的發(fā)展,計(jì)算機(jī)已經(jīng)能夠?qū)Χ喾N圖像格式的文字進(jìn)行識(shí)別和辨認(rèn) 巧曰英文、日文),滿文作為世界語(yǔ)言的一種,還無(wú)法做到供計(jì)算機(jī)自動(dòng)識(shí)別。如果能夠讓計(jì) 算機(jī)做到自動(dòng)識(shí)別、辨認(rèn)滿文,則可W將大量的滿文文獻(xiàn)進(jìn)行電子化處理,運(yùn)對(duì)于滿文文獻(xiàn) 的研究與保存,乃至滿族文化的研究與保存都有著十分重要的意義,而要想實(shí)現(xiàn)運(yùn)一目標(biāo), 首先需要對(duì)滿文的中軸線進(jìn)行定位。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明是為了解決現(xiàn)有技術(shù)所存在的上述不足,提出一種準(zhǔn)確率高,有助于計(jì)算 機(jī)對(duì)滿文單詞進(jìn)行正確分隔各識(shí)別的滿文單詞中軸線的定位方法。
[0004] 本發(fā)明的技術(shù)解決方案是:一種滿文單詞中軸線的定位方法,其特征在于:所述 的方法依次由滿文單詞圖像預(yù)處理、確定滿文單詞中軸線的寬度、確定滿文單詞中軸線左 右邊界位置Ξ個(gè)步驟組成,其中: 滿文單詞圖像預(yù)處理的步驟為:掃描滿文文檔,獲得滿文文檔的彩色圖像,并對(duì)滿文文 檔的彩色圖像進(jìn)行二值化,采用垂直投影法提取每一列滿文文檔的圖像,獲得列圖像,并對(duì) 列圖像采用水平投影法提取滿文單詞圖像,然后對(duì)滿文單詞圖像進(jìn)行位置歸一化處理,歸 一化處理的步驟是找到滿文單詞圖像最外側(cè)上、下、左、右四個(gè)點(diǎn)的坐標(biāo)位置,W運(yùn)四個(gè)點(diǎn) 為邊界,重新確定滿文單詞圖像的大小,并用I、W、Η分別表示歸一化處理后的二值滿文單 詞圖像、二值滿文單詞圖像的寬度數(shù)值和二值滿文單詞圖像的高度數(shù)值, 確定滿文單詞中軸線寬度的步驟為:對(duì)二值滿文單詞圖像I采用數(shù)學(xué)形態(tài)學(xué)進(jìn)行處 理,具體方法是采用長(zhǎng)度為2的水平方向直線型形態(tài)學(xué)結(jié)構(gòu)元素,對(duì)二值滿文單詞圖像I 進(jìn)行腐蝕處理,得到I的腐蝕圖像le,并求二值滿文單詞圖像I與腐蝕圖像le的縱向邊緣 圖像IV,即IV=I-Ie,提取到滿文單詞的縱向邊緣,然后對(duì)縱向邊緣圖像IV進(jìn)行垂直 投影,統(tǒng)計(jì)縱向邊緣圖像IV的每一列中所包含的黑色像素的個(gè)數(shù),垂直投影序列Wvpl表 示,取向量vpl中不重復(fù)的元素,并按照數(shù)值從大到小的降序方式進(jìn)行排列,得到新的向量 vp2,并取vp2中的前3個(gè)元素分別標(biāo)記為indl、ind2和ind3,用wd表示中軸線的寬度, W血in表示最小中軸線寬度,賦值W血in=0,W血ax表示最大中軸線寬度,T為最大中軸線寬 度的闊值,賦值Τ=1/3,則最大中軸線寬度wdmax為對(duì)TXW的結(jié)果向下整后的值,即wdmax =TxirJ, 分別定義wdl、wd2、wd3為3個(gè)候選中軸線寬度,wd表示最終確定的中軸線寬度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(w血;?η<'\¥(13<'\¥?3χ),則wd= wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),則取wdl和wd2中值較大的一個(gè)做為wd的輸出值,即wd=max(wdl,wd2), 如果(w血in<wdl<w血ax)并且(w血并且(wd2<=w血in或者wd2〉=wdmax),則取wdl和wd3中值較大的一個(gè)做為wd的輸出值,即wd=max(wdl,wd3), 如果(w血in<wd2<w血ax)并且(w血in<wd3<w血ax)并且(wdl<=w血in或者wdl〉 =wdmax),則取wd2和wd3中值較大的一個(gè)做為wd的輸出值,即wd=max(wd2,wd3), 如果(w血in<wdl<w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),貝Ij wd = wdl, 如果(w血;[]1<'\¥(12<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),貝Ij wd = wd2, 如果(w血;[]1<'\¥(13<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉= wdmax),貝Ij wd = wd3, 女曰果(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=wdmin或者wd3〉= wdmax),貝Ij wd = wdmax, 確定滿文單詞中軸線左右邊界位置的步驟為:用baseline_left表示中軸線最左側(cè) 的邊界,對(duì)于縱向邊緣圖像IV按照從左至右的順序逐列掃描,掃描范圍為從第1列至第 W-wd+1列,設(shè)當(dāng)前為第i列,則1《iW-wd+1),用TB表示第i列至第i+wd-1列的黑 色像素點(diǎn)的個(gè)數(shù),則baseline_left為具有最大TB值所對(duì)應(yīng)的列, 用baseline_;ri曲t表不中軸線最右側(cè)的邊界,則baseline_;ri曲t=baseline_ left+wd-1, 因此在二值滿文單詞圖像I中,baseline_left為該滿文單詞中軸線的左邊界,baseline_ri曲t為該滿文單詞中軸線的右邊界,wd為該滿文單詞中軸線的寬度,從而定位 出該滿文單詞的中軸線。 陽(yáng)0化]本發(fā)明同現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn): 利用本發(fā)明所公開(kāi)的方法,能夠快速、準(zhǔn)確地確定出滿文單詞的中軸線(包括中軸線的 左右邊界位置和中軸線的寬度),而滿文單詞的中軸線的確定,是計(jì)算機(jī)能夠正確分隔并識(shí) 別滿文文字的前提和基礎(chǔ),本種方法的出現(xiàn),讓滿文的計(jì)算機(jī)識(shí)別和電子化處理得到進(jìn)一 步的發(fā)展,對(duì)于滿文文獻(xiàn)的研究與保存,和滿族文化的研究與保存都是有著重大意義的,因 此可W說(shuō)該方法具有多種優(yōu)點(diǎn),特別適合于在本領(lǐng)域中推廣應(yīng)用,其市場(chǎng)前景廣泛,科研意 義重大。
【具體實(shí)施方式】
[0006] 下面將說(shuō)明本發(fā)明的【具體實(shí)施方式】。
[0007] 一種滿文單詞中軸線的定位方法,按照滿文單詞圖像預(yù)處理、確定滿文單詞中軸 線的寬度、確定滿文單詞中軸線左右邊界位置Ξ個(gè)步驟進(jìn)行操作, 滿文單詞圖像預(yù)處理的步驟為:掃描滿文文檔,獲得滿文文檔的彩色圖像,并對(duì)滿文文 檔的彩色圖像進(jìn)行二值化,采用垂直投影法提取每一列滿文文檔的圖像,獲得列圖像,并對(duì) 列圖像采用水平投影法提取滿文單詞圖像,然后對(duì)滿文單詞圖像進(jìn)行位置歸一化處理,歸 一化處理的步驟是找到滿文單詞圖像最外側(cè)上、下、左、右四個(gè)點(diǎn)的坐標(biāo)位置,W運(yùn)四個(gè)點(diǎn) 為邊界,重新確定滿文單詞圖像的大小,并用I、W、Η分別表示歸一化處理后的二值滿文單 詞圖像、二值滿文單詞圖像的寬度數(shù)值和二值滿文單詞圖像的高度數(shù)值, 確定滿文單詞中軸線寬度的步驟為:對(duì)二值滿文單詞圖像I采用數(shù)學(xué)形態(tài)學(xué)進(jìn)行處 理,具體方法是采用長(zhǎng)度為2的水平方向直線型形態(tài)學(xué)結(jié)構(gòu)元素,對(duì)二值滿文單詞圖像I 進(jìn)行腐蝕處理,得到I的腐蝕圖像le,并求二值滿文單詞圖像I與腐蝕圖像le的縱向邊緣 圖像IV,即IV=I-Ie,提取到滿文單詞的縱向邊緣,然后對(duì)縱向邊緣圖像IV進(jìn)行垂直 投影,統(tǒng)計(jì)縱向邊緣圖像IV的每一列中所包含的黑色像素的個(gè)數(shù),垂直投影序列Wvpl表 示,取向量vpl中不重復(fù)的元素,并按照數(shù)值從大到小的降序方式進(jìn)行排列,得到新的向量 vp2,并取vp2中的前3個(gè)元素分別標(biāo)記為indl、ind2和ind3,用wd表示中軸線的寬度, W血in表示最小中軸線寬度,賦值W血in=0,W血ax表示最大中軸線寬度,T為最大中軸線寬 度的闊值,賦值Τ=1/3,則最大中軸線寬度wdmax為對(duì)TXW的結(jié)果向下整后的值,即wdmax =/xSTj, 分別定義wdl、wd2、wd3為3個(gè)候選中軸線寬度,wd表示最終確定的中軸線寬度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血in<wd2<w血ax)并且(w血in<wd3<w血ax),說(shuō)明wdl、wd2、wd3均在合理寬度范圍內(nèi),則wd = wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),說(shuō)明wdl、wd2在合理