一種基于水平集分割的文本抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像處理領(lǐng)域中的文本抽取方法,尤其涉及一種基于水平集分割的文 本抽取方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的發(fā)展,越來越多的信息以圖像或視頻等多媒體的形式出 現(xiàn)。圖像或視頻中含有豐富的文本信息,這些文本信息對圖像或視頻起著說明和詮釋的作 用。提取和識別這些文本信息對圖像理解、視頻內(nèi)容分析、智能交通、機(jī)器視覺、智能控制等 方面有著重要的意義。然而,由于文本信息通常處于復(fù)雜背景中,通用的OCR系統(tǒng)很難識別 出文本信息。因而文本檢測出來在提交給OCR系統(tǒng)之前還需要一個去除背景的過程即文本 抽取過程。因此,如何從復(fù)雜背景圖像中抽取文本信息,成為以文本信息為線索來理解圖像 內(nèi)容的一個關(guān)鍵任務(wù)。
[0003] 現(xiàn)有的圖像文本抽取技術(shù)主要分為基于閾值的方法、基于聚類的方法和基于統(tǒng)計(jì) 模型的方法?;陂撝档姆椒ㄖ饕梦谋竞捅尘邦伾姆指睿O(shè)定閾值將文本和背景分 離。閾值的選取有全局閥值和局部閥值兩種。該種方法抽取的效果取決于閥值對圖像背景 和文本的區(qū)分度,一般適用于圖像背景比較單一的情況?;诰垲惖姆椒ㄒ话憷妙伾?息將文本塊圖像分為K類,然后根據(jù)某一聚類算法和設(shè)定的閥值將符合規(guī)則的類聚合,逐 步的減少顏色的分類數(shù)。文本像素最后對應(yīng)其中的一類,其余各類均為背景。這類方法但 當(dāng)背景中含有與文本顏色相同或相近的成分時,這些成分會被誤分入文本類,從而產(chǎn)生大 量的殘余背景,影響OCR識別。基于統(tǒng)計(jì)模型的方法對文本塊中的所有像素建立概率模型, 然后設(shè)定合理的概率模型中的參數(shù),然后根據(jù)最大似然法則確定每個像素是否屬于文本像 素。概率模型方法中模型參數(shù)一般需要統(tǒng)計(jì)學(xué)習(xí)得到,需要大量的學(xué)習(xí)樣本。
[0004] 上述各種文本抽取方法,只利用了圖像底層局部的灰度或彩色信息,對復(fù)雜背景 圖像中的文本或空心字進(jìn)行抽取時,往往存在殘余背景,文本抽取效果不好。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的就是為了解決上述問題,提供一種基于水平集分割的文本抽取方 法。首先采用水平集函數(shù)把圖像分為兩個區(qū)域,然后對兩個域進(jìn)行極性判斷,判斷出文本區(qū) 域和背景區(qū)域,最后對文本區(qū)域?yàn)V波,去除背景噪聲。該方法利用了圖像的全圖信息,不僅 能夠抽取復(fù)雜背景中的文本信息,而且對空心字圖像的抽取效果也十分理想。具有一定的 通用性和實(shí)用性。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] -種基于水平集分割的文本抽取方法,包括:
[0008] 讀取圖像數(shù)據(jù)信息,確定邊界曲線;對讀取的圖像進(jìn)行灰度化;抽取灰度特征值; 根據(jù)灰度特征值采用水平集函數(shù)將圖像分為邊界曲線內(nèi)區(qū)域和邊界曲線外區(qū)域;對分割 出的兩個區(qū)域進(jìn)行二值化;對二值化的兩個區(qū)域分別進(jìn)行連通元標(biāo)定;對兩個區(qū)域中標(biāo)定 的連通元進(jìn)行濾波;對濾波后的區(qū)域進(jìn)行極性判定,判斷出文本像素區(qū)域和背景像素區(qū)域; 對文本區(qū)域進(jìn)行濾波,濾除背景噪聲;輸出文本抽取結(jié)果。
[0009] 具體步驟包括:
[0010] 步驟⑴:給定圖像uQ(x,y), (x,y) e Ω, Ω為圖像區(qū)域,ω為Ω的開子集,C為 ω的邊界曲線,讀取圖像信息;
[0011] 步驟⑵:對讀取的圖像灰度化;
[0012] 步驟⑶:抽取圖像的灰度特征值;
[0013] 步驟(4):采用水平集函數(shù)圖像分割成邊界曲線內(nèi)區(qū)域和邊界曲線外區(qū)域;
[0014] 步驟(5):判斷分割是否完成,如果完成則進(jìn)入步驟(6),否則,返回步驟⑷;
[0015] 步驟(6):對分割的兩個區(qū)域進(jìn)行二值化,即曲線內(nèi)區(qū)域用黑色像素表示,曲線外 區(qū)域用白色像素表示;
[0016] 步驟(7):對二值化后的兩個區(qū)域分別采用區(qū)域增長法進(jìn)行連通元標(biāo)定;
[0017] 步驟(8):判斷連通元標(biāo)定是否完成,如果完成進(jìn)入步驟(9),否則,返回步驟 (7);
[0018] 步驟(9):對兩個區(qū)域中的連通元進(jìn)行濾波;
[0019] 步驟(10):判斷兩個區(qū)域連通元濾波是否完成,如果完成進(jìn)入步驟(11),否則,返 回步驟(9);
[0020] 步驟(11):對濾波后的兩個區(qū)域進(jìn)行極性判定,以判斷兩個區(qū)域中哪個區(qū)域?yàn)槲?本區(qū)域;通過比較兩個區(qū)域中連通元的數(shù)目,取連通元數(shù)目多的區(qū)域?yàn)槲谋緟^(qū)域,取連通元 數(shù)目少的區(qū)域?yàn)楸尘皡^(qū)域;
[0021] 步驟(12):對確定的文本區(qū)域,進(jìn)一步濾波去除殘余背景;
[0022] 步驟(13):輸出文本抽取結(jié)果。
[0023] 所述步驟⑷中,水平集分割的能量函數(shù)為:
[0025] 其中,^入1,入2均是正常數(shù),(:1,(3 2分別是圖像11。〇^)中曲線邊界(:內(nèi)部與外 部的灰度平
[0026] 均值,H(Z)和δ (ζ)分別表示正則化的Heaviside函數(shù)H(Z)和Dirac函數(shù)δ (ζ); 其中,
[0027]
[0028] 所述步驟(4)中的具體方法為:
[0029] 步驟(4-1):將邊界曲線曲線C用水平集函數(shù)代替,如果點(diǎn)(X,y)在曲線C 內(nèi)部,則皆〇^)>0,如果點(diǎn)(1,7)在曲線〇外部,則^〇,>')<0,如果點(diǎn)〇^)在曲線(:上,則 ?φ:'ι.) = 0.;
[0030] 步驟(4-2):初始化水平集函數(shù),令# = k = 0,為常數(shù)值;
[0031] 步驟(4-3):最小化水平集的能量函數(shù)F(q,c2,勿,固定#,#為第K次迭代供的 值,計(jì)算 Clk和c2k的值;
[0032] 步驟(4-4):最小化水平集的能量函數(shù)汽心心^^固定彳和"^計(jì)算夢^其中 #+1表示第k次迭代時W的值;
[0033] 步驟(4-5):判斷#1的解是否趨于穩(wěn)定,如果不是趨于穩(wěn)定,則另k = k+Ι,返回 步驟(4-3),繼續(xù)迭代運(yùn)算,否則停止迭代進(jìn)入步驟(4-6);
[0034] 步驟(4-6):輸出水平集函數(shù)分割結(jié)果。
[0035] 所述步驟(4-3)第k次迭代時計(jì)算cdP c 2值的方法為:
[0036]
[0037]
[0038] 其中,uQ(x, y)為給定圖像上的點(diǎn),丑(爐i^(X5J))為正則化的Heaviside函數(shù)。
[0039] 計(jì)算Phi的具體方法為:
[0040] 利用步驟(4-3)中計(jì)算的Clk和c Λ按照下式先計(jì)算
,然后積分求出#+1:
[0041]
[0042] 其中,(1"代表散度算子、¥代表梯度算子,以,\人1,\2均是正常數(shù),(31,(3 2分別 是圖像U(](x,y)中曲線邊界C內(nèi)部與外部的灰度平均值。
[0043] 所述步驟(7)中對二值化后的兩個區(qū)域分別采用區(qū)域增長法進(jìn)行連通元標(biāo)定的 方法為:
[0044] 步驟(7-1):對區(qū)域中的像素分別按從上到下、從左到右的順序進(jìn)行搜索,若搜索 到像素點(diǎn)未進(jìn)行標(biāo)記,則賦該像素點(diǎn)新的標(biāo)記號;
[0045] 步驟(7-2):以新標(biāo)記的像素點(diǎn)為起始點(diǎn)進(jìn)行8鄰域搜索,若在其8鄰域搜索到未 標(biāo)記的像素點(diǎn),則為搜索到的未標(biāo)記像素點(diǎn)賦相同標(biāo)號,并以新標(biāo)記的像素點(diǎn)為起始點(diǎn)進(jìn) 行8鄰域搜索;
[0046] 步驟(7-3):若在8鄰域內(nèi)未搜索到未標(biāo)記的像素點(diǎn),則結(jié)束該次搜索;
[0047] 步驟(7-4):判斷所有像素點(diǎn)標(biāo)記是否完成;如果完成進(jìn)入步驟(7-5);如果未完 成進(jìn)入步驟(7-1),對區(qū)域中所有未標(biāo)記的像素點(diǎn)進(jìn)行標(biāo)記,直到完成所有像素點(diǎn)標(biāo)記為 止;
[0048] 步驟(7-5):將具有相同標(biāo)號的像素點(diǎn)作為一個連通元。
[0049]