復雜背景下圖像處理的二值化方法

文檔序號：6482674閱讀：314來源：國知局

專利名稱：復雜背景下圖像處理的二值化方法
技術領域：
本發(fā)明涉及的是一種圖像處理技術領域的方法，具體涉及一種復雜背景下圖像處理的二值化方法。
背景技術：
人們在日常生活中會接觸到大量的圖像資料，如彩色圖片，封面，海報等。這些圖像資料包含了非常豐富的文字信息。因此，基于圖像的文字識別也得到了廣泛的應用。通知，在文字識別之前要進行二值化操作。這個操作可以將彩色的圖像變成黑白的圖像。很多重要的技術，如OCR(文字識別)，與二值化操作密切相關。二值化效果的好壞直接影響到OCR的識別率。一副圖片上有大量的信息，可分為文字信息和非文字信息。非文字信息經過OCR處理之后，會輸出很多亂碼。如果一副圖片上有大量非文字信息存在，OCR識別率會大大下降。與此同時，圖像上的文字有可能是不同字體，不同顏色,不同大小，不同語言。甚至背景顏色和前景顏色也千差萬別。目前絕大多數的二值化算法不能解決上述復雜的實際情況，在大量圖像處理中，會出現反色的情況(背景為黑色，文字為白色)，這同樣也是 OCR識別率大大下降的重要因素。
二值化方法大致可以分為全局閾值和局部閾值法。全局閾值是對整副圖像用單一的閾值進行二值化。這是最簡單，也是最早的方法。
經對現有技術文獻的檢索發(fā)現，中國專利申請?zhí)?00510080050.6，名稱一種圖像二值化的方法。該技術稱通過計算機系統(tǒng)對數字化的圖像進行二值化方法時，處理灰度直方圖為正常的雙峰圖像一般效果比較好，但當雙峰出現明顯的偏移，如圖像的亮度過高時，往往導致二值化域值選擇不能準確而導致二值化后的圖像過淺或過深，從而影響到后面對圖像的繼續(xù)處理，如進行文字識別。由于全局閾值方法的只能應用于前景背景灰度值差距比較大的情況，有著太多的局限性。局部閾值法則結合每個像素點的實際情況，動態(tài)的計算閾值，效果也更為精細，準確。如Niblack方法，非常適合處理文字信息，但也此同時，會在背景上引入大量的噪聲，Sauvola方法，雖然降低了噪聲，卻不能處理反色的情況。 Kasar方法，雖然能過濾大量非文字信息，但不能適用于各種文字。

發(fā)明內容
本發(fā)明的目的在于現有技術的不足，提出了一種復雜背景下圖像處理的二值化方法。該方法不但在處理的過程中能濾除掉大量的非文字信息，而且能自適應的把各種文字信息都變?yōu)楹谏?，背景變?yōu)榘咨蟠筇岣吡薕CR的識別率。
本發(fā)明是通過以下的技術方案來實現的
本發(fā)明包括以下步驟
① 對輸入圖像進行多尺度的canny算子的邊緣檢測，標記連通分支，針對每個獨立的連通分支作外接矩形框。
② 對每個矩形框進行分類器的過濾，去除無文字特性區(qū)域，篩選出可能包含文字的矩形框。
③ 對每個篩選出的矩形框提取前景顏色和背景顏色，基于這兩種顏色對每個矩形框作單獨的二值化處理，綜合得到最后的二值化結果。
在上述步驟①中，首先把輸入圖片變成灰度圖片。對該灰度圖像進行高斯平滑濾波后，用carmy算子檢測邊緣。然后根據八連通分支的定義，標記出連通在一起的邊緣，這樣的一個邊緣稱為一個連通分支。對每個連通分支做作一個外接矩形框。矩形框在篩選文字和提取背景前景顏色的時候,起到非常重要的作用。
進一步，上述步驟①中采用多尺度的高斯平滑濾波，當高斯濾波器在平滑圖像的時候，高斯核o會大大影響到圖像的平滑程度。在不同o下檢測出來的邊緣也大大不同。采用單一尺度的濾波，可能一些細小的文字邊緣的信息就不能被檢測出來，這樣一個文字可能殘缺不全，為以后的二值化帶來更大的難度。因此，為了盡可能得獲取全部文字的邊緣，必須綜合各個尺度下邊緣檢測的結果。在本發(fā)明中，高斯核o從0.2取到0.8，步長是0.2，邊緣信息E二EnE21... |En，其中E,代表在第i個o下檢測出的邊緣。
在上述步驟②中，通過分類器的設計，篩選步驟①中提取出來的矩形框，找到真正包含文字信息的矩形外框。包括下面的步驟
(a) 去除長寬比例大于10或小于0. 1的矩形框。
(b) 去除面積超過整副圖像一半以及像素點小于16的矩形框。
(c) 去除填充因子過小的矩形框。(d) 對每個矩形框進行層數的標記，記為Bn， (ii=l,2,3)。 Bl代表該矩形框內部完全沒有包含其它的矩形框，完全包含的定義指它內部閉合含有別的矩形框，相交不屬于這個范疇。B2代表該矩形框內部只包含B1矩形框。B3代表該類矩形框內部含有多層的矩形框，是除B1， B2兩類之外的框。
(e) 去除標有B3的框，去除B2內部中的B1框。剩下的框即為含有文字特性的框。
在上述步驟②中的第(a)步的作用是為了去除圖像中長條形的區(qū)域，數據表達是長寬比太大或太小。第(b)步是去除一些孤立的，類似噪聲點的區(qū)域，數學表達為面積太小。第(c)步，填充因子的定義是矩形框內部的邊緣像素點與矩形框面積的比值。如果填充因子小于O. 1，說明邊緣分布沒有文字特性，為非文字框。第(d)步源于對各種文字進行分析的結果。不管是哪個國家的文字，都被限定在了B2和B1之內，不可能出現B3的情況。濾除這些框，可以保證最大限度的去除非文字區(qū)域，而保留文字區(qū)域。
在上述步驟②中的步驟(c)中，針對步驟(b)中留下來的矩形框，提取
前景背景顏色。前景色<formula>formula see original document page 6</formula>，E代表檢測出的邊緣，N為邊緣點
^ (仏
的總數，I指灰度值。背景色BEB指的是每個矩形框外二十四個特定點的中值?；谶@兩個顏色，利用如下判決公式<formula>formula see original document page 6</formula>
對每個矩形框進行二值化操作，最后把所有矩形框處理的結果整合起來，得到最終的二值化圖片。
進一步，多尺度的canny邊緣檢測保證了文字邊緣有連續(xù)性的特征，前景色的計算公式提取的是矩形框內邊緣點灰度的均值，能較準確代表文字的顏色信
息。二十四個特定點的中值取的是矩形框外側四個角以及四條邊中央的二十四個特定點灰度的中值，能較真實得反應出局部背景色的信息，而且解決了互相重疊的矩形框的背景前景色干擾的問題，適應于傾斜排列的文字。
本發(fā)明的原理是通過多尺度邊緣檢測把圖片的邊緣信息盡可能得提取出來，而這些邊緣信息很大部分不是文字邊緣信息。經過基于層次設計分類器的過濾，去除掉了無文字特性矩形框。通過對余下的矩形框單獨提取前景背景色，基于二值化規(guī)則自適應得把圖像背景變?yōu)榘咨淖肿優(yōu)楹谏?。這個二值化方法是局部閾值法，它在圖像內部篩選出的矩形框上獨立操作，這就保證了復雜背景下各種情況的文字信息的有效提取，矩形框之外的區(qū)域不必關心，作為背景。
本發(fā)明有益的效果在于對一副背景相對復雜的圖像資料，能自動得把上面的文字信息獲取并以黑色顯示，背景則以白色顯示。從而使OCR識別率大大增加，誤識率大大降低。

圖1是本發(fā)明所述方法的流程圖；圖2是輸入圖片；
圖3是圖片多尺度的邊緣檢測后，連通分支標邊并提取外接矩形框；
圖4是多層次矩形框篩選后的結果；
圖5是最終二值化處理結果；
圖6是矩形框外二十四個特定點的位置說明；
圖7是該二值化算法和其它二值化算法比較的結果；
圖8是本發(fā)明的實驗結果。
具體實施例方式
下面結合附圖和實施方式對本發(fā)明作進一步詳細的描述。
(1) 如圖1所示，這種新的針對復雜圖像文字信息的二值化方法，包含以下步驟多尺度的ca皿y算子的邊緣檢測；標記連通分支，作外接矩形框；篩選有文字信息的矩形框；對矩形框分別提取前景顏色和背景顏色;最后對每個框通過上文提到的公式進行二值化處理。
(2) 多尺度的canny算子的邊緣檢測
如圖2，對輸入彩色圖像進行灰度化處理之后，進行多尺度的canny邊緣檢測。其中輸入圖像可以為任何彩色圖像，但需要包含一定的文字信息。實驗過程中主要采用圖書封面。這副圖像包含了中英文字符信息，以及圓形外框，橫線等非文字信息。在邊緣檢測中，高斯核0從0.2取到0.8，步長是0.2。為了盡可能得發(fā)現文字邊緣，實驗中把所有檢測出的邊緣并起來。結果如圖3所示，輸入圖片不管英文，中文，邊框，橫線的邊緣都被提取出來。(3) 標記連通分支，作外接矩形框
根據8連通法則，對步驟1中的所有連通的邊緣，作一個外接矩形框。如圖3所示，一個文字可能只包含一個矩形框，也可能由多個矩形框組成。其中，英文字符內部可能包含一個或兩個矩形框，而中文字符內部就有可能包含多個矩形框。非文字的圖形當然也有自己的外接矩形框，但是它們跟文字外框相比，有
不一樣的特性，因此經過下一步的外框篩選，可以去除掉大多數非文字信息。
(4) 篩選有文字信息的矩形框
如圖4所示，經過多層次矩形框的篩選后，不屬于文字的邊緣的外接矩形框被去掉，所有文字邊緣的矩形框被保留。其中，圓形外框因為內部包含了 B3矩形框，中央的橫線因為外框不滿足最初的分類器設計標準一一長寬高比例超出范圍，故它們都被濾除。與些同時，大多數文字內部帶來重復信息的B1矩形框也被濾除。從圖中可以明顯看出，圖中圓形外框以及中央的那條直線己經被去除掉了。剩余的都是我們需要的文字信息。
(5) 對矩形框提取前景顏色和背景顏色
前景顏色依賴于矩形框內部邊緣的灰度值，內部邊緣指的就是最初的連通分支，每個矩形外框只包含唯一的內部邊緣。把邊緣上每個點的灰度統(tǒng)計出來，利用公式
Z取力
其中FEB指的提取的前景顏色，I(x,y)指的是邊緣上像素點的灰度值。背景顏色依賴于矩形框二十四點的顏色中值。這二十四個點分布在外接矩形框上的八個地方，分別是每條邊的中部以及四個角上，每處三個點。這二十四個點的灰度值有效并真實得反應了文字周圍的背景顏色信息。圖6是背景色取的二十四個點
的說明。背景顏色的提取方法是為了排除文字在傾斜的時候，前景和背景容易產生混淆的問題。文字在傾斜排列的時候，文字的外接矩形框的角可能接觸到其它文字，因此這個角上提取的像素點灰度并不能真實的反應出文字周圍的背景顏色信息，而引入的每條邊中部的十二個點，一方面擴大了樣本的范圍，二方面有效得避免了背景顏色提取不準確的情況。最后背景顏色取的是這二十四個點灰度值的中值。(6)對每個框通過上文提到的公式進行二值化處理，處理公式如下:
其中Feb是上文提到的前景顔色，Beb是矩形框的背景顔色。BWeb指的是矩形框內部每個像素點的二值化取值，0代表黑色像素點，l代表白色像素點。最終處理結果如圖5所示?？梢钥闯?，最終的結果僅僅含有文字信息，圖片中的圓形外框，直線都被去除掉。圖7是本方法與其它二值化算法的比較結果。其中，a是輸入圖片，b是niblack方法處理結果，該方法對文字處理較好，但在背景上增加了很多噪聲；c是sauvola方法處理結果，該方法在很大程度上降低了背景噪聲，但是在圖片的邊緣上還殘留一點痕跡；d是chang方法結果，保留了文字非文字信息；e是Kasar方法的結果，有很大的局限性，如不能處理中文字符；f是本發(fā)明方法的處理結果。當然在更加復雜的圖片上也有類似的處理結果，如圖8所示。實驗都是在有復雜背景下的封面上進行的，處理結果在絕大程度上去除了非文字信息，保留了文字信息，并且所有文字都以黑色顯示，背景以白色顯示?？梢钥闯?，該方法不但能有效得抑制噪聲，去除背景無關信息，還能自適應的把所有文字變成黑色。
權利要求
1、一種復雜背景下圖像處理的二值化方法，其特征在于，包括以下步驟①對輸入圖像進行多尺度的canny算子的邊緣檢測，標記連通分支，針對每個獨立的連通分支作外接矩形框；②對每個矩形框進行分類器的過濾，去除無文字特性區(qū)域，篩選出包含文字的矩形框；③對每個篩選出的矩形框提取前景顏色和背景顏色，基于這兩種顏色對每個矩形框作單獨的二值化處理，綜合得到最后的二值化結果。
2、如權利要求1所述的復雜背景下圖像處理的二值化方法，其特征是在上述步驟①中首先把輸入圖片變成灰度圖片；對該灰度圖像進行高斯平滑濾波后，用carmy算子檢測邊緣；然后根據八連通分支的定義，標記出連通在一起的邊緣，這樣的一個邊緣稱為一個連通分支；對每個連通分支做作一個外接矩形框。
3、如權利要求2所述的復雜背景下圖像處理的二值化方法，其特征是所述的高斯平滑濾波，是指高斯濾波器在平滑圖像的時候，高斯核o從0.2取到0.8，步長是0.2，邊緣信息E:Et I E2 I…i En，其中E,代表在第i個。下檢測出的邊緣。
4、如權利要求1所述的復雜背景下圖像處理的二值化方法，其特征是在上述步驟②中，通過分類器的設計，篩選步驟①中提取出來的矩形框，找到包含文字信息的矩形外框，包括如下步驟-(a) 去除長寬比例大于10或小于0. 1的矩形框；(b) 去除面積超過整副圖像一半以及像素點小于16的矩形框； (C)去除填充因子過小的矩形框；(d)對每個矩形框進行層數的標記，記為Bn， (n=l，2，3), Bl代表該矩形框內部沒有完全包含各個矩形框，B2代表該矩形框內部只包含Bl矩形框，B3 代表該類矩形框內部含有多層的矩形框，是除B1， B2兩類之外的框；(e)去除標有B3的框，去除B2內部中的B1框，剩下的框即為含有文字特性的框。
5、如權利要求4所述的復雜背景下圖像處理的二值化方法，其特征是所述的完全包含，其定義指它內部閉合含有別的矩形框，除相交矩形框外。
6、如權利要求4所述的復雜背景下圖像處理的二值化方法，其特征是第(c) 步所述的填充因子，是指矩形框內部的邊緣像素點與矩形框面積的比值，如果填充因子小于O. 1，說明邊緣分布沒有文字特性，為非文字框。
7、如權利要求4所述的復雜背景下圖像處理的二值化方法，其特征是第(d) 步中，源于對各種文字，都被限定在了 B2和B1之內，濾除這些框，最大限度的去除非文字區(qū)域，而保留文字區(qū)域。
8、如權利要求4所述的復雜背景下圖像處理的二值化方法，其特征是在步驟(C)中，針對步驟(b)中留下來的矩形框，提取前景背景顏色前景色^朋=+ Z "A力其中E代表檢測出的邊緣，N為邊緣點的總數，I指灰度值；背景色BEB指的是每個矩形框外二十四個特定點的中值；基于這兩個顏色，利用如下判決公式對每個矩形框進行二值化操作，最后把所有矩形框處理的結果整合起來，得到最終的二值化圖片。
全文摘要
本發(fā)明涉及一種圖像處理技術領域的方法，具體涉及一種復雜背景下圖像處理的二值化方法。包含以下步驟對輸入圖像進行多尺度的canny算子的邊緣檢測，標記連通分支，針對每個獨立的連通分支作外接矩形框；對每個矩形框進行分類器的過濾，去除無文字特性區(qū)域，篩選出可能包含文字的矩形框，對每個篩選出的矩形框提取前景顏色和背景顏色；基于這兩種顏色對每個矩形框作單獨的二值化處理，綜合得到最后的二值化結果。本發(fā)明準確和清晰度都非常高，能大大提高文字的識別率，其效果優(yōu)于其它方法。
文檔編號G06K9/38GK101599125SQ20091005288
公開日2009年12月9日申請日期2009年6月11日優(yōu)先權日2009年6月11日
發(fā)明者張志遠, 李晨軒, 管海兵, 凱陳, 齊開悅申請人:上海交通大學

完整全部詳細技術資料下載