專利名稱:在包括西文字符和象形字符的圖像中文本行的分割的制作方法
在包括西文字符和象形字符的圖像中文本行的分割
背景技術(shù):
光學字符識別(OCR)是一種基于計算機的轉(zhuǎn)換,其一般以標準編碼方案中將文本的圖像轉(zhuǎn)換成如機 器可編輯文本那樣的數(shù)字形式。這個過程消除了向計算機系統(tǒng)中人工鍵入文檔的需要。OCR過程典型地通過獲得承載印刷文本消息的物理文檔的電子文件并利用諸如光學掃描儀之類的裝置掃描文檔開始。這樣的裝置產(chǎn)生原始文檔的電子圖像。然后將輸出圖像供應給計算機或其他處理裝置,并處理被掃描文檔的圖像以在圖像和文本之間進行區(qū)分,并確定明亮和黑暗區(qū)域中代表的是什么字母。越來越多地使用計算機和因特網(wǎng)的結(jié)果是,與更頻繁地在全世界使用英語結(jié)合,發(fā)現(xiàn)包括西文文字和東亞(例如中國、日本、韓國)文本組合的文本圖像變得很常見,其形式常常是西文文字混合在東亞文本選集中。因此,用于東亞文本的OCR引擎應當理想地能夠識別具有東亞和西文文本混合的文本行。
發(fā)明內(nèi)容
為了支持OCR過程,需要識別僅有東亞文本字符間中斷和個體字符的東亞或象形文本行。此外,對于既有西文又有東亞文本的文本行,需要將文本的西文和東亞片段彼此分開,并且需要向每個片段應用適當?shù)奈谋咀R別邏輯。在一種實施方式中,提供了一種方法和設備,用于對包括文本行的輸入圖像進行字符識別。該方法沿著文本行識別候選字符間中斷并將每個候選字符間中斷分類為實際中斷、非中斷或不確定中斷。至少部分基于每個相應候選字符間中斷和與其相鄰的字符劃界框的幾何性質(zhì)實現(xiàn)字符間中斷分類。至少部分基于從每個相應候選字符提取的特征組識別所述候選字符。可以用于字符識別的一個特定特征組是Gabor特征組。在另一種實施方式中,提供了一種圖像處理設備用于分割文本行的西文和象形部分。該設備包括接收具有至少一個文本行的輸入圖像的輸入部件。該設備還包括沿著文本行識別候選字符間中斷的字符間中斷標識符部件和字符間中斷分類器部件。字符間中斷分類器部件至少部分基于每個相應候選字符間中斷和與其相鄰的字符劃界框的幾何性質(zhì),將每個候選字符間中斷分類為實際中斷、非中斷或不確定中斷。字符識別部件至少部分基于從每個相應候選字符提取的特征組識別所述候選字符。西文和象形文本分類器部件將文本行分割成西文文本片段或象形文本片段,并向輸出部件輸出結(jié)果。提供本發(fā)明內(nèi)容是為了以簡化形式介紹在下面具體實施方式
中將進一步論述的概念的選擇。本發(fā)明內(nèi)容并非要標識所要求保護的主題的關(guān)鍵特征或必要特征,也并非要用作在確定所要求保護的主題范圍時的輔助。
圖I和2分別示出了西文和東亞文本的文本行。圖3示出了包含西文和象形文本的混合的文本行。圖4示出了圖像處理設備的一個范例,圖像處理設備執(zhí)行分割文本行的西文和象形部分的過程。圖5a和5b示出了東亞文本字符的范例,該東亞文本字符被它們的相應劃界框和它們之間候選字符間中斷圍繞。圖6a示出了預處理之前的字符圖像,連同其劃界框的寬度和高度;圖6b示出了已經(jīng)拉伸之后的字符。圖7-12示出了經(jīng)歷文本分割過程時的文本行。圖13為示出了將文本行分成西文和象形文本片段的過程的一個范例的流程圖。
具體實施方式
光學字符識別(OCR)過程的一種重要方面是行識別和分割。不過,行的概念對于西文文本和東亞文本(或者更一般地,任何基于象形的文本,其中單個書寫字符表示單詞)而言具有不同含義??梢栽趫DI和2中看出這種區(qū)別,它們分別示出了西文和東亞文本的文本行。具體而言,對于象形文本行而言,僅有字符的概念,而對于西文文本行而言,還有單詞的概念。在其他情況下,例如這里論述的那些情況,文本行包含西文和象形文本的混合(圖3)。為了支持用于西文和東亞或象形文本混合的OCR過程,需要解決若干問題。具體而言,對于僅有東亞文本的文本行,需要識別正確的字符間中斷和個體字符。此外,對于既有西文文本又有東亞文本的文本行,必須要將文本行適當分割成西文和東亞文本片段。這些問題中的每一個都將得到逐一解決。圖4示出了圖像處理設備100的一個范例,圖像處理設備可以執(zhí)行分割文本行的西文和象形部分的過程。可以并入OCR引擎中的該設備可以由OCR引擎用于識別文本行中的西文和東亞或其他象形字符。該設備包括輸入部件102,用于接收包括至少一個文本行的輸入圖像。字符間中斷標識符部件104沿文本行識別候選字符間中斷,并且字符間中斷分類器部件106將候選字符間中斷的每一個分成實際中斷、非中斷或不確定中斷。該設備還包括字符識別引擎108,用于至少部分基于從每個相應候選字符提取的特征組識別候選字符。字符識別引擎108包括字符預處理部件110、字符特征提取部件112和字符分類部件113。西文和象形文本分類器部件114將文本行分割成西文文本片段和東亞或其他象形文本片段。該設備100還包括輸出部件116,其從西文和象形文本分類器部件接收結(jié)果并產(chǎn)生關(guān)于文本行的信息,該信息的形式允許其由OCR引擎的后續(xù)部件采用。下面將論述上述部件中的每一個。字符間中斷
字符間中斷標識符部件104能夠利用公知的垂直投影技術(shù)識別東亞或象形字符之間的候選中斷,垂直投影技術(shù)可以包括用于分開彼此接觸的符號的技術(shù)。圖5a和5b示出了東亞文本中的字符間中斷范例。不過,并非通過這種方式識別的所有候選字符間中斷都是真實的中斷。例如,在個體字符之間可能沒有清楚的空間區(qū)別。相反,在個體字符之內(nèi)可能會顯現(xiàn)小的空間區(qū)別,其可能被錯誤識別為字符間中斷。因此,需要一種方法確定哪些候選字符間中斷最有可能是實際的字符間中斷。由字符間中斷分類器部件106將每個候選字符間中斷分類成中斷點、非中斷點或不確定或未定點。中斷點是兩個字符之間的實際中斷,而非中斷點位于個體字符之內(nèi)。因此,非中斷點不是真實的字符間中斷。換言之,字符不能跨越中斷點,且字符不能開始或結(jié)束于非中斷點。不過,字符能夠跨越、起始于或結(jié)束于不確定點。為了對候選字符間中斷分類,計算每個候選者的概率并設置兩個閾值,一個針對中斷,一個針對非中斷。如果P(X)是候選者X代表實際中斷的概率,然后如果P(x)>BREAK(中斷),X將被分類為中斷,如果p(x)〈N0N_BREAK,x將被分類為非中斷,且在N0N_BREAK〈=p(x) <=BREAK時,候選者被分類為未定點,其可以在處理的稍后階段中被分類。存在從上述字符間中斷分類方案的使用產(chǎn)生的若干優(yōu)點。例如,在后續(xù)處理步驟中移除分類為非中斷的所有字符間候選中斷,導致更好的性能和精確度。此外,分類為中斷的所有字符間候選中斷僅能夠被視作字符開始或結(jié)束的點,這也導致更好的性能和精確度。在建立可用于將候選字符間中斷分類成中斷點、非中斷點或未定點的字符間候選中斷的特性或特征時,以下術(shù)語將是有用的??梢杂勺址g中斷分類器部件106確定包括字符劃界框的這些特征。Bi-第i個中斷。每個中斷都由兩個X坐標(Bi. start和Bi. end)定義,且Bi. size=Bi. end-Bi. start+1。BBpi-第i個字符間中斷前的劃界框(圖5a和5b中矩形劃界框是可見的)
BBsi-第i個字符間中斷后的劃界框
BBsi. top和BBsi. bottom-分別為劃界框BBsi的頂部和底部坐標 BBpi. top和BBpi. bottom-分別為劃界框BBpi的頂部和底部坐標 BBpi. width, BBpi. height-分別為劃界框BBpi的寬度和高度 BBsi. width, BBps. height-分別為劃界框BBsi的寬度和高度 MBS-給定行的中斷大小的中值
ECH-給定行的估計字符高度(或者如果沒有更好的估計,是劃界框高度的中值)
ECff-估計的字符寬度(如果沒有更好的估計,其可以與ECH —起估計)
Bpi-x坐標最接近BBpi. right-ECff的前一中斷的索引 Bsi-x坐標最接近BBsi. left+ECff的后一中斷的索引
給定這些定義,字符間中斷分類器部件106可以使用以下特性或特征將字符間候選中斷分類為中斷點、非中斷點或未定點
權(quán)利要求
1.一種用于對輸入圖像執(zhí)行字符識別的方法,包括 接收包括至少一個文本行的輸入圖像; 沿著所述文本行識別候選字符間中斷; 至少部分基于每個相應候選字符間中斷和與其相鄰的字符劃界框的幾何性質(zhì)將每個候選字符間中斷分類為實際中斷、非中斷或不確定中斷;以及 至少部分基于從每個相應候選字符提取的特征組識別所述候選字符。
2.根據(jù)權(quán)利要求I所述的方法,其中對每個候選字符間中斷分類所依據(jù)的幾何性質(zhì)包括相鄰字符劃界框相對于估計的文本行字符高度的尺寸和位置。
3.根據(jù)權(quán)利要求2所述的方法,其中對每個候選字符間中斷分類所依據(jù)的幾何性質(zhì)還 包括相應候選字符間中斷及其相鄰中斷相對于文本行平均中斷尺寸的尺寸。
4.根據(jù)權(quán)利要求3所述的方法,其中對每個候選字符間中斷分類所依據(jù)的幾何性質(zhì)還包括針對文本行中候選字符的估計字符寬度的規(guī)則程度。
5.根據(jù)權(quán)利要求I所述的方法,其中識別所述候選字符包括在輸入灰度圖像上拉伸候選字符。
6.根據(jù)權(quán)利要求I所述的方法,其中識別所述候選字符包括利用字符特征組執(zhí)行特征計算并通過利用任何當前或?qū)淼姆诸愃惴ɑ谧址卣鹘M執(zhí)行分類。
7.一種用于分割文本行的西文和象形部分的圖像處理設備,包括 輸入部件,其接收包括至少一個文本行的輸入圖像; 字符間中斷標識符部件,其沿著所述文本行識別候選字符間中斷; 字符間中斷分類器部件,其至少部分基于每個相應候選字符間中斷和與其相鄰的字符劃界框的幾何性質(zhì)將每個候選字符間中斷分類為實際中斷、非中斷或不確定中斷; 字符識別部件,其至少部分基于從每個相應候選字符提取的特征組識別所述候選字符; 西文和象形文本分類器部件,其將所述文本行分割成西文文本片段和象形文本片段;以及 輸出部件,其接收行分割和識別結(jié)果。
8.根據(jù)權(quán)利要求7所述的圖像處理設備,其中所述西文和象形文本分類器部件被配置成移除非中斷點并分辨未定點且識別個體西文和象形字符。
9.根據(jù)權(quán)利要求8所述的圖像處理設備,其中所述西文和象形文本分類器部件還被配置成基于西文單詞中斷算法識別文本行中的單詞間中斷。
10.根據(jù)權(quán)利要求9所述的圖像處理設備,其中所述西文和象形文本分類器部件被配置成在已經(jīng)被識別為置信水平大于閾值水平的象形字符的每個字符周圍放置單詞間中斷。
11.根據(jù)權(quán)利要求10所述的圖像處理設備,其中所述西文和象形文本分類器部件被配置成,通過檢查至少一個附加字符特征,在已經(jīng)被識別為置信水平低于閾值水平的象形字符的每個附加字符周圍放置單詞間中斷。
12.根據(jù)權(quán)利要求11所述的圖像處理設備,其中所述附加字符特征包括相對于該字符左邊和右邊的字符的高度的字符高度、該字符左邊和右邊的字符的身份以及相對于行高的字符高度。
13.根據(jù)權(quán)利要求12所述的圖像處理設備,其中所述西文和象形文本分類器部件被配置成確定位于相繼單詞間中斷之間的文本片段中的西文字符的數(shù)量與文本片段中字符總數(shù)的比率,并且如果所述比值超過預定閾值,將所述文本片段分類為西文文本片段,否則將其分類為象形文本片段。
14.根據(jù)權(quán)利要求13所述的圖像處理設備,還包括西文單詞識別器引擎,用于識別西文文本片段中的單詞。
15.根據(jù)權(quán)利要求14所述的圖像處理設備,其中所述西文單詞識別器引擎提供西文單詞識別結(jié)果和與其關(guān)聯(lián)的置信水平,其中所述置信水平表示所識別單詞被正確識別的概率,且其中所述西文和象形文本分類器部件還被配置成,如果所述置信水平低于閾值水平,將所述西文文本片段重新分類為象形文本片段。
全文摘要
一種圖像處理設備分割文本行中的西文和象形部分。該設備包括接收具有至少一個文本行的輸入圖像的輸入部件(102)。該設備還包括識別候選字符間中斷的字符間中斷標識符部件(104)和字符間中斷分類器部件。字符間中斷分類器部件(104)將候選字符間中斷中的每一個分類為實際中斷、非中斷或不確定中斷。字符識別部件(108)至少部分基于從每個相應候選字符提取的特征組識別所述候選字符。西文和象形文本分類器部件(114)發(fā)現(xiàn)文本行片段并將其分類為西文文本片段或象形文本片段。
文檔編號G06K9/18GK102822845SQ201180017874
公開日2012年12月12日 申請日期2011年3月25日 優(yōu)先權(quán)日2010年3月31日
發(fā)明者I.米蒂克 申請人:微軟公司