專利名稱:文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明關(guān)于一種文件的文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序,特別是關(guān)于一種可提高混合有活字和手寫文字的文件中的手寫文字之識(shí)別率的文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序。
背景技術(shù):
近年來,電子郵件等利用電子之文書的流通不斷增加,但另一方面,以紙的形式被輸出的文書也大量存在。其原因之一是,利用在紙面上的手寫而進(jìn)行補(bǔ)寫的方式容易實(shí)現(xiàn)。例如,常常發(fā)生利用手寫進(jìn)行對個(gè)人電腦(PC)等所制作的草案原稿之追加修正,和對會(huì)議等所發(fā)布的文件之補(bǔ)寫的情況。另外,也存在將補(bǔ)寫有手寫文字的文件利用掃描設(shè)備等進(jìn)行掃描,并利用OCR(Optical Character Reader,光學(xué)文字識(shí)別)進(jìn)行文字識(shí)別,且用于含有該手寫文字的識(shí)別結(jié)果之文件的再構(gòu)成這樣的需求。
但是,在習(xí)知技術(shù)中,以手寫記述的文字信息如果對分量指定、只是數(shù)字等條件不嚴(yán)格地進(jìn)行限制,則無法得到可實(shí)用的識(shí)別率,形成聯(lián)機(jī)/脫機(jī)信息轉(zhuǎn)換的障礙。因此,為了提高活字/手寫文字兩者的識(shí)別精度,可將活字部和手寫部進(jìn)行分離,并分別對應(yīng)地執(zhí)行OCR。
作為將活字部和手寫部分離并進(jìn)行文字識(shí)別的習(xí)知技術(shù),已知有一種從讀取數(shù)據(jù)中以字段(文字列)單位分離出文字?jǐn)?shù)據(jù)并在字段緩沖中進(jìn)行存儲(chǔ),且以文字種類判定部判定文字?jǐn)?shù)據(jù)的種類,并根據(jù)該判定結(jié)果,利用識(shí)別部,參照手寫詞典或活字詞典對字段緩沖內(nèi)的文字?jǐn)?shù)據(jù)進(jìn)行識(shí)別之光學(xué)文字讀取裝置(例如參照日本專利早期公開之特開平5-189604號(hào)公報(bào)( ~ 、圖1))。
而且,已知還有一種具有印刷文字識(shí)別裝置和手寫文字識(shí)別裝置,并藉由它們個(gè)別進(jìn)行文字?jǐn)?shù)據(jù)的OCR,且采用確率(準(zhǔn)確度)高的一方之光學(xué)式文字讀取裝置(例如參照日本專利早期公開之特開平7-37034號(hào)公報(bào)( ~ 、圖1~圖3))。
而且,已知還有一種在雙值化的文字信息的周圍,分別追加1點(diǎn)白畫素而形成帶有白框的圖案,并使由2×2點(diǎn)的4畫素構(gòu)成且由白畫素和黑畫素不同的組合構(gòu)成的16種2×2圖案分別與該帶有白框的圖案相對應(yīng),對帶有白框的圖案中的每一2×2圖案的產(chǎn)生頻次進(jìn)行計(jì)數(shù),并利用各2×2圖案的非直線成分和直線成分的比例判別文字種類,且通??衫眠m用文字種類的詞典而進(jìn)行識(shí)別之文字種類判別裝置(例如參照日本專利早期公開之特開平7-93466號(hào)公報(bào)( ~ 、圖4))。
而且,已知還有一種在進(jìn)行文字分離的前階段的文字行的狀態(tài)下進(jìn)行手寫文字·活字文字的判別,并在文字判別后進(jìn)行每文字的圖像分離,且根據(jù)縱寫·橫寫的區(qū)別,變更文字識(shí)別的方法,并可無視文字分割的錯(cuò)誤,高速且高精度地進(jìn)行手寫文字·活字的判別之收件人姓名文字識(shí)別方法(例如參照日本專利早期公開之特開平9-212579號(hào)公報(bào)( ~ 、圖1))。
但是,如利用習(xí)知的文字識(shí)別裝置,在日本專利早期公開之特開平5-189604號(hào)公報(bào)( ~ 、圖1)的情況下,因字體的種類和人的書寫習(xí)慣,會(huì)在判定閾值上產(chǎn)生差異的情況,使手寫文字的識(shí)別率低下。而且,如利用日本專利早期公開之特開平7-37034號(hào)公報(bào)( ~ 、圖1~圖3),要進(jìn)行2種文字的識(shí)別,所以在處理上需要時(shí)間。另外,如利用日本專利早期公開之特開平7-93466號(hào)公報(bào)( ~ 、圖4)與日本專利早期公開之特開平9-212579號(hào)公報(bào)( ~ 、圖1),因字體的種類,活字/手寫文字的直線比例會(huì)產(chǎn)生較大的變動(dòng),所以使手寫文字的識(shí)別率下降。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種可提高混合有活字和手寫文字的文件中的手寫文字之識(shí)別率的文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序。
本發(fā)明為了達(dá)成上述目的,提供一種文字識(shí)別裝置,其特征在于包括對混合有活字和手寫文字的文件的輸入圖像進(jìn)行解析并將前述輸入圖像劃分為一定的文章區(qū)域之文件構(gòu)造解析部、對利用前述文件構(gòu)造解析部所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割之文字切割部、在每一前述文章區(qū)域?qū)λ懈畛龅奈淖钟?jì)算特征量之特征量計(jì)算部、將所計(jì)算出的前述特征量在前述輸入圖像的一定范圍內(nèi)進(jìn)行統(tǒng)計(jì)之特征量統(tǒng)計(jì)部以及根據(jù)利用前述特征量統(tǒng)計(jì)部的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字之活字手寫文字分離部。
藉由對每一文章區(qū)域計(jì)算特征量并將它們進(jìn)行統(tǒng)計(jì),可得到例如用于分離活字和手寫文字的分離系數(shù),且藉此可精度良好地進(jìn)行活字和手寫文字的分離。
上述文件構(gòu)造解析部也可采用在前部連接對輸入圖像進(jìn)行傾斜修正、去除干擾等歪斜修正之歪斜修正部的構(gòu)成。文件一般以活字為主體構(gòu)成,可利用傾斜修正對活字的行寫入方向進(jìn)行修正,而留下手寫文字的行寫入方向的傾斜,所以藉由將行寫入方向作為特征量進(jìn)行計(jì)算,可輕松地將活字和手寫文字進(jìn)行分離。
上述文件構(gòu)造解析部也可利用基于段落或行的文章分割,或基于文章/圖/照片等區(qū)域類別的分割,劃分為上述一定的文章區(qū)域。
上述特征量計(jì)算部對每一文章區(qū)域計(jì)算多數(shù)個(gè)特征量為佳。在這種情況下,可利用例如文字大小的均勻性、文字濃度的均勻性、文字位置的周期性、重心位置·外接矩形中心位置的差異、行和列的寫入方向及畫素值的直方圖中的至少一個(gè)來計(jì)算特征量。藉此,可得到精度高的統(tǒng)計(jì)結(jié)果。
上述特征量統(tǒng)計(jì)部也可在輸入圖像全體中對每一文章區(qū)域的特征量進(jìn)行統(tǒng)計(jì)。藉此,可得到精度高的統(tǒng)計(jì)結(jié)果。
上述特征量統(tǒng)計(jì)部也可采用根據(jù)特征量的統(tǒng)計(jì)結(jié)果,計(jì)算用于分離活字和手寫文字的分離系數(shù)之構(gòu)成。
也可使上述特征量計(jì)算部對每一文章區(qū)域計(jì)算多數(shù)個(gè)特征量,并使上述特征量統(tǒng)計(jì)部關(guān)于以及數(shù)個(gè)特征量,分別包括似乎為活字或似乎為手寫文字這樣的多數(shù)個(gè)中間評價(jià)而作為分離系數(shù),且使上述活字手寫分離部根據(jù)多數(shù)個(gè)中間評價(jià)進(jìn)行活字和手寫文字的分離。藉此,即使在利用閾值無法分離活字和手寫文字的情況下,也可進(jìn)行分離。例如,在由多數(shù)個(gè)特征量的統(tǒng)計(jì)結(jié)果而產(chǎn)生多數(shù)個(gè)似乎為手寫文字這樣的中間評價(jià)之情況下,可決定為手寫文字。
上述活字手寫文字分離部也可對輸入圖像或?qū)⑤斎雸D像雙值化了的圖像,進(jìn)行活字或手寫文字的分離。
而且,本發(fā)明為了達(dá)成上述目的,提供一種文字識(shí)別方法,其特征在于對混合有活字和手寫文字之文件的輸入圖像進(jìn)行解析,并將前述輸入圖像劃分為一定的文章區(qū)域,且對所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割,并關(guān)于所切割出的文字對每一前述文章區(qū)域計(jì)算特征量,且在前述輸入圖像的一定范圍內(nèi)統(tǒng)計(jì)所計(jì)算的前述特征量,并根據(jù)前述特征量的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字。
而且,本發(fā)明為了達(dá)成上述目的,提供一種文字識(shí)別程序,用于使計(jì)算機(jī)執(zhí)行對混合有活字和手寫文字的文件的輸入圖像進(jìn)行解析,并將前述輸入圖像劃分為一定的文章區(qū)域之文件構(gòu)造解析裝置、對利用前述文件構(gòu)造解析裝置所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割之文字切割裝置、在每一前述文章區(qū)域?qū)λ懈畛龅奈淖钟?jì)算特征量之特征量計(jì)算裝置、將所計(jì)算出的前述特征量在前述輸入圖像的一定范圍內(nèi)進(jìn)行統(tǒng)計(jì)之特征量統(tǒng)計(jì)裝置以及根據(jù)利用前述特征量統(tǒng)計(jì)裝置的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字之活字手寫文字分離裝置。
如利用本發(fā)明,可提高混合有活字和手寫文字之文件中的手寫文字的識(shí)別率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。
圖1所示為關(guān)于本發(fā)明的實(shí)施形態(tài)之文字識(shí)別裝置的框圖。
圖2所示為圖1的特征量計(jì)算部之特征量的計(jì)算原理,(a)為活字情況下的文字間隔-度數(shù)特性圖,(b)為手寫文字的文字間隔-度數(shù)特性圖。
圖3所示為在圖1的文字識(shí)別裝置之各部的圖像,(a)為原稿內(nèi)容圖,(b)為歪斜修正部的輸入圖像圖,(c)為利用歪斜修正部的修正圖像圖。
圖4所示為文章構(gòu)造解析結(jié)果之一個(gè)例子的說明圖。
圖5所示為文章行及文字的分離,(a)為正文部的說明圖,(b)為行分離部的說明圖,(c)為文字分離部的說明圖。
圖6所示為特征量計(jì)算,(a)為基于文字高度、文字寬度、文字間隔之特征量,(b)為基于重心位置之特征量計(jì)算說明圖,(c)為基于行寫入方向之特征量計(jì)算說明圖。
圖7所示為基于活字手寫文字分離部的抽出圖像,(a)為活字文字抽出圖像的圖像圖,(b)為手寫文字抽出圖像的圖像圖。
符號(hào)的說明1文字識(shí)別裝置11圖像輸入部12歪斜修正部13雙值化部14文件構(gòu)造解析部15、52文字切割部16特征量計(jì)算部17特征量統(tǒng)計(jì)部18活字手寫文字分離部19活字識(shí)別部20手寫識(shí)別部21活字詞典
22手寫詞典23合成部30輸入原稿31活字32手寫文字33輸入圖像40標(biāo)題部41著者部42目錄部43非活字部44正文部51切割部60重心位置61、62行寫入方向71活字文字抽出圖像72手寫文字抽出圖像d文字間隔h文字高度w文字寬度具體實(shí)施方式
以下結(jié)合附圖及較佳實(shí)施例,對依據(jù)本發(fā)明提出的文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序其特征及其功效,詳細(xì)說明如后。
圖1所示為關(guān)于本發(fā)明之實(shí)施形態(tài)的文字識(shí)別裝置。文字識(shí)別裝置1具有讀取原稿等文件的圖像輸入部11、對利用圖像輸入部11之全體的圖像數(shù)據(jù)進(jìn)行傾斜修正,除去干擾等的歪斜修正部12、將歪斜修正部12的輸出圖像進(jìn)行雙值化之雙值化部13、對雙值化圖像進(jìn)行文件構(gòu)造(版面)的解析之文件構(gòu)造解析部14、對版面的解析結(jié)果進(jìn)行文字的切割之文字切割部15、在每一文章區(qū)域計(jì)算所切割的文字的特征量之特征量計(jì)算部16、對輸入圖像全體統(tǒng)計(jì)每一文章區(qū)域的特征量之特征量統(tǒng)計(jì)部17、根據(jù)特征量計(jì)算部16所計(jì)算的特征量計(jì)算結(jié)果及文件構(gòu)造解析部14的解析結(jié)果,將圖像輸入部11或歪斜修正部12的輸出圖像,又或者是未圖示的雙值化部13的輸出圖像分離為活字部和手寫部之活字手寫文字分離部18、對由活字手寫文字分離部18所分離的活字部執(zhí)行OCR處理之活字識(shí)別部19、對由活字手寫文字分離部18所分離的手寫部執(zhí)行OCR處理之手寫識(shí)別部20、活字識(shí)別部19的識(shí)別處理中所使用之活字詞典21、手寫識(shí)別部20的識(shí)別處理中所使用之手寫詞典22以及將活字識(shí)別部19的識(shí)別結(jié)果和手寫識(shí)別部20的識(shí)別結(jié)果合成1個(gè)文件或1張圖像之合成部23。
圖像輸入部11包括載置原稿之由透明的玻璃臺(tái)板構(gòu)成的原稿臺(tái)以及由原稿臺(tái)上所載置的原稿將圖像光學(xué)讀取之CCD(Charge CoupledDevice,電荷耦合器件)等固體攝像元件。
歪斜修正部12除了上述的修正以外,在原稿為彩色圖像的情況下,還具有將R、G、B轉(zhuǎn)換為灰色的處理機(jī)能。在將R、G、B轉(zhuǎn)換為灰色時(shí),利用以下的某一種方法。
(a)使上述灰度的值為彩色圖像的G的值。
(b)使灰度的值=0.30r+0.59g+0.11b。這里,r、g、b分別為彩色圖像R、G、B的值。
(c)使灰度的值=α×r+β×g+γ×b。這里,α、β、γ為系數(shù),且該α、β、γ依據(jù)伴隨顏色判定的判定顏色而進(jìn)行變化。
雙值化部13具有將由圖像輸入部11所輸入的圖像數(shù)據(jù),藉由利用例如對濃度的固定的閾值、周圍畫素的平均值之動(dòng)態(tài)閾值等,進(jìn)行雙值化的機(jī)能。
文件構(gòu)造解析部14具有依據(jù)雙值化圖像內(nèi)的文字等的分布狀態(tài)和內(nèi)容,將輸入圖像內(nèi)分割為作為多數(shù)個(gè)文章區(qū)域的區(qū)塊上的分布狀態(tài)和內(nèi)容之機(jī)能。具體地說,藉由利用段落和行將圖像內(nèi)的文章區(qū)域進(jìn)行分割,或利用文章/圖/照片等區(qū)域類別進(jìn)行分割,而將圖像內(nèi)劃分為多數(shù)個(gè)區(qū)塊并進(jìn)行版面解析。
文字切割部15具有對文件構(gòu)造解析部14的結(jié)果以行單位進(jìn)行切割后,再以1個(gè)文字單位進(jìn)行切割之機(jī)能。
特征量計(jì)算部16具有利用文件構(gòu)造解析結(jié)果和1個(gè)文字分割結(jié)果,在每一文章區(qū)域關(guān)于以下的要素計(jì)算特征量之機(jī)能。
(1)因所切割出的文字的寬度和高度所造成之大小的差異。在活字的情況下,只要不改變點(diǎn)數(shù),高度和寬度大體是一定的,與此相對,手寫文字則不均勻。
(2)文字間隔的差異(文字位置的周期性)。在活字的情況下大致一定,而在手寫文字的情況下則產(chǎn)生差異。
(3)重心位置或外接矩形中心位置的差異。文字因線和點(diǎn)的數(shù)、排列狀況等,其重心位置或外接矩形中心位置會(huì)從中心偏離,而該偏離在手寫文字的情況下變得顯著。
(4)行或列的寫入方向(角度)。在活字的情況下,文字列形成一橫列或一縱列,與此相對,手寫文字的文字列容易形成傾斜、曲面狀、波狀等。
(5)畫素值的差異(直方圖)。在活字的情況下是一定的,且容易形成峰值,與此相對,在手寫文字的情況下會(huì)產(chǎn)生差異,形成寬特性。
特征量統(tǒng)計(jì)部17具有將利用特征量計(jì)算部16對每一文章區(qū)域所計(jì)算的特征量,在圖像全體中進(jìn)行統(tǒng)計(jì),并計(jì)算用于將活字和手寫文字進(jìn)行分離的分離系數(shù)之機(jī)能。
活字手寫文字分離部18具有根據(jù)特征量統(tǒng)計(jì)部17所計(jì)算的分離系數(shù)及文件構(gòu)造解析部14的解析結(jié)果,對來自圖像輸入部11或歪斜修正部12,又或是未圖示的雙值化部13的圖像,在每一文章區(qū)域分離為活字部和手寫部之機(jī)能。
活字識(shí)別部19將所切割出的活字的文字圖案和在活字詞典21中所登記的活字圖案,利用例如圖形配比法進(jìn)行比較,并將近似度最高的作為活字的識(shí)別結(jié)果(文字代碼)進(jìn)行輸出。
手寫識(shí)別部20將所切割出的手寫字的文字圖案和在手寫詞典22中所登記的手寫文字圖案,利用例如圖形配比法進(jìn)行比較,并將近似度最高的作為活字的識(shí)別結(jié)果(文字代碼)進(jìn)行輸出。
活字詞典21和手寫詞典22可利用例如在硬盤等存儲(chǔ)媒體中所存儲(chǔ)的電子詞典。
合成部23將活字識(shí)別部19的識(shí)別結(jié)果和手寫識(shí)別部20的識(shí)別結(jié)果,合成為例如1個(gè)文件和1個(gè)圖像。
圖2所示為特征量計(jì)算部16中的特征量的計(jì)算原理。這里,對特征量中的文字間隔進(jìn)行說明。在活字的情況下,只要不中途變更文字點(diǎn)數(shù)和文字間隔,文字間隔大致一定。因此,如圖2(a)所示,文字間隔一度數(shù)特性形成具有峰值之尖銳的山形。另一方面,因?yàn)槭謱懳淖蛛y以形成一定間隔,所以如圖2(b)所示,文字間隔—度數(shù)特性形成平緩的山形??蓪D2(a)、圖2(b)之特性的差異作為特征量使用,并可藉此進(jìn)行活字和手寫文字的判別。在這里,關(guān)于文字間隔進(jìn)行了說明,但對其它的特征量,也可同樣地進(jìn)行計(jì)算。特征量統(tǒng)計(jì)部17將多數(shù)個(gè)特征量中的,如圖2(a)和圖2(b)所示在每文章區(qū)域呈現(xiàn)明顯的差異之特征量,用于分離系數(shù)的計(jì)算。
(文字識(shí)別裝置的動(dòng)作)圖3所示為圖1的各部中的圖像。而且,圖4~圖7表示圖1的各部中的處理內(nèi)容,圖4表示文件構(gòu)造解析結(jié)果的一個(gè)例子,圖5表示文章區(qū)域、行及一文字的分離,圖6表示特征量計(jì)算,圖7表示利用活字手寫文字分離部18的抽出圖像。下面參照圖1~圖7,對文字識(shí)別裝置1的動(dòng)作進(jìn)行說明。
首先,利用圖像輸入部11,讀取在以活字31作為主體的文件中寫入手寫文字32之如圖3(a)所示的輸入原稿30,得到圖3(b)所示的輸入圖像33。在輸入原稿30被端正地置放于圖像輸入部11的未圖示的掃描設(shè)備之原稿載置面上的情況下,輸入圖像33收納在圖3(b)的實(shí)線框所示的位置。但是,當(dāng)輸入原稿30以傾斜的狀態(tài)被置放在掃描設(shè)備的原稿載置面上時(shí),輸入圖像33如虛線框如示,形成一種圖像整體傾斜的狀態(tài)。如輸入圖像33傾斜,則版面解析和特征量的計(jì)算無法正確地進(jìn)行。因此,利用歪斜修正部12對輸入圖像33的傾斜進(jìn)行修正,得到圖3(c)所示的歪斜修正圖像34。
而且,歪斜修正部12在輸入原稿30的內(nèi)容為彩色的情況下,實(shí)施將其R、G、B轉(zhuǎn)換為灰色的處理,降低圖像數(shù)據(jù)的量,使后工程中的雙值化處理容易進(jìn)行。
接著,利用雙值化部13將圖3(c)的圖像進(jìn)行雙值化。對該雙值化圖像,利用文件構(gòu)造解析部14,實(shí)施文章區(qū)域分割、文章/圖/照片等的區(qū)域類別、文章的行分離等版面解析。
圖4所示為版面解析的結(jié)果,顯示了一種劃分為標(biāo)題部40、著者的姓名等著者部41、摘要和正文的目錄部42、手寫文字,圖等活字以外的非活字部43、正文部44等,并將圖像內(nèi)粗略分割為對應(yīng)的區(qū)塊之狀態(tài)。
另外,文件構(gòu)造解析部14對將圖4的正文部44抽出表示之圖5(a)的正文部44,如圖5(b)所示,以行單位進(jìn)行文章的切割。
接著,對由文件構(gòu)造解析部14所切割之行單位的文章,利用文字切割部15按1文字單位進(jìn)行文字切割。例如,對圖5(b)的行單位的切割部51,如圖5(c)所示,按1個(gè)文字單位生成文字切割部52。
接著,參照文件構(gòu)造解析部14的解析結(jié)果及歪斜修正部12的輸出圖像的濃度值、由文件切割部15所切割出的結(jié)果,利用特征量計(jì)算部16在每文章區(qū)域計(jì)算上述的5種特征量。
如參照圖6對特征量的計(jì)算進(jìn)行說明,在圖6(a)所示之文字排列的情況下,分別按1文字單位或1文字間隔單位分別計(jì)算[あ]、[か]、[さ]各文字的高度h、文字寬w及文字間隔d。例如在活字的情況下,可計(jì)算具有圖2(a)那樣的特性之特征量。將文字彼此進(jìn)行比較,如h1h(yuǎn)2h(yuǎn)3、w1w2w3、d1d2d3,則形成圖2(a)所示的特性,所以可將[あ]、[か]、[さ]的文字判定為活字。
而且,當(dāng)從重心位置計(jì)算特征量時(shí),可對如圖6(b)所示,在活字的情況下重心位置60的差異少,但在手寫文字的情況下差異(變化)變得顯著這樣的特征量進(jìn)行計(jì)算。
而且,當(dāng)從行寫入方向(角度)計(jì)算特征量時(shí),如圖6(c)所示,利用活字之標(biāo)題部40的行寫入方向61為水平,與此相對,利用手寫文字之非活字部43的行寫入方向62具有某些角度,所以可計(jì)算活字/手寫文字的特征量。
在圖4所示的每區(qū)塊利用特征量計(jì)算部16所計(jì)算的特征量,由特征量統(tǒng)計(jì)部在圖像全體中進(jìn)行統(tǒng)計(jì),并求用于分離活字和手寫文字的分離系數(shù)。
接著,活字手寫文字分離部18根據(jù)特征量統(tǒng)計(jì)部17所求得的分離系數(shù),以圖4所示的區(qū)塊單位進(jìn)行是活字還是手寫文字的判定,并分離為圖7(a)所示之只由活字構(gòu)成的活字文字抽出圖像71、圖7(b)所示的手寫文字抽出圖像72。在這種情況下,從上述的多數(shù)個(gè)種類的特征量中,將如圖2(a)那樣顯示明確特征的作為特征量采用,并執(zhí)行分離。
接著,活字識(shí)別部19和手寫識(shí)別部20利用活字詞典21及手寫詞典22,對如圖7那樣被分離的活字文字抽出圖像71及手寫文字抽出圖像72進(jìn)行OCR處理,并分別生成識(shí)別結(jié)果和識(shí)別圖像。
對活字文字抽出圖像71和手寫文字抽出圖像72的OCR結(jié)果,利用合成部23,按照與圖3(a)的輸入原稿30同樣的版面被合成為1張圖像。如將該合成圖像利用打印機(jī)等打印出來,則可得到在基于活字的文件中使手寫文字形成活字被寫入的原稿。
(實(shí)施形態(tài)的效果)如利用該實(shí)施形態(tài),可達(dá)到下述效果。
(1)因?yàn)槔梦募?gòu)造解析部14對圖像內(nèi)的每一區(qū)塊計(jì)算多數(shù)個(gè)特征量,并統(tǒng)計(jì)參照該多數(shù)個(gè)特征量而求分離系數(shù),且根據(jù)該分離系數(shù)進(jìn)行活字/手寫文字的分離判定,所以能夠提高分離精確度。
(2)因?yàn)槔貌煌瑑?nèi)容的多數(shù)個(gè)特征量,所以可確實(shí)地計(jì)算文章的特征量,并可確實(shí)地進(jìn)行活字/手寫文字的分離判定。
(3)因?yàn)閷μ卣髁坷锰卣髁拷y(tǒng)計(jì)部17在圖像全體中進(jìn)行統(tǒng)計(jì),并據(jù)此進(jìn)行活字/手寫文字的分離,所以可提高手寫文字的文字識(shí)別率。
(4)因?yàn)槔猛嵝毙拚?2進(jìn)行輸入圖像33的傾斜修正,所以即使在文章中存在傾斜,也可計(jì)算特征量,從而能夠提高文字識(shí)別率。
(其它的實(shí)施形態(tài))
另外,本發(fā)明并不限定于上述實(shí)施形態(tài),在不變更其要旨的范圍內(nèi)可進(jìn)行各種各樣的變形。例如,也可使圖像輸入部11具有判定原稿尺寸的機(jī)能,并針對識(shí)別尺寸,使利用活字手寫文字分離部18之輸出圖像的尺寸,依據(jù)預(yù)先所設(shè)定的條件,自動(dòng)地進(jìn)行收放。而且,在由文件構(gòu)造解析部14判定為含有照片和圖的情況下,也可將對該區(qū)塊的抽出圖像分離為活字部和手寫部而進(jìn)行輸出。
以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的結(jié)構(gòu)及技術(shù)內(nèi)容作出些許的更動(dòng)或修飾為等同變化的等效實(shí)施例,但是凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)施例所作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
權(quán)利要求
1.一種文字識(shí)別裝置,其特征在于所述文字識(shí)別裝置包括對混合有活字和手寫文字的文件的輸入圖像進(jìn)行解析,并將前述輸入圖像劃分為一定的文章區(qū)之文件構(gòu)造解析部;對利用前述文件構(gòu)造解析部所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割之文字切割部;在每一前述文章區(qū)域?qū)λ懈畛龅奈淖钟?jì)算特征量之特征量計(jì)算部;將所計(jì)算出的前述特征量在前述輸入圖像的一定范圍內(nèi)進(jìn)行統(tǒng)計(jì)之特征量統(tǒng)計(jì)部;以及根據(jù)利用前述特征量統(tǒng)計(jì)部的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字之活字手寫文字分離部。
2.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述文件構(gòu)造解析部在前部連接對前述輸入圖像進(jìn)行傾斜修正、去除干擾等歪斜修正之歪斜修正部。
3.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述文件構(gòu)造解析部利用基于段落或行的文章分割,或基于文章/圖/照片等區(qū)域類別的分割,劃分為前述一定的文章區(qū)域。
4.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述特征量計(jì)算部對每一前述文章區(qū)域計(jì)算多數(shù)個(gè)前述特征量。
5.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述特征量計(jì)算部利用文字大小的均勻性、文字濃度的均勻性、文字位置的周期性、重心位置·外接矩形中心位置的差異、行和列的寫入方向及畫素值的直方圖中的至少一個(gè)來計(jì)算前述特征量。
6.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述特征量統(tǒng)計(jì)部在前述輸入圖像全體中對每一前述文章區(qū)域的前述特征量進(jìn)行統(tǒng)計(jì)。
7.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述特征量統(tǒng)計(jì)部根據(jù)前述特征量的統(tǒng)計(jì)結(jié)果,計(jì)算用于分離活字和手寫文字的分離系數(shù)。
8.如權(quán)利要求7所述的文字識(shí)別裝置,其特征在于前述特征量計(jì)算部對每一前述文章區(qū)域計(jì)算多數(shù)個(gè)前述特征量,前述特征量統(tǒng)計(jì)部關(guān)于前述多數(shù)個(gè)特征量,分別包括似乎為活字或似乎為手寫文字這樣的多數(shù)個(gè)中間評價(jià)而作為前述分離系數(shù),前述活字手寫文字分離部根據(jù)前述多數(shù)個(gè)中間評價(jià)進(jìn)行活字和手寫文字的分離。
9.如權(quán)利要求1所述的文字識(shí)別裝置,其特征在于前述活字手寫文字分離部對前述輸入圖像或?qū)⑶笆鲚斎雸D像雙值化的圖像,進(jìn)行活字或手寫文字的分離。
10.一種文字識(shí)別方法,其特征在于對混合有活字和手寫文字之文件的輸入圖像進(jìn)行解析,并將前述輸入圖像劃分為一定的文章區(qū)域;對所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割;在每一前述文章區(qū)域?qū)λ懈畛龅奈淖钟?jì)算特征量;在前述輸入圖像的一定范圍內(nèi)統(tǒng)計(jì)所計(jì)算的前述特征量;以及根據(jù)前述特征量的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字。
11.一種文字識(shí)別程序,適于在計(jì)算機(jī)執(zhí)行,其特征在于所述文字識(shí)別程序包括對混合有活字和手寫文字的文件的輸入圖像進(jìn)行解析,并將前述輸入圖像劃分為一定的文章區(qū)域之文件構(gòu)造解析裝置;對利用前述文件構(gòu)造解析裝置所劃分的各文章區(qū)域進(jìn)行1個(gè)文字單位的文字切割之文字切割裝置;在每一前述文章區(qū)域?qū)λ懈畛龅奈淖钟?jì)算特征量之特征量計(jì)算裝置;將所計(jì)算出的前述特征量在前述輸入圖像的一定范圍內(nèi)進(jìn)行統(tǒng)計(jì)之特征量統(tǒng)計(jì)裝置;以及根據(jù)利用前述特征量統(tǒng)計(jì)裝置的統(tǒng)計(jì)結(jié)果,將關(guān)于前述輸入圖像的文字分離為前述活字和前述手寫文字之活字手寫文字分離裝置。
全文摘要
本發(fā)明提供一種可提高混合有活字和手寫文字之文件中的手寫文字的識(shí)別率之文字識(shí)別裝置、文字識(shí)別方法及文字識(shí)別程序。利用圖像輸入部11生成混合有活字和手寫文字之文件的輸入圖像,并將其由雙值化部12進(jìn)行雙值化。對雙值化圖像,利用文件構(gòu)造解析部14,根據(jù)段落和行劃分為多數(shù)個(gè)文章區(qū)域而區(qū)塊化,并對各文章區(qū)域分別利用文字分離部15進(jìn)行1個(gè)文字單位的文字分離。而且,利用文件構(gòu)造解析及文字分離的結(jié)果,對每一文章區(qū)域利用特征量計(jì)算部16計(jì)算特征量。特征量統(tǒng)計(jì)部統(tǒng)計(jì)特征量,并求用于分離活字和手寫文字的分離系數(shù)?;钭质謱懳淖址蛛x部18根據(jù)分離系數(shù),對輸入圖像或文件構(gòu)造解析部14的輸出圖像進(jìn)行活字和手寫文字的分離,并分別得到抽出圖像。
文檔編號(hào)G06K9/00GK1752991SQ20051005356
公開日2006年3月29日 申請日期2005年3月8日 優(yōu)先權(quán)日2004年9月24日
發(fā)明者小山俊哉, 齋藤照花, 館野昌一, 田中圭, 榊原正義, 中村浩太郎 申請人:富士施樂株式會(huì)社