一種表格圖像的自動切分方法

文檔序號：8318932閱讀：538來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種表格圖像的自動切分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及表格圖像處理技術(shù)領(lǐng)域，特別是一種表格圖像的自動切分方法。
【背景技術(shù)】
[0002] 傳統(tǒng)對手寫文稿錄入都采用人工手段，而且手寫文稿的書寫多樣化、復(fù)雜化，使得員工的勞動強(qiáng)度高，錄入效率卻很低，這給工作帶來了很大的麻煩，為此研究者們開發(fā)了許多的應(yīng)用軟件，希望能從根本上解決手寫文稿快速錄入問題。
[0003] 根據(jù)中國專利【CN103020619A】"一種自動切分電子化筆記本中手寫條目的方法"，如圖2所示，⑴拍攝需要電子化的筆記本的紙質(zhì)頁面圖像；（2)通過圖像中的直線檢測方法確定所述紙質(zhì)頁面圖像的四條邊緣線，并將四條邊緣線所限定的頁面區(qū)域校正為方形區(qū) 域；（3)根據(jù)所述紙質(zhì)頁面圖像確定所述紙質(zhì)頁面的類型，獲得預(yù)先保存的所述類型筆記本的紙質(zhì)頁面空白切分模板，所述空白切分模板由若干文字塊組成；(4)確定所述方形區(qū) 域中用戶手寫筆跡所在的文字塊，以文字塊為單位自動切分提取處于任意一個文字塊中的用戶手寫筆跡。該發(fā)明對模板與手寫文本的重合度只是簡單的判別不能達(dá)到精確定位，同時對參雜有表格在內(nèi)的手寫文本區(qū)域不能有效處理。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于：針對現(xiàn)有技術(shù)中存在的上述技術(shù)問題，提供一種結(jié)合了知識驅(qū)動信息和數(shù)據(jù)驅(qū)動信息的圖像區(qū)域精確定位技術(shù)以及基于表格圖像準(zhǔn)確自動切分的表格數(shù)據(jù)自動智能處理系統(tǒng)，能有效提高錄入效率的表格圖像的自動切分方法。
[0005] 本發(fā)明是通過以下技術(shù)方案實現(xiàn)的：
[0006] -種表格圖像的自動切分方法，包括如下步驟：（1)在表格文檔內(nèi)獲取表格實體； (2)掃描或拍攝表格實體獲得表格圖像；（3)對表格圖像數(shù)據(jù)自動分析與學(xué)習(xí)，獲取應(yīng)用于手寫體文本區(qū)域切分的數(shù)據(jù)驅(qū)動信息；(4)表格定制，將表格及其區(qū)域信息都存入表格模板庫；（5)從表格模版庫，得到應(yīng)用于區(qū)域切分的知識驅(qū)動信息；(6)區(qū)域分析綜合數(shù)據(jù)驅(qū) 動信息和知識驅(qū)動信息，對表格圖像進(jìn)行區(qū)域分析與定位，得到切分區(qū)域的位置等區(qū)域信息；（7)區(qū)域切分利用區(qū)域信息，對表格圖像進(jìn)行切分，得到最后輸出的區(qū)域圖像。
[0007] 進(jìn)一步的是，對表格圖像數(shù)據(jù)自動分析與學(xué)習(xí)，獲取應(yīng)用于手寫體文本區(qū)域切分的數(shù)據(jù)驅(qū)動信息，其中包括區(qū)域的位置和類型信息；對表格圖像數(shù)據(jù)自動分析與學(xué)習(xí)步驟如下：
[0008] (A)首先將表格圖像二值化；系統(tǒng)中，采用自適應(yīng)的二值化方法，結(jié)合Otsu方法和 Niblack方法，得到的圖像為兩種二值化方法得到圖像的"與";設(shè)p(x，y)為最后輸出的二值化圖像點(diǎn)（X，y)的值，P Qtsu(X，y)為OtSU方法得到的值，Pmblaek(X，y)為Niblack方法得到的值，則有
[0009] p(x, y) = Potsu(x, y) &pNiblack (x, y)
[0010] 其中，p(x, y) = I表示黑點(diǎn)（前景字符），p(x, y) = 0表示白點(diǎn)（背景）；
[0011] (B)通過連通域分析得到表格圖像相應(yīng)的各個區(qū)域，然后需要對區(qū)域進(jìn)行判別；在混合層次上對手寫體進(jìn)行判別，即處理的單元為一些連通域的合并塊，手寫體特性的不確定性，采用的一種基于增量學(xué)習(xí)的Fisher線性判別（Fisher Linear Discriminant,FLD) 分類器，經(jīng)典FLD算法的投影矩陣（向量）為
[0012]
【主權(quán)項】
1. 一種表格圖像的自動切分方法，其特征在于，包括如下步驟： (1) 在表格文檔內(nèi)獲取表格實體； (2) 掃描或拍攝表格實體獲得表格圖像； (3) 對表格圖像數(shù)據(jù)自動分析與學(xué)習(xí)，獲取應(yīng)用于手寫體文本區(qū)域切分的數(shù)據(jù)驅(qū)動信息； (4) 表格定制，將表格及其區(qū)域信息都存入表格模板庫； (5) 從表格模版庫獲取應(yīng)用于區(qū)域切分的知識驅(qū)動信息； (6) 區(qū)域分析綜合數(shù)據(jù)驅(qū)動信息和知識驅(qū)動信息，對表格圖像進(jìn)行區(qū)域分析與定位，得到區(qū)域信息； (7) 區(qū)域切分利用區(qū)域信息，對表格圖像進(jìn)行切分，得到最后輸出的區(qū)域圖像。
2. 根據(jù)權(quán)利要求1所述的一種表格圖像的自動切分方法，其特征在于：對表格圖像數(shù) 據(jù)自動分析與學(xué)習(xí)，獲取應(yīng)用于手寫體文本區(qū)域切分的數(shù)據(jù)驅(qū)動信息，其中包括區(qū)域的位置和類型信息；對表格圖像數(shù)據(jù)自動分析與學(xué)習(xí)進(jìn)行如下： (A) 首先將表格圖像二值化；系統(tǒng)中，采用自適應(yīng)的二值化方法，結(jié)合Otsu方法和 Niblack方法，得到的圖像為兩種二值化方法得到圖像的"與";設(shè)p(x，y)為最后輸出的二值化圖像點(diǎn)（X，y)的值，P Qtsu(X，y)為OtSU方法得到的值，Pmblaek(X，y)為Niblack方法得到的值，則有 p(x, y) = Potsu(x, y)&pNi black (χ, y) 其中，p(x, y) = I表示黑點(diǎn)（前景字符），p(x, y) = 0表示白點(diǎn)（背景）； (B) 另外，通過連通域分析得到表格圖像相應(yīng)的各個區(qū)域，然后需要對區(qū)域進(jìn)行判別；在混合層次上對手寫體進(jìn)行判別，即處理的單元為一些連通域的合并塊；手寫體特性的不確定性，采用的一種基于增量學(xué)習(xí)的Fisher線性判別（Fisher Linear Discr iminant， FLD)分類器，經(jīng)典FLD算法的投影矩陣（向量）為 W = S~\mx -m2) 其中，Sw = CJC2為類內(nèi)離散度矩陣，HIi為各類樣本均值向量；利用序列SKL變換算法（Sequential Karhunen-Loeve Algorithm，SKL)增量形式更新 Ci, SKL算法通過K個最大特征值組成的Di和相應(yīng)的特征向量組成的Ui來估計Ci O - UiDiUf 其中，Di是一個KXK維的正交矩陣，Ui是具有K列的矩陣；在手寫體判別中，使用的特征向量維數(shù)比較少，所以隨著新樣本的不斷增加，直接使用奇異解分解（Singular Value Decomposition，SVD)來更新 Di 和 Ui ; 在該增量型分類器中，利用一種自適應(yīng)過濾器方式來更新Hli mnew _ Q _ a)mj + OXi 其中，α是一個平均常數(shù)因子，一般可設(shè)為0. 05,而Xi為增量學(xué)習(xí)中第i類的新樣本。
3. 根據(jù)權(quán)利要求1所述的一種表格圖像的自動切分方法，其特征在于：區(qū)域分析綜合數(shù)據(jù)驅(qū)動信息和知識驅(qū)動信息，如果數(shù)據(jù)驅(qū)動信息手寫體文本區(qū)域位置和知識驅(qū)動信息手寫體文本區(qū)域位置重合度高于50%，則利用數(shù)據(jù)驅(qū)動信息得到的手寫體文本區(qū)域作為最終的切分區(qū)域，而對于其它類型的文本區(qū)域，則以來自于表格模版庫中的知識驅(qū)動信息為主，進(jìn)行切分區(qū)域的定位。
【專利摘要】本發(fā)明公開一種表格圖像的自動切分方法，包括表格及其區(qū)域信息的錄入，在表格圖像中自動分析、檢測與定位手寫體文本區(qū)域以及切分區(qū)域的最終定位，其步驟如下：a、對已知表格中需要切分、識別或人工錄入的區(qū)域進(jìn)行事先標(biāo)定，通過模版定制，將表格及其區(qū)域信息都存入表格模板庫，獲取知識驅(qū)動信息；b、對掃描或拍攝的表格圖像進(jìn)行自動分析、檢測與定位文本區(qū)域，獲取數(shù)據(jù)驅(qū)動信息；c、綜合知識驅(qū)動信息和數(shù)據(jù)驅(qū)動信息，比較兩者吻合程度，對最終切分區(qū)域的定位。本發(fā)明結(jié)合了知識驅(qū)動信息和數(shù)據(jù)驅(qū)動信息的圖像區(qū)域精確定位技術(shù)以及基于表格圖像準(zhǔn)確自動切分的表格數(shù)據(jù)自動智能處理系統(tǒng)。
【IPC分類】G06F9-32, G06F9-54
【公開號】CN104636117
【申請?zhí)枴緾N201310557566
【發(fā)明人】殷緒成
【申請人】江蘇奧博洋信息技術(shù)有限公司
【公開日】2015年5月20日
【申請日】2013年11月12日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：殷緒成;
技術(shù)所有人：江蘇奧博洋信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種表格圖像的自動切分方法