單面英文碎紙片拼接識(shí)別方法

文檔序號(hào)：9922294閱讀：541來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

單面英文碎紙片拼接識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及破碎文檔復(fù)原領(lǐng)域，特別是一種單面英文碎紙片拼接識(shí)別方法。
【背景技術(shù)】
[0002] 碎片匹配問題在現(xiàn)實(shí)生活中是一個(gè)有很大實(shí)用價(jià)值的課題，它在司法物證復(fù)原、歷史文獻(xiàn)修復(fù)以及軍事情報(bào)獲取等領(lǐng)域都有著重要的應(yīng)用。傳統(tǒng)上，拼接復(fù)原工作需由人工完成，準(zhǔn)確率較高，但效率很低。特別是當(dāng)碎片數(shù)量巨大，人工拼接很難在短時(shí)間內(nèi)完成任務(wù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展，人們試圖開發(fā)碎紙片的自動(dòng)拼接技術(shù)，以提高拼接復(fù)原效率。如今，碎紙肩的復(fù)原已經(jīng)擴(kuò)展到生活的方方面面，例如考古學(xué)家遇到的古代留下來的破碎的珍貴文物，公安機(jī)關(guān)破案遇到的碎照片，珍貴破碎的藝術(shù)品。當(dāng)碎片的數(shù)量很少的時(shí) 候，可以用手工的辦法把碎片拼起來，但是當(dāng)碎片的數(shù)量很多的時(shí)候，對于手工勞動(dòng)來說，這是繁瑣的重復(fù)勞動(dòng)或者是一個(gè)無法完成的任務(wù)。因此考慮采用計(jì)算機(jī)來代替部分重復(fù)而繁重的工作，使碎片復(fù)原變得更容易，且高效率、高準(zhǔn)確率。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明所要解決的技術(shù)問題是提供一種單面英文碎紙片拼接識(shí)別方法，能夠提高拼接效率，提高準(zhǔn)確度。
[0004] 為解決上述技術(shù)問題，本發(fā)明所采用的技術(shù)方案是：一種單面英文碎紙片拼接識(shí) 別方法，包括以下步驟：
[0005] -、將已有的碎紙片掃描成為多個(gè)圖片文件，掃描后的圖片文件僅保留碎紙片的輪廓區(qū)域，不留白；
[0006] 二、對圖片進(jìn)行二值化處理；
[0007] 三、圖像膨脹預(yù)處理；
[0008] 四、基于文字所處的位置和英文字母四線三格的的書寫規(guī)則，提取出中間兩條基線的位置；
[0009] 五、根據(jù)提取后的基線位置進(jìn)行聚類分析，找到同一行的全部碎紙片；
[0010] 六、根據(jù)聚類后的碎紙片，采用加權(quán)歐氏距離的方法進(jìn)行匹配，結(jié)合交互式圖形界面手工匹配；
[0011]通過以上步驟實(shí)現(xiàn)單面英文碎紙片拼接識(shí)別。
[0012] 碎紙片的來源為碎紙機(jī)處理過的單面英文文檔，為整齊的矩形。
[0013] 二值化處理的閾值為0.99。
[0014]圖像膨脹的步驟為:將結(jié)構(gòu)元素平移一段距離，將平移后的圖像像素與底圖圖像像素做"與"操作，從而得到膨脹后的圖像。
[0015] 基線提取，算法采用列掃描的方法，先找到所有可能的基線，然后通過相同基線閾值進(jìn)行去除重復(fù)的基線。
[0016] 基線提取步驟為:按列提取每列的基線組，即每一行字母4線中的第2條和第3條的位置；
[0017] 判斷每列基線組的組內(nèi)距離是否在適當(dāng)?shù)姆秶鷥?nèi)，通過對已有碎片的統(tǒng)計(jì)，得到4 線中的第2條和第3條的范圍；
[0018] 存儲(chǔ)得到的基線組，通過去除重復(fù)和重合的基線，留下當(dāng)前紙片的基線組。
[0019] 聚類的步驟為:根據(jù)整個(gè)文檔邊緣紙片的特點(diǎn)，找到最左邊的η張碎紙片圖片，剩余的碎紙片圖片作為基線聚類的匹配庫；
[0020] η為碎紙片圖片的行數(shù)；
[0021]以最左邊任一張碎紙片圖片為基準(zhǔn)，從剩余的碎紙片圖片中選取匹配的基線作為該組的成員；
[0022]重復(fù)以上步驟的過程，找到η個(gè)分組，聚類完成。
[0023]為了保證每組包含該行所有可能的紙片，已選的紙片不從匹配庫中刪除，但進(jìn)行記 D
[0024]聚類分析的誤差控制在在四線三格中間兩條基線寬度的1/12之內(nèi)。
[0025]采用加權(quán)歐氏距離不僅提取邊緣一列的像素，同時(shí)也參照碎紙片邊緣2~3列的數(shù) 據(jù)進(jìn)行判定，然后再加權(quán)。
[0026]在交互式圖形界面設(shè)置清除按鈕，避免操作失誤。
[0027]在交互式圖形界面還設(shè)有含義支持和局部特寫按鈕。
[0028]本發(fā)明提供的一種單面英文碎紙片拼接識(shí)別方法，通過采用的圖像膨脹預(yù)處理步驟，使字母的基線提取準(zhǔn)確率更高，聚類效果更好，提高拼接的一次準(zhǔn)確率，進(jìn)而提高拼接識(shí)別效率。本發(fā)明中，基線提取的準(zhǔn)確率相比較于傳統(tǒng)方法提高了30%以上;碎紙片之間的一次拼接準(zhǔn)確率相比于傳統(tǒng)方法提高了 10 %以上;碎紙片拼接采用交互式界面，方便高效；針對碎紙片數(shù)量為11 X 19的碎紙片組，人工干預(yù)次數(shù)減少了 20次左右。
【附圖說明】
[0029]下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明：
[0030] 圖1為本發(fā)明中二值化和膨脹算法處理過程示意圖。
[0031] 圖2為本發(fā)明中中間兩條基線范圍的示意圖。
[0032] 圖3為本發(fā)明中基線提取過程示意圖。
[0033]圖4為本發(fā)明中聚類分析結(jié)果。
[0034]圖5為本發(fā)明中交互式圖形界面示意圖。
[0035]圖6為本發(fā)明中最后復(fù)原結(jié)果。
[0036]圖7為本發(fā)明中匹配算法流程圖。
[0037]圖8為本發(fā)明中聚類分析流程圖
[0038]圖9為本發(fā)明中交互式圖形界面流程示意圖。
【具體實(shí)施方式】 [0039] 實(shí)施例1:
[0040]如圖1~9中，一種單面英文碎紙片拼接識(shí)別方法，包括以下步驟：
[0041] 一、將已有的碎紙片掃描成為多個(gè)圖片文件，掃描后的圖片文件僅保留碎紙片的輪廓區(qū)域，不留白；圖1中左側(cè)即為掃描后得到的圖片文件。優(yōu)選的方案中，碎紙片的來源為碎紙機(jī)處理過的單面英文文檔，為整齊的矩形。
[0042]二、對圖片進(jìn)行二值化處理；圖1中中間即為二值化處理后的圖片文件。優(yōu)選的，二值化處理的閾值為0.99,將灰度級(jí)大于的0.99的像素點(diǎn)均轉(zhuǎn)換成1，強(qiáng)灰度級(jí)小于0.99的像素點(diǎn)轉(zhuǎn)換成〇,處理后的效果提高了有用黑色像素點(diǎn)的個(gè)數(shù)，從而提高了拼接準(zhǔn)確率。。 [0043]三、圖像膨脹預(yù)處理；圖1中右側(cè)即為膨脹預(yù)處理后的圖片文件。從圖中可以看出，根據(jù)英文字母四線三格的的書寫規(guī)則，中間兩條基線的位置編的非常明顯。
[0044] 圖像膨脹的步驟為:將結(jié)構(gòu)元素平移一段距離，將平移后的圖像像素與底圖圖像像素做"與"操作，從而得到膨脹后的圖像。
[0045] 四、基于文字所處的位置和英文字母四線三格的的書寫規(guī)則，提取出中間兩條基線的位置;如圖2、3中所示。
[0046] 基線提取的算法采用列掃描的方法，先找到所有可能的基線，然后通過相同基線閾值進(jìn)行去除重復(fù)的基線。
[0047] 基線提取步驟為:按列提取每列的基線組，即每一行字母4線中的第2條和第3條的位置；
[0048]判斷每列基線組的組內(nèi)距離是否在適當(dāng)?shù)姆秶鷥?nèi)，通過對已有碎片的統(tǒng)計(jì)，得到4 線中的第2條和第3條的范圍；
[0049] 存儲(chǔ)得到的基線組，通過去除重復(fù)和重合的基線，留下當(dāng)前紙片的基線組。
[0050] 五、根據(jù)提取后的基線位置進(jìn)行聚類分析，找到同一行的全部碎紙片；如圖4中所示。需要說明的是，提取基線之后，將基線位置復(fù)制到原圖或二值圖像中進(jìn)行后續(xù)的聚類步驟。
[0051] 聚類的步驟為:根據(jù)整個(gè)文檔邊緣紙片的特點(diǎn)，找到最左邊的η張碎紙片圖片，剩余的碎紙片圖片作為基線聚類的匹配庫；
[0052] η為碎紙片圖片的行數(shù)；
[0053]以最左邊任一張碎紙片圖片為基準(zhǔn)，從剩余的碎紙片圖片中選取匹配的基線作為該組的成員；
[0054]重復(fù)以上步驟的過程，找到η個(gè)分組，聚類完成。
[0055] 為了保證每組包含該行所有可能的紙片，已選的紙片不從匹配庫中刪除，但進(jìn)行記 D
[0056] 聚類分析的誤差控制在在四線三格中間兩條基線寬度的1/12之內(nèi)。這個(gè)誤差范圍能夠盡可能地避免最終誤差的產(chǎn)生。聚類分析的流程參見圖7、8.
[0057]六、根據(jù)聚類后的碎紙片，采用加權(quán)歐氏距離的方法進(jìn)行匹配，結(jié)合交互式圖形界面手工匹配;如圖5、9中所示。
[0058]采用加權(quán)歐氏距離不僅提取邊緣一列的像素，同時(shí)也參照碎紙片邊緣2~3列的數(shù) 據(jù)進(jìn)行判定，然后再加權(quán)。
[0059]在交互式圖形界面設(shè)置清除按鈕，避免操作失誤，同時(shí)也有表格顯示當(dāng)前拼接進(jìn) 度。如圖5中所示。
[0060]在交互式圖形界面還設(shè)有含義支持和局部特寫按鈕。用于處理不確定的拼接，從而提高拼接準(zhǔn)確率，如圖5中所示。
[0061 ]通過以上步驟實(shí)現(xiàn)單面英文碎紙片拼接識(shí)別。
[0062] 實(shí)施例2:
[0063]下面就一個(gè)實(shí)際的例子對本發(fā)明作進(jìn)一步的闡述，本方法并不局限于這一個(gè)形式的碎紙片拼接
[00

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉姿;褚燕武;何慧靈;
技術(shù)所有人：三峽大學(xué);
我是此專利的發(fā)明人

上一篇：一種商標(biāo)圖像識(shí)別方法
上一篇：一種用于腦部mri圖像分類的圖像處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

碎紙片的拼接復(fù)原相關(guān)技術(shù)

碎紙片的拼接復(fù)原程序相關(guān)技術(shù)

碎紙片拼接相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

單面英文碎紙片拼接識(shí)別方法