單面英文碎紙片拼接識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及破碎文檔復(fù)原領(lǐng)域,特別是一種單面英文碎紙片拼接識(shí)別方法。
【背景技術(shù)】
[0002] 碎片匹配問題在現(xiàn)實(shí)生活中是一個(gè)有很大實(shí)用價(jià)值的課題,它在司法物證復(fù)原、 歷史文獻(xiàn)修復(fù)以及軍事情報(bào)獲取等領(lǐng)域都有著重要的應(yīng)用。傳統(tǒng)上,拼接復(fù)原工作需由人 工完成,準(zhǔn)確率較高,但效率很低。特別是當(dāng)碎片數(shù)量巨大,人工拼接很難在短時(shí)間內(nèi)完成 任務(wù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們試圖開發(fā)碎紙片的自動(dòng)拼接技術(shù),以提高拼接復(fù)原效 率。如今,碎紙肩的復(fù)原已經(jīng)擴(kuò)展到生活的方方面面,例如考古學(xué)家遇到的古代留下來的破 碎的珍貴文物,公安機(jī)關(guān)破案遇到的碎照片,珍貴破碎的藝術(shù)品。當(dāng)碎片的數(shù)量很少的時(shí) 候,可以用手工的辦法把碎片拼起來,但是當(dāng)碎片的數(shù)量很多的時(shí)候,對于手工勞動(dòng)來說, 這是繁瑣的重復(fù)勞動(dòng)或者是一個(gè)無法完成的任務(wù)。因此考慮采用計(jì)算機(jī)來代替部分重復(fù)而 繁重的工作,使碎片復(fù)原變得更容易,且高效率、高準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題是提供一種單面英文碎紙片拼接識(shí)別方法,能夠提高 拼接效率,提高準(zhǔn)確度。
[0004] 為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:一種單面英文碎紙片拼接識(shí) 別方法,包括以下步驟:
[0005] -、將已有的碎紙片掃描成為多個(gè)圖片文件,掃描后的圖片文件僅保留碎紙片的 輪廓區(qū)域,不留白;
[0006] 二、對圖片進(jìn)行二值化處理;
[0007] 三、圖像膨脹預(yù)處理;
[0008] 四、基于文字所處的位置和英文字母四線三格的的書寫規(guī)則,提取出中間兩條基 線的位置;
[0009] 五、根據(jù)提取后的基線位置進(jìn)行聚類分析,找到同一行的全部碎紙片;
[0010] 六、根據(jù)聚類后的碎紙片,采用加權(quán)歐氏距離的方法進(jìn)行匹配,結(jié)合交互式圖形界 面手工匹配;
[0011]通過以上步驟實(shí)現(xiàn)單面英文碎紙片拼接識(shí)別。
[0012] 碎紙片的來源為碎紙機(jī)處理過的單面英文文檔,為整齊的矩形。
[0013] 二值化處理的閾值為0.99。
[0014]圖像膨脹的步驟為:將結(jié)構(gòu)元素平移一段距離,將平移后的圖像像素與底圖圖像 像素做"與"操作,從而得到膨脹后的圖像。
[0015] 基線提取,算法采用列掃描的方法,先找到所有可能的基線,然后通過相同基線閾 值進(jìn)行去除重復(fù)的基線。
[0016] 基線提取步驟為:按列提取每列的基線組,即每一行字母4線中的第2條和第3條的 位置;
[0017] 判斷每列基線組的組內(nèi)距離是否在適當(dāng)?shù)姆秶鷥?nèi),通過對已有碎片的統(tǒng)計(jì),得到4 線中的第2條和第3條的范圍;
[0018] 存儲(chǔ)得到的基線組,通過去除重復(fù)和重合的基線,留下當(dāng)前紙片的基線組。
[0019] 聚類的步驟為:根據(jù)整個(gè)文檔邊緣紙片的特點(diǎn),找到最左邊的η張碎紙片圖片,剩 余的碎紙片圖片作為基線聚類的匹配庫;
[0020] η為碎紙片圖片的行數(shù);
[0021]以最左邊任一張碎紙片圖片為基準(zhǔn),從剩余的碎紙片圖片中選取匹配的基線作為 該組的成員;
[0022]重復(fù)以上步驟的過程,找到η個(gè)分組,聚類完成。
[0023]為了保證每組包含該行所有可能的紙片,已選的紙片不從匹配庫中刪除,但進(jìn)行 記 D
[0024]聚類分析的誤差控制在在四線三格中間兩條基線寬度的1/12之內(nèi)。
[0025]采用加權(quán)歐氏距離不僅提取邊緣一列的像素,同時(shí)也參照碎紙片邊緣2~3列的數(shù) 據(jù)進(jìn)行判定,然后再加權(quán)。
[0026]在交互式圖形界面設(shè)置清除按鈕,避免操作失誤。
[0027]在交互式圖形界面還設(shè)有含義支持和局部特寫按鈕。
[0028]本發(fā)明提供的一種單面英文碎紙片拼接識(shí)別方法,通過采用的圖像膨脹預(yù)處理步 驟,使字母的基線提取準(zhǔn)確率更高,聚類效果更好,提高拼接的一次準(zhǔn)確率,進(jìn)而提高拼接 識(shí)別效率。本發(fā)明中,基線提取的準(zhǔn)確率相比較于傳統(tǒng)方法提高了30%以上;碎紙片之間的 一次拼接準(zhǔn)確率相比于傳統(tǒng)方法提高了 10 %以上;碎紙片拼接采用交互式界面,方便高效; 針對碎紙片數(shù)量為11 X 19的碎紙片組,人工干預(yù)次數(shù)減少了 20次左右。
【附圖說明】
[0029]下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明:
[0030] 圖1為本發(fā)明中二值化和膨脹算法處理過程示意圖。
[0031] 圖2為本發(fā)明中中間兩條基線范圍的示意圖。
[0032] 圖3為本發(fā)明中基線提取過程示意圖。
[0033]圖4為本發(fā)明中聚類分析結(jié)果。
[0034]圖5為本發(fā)明中交互式圖形界面示意圖。
[0035]圖6為本發(fā)明中最后復(fù)原結(jié)果。
[0036]圖7為本發(fā)明中匹配算法流程圖。
[0037]圖8為本發(fā)明中聚類分析流程圖
[0038]圖9為本發(fā)明中交互式圖形界面流程示意圖。
【具體實(shí)施方式】 [0039] 實(shí)施例1:
[0040]如圖1~9中,一種單面英文碎紙片拼接識(shí)別方法,包括以下步驟:
[0041] 一、將已有的碎紙片掃描成為多個(gè)圖片文件,掃描后的圖片文件僅保留碎紙片的 輪廓區(qū)域,不留白;圖1中左側(cè)即為掃描后得到的圖片文件。優(yōu)選的方案中,碎紙片的來源為 碎紙機(jī)處理過的單面英文文檔,為整齊的矩形。
[0042]二、對圖片進(jìn)行二值化處理;圖1中中間即為二值化處理后的圖片文件。優(yōu)選的,二 值化處理的閾值為0.99,將灰度級(jí)大于的0.99的像素點(diǎn)均轉(zhuǎn)換成1,強(qiáng)灰度級(jí)小于0.99的像 素點(diǎn)轉(zhuǎn)換成〇,處理后的效果提高了有用黑色像素點(diǎn)的個(gè)數(shù),從而提高了拼接準(zhǔn)確率。。 [0043]三、圖像膨脹預(yù)處理;圖1中右側(cè)即為膨脹預(yù)處理后的圖片文件。從圖中可以看出, 根據(jù)英文字母四線三格的的書寫規(guī)則,中間兩條基線的位置編的非常明顯。
[0044] 圖像膨脹的步驟為:將結(jié)構(gòu)元素平移一段距離,將平移后的圖像像素與底圖圖像 像素做"與"操作,從而得到膨脹后的圖像。
[0045] 四、基于文字所處的位置和英文字母四線三格的的書寫規(guī)則,提取出中間兩條基 線的位置;如圖2、3中所示。
[0046] 基線提取的算法采用列掃描的方法,先找到所有可能的基線,然后通過相同基線 閾值進(jìn)行去除重復(fù)的基線。
[0047] 基線提取步驟為:按列提取每列的基線組,即每一行字母4線中的第2條和第3條的 位置;
[0048]判斷每列基線組的組內(nèi)距離是否在適當(dāng)?shù)姆秶鷥?nèi),通過對已有碎片的統(tǒng)計(jì),得到4 線中的第2條和第3條的范圍;
[0049] 存儲(chǔ)得到的基線組,通過去除重復(fù)和重合的基線,留下當(dāng)前紙片的基線組。
[0050] 五、根據(jù)提取后的基線位置進(jìn)行聚類分析,找到同一行的全部碎紙片;如圖4中所 示。需要說明的是,提取基線之后,將基線位置復(fù)制到原圖或二值圖像中進(jìn)行后續(xù)的聚類步 驟。
[0051] 聚類的步驟為:根據(jù)整個(gè)文檔邊緣紙片的特點(diǎn),找到最左邊的η張碎紙片圖片,剩 余的碎紙片圖片作為基線聚類的匹配庫;
[0052] η為碎紙片圖片的行數(shù);
[0053]以最左邊任一張碎紙片圖片為基準(zhǔn),從剩余的碎紙片圖片中選取匹配的基線作為 該組的成員;
[0054]重復(fù)以上步驟的過程,找到η個(gè)分組,聚類完成。
[0055] 為了保證每組包含該行所有可能的紙片,已選的紙片不從匹配庫中刪除,但進(jìn)行 記 D
[0056] 聚類分析的誤差控制在在四線三格中間兩條基線寬度的1/12之內(nèi)。這個(gè)誤差范圍 能夠盡可能地避免最終誤差的產(chǎn)生。聚類分析的流程參見圖7、8.
[0057]六、根據(jù)聚類后的碎紙片,采用加權(quán)歐氏距離的方法進(jìn)行匹配,結(jié)合交互式圖形界 面手工匹配;如圖5、9中所示。
[0058]采用加權(quán)歐氏距離不僅提取邊緣一列的像素,同時(shí)也參照碎紙片邊緣2~3列的數(shù) 據(jù)進(jìn)行判定,然后再加權(quán)。
[0059]在交互式圖形界面設(shè)置清除按鈕,避免操作失誤,同時(shí)也有表格顯示當(dāng)前拼接進(jìn) 度。如圖5中所示。
[0060]在交互式圖形界面還設(shè)有含義支持和局部特寫按鈕。用于處理不確定的拼接,從 而提高拼接準(zhǔn)確率,如圖5中所示。
[0061 ]通過以上步驟實(shí)現(xiàn)單面英文碎紙片拼接識(shí)別。
[0062] 實(shí)施例2:
[0063]下面就一個(gè)實(shí)際的例子對本發(fā)明作進(jìn)一步的闡述,本方法并不局限于這一個(gè)形式 的碎紙片拼接
[00