專利名稱:基于文件特征用多級圖像比較認(rèn)證打印文件的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于通過比較文件的掃描圖像和文件的原始數(shù)字版本來檢測打 印文件中的更改的方法。具體地,本發(fā)明涉及一種使用基于文件特性的多級比較的圖像比 較方法。
背景技術(shù):
閉環(huán)處理指的是打印原始數(shù)字文件(其可包括文本、圖形、圖像等),使用該文件 的打印的硬副本(諸如分送、復(fù)制等),并且隨后將文件的硬副本掃描回數(shù)字形式。對掃描 的數(shù)字文件進(jìn)行認(rèn)證指的是確定掃描文件是否是原始數(shù)字文件的可信副本,即具有硬副本 的形式的文件是否已被更改。已經(jīng)提出了各種類型的文件認(rèn)證和更改檢測方法。許多文件 認(rèn)證方法中的目的在于檢測進(jìn)行了什么更改(添加、刪除)??商孢x地,一些文件認(rèn)證方法 確定文件是否已被更改,而不確定進(jìn)行了什么更改。一種類型的文件認(rèn)證方法執(zhí)行掃描文件與原始數(shù)字文件的圖像比較。這有時被稱 為基于像素的更改檢測方法。在另一類型的文件認(rèn)證方法中,表示文件內(nèi)容或者與其相關(guān) 的數(shù)據(jù)被編碼為條形碼,并且這種條形碼被打印在文件自身上以在以后協(xié)助文件認(rèn)證。在傳統(tǒng)的基于像素的更改檢測方法中,逐個像素地比較原始數(shù)字圖像和掃描圖像 以確定掃描圖像中是否存在更改。打印機(jī)和掃描儀的高空間分辨率導(dǎo)致了高分辨率的掃描 圖像。傳統(tǒng)的更改檢測方法中的整個圖像的詳盡的圖像比較處理是計算密集的。
發(fā)明內(nèi)容
本發(fā)明涉及一種改進(jìn)的用于通過執(zhí)行掃描文件與原始數(shù)字文件的多級比較來對 文件進(jìn)行認(rèn)證的方法。本發(fā)明的目的在于提供一種具有改進(jìn)的性能的基于圖像比較的更改檢測方法。在后面的描述中將闡述本發(fā)明的另外的特征和優(yōu)點,并且其中一部分通過該描述 而是明顯的,或者可以通過實施本發(fā)明來被認(rèn)識到。通過所撰寫的說明書及其權(quán)利要求以 及附圖中具體指出的結(jié)構(gòu),將實現(xiàn)和達(dá)到本發(fā)明的這些目的和其他優(yōu)點。為了實現(xiàn)這些和/或其他目的,如所實施的和廣泛描述的,本發(fā)明提供了一種在 數(shù)據(jù)處理裝置中實現(xiàn)的用于通過將目標(biāo)文件圖像與原始文件圖像進(jìn)行比較來對目標(biāo)文件 圖像進(jìn)行認(rèn)證的方法,其包括在第一級上將目標(biāo)文件圖像與原始文件圖像進(jìn)行比較,包括 (a)將目標(biāo)文件圖像分割成多個第一級單元,(b)將原始文件圖像分割成多個第一級單元, (c)將目標(biāo)文件圖像中的多個第一級單元與原始文件圖像中的多個第一級單元進(jìn)行比較以 檢測目標(biāo)文件圖像中的更改,并且如果在步驟(c)中未檢測到更改,則在第二級上將目標(biāo) 文件圖像與原始文件圖像進(jìn)行比較,包括(d)將目標(biāo)文件圖像分割成多個第二級單元,其 中第二級單元小于第一級單元,(e)將原始文件圖像分割成多個第二級單元,其中第二級單 元小于第一級單元,以及(f)將目標(biāo)文件圖像中的多個第二級單元與原始文件圖像中的多 個第二級單元進(jìn)行比較以檢測目標(biāo)文件圖像中的更改。
此外,步驟(C)可以包括(Cl)將目標(biāo)文件圖像中的第一級單元的計數(shù)與原始文件 圖像中的第一級單元的計數(shù)進(jìn)行比較以檢測目標(biāo)文件圖像中的更改,以及(^)如果在步 驟(Cl)中未檢測到更改,則將目標(biāo)文件圖像中的每個第一級單元的尺寸和位置與原始文 件圖像中的相應(yīng)的第一級單元的尺寸和位置進(jìn)行比較以檢測目標(biāo)文件圖像中的更改。步驟 (f)可以包括(fl)將目標(biāo)文件圖像中的第二級單元的計數(shù)與原始文件圖像中的第二級單 元的計數(shù)進(jìn)行比較以檢測目標(biāo)文件圖像中的更改,以及( )如果在步驟(fl)中未檢測到 更改,則將目標(biāo)文件圖像中的每個第二級單元的尺寸和位置與原始文件圖像中的相應(yīng)的第 二級單元的尺寸和位置進(jìn)行比較以檢測目標(biāo)文件圖像中的更改。目標(biāo)文件圖像和原始文件圖像中的第一級單元可以是塊單元,每個塊單元包含文 本段落、圖形對象或圖像對象,并且其中目標(biāo)文件圖像和原始文件圖像中的第二級單元可 以是行單元,每個行單元包含文本行;或者可以是詞單元,每個詞單元包含文本詞;或者可 以是字符單元,每個字符單元包含文本字符。在另一方面,本發(fā)明提供了一種計算機(jī)程序產(chǎn)品,其包括具有嵌入在其中的使數(shù) 據(jù)處理裝置執(zhí)行以上方法的計算機(jī)可讀程序代碼的計算機(jī)可用介質(zhì)(例如存儲器或存儲 設(shè)備)。將理解,前面的一般描述和后面的詳細(xì)描述是示例性的和解釋性的,意在提供對 要求保護(hù)的本發(fā)明的進(jìn)一步的解釋。
圖la、lb和Ic分別示意性地圖示了被分割成塊單元、行單元和詞單元的文件圖像。圖加圖示了根據(jù)本發(fā)明的實施例的使用多級比較的文件認(rèn)證方法。圖2b圖示了文件認(rèn)證方法的另外的處理步驟。
具體實施例方式這里描述的更改檢測方法可以由軟件或固件實現(xiàn),該軟件或固件存儲在存儲器中 并且由諸如計算機(jī)、具有數(shù)據(jù)處理部分的打印機(jī)或掃描儀等的任何適當(dāng)?shù)臄?shù)據(jù)處理裝置執(zhí) 行。在這一點上,被編碼為用于實現(xiàn)以下描述的方法的計算機(jī)可執(zhí)行軟件可以被存儲在由 適當(dāng)?shù)臄?shù)據(jù)處理裝置的中央處理單元(CPU)或微處理單元(MPU)訪問的計算機(jī)存儲器中。 計算機(jī)連接到用于存儲文件和其他數(shù)據(jù)的大容量存儲設(shè)備。打印和掃描步驟可以由任何打 印機(jī)和掃描儀或者在單個設(shè)備中組合了打印部分和掃描部分的全能設(shè)備執(zhí)行。這些設(shè)備和 裝置的結(jié)構(gòu)是公知的并且在這里不做詳細(xì)描述。本發(fā)明的實施例提供了一種基于圖像比較方法的文件更改檢測方法(還被稱為 文件認(rèn)證方法),其在多個級別上執(zhí)行圖像比較。更具體地,該文件認(rèn)證方法從高級別的比 較(即較粗糙的比較)到較低級別的比較(即較精細(xì)的比較)逐步地在多個級別上將掃描 的數(shù)字文件圖像(在這里被稱為目標(biāo)文件圖像)與原始的數(shù)字文件圖像(在這里被稱為原 始文件圖像)比較,以檢測目標(biāo)文件圖像中的更改。例如,高級別的比較可以是塊級別上的 比較,以確定目標(biāo)文件圖像是否具有與原始文件圖像相同的塊數(shù)目以及目標(biāo)文件圖像和原 始文件圖像中的塊是否具有大致相同的尺寸和位置。每個塊單元可以包含文本段落、圖像或圖形對象等。較低級別的比較可以是行級別上的比較,以確定目標(biāo)文件圖像和原始文件 圖像是否具有相同的行數(shù)目以及目標(biāo)文件圖像和原始文件圖像中的行是否具有大致相同 的尺寸和位置。更低級別的比較可以是詞級別、字符級別等上的比較。認(rèn)證處理可以被設(shè)計為,一旦在某一級別上檢測到更改,則處理停止并且向用戶 提供已檢測到更改的消息,從而不會執(zhí)行較低級別上的進(jìn)一步的比較??商孢x地,該處理可 以被設(shè)計為交互式的,從而當(dāng)檢測到更改時,數(shù)據(jù)處理裝置向用戶通知結(jié)果,并且用戶可以 選擇繼續(xù)進(jìn)一步的比較還是停止。多級圖像比較方法基于如下假定文件結(jié)構(gòu)通常是分級的,并且文件的版面結(jié)構(gòu) 通常也是分級的。該方法利用了文件的分級特性來提供不同級別的認(rèn)證解決方案。為了執(zhí)行多級圖像比較,目標(biāo)文件圖像和原始文件圖像在不同的級別上被分割成 不同級別的單元,包括塊單元、行單元、詞單元和字符單元。每個這樣分割的單元由其邊界 框定義,該邊界框是從所有的側(cè)邊來確定單元的界限的框(優(yōu)選地是矩形的)。該處理被稱 為圖像分割。通常,較低級別的單元的邊界框小于較高級別的單元的邊界框,并且較高級別 的單元的邊界框?qū)⑼耆鼑S多個較低級別的單元的邊界框。圖la、lb和Ic示意性地圖示了圖像分割。在圖Ia中,所示出的文件圖像的頁面 (由實線邊界表示)被分割成多個塊單元,每個塊單元由虛線矩形表示。在圖Ib中,所示出 的文件圖像的頁面被分割成多個行單元,每個行單元由虛線矩形表示。在圖Ic中,所示出 的文件圖像的頁面(僅示出了幾行文本)被分割成多個詞單元,每個詞單元由虛線矩形表
7J\ ο許多方法可用于實現(xiàn)圖像分割。在一種方法中,通過沿豎直軸繪制每行像素中的 非白色像素的數(shù)目的圖線,生成了水平直方圖(或者水平投影)。該水平直方圖將趨向于具 有對應(yīng)于文本行之間的白色空間的具有低值的分區(qū),以及對應(yīng)于文本行的具有較高值的分 區(qū)(寬度大致相等)。因此這些直方圖可以用于識別文件分割的行單元。此外,如果在文件 中段落間距不同于行間距,則可以根據(jù)這些直方圖來識別塊(例如段落)單元(其中直方 圖中的較大的間隙將指出段落中斷并且直方圖中的較小的間隙將指出行中斷)。行的另外 的開始和結(jié)束信息可以有助于塊提取。此外,在多個對象以及復(fù)雜的版面設(shè)計的情況中,可 以通過分析直方圖的分布來識別一些區(qū)域中的不同類型的對象的存在,并且隨后可以通過 分析該區(qū)域中的豎直投影來提取數(shù)據(jù)塊。此外,對于已識別的每個行單元,可以通過沿水平軸繪制每列像素中的非白色像 素的數(shù)目的圖線來生成豎直直方圖(或者豎直投影)。該豎直投影將趨向于具有對應(yīng)于文 本字符之間的白色空間的具有低值的分區(qū),以及對應(yīng)于字符的具有較高值的分區(qū)。此外,豎 直直方圖中的較大的白色空間可以對應(yīng)于詞之間的白色空間并且可以用于識別詞。因此, 使用豎直和水平直方圖,文件中的文本可以被分割成塊(例如段落)單元、行單元、詞單元 和字符單元。在另一文件分割方法中,對圖像執(zhí)行形態(tài)學(xué)膨脹操作,從而鄰近的字符合并成對 應(yīng)于詞單元的陰暗塊。膨脹是形態(tài)學(xué)圖像處理中的公知的技術(shù),其通常導(dǎo)致圖像的陰暗 區(qū)域的擴(kuò)大。一旦字符被合并成詞單元,則可以進(jìn)一步對它們進(jìn)行分組以形成行單元和塊 (例如段落)單元。在另一文件分割方法中,連接的圖像成分(例如二值圖像的情況中的連接的像素組)可以被識別為對應(yīng)于字符,并且根據(jù)這些連接的圖像成分形成字符單元。一旦形成了 字符單元,則它們可以被分組以形成詞單元、行單元和塊(例如段落)單元。還存在其他文件分割方法。一些這種方法是基于知識的,其使用文件結(jié)構(gòu)的知識 來分割圖像。根據(jù)本發(fā)明的實施例,多級認(rèn)證方法將目標(biāo)文件圖像和原始文件圖像分割成不同 級別的單元,并且比較這兩個圖像中的每個級別的單元的數(shù)目(計數(shù))以及這兩個圖像中 的每個單元的邊界框尺寸和位置。該處理開始于較高級別的單元(塊單元、行單元等),并 且一旦找到更改,則可以在任何級別上停止。更具體地,如圖加中所示,該處理首先將目標(biāo)文件圖像和原始文件圖像分割成塊 單元,每個塊單元由邊界框定義(步驟S201)。比較目標(biāo)文件圖像和原始文件圖像中的塊單 元的計數(shù)。如果計數(shù)不同(步驟S202中的“否”),則判斷目標(biāo)文件已被更改,并且可以顯 示適當(dāng)?shù)南⒒蛘呖梢詧?zhí)行另外的處理(后面描述的步驟A)。如果目標(biāo)文件圖像和原始文 件圖像中的塊單元的計數(shù)是相同的(步驟S202中的“是”),則比較目標(biāo)文件圖像和原始文 件圖像中的相應(yīng)的邊界框的尺寸和位置(步驟S203)。如果目標(biāo)文件圖像和原始文件圖像 中的任何相應(yīng)的邊界框的尺寸和位置不同(步驟S204中的“否”),則判斷目標(biāo)文件已被更 改,并且可以顯示適當(dāng)?shù)南⒒蛘呖梢詧?zhí)行另外的處理(步驟A)。當(dāng)比較目標(biāo)文件圖像和原始文件圖像中的相應(yīng)的邊界框的尺寸和位置時,可以給 出例如幾個像素的公差,從而如果尺寸差或者位置差在該公差內(nèi),則出于比較的目的,兩個 邊界框被視為具有相同的尺寸和位置。步驟S201至S204可以被共同稱為“將目標(biāo)文件圖像和原始文件圖像分割成塊單 元并且比較這些塊單元以檢測更改”的步驟。如果目標(biāo)文件圖像和原始文件圖像中的所有相應(yīng)的邊界框具有相同的尺寸和位 置(步驟S204中的“是”),則該處理繼續(xù),并且將目標(biāo)文件圖像和原始文件圖像分割成行 單元,每個行單元由邊界框定義(步驟S205)。與塊級別的比較相似,在行級別上,該處理首 先確定目標(biāo)文件圖像和原始文件圖像中的行單元的數(shù)目(計數(shù))是否相同(步驟S206), 并且隨后比較目標(biāo)文件圖像和原始文件圖像中的相應(yīng)的邊界框的尺寸和位置(步驟S207、 S208)。如果行單元的計數(shù)不同(步驟S206中的“否”)或者如果任何相應(yīng)的邊界框的尺寸 和位置不同(步驟S208中的“否”),則判斷目標(biāo)文件已被更改,并且可以顯示適當(dāng)?shù)南?或者可以執(zhí)行另外的處理(步驟A)。步驟S205至S208可以被共同稱為“將目標(biāo)文件圖像和原始文件圖像分割成行單 元并且比較這些行單元以檢測更改”的步驟。在行級別的比較之后并且如果未檢測到更改(步驟S208中的“是”),則在步驟 S209至S212中執(zhí)行詞級別的比較。在詞級別的比較之后并且如果未檢測到更改(步驟 S212中的“是”),則在步驟S213至S216中執(zhí)行字符級別的比較。這兩個級別的比較包括 與塊級別和行級別的比較相似的步驟,并且它們的詳細(xì)描述被省略。步驟S209至S212可 以被共同稱為“將目標(biāo)文件圖像和原始文件圖像分割成詞單元并且比較這些詞單元以檢測 更改”的步驟。步驟S213至S216可以被共同稱為“將目標(biāo)文件圖像和原始文件圖像分割 成字符單元并且比較這些字符單元以檢測更改”的步驟。如果在塊級別、行級別、詞級別和字符級別的檢測步驟中均未檢測到更改(步驟S216中的“是”),則該處理繼續(xù)執(zhí)行另外的更改檢測步驟(精細(xì)檢查)(步驟S217)。精細(xì) 檢查步驟按非分級的方式執(zhí)行目標(biāo)文件圖像和原始文件圖像或者它們的選定部分的全面 比較。精細(xì)檢查步驟可以使用已知的圖像比較方法,諸如兩個位像的直接的逐個像素 的比較,使用每個文本字符的中心線(骨架)的骨架比較,邊緣提取和邊緣圖比較,相似度 檢查,豎直和水平方向上的直方圖的比較,分解方法(執(zhí)行傅立葉變換或余弦變換并且對 變換形式進(jìn)行比較)等??梢员挥米骶?xì)檢查步驟的一種圖像比較方法是如2009年6月 30日提交的本申請人共同所有的共同未決的題為“Method for Detecting Alterations in Printed Document UsingImage Comparison Analyses'^tJ^ffl^^J ^it No. 12/495749 中描述的比較質(zhì)心位置的方法??梢允褂闷渌m當(dāng)?shù)膱D像比較方法用于精細(xì)檢查步驟,包 括在未來開發(fā)的方法。精細(xì)檢查步驟S217包括顯示適當(dāng)?shù)南⒁灾赋霰容^結(jié)果,例如是否 檢測到任何更改、更改的區(qū)域的位置等。在任何級別上,如果檢測到更改,即步驟S202、S204、S206、S208、S210、S212、S214 和S216中的“否”,則如圖2b中所示執(zhí)行后繼的處理。根據(jù)實現(xiàn)方案,圖2b中的一些步驟 是可選的。在簡單的實現(xiàn)方案中,該處理顯示消息(S218)并且終止。該消息可以是指出已 檢測到更改的普通消息,或者另外指出諸如“塊計數(shù)不同”的更改類型的特定消息。該消息 還可以包括用于指出檢測到的更改在文件圖像中所處的位置的圖像。例如,如果目標(biāo)文件 圖像中的第三個塊具有不同于原始文件圖像中的第三個塊的尺寸,則可以顯示如下圖像, 其示出了指出目標(biāo)文件圖像或原始文件圖像中的第三個塊的突出顯示的框。當(dāng)然,為了生 成這些特定消息,圖加中的更改檢測步驟將需要使用不同的標(biāo)志或其他手段來指出已檢 測到的不同類型的更改。在另一實現(xiàn)方案中,該處理可以嘗試進(jìn)一步確定更改的性質(zhì)。在一個示例中,如果 目標(biāo)文件圖像和原始文件圖像中的塊的計數(shù)是不同的,則該處理可以嘗試通過比較塊單元 的尺寸和位置來確定是否刪除或添加了整個塊。例如,如果確定目標(biāo)文件圖像和原始文件 圖像中的塊單元1至3具有相同的尺寸和位置,并且目標(biāo)文件圖像中的塊單元4至6具有 與原始文件圖像中的塊單元5至7相同的尺寸,則該處理向用戶顯示如下消息,其表明原始 文件圖像中的塊單元4可能在目標(biāo)文件圖像中已被刪除。在更具交互性的實現(xiàn)方案中,步驟S218中顯示的消息包括提示用戶輸入指令,諸 如終止處理或者執(zhí)行進(jìn)一步的檢測(精細(xì)檢查)。如圖2b中所示,如果接收到執(zhí)行精細(xì)檢 查的用戶指令(步驟S219中的“是”),則執(zhí)行精細(xì)檢查處理(步驟S220),其可能與精細(xì)檢 查步驟S217相似或相同??商孢x地,精細(xì)檢查步驟S217和S220可以是可選的,并且用戶可以設(shè)定安全級別 參數(shù)以確定用于執(zhí)行精細(xì)檢查的條件。例如,安全參數(shù)可以被設(shè)定在如下級別如果塊級 別、行級別、詞級別和字符級別的檢測未檢測到更改,則不執(zhí)行精細(xì)檢查?;蛘?,安全參數(shù)可 以被設(shè)定在如下級別如果檢測到塊級別、行級別和詞級別的更改,則將執(zhí)行精細(xì)檢查,但 是當(dāng)僅檢測到字符級別的更改等時,將不執(zhí)行精細(xì)檢查。圖加和2b中的流程圖將據(jù)此進(jìn) 行修改以適應(yīng)這種靈活性??梢詫崿F(xiàn)可替選的檢測標(biāo)準(zhǔn)。例如,根據(jù)檢測到的更改的性質(zhì),認(rèn)證處理可以被設(shè) 計為生成兩種類型的消息,諸如“警報”和“錯誤”。在一個示例中,當(dāng)對塊進(jìn)行分組時,較嚴(yán) 格或者較寬容的閾值可以導(dǎo)致不同的分組結(jié)果。因此,當(dāng)在較寬容的閾值下找到分組差異時,生成錯誤消息,但是當(dāng)在較嚴(yán)格的閾值下找到分組差異時,生成警報消息。在另一示例 中,當(dāng)在目標(biāo)文件中檢測到額外的塊,但是其尺寸是小的并且其位置處于頁面的邊緣時,由 于其是噪聲的可能性較大,因此僅生成警報消息。當(dāng)使用兩個級別的消息(“警報”和“錯 誤”)時,該處理可以被設(shè)計為在檢測到錯誤時停止,但是在僅檢測到警報時繼續(xù)(同時顯 示適當(dāng)?shù)南?。在圖加中示出的處理中,可以預(yù)先執(zhí)行原始文件圖像的分割并且將結(jié)果與原始 文件圖像關(guān)聯(lián)地存儲在數(shù)據(jù)庫中。因此,如果請求針對同一原始文件圖像對多個目標(biāo)文件 圖像進(jìn)行認(rèn)證時,從數(shù)據(jù)庫取回所存儲的分割信息,并且不需要重復(fù)原始文件圖像的分割 處理??商孢x地,如圖加中所示,在認(rèn)證處理時,對于目標(biāo)文件圖像和原始文件圖像獨立地 執(zhí)行文件分割。此外,如果原始文件的諸如Word或PDF版本的源版本是可用的,則可以利用該源 版本來完成原始文件圖像的分割。而且,當(dāng)原始文件圖像的文件分割已經(jīng)可用時,目標(biāo)文件圖像的分割可以利用原 始文件圖像的已知分割。因此,該處理可以嘗試在原始文件圖像的已知單元的位置處尋找 目標(biāo)文件圖像中的相同的塊單元、行單元等,而非嘗試通過刻劃來分割目標(biāo)文件圖像。換言 之,該處理嘗試驗證原始文件圖像中的同一分割是否也存在于目標(biāo)文件圖像中。關(guān)于原始文件圖像的分割信息可以被存儲為允許解析的文件格式,諸如XML、SGML 等。因此,如果僅請求針對文件的特定區(qū)域的認(rèn)證,則可以解析存儲分割信息的文件并且可 以找到相應(yīng)的戳記以便于執(zhí)行指定區(qū)域的認(rèn)證。根據(jù)以上描述,可以看出,根據(jù)本發(fā)明的實施例的多級比較方法利用文件版面的 分級性質(zhì),從而可以在不執(zhí)行全面的圖像比較的情況下快速地檢測某些更改。這提高了文 件認(rèn)證的性能。上述文件認(rèn)證處理是相對魯棒性的并且可抵抗由打印和掃描處理引起的文件圖 像質(zhì)量的劣化。這是因為塊單元、行單元、詞單元和字符單元的數(shù)目在打印和掃描過程中不 應(yīng)改變,即使字符因打印和掃描而變寬或變窄。此外,如果字符因打印和掃描而變寬或變 窄,則這些改變趨向于在整個圖像中是一致的。因此,因字符變寬或變窄引起的邊界框的尺 寸的任何改變在整個圖像中是相對一致的。此外,即使打印機(jī)或掃描儀具有不均勻的特性, 其導(dǎo)致了圖像中的不一致的尺寸改變,但是預(yù)期仍不會出現(xiàn)相鄰單元之間的突然的尺寸改 變。對于本領(lǐng)域的技術(shù)人員將明顯的是,在不偏離本發(fā)明的精神或范圍的情況下,可 以對本發(fā)明的使用多級圖像比較的文件認(rèn)證方法進(jìn)行各種修改和變化。因此,本發(fā)明旨在 涵蓋落入所附權(quán)利要求及其等同物的范圍內(nèi)的修改和變化。
權(quán)利要求
1.一種在數(shù)據(jù)處理裝置中實現(xiàn)的用于通過將目標(biāo)文件圖像與原始文件圖像進(jìn)行比較 來對所述目標(biāo)文件圖像進(jìn)行認(rèn)證的方法,包括在第一級上將所述目標(biāo)文件圖像與所述原始文件圖像進(jìn)行比較,包括a、將所述目標(biāo)文件圖像分割成多個第一級單元,b、將所述原始文件圖像分割成多個第一級單元,C、將所述目標(biāo)文件圖像中的多個第一級單元與所述原始文件圖像中的多個第一級單 元進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及如果在步驟c中未檢測到更改,則在第二級上將所述目標(biāo)文件圖像與所述原始文件圖 像進(jìn)行比較,包括d、將所述目標(biāo)文件圖像分割成多個第二級單元,其中所述第二級單元小于所述第一級 單元,e、將所述原始文件圖像分割成多個第二級單元,其中所述第二級單元小于所述第一級 單元,以及f、將所述目標(biāo)文件圖像中的多個第二級單元與所述原始文件圖像中的多個第二級單 元進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改。
2.根據(jù)權(quán)利要求1所述的方法,其中步驟c包括Cl、將所述目標(biāo)文件圖像中的第一級單元的計數(shù)與所述原始文件圖像中的第一級單元 的計數(shù)進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及c2、如果在步驟Cl中未檢測到更改,則將所述目標(biāo)文件圖像中的每個第一級單元的尺 寸和位置與所述原始文件圖像中的相應(yīng)的第一級單元的尺寸和位置進(jìn)行比較以檢測所述 目標(biāo)文件圖像中的更改,以及其中步驟f包括fl、將所述目標(biāo)文件圖像中的第二級單元的計數(shù)與所述原始文件圖像中的第二級單元 的計數(shù)進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及f2、如果在步驟fl中未檢測到更改,則將所述目標(biāo)文件圖像中的每個第二級單元的尺 寸和位置與所述原始文件圖像中的相應(yīng)的第二級單元的尺寸和位置進(jìn)行比較以檢測所述 目標(biāo)文件圖像中的更改。
3.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)文件圖像和所述原始文件圖像中的第一 級單元是塊單元,每個塊單元包含文本段落、圖形對象或圖像對象,以及其中所述目標(biāo)文件 圖像和所述原始文件圖像中的第二級單元是行單元,每個行單元包含文本行;或者是詞單 元,每個詞單元包含文本詞;或者是字符單元,每個字符單元包含文本字符。
4.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)文件圖像和所述原始文件圖像中的第一 級單元是行單元,每個行單元包含文本行,以及其中所述目標(biāo)文件圖像和所述原始文件圖 像中的第二級單元是詞單元,每個詞單元包含文本詞;或者是字符單元,每個字符單元包含 文本字符。
5.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)文件圖像和所述原始文件圖像中的第一 級單元是詞單元,每個詞單元包含文本詞,以及其中所述目標(biāo)文件圖像和所述原始文件圖 像中的第二級單元字符單元,每個字符單元包含文本字符。
6.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括如果在步驟f中未檢測到更改,則執(zhí)行所述目標(biāo)文件圖像和所述原始文件圖像或者它 們的選定部分的全面比較以檢測所述目標(biāo)文件圖像中的更改。
7.根據(jù)權(quán)利要求1所述的方法,其中如果在步驟c或步驟f中檢測到更改,則顯示指出 已檢測到更改的消息。
8.根據(jù)權(quán)利要求7所述的方法,其中所述消息進(jìn)一步指出更改的類型。
9.一種計算機(jī)程序產(chǎn)品,包括具有嵌入在其中的用于控制數(shù)據(jù)處理裝置的計算機(jī)可讀 程序代碼的計算機(jī)可用介質(zhì),所述計算機(jī)可讀程序代碼被配置為使所述數(shù)據(jù)處理裝置執(zhí)行 用于通過將目標(biāo)文件圖像與原始文件圖像進(jìn)行比較來對所述目標(biāo)文件圖像進(jìn)行認(rèn)證的處 理,所述處理包括在第一級上將所述目標(biāo)文件圖像與所述原始文件圖像進(jìn)行比較,包括a、將所述目標(biāo)文件圖像分割成多個第一級單元,b、將所述原始文件圖像分割成多個第一級單元,C、將所述目標(biāo)文件圖像中的多個第一級單元與所述原始文件圖像中的多個第一級單 元進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及如果在步驟c中未檢測到更改,則在第二級上將所述目標(biāo)文件圖像與所述原始文件圖 像進(jìn)行比較,包括d、將所述目標(biāo)文件圖像分割成多個第二級單元,其中所述第二級單元小于所述第一級 單元,e、將所述原始文件圖像分割成多個第二級單元,其中所述第二級單元小于所述第一級 單元,以及f、將所述目標(biāo)文件圖像中的多個第二級單元與所述原始文件圖像中的多個第二級單 元進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改。
10.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,其中步驟c包括Cl、將所述目標(biāo)文件圖像中的第一級單元的計數(shù)與所述原始文件圖像中的第一級單元 的計數(shù)進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及c2、如果在步驟cl中未檢測到更改,則將所述目標(biāo)文件圖像中的每個第一級單元的尺 寸和位置與所述原始文件圖像中的相應(yīng)的第一級單元的尺寸和位置進(jìn)行比較以檢測所述 目標(biāo)文件圖像中的更改,以及其中步驟f包括fl、將所述目標(biāo)文件圖像中的第二級單元的計數(shù)與所述原始文件圖像中的第二級單元 的計數(shù)進(jìn)行比較以檢測所述目標(biāo)文件圖像中的更改,以及f2、如果在步驟fl中未檢測到更改,則將所述目標(biāo)文件圖像中的每個第二級單元的尺 寸和位置與所述原始文件圖像中的相應(yīng)的第二級單元的尺寸和位置進(jìn)行比較以檢測所述 目標(biāo)文件圖像中的更改。
11.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,其中所述目標(biāo)文件圖像和所述原始文件 圖像中的第一級單元是塊單元,每個塊單元包含文本段落、圖形對象或圖像對象,以及其 中所述目標(biāo)文件圖像和所述原始文件圖像中的第二級單元是行單元,每個行單元包含文 本行;或者是詞單元,每個詞單元包含文本詞;或者是字符單元,每個字符單元包含文本字 符。
12.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,其中所述目標(biāo)文件圖像和所述原始文件 圖像中的第一級單元是行單元,每個行單元包含文本行,以及其中所述目標(biāo)文件圖像和所 述原始文件圖像中的第二級單元是詞單元,每個詞單元包含文本詞;或者是字符單元,每個 字符單元包含文本字符。
13.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,其中所述目標(biāo)文件圖像和所述原始文件 圖像中的第一級單元是詞單元,每個詞單元包含文本詞,以及其中所述目標(biāo)文件圖像和所 述原始文件圖像中的第二級單元字符單元,每個字符單元包含文本字符。
14.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括如果在步驟f中未檢測到更改,則執(zhí)行所述目標(biāo)文件圖像和所述原始文件圖像或者它 們的選定部分的全面比較以檢測所述目標(biāo)文件圖像中的更改。
15.根據(jù)權(quán)利要求9所述的計算機(jī)程序產(chǎn)品,其中如果在步驟c或步驟f中檢測到更 改,則顯示指出已檢測到更改的消息。
16.根據(jù)權(quán)利要求15所述的計算機(jī)程序產(chǎn)品,其中所述消息進(jìn)一步指出更改的類型。
全文摘要
本發(fā)明涉及一種用于使用多級圖像比較來對打印文件進(jìn)行認(rèn)證的方法和裝置。該文件認(rèn)證方法包括在諸如塊(例如段落、圖形、圖像)、行、詞和字符級別的多個級別上將目標(biāo)文件圖像(掃描圖像)與原始文件圖像進(jìn)行比較。段落級別的比較確定目標(biāo)和原始圖像是否具有相同的段落數(shù)目以及段落是否具有相同的尺寸和位置,行級別的比較確定目標(biāo)和原始圖像是否具有相同的行數(shù)目以及行是否具有相同的尺寸和位置,等等。出于比較的目的,對目標(biāo)和原始圖像執(zhí)行文件分割以將它們分割成段落單元、行單元等??梢灶A(yù)先分割原始文件并且存儲分割信息以備以后使用。認(rèn)證處理被設(shè)計為當(dāng)在較高級別上檢測到更改時停止,因此不執(zhí)行較低級別的比較。
文檔編號G06K9/68GK102117414SQ20101062263
公開日2011年7月6日 申請日期2010年12月28日 優(yōu)先權(quán)日2009年12月29日
發(fā)明者明偉, 田宜彬 申請人:柯尼卡美能達(dá)系統(tǒng)研究所公司