版式文檔中復合圖的提取裝置和提取方法
【專利摘要】本發(fā)明提供了一種版式文檔中復合圖的提取裝置,包括:文檔解析單元,對版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型;圖層生成單元,提取文字圖元以構成文字圖層,并利用其余的非文字圖元構成非文字圖層;版面分析單元,分別對文字圖層和非文字圖層進行版面分析處理;區(qū)塊生成單元,生成文字圖層中的文字區(qū)塊和非文字圖層中的圖像區(qū)塊;關聯(lián)區(qū)塊確定單元,確定與每個圖像區(qū)塊相關聯(lián)的文字區(qū)塊,以合并為復合圖區(qū)塊;標識存儲單元,存儲復合圖區(qū)塊包含的所有圖元的標識。本發(fā)明還提出了一種版式文檔中復合圖的提取方法。通過本發(fā)明的技術方案,可以在復雜的文檔版面布局中,尤其是圖文混排版面中,實現(xiàn)對復合圖的準確提取。
【專利說明】版式文檔中復合圖的提取裝置和提取方法
【技術領域】
[0001] 本發(fā)明涉及電子文檔格式轉換【技術領域】,具體而言,涉及一種版式文檔中復合圖 的提取裝置和一種版式文檔中復合圖的提取方法。
【背景技術】
[0002] 將紙張文檔轉換為電子文檔,大多采用掃描儀掃描或者相機拍攝的方式,獲 取文檔的數(shù)字圖像,對其進行一系列圖像處理后,將字符切分出來,輸入OCR (Optical Character Recognition,光學字符識別)系統(tǒng)。而由文檔處理軟件,如排版軟件,直接生成 的版式文檔,正在取代從紙質文檔轉化而來的圖像文檔成為數(shù)字出版物的主要文檔來源。
[0003] 結構信息的自動提取,主要包括版面分析和版面理解,其研究皆停留在圖像文檔 版面的物理結構的提取,而針對通過OCR轉化或者直接生成的版式文檔的研究才剛剛起 步。文檔版面布局的復雜性和多樣性導致插圖的準確分割成為公開性難題,尤其是文字環(huán) 繞型的插圖。另外,版式文檔中,復合圖都由多個子圖像、大量路徑操作、文字圖元等子對象 構成,不能在逆向工程的版面結構分析中作為復合圖的完整體被正確的提取出來。因而版 式文檔不僅在描述上要大量路徑來描述,造成很大程度的冗余,更不利于版式文檔流式重 排時復合圖的正常顯示,難以滿足日益增長數(shù)字化閱讀的現(xiàn)實需求。
[0004] 因此,需要一種新的版式文檔中復合圖的提取技術,可以在復雜的文檔版面布局 中,尤其是圖文混排版面中,實現(xiàn)對復合圖的準確提取。
【發(fā)明內容】
[0005] 本發(fā)明正是基于上述問題,提出了一種新的版式文檔中復合圖的提取技術,可以 在復雜的文檔版面布局中,尤其是圖文混排版面中,實現(xiàn)對復合圖的準確提取。
[0006] 有鑒于此,本發(fā)明提出了一種版式文檔中復合圖的提取裝置,包括:文檔解析單 元,用于對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型;圖層 生成單元,用于提取文字圖元以構成文字圖層,并利用其余的非文字圖元構成非文字圖層; 版面分析單元,用于分別對所述文字圖層和所述非文字圖層進行版面分析處理;區(qū)塊生成 單元,用于根據(jù)所述版面分析單元的版面分析處理結果,生成所述文字圖層中的文字區(qū)塊 和所述非文字圖層中的圖像區(qū)塊;關聯(lián)區(qū)塊確定單元,用于確定與每個所述圖像區(qū)塊相關 聯(lián)的文字區(qū)塊,以合并為復合圖區(qū)塊;標識存儲單元,用于存儲所述復合圖區(qū)塊包含的所有 圖元的標識。
[0007] 在該技術方案中,通過對版式文檔進行解析后,將得到的圖元分別構成文字圖層 (包含文字圖元)和非文字圖層(包含圖像圖元等),然后分別對每個圖層進行區(qū)塊分類,最終 利用區(qū)塊之間的關系判定復合圖區(qū)塊,以實現(xiàn)對復合圖區(qū)塊的分割,并確保對文字圖元和 非文字圖元的妥善處理。在生成多個圖層時,具體地,可以先提取所有的文字圖元以形成文 字圖層,然后將文字圖元過濾以利用剩余的元素構成非文字圖元。本方案可以對圖文混排、 包含圖像和圖注信息等復雜情況進行有效地分析,從而準確地分割出其中的復合圖區(qū)塊。 復合圖區(qū)塊中可以包含一個或多個復合圖,還可以包含復合圖中或周圍的圖注等文字。通 過記錄所有構成該復合圖區(qū)塊的圖元的標識,如圖元ID,從而能夠利用這些圖元ID來對應 出該復合圖區(qū)塊,實現(xiàn)了將該區(qū)塊與整個版面的分離,方便進行流式重排等處理。
[0008] 在上述技術方案中,優(yōu)選地,所述版面分析單元包括:聚類處理子單元,用于對所 述文字圖層中的文字圖元進行聚類處理,以對所述文字圖元進行分類;文字區(qū)塊生成子單 元,對于同類別的多個文字圖元,在對應的最小外接矩形相交或間隔距離小于預設距離的 情況下,用于將所述多個文字圖元作為文字圖元集合,并將所述文字圖元集合的最小外接 矩形作為一個所述文字區(qū)塊。
[0009] 在該技術方案中,通過基于頁面內文字圖元鄰域特征相似性的聚類算法處理,可 以有效地對文字圖元進行分類,從而確定每個文字圖元應該屬于正文部分還是復合圖部 分。通過對距離的判斷及相應的處理,從而確定多個文字圖元的構成關系,比如用于構成一 個文字區(qū)塊,該文字區(qū)塊對應于一個完整的字符。
[0010] 在上述技術方案中,優(yōu)選地,所述版面分析單元包括:紋理特征獲取子單元,用于 獲取所述非文字圖層中的非文字圖元的紋理特征;連通區(qū)域檢測子單元,用于根據(jù)所述紋 理特征以及預設的特征閾值,檢測出所述非文字圖層中連通的非文字對象區(qū)域;圖像區(qū)塊 生成子單元,對于多個所述連通的非文字對象區(qū)域,在對應的最小外接矩形相交或間隔距 離小于預設距離的情況下,用于將多個所述連通的非文字對象區(qū)域作為區(qū)域集合,并將所 述區(qū)域集合的最小外接矩形作為所述圖像區(qū)塊。
[0011] 在該技術方案中,利用基于紋理分析和形態(tài)學處理的頁面非文字對象的連通域檢 測,從而識別出版面中的連通的非文字對象區(qū)域,該區(qū)域實際上對應于版面中的一幅圖像 或該圖像中的一部分;再通過對距離的判斷及相應的處理,即可將構成同一幅圖像的多個 連通區(qū)域進行合并,從而實現(xiàn)對某一幅圖像的完整的識別。
[0012] 在上述技術方案中,優(yōu)選地,所述版面分析單元還包括:孔洞填補子單元,用于對 所述連通的非文字對象區(qū)域中存在的孔洞進行填補。
[0013] 在該技術方案中,通過對連通的非文字對象區(qū)域中存在的孔洞進行填補,從而能 夠以整體為對象來處理對應的區(qū)域,避免了孔洞為處理過程帶來的難度和可能造成的意 外。
[0014] 在上述技術方案中,優(yōu)選地,所述關聯(lián)區(qū)塊確定單元包括:位置關系檢測子單元, 用于檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,其中,若指定圖像區(qū)塊與至少一 個文字區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊的間隔距離小于預設距 離,則判定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
[0015] 在該技術方案中,由于圖像往往存在一些文字描述,比如圖標題、圖中的標注文字 等等,這些文字與圖像之間是相關聯(lián)的,應該劃分至相同的區(qū)塊。通過上述處理,使得分割 出來的復合圖區(qū)塊更加準確。
[0016] 在上述技術方案中,優(yōu)選地,還包括:圖像生成單元,用于將所述復合圖區(qū)塊生成 為圖像文件;圖像保存單元,用于保存所述圖像文件。
[0017] 在該技術方案中,直接將分割出來的復合圖區(qū)塊以圖像文件的形式進行保存,從 而不必對圖元ID進行管理,尤其是當這些復合圖區(qū)塊中包含有數(shù)量很多的圖元時,以圖像 文件進行處理的方式,顯然有利于提升處理效率。
[0018] 根據(jù)本發(fā)明的又一方面,還提出了一種版式文檔中復合圖的提取方法,包括:步 驟202,對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型;步驟 204,提取文字圖元以構成文字圖層,并利用其余的非文字圖元構成非文字圖層;步驟206, 分別對所述文字圖層和所述非文字圖層進行版面分析處理,以生成所述文字圖層中的文字 區(qū)塊和所述非文字圖層中的圖像區(qū)塊;步驟208,確定與每個所述圖像區(qū)塊相關聯(lián)的文字 區(qū)塊,以合并為復合圖區(qū)塊;步驟210,存儲所述復合圖區(qū)塊包含的所有圖元的標識。
[0019] 在該技術方案中,通過對版式文檔進行解析后,將得到的圖元分別構成文字圖層 (包含文字圖元)和非文字圖層(包含圖像圖元等),然后分別對每個圖層進行區(qū)塊分類,最終 利用區(qū)塊之間的關系判定復合圖區(qū)塊,以實現(xiàn)對復合圖區(qū)塊的分割,并確保對文字圖元和 非文字圖元的妥善處理。在生成多個圖層時,具體地,可以先提取所有的文字圖元以形成文 字圖層,然后將文字圖元過濾以利用剩余的元素構成非文字圖元。本方案可以對圖文混排、 包含圖像和圖注信息等復雜情況進行有效地分析,從而準確地分割出其中的復合圖區(qū)塊。 復合圖區(qū)塊中可以包含一個或多個復合圖,還可以包含復合圖中或周圍的圖注等文字。通 過記錄所有構成該復合圖區(qū)塊的圖元的標識,如圖元ID,從而能夠利用這些圖元ID來對應 出該復合圖區(qū)塊,實現(xiàn)了將該區(qū)塊與整個版面的分離,方便進行流式重排等處理。
[0020] 在上述技術方案中,優(yōu)選地,對所述文字圖層進行版面分析處理的步驟包括:對所 述文字圖層中的文字圖元進行聚類處理,以對所述文字圖元進行分類,其中,對于同類別的 多個文字圖元,若對應的最小外接矩形相交或間隔距離小于預設距離,則將所述多個文字 圖元作為文字圖元集合,并將所述文字圖元集合的最小外接矩形作為一個所述文字區(qū)塊。
[0021] 在該技術方案中,通過基于頁面內文字圖元鄰域特征相似性的聚類算法處理,可 以有效地對文字圖元進行分類,從而確定每個文字圖元應該屬于正文部分還是復合圖部 分。通過對距離的判斷及相應的處理,從而確定多個文字圖元的構成關系,比如用于構成一 個文字區(qū)塊,該文字區(qū)塊對應于一個完整的字符。
[0022] 在上述技術方案中,優(yōu)選地,對所述非文字圖層進行版面分析處理的步驟包括:獲 取所述非文字圖層中的非文字圖元的紋理特征,并根據(jù)預設的特征閾值,檢測出所述非文 字圖層中連通的非文字對象區(qū)域,其中,對于多個所述連通的非文字對象區(qū)域,若對應的最 小外接矩形相交或間隔距離小于預設距離,則將多個所述連通的非文字對象區(qū)域作為區(qū)域 集合,并將所述區(qū)域集合的最小外接矩形作為所述圖像區(qū)塊。
[0023] 在該技術方案中,利用基于紋理分析和形態(tài)學處理的頁面非文字對象的連通域檢 測,從而識別出版面中的連通的非文字對象區(qū)域,該區(qū)域實際上對應于版面中的一幅圖像 或該圖像中的一部分;再通過對距離的判斷及相應的處理,即可將構成同一幅圖像的多個 連通區(qū)域進行合并,從而實現(xiàn)對某一幅圖像的完整的識別。
[0024] 在上述技術方案中,優(yōu)選地,還包括:對所述連通的非文字對象區(qū)域中存在的孔洞 進行填補。
[0025] 在該技術方案中,通過對連通的非文字對象區(qū)域中存在的孔洞進行填補,從而能 夠以整體為對象來處理對應的區(qū)域,避免了孔洞為處理過程帶來的難度和可能造成的意 外。
[0026] 在上述技術方案中,優(yōu)選地,所述確定與每個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊的 步驟包括:檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,若指定圖像區(qū)塊與至少一 個文字區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊的間隔距離小于預設距 離,則判定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
[0027] 在該技術方案中,由于圖像往往存在一些文字描述,比如圖標題、圖中的標注文字 等等,這些文字與圖像之間是相關聯(lián)的,應該劃分至相同的區(qū)塊。通過上述處理,使得分割 出來的復合圖區(qū)塊更加準確。
[0028] 在上述技術方案中,優(yōu)選地,還包括:將所述復合圖區(qū)塊保存為圖像文件。
[0029] 在該技術方案中,直接將分割出來的復合圖區(qū)塊以圖像文件的形式進行保存,從 而不必對圖元ID進行管理,尤其是當這些復合圖區(qū)塊中包含有數(shù)量很多的圖元時,以圖像 文件進行處理的方式,顯然有利于提升處理效率。
[0030] 通過以上技術方案,可以在復雜的文檔版面布局中,尤其是圖文混排版面中,實現(xiàn) 對復合圖的準確提取。
【專利附圖】
【附圖說明】
[0031] 圖1示出了根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取裝置的框圖;
[0032] 圖2示出了根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取方法的流程圖;
[0033] 圖3示出了根據(jù)本發(fā)明的實施例的對版式文檔中的復合圖進行提取的具體流程 圖;
[0034] 圖4A至圖4D示出了根據(jù)本發(fā)明的一個實施例的對版式文檔中的復合圖進行提取 的不意圖;
[0035] 圖5A至圖?示出了根據(jù)本發(fā)明的另一個實施例的對版式文檔中的復合圖進行提 取的示意圖。
【具體實施方式】
[0036] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和具體實 施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施 例及實施例中的特征可以相互組合。
[0037] 在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明并不限于下面公開的具體實 施例的限制。
[0038] 圖1示出了根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取裝置的框圖。
[0039] 如圖1所示,根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取裝置100,包括:文 檔解析單元102,用于對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元 的類型;圖層生成單元104,用于提取文字圖元以構成文字圖層,并利用其余的非文字圖元 構成非文字圖層;版面分析單元106,用于分別對所述文字圖層和所述非文字圖層進行版 面分析處理;區(qū)塊生成單元108,用于根據(jù)所述版面分析單元106的版面分析處理結果,生 成所述文字圖層中的文字區(qū)塊和所述非文字圖層中的圖像區(qū)塊;關聯(lián)區(qū)塊確定單元110, 用于確定與每個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊,以合并為復合圖區(qū)塊;標識存儲單元 112,用于存儲所述復合圖區(qū)塊包含的所有圖元的標識。
[0040] 在該技術方案中,通過對版式文檔進行解析后,將得到的圖元分別構成文字圖層 (包含文字圖元)和非文字圖層(包含圖像圖元等),然后分別對每個圖層進行區(qū)塊分類,最終 利用區(qū)塊之間的關系判定復合圖區(qū)塊,以實現(xiàn)對復合圖區(qū)塊的分割,并確保對文字圖元和 非文字圖元的妥善處理。在生成多個圖層時,具體地,可以先提取所有的文字圖元以形成文 字圖層,然后將文字圖元過濾以利用剩余的元素構成非文字圖元。本方案可以對圖文混排、 包含圖像和圖注信息等復雜情況進行有效地分析,從而準確地分割出其中的復合圖區(qū)塊。 復合圖區(qū)塊中可以包含一個或多個復合圖,還可以包含復合圖中或周圍的圖注等文字。通 過記錄所有構成該復合圖區(qū)塊的圖元的標識,如圖元ID,從而能夠利用這些圖元ID來對應 出該復合圖區(qū)塊,實現(xiàn)了將該區(qū)塊與整個版面的分離,方便進行流式重排等處理。
[0041] 在上述技術方案中,優(yōu)選地,所述版面分析單元106包括:聚類處理子單元1060, 用于對所述文字圖層中的文字圖元進行聚類處理,以對所述文字圖元進行分類;文字區(qū)塊 生成子單元1062,對于同類別的多個文字圖元,在對應的最小外接矩形相交或間隔距離小 于預設距離的情況下,用于將所述多個文字圖元作為文字圖元集合,并將所述文字圖元集 合的最小外接矩形作為一個所述文字區(qū)塊。
[0042] 在該技術方案中,通過基于頁面內文字圖元鄰域特征相似性的聚類算法處理,可 以有效地對文字圖元進行分類,從而確定每個文字圖元應該屬于正文部分還是復合圖部 分。通過對距離的判斷及相應的處理,從而確定多個文字圖元的構成關系,比如用于構成一 個文字區(qū)塊,該文字區(qū)塊對應于一個完整的字符。
[0043] 在上述技術方案中,優(yōu)選地,所述版面分析單元106包括:紋理特征獲取子單元 1064,用于獲取所述非文字圖層中的非文字圖元的紋理特征;連通區(qū)域檢測子單元1066, 用于根據(jù)所述紋理特征以及預設的特征閾值,檢測出所述非文字圖層中連通的非文字對象 區(qū)域;圖像區(qū)塊生成子單元1068,對于多個所述連通的非文字對象區(qū)域,在對應的最小外 接矩形相交或間隔距離小于預設距離的情況下,用于將多個所述連通的非文字對象區(qū)域作 為區(qū)域集合,并將所述區(qū)域集合的最小外接矩形作為所述圖像區(qū)塊。
[0044] 在該技術方案中,利用基于紋理分析和形態(tài)學處理的頁面非文字對象的連通域檢 測,從而識別出版面中的連通的非文字對象區(qū)域,該區(qū)域實際上對應于版面中的一幅圖像 或該圖像中的一部分;再通過對距離的判斷及相應的處理,即可將構成同一幅圖像的多個 連通區(qū)域進行合并,從而實現(xiàn)對某一幅圖像的完整的識別。
[0045] 在上述技術方案中,優(yōu)選地,所述版面分析單元106還包括:孔洞填補子單元 1069,用于對所述連通的非文字對象區(qū)域中存在的孔洞進行填補。
[0046] 在該技術方案中,通過對連通的非文字對象區(qū)域中存在的孔洞進行填補,從而能 夠以整體為對象來處理對應的區(qū)域,避免了孔洞為處理過程帶來的難度和可能造成的意 外。
[0047] 在上述技術方案中,優(yōu)選地,所述關聯(lián)區(qū)塊確定單元110包括:位置關系檢測子單 元1100,用于檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,其中,若指定圖像區(qū)塊與 至少一個文字區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊的間隔距離小于預 設距離,則判定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
[0048] 在該技術方案中,由于圖像往往存在一些文字描述,比如圖標題、圖中的標注文字 等等,這些文字與圖像之間是相關聯(lián)的,應該劃分至相同的區(qū)塊。通過上述處理,使得分割 出來的復合圖區(qū)塊更加準確。
[0049] 在上述技術方案中,優(yōu)選地,還包括:圖像生成單元114,用于將所述復合圖區(qū)塊 生成為圖像文件;圖像保存單元116,用于保存所述圖像文件。
[0050] 在該技術方案中,直接將分割出來的復合圖區(qū)塊以圖像文件的形式進行保存,從 而不必對圖元ID進行管理,尤其是當這些復合圖區(qū)塊中包含有數(shù)量很多的圖元時,以圖像 文件進行處理的方式,顯然有利于提升處理效率。
[0051] 圖2示出了根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取方法的流程圖。
[0052] 如圖2所示,根據(jù)本發(fā)明的實施例的版式文檔中復合圖的提取方法,包括:步驟 202,對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型;步驟 204,提取文字圖元以構成文字圖層,并利用其余的非文字圖元構成非文字圖層;步驟206, 分別對所述文字圖層和所述非文字圖層進行版面分析處理,以生成所述文字圖層中的文字 區(qū)塊和所述非文字圖層中的圖像區(qū)塊;步驟208,確定與每個所述圖像區(qū)塊相關聯(lián)的文字 區(qū)塊,以合并為復合圖區(qū)塊;步驟210,存儲所述復合圖區(qū)塊包含的所有圖元的標識。
[0053] 在該技術方案中,通過對版式文檔進行解析后,將得到的圖元分別構成文字圖層 (包含文字圖元)和非文字圖層(包含圖像圖元等),然后分別對每個圖層進行區(qū)塊分類,最終 利用區(qū)塊之間的關系判定復合圖區(qū)塊,以實現(xiàn)對復合圖區(qū)塊的分割,并確保對文字圖元和 非文字圖元的妥善處理。在生成多個圖層時,具體地,可以先提取所有的文字圖元以形成文 字圖層,然后將文字圖元過濾以利用剩余的元素構成非文字圖元。本方案可以對圖文混排、 包含圖像和圖注信息等復雜情況進行有效地分析,從而準確地分割出其中的復合圖區(qū)塊。 復合圖區(qū)塊中可以包含一個或多個復合圖,還可以包含復合圖中或周圍的圖注等文字。通 過記錄所有構成該復合圖區(qū)塊的圖元的標識,如圖元ID,從而能夠利用這些圖元ID來對應 出該復合圖區(qū)塊,實現(xiàn)了將該區(qū)塊與整個版面的分離,方便進行流式重排等處理。
[0054] 在上述技術方案中,優(yōu)選地,對所述文字圖層進行版面分析處理的步驟包括:對所 述文字圖層中的文字圖元進行聚類處理,以對所述文字圖元進行分類,其中,對于同類別的 多個文字圖元,若對應的最小外接矩形相交或間隔距離小于預設距離,則將所述多個文字 圖元作為文字圖元集合,并將所述文字圖元集合的最小外接矩形作為一個所述文字區(qū)塊。
[0055] 在該技術方案中,通過基于頁面內文字圖元鄰域特征相似性的聚類算法處理,可 以有效地對文字圖元進行分類,從而確定每個文字圖元應該屬于正文部分還是復合圖部 分。通過對距離的判斷及相應的處理,從而確定多個文字圖元的構成關系,比如用于構成一 個文字區(qū)塊,該文字區(qū)塊對應于一個完整的字符。
[0056] 在上述技術方案中,優(yōu)選地,對所述非文字圖層進行版面分析處理的步驟包括:獲 取所述非文字圖層中的非文字圖元的紋理特征,并根據(jù)預設的特征閾值,檢測出所述非文 字圖層中連通的非文字對象區(qū)域,其中,對于多個所述連通的非文字對象區(qū)域,若對應的最 小外接矩形相交或間隔距離小于預設距離,則將多個所述連通的非文字對象區(qū)域作為區(qū)域 集合,并將所述區(qū)域集合的最小外接矩形作為所述圖像區(qū)塊。
[0057] 在該技術方案中,利用基于紋理分析和形態(tài)學處理的頁面非文字對象的連通域檢 測,從而識別出版面中的連通的非文字對象區(qū)域,該區(qū)域實際上對應于版面中的一幅圖像 或該圖像中的一部分;再通過對距離的判斷及相應的處理,即可將構成同一幅圖像的多個 連通區(qū)域進行合并,從而實現(xiàn)對某一幅圖像的完整的識別。
[0058] 在上述技術方案中,優(yōu)選地,還包括:對所述連通的非文字對象區(qū)域中存在的孔洞 進行填補。
[0059] 在該技術方案中,通過對連通的非文字對象區(qū)域中存在的孔洞進行填補,從而能 夠以整體為對象來處理對應的區(qū)域,避免了孔洞為處理過程帶來的難度和可能造成的意 外。
[0060] 在上述技術方案中,優(yōu)選地,所述確定與每個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊的 步驟包括:檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,若指定圖像區(qū)塊與至少一 個文字區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊的間隔距離小于預設距 離,則判定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
[0061] 在該技術方案中,由于圖像往往存在一些文字描述,比如圖標題、圖中的標注文字 等等,這些文字與圖像之間是相關聯(lián)的,應該劃分至相同的區(qū)塊。通過上述處理,使得分割 出來的復合圖區(qū)塊更加準確。
[0062] 在上述技術方案中,優(yōu)選地,還包括:將所述復合圖區(qū)塊保存為圖像文件。
[0063] 在該技術方案中,直接將分割出來的復合圖區(qū)塊以圖像文件的形式進行保存,從 而不必對圖元ID進行管理,尤其是當這些復合圖區(qū)塊中包含有數(shù)量很多的圖元時,以圖像 文件進行處理的方式,顯然有利于提升處理效率。
[0064] 圖3示出了根據(jù)本發(fā)明的實施例的對版式文檔中的復合圖進行提取的具體流程 圖。
[0065] 如圖3所示,根據(jù)本發(fā)明的實施例的對版式文檔中的復合圖進行提取的具體流程 包括:
[0066] 步驟302,利用解析引擎對原始的版式文檔進行解析。
[0067] 步驟304,根據(jù)解析結果,獲取該版式文檔中包含的圖元。
[0068] 步驟306,判斷圖元的類型,比如可以根據(jù)解析出來的圖元類型進行分辨,其中,若 為文字類型,則獲取該文字圖元并進入步驟310,否則進入步驟308。
[0069] 步驟308,依據(jù)該圖元的類型進行相應的處理。
[0070] 步驟310,對頁面進行分層處理,具體地,根據(jù)步驟306獲取的文字圖元,將所有的 文字圖元構成文字圖層,然后將所有的文字圖元過濾后,剩余的圖元構成非文字圖層。
[0071] 當然,這種通過對文字圖元進行獲取、分層、過濾、再分層的方式僅為圖層構建的 一種方式,實際上,也可以通過對非文字圖元進行獲取來實現(xiàn),或是分別獲取文字圖元和非 文字圖元以同時分別構成圖層等。
[0072] 下面將分別對文字圖層和非文字圖層進行處理,其中,步驟312至步驟316對文字 圖層進行了處理,而步驟318至步驟322對非文字圖層進行處理,以下分別進行詳細說明。
[0073] 步驟312,構建Delaunay三角剖分的鄰域關系。具體地,以頁面內文字圖元的外 接矩形的質心為頂點V,通過采用Delaunay三角剖分,構建頁面內文字圖元的鄰域關系 G= (V,E)。
[0074] 步驟314,采用基于圖的并查集算法對文字圖元聚類。具體地,包括:
[0075] 1、對構建的無向圖中連接相鄰節(jié)點Vi和Vj的邊E,計算其權重w(Vi, Vj):
【權利要求】
1. 一種版式文檔中復合圖的提取裝置,其特征在于,包括: 文檔解析單元,用于對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述 圖元的類型; 圖層生成單元,用于提取文字圖元W構成文字圖層,并利用其余的非文字圖元構成非 文字圖層; 版面分析單元,用于分別對所述文字圖層和所述非文字圖層進行版面分析處理; 區(qū)塊生成單元,用于根據(jù)所述版面分析單元的版面分析處理結果,生成所述文字圖層 中的文字區(qū)塊和所述非文字圖層中的圖像區(qū)塊; 關聯(lián)區(qū)塊確定單元,用于確定與每個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊,W合并為復合 圖區(qū)塊; 標識存儲單元,用于存儲所述復合圖區(qū)塊包含的所有圖元的標識。
2. 根據(jù)權利要求1所述的版式文檔中復合圖的提取裝置,其特征在于,所述版面分析 單元包括: 聚類處理子單元,用于對所述文字圖層中的文字圖元進行聚類處理,W對所述文字圖 元進行分類; 文字區(qū)塊生成子單元,對于同類別的多個文字圖元,在對應的最小外接矩形相交或間 隔距離小于預設距離的情況下,用于將所述多個文字圖元作為文字圖元集合,并將所述文 字圖元集合的最小外接矩形作為一個所述文字區(qū)塊。
3. 根據(jù)權利要求1所述的版式文檔中復合圖的提取裝置,其特征在于,所述版面分析 單元包括: 紋理特征獲取子單元,用于獲取所述非文字圖層中的非文字圖元的紋理特征; 連通區(qū)域檢測子單元,用于根據(jù)所述紋理特征W及預設的特征闊值,檢測出所述非文 字圖層中連通的非文字對象區(qū)域; 圖像區(qū)塊生成子單元,對于多個所述連通的非文字對象區(qū)域,在對應的最小外接矩形 相交或間隔距離小于預設距離的情況下,用于將多個所述連通的非文字對象區(qū)域作為區(qū)域 集合,并將所述區(qū)域集合的最小外接矩形作為所述圖像區(qū)塊。
4. 根據(jù)權利要求3所述的版式文檔中復合圖的提取裝置,其特征在于,所述版面分析 單元還包括: 孔洞填補子單元,用于對所述連通的非文字對象區(qū)域中存在的孔洞進行填補。
5. 根據(jù)權利要求1所述的版式文檔中復合圖的提取裝置,其特征在于,所述關聯(lián)區(qū)塊 確定單元包括: 位置關系檢測子單元,用于檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,其中, 若指定圖像區(qū)塊與至少一個文字區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊 的間隔距離小于預設距離,則判定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
6. 根據(jù)權利要求1至5中任一項所述的版式文檔中復合圖的提取裝置,其特征在于,還 包括: 圖像生成單元,用于將所述復合圖區(qū)塊生成為圖像文件; 圖像保存單元,用于保存所述圖像文件。
7. -種版式文檔中復合圖的提取方法,其特征在于,包括: 對所述版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型; 提取文字圖元W構成文字圖層,并利用其余的非文字圖元構成非文字圖層; 分別對所述文字圖層和所述非文字圖層進行版面分析處理,W生成所述文字圖層中的 文字區(qū)塊和所述非文字圖層中的圖像區(qū)塊; 確定與每個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊,W合并為復合圖區(qū)塊; 存儲所述復合圖區(qū)塊包含的所有圖元的標識。
8. 根據(jù)權利要求7所述的版式文檔中復合圖的提取方法,其特征在于,對所述文字圖 層進行版面分析處理的步驟包括: 對所述文字圖層中的文字圖元進行聚類處理,W對所述文字圖元進行分類,其中, 對于同類別的多個文字圖元,若對應的最小外接矩形相交或間隔距離小于預設距離, 則將所述多個文字圖元作為文字圖元集合,并將所述文字圖元集合的最小外接矩形作為一 個所述文字區(qū)塊。
9. 根據(jù)權利要求7所述的版式文檔中復合圖的提取方法,其特征在于,對所述非文字 圖層進行版面分析處理的步驟包括: 獲取所述非文字圖層中的非文字圖元的紋理特征,并根據(jù)預設的特征闊值,檢測出所 述非文字圖層中連通的非文字對象區(qū)域,其中, 對于多個所述連通的非文字對象區(qū)域,若對應的最小外接矩形相交或間隔距離小于預 設距離,則將多個所述連通的非文字對象區(qū)域作為區(qū)域集合,并將所述區(qū)域集合的最小外 接矩形作為所述圖像區(qū)塊。
10. 根據(jù)權利要求9所述的版式文檔中復合圖的提取方法,其特征在于,還包括: 對所述連通的非文字對象區(qū)域中存在的孔洞進行填補。
11. 根據(jù)權利要求7所述的版式文檔中復合圖的提取方法,其特征在于,所述確定與每 個所述圖像區(qū)塊相關聯(lián)的文字區(qū)塊的步驟包括: 檢測所述圖像區(qū)塊與所述文字區(qū)塊之間的位置關系,若指定圖像區(qū)塊與至少一個文字 區(qū)塊相交,或所述指定圖像區(qū)塊與所述至少一個文字區(qū)塊的間隔距離小于預設距離,則判 定所述至少一個文字區(qū)塊與所述指定圖像區(qū)塊相關聯(lián)。
12. 根據(jù)權利要求7至11中任一項所述的版式文檔中復合圖的提取方法,其特征在于, 還包括: 將所述復合圖區(qū)塊保存為圖像文件。
【文檔編號】G06K9/46GK104346615SQ201310343908
【公開日】2015年2月11日 申請日期:2013年8月8日 優(yōu)先權日:2013年8月8日
【發(fā)明者】許燦輝, 湯幟, 陶欣, 史操 申請人:北大方正集團有限公司, 北京方正阿帕比技術有限公司, 北京大學