一種電子檔版式文件閱讀順序分析的方法【專利摘要】本發(fā)明公開了一種電子檔版式文件閱讀順序分析的方法,所述方法包括以下步驟:提取PDF文件中原始信息;識別頁眉、頁腳,并對相鄰文本內(nèi)容進行合并,得到行內(nèi)容;對文本行內(nèi)容進行塊合并,得到文本塊內(nèi)容;對相鄰圖片進行合并,得到圖片塊內(nèi)容;對路徑信息進行分析,得到水平方向的分割線;將文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,得到水平分隔塊內(nèi)容;以文本塊內(nèi)容、圖片塊內(nèi)容、水平分隔線、表格及水平分隔塊內(nèi)容物理信為元素,進行拓撲排序,得到PDF文件的閱讀順序;通過閱讀順序基礎對文本塊內(nèi)容進行分段識別;輸出XML格式文本?!緦@f明】一種電子檔版式文件閱讀順序分析的方法【
技術領域:
】[0001]本發(fā)明涉及信息【
技術領域:
】,尤其涉及一種電子檔版式文件閱讀順序分析的方法。【
背景技術:
】[0002]PDF(PortableDocumentFormat,便攜式文件格式)是Adobe公司發(fā)展出來的一種文件格式,它的優(yōu)點在于跨平臺,能保留文件原有的格式(Layout),高質(zhì)量和保真的進行原始文件和格式的呈現(xiàn),但是PDF是非結構化的數(shù)據(jù)存儲格式,對于進行PDF文件中文本的信息檢索或PDF格式轉換為其它流式格式文件,提取出來的文本信息并非是按文件的閱讀順序輸出,可能存在后序的內(nèi)容提前出現(xiàn)在輸出的文本中。[0003]專利申請?zhí)枮?010105591353的專利申請文件公開了識別版面閱讀順序的方法,包括:讀取待識別版面,并分析版面以得到版面布局信息和字符文本對象和圖像對象的對象屬性;根據(jù)版面布局信息和對象屬性,將字符文本對象合并為文本段落并將圖形對象識別為圖像段落;采用全局遞歸切割與局部先后順序判定相結合的方式來確定文本段落和圖像段落的閱讀順序,其中,通過投影來進行全局切割,對于全局切割之后仍包含多個段落的分組,采用局部判定方法來判斷段落的先后順序。此方法使用的遞歸劃分法在縱向有一定缺陷,容易出現(xiàn)模棱兩可的塊劃分。[0004]專利申請?zhí)枮?004100914343的專利申請文件公開了一種基于內(nèi)容的對報紙版面進行文字閱讀順序恢復的方法,該方法是針對處理復雜報紙版面存在丟失閱讀順序且內(nèi)容不具有篇章獨立性的缺陷的問題來以圖論理論進行數(shù)學建模,把文字塊的鄰接關系表示為有向圖,并把有向圖拆分轉化為加權二分圖,采用自然語言處理技術計算二分圖邊權值,通過最優(yōu)匹配得到多個連續(xù)序列,每個序列再根據(jù)文字塊樣式信息分割成多個子序列,子序列對應內(nèi)容的連接即是獨立篇章的具有閱讀順序的文字流。此方法使用了復雜的圖論算法和自然語言處理技術。[0005]為了解決上述問題本申請文件提供了一種針對版式文件進行聚類分析,并按照拓撲排序的方法進行閱讀順序分析和識別的方法。【
發(fā)明內(nèi)容】[0006]為解決上述技術問題,本發(fā)明的目的是提供一種針對版式文件進行聚類分析,并按照拓撲順序的方法進行閱讀順序分析和識別的方法,該方法通過識別物理塊的拓撲順序,即可實現(xiàn)快速高效準確的判定邏輯順序。方法簡單高效、準確率高。[0007]本發(fā)明的目的通過以下的技術方案來實現(xiàn):[0008]提取HF文件中原始信息;[0009]識別頁眉、頁腳,并對相鄰文本內(nèi)容進行合并,得到行內(nèi)容;[0010]對文本行內(nèi)容進行塊合并,得到文本塊內(nèi)容;[0011]對相鄰圖片進行合并,得到圖片塊內(nèi)容;[0012]對路徑信息進行分析,得到水平方向的分割線;[0013]將文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,得到水平分隔塊內(nèi)容;[0014]以文本塊內(nèi)容、圖片塊內(nèi)容、水平分隔線、表格及水平分隔塊內(nèi)容物理信息為元素,進行拓撲排序,得到PDF文件的閱讀順序;[0015]通過閱讀順序基礎對文本塊內(nèi)容進行分段識別;[0016]輸出XML格式文本。[0017]與現(xiàn)有技術相比,本發(fā)明的一個或多個實施例可以具有如下優(yōu)點:[0018]該方法針對版式文件進行聚類分析,按照拓撲排序的方法進行閱讀順序分析和識別的方法,同時對輸出內(nèi)容進行XML格式化話輸出,方便進行PDF格式文件的檢索和格式轉換?!緦@綀D】【附圖說明】[0019]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:[0020]圖1是電子檔版式文件閱讀順序分析的方法流程圖;[0021]圖2是PDF原始文件結構圖;[0022]圖3是原始文本信息結構圖;[0023]圖4是文本行合并、頁眉頁腳識別和分隔行識別效果圖;[0024]圖5是文本塊效果結構圖;[0025]圖6是閱讀順序分析效果圖;[0026]圖7是邏輯段落效果結構圖;[0027]圖8是XML輸出圖;[0028]圖9是包含圖片和表格的閱讀順序分析效果圖;[0029]圖10是三欄的PDF文件閱讀順序效果圖。【具體實施方式】[0030]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合實施例及附圖對本發(fā)明作進一步詳細的描述。[0031]如圖1所示,是電子檔版式文件閱讀順序分析的方法流程,包括以下步驟:[0032]提取HF文件中原始信息;[0033]識別頁眉、頁腳,并對相鄰文本內(nèi)容進行合并,得到行內(nèi)容;[0034]對文本行內(nèi)容進行塊合并,得到文本塊內(nèi)容;[0035]對相鄰圖片進行合并,得到圖片塊內(nèi)容;[0036]對路徑信息進行分析,得到水平方向的分割線;[0037]將文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,得到水平分隔塊內(nèi)容;[0038]以文本塊內(nèi)容、圖片塊內(nèi)容、水平分隔線、表格及水平分隔塊內(nèi)容物理信息為元素,進行拓撲排序,得到PDF文件的閱讀順序;[0039]通過閱讀順序基礎對文本塊內(nèi)容進行分段識別;[0040]輸出XML格式文本。[0041]上述對不同于正文內(nèi)容的表格文本內(nèi)容進行區(qū)域識別。[0042]對所述相鄰圖片合并還包括:對分割過的PDF圖片進行相鄰合并,因為虛擬打印生成的PDF圖片可能是被分割過的,需要進行相鄰合并,同時進行相鄰小圖片的合并,得到一個相對較大的圖片。[0043]所述提取的PDF文件中原始信息包括:文本信息、圖片信息和圖片的坐標信息、路徑信息及HF的頁碼與頁面大小。[0044]所述文本信息包括文本內(nèi)容、字體信息和坐標信息。[0045]所述文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,是通過XYCut算法計算出水平方向的分隔塊信息。[0046]上述以文本塊內(nèi)容、圖片塊內(nèi)容、水平分隔線、表格及水平分隔塊內(nèi)容物理信息為元素,進行拓撲排序,現(xiàn)以物理塊A、物理塊B和物理塊C為例,其排序過程依據(jù)以下兩條規(guī)則:[0047](I)當物理塊A在X方向覆蓋B時,A的拓撲序在B之前。[0048](2)當物理塊A和B之間(Y方向)不存在一個物理塊C同時覆蓋物理塊A和物理塊B時,同時物理塊A在物理塊B的左側,那么A的拓撲序在物理塊B之前。[0049]按照上述兩條規(guī)則,確定任意兩個物理塊的物理順序,并按照拓撲排序算法進行物理塊的遍歷,得到PDF頁面的閱讀順序。[0050]如附圖為本實施例實例圖,圖2是PDF原始文件結構圖;圖3是原始文本信息結構圖;圖4是文本行合并、頁眉頁腳識別和分隔行識別效果圖;圖5是文本塊效果結構圖;圖6是閱讀順序分析效果圖;圖7是邏輯段落效果結構圖;圖8是XML輸出圖;圖9是包含圖片和表格的閱讀順序分析效果圖;圖10是三欄的PDF文件閱讀順序效果圖。[0051]雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬【
技術領域:
】內(nèi)的技術人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準?!緳嗬蟆?.一種電子檔版式文件閱讀順序分析的方法,其特征在于,所述方法包括以下步驟:提取PDF文件中原始信息;識別頁眉、頁腳,并對相鄰文本內(nèi)容進行合并,得到行內(nèi)容;對文本行內(nèi)容進行塊合并,得到文本塊內(nèi)容;對相鄰圖片進行合并,得到圖片塊內(nèi)容;對路徑信息進行分析,得到水平方向的分割線;將文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,得到水平分隔塊內(nèi)容;以文本塊內(nèi)容、圖片塊內(nèi)容、水平分隔線、表格及水平分隔塊內(nèi)容物理信息為元素,進行拓撲排序,得到PDF文件的閱讀順序;通過閱讀順序基礎對文本塊內(nèi)容進行分段識別;輸出XML格式文本。2.根據(jù)權利要求1所述的電子檔版式文件閱讀順序分析的方法,其特征在于,所述步驟還包括:對不同于正文內(nèi)容的表格文本內(nèi)容進行區(qū)域識別。3.根據(jù)權利要求1所述的電子檔版式文件閱讀順序分析的方法,其特征在于,對所述相鄰圖片合并還包括:對分割過的TOF圖片進行相鄰合并。4.根據(jù)權利要求1所述的電子檔版式文件閱讀順序分析的方法,其特征在于,所述提取的PDF文件中原始信息包括:文本信息、圖片信息和圖片的坐標信息、路徑信息及PDF的頁碼與頁面大小。5.根據(jù)權利要求4所述的電子檔版式文件閱讀順序分析的方法,其特征在于,所述文本信息包括文本內(nèi)容、字體信息和坐標信息。6.根據(jù)權利要求1所述的電子檔版式文件閱讀順序分析的方法,其特征在于,所述文本快內(nèi)容和圖片塊內(nèi)容進行X方向投影,是通過XYCut算法計算出水平方向的分隔塊信息。【文檔編號】G06F17/30GK104268127SQ201410488102【公開日】2015年1月7日申請日期:2014年9月22日優(yōu)先權日:2014年9月22日【發(fā)明者】張斌,張曉博,張寶亮申請人:同方知網(wǎng)(北京)技術有限公司