專利名稱:一種版面信息提取和加工的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用中的中文信息處理技術(shù)領(lǐng)域,具體地說,涉及一種版面信息提取和加工的方法。
背景技術(shù):
當前,數(shù)字報刊、雜志等的版面設(shè)計都是通過計算機經(jīng)錄入、排版、顯示等步驟來完成。但現(xiàn)有的數(shù)字報刊、雜志等的版面信息在提取和加工過程中,只能處理單一類型的版式文件,而且當遇到分區(qū)信息不全的版式文件時,一般采用手工的方法進行處理,難以很好地還原完整的見報稿件所需要的版面信息。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種版面信息提取和加工的方法,利用本方法可以處理不同類型的版式文件,提高版面信息提取的準確性和信息加工處理的速度,提高工作效率。為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案是一種版面信息提取和加工的方法,包括以下步驟
(1)版面信息的提取先從數(shù)據(jù)源獲取所需要的版式文件;然后分析版式文件,取得版式文件的類型;按不同的文件類型采用不同的方法,分析提取版面信息,所述版面信息包括文字信息和圖片信息;將所述版面信息形成統(tǒng)一的格式;
(2)版面信息的加工先將所述文字信息和圖片信息進行分區(qū),將文字分區(qū)和圖片分區(qū)按照屬性進行智能組合;對沒有智能關(guān)聯(lián)的特殊分區(qū)進行手動關(guān)聯(lián)處理;對版面信息的內(nèi)容及格式進行處理;
(3)將加工后的版面信息輸出為結(jié)構(gòu)化文檔。由于采用了上述技術(shù)方案,本發(fā)明的有益效果是采用本發(fā)明所述的方法,在版面信息提取過程中,可以處理不同類型的版式文件,比如PS、S2、PDF等,可以在一個窗口下實現(xiàn)多種類型文件的加工處理;在版面信息的加工過程中,通過對文字分區(qū)和圖片分區(qū)進行智能組合,可以保證文字與圖片的準確對應(yīng)關(guān)系,提高版面信息提取的準確性和信息加工處理的速度,大大提高工作效率。
下面結(jié)合附圖和實施例對本發(fā)明進一步說明。圖1是本發(fā)明實施例的原理框圖2是本發(fā)明實施例中的版面信息加工過程框圖。
具體實施例方式如圖1所示,本發(fā)明的版面信息提取和加工的方法,包括(1)版面信息的提取步驟先從數(shù)據(jù)源獲取所需要的版式文件;然后分析版式文件,對其進行分類,取得版式文件的類型,例如PS文件,S2、S72、S92文件或者PDF文件等;按不同的文件類型采用不同的方法,例如分別采用PS插件、S2插件、PDF插件,分析提取版面信息的內(nèi)容,所述版面信息內(nèi)容包括文字信息和圖片信息,其中文字信息包括文字內(nèi)容,文字屬性,文字在版面中位置等信息;圖片信息包括圖片名稱,圖片大小,圖片在版面中位置等信息;將所述版面信息形成統(tǒng)一的格式供加工步驟使用;
如圖2所示,本發(fā)明的版面信息提取和加工的方法,還包括
(2)版面信息的加工步驟先將步驟(1)中統(tǒng)一格式的文字信息和圖片信息導(dǎo)入數(shù)據(jù)加工整理系統(tǒng)進行分區(qū),之后將文字分區(qū)和圖片分區(qū)按照屬性進行智能組合,可形成不同的見報稿件;對那些沒有智能關(guān)聯(lián)的特殊分區(qū),則需要進行手動關(guān)聯(lián)處理;再根據(jù)見報數(shù)據(jù)的需要,對每篇稿件的版面信息的內(nèi)容及格式進行處理;
(3)最后,導(dǎo)出結(jié)構(gòu)化文檔,包含完整的版面信息??傊捎帽景l(fā)明所述的方法,在版面信息提取過程中,可以處理不同類型的版式文件,比如PS、S2、PDF等,可以在一個窗口下實現(xiàn)多種類型文件的加工處理;可以自動地提取文章作者、文章引題、文章主題、文章副題等信息;在版面信息的加工過程中,通過對文字分區(qū)和圖片分區(qū)進行智能組合,可以保證文字與圖片的準確對應(yīng)關(guān)系,提高版面信息提取的準確性和信息加工處理的速度,大大提高工作效率。以上所述為本發(fā)明最佳實施方式的舉例,其中未詳細述及的部分均為本領(lǐng)域普通技術(shù)人員的公知常識。本發(fā)明的保護范圍以權(quán)利要求的內(nèi)容為準,任何基于本發(fā)明的技術(shù)啟示而進行的等效變換,也在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1. 一種版面信息提取和加工的方法,其特征在于,包括以下步驟(1)版面信息的提取先從數(shù)據(jù)源獲取所需要的版式文件;然后分析版式文件,取得版式文件的類型;按不同的文件類型采用不同的方法,分析提取版面信息,所述版面信息包括文字信息和圖片信息;將所述版面信息形成統(tǒng)一的格式;(2)版面信息的加工先將所述文字信息和圖片信息進行分區(qū),將文字分區(qū)和圖片分區(qū)按照屬性進行智能組合;對沒有智能關(guān)聯(lián)的分區(qū)進行手動關(guān)聯(lián)處理;對版面信息的內(nèi)容及格式進行處理;(3)將加工后的版面信息輸出為結(jié)構(gòu)化文檔。
全文摘要
本發(fā)明公開了一種版面信息提取和加工的方法,包括版面信息的提取步驟,版面信息的加工步驟和輸出見報稿件的版面信息步驟。采用本發(fā)明的方法,在版面信息提取過程中,可以處理不同類型的版式文件,比如PS、S2、PDF等,可以在一個窗口下實現(xiàn)多種類型文件的加工處理;可以自動地提取文章作者、文章引題、文章主題、文章副題等信息;在版面信息的加工過程中,通過對文字分區(qū)和圖片分區(qū)進行智能組合,可以保證文字與圖片的準確對應(yīng)關(guān)系,提高版面信息提取的準確性和信息加工處理的速度,大大提高工作效率。
文檔編號G06T11/60GK102200966SQ201110145850
公開日2011年9月28日 申請日期2011年6月1日 優(yōu)先權(quán)日2011年6月1日
發(fā)明者張東升, 殷建民 申請人:濰坊北大青鳥華光照排有限公司