專利名稱:基于版式文件的文檔流式信息處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)信息處理技術(shù)領(lǐng)域,特別涉及基于版式文件的文檔流式 信息處理方法及裝置。
背景技術(shù):
版式文件采用一種絕對(duì)描述方式,在自定義的坐標(biāo)系中,明確記錄了每個(gè) 文檔顯示的位置和尺寸等,從而使文檔打印出來的結(jié)果和在計(jì)算機(jī)上瀏覽的結(jié) 果一致,而且在任何計(jì)算機(jī)環(huán)境下具有顯示一致性的特點(diǎn),以保證真實(shí)地重現(xiàn)
文檔的原貌,例如目前的PDF文件就是一種比較典型的版式文件。由于版式 文件的相對(duì)穩(wěn)定性,因此非常適合作為電子文檔的最終發(fā)布和傳播形式,廣泛 用于電子公文、電子書、電子期刊、電子報(bào)紙等領(lǐng)域。
隨著計(jì)算機(jī)技術(shù)的普及和信息技術(shù)的發(fā)展,版式文件的數(shù)量呈現(xiàn)爆炸性增 長,同時(shí)目前客戶端種類增多,例如PDA、智能手機(jī)等,用戶要求在多種客戶 端上都能夠方便的閱讀版式文件,這就要求客戶端能夠突破版式文件顯示固定 的局限性,根據(jù)顯示設(shè)備屏幕的大小對(duì)版式文件的內(nèi)容重新進(jìn)行排版。同時(shí)由 于版式文件用絕對(duì)數(shù)值精確指定每個(gè)文檔顯示的位置和尺寸,使得它不利于編 輯,每次修改文檔內(nèi)容后都需要對(duì)布局重新計(jì)算,重寫整個(gè)文檔的布局信息, 因此對(duì)版式文件內(nèi)容的檢索、結(jié)構(gòu)化存儲(chǔ)、修改、提取等編輯操作都會(huì)非常麻 煩。
對(duì)版式文件進(jìn)行排版和重新排版處理都需要參照版式文件中的文檔流式 信息,其中文檔流式信息包含文檔結(jié)構(gòu)信息、閱讀線索和版面信息等,然而目 前大量的版式文件中都還不包含這類文檔流式信息。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種基于版式文件的文檔流式信息處理方法及 裝置,用以切實(shí)可行的描述版式文件的文檔流式信息,并使版式文件的文 檔流式信息描述簡化。
本發(fā)明提供以下技術(shù)方案
一種基于版式文件的文檔流式信息處理方法,包括步驟 獲得版式文件的文檔流式信息,所述文檔流式信息為所述版式文件中文檔 內(nèi)容結(jié)構(gòu)信息和/或所述版式文件中文檔版面自適應(yīng)呈現(xiàn)信息;
根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃
分;
描述所述版式文件的內(nèi)容塊劃分結(jié)果信息;
根據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容塊劃分后的該版式文件的文 檔流式信息。
一種基于版式文件的文檔流式信息處理裝置,包括
文檔流式信息獲得模塊,用于獲得版式文件的文檔流式信息,所述文檔流 式信息為所述版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/或所述版式文件中文檔版面自 適應(yīng)呈現(xiàn)信息;
內(nèi)容塊劃分模塊,用于根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文件的 文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;
內(nèi)容塊劃分結(jié)果信息描述模塊,用于描述所述版式文件的內(nèi)容塊劃分結(jié)果 信息;
文檔流式信息描述模塊,用于根據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi) 容塊劃分后的該版式文件的文檔流式信息。 本發(fā)明有益效果如下
本發(fā)明提供的技術(shù)方案通過獲得版式文件的文檔流式信息,根據(jù)獲得的文 檔流式信息,對(duì)版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分,描述內(nèi)容塊劃分結(jié)果信息,根據(jù)內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容塊劃分后的該版式文件的文檔流 式信息,使得描述版式文件的文檔流式信息更加切實(shí)可行,可以靈活對(duì)版式文 件中的任意內(nèi)容進(jìn)行文檔流式信息的描述,描述范圍更加準(zhǔn)確,并且文檔流式 信息的處理更加靈活、簡化。
圖l為本發(fā)明實(shí)施例中,基于版式文件的文檔流式信息處理方法流程示意
圖2為本發(fā)明實(shí)施例中,描述基于內(nèi)容塊劃分后的版式文件的文檔流式信 息示意圖3為本發(fā)明實(shí)施例中,版式文件及其內(nèi)容描述示意圖; 圖4為本發(fā)明實(shí)施例中,圖3所示版式文件的內(nèi)容塊劃分方式示意圖; 圖5為本發(fā)明實(shí)施例中,描述圖3所示版式文件的內(nèi)容塊劃分結(jié)果信息示 意圖6為本發(fā)明實(shí)施例中,圖3所示版式文件劃分內(nèi)容塊后的文檔流式信息 中的文檔結(jié)構(gòu)信息示意圖7為本發(fā)明實(shí)施例中,圖3所示版式文件劃分內(nèi)容塊后的文檔流式信息 中的文檔版面自適應(yīng)呈現(xiàn)信息示意圖8為本發(fā)明實(shí)施例中,基于版式文件的文檔流式信息處理裝置結(jié)構(gòu)示意
圖9為本發(fā)明實(shí)施例中,采用劃分內(nèi)容參考序列的方法對(duì)版式文件的文檔 內(nèi)容進(jìn)行內(nèi)容塊劃分示意圖。
具體實(shí)施例方式
本發(fā)明實(shí)施例中,首先獲得版式文件的文檔流式信息,根據(jù)獲得的流 式信息將版式文件的文檔內(nèi)容劃分為多個(gè)內(nèi)容塊,并描述內(nèi)容塊劃分結(jié)果信息,再根據(jù)得到的內(nèi)容塊劃分結(jié)果信息,描述劃分為多個(gè)內(nèi)容塊的版式 文件的文檔流式信息,從而可以切實(shí)可行的描述版式文件的文檔流式信息, 并使版式文件的文檔流式信息描述簡化。
下面結(jié)合說明書附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)說明。
如圖1所示,為基于版式文件的文檔流式信息處理方法流程圖,具體包括
如下步驟
步驟IOI,獲得版式文件的文檔流式信息;其中這里的版式文件可以指整 個(gè)版式文件,也可以指整個(gè)版式文件中的一頁文件或幾頁文件等;版式文件的 文檔流式信息具體指版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/或版式文件中文檔版面 自適應(yīng)呈現(xiàn)信息,可以但不限于包含以下三類信息
文檔內(nèi)容結(jié)構(gòu)信息,包括文檔的章節(jié)信息、各章節(jié)內(nèi)部內(nèi)容塊順序以及內(nèi) 容塊中各圖元的順序等;
閱讀線索信息,具體指除了上述文檔內(nèi)容結(jié)構(gòu)信息提供的閱讀順序外,根 據(jù)具體需要提供的額外的閱讀順序信息,它是提供給用戶的可選的閱讀順序信 息。閱讀線索信息可以是版式文件全部文檔內(nèi)容的閱讀順序信息,也可以是版 式文件部分文檔內(nèi)容的閱讀順序信息;
版面信息,具體指版式文件版面重排時(shí)決定圖元最終呈現(xiàn)效果的信息,包 括圖元自身或者內(nèi)容塊自身的版面屬性,以及同一內(nèi)容塊中各圖元之間或者各 內(nèi)容塊之間的版面關(guān)系,例如指定圖片的文字襯托方式或指定多個(gè)內(nèi)容塊的分 欄信息。上述版面重排指的是由于版面大小或者版面內(nèi)容發(fā)生變化時(shí),根據(jù)一 定規(guī)則重新組織版面中的各圖元,形成版面展現(xiàn)結(jié)果的過程。
本發(fā)明實(shí)施例這里可以通過以下三種方式中的一種或者幾種的組合來獲 得版式文件的文檔流式信息
對(duì)于已經(jīng)包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),可以通過對(duì)版式文件的各種文檔內(nèi)容來源進(jìn)行解析,直接獲得版式文件 的文檔流式信息,例如,對(duì)于與版式文件所對(duì)應(yīng)的、已經(jīng)包含部分文檔流式信息的電子文檔,如HTML、 Microsoft Word等,可以利用該文檔的文檔處理系 統(tǒng),對(duì)其中的文檔流式信息進(jìn)行4是取,例如對(duì)于Microsoft Word文檔可以利用 O伍ce自動(dòng)化對(duì)象來獲得其文檔流式信息;
對(duì)于沒有包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),可以利用各種識(shí)別算法或智能理解算法,對(duì)版式文件進(jìn)行計(jì)算來獲得版 式文件的文檔流式信息,例如,可以通過基于文檔分析和文檔理解的處理系統(tǒng) 來對(duì)版式文件進(jìn)行計(jì)算,以獲得該版式文件的文檔流式信息;
對(duì)于沒有包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),還可以通過接收外界用戶輸入的針對(duì)版式文件的文檔流式信息,來獲得 版式文件的文檔流式信息,例如,用戶可以通過一個(gè)帶有圖形界面的計(jì)算機(jī)應(yīng) 用程序,通過對(duì)版式文件的文檔內(nèi)容進(jìn)行標(biāo)注,來實(shí)現(xiàn)輸入該版式文件的文檔
流式信息o
步驟102,根據(jù)上述獲得的文檔流式信息,對(duì)該版式文件的文檔內(nèi)容進(jìn)行 內(nèi)容塊劃分;
將版式文件的文檔內(nèi)容劃分為多個(gè)內(nèi)容塊可以通過基于版式文件直接組 織的方法來實(shí)現(xiàn)即將版式文件的每一組命令語句、或每一組對(duì)象或者每一段 內(nèi)容描述作為一個(gè)內(nèi)容塊單位,對(duì)該版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分處 理,具體來說,按照文檔流式信息的需要,可以使用語句號(hào)、語句長度、語句 偏移量,或?qū)ο髽?biāo)識(shí)、對(duì)象偏移量,或內(nèi)容標(biāo)識(shí)、內(nèi)容偏移量或者某些特殊符 號(hào)等方式,將該版式文件的文檔內(nèi)容拆分成不同的內(nèi)容塊。其中,各個(gè)劃分出 的內(nèi)容塊之間允許內(nèi)容相互重疊,且可以為每個(gè)劃分出的內(nèi)容塊賦予 一個(gè)唯一 編號(hào)。
此外,對(duì)版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分,還可以通過劃分內(nèi)容參考 序列的方法來實(shí)現(xiàn),具體步驟為
獲取版式文件的內(nèi)容參考序列,其中內(nèi)容參考序列是指將版式文件文檔內(nèi) 容中的文本、圖片、表格等各種圖元按照某種確定的順序排列為一個(gè)有序序列,這種順序可以是圖元在版式文件內(nèi)容數(shù)據(jù)流中出現(xiàn)的先后順序,也可以是文檔 樹結(jié)構(gòu)的某種遍歷順序。將獲取的內(nèi)容參考序列通過某種方式劃分為多個(gè)有序
的內(nèi)容參考子序列,將每個(gè)劃分出的內(nèi)容參考子序列作為一個(gè)內(nèi)容塊;這些內(nèi) 容參考子序列允許內(nèi)容相互重疊,并且可以為每個(gè)劃分出的內(nèi)容參考子序列賦 予一個(gè)唯一編號(hào)。其中可以利用圖元在內(nèi)容參考序列中的偏移位置,來劃分內(nèi)
容參考序列,也可以依據(jù)內(nèi)容參考序列中某種或某些特殊圖元符號(hào)的位置,來 劃分內(nèi)容參考序列,還可以依據(jù)內(nèi)容參考序列中某種或某些標(biāo)識(shí)的位置,來劃 分內(nèi)容參考序列。
步驟103,根據(jù)上述內(nèi)容塊的劃分結(jié)果,描述該版式文件的內(nèi)容塊劃分結(jié) 果信息;其中可以但不限于采用結(jié)構(gòu)化標(biāo)記語言(例如XML語言、SGML語 言等)來描述內(nèi)容塊劃分結(jié)果信息。
步驟104,根據(jù)上述描述出的內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容塊劃分 后的該版式文件的文檔流式信息。
其中描述基于內(nèi)容塊劃分后的該版式文件的文檔流式信息,具體是指描述 各內(nèi)容塊本身的文檔流式信息和各內(nèi)容塊之間的關(guān)系,包括文檔結(jié)構(gòu)信息、閱
讀線索信息和版面信息等。其中可以但不限于采用XML語言、SGML語言來 描述基于內(nèi)容塊劃分后的該版式文件的文檔流式信息。
可以進(jìn)而將上述描迷得到的內(nèi)容塊劃分結(jié)果信息與文檔流式信息進(jìn)行關(guān) 聯(lián),并將關(guān)聯(lián)后的內(nèi)容塊劃分結(jié)果信息與文檔流式信息對(duì)應(yīng)存儲(chǔ)。此外內(nèi)容塊 劃分結(jié)果信息和文檔流式信息可以與版式文件分開存放,也可以嵌入到版式文 件中,成為版式文件中的一個(gè)數(shù)據(jù)塊。
圖2是依照本發(fā)明提供的方法描述基于內(nèi)容塊劃分后的版式文件的文檔流 式信息示意圖,將版式文件205的文檔內(nèi)容劃分為多個(gè)內(nèi)容塊,并采用結(jié)構(gòu)化 標(biāo)記語言來描述內(nèi)容塊劃分結(jié)果信息204,根據(jù)內(nèi)容塊劃分結(jié)果信息204,描 述基于內(nèi)容塊劃分后的該版式文件205的文檔流式信息,文檔流式信息包括文 檔結(jié)構(gòu)信息201、閱讀線索信息202和版面信息203,其中該實(shí)施例中文檔流式信息(包括基于內(nèi)容塊劃分后的該版式文件205的文檔結(jié)構(gòu)信息201、閱讀 線索信息202和版面信息203 )和內(nèi)容塊劃分結(jié)果信息204,與版式文件205 是分開存放的。
下面將給出更為具體的實(shí)施例。
如圖3所示, 一個(gè)顯示如301的版式文件,其文檔內(nèi)容描述為302和303 所示,其中包含文本對(duì)象和圖像圖元對(duì)象。302是版式文件的文本對(duì)象和圖像 圖元對(duì)象的內(nèi)容定義,每個(gè)內(nèi)容定義在版式文件中擁有一個(gè)對(duì)象標(biāo)識(shí)(ID)。 303表示了在版式文件中根據(jù)對(duì)象標(biāo)識(shí)(ID)來使用已經(jīng)定義的圖元對(duì)象或文 本對(duì)象,從而在版式文件顯示時(shí)顯示出302中定義的圖元對(duì)象和文本對(duì)象。
圖4和圖5是通過智能理解算法對(duì)圖3中的版式文件301進(jìn)行計(jì)算而獲得 對(duì)應(yīng)該版式文件301的文檔流式信息后,對(duì)版式文件301的文檔內(nèi)容進(jìn)行內(nèi)容 塊劃分,并且描述內(nèi)容塊劃分結(jié)果信息的具體實(shí)施例示意圖。其中圖4示出了 一種對(duì)版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分處理的方式,按照將形成版式文件 的不同對(duì)象劃分為不同內(nèi)容塊的方式,將版式文件301中標(biāo)識(shí)為l和3的圖元 對(duì)象劃分為一個(gè)內(nèi)容塊,劃分出的該內(nèi)容塊的編號(hào)為9,將標(biāo)識(shí)為2的圖元對(duì) 象劃分為一個(gè)內(nèi)容塊,劃分出的該內(nèi)容塊的編號(hào)為8。圖5為采用XML語言 描述內(nèi)容塊劃分結(jié)果信息的示意圖。
圖6、圖7是針對(duì)基于內(nèi)容塊劃分后的版式文件的文檔流式信息示意圖。 其中圖6是基于內(nèi)容塊劃分后的版式文件的文檔流式信息中的文檔結(jié)構(gòu)信息, 該文檔結(jié)構(gòu)信息指定了文檔的章節(jié)樹和各章節(jié)內(nèi)的內(nèi)容塊順序(圖中具體使用 內(nèi)容塊編號(hào)表示),具體來說,圖6聲明了版式文件中的一個(gè)段落,此段落中 包含了編號(hào)為8和9的內(nèi)容塊。圖7是基于內(nèi)容塊劃分后的版式文件的文檔流 式信息中的文檔版面自適應(yīng)呈現(xiàn)信息示意圖,其具體指定了編號(hào)為9的內(nèi)容塊 中對(duì)象標(biāo)識(shí)為1的文本對(duì)象和對(duì)象標(biāo)識(shí)為3的圖元對(duì)象的順序調(diào)整方式,即將 對(duì)象標(biāo)識(shí)為3的圖元對(duì)象插入到對(duì)象標(biāo)識(shí)為1的文本對(duì)象"這是一"的第一個(gè) 字之后。閱讀哉索信息是一種特殊的文檔內(nèi)容結(jié)構(gòu)信息,它可以從已有的文檔內(nèi)容 結(jié)構(gòu)信息中直接獲取,也可以由用戶自由指定,閱讀線索信息的處理方式與文 檔內(nèi)容結(jié)構(gòu)信息的處理方式一致,所以這里沒有展示閱讀線索信息的實(shí)例。
相應(yīng)的,本發(fā)明實(shí)施例還提供了 一種基于版式文件的文檔流式信息處理裝
置,其結(jié)構(gòu)如圖8所示,包括
文檔流式信息獲得模塊801,用于獲得版式文件的文檔流式信息,其中這 里的版式文件可以指整個(gè)版式文件,也可以指整個(gè)版式文件中的一頁文件或幾 頁文件等;版式文件的文檔流式信息具體指版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/ 或版式文件中文檔版面自適應(yīng)呈現(xiàn)信息,可以但不限于包含以下三類信息
文檔內(nèi)容結(jié)構(gòu)信息,包括文檔的章節(jié)信息、各章節(jié)內(nèi)部內(nèi)容塊順序以及內(nèi) 容塊中各圖元的順序等;
閱讀線索信息,具體指除了上述文檔內(nèi)容結(jié)構(gòu)信息提供的閱讀順序外,根 據(jù)具體需要提供的額外的閱讀順序信息,它是提供給用戶的可選的閱讀順序信 息。閱讀線索信息可以是版式文件全部文檔內(nèi)容的閱讀順序信息,也可以是版 式文件部分文檔內(nèi)容的閱讀順序信息;
版面信息,具體指版式文件版面重排時(shí)決定圖元最終呈現(xiàn)效果的信息,包 括圖元自身或者內(nèi)容塊自身的版面屬性,以及同一內(nèi)容塊中各圖元之間或者各 內(nèi)容塊之間的版面關(guān)系,例如指定圖片的文字襯托方式或指定多個(gè)內(nèi)容塊的分 欄信息。上述版面重排指的是由于版面大小或者版面內(nèi)容發(fā)生變化時(shí),根據(jù)一 定規(guī)則重新組織版面中的各圖元,形成版面展現(xiàn)結(jié)果的過程。
內(nèi)容塊劃分模塊802,用于根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文 件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分。
內(nèi)容塊劃分結(jié)果信息描述模塊803,用于描述所述版式文件的內(nèi)容塊劃分 結(jié)果信息;
文檔流式信息描述;f莫塊804,用于4艮據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基 于內(nèi)容塊劃分后的該版式文件的文檔流式信息;關(guān)聯(lián)并存儲(chǔ)模塊805,用于將描述得到的內(nèi)容塊劃分結(jié)果信息和描述得到 的文檔流式信息進(jìn)行關(guān)聯(lián)并存儲(chǔ)。
下面結(jié)合圖8對(duì)本發(fā)明提供的基于版式文件的文檔流式信息處理裝置的工 作過程進(jìn)行詳細(xì)描述。
文檔流式信息獲得模塊801采用以下至少一種方式來獲得版式文件的文檔 流式信息
對(duì)于已經(jīng)包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),可以通過對(duì)版式文件的各種文檔內(nèi)容來源進(jìn)行解析,直接獲得版式文件 的文檔流式信息,例如,對(duì)于與版式文件所對(duì)應(yīng)的、已經(jīng)包含部分文檔流式信 息的電子文檔,如HTML、 Microsoft Word等,可以利用該文檔的文檔處理系 統(tǒng),對(duì)其中的文檔流式信息進(jìn)行提取,例如對(duì)于Microsoft Word文檔可以利用 Office自動(dòng)化對(duì)象來獲得其文檔流式信息;
對(duì)于沒有包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),可以利用各種識(shí)別算法或智能理解算法,對(duì)版式文件進(jìn)行計(jì)算來獲得版 式文件的文檔流式信息,例如,可以通過基于文檔分析和文檔理解的處理系統(tǒng) 來對(duì)版式文件進(jìn)行計(jì)算,以獲得該版式文件的文檔流式信息;
對(duì)于沒有包含文檔流式信息的電子文檔,在其作為版式文件的文檔內(nèi)容來 源時(shí),還可以通過接收外界用戶輸入的針對(duì)版式文件的文檔流式信息,來獲得 版式文件的文檔流式信息,例如,用戶可以通過一個(gè)帶有圖形界面的計(jì)算機(jī)應(yīng) 用程序,通過對(duì)版式文件的文檔內(nèi)容進(jìn)行標(biāo)注,來實(shí)現(xiàn)輸入該版式文件的文檔 流式信息。
內(nèi)容塊劃分模塊802根據(jù)獲得的文檔流式信息,將版式文件的每一組命令 語句、或每一組對(duì)象或者每一段內(nèi)容描述作為一個(gè)內(nèi)容塊單位,對(duì)該版式文件 的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分處理。具體來說,按照文檔流式信息的需要,可以 使用語句號(hào)、語句長度、語句偏移量,或?qū)ο髽?biāo)識(shí)、對(duì)象偏移量,或內(nèi)容標(biāo)識(shí)、 內(nèi)容偏移量或者某些特殊符號(hào)等方式,將該版式文件的文檔內(nèi)容拆分成不同的內(nèi)容塊。其中,各個(gè)劃分出的內(nèi)容塊之間允許內(nèi)容相互重疊,且可以為每個(gè)劃 分出的內(nèi)容塊賦予一個(gè)唯一編號(hào)。
參照?qǐng)D9,將版式文件劃分為多個(gè)內(nèi)容塊還可以利用內(nèi)容參考序列獲取子 模塊901來獲取版式文件的內(nèi)容參考序列,內(nèi)容塊劃分子模塊902根據(jù)獲得的 文檔流式信息,將獲取的內(nèi)容參考序列劃分為多個(gè)內(nèi)容參考子序列,每個(gè)內(nèi)容 參考子序列作為劃分出的 一個(gè)內(nèi)容塊,這些內(nèi)容參考子序列允許內(nèi)容相互重 疊,并且可以為每個(gè)劃分出的內(nèi)容參考子序列賦予 一個(gè)唯一編號(hào)。
內(nèi)容塊劃分結(jié)果信息描述模塊803根據(jù)上述內(nèi)容塊劃分結(jié)果,描述該版式 文件的內(nèi)容塊劃分結(jié)果信息,其中可以但不限于采用結(jié)構(gòu)化標(biāo)記語言(例如 XML語言、SGML語言等)來描述內(nèi)容塊劃分結(jié)果信息。
文檔流式信息描述模塊804根據(jù)上述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容 塊劃分后的該版式文件的文檔流式信息,其中描述基于內(nèi)容塊劃分后的該版式 文件的文檔流式信息,具體是指描述各內(nèi)容塊本身的文檔流式信息和各內(nèi)容塊 之間的關(guān)系,包括文檔結(jié)構(gòu)信息、閱讀線索信息和版面信息等。其中可以但不 限于采用XML語言、SGML語言來描述基于內(nèi)容塊劃分后的該版式文件的文 檔流式信息。
關(guān)聯(lián)并存儲(chǔ)模塊805將上述內(nèi)容塊劃分結(jié)果信息和文檔流式信息進(jìn)行關(guān) 聯(lián),并將關(guān)聯(lián)后的內(nèi)容塊劃分結(jié)果信息與文檔流式信息對(duì)應(yīng)存儲(chǔ)。其中,內(nèi)容 塊劃分結(jié)果信息和文檔流式信息可以與版式文件分開存放,也可以嵌入到版式 文件中,成為版式文件中的一個(gè)數(shù)據(jù)塊。
在實(shí)際應(yīng)用中,可以將上述存儲(chǔ)的內(nèi)容塊劃分結(jié)果信息與文檔流式信息通 過轉(zhuǎn)發(fā)或復(fù)制等方式移動(dòng)到其他的存儲(chǔ)設(shè)備上,從而使其他的用戶終端能夠直 接、方便的使用基于內(nèi)容塊劃分后的該版式文件的文檔流式信息。
另外,與本發(fā)明實(shí)施例提供的基于版式文件的文檔流式信息處理系統(tǒng)交互 的外部系統(tǒng)可能有格式轉(zhuǎn)換系統(tǒng)。版面重排系統(tǒng)等,這些系統(tǒng)利用基于內(nèi)容塊 劃分后的版式文件的文檔流式信息再對(duì)版式文件進(jìn)行處理,例如信息提取。重排頁面。轉(zhuǎn)換為其他;f各式的文件等。
綜上所述,本發(fā)明提供的基于版式文件的文檔流式信息處理方法和系統(tǒng)通 過獲得版式文件的文檔流式信息,根據(jù)獲得的流式信息將版式文件的文檔內(nèi)容 劃分為多個(gè)內(nèi)容塊,并描述內(nèi)容塊劃分結(jié)果信息,再根據(jù)得到的內(nèi)容塊劃分結(jié) 果信息,描述劃分為多個(gè)內(nèi)容塊的版式文件的文檔流式信息,乂人而可以切實(shí)可 行的描述版式文件的文檔流式信息,并使版式文件的文檔流式信息描述簡化。
明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1、一種基于版式文件的文檔流式信息處理方法,其特征在于,包括獲得版式文件的文檔流式信息,所述文檔流式信息為所述版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/或所述版式文件中文檔版面自適應(yīng)呈現(xiàn)信息;根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;描述所述版式文件的內(nèi)容塊劃分結(jié)果信息;根據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容塊劃分后的該版式文件的文檔流式信息。
2、 如權(quán)利要求1所述的方法,其特征在于,采用以下至少一種方式獲取 版式文件的文檔流式信息根據(jù)版式文件的文檔內(nèi)容來源,獲得該版式文件的文檔流式信息; 對(duì)該版式文件進(jìn)行計(jì)算獲得該版式文件的文檔流式信息; 通過接收外界輸入的針對(duì)該版式文件的文檔流式信息,來獲得該版式文件 的文檔流式4言息。
3、 如權(quán)利要求1所述的方法,其特征在于,才艮據(jù)所述獲得的文檔流式信 息,對(duì)所述版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分具體為將形成版式文件的每組命令語句分別作為 一個(gè)內(nèi)容塊單位,對(duì)所述版式文 件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;或?qū)⑿纬砂媸轿募拿拷M對(duì)象分別作為一個(gè)內(nèi)容塊單位,對(duì)所述版式文件的 文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;或?qū)⑿纬砂媸轿募拿拷M內(nèi)容描述分別作為一個(gè)內(nèi)容塊單位,對(duì)所述版式文 件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分。
4、 如權(quán)利要求1所述的方法,其特征在于,4艮據(jù)所述獲得的文檔流式信 息,對(duì)所述版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分具體包括;獲取形成所述版式文件的內(nèi)容參考序列;根據(jù)所述獲得的文檔流式信息,將所述獲取的內(nèi)容參考序列劃分為多個(gè)內(nèi) 容參考子序列,每個(gè)內(nèi)容參考子序列作為劃分出的 一個(gè)內(nèi)容塊。
5、 如權(quán)利要求l所述的方法,其特征在于,還包括將描述得到的內(nèi)容塊劃分結(jié)果信息和描述得到的文檔流式信息進(jìn)行關(guān)聯(lián) 并存儲(chǔ)。
6、 如1~5任一權(quán)利要求所述的方法,其特征在于,采用結(jié)構(gòu)化標(biāo)記語言 來描述內(nèi)容塊劃分結(jié)果信息和文檔流式信息。
7、 一種基于版式文件的文檔流式信息處理裝置,其特征在于,包括 文檔流式信息獲得模塊,用于獲得版式文件的文檔流式信息,所述文檔流式信息為所述版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/或所述版式文件中文檔版面自 適應(yīng)呈現(xiàn)信息;內(nèi)容塊劃分模塊,用于根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文件的 文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;內(nèi)容塊劃分結(jié)果信息描述模塊,用于描述所述版式文件的內(nèi)容塊劃分結(jié)果 信息;文檔流式信息描述模塊,用于根據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi) 容塊劃分后的該版式文件的文檔流式信息。
8、 如權(quán)利要求7所述的裝置,其特征在于,所述文檔流式信息獲得模塊 采用以下至少一種方式獲取版式文件的文檔流式信息根據(jù)版式文件的文檔內(nèi)容來源,獲得該版式文件的文檔流式信息; 對(duì)該版式文件進(jìn)行計(jì)算獲得該版式文件的文檔流式信息; 通過接收外界輸入的針對(duì)該版式文件的文檔流式信息,來獲得該版式文件 的文檔流式信息。
9、 如權(quán)利要求7所述的裝置,其特征在于,所述內(nèi)容塊劃分模塊將形成 版式文件的每組命令語句分別作為 一個(gè)內(nèi)容塊單位,對(duì)所述版式文件的文檔內(nèi) 容進(jìn)行內(nèi)容塊劃分;或?qū)⑿纬砂媸轿募拿拷M對(duì)象分別作為一個(gè)內(nèi)容塊單位,對(duì)所述版式文件的文檔內(nèi)容進(jìn)^f亍內(nèi)容塊劃分;或?qū)⑿纬砂媸轿募拿拷M內(nèi)容描述分別作為一個(gè)內(nèi)容塊單位,對(duì)所述版式文 件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分。
10、 如權(quán)利要求7所述的裝置,其特征在于,所述內(nèi)容塊劃分模塊包括 內(nèi)容參考序列獲取子模塊,用于獲取形成所述版式文件的內(nèi)容參考序列; 內(nèi)容塊劃分子模塊,用于根據(jù)所述獲得的文檔流式信息,將所述獲取的內(nèi)容參考序列劃分為多個(gè)內(nèi)容參考子序列,每個(gè)內(nèi)容參考子序列作為劃分出的一 個(gè)內(nèi)容塊。
11、 如權(quán)利要求7所述的裝置,其特征在于,還包括 關(guān)聯(lián)存儲(chǔ)模塊,用于將描述得到的內(nèi)容塊劃分結(jié)果信息和描述得到的文檔流式信息進(jìn)行關(guān)聯(lián)并存儲(chǔ)。
12、 如7~11任一權(quán)利要求所述的裝置,其特征在于,采用結(jié)構(gòu)化標(biāo)記語 言來描述內(nèi)容塊劃分結(jié)果信息和文檔流式信息。
全文摘要
本發(fā)明公開了一種基于版式文件的文檔流式信息處理方法及裝置,具體公開了如下技術(shù)方案獲得版式文件的文檔流式信息,所述文檔流式信息為所述版式文件中文檔內(nèi)容結(jié)構(gòu)信息和/或所述版式文件中文檔版面自適應(yīng)呈現(xiàn)信息;根據(jù)所述獲得的文檔流式信息,對(duì)所述版式文件的文檔內(nèi)容進(jìn)行內(nèi)容塊劃分;描述所述版式文件的內(nèi)容塊劃分結(jié)果信息;根據(jù)所述內(nèi)容塊劃分結(jié)果信息,描述基于內(nèi)容塊劃分后的該版式文件的文檔流式信息。從而使得描述版式文件的文檔流式信息更加切實(shí)可行,可以靈活對(duì)版式文件中的任意內(nèi)容進(jìn)行文檔流式信息的描述,描述范圍更加準(zhǔn)確,并且文檔流式信息的處理更加靈活、簡化。
文檔編號(hào)G06F17/21GK101308488SQ20081011443
公開日2008年11月19日 申請(qǐng)日期2008年6月5日 優(yōu)先權(quán)日2008年6月5日
發(fā)明者仇睿恒, 幟 湯, 毅 王 申請(qǐng)人:北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué)