專(zhuān)利名稱(chēng):一種網(wǎng)頁(yè)化文檔生成交互式文檔結(jié)構(gòu)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電子計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,涉及一種快速自動(dòng)的將網(wǎng)頁(yè)化文檔變?yōu)榻?br>
互式文檔結(jié)構(gòu)的方法,特別是一種網(wǎng)頁(yè)化文檔生成交互式文檔結(jié)構(gòu)的方法。
背景技術(shù):
網(wǎng)頁(yè)化文檔也成為超文本標(biāo)記語(yǔ)言(Hypertext Markup Language,簡(jiǎn)稱(chēng)HTML),采 用由特定字母組成的文字字符串或稱(chēng)為標(biāo)簽來(lái)界定正文內(nèi)容的不同顯示方式,是數(shù)據(jù)和顯 示風(fēng)格組合在一起的數(shù)據(jù)結(jié)構(gòu)。隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及應(yīng)用,基于網(wǎng)頁(yè)形式瀏覽大型文檔 的情況越來(lái)越多,這類(lèi)大型網(wǎng)頁(yè)化文檔的內(nèi)容一般比較豐富,打印出來(lái)常常都在幾十頁(yè),甚 至達(dá)數(shù)百頁(yè),這些文檔閱讀與使用起來(lái)費(fèi)時(shí)費(fèi)力,如果沒(méi)有目錄索引結(jié)構(gòu)使用起來(lái)更是無(wú) 處下手。目前,如何提高這類(lèi)大型網(wǎng)頁(yè)化文檔的使用效率成為本技術(shù)領(lǐng)域中正在探求的創(chuàng) 新型課題;在使用word查閱大型文檔時(shí)其自帶的"文檔結(jié)構(gòu)圖"給使用者留下了深刻的印 象,這是一種基于標(biāo)題目錄層次關(guān)系創(chuàng)建的交互式文檔結(jié)構(gòu),文檔結(jié)構(gòu)上的索引與關(guān)聯(lián)的 對(duì)應(yīng)內(nèi)容隨點(diǎn)隨到。利用微軟提供的生成文檔結(jié)構(gòu)的范例方法,可以生成交互式文檔結(jié)構(gòu), 但是對(duì)于大型網(wǎng)頁(yè)文檔要花費(fèi)的時(shí)間往往在幾分鐘以上,其等待時(shí)間之長(zhǎng)讓使用者難以讓 人忍受??偨Y(jié)起來(lái),現(xiàn)有的網(wǎng)頁(yè)化文檔生成交互式文檔結(jié)構(gòu)的技術(shù)還不成熟,已經(jīng)實(shí)施的類(lèi) 似方法也還存在著速度慢,生成結(jié)構(gòu)復(fù)雜,使用方便性差等缺點(diǎn)。因此,尋求一種可以提高 大型網(wǎng)頁(yè)化文檔變?yōu)榻换ナ轿臋n結(jié)構(gòu)的自動(dòng)生成速度,不需要預(yù)先保存文檔結(jié)構(gòu)的計(jì)算機(jī) 應(yīng)用方法滿足使用需要,具有明顯的實(shí)際應(yīng)用價(jià)值。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,利用電子計(jì)算機(jī)技術(shù)的遍歷算法為大型 網(wǎng)頁(yè)化文檔提供一種自動(dòng)生成交互式文檔結(jié)構(gòu)的快速方法。 為了實(shí)現(xiàn)上述目的,本發(fā)明采用遍歷算法遍歷文檔中的所有標(biāo)簽,對(duì)其中用于文 檔結(jié)構(gòu)的標(biāo)簽生成對(duì)應(yīng)的交互錨點(diǎn)結(jié)構(gòu),并建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)索引的關(guān)聯(lián), 在word查閱大型文檔時(shí)使用文檔結(jié)構(gòu)圖點(diǎn)擊文檔結(jié)構(gòu)的索引,跳轉(zhuǎn)顯示相應(yīng)的文檔內(nèi)容; 本發(fā)明方法能提高用遍歷算法生成大型網(wǎng)頁(yè)化文檔對(duì)應(yīng)的交互式文檔結(jié)構(gòu)的速度,縮短文 檔結(jié)構(gòu)的生成的等待時(shí)間,不需要預(yù)先生成與保存文檔結(jié)構(gòu)即可快速自動(dòng)生成交互式文檔 結(jié)構(gòu);為了實(shí)現(xiàn)遍歷算法生成文檔結(jié)構(gòu)快速即時(shí)的目的,本發(fā)明采用快速獲取標(biāo)記文檔結(jié) 構(gòu)的專(zhuān)用標(biāo)簽集合,構(gòu)建有效且縮小的標(biāo)簽集合的遍歷方法。
本發(fā)明方法的主要步驟包括以下三個(gè)過(guò)程 步驟1 :將文檔內(nèi)的所有標(biāo)簽分類(lèi)過(guò)濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊 標(biāo)記和統(tǒng)一標(biāo)識(shí)快速逐類(lèi)進(jìn)行標(biāo)記; 步驟2 :根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲取已做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記的標(biāo)簽集合,形 成與在文檔中先后順序一致的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合; 步驟3 :在所形成的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個(gè)在網(wǎng)頁(yè)文檔內(nèi)容中對(duì)應(yīng)的標(biāo)題標(biāo)簽處生成對(duì)應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時(shí)建立與之關(guān)聯(lián)的交互式文檔結(jié) 構(gòu)中的索引項(xiàng)。 本發(fā)明所述的用特殊標(biāo)記和統(tǒng)一標(biāo)識(shí)對(duì)文檔結(jié)構(gòu)標(biāo)簽進(jìn)行標(biāo)記是對(duì)文檔結(jié)構(gòu)標(biāo) 簽進(jìn)行逐類(lèi)快速地統(tǒng)一標(biāo)識(shí)標(biāo)記;所述的獲取專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合和用遍歷算法 進(jìn)行生成交互式文檔結(jié)構(gòu)是根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲取已做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記的標(biāo) 簽,形成專(zhuān)用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;并基于已獲取的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合 進(jìn)行生成交互式文檔結(jié)構(gòu);對(duì)文檔結(jié)構(gòu)專(zhuān)用標(biāo)簽集合用遍歷算法逐個(gè)在網(wǎng)頁(yè)文檔內(nèi)容中生 成對(duì)應(yīng)的交互錨點(diǎn)結(jié)構(gòu),再同時(shí)建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)。 本發(fā)明的核心在于用盡可能快的速度獲取最精準(zhǔn)的標(biāo)記標(biāo)簽集合,再由特定標(biāo)記 標(biāo)簽集合快速地去組織生成文檔結(jié)構(gòu);與現(xiàn)有技術(shù)相比,其生成交互式文檔的速度快,實(shí)時(shí) 性強(qiáng),靈活性好,節(jié)省時(shí)間和人力。
圖1為本發(fā)明工作流程結(jié)構(gòu)原理示意框圖。
具體實(shí)施例方式
下面通過(guò)實(shí)施例并結(jié)合附圖做進(jìn)一步說(shuō)明。
本實(shí)施例按下列步驟實(shí)施 1)把網(wǎng)頁(yè)文檔內(nèi)的所有標(biāo)簽過(guò)濾分類(lèi),再把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容或各級(jí)標(biāo)
題,逐類(lèi)分別用特殊的統(tǒng)一標(biāo)識(shí)標(biāo)記出來(lái);采用的這種特殊的統(tǒng)一標(biāo)識(shí)要利于下一步驟中
快速直接獲取對(duì)應(yīng)標(biāo)簽集合;具體是在HTML標(biāo)簽處理中,用document, all. tags(〃 HI")
按在文檔中出現(xiàn)的先后順序獲取文檔中所有一級(jí)標(biāo)題的標(biāo)簽,并給每個(gè)標(biāo)題指定ID為同
一標(biāo)識(shí),例如為"HI";用相同方法把組成文檔結(jié)構(gòu)的標(biāo)簽統(tǒng)一標(biāo)識(shí)出來(lái); 2)按這些標(biāo)記標(biāo)簽在文檔中的先后位置關(guān)系快速獲取這些做過(guò)標(biāo)記的標(biāo)簽
集合,構(gòu)建一個(gè)用于文檔結(jié)構(gòu)的文中所有標(biāo)題組成的遍歷數(shù)組;具體是用document.
all(" HI")按在文檔中出現(xiàn)的先后順序獲取獲取文檔中所有ID為"HI"標(biāo)簽; 3)用遍歷算法在縮小的所選定的標(biāo)簽集合——遍歷數(shù)組中,生成對(duì)應(yīng)的交互式文
檔結(jié)構(gòu)中的各個(gè)索引項(xiàng),實(shí)現(xiàn)文檔結(jié)構(gòu)內(nèi)的索引標(biāo)識(shí)與文檔內(nèi)容具體位置的關(guān)聯(lián)瀏覽;具
體是指定document, all (〃 HI")的結(jié)果作為實(shí)現(xiàn)文檔結(jié)構(gòu)遍歷標(biāo)簽的集合,進(jìn)行充分必
要的標(biāo)簽遍歷與索引的生成。 本實(shí)施例由于縮小了遍歷的標(biāo)簽數(shù)量——為必要充分的用于文檔結(jié)構(gòu)的所有標(biāo) 題標(biāo)簽集合,從而提高讀寫(xiě)大型網(wǎng)頁(yè)文檔的速度,尤其是即時(shí)生成交互式文檔結(jié)構(gòu)的大型 網(wǎng)頁(yè)文檔的開(kāi)檔速度。 本實(shí)施例根據(jù)網(wǎng)頁(yè)化文檔內(nèi)的所有標(biāo)簽進(jìn)行分類(lèi)過(guò)濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi) 容標(biāo)題用特殊的標(biāo)記快速逐類(lèi)用統(tǒng)一標(biāo)識(shí)進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲 取這些做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記的標(biāo)簽集合,形成專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;再基于專(zhuān)用標(biāo) 記文檔結(jié)構(gòu)的標(biāo)簽集合,用遍歷算法逐個(gè)在網(wǎng)頁(yè)文檔內(nèi)容中對(duì)應(yīng)的標(biāo)題標(biāo)簽處生成對(duì)應(yīng)的 交互錨點(diǎn)結(jié)構(gòu),同時(shí)建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng)。 本實(shí)施例所述的用特殊的標(biāo)記對(duì)文檔結(jié)構(gòu)標(biāo)簽進(jìn)行統(tǒng)一標(biāo)識(shí)標(biāo)記是對(duì)文檔結(jié)構(gòu)標(biāo)簽進(jìn)行逐類(lèi)快速地統(tǒng)一標(biāo)識(shí)標(biāo)記;所述的獲取專(zhuān)用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合用遍歷算 法進(jìn)行生成交互式文檔結(jié)構(gòu)是根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲取這些做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記 的標(biāo)簽,形成專(zhuān)用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;再基于已獲取的專(zhuān)用的標(biāo)記文檔結(jié)構(gòu)的標(biāo) 簽集合進(jìn)行生成交互式文檔結(jié)構(gòu);本實(shí)施方式僅用于以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其限 制;對(duì)于非結(jié)構(gòu)化網(wǎng)頁(yè)文檔,在內(nèi)容長(zhǎng)達(dá)數(shù)十頁(yè)甚至數(shù)百頁(yè),編制、閱讀與使用起來(lái)都比較 費(fèi)時(shí)費(fèi)力,采用微軟范例算法生成文檔結(jié)構(gòu),對(duì)于大型文檔花費(fèi)時(shí)間在幾十秒鐘甚至數(shù)分 鐘以上,該方法即時(shí)快速自動(dòng)生成類(lèi)似word中的"文檔結(jié)構(gòu)圖",對(duì)于含有過(guò)萬(wàn)個(gè)標(biāo)記標(biāo)簽 的HTML文檔,采用微軟范例算法生成文檔結(jié)構(gòu),平均需要1分鐘以上;采用新算法,不超過(guò) 5秒鐘,大大改善了文檔結(jié)構(gòu)生成時(shí)的響應(yīng)速度;另外該方法不需要額外存放文檔結(jié)構(gòu)內(nèi) 容,方便了網(wǎng)頁(yè)正文的其他用途。
權(quán)利要求
一種網(wǎng)頁(yè)化文檔生成交互式文檔結(jié)構(gòu)的方法,其特征在于先將文檔內(nèi)的所有標(biāo)簽分類(lèi)過(guò)濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊標(biāo)記和統(tǒng)一標(biāo)識(shí)快速逐類(lèi)進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲取已做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記的標(biāo)簽集合,形成與在文檔中先后順序一致的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;然后在所形成的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個(gè)在網(wǎng)頁(yè)文檔內(nèi)容中對(duì)應(yīng)的標(biāo)題標(biāo)簽處生成對(duì)應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時(shí)建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng)。
全文摘要
本發(fā)明屬于電子計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,涉及一種快速自動(dòng)的將網(wǎng)頁(yè)化文檔變?yōu)榻换ナ轿臋n結(jié)構(gòu)的方法,特別是一種網(wǎng)頁(yè)化文檔生成交互式文檔結(jié)構(gòu)的方法,先將文檔內(nèi)的所有標(biāo)簽分類(lèi)過(guò)濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊標(biāo)記和統(tǒng)一標(biāo)識(shí)快速逐類(lèi)進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識(shí)的共同特征,快速獲取已做過(guò)統(tǒng)一標(biāo)識(shí)標(biāo)記的標(biāo)簽集合,形成與在文檔中先后順序一致的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;然后在所形成的專(zhuān)用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個(gè)在網(wǎng)頁(yè)文檔內(nèi)容中對(duì)應(yīng)的標(biāo)題標(biāo)簽處生成對(duì)應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時(shí)建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng);其生成交互式文檔速度快,實(shí)時(shí)性強(qiáng),靈活性好,節(jié)省時(shí)間和人力。
文檔編號(hào)G06F17/30GK101727497SQ20101001188
公開(kāi)日2010年6月9日 申請(qǐng)日期2010年1月13日 優(yōu)先權(quán)日2010年1月13日
發(fā)明者張金石, 陳晨, 陳景亮 申請(qǐng)人:陳景亮