国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種上下文web頁面合并方法

      文檔序號(hào):6426889閱讀:230來源:國(guó)知局
      專利名稱:一種上下文web頁面合并方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種對(duì)具有上下文關(guān)系的多個(gè)web頁面的合并方法,屬于web頁面制作技術(shù)領(lǐng)域。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)的高速發(fā)展,web網(wǎng)絡(luò)已經(jīng)成為世界上最大的信息來源。web網(wǎng)絡(luò)的發(fā)展給人類生活帶來了巨大的方便,人們可以跨越時(shí)間和空間界限來共享大量信息。但是,整個(gè)web網(wǎng)絡(luò)是由無數(shù)的web頁面構(gòu)成的。web頁面的海量性、多樣性、動(dòng)態(tài)性和半結(jié)構(gòu)化等特性增加了對(duì)其內(nèi)容進(jìn)行自動(dòng)處理的難度。當(dāng)前,人們普遍使用手機(jī)、平板電腦等移動(dòng)通信終端訪問we b網(wǎng)絡(luò)。當(dāng)閱讀具有上下文關(guān)系的web頁面時(shí),需要在閱讀完每頁內(nèi)容后點(diǎn)擊下一頁鏈接才能看到下一頁的內(nèi)容。這種繁瑣的操作不利于閱讀,并且大大降低了獲取信息的效率。為了適應(yīng)移動(dòng)互聯(lián)網(wǎng)蓬勃發(fā)展的現(xiàn)實(shí)需求,滿足用戶高效便捷地閱讀web頁面的實(shí)際需要,使彼此之間具有關(guān)聯(lián)關(guān)系的web頁面實(shí)現(xiàn)有效合并的技術(shù)課題擺在有關(guān)技術(shù)人員面前。在此背景下,一些相應(yīng)的技術(shù)解決方案也就應(yīng)勢(shì)而生。例如在專利號(hào)為ZL 200710160352. 3的中國(guó)發(fā)明專利中,公開了一種可將不同網(wǎng)頁的單元信息截取、合并的方法,包括以下步驟1)客戶端輸入一個(gè)或多個(gè)網(wǎng)址,在客戶端生成對(duì)應(yīng)的各個(gè)顯示網(wǎng)頁內(nèi)容的子頁面;幻客戶端將各個(gè)子頁面的網(wǎng)頁內(nèi)容解析成信息單元后,用戶從各個(gè)子頁面選取要截取的信息單元;幻客戶端再次獲取各個(gè)網(wǎng)址的網(wǎng)頁內(nèi)容,解析成信息單元,并與用戶選取的信息單元比較,篩選出用戶選取的信息單元合并至新生成的客戶端瀏覽窗口。該技術(shù)方案可以把任一網(wǎng)頁的內(nèi)容根據(jù)用戶需要把一到多個(gè)內(nèi)容合并到一個(gè)閱讀窗口,大大提高了用戶獲取信息的效率。另外,在專利號(hào)為ZL 200810059(^6.8的中國(guó)發(fā)明專利中,進(jìn)一步提出了一種網(wǎng)頁區(qū)塊剪取、合并的方法。該方法是先在客戶端輸入一個(gè)或多個(gè)網(wǎng)址,通過網(wǎng)頁區(qū)塊選擇子系統(tǒng)給各個(gè)子頁面的網(wǎng)頁內(nèi)容增加鼠標(biāo)事件,用戶通過鼠標(biāo)拖拉從各個(gè)子頁面選取要剪取的區(qū)塊,然后由網(wǎng)頁區(qū)塊合并子系統(tǒng)將用戶選中的區(qū)塊都合并到用戶的個(gè)人門戶,完成頁面的設(shè)置。該技術(shù)方案可以讓用戶在自己的個(gè)人門戶就可以瀏覽所需的網(wǎng)絡(luò)資源,方便地引進(jìn)第三方服務(wù),大大提高了用戶的網(wǎng)絡(luò)使用效率。但是,以上述發(fā)明專利為代表的現(xiàn)有技術(shù)普遍缺乏對(duì)web頁面的語義分析環(huán)節(jié), 不能完全滿足對(duì)具有動(dòng)態(tài)性和半結(jié)構(gòu)化特性的web頁面的處理要求。

      發(fā)明內(nèi)容
      本發(fā)明所要解決的技術(shù)問題在于提供一種對(duì)具有上下文關(guān)系的多個(gè)web頁面的合并方法。該合并方法通過對(duì)web頁面進(jìn)行深入分析,顯著改善了上下文web頁面的合并效果。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案
      一種上下文web頁面合并方法,其特征在于對(duì)于具有上下文關(guān)系的多個(gè)web頁面中的某個(gè)web網(wǎng)頁,首先對(duì)所述web頁面的內(nèi)容進(jìn)行分析,提取其中的上下文鏈接信息并進(jìn)行相應(yīng)的下載,根據(jù)下載的內(nèi)容擴(kuò)展上下文,并將擴(kuò)展的上下文內(nèi)容進(jìn)行消重,按順序重新合并成新的單一 web頁面。其中,在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之前,首先確認(rèn)所述web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成,并且經(jīng)完整展示后生成文檔對(duì)象模型樹。在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之前,進(jìn)一步確認(rèn)所述web頁面中的IFame、 Frame已經(jīng)下載完成,所需要的JavaScript、CSS已經(jīng)下載完成,圖片參數(shù)已經(jīng)獲得且Ajax 已經(jīng)執(zhí)行完成。在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之后,基于所述文檔對(duì)象模型樹將所述web頁面拆分成在視覺上無法進(jìn)一步拆分的塊元素,進(jìn)而生成視覺塊。在生成視覺塊之后,進(jìn)行提取標(biāo)題塊和正文塊的操作,以便識(shí)別出正文區(qū)域。所述上下文鏈接信息通過如下步驟獲得(1)遍歷各個(gè)web頁面中所有視覺塊在文檔對(duì)象模型樹中對(duì)應(yīng)節(jié)點(diǎn)的href內(nèi)容, 找到與所述web頁面中相似的視覺塊,根據(jù)視覺塊的數(shù)量進(jìn)行加權(quán);(2)對(duì)于步驟⑴中找到的相似的視覺塊,根據(jù)與正文區(qū)域的距離進(jìn)行加權(quán);(3)將href內(nèi)容根據(jù)與輸入的web頁面進(jìn)行相似度匹配,相似程度越高則權(quán)重越高,將權(quán)重最高的塊確定為多頁鏈接塊。在消重步驟中,消重的要素為正文內(nèi)容,將正文內(nèi)容相同的web頁面視為同一頁面。在排序步驟中,排序的要素包括web頁面中的數(shù)字特征和多頁特征、web頁面中鏈接文字的頁碼特征。在合并步驟中,進(jìn)行加入頁面分割標(biāo)記的操作。本發(fā)明所提供的上下文web頁面合并方法創(chuàng)造性地引入了 web頁面的語義分析技術(shù),從而使web頁面中的上下文關(guān)系更加清晰明確,頁面合并的效率和質(zhì)量大大提高。


      下面結(jié)合附圖和具體實(shí)施方式
      對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明。圖1為本發(fā)明所提供的上下文web頁面合并方法的實(shí)施流程圖。
      具體實(shí)施例方式與現(xiàn)有技術(shù)相比較,本發(fā)明的一個(gè)顯著特點(diǎn)在于在進(jìn)行上下文web頁面合并操作的過程中,對(duì)web頁面的內(nèi)容進(jìn)行分析,然后提取其中的上下文鏈接信息并進(jìn)行相應(yīng)的下載,根據(jù)下載的內(nèi)容自動(dòng)擴(kuò)展上下文,并將擴(kuò)展的上下文內(nèi)容進(jìn)行消重,按順序重新合并成新的單一 web頁面。下面對(duì)此展開具體的說明。如圖1所示,本發(fā)明處理的原始數(shù)據(jù)是一個(gè)具有上下文關(guān)系的多個(gè)web頁面中的某個(gè)web網(wǎng)頁。對(duì)于該web網(wǎng)頁,首先要確保其已經(jīng)下載完成,并且經(jīng)完整展示后生成 DOM(文檔對(duì)象模型)樹。這其中具體包括如下內(nèi)容> IFame、Frame等已經(jīng)下載完成
      4
      IFame是指web頁面中內(nèi)嵌的框架,F(xiàn)rame是指web頁面中的框架。由于待分析的部分內(nèi)容在Frame里面,因此必須要等待IFame、Frame等下載完成。>所需要的JavaScript、CSS已經(jīng)下載完成這是因?yàn)镃SS (Cascading Style Sheets,層疊樣式表)會(huì)嚴(yán)重影響web頁面的可視化元素,JavaScript ( 一種廣泛用于客戶端web開發(fā)的腳本語言,常用來給web頁面添加動(dòng)態(tài)功能)會(huì)部分影響web頁面的數(shù)據(jù)。>圖片參數(shù)已經(jīng)獲得該要求的主要目的是分析圖片的長(zhǎng)寬等參數(shù)。> Ajax已經(jīng)執(zhí)行完成Ajax 全稱為 Asynchronous JavaScript and XML (異步 JavaScript 禾口 XML),是一種創(chuàng)建交互式網(wǎng)頁應(yīng)用的網(wǎng)頁開發(fā)工具。Ajax會(huì)影響web頁面中部分內(nèi)容的生成。在給定的web網(wǎng)頁已經(jīng)下載完成之后,接下來的工作是生成web頁面的視覺塊。塊元素是指將web頁面拆分成的塊狀結(jié)構(gòu)。每一個(gè)塊元素在視覺上無法進(jìn)一步拆分。塊元素的內(nèi)部屬性應(yīng)該是相似的,例如都是文本、鏈接或者圖片等。生成塊元素的拆分原則為>根據(jù)DOM樹中的標(biāo)簽名稱來決定是否進(jìn)行拆分例如Block類型通常進(jìn)行拆分,Inline類型通常不進(jìn)行拆分。如果Block類型的標(biāo)簽內(nèi)部都是文本節(jié)點(diǎn),不含有其他的Block類型,則無需拆分。>根據(jù)邊框內(nèi)容決定是否拆分例如內(nèi)部只是列表和文字,沒有其他更小的矩形框,不進(jìn)行拆分;內(nèi)部還存在更小的局限邊框,或者是背景色反差比較大,有明確的分割條,進(jìn)行進(jìn)一步拆分。>根據(jù)背景色決定是否拆分例如背景色反差比較大,且面積較大,進(jìn)行進(jìn)一步拆分;反之不拆分。>根據(jù)標(biāo)簽內(nèi)部是否有明確的分割條決定是否拆分例如如果一個(gè)標(biāo)簽內(nèi)有明確的分割條,或者內(nèi)部有一條細(xì)線,或者有一整條背景色比較深,或者有背景圖片、圖片看上去是一條線,則遇到這種標(biāo)簽需要繼續(xù)進(jìn)行拆分。>由于IFrame的特殊性,在分析的時(shí)候可能預(yù)先不知道其寬高,且不能像其他節(jié)點(diǎn)那樣進(jìn)行遍歷,故需要進(jìn)行拆分。生成塊元素后,為了進(jìn)行內(nèi)容分析,需要將相似塊進(jìn)行合并。相似塊是指標(biāo)簽的名稱一樣、類別相同,字體、字號(hào)、字重、顏色都非常相似。例如資訊的正文通常都是由許多
      標(biāo)簽組成,如果正文的主標(biāo)簽內(nèi)部有相關(guān)新聞列表或者評(píng)論的區(qū)域,相應(yīng)的塊元素中會(huì)有大量相互聯(lián)系的
      標(biāo)簽,可以根據(jù)各自的特性進(jìn)行合并。在生成視覺塊之后,可以進(jìn)行提取標(biāo)題塊和正文塊的操作,以便識(shí)別出正文區(qū)域。提取標(biāo)題塊的具體步驟為首先輸入主體塊(該主體塊根據(jù)視覺塊在整個(gè)web網(wǎng)頁中占據(jù)的位置和面積予以確定)在DOM樹中對(duì)應(yīng)的根節(jié)點(diǎn),然后遍歷各個(gè)視覺塊在DOM 樹中對(duì)應(yīng)的塊節(jié)點(diǎn),對(duì)塊節(jié)點(diǎn)的各項(xiàng)內(nèi)容進(jìn)行分別加權(quán),例如對(duì)可能為標(biāo)題的內(nèi)容的長(zhǎng)度、 字號(hào)、字重、對(duì)齊方式、文本長(zhǎng)度等分別進(jìn)行加權(quán),認(rèn)定其中權(quán)值最大的視覺塊為標(biāo)題。此處的判斷是統(tǒng)計(jì)一批(例如10萬個(gè))web頁中,標(biāo)題長(zhǎng)度、字號(hào)、字重、對(duì)齊方式、文本長(zhǎng)度等維度信息,將其結(jié)果作為權(quán)重依據(jù)。
      提取正文塊的具體步驟為首先輸入主體塊在DOM樹中對(duì)應(yīng)的根節(jié)點(diǎn),然后遍歷標(biāo)題塊在DOM樹中對(duì)應(yīng)的父節(jié)點(diǎn)。以標(biāo)題塊為基礎(chǔ)向下掃描,直到掃描到明確的結(jié)束塊或者掃描完主體塊為止。這里的結(jié)束塊是一些視覺塊的概念集合,范圍包括表示前后web頁面連接特征的連接塊、表示版權(quán)聲明的版權(quán)塊以及作者塊、評(píng)論塊、相關(guān)信息塊等。然后,推測(cè)統(tǒng)計(jì)文字信息,例如個(gè)數(shù)、字體、字重、顏色、背景色等。接著,以標(biāo)題為基礎(chǔ),向下掃描過濾掉非主體字體塊。在該步驟中,首先要找到符合統(tǒng)計(jì)要求的主體字符,以背景與主體塊背景一致的字符作為正文的開始,接著遍歷標(biāo)題塊在DOM樹中對(duì)應(yīng)節(jié)點(diǎn)的兄弟節(jié)點(diǎn),直至滿足三個(gè)條件1.字符覆蓋是否達(dá)到主體字符的 90%以上;2.是否有明確的分割線(明線分割、圖像分割或背景色明顯的分割條);3.是否是具有上下文連接特征的分頁塊。在以上三個(gè)條件都為是的情況下,認(rèn)為找到正文的結(jié)尾處。如果還有任何一個(gè)條件不為是,則繼續(xù)遍歷標(biāo)題塊的兄弟節(jié)點(diǎn),直至上述三個(gè)條件都滿足為止。在找到正文結(jié)尾處之后,合并正文開始處到結(jié)尾處為正文塊(也稱正文區(qū)域)。在針對(duì)單個(gè)web頁面的分析完成之后,接下來分析多個(gè)web頁面以便提取其中的多頁鏈接塊。具體操作如下(1)遍歷各個(gè)web頁面中所有視覺塊在DOM樹中對(duì)應(yīng)節(jié)點(diǎn)的href (hypertext reference, HTML鏈接源)內(nèi)容,找到與輸入的web頁面中相似的視覺塊,根據(jù)視覺塊的數(shù)量進(jìn)行加權(quán);(2)對(duì)于上一步找到的相似的視覺塊,根據(jù)與正文區(qū)域塊的距離進(jìn)行加權(quán);在這一步驟中,首先通過web頁面的還原技術(shù)模擬出頁面中的視覺塊在網(wǎng)頁整體顯示中的坐標(biāo)和長(zhǎng)寬(單位是像素),進(jìn)而通過這些信息計(jì)算出某個(gè)視覺塊與正文區(qū)域塊之間的距離。(3)將href內(nèi)容根據(jù)與輸入的web頁面進(jìn)行相似度匹配,相似程度越高則權(quán)重越高,將權(quán)重最高的塊確定為多頁鏈接塊。在這一步驟中,相似度匹配基于以下幾個(gè)特征進(jìn)行加權(quán)1. href內(nèi)容指向的web網(wǎng)頁,其非數(shù)字部分的文字內(nèi)容和出現(xiàn)位置,及數(shù)字部分出現(xiàn)的位置的相似性。例如 http://a. com/news/112121212. html,與 http://a. com/ news/21212, html 相似度加權(quán)就會(huì)較高,而與 http://a. com/112121212/news. html 相似度加權(quán)就會(huì)較低2. href內(nèi)容指向的web網(wǎng)頁,本身具有一定的頁碼特征,例如末尾有“? page = XX” "xxx_01. html”等特征,就會(huì)有較高的加權(quán)。3.href內(nèi)容本身具有文字特征,例如某些href會(huì)在頁面上顯示諸如“第X 頁” “[1]” “3”等文字。對(duì)于上述步驟確定的多頁鏈接塊,進(jìn)一步提取其中多頁鏈接的標(biāo)題和正文內(nèi)容。 具體而言,多頁鏈接塊中得到的上下文頁面的web網(wǎng)頁,會(huì)作為網(wǎng)頁萃取的下一個(gè)輸入?yún)?shù),從而得到其標(biāo)題和正文內(nèi)容。例如多頁連接塊中得到urll……url5等5個(gè)鏈接; urll……url5作為網(wǎng)頁萃取的輸入,通過web頁面的萃取可以提取出標(biāo)題和正文的內(nèi)容信
      肩、ο接下來,對(duì)于多個(gè)web頁面中的其它web頁面(即urll、url2、url3……),繼續(xù)使用上述步驟進(jìn)行相應(yīng)的下載,根據(jù)下載的內(nèi)容自動(dòng)擴(kuò)展上下文,將新出現(xiàn)的多頁鏈接塊記錄下來,直到找不到新的多頁鏈接塊為止。這樣就完成了對(duì)多個(gè)web頁面的信息分析,接下來需要對(duì)分析出的眾多頁面內(nèi)容進(jìn)行合并。具體操作如下首先,對(duì)分析出的頁面內(nèi)容進(jìn)行消重,消重的要素主要為正文內(nèi)容,將正文內(nèi)容相同的web頁面視為同一頁面。接下來,對(duì)分析出的多個(gè)web頁面進(jìn)行排序。排序的要素包括web頁面中的數(shù)字特征和多頁特征(例如較明顯的XXX ? page = 1等),web頁面中鏈接文字的頁碼特征,及分析多個(gè)web頁面中新發(fā)現(xiàn)的web頁面的順序等。最后,按照上述的排序結(jié)果將各個(gè)web頁面的文字內(nèi)容進(jìn)行連接、合并,就生成了與輸入的web網(wǎng)頁有上下文關(guān)系的所有正文內(nèi)容按順序合并的結(jié)構(gòu)化信息。在連接、合并的過程中,包括加入頁面分割標(biāo)記等操作。上面對(duì)本發(fā)明所述的上下文web頁面合并方法進(jìn)行了詳細(xì)的說明,但顯然本發(fā)明的具體實(shí)現(xiàn)形式并不局限于此。對(duì)于本技術(shù)領(lǐng)域的一般技術(shù)人員來說,在不背離本發(fā)明的精神和權(quán)利要求范圍的情況下對(duì)它進(jìn)行的各種顯而易見的改變都在本發(fā)明的保護(hù)范圍之內(nèi)。
      權(quán)利要求
      1.一種上下文web頁面合并方法,其特征在于對(duì)于具有上下文關(guān)系的多個(gè)web頁面中的某個(gè)web網(wǎng)頁,首先對(duì)所述web頁面的內(nèi)容進(jìn)行分析,提取其中的上下文鏈接信息并進(jìn)行相應(yīng)的下載,根據(jù)下載的內(nèi)容擴(kuò)展上下文,并將擴(kuò)展的上下文內(nèi)容進(jìn)行消重,按順序重新合并成新的單一 web頁面。
      2.如權(quán)利要求1所述的上下文web頁面合并方法,其特征在于在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之前,首先確認(rèn)所述we b頁面中給定的網(wǎng)頁地址已經(jīng)下載完成,并且經(jīng)完整展示后生成文檔對(duì)象模型樹。
      3.如權(quán)利要求2所述的上下文web頁面合并方法,其特征在于在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之前,進(jìn)一步確認(rèn)所述we b頁面中的IFame、Frame 已經(jīng)下載完成,所需要的Jav必cript、CSS已經(jīng)下載完成,圖片參數(shù)已經(jīng)獲得且Ajax已經(jīng)執(zhí)行完成。
      4.如權(quán)利要求2所述的上下文web頁面合并方法,其特征在于在對(duì)所述web頁面的內(nèi)容進(jìn)行分析之后,基于所述文檔對(duì)象模型樹將所述web頁面拆分成在視覺上無法進(jìn)一步拆分的塊元素,進(jìn)而生成視覺塊。
      5.如權(quán)利要求4所述的上下文web頁面合并方法,其特征在于在生成視覺塊之后,進(jìn)行提取標(biāo)題塊和正文塊的操作,以便識(shí)別出正文區(qū)域。
      6.如權(quán)利要求4所述的上下文web頁面合并方法,其特征在于所述上下文鏈接信息通過如下步驟獲得(1)遍歷各個(gè)web頁面中所有視覺塊在文檔對(duì)象模型樹中對(duì)應(yīng)節(jié)點(diǎn)的href內(nèi)容,找到與所述web頁面中相似的視覺塊,根據(jù)視覺塊的數(shù)量進(jìn)行加權(quán);(2)對(duì)于步驟(1)中找到的相似的視覺塊,根據(jù)與正文區(qū)域的距離進(jìn)行加權(quán);(3)將href內(nèi)容根據(jù)與輸入的web頁面進(jìn)行相似度匹配,相似程度越高則權(quán)重越高,將權(quán)重最高的塊確定為多頁鏈接塊。
      7.如權(quán)利要求1所述的上下文web頁面合并方法,其特征在于在消重步驟中,消重的要素為正文內(nèi)容,將正文內(nèi)容相同的web頁面視為同一頁面。
      8.如權(quán)利要求1所述的上下文web頁面合并方法,其特征在于在排序步驟中,排序的要素包括web頁面中的數(shù)字特征和多頁特征、web頁面中鏈接文字的頁碼特征。
      9.如權(quán)利要求1所述的上下文web頁面合并方法,其特征在于在合并步驟中,進(jìn)行加入頁面分割標(biāo)記的操作。
      全文摘要
      本發(fā)明公開了一種上下文web頁面合并方法。對(duì)于具有上下文關(guān)系的多個(gè)web頁面中的某個(gè)web網(wǎng)頁,首先對(duì)web頁面的內(nèi)容進(jìn)行分析,提取其中的上下文鏈接信息并進(jìn)行相應(yīng)的下載,根據(jù)下載的內(nèi)容擴(kuò)展上下文,并將擴(kuò)展的上下文內(nèi)容進(jìn)行消重,按順序重新合并成新的單一web頁面。本發(fā)明創(chuàng)造性地引入了web頁面的語義分析技術(shù),從而使web頁面中的上下文關(guān)系更加清晰明確,頁面合并的效率和質(zhì)量大大提高。
      文檔編號(hào)G06F17/30GK102207974SQ20111017112
      公開日2011年10月5日 申請(qǐng)日期2011年6月23日 優(yōu)先權(quán)日2011年6月23日
      發(fā)明者王東勝 申請(qǐng)人:天津海量信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1