網頁信息處理的方法及裝置制造方法

文檔序號：6488887閱讀：128來源：國知局

網頁信息處理的方法及裝置制造方法
【專利摘要】本發(fā)明提供一種網頁信息處理方法及裝置，涉及互聯(lián)網【技術領域】。方法包括:獲取屬于同一類型網站中的多個網頁；分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括：所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。采用本發(fā)明的方案，可以加快網頁顯示速度，減小網絡系統(tǒng)負荷，節(jié)約網絡資源消耗。
【專利說明】網頁信息處理的方法及裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網【技術領域】，特別是指一種網頁信息處理的方法及裝置。
【背景技術】
[0002]互聯(lián)網的網頁成千上萬，每個網頁含有豐富的信息，大致分為兩類信息，文本信息和URL鏈接信息(URL,統(tǒng)一資料定位符,Uniform/Universal Resource Locator的縮寫，是因特網上標準的資源的地址)。文本信息是網頁展現(xiàn)給用戶瀏覽的，而URL鏈接信息是用戶點擊跳轉到其他網頁的，同時也是搜索引擎采集系統(tǒng)發(fā)現(xiàn)其他網頁的最重要方式之一，這些URL有些是有用的，有些則是垃圾和無意義的信息，如廣告鏈接。
[0003]目前搜索引擎的網頁采集系統(tǒng)并沒有對這些鏈接信息進行區(qū)分，不僅增加了網頁采集分析系統(tǒng)的壓力，而且使大量的無意義和垃圾信息進入到搜索引擎系統(tǒng)。
[0004]現(xiàn)有方案存在以下缺點:
[0005]1.對采集下來的網頁沒有進行進一步細分，導致存儲和索引冗余，增加了系統(tǒng)存儲負荷。
[0006]2.對網頁的鏈接信息并沒有進行分類，采集系統(tǒng)需要把一個網頁包含的全部URL都進行采集，不僅消耗了網絡帶寬資源，而且采集了大量垃圾和無意義信息，增加了系統(tǒng)存儲負荷。

【發(fā)明內容】

[0007]本發(fā)明要解決的技術問題是提供一種網頁信息處理的方法及裝置，通過本方案可以加快網頁顯示速度，減小網絡系統(tǒng)負荷，節(jié)約網絡資源消耗。
[0008]為解決上述技術問題，本發(fā)明提供的技術方案如下:
[0009]根據(jù)本發(fā)明的一方面，提出了一種網頁信息處理的方法，包括:
[0010]獲取屬于同一類型網站中的多個網頁；
[0011]分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；
[0012]存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
[0013]其中，分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊的步驟包括:
[0014]分別對所述多個網頁進行解析，獲取多個網頁結構元素；
[0015]在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；
[0016]在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
[0017]其中，存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊后還包括:
[0018]對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
[0019]其中，上述方法還包括:
[0020]根據(jù)所述第一標記獲得所述第一類網頁區(qū)塊的內容；
[0021]根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容；
[0022]將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
[0023]其中，上述方法還包括:
[0024]丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。
[0025]根據(jù)本發(fā)明的另一方面，還提出了一種網頁信息處理的裝置，包括:
[0026]獲取模塊，用于獲取屬于同一類型網站中的多個網頁；
[0027]處理模塊，用于分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；
[0028]存儲模塊，用于存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
[0029]其中，所述處理模塊包括:
[0030]解析單元，用于分別對所述多個網頁進行解析，獲取多個網頁結構元素；
[0031]第一查找單元，用于在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；
[0032]第二查找單元，用于在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
[0033]其中，上述裝置還包括:
[0034]設置模塊，用于對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
[0035]其中，上述裝置還包括:
[0036]拼接模塊，用于通過設置模塊，所述第一標記獲得所述第一類網頁區(qū)塊的內容，根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容，將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
[0037]其中，所述處理模塊還用于:丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。
[0038]本發(fā)明的上述方案，通過對網頁進行區(qū)塊劃分，多個網頁相同的網頁結構元素，不分別進行保存，只保存其中一個網頁的該相同的網頁結構元素，即對多個網頁相同的網頁結構元素只進行一次保存，可以減小網絡系統(tǒng)負荷。進一步地，丟棄了沒有意義及垃圾的網頁結構元素，從而節(jié)約網絡資源消耗。進一步地，網頁拼接時，根據(jù)相應的標記信息獲取第一類網頁區(qū)塊和第二類網頁區(qū)塊，并將所述第一類網頁區(qū)塊和第二類網頁區(qū)塊進行拼接即可顯示,加快了網頁顯示速度。
【專利附圖】

【附圖說明】
[0039]圖1為本發(fā)明實施例1的網頁信息處理方法的流程圖；
[0040]圖2為本發(fā)明實施例1的網頁分塊處理的流程圖；
[0041]圖3為本發(fā)明實施例1的網頁分塊處理時的DOM樹分析流程圖；
[0042]圖4為本發(fā)明實施例1的網頁分塊處理的流程圖；
[0043]圖5為本發(fā)明實施例2的網頁信息處理裝置結構圖。
【具體實施方式】
[0044]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚，下面將結合附圖對具體實施例進行詳細描述。
[0045]實施例1
[0046]如圖1所示，本發(fā)明的實施例提供一種網頁信息處理方法，包括如下步驟:
[0047]步驟11，獲取屬于同一類型網站中的多個網頁；
[0048]步驟12，分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；
[0049]步驟13，存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
[0050]本發(fā)明的上述實施例通過對網頁進行區(qū)塊劃分，多個網頁相同的網頁結構元素，不分別進行保存，只保存其中一個網頁的該相同的網頁結構元素，即對多個網頁相同的網頁結構元素只進行一次保存，可以減小網絡系統(tǒng)負荷。
[0051]本發(fā)明的上述實施例中，步驟12可以包括:
[0052]步驟121，分別對所述多個網頁進行解析，獲取多個網頁結構元素；
[0053]步驟122，在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；
[0054]步驟123，在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
[0055]進一步地，步驟13后還可以包括:
[0056]步驟14，對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
[0057]相應的，上述步驟14后還可以包括:
[0058]步驟15，根據(jù)所述第一標記獲得所述第一類網頁區(qū)塊的內容；[0059]步驟16，根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容；
[0060]步驟17，將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
[0061]進一步地，還包括:丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。以減小系統(tǒng)負荷和節(jié)約存儲資源。
[0062]如圖2所示，對上述圖1所示的所述方法的進一步進行詳細描述:
[0063]步驟101，通過索引搜索同類型網站，獲取網站中的多個網頁；
[0064]步驟102，利用HTML頁面在DOM樹中的DIV塊信息重新構建DIV塊，對每個原子DIV塊進行參數(shù)分析，以識別網頁的各網頁結構元素(如圖3所示)；
[0065]步驟103，對網頁分塊處理，分別劃分出A、B、C、D、E五個網頁區(qū)塊(如圖4所示)，所述的五個網頁區(qū)塊是一種泛指，根據(jù)本實施例獲取的網頁決定劃分區(qū)塊的數(shù)量，并不是本發(fā)明所必需的。A、B、D經整理后為屬于同一個網頁并且為多個網頁相同的網頁結構元素。其中，網頁區(qū)塊A、B、D為對用戶瀏覽網頁有意義的網頁結構元素，比如具有跳到其他網頁功能的“上一頁”、“末頁”等鏈接信息。C為沒有意義的結構元素，比如網頁視頻播放窗口或者垃圾信息(比如廣告等信息)；網頁區(qū)塊E為多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；
[0066]步驟104，對網頁區(qū)塊A、B、D定義為第一類網頁區(qū)塊，網頁區(qū)塊E定義為第二類網頁區(qū)塊；
[0067]步驟105，存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。如只采集第一網頁中的網頁區(qū)塊A、B、D，并只保存一次，其它網頁中的與第一網頁中的網頁區(qū)塊A、B、D相同的網頁區(qū)塊不保存，優(yōu)選的，其它網頁中的與第一網頁中的網頁區(qū)塊A、B、D相同的網頁區(qū)塊不進行采集也不保存；在進行第一網頁中的網頁區(qū)塊A、B、D存儲時，具體存儲內容以關建值(Key-Value )的方式存儲。如為該第一類網頁區(qū)塊設置第一標記，該第一標記值可以為1，即Flag = 1，并設定第一類網頁區(qū)塊的Big-1D，以及自身網頁信息(Big-Content);為該第二類網頁區(qū)塊設置第二標記，該第二標記值可以為3，即Flag = 3，并設定每個第二類網頁區(qū)塊的Web-1D，以及各自的網頁信息(Content);為除該第一類網頁區(qū)塊和第二類網頁區(qū)塊之外的其它網頁區(qū)塊設置第三標記，該第三標記值可以為 2，即 Flag = 2。
[0068]步驟106，刪除Flag = 2為C的網頁區(qū)塊。
[0069]步驟107，根據(jù)用戶的點擊，讀取Flag = I和3的網頁區(qū)塊，并讀取這些網頁區(qū)塊的 Web-1D,根據(jù) Web-1D 讀取 Content,同時讀取 Big-1D,根據(jù) Big-1D,讀取 Big-Content,之后將Content信息和Big-Content信息進行拼接,形成網頁快照并顯示。
[0070]本發(fā)明的網頁信息處理方法可以節(jié)約網絡資源的消耗，加快網頁顯示速度，進一步減小系統(tǒng)負荷。
[0071]實施例2
[0072]如圖5所示，本發(fā)明的實施例還提供一種網頁內容處理的裝置，包括:
[0073]獲取模塊，用于獲取屬于同一類型網站中的多個網頁；
[0074]處理模塊，用于分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；
[0075]存儲模塊，用于存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
[0076]其中，所述處理模塊包括:
[0077]解析單元，用于分別對所述多個網頁進行解析，獲取多個網頁結構元素；
[0078]第一查找單元，用于在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；
[0079]第二查找單元，用于在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
[0080]其中，上述裝置還包括:
[0081]設置模塊，用于對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
[0082]其中，上述裝置還包括:
[0083]拼接模塊，用于根據(jù)所述第一標記獲得所述第一類網頁區(qū)塊的內容，根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容，將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
[0084]其中，所述處理模塊還用于:丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。
[0085]本發(fā)明的該裝置實施例同樣通過對網頁進行區(qū)塊劃分，多個網頁相同的網頁結構元素，不分別進行保存，只保存其中一個網頁的該相同的網頁結構元素，即對多個網頁相同的網頁結構元素只進行一次保存，可以減小網絡系統(tǒng)負荷。
[0086]下面，對上述裝置的具體實現(xiàn)過程進行描述:
[0087]首先用戶可以通過索引搜索想查看的網站，獲取模塊開始采集同一類型網站中的網頁，然后處理模塊中的解析單元，分別對所述多個網頁進行解析，獲取多個網頁結構元素；第一查找單元，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素。同時第二查找單元查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素。查找完后，存儲模塊存儲所述第一類網頁區(qū)塊和第二類網頁區(qū)塊。獲取或者采集上述第一類網頁區(qū)塊和第二類網頁區(qū)塊時，或者存儲上述第一類網頁區(qū)塊和第二類網頁區(qū)塊時或者存儲之后，設置模塊對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
[0088]拼接模塊從存儲模塊中，根據(jù)第一標記讀取第一類網頁區(qū)塊，和根據(jù)第二標記讀取第二類網頁區(qū)塊，將第一類區(qū)塊和第二類區(qū)塊信息拼接，形成網頁快照。戶可通過索引選擇查看網頁快照。
[0089]本發(fā)明實施例的裝置，同樣可以節(jié)約網絡資源的消耗，加快網頁顯示速度，進一步減小系統(tǒng)負荷。
[0090]以上所述是本發(fā)明的優(yōu)選實施方式，應當指出，對于本【技術領域】的普通技術人員來說，在不脫離本發(fā)明所述原理的前提下，還可以作出若干改進和潤飾，這些改進和潤飾也應視為本發(fā)明的保護范圍。
【權利要求】
1.一種網頁信息處理的方法，其特征在于，包括: 獲取屬于同一類型網站中的多個網頁；分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
2.根據(jù)權利要求1所述的網頁信息處理的方法，其特征在于，分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊的步驟包括: 分別對所述多個網頁進行解析，獲取多個網頁結構元素；在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
3.根據(jù)權利要求1所述的網頁信息處理的方法，其特征在于，存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊后還包括: 對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
4.根據(jù)權利要求3所述的網頁信息處理的方法，其特征在于，還包括: 根據(jù)所述第一標記獲得所述第一`類網頁區(qū)塊的內容；根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容；將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
5.根據(jù)權利要求1一 4任一項所述的網頁信息處理的方法，其特征在于，還包括: 丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。
6.一種網頁信息處理的裝置，其特征在于，包括: 獲取模塊，用于獲取屬于同一類型網站中的多個網頁；處理模塊，用于分別對所述多個網頁進行分塊處理，獲得第一類網頁區(qū)塊以及多個第二類網頁區(qū)塊；其中，所述第一類網頁區(qū)塊為屬于同一個網頁并且為所述多個網頁相同的網頁結構元素；所述第二類網頁區(qū)塊包括:所述多個網頁中不相同的網頁正文部分分別對應的網頁結構元素；存儲模塊，用于存儲所述第一類網頁區(qū)塊和各個網頁的正文部分分別對應的所述第二類網頁區(qū)塊。
7.根據(jù)權利要求6所述的網頁信息處理的裝置，其特征在于，所述處理模塊包括: 解析單元，用于分別對所述多個網頁進行解析，獲取多個網頁結構元素；第一查找單元，用于在所述多個網頁結構中，查找多個網頁的相同的網頁結構元素，并從中獲取一個網頁的所述網頁結構元素作為所述第一類網頁區(qū)塊；第二查找單元，用于在所述多個網頁結構中，查找多個網頁的網頁正文部分對應的網頁結構元素，并分別獲取各個網頁的網頁正文部分分別對應的網頁結構元素作為所述第二類網頁區(qū)塊。
8.根據(jù)權利要求6所述的網頁信息處理的裝置，其特征在于，還包括: 設置模塊，用于對所述第一類網頁區(qū)塊設置第一標記，并分別對各個網頁的正文部分對應的第二類網頁區(qū)塊設置第二標記。
9.根據(jù)權利要求8所述的網頁信息處理的裝置，其特征在于，還包括: 拼接模塊，用于根據(jù)所述第一標記獲得所述第一類網頁區(qū)塊的內容，根據(jù)所述第二標記獲得所述第二類網頁區(qū)塊的內容，將所述第二類網頁區(qū)塊的內容和所述第一類網頁區(qū)塊的內容進行拼接，形成網頁快照。
10.根據(jù)權利要求6- 9任一項所述的網頁信息處理的裝置，其特征在于，所述處理模塊還用于: 丟棄對所述多個網頁進行分塊處理時得到的除所述第一類網頁區(qū)塊和所述第二類網頁區(qū)塊以外的其他區(qū)塊。
【文檔編號】G06F17/30GK103678378SQ201210345265
【公開日】2014年3月26日申請日期:2012年9月17日優(yōu)先權日:2012年9月17日
【發(fā)明者】胡珉, 錢嶺, 孫少陵申請人:中國移動通信集團公司

完整全部詳細技術資料下載