網(wǎng)頁頁面的聚類方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁頁面的聚類方法和裝置。其中,網(wǎng)頁頁面的聚類方法包括:獲取待比較網(wǎng)頁頁面的第一塊元素;根據(jù)第一塊元素與頁面類別集合中每個頁面類別所含的第二塊元素,依次計算待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值;當計算出待比較網(wǎng)頁頁面與當前頁面類別的相似度指標值大于預(yù)設(shè)閾值時,將待比較網(wǎng)頁頁面歸至當前頁面類別,并更新當前頁面類別包含的第二塊元素得到當前頁面類別的更新后頁面類別;當待比較網(wǎng)頁頁面與頁面類別集合中每個頁面類別的相似度指標值均小于預(yù)設(shè)閾值時,將待比較網(wǎng)頁頁面作為一個新的頁面類別添加到頁面類別集合。通過本發(fā)明,解決了現(xiàn)有技術(shù)中網(wǎng)頁聚類效率低的問題,進而達到了提高網(wǎng)頁聚類效率的效果。
【專利說明】網(wǎng)頁頁面的聚類方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種網(wǎng)頁頁面的聚類方法和裝置。
【背景技術(shù)】
[0002] 出于互聯(lián)網(wǎng)大數(shù)據(jù)分析的需要,對網(wǎng)頁信息的采集越來越重要。但是不同網(wǎng)站、不 同欄目之間的頁面代碼格式的差異增加了信息采集的難度,在進行網(wǎng)頁信息采集之前,需 要對編碼樣式各異的網(wǎng)頁進行聚類。通過網(wǎng)頁聚類,可W將結(jié)構(gòu)代碼相似的網(wǎng)頁聚合在一 起集中處理,減少了在進行信息采集時因代碼格式差異帶來的困難。
[0003] 目前網(wǎng)頁聚類方法是,通過結(jié)構(gòu)化HTML代碼,生成代碼標簽樹,對比兩個標簽樹 的最短編輯距離,從而判斷頁面相似程度,最終實現(xiàn)頁面聚類。
[0004] 現(xiàn)有技術(shù)中的網(wǎng)頁聚類方法存在兩個缺陷,一是對整個標簽樹進行計算,效率較 低;二是標簽編輯距離并不完全準確,偶爾出現(xiàn)的內(nèi)嵌元素或其它元素會影響計算結(jié)果。
[0005] 針對現(xiàn)有技術(shù)中網(wǎng)頁聚類效率低的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的主要目的在于提供一種網(wǎng)頁頁面的聚類方法和裝置,W解決現(xiàn)有技術(shù)中 網(wǎng)頁聚類效率低問題。
[0007] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種網(wǎng)頁頁面的聚類 方法。
[0008] 根據(jù)本發(fā)明的網(wǎng)頁頁面的聚類方法包括;獲取待比較網(wǎng)頁頁面的第一塊元素;根 據(jù)所述第一塊元素與頁面類別集合中每個頁面類別所含的第二塊元素,依次計算所述待比 較網(wǎng)頁頁面與每個頁面類別的相似度指標值,其中,所述頁面類別集合為已確定的頁面類 別的類別集合,所述第一塊元素和所述第二塊元素均包含預(yù)設(shè)屬性;當計算出所述待比較 網(wǎng)頁頁面與當前頁面類別的相似度指標值大于預(yù)設(shè)闊值時,將所述待比較網(wǎng)頁頁面歸至所 述當前頁面類別,并更新所述當前頁面類別包含的第二塊元素得到所述當前頁面類別的更 新后頁面類別,完成所述待比較網(wǎng)頁頁面的聚類;W及當所述待比較網(wǎng)頁頁面與所述頁面 類別集合中每個頁面類別的相似度指標值均小于所述預(yù)設(shè)闊值時,將所述待比較網(wǎng)頁頁面 作為一個新的頁面類別添加到所述頁面類別集合中。
[0009] 進一步地,在根據(jù)所述第一塊元素與頁面類別集合中每個頁面類別所含的第二塊 元素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值之前,所述聚類方法 還包括;判斷所述頁面類別集合是否為空;在判斷所述頁面類別集合為空的情況下,直接 將所述待比較網(wǎng)頁頁面作為一個新的頁面類別添加到所述頁面類別集合中;W及在判斷所 述頁面類別集合不為空的情況下,則根據(jù)所述第一塊元素與頁面類別集合中每個頁面類別 所含的第二塊元素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值。
[0010] 進一步地,所述獲取待比較網(wǎng)頁頁面的第一塊元素包括;獲取所述待比較網(wǎng)頁頁 面的超文本標記語言HTML代碼;根據(jù)所述待比較網(wǎng)頁頁面的HTML代碼建立樹形結(jié)構(gòu);W 及提取所述樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到所述待比較網(wǎng)頁頁面的所述第一塊元 素。
[0011] 進一步地,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值包括: 獲取所述待比較網(wǎng)頁頁面的第一塊元素與頁面類別Ai所含的第二塊元素中的相同塊元素 Kij,其中,i用于指示當前參與計算的頁面類別,取值依次為1至n,n為所述頁面類別集合 中頁面類別的個數(shù),j依次取1至IV 為所述頁面類別Ai與所述待比較網(wǎng)頁頁面中相同 塊元素的個數(shù);根據(jù)相同塊元素Kil至相同塊元素Kimi在所述待比較網(wǎng)頁頁面中的總出現(xiàn) 頻次和所述待比較網(wǎng)頁頁面中所述第一塊元素的總出現(xiàn)頻次,計算第一相似度Sli ;根據(jù) 所述相同塊元素Kil至所述相同塊元素Kim;在所述頁面類別Ai中的總出現(xiàn)頻次和所述頁 面類別Ai所含的所述第二塊元素的總出現(xiàn)頻次,計算第二相似度S2i 及根據(jù)所述第一 相似度Sli和所述第二相似度S2i計算所述相似度指標值Bi。
[0012] 進一步地,按照公式
【權(quán)利要求】
1. 一種網(wǎng)頁頁面的聚類方法,其特征在于,包括: 獲取待比較網(wǎng)頁頁面的第一塊元素; 根據(jù)所述第一塊元素與頁面類別集合中每個頁面類別所含的第二塊元素,依次計算所 述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值,其中,所述頁面類別集合為已確定的 頁面類別的類別集合,所述第一塊元素和所述第二塊元素均包含預(yù)設(shè)屬性; 當計算出所述待比較網(wǎng)頁頁面與當前頁面類別的相似度指標值大于預(yù)設(shè)閾值時,將所 述待比較網(wǎng)頁頁面歸至所述當前頁面類別,并更新所述當前頁面類別包含的第二塊元素得 到所述當前頁面類別的更新后頁面類別,完成所述待比較網(wǎng)頁頁面的聚類;以及 當所述待比較網(wǎng)頁頁面與所述頁面類別集合中每個頁面類別的相似度指標值均小于 所述預(yù)設(shè)閾值時,將所述待比較網(wǎng)頁頁面作為一個新的頁面類別添加到所述頁面類別集合 中。
2. 根據(jù)權(quán)利要求1所述的聚類方法,其特征在于,在根據(jù)所述第一塊元素與頁面類別 集合中每個頁面類別所含的第二塊元素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的 相似度指標值之前,所述聚類方法還包括: 判斷所述頁面類別集合是否為空; 在判斷所述頁面類別集合為空的情況下,直接將所述待比較網(wǎng)頁頁面作為一個新的頁 面類別添加到所述頁面類別集合中;以及 在判斷所述頁面類別集合不為空的情況下,則根據(jù)所述第一塊元素與頁面類別集合中 每個頁面類別所含的第二塊元素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度 指標值。
3. 根據(jù)權(quán)利要求1所述的聚類方法,其特征在于,所述獲取待比較網(wǎng)頁頁面的第一塊 元素包括: 獲取所述待比較網(wǎng)頁頁面的超文本標記語言HTML代碼; 根據(jù)所述待比較網(wǎng)頁頁面的HTML代碼建立樹形結(jié)構(gòu);以及 提取所述樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到所述待比較網(wǎng)頁頁面的所述第一塊 元素。
4. 根據(jù)權(quán)利要求1至3中任一項所述的聚類方法,其特征在于,依次計算所述待比較網(wǎng) 頁頁面與每個頁面類別的相似度指標值包括: 獲取所述待比較網(wǎng)頁頁面的第一塊元素與頁面類別Ai所含的第二塊元素中的相同塊 元素Kij,其中,i用于指示當前參與計算的頁面類別,取值依次為1至n,n為所述頁面類別 集合中頁面類別的個數(shù),j依次取1至IV!1^為所述頁面類別Ai與所述待比較網(wǎng)頁頁面中 相同塊元素的個數(shù); 根據(jù)相同塊元素Kil至相同塊元素燈!1^在所述待比較網(wǎng)頁頁面中的總出現(xiàn)頻次和所 述待比較網(wǎng)頁頁面中所述第一塊元素的總出現(xiàn)頻次,計算第一相似度Sli; 根據(jù)所述相同塊元素Kil至所述相同塊元素燈!1^在所述頁面類別Ai中的總出現(xiàn)頻次 和所述頁面類別Ai所含的所述第二塊元素的總出現(xiàn)頻次,計算第二相似度S2i;以及 根據(jù)所述第一相似度Sli和所述第二相似度S2i計算所述相似度指標值Bi。
5. 根據(jù)權(quán)利要求4所述的聚類方法,其特征在于,
較網(wǎng)頁頁面中的出現(xiàn)頻次,Ktlk為所述待比較網(wǎng)頁頁面中的所述第一塊元素,NI為所述待比 較網(wǎng)頁頁面中所述第一塊元素的個數(shù),匕。s為第一塊元素Ktlk在所述待比較網(wǎng)頁頁面中的出 現(xiàn)頻次,
頁面類別Ai中的出現(xiàn)頻次,Kik為所述頁面類別Ai所含的所述第二塊元素,Ni為所述頁面 類別Ai所含的所述第二塊元素的個數(shù),~為第二塊元素Kik在所述頁面類別Ai中的出現(xiàn) 頻次。
6. -種網(wǎng)頁頁面的聚類裝置,其特征在于,包括: 獲取單元,用于獲取待比較網(wǎng)頁頁面的第一塊元素; 計算單元,用于根據(jù)所述第一塊元素與頁面類別集合中每個頁面類別所含的第二塊元 素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值,其中,所述頁面類別集 合為已確定的頁面類別的類別集合,所述第一塊元素和所述第二塊元素均包含預(yù)設(shè)屬性; 第一處理單元,用于當計算出所述待比較網(wǎng)頁頁面與當前頁面類別的相似度指標值大 于預(yù)設(shè)閾值時,將所述待比較網(wǎng)頁頁面歸至所述當前頁面類別,并更新所述當前頁面類別 包含的第二塊元素得到所述當前頁面類別的更新后頁面類別,完成所述待比較網(wǎng)頁頁面的 聚類;以及 第二處理單元,用于當所述待比較網(wǎng)頁頁面與所述頁面類別集合中每個頁面類別的相 似度指標值均小于所述預(yù)設(shè)閾值時,將所述待比較網(wǎng)頁頁面作為一個新的頁面類別添加到 所述頁面類別集合中。
7. 根據(jù)權(quán)利要求6所述的聚類裝置,其特征在于,所述聚類裝置還包括: 判斷單元,用于在根據(jù)所述第一塊元素與頁面類別集合中每個頁面類別所含的第二塊 元素,依次計算所述待比較網(wǎng)頁頁面與每個頁面類別的相似度指標值之前,判斷所述頁面 類別集合是否為空; 第三處理單元,用于在判斷所述頁面類別集合為空的情況下,直接將所述待比較網(wǎng)頁 頁面作為一個新的頁面類別添加到所述頁面類別集合中;以及 第四處理單元,用于在判斷所述頁面類別集合不為空的情況下,則根據(jù)所述第一塊元 素與頁面類別集合中每個頁面類別所含的第二塊元素,依次計算所述待比較網(wǎng)頁頁面與每 個頁面類別的相似度指標值。
8. 根據(jù)權(quán)利要求6所述的聚類裝置,其特征在于,所述獲取單元包括: 第一獲取模塊,用于獲取所述待比較網(wǎng)頁頁面的超文本標記語言HTML代碼; 建立模塊,用于根據(jù)所述待比較網(wǎng)頁頁面的HTML代碼建立樹形結(jié)構(gòu);以及 提取模塊,用于提取所述樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到所述待比較網(wǎng)頁頁 面的所述第一塊元素。
9. 根據(jù)權(quán)利要求6至8中任一項所述的聚類裝置,其特征在于,所述計算單元包括: 第二獲取模塊,用于獲取所述待比較網(wǎng)頁頁面的第一塊元素與頁面類別Ai所含的第 二塊元素中的相同塊元素Kij,其中,i用于指示當前參與計算的頁面類別,取值依次為1至n,n為所述頁面類別集合中頁面類別的個數(shù),j依次取1至Hii, !1^為所述頁面類別Ai與所 述待比較網(wǎng)頁頁面中相同塊元素的個數(shù); 第一計算模塊,用于根據(jù)相同塊元素Kil至相同塊元素燈!1^在所述待比較網(wǎng)頁頁面 中的總出現(xiàn)頻次和所述待比較網(wǎng)頁頁面中所述第一塊元素的總出現(xiàn)頻次,計算第一相似度 Sli;根據(jù)所述相同塊元素Kil至所述相同塊元素燈!1^在所述頁面類別Ai中的總出現(xiàn)頻次 和所述頁面類別Ai所含的所述第二塊元素的總出現(xiàn)頻次,計算第二相似度S2i;以及 第二計算模塊,用于根據(jù)所述第一相似度Sli和所述第二相似度S2i計算所述相似度 指標值Bi。
10. 根據(jù)權(quán)利要求9所述的聚類裝置,其特征在于,所述第一計算模塊包括:
素Kij在所述待比較網(wǎng)頁頁面中的出現(xiàn)頻次,Ktlk為所述待比較網(wǎng)頁頁面中的所述第一塊元 素,Nl為所述待比較網(wǎng)頁頁面中所述第一塊元素的個數(shù),匕。4為第一塊元素Ktlk在所述待比 較網(wǎng)頁頁面中的出現(xiàn)頻次,
頁面類別Ai中的出現(xiàn)頻次,Kik為所述頁面類別Ai所含的所述第二塊元素,Ni為所述頁面 類別Ai所含的所述第二塊元素的個數(shù),&為第二塊元素Kik在所述頁面類別Ai中的出現(xiàn) 頻次。
【文檔編號】G06F17/30GK104504086SQ201410827774
【公開日】2015年4月8日 申請日期:2014年12月25日 優(yōu)先權(quán)日:2014年12月25日
【發(fā)明者】侯明午 申請人:北京國雙科技有限公司