国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網頁信息抽取方法及裝置與流程

      文檔序號:11155515閱讀:299來源:國知局
      一種網頁信息抽取方法及裝置與制造工藝

      本發(fā)明屬于互聯(lián)網信息處理技術領域,尤其涉及一種網頁信息抽取方法及裝置。



      背景技術:

      在互聯(lián)網新聞聚合或新聞推薦等應用中,需要使用爬蟲爬取大量的新聞網站,然后將爬取結果中具有相關性的新聞聚合在一起,并根據用戶的閱讀習慣建立起用戶的興趣模型,最終根據用戶的興趣模型將聚合的相關新聞推送至對其感興趣的用戶。

      新聞網站通常包括首頁和新聞頁面兩種不同的頁面,首頁中一般會包含一個最新更新新聞的新聞列表,新聞頁面則包含具體的新聞題目、發(fā)布者、發(fā)布時間、關鍵詞、正文等內容,除此之外,新聞頁面往往還包括各種廣告信息、用戶評論或用于跳轉至其他內容的多個鏈接等噪音數(shù)據(相對于新聞內容而言)。在互聯(lián)網新聞聚合或新聞推薦等應用中,通常僅需提取新聞頁面中新聞的題目、正文及關鍵詞等用戶較為關心的內容,而對于其他內容如發(fā)布者、上述噪音數(shù)據等則一般不予提取。

      傳統(tǒng)的新聞內容提取方式,往往只是根據新聞頁面對應的HTML(HyperText Markup Language,超文本標記語言)網頁文件中的HTML標簽密度等信息,來識別并提取新聞內容,比如一般來說,正文內容對應的HTML標簽密度較低,從而傳統(tǒng)的新聞正文自動識別及提取方式,會將標簽密度較低的頁面內容識別為新聞正文,然而,此種基于HTML標簽密度來識別、提取新聞內容的方式,存在信息識別、提取準確率低的問題,如很多非正文的內容也常被識別為新聞正文。



      技術實現(xiàn)要素:

      有鑒于此,本發(fā)明的目的在于提供一種網頁信息抽取方法及裝置,旨在解決現(xiàn)有技術存在的上述問題,提升網頁信息的提取準確率。

      為此,本發(fā)明公開如下技術方案:

      一種網頁信息抽取方法,包括:

      基于網頁中各網頁元素的視覺信息及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊;

      從所述多于一個的頁面塊中確定出符合第一條件的至少一個第一頁面塊;其中,所述第一條件為基于正文題目在網頁頁面中的第一視覺特征需求信息所確定的條件;

      在所述至少一個第一頁面塊中搜索出與預先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;

      從所述多于一個的頁面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網頁正文在網頁頁面中的第二視覺特征需求信息所確定的條件,所述正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;

      依據所述題目塊和所述正文塊在頁面中對應的視覺信息,并結合正文關鍵詞在網頁頁面中的第三視覺特征需求信息,確定出關鍵詞塊,并抽取所述關鍵詞塊中的關鍵詞信息;所述關鍵詞塊為所述多于一個的頁面塊中的某一個頁面塊的子塊。

      上述方法,優(yōu)選的,所述網頁元素的視覺信息包括網頁元素在網頁中的布局特征信息,則所述基于網頁中各網頁元素的視覺信息及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊,包括:

      基于網頁中各網頁元素的布局特征信息,確定網頁頁面的各個分割線;

      依據所述分割線及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊。

      上述方法,優(yōu)選的,所述第一視覺特征需求信息包括正文題目在網頁頁面中的第一位置需求信息,則所述從所述多于一個的頁面塊中確定出符合第一條件的至少一個第一頁面塊,包括:

      從所述多于一個的頁面塊中,確定出在網頁頁面中所處的位置符合第一位置需求信息的至少一個第一頁面塊。

      上述方法,優(yōu)選的,所述在所述至少一個第一頁面塊中搜索出與預先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所對應的第一頁面塊中確定出僅包含所述題目元素的題目塊,包括:

      從所述至少一個第一頁面塊對應的網頁源文件信息中,搜索出與預先從網頁源文件的標頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時不再對所述至少一個第一頁面塊中未搜索的第一頁面塊進行搜索;

      基于所述題目元素所在的第一頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準,將所述題目元素所在的第一頁面塊劃分為多于一個的第一頁面塊子塊;

      確定出所述題目元素所在的第一頁面塊子塊;

      判斷所述題目元素所在的第一頁面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁面塊子塊為所述題目塊;若否,則繼續(xù)對所述題目元素所在的第一頁面塊子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。

      上述方法,優(yōu)選的,所述第二條件所依據的第二視覺特征需求信息為:基于預設的候選正文視覺需求信息及正文文字在預定視覺特征上的相似度所確定的信息,則所述從所述多于一個的頁面塊中確定出符合第二條件的正文塊,包括:

      從所述多于一個的頁面塊中確定出符合候選正文視覺需求信息的一個最小塊作為候選正文塊,所述候選正文視覺需求信息包括:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;

      從所述候選正文塊中確定出文字長度最大的子塊作為正文種子塊;

      在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;

      在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預定閾值的上位子塊及下位子塊為止,合并結束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

      上述方法,優(yōu)選的,所述依據所述題目塊和所述正文塊在頁面中對應的視覺信息,并結合正文關鍵詞在網頁頁面中的第三視覺特征需求信息,確定出關鍵詞塊,包括:

      依據所述題目塊和所述正文塊在頁面中對應的視覺信息,確定出候選關鍵詞總塊,所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊;

      基于候選關鍵詞總塊中各網頁元素的視覺信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;

      從各個候選關鍵詞塊中確定出符合第三視覺特征需求信息的關鍵詞塊,所述關鍵詞塊為某一個候選關鍵詞塊或某一個候選關鍵詞塊的子塊;

      若未能從各個候選關鍵詞塊中確定出關鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關鍵詞總塊,并從所述新的候選關鍵詞總塊中確定符合第三視覺特征需求信息的關鍵詞塊。

      一種網頁信息抽取裝置,包括:

      第一劃分單元,用于基于網頁中各網頁元素的視覺信息及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊;

      確定單元,用于從所述多于一個的頁面塊中確定出符合第一條件的至少一個第一頁面塊;其中,所述第一條件為基于正文題目在網頁頁面中的第一視覺特征需求信息所確定的條件;

      第一抽取單元,用于在所述至少一個第一頁面塊中搜索出與預先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;

      第二抽取單元,用于從所述多于一個的頁面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網頁正文在網頁頁面中的第二視覺特征需求信息所確定的條件,所述正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;

      第三抽取單元,用于依據所述題目塊和所述正文塊在頁面中對應的視覺信息,并結合正文關鍵詞在網頁頁面中的第三視覺特征需求信息,確定出關鍵詞塊,并抽取所述關鍵詞塊中的關鍵詞信息;所述關鍵詞塊為所述多于一個的頁面塊中的某一個頁面塊的子塊。

      上述裝置,優(yōu)選的,所述第一視覺特征需求信息包括正文題目在網頁頁面中的第一位置需求信息,則所述確定單元,進一步用于:從所述多于一個的頁面塊中,確定出在網頁頁面中所處的位置符合第一位置信息的至少一個第一頁面塊;

      所述第一抽取單元,進一步用于:

      從所述至少一個第一頁面塊對應的網頁源文件信息中,搜索出與預先從網頁源文件的標頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時不再對所述至少一個第一頁面塊中未搜索的第一頁面塊進行搜索;基于所述題目元素所在的第一頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準,將所述題目元素所在的第一頁面塊劃分為多于一個的第一頁面塊子塊;確定出所述題目元素所在的第一頁面塊子塊;判斷所述題目元素所在的第一頁面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁面塊子塊為所述題目塊;若否,則繼續(xù)對所述題目元素所在的第一頁面塊子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。

      上述裝置,優(yōu)選的,所述第二條件所依據的第二視覺特征需求信息為:基于預設的候選正文視覺需求信息及正文文字在預定視覺特征上的相似度所確定的條件,則所述第二抽取單元從所述多于一個的頁面塊中確定出符合第二條件的正文塊,進一步包括:

      從所述多于一個的頁面塊中確定出符合候選正文視覺需求信息的一個最小塊作為候選正文塊,所述候選正文視覺需求信息包括:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;

      從所述候選正文塊中確定出文字長度最大的子塊作為正文種子塊;

      在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;

      在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預定閾值的上位子塊及下位子塊為止,合并結束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

      上述裝置,優(yōu)選的,所述第三抽取單元確定出關鍵詞塊,進一步包括:

      依據所述題目塊和所述正文塊在頁面中對應的視覺信息,確定出候選關鍵詞總塊,所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊;基于候選關鍵詞總塊中各網頁元素的視覺信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;從各個候選關鍵詞塊中確定出符合第三視覺特征需求信息的關鍵詞塊,所述關鍵詞塊為某一個候選關鍵詞塊或某一個候選關鍵詞塊的子塊;若未能從各個候選關鍵詞塊中確定出關鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關鍵詞總塊,并從所述新的候選關鍵詞總塊中確定符合第三視覺特征需求信息的關鍵詞塊。

      由以上方案可知,本發(fā)明公開的網頁信息抽取方法,在基于網頁中各網頁元素的視覺信息及預定的劃分標準,將網頁頁面劃分為多于一個的頁面塊的基礎上,通過基于待抽取部分在網頁頁面中對應的相應視覺特征需求信息,從劃分所得的各個頁面塊中確定出待抽取部分所對應的信息塊,如基于網頁正文在網頁頁面中的視覺特征需求信息,從多于一個的頁面塊中確定出正文塊等,進而在此基礎上,可實現(xiàn)從確定出的待抽取部分對應的信息塊中進行所需的信息抽取。可見,本發(fā)明實現(xiàn)了一種基于網頁分割及待抽取部分在網頁頁面中的視覺特征的網頁信息抽取方案,由于待抽取部分在網頁頁面中的視覺特征具有較高的確定性,如正文題目一般在水平方向上處于網頁頁面的中部,在垂直方向上處于網頁的中上部等等,從而應用本發(fā)明方案可有效提升網頁信息的提取準確率。

      附圖說明

      為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。

      圖1(a)是一個HTML頁面的外觀示意圖;

      圖1(b)是采用現(xiàn)有的VIPS算法對圖1(a)的HTML頁面進行頁面分割的示意圖;

      圖2是本發(fā)明實施例一提供的網頁信息抽取方法的流程圖;

      圖3(a)是另一個HTML頁面的外觀示意圖;

      圖3(b)是本發(fā)明實施例一提供的采用VIPS對圖3(a)的HTML頁面進行初步分割后所得的分割塊示意圖;

      圖4是本發(fā)明實施例二提供的從網頁中抽取題目信息的實現(xiàn)過程流程圖;

      圖5是本發(fā)明實施例二提供的基于題目信息的視覺特征需求進行頁面分割的示意圖;

      圖6是本發(fā)明實施例三提供的從網頁中抽取正文信息的實現(xiàn)過程流程圖;

      圖7是本發(fā)明實施例三提供的基于正文信息的視覺特征需求進行頁面分割的示意圖;

      圖8是本發(fā)明實施例四提供的從網頁中抽取關鍵詞信息的實現(xiàn)過程流程圖;

      圖9是本發(fā)明實施例四提供的基于關鍵詞的視覺特征需求進行頁面分割的示意圖;

      圖10是本發(fā)明實施例五提供的網頁信息抽取裝置的結構示意圖。

      具體實施方式

      下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

      為解決現(xiàn)有網頁信息抽取技術存在的網頁信息識別率低的問題,如易將新聞頁面的非正文內容識別為新聞正文,本發(fā)明實施例提供一種網頁信息抽取方法及裝置,該方法或裝置是一種基于網頁分割及待抽取部分在網頁頁面中的視覺特征,進行網頁信息識別及抽取的方案,可以應用于新聞聚合、新聞推薦等各種應用中。

      本發(fā)明具體基于VIPS(Visual Based Page Segment Algorithm,基于視覺的Web頁面分割算法)并結合待抽取部分在網頁頁面中的視覺信息,來實現(xiàn)網頁頁面中待抽取部分的信息識別及抽取。

      具體地,由于在現(xiàn)實的網頁閱覽場景中,人們并不需要對網頁頁面的內容如新聞頁面的內容等進行逐字掃描式閱覽,而一般是根據網頁頁面中各網頁元素的布局位置、背景顏色、字體大小等布局特征,對頁面進行快速的區(qū)域劃分,然后找到其所關注的區(qū)域,如具體找到所關注的新聞題目、新聞正文等區(qū)域進行閱覽,而網站的設計者,也都充分利用這一原理,將諸如新聞題目、新聞正文等較為重要的信息放在頁面的比較明顯的位置上,并通過間隔、字體、背景顏色等加以強調。

      受到啟發(fā),微軟在2003年提出VIPS算法,VIPS算法充分利用了Web頁面的布局特征,首先從HTML網頁文件中提取出所有的HTML元素,然后根據各HTML元素的布局特征,如各HTML元素的位置信息、背景顏色、字體大小等檢測出網頁頁面的分割條,包括水平方向和垂直方向的分隔條,最后從檢測出的分割條中選取出寬度最大的分割條(水平方向和/或垂直方向),并基于寬度最大的分割條對網頁頁面進行初步分割。之后,對于初步分割所得的每一個頁面塊,可使用VIPS算法繼續(xù)將其分割為更小的頁面塊。

      在基于網頁頁面中各HTML元素的布局特征對網頁頁面進行初步分割的基礎上,VIPS采用自頂向下的方式對初步分割所得的各頁面塊繼續(xù)進行分割。其中,每當VIPS對網頁頁面進行一次分割,VIPS均會依據劃分所得的每一頁面塊內各HTML元素的布局特征相似性,給出該頁面塊的DOC值,DOC值反映了頁面塊內部內容的關聯(lián)性,DOC值越大,則表明頁面塊內部內容之間的關聯(lián)越緊密,反之則越稀松。

      從而,在基于網頁頁面的布局特征對網頁頁面進行初步分割的基礎上,VIPS會針對初步分割所得的每一頁面塊,均給出一相應的DOC值,后續(xù),VIPS基于每一頁面塊內的HTML元素的布局特征,繼續(xù)對每一頁面塊進行劃分,同時基于設定的DOC上限值(可根據經驗確定)對整個網頁頁面的區(qū)域劃分粒度進行控制,當整個網頁頁面中當前劃分所得的最小劃分粒度的每一個子塊的DOC值達到設定的DOC上限值后,對網頁頁面的劃分結束。

      參考圖1,其中,圖1(a)示出了一個HTML頁面的外觀,圖1(b)示出了使用VIPS算法對該HTML頁面進行劃分后所得的各頁面塊的示意圖,其中,整個頁面最初被劃分為4個塊:VB1、VB2、VB3和VB4,而在設定的DOC上限值的控制下,VB1又被劃分為兩個子塊:VB1_1和VB1_2,其他塊的劃分情況也類似于此,具體可參考圖1(b)所示,此處不再詳述。

      然而,VIPS只是對頁面進行了劃分,無法判斷劃分后所得的各個部分的語義類型(如具體屬于題目、正文還是關鍵詞等);另外,VIPS算法需要對整個頁面進行遍歷式劃分,這會導致即使是無關的區(qū)域(如頁眉、頁腳、邊欄)也要進行大量無效的劃分操作;并且在根據DOC值進行劃分粒度的控制時,由于VIPS基于設定的DOC上限對整個網頁頁面進行劃分,對于正文及題目來說,可能會分別出現(xiàn)劃分粒度太細及太粗的問題,從而往往無法準確地滿足信息抽取時所需的檢測粒度,因此,直接使用VIPS并不能解決網頁頁面中重要信息(如新聞題目、正文)的自動識別、抽取問題。

      為此,本發(fā)明提出一種基于區(qū)域分割(自頂向下)的網頁信息抽取方法及裝置,該方法/裝置基于VIPS,但與現(xiàn)有VIPS不同的是,本發(fā)明方案在基于VIPS對網頁頁面進行初步劃分的基礎上,僅僅在特定區(qū)域(而非整個頁面區(qū)域)對網頁進行細分,并且,根據待抽取部分(如新聞題目、正文、關鍵詞)在頁面中的視覺特征需求,以最終是否在頁面中發(fā)現(xiàn)待抽取部分為準進行頁面劃分粒度的控制,以避免過細或者過粗的劃分,從而確保較高的識別效率,接下來,將通過多個實施例對本發(fā)明方案進行詳細闡述。

      實施例一

      參考圖2,圖2示出了本發(fā)明的一種網頁信息抽取方法的流程圖,該方法可以包括以下步驟:

      步驟201、基于網頁中各網頁元素的視覺信息及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊。

      本實施例中,所述網頁指互聯(lián)網網頁,其具體可以是諸如新聞、學術期刊、論文等各種類型的web網頁。網頁中的網頁元素具體可以是網頁源文件如HTML網頁文件中的HTML元素。

      此處,網頁中網頁元素的視覺信息,可以包括網頁元素在網頁中的布局位置、背景顏色、字體大小等布局信息,則該步驟201可以通過以下過程實現(xiàn):基于網頁中各網頁元素的布局特征信息,確定網頁頁面的各個分割線;依據所述分割線及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊。

      本步驟201具體利用VIPS,基于網頁中各HTML元素的布局信息,如布局位置、字體大小、背景顏色等對網頁頁面進行初步劃分,該初步劃分可以是基于VIPS所進行的一輪或多于一輪的頁面分割。所劃分的輪數(shù)以預先制定的所述第一劃分標準為依據進行確定。所述第一劃分標準具體為基于該步驟201對網頁進行初步劃分時所需的劃分精細程度所制定的標準。

      參考圖3(a)示出的網頁頁面,假設在基于VIPS對圖3(a)的頁面進行一輪分割后,得到如圖3(b)所示的4個頁面塊VB1、VB2、VB3及VB4(即所述分割線為該頁面的所有分割線中的最粗分割線),且假設此輪劃分后所得的劃分結果達到所述第一劃分標準要求的精細程度,則本步驟的劃分操作結束,否則,如果未達到,則可基于VIPS對前一輪的劃分結果繼續(xù)進行劃分,直至達到該第一劃分標準對應的劃分精細程度為止,例如,可繼續(xù)將VB2劃分為VB2_1、VB2_2、VB2_3這3個子塊以實現(xiàn)更精細的劃分等。

      在此基礎上,僅僅在初步劃分所得的各區(qū)域中的特定區(qū)域(而非整個頁面區(qū)域)對網頁進行細分,并且,根據待抽取部分(如新聞題目、正文、關鍵詞)在頁面中的視覺特征需求,以最終是否在頁面中發(fā)現(xiàn)待抽取部分為準進行頁面劃分粒度的控制,進而實現(xiàn)待抽取部分的識別和信息抽取。接下來,將通過以下的各步驟實現(xiàn)對網頁中的題目、正文及關鍵詞等待抽取部分進行識別及信息抽取。

      本實施例中,所述正文指網頁主體信息所對應的網頁正文,如新聞網頁中的新聞正文等,所述題目及關鍵詞分別指與網頁正文相對應的正文題目及正文關鍵詞,如與新聞正文對應的新聞題目及新聞關鍵詞等。

      步驟202、從所述多于一個的頁面塊中確定出符合第一條件的至少一個第一頁面塊;其中,所述第一條件為基于正文題目在網頁頁面中的第一視覺特征需求信息所確定的條件。

      所述第一視覺特征需求信息包括第一位置需求信息,所述第一位置需求信息具體為正文題目在網頁頁面中所處的位置需滿足的信息,該第一位置需求信息具體可基于正文題目在網頁頁面中的慣常布局特征來確定,例如,一般來說,正文題目在網頁頁面中所處的位置具有以下特征:在水平方向上處于頁面中部,在垂直方向上處于頁面中部或上部,基于此,所述第一位置需求信息即可以包含該位置特征信息,從而,基于包括該第一位置需求信息的所述第一視覺特征需求,所確定的所述第一條件可以為:在水平方向上處于網頁頁面的中部,垂直方向上處于網頁頁面的中部或上部。

      步驟203、在所述至少一個第一頁面塊中搜索出與預先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息。

      所述預先獲得的正文題目屬性值,具體為從網頁源文件如HTML網頁文件的標頭信息中所獲得的title屬性值。其中,標頭是HTML頁面中用<header>標簽包含的部分,在標頭與HTML主體之間尚需空一行分割,HTML網頁文件的標頭信息中一般包括title屬性值,即網頁的正文題目屬性值。

      在此基礎上,該步驟具體可以通過以下過程實現(xiàn):從所述多于一個的頁面塊中,確定出在網頁頁面中所處的位置符合第一位置需求信息的至少一個第一頁面塊;從所述至少一個第一頁面塊對應的網頁源文件信息中,搜索出與預先從網頁源文件的標頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時不再對所述至少一個第一頁面塊中未搜索的第一頁面塊進行搜索。

      該步驟可以通過以下過程實現(xiàn)從所述題目元素所在的第一頁面塊中確定出僅包含所述題目元素的題目塊:基于所述題目元素所在的第一頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準,將所述題目元素所在的第一頁面塊劃分為多于一個的第一頁面塊子塊;確定出所述題目元素所在的第一頁面塊子塊;判斷所述題目元素所在的第一頁面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁面塊子塊為所述題目塊;若否,則繼續(xù)對所述題目元素所在的第一頁面塊子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。

      在確定出題目塊的基礎上,可從該塊中抽取出相應的題目信息,從而完成了題目部分的信息抽取。

      步驟204、從所述多于一個的頁面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網頁正文在網頁頁面中的第二視覺特征需求信息所確定的條件,所述正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊。

      具體地,所述第二條件所依據的第二視覺特征需求信息為:基于預設的候選正文視覺需求信息及正文文字在預定視覺特征上的相似度所確定的信息。

      在此基礎上,可通過以下過程實現(xiàn)正文塊的確定:

      從所述多于一個的頁面塊中確定出符合候選正文視覺需求信息的一個最小塊作為候選正文塊,所述候選正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;從所述候選正文塊中確定出文字長度最大的子塊作為正文種子塊;在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預定閾值的上位子塊及下位子塊為止,合并結束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

      其中,所述候選正文視覺需求信息包括:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息。所述第二位置需求信息具體可基于正文在網頁頁面中的慣常布局特征來確定,例如,一般來說,正文在網頁頁面中所處的位置具有以下特征:在水平方向上處于頁面中部,在垂直方向上處于頁面中部或上部,基于此,所述第二位置需求信息即可包含該布局特征信息。

      需要說明書的是,本發(fā)明中某一頁面塊在某一方向上在網頁頁面中所處的位置(中部或上部等),具體可以以該頁面塊的幾何中心與整個頁面幾何中心的相對位置來衡量、確定,例如,塊A在垂直方向上處于頁面的中部或上部,相應地,具體可以是塊A的幾何中心與頁面幾何中心在同一水平線上,或塊A的幾何中心在頁面幾何中心的上部。

      當確定出正文塊后,可從所述正文塊中抽取出相應的正文信息,從而實現(xiàn)了正文信息的抽取。

      步驟205、依據所述題目塊和所述正文塊在頁面中對應的視覺信息,并結合正文關鍵詞在網頁頁面中的第三視覺特征需求信息,確定出關鍵詞塊,并抽取所述關鍵詞塊中的關鍵詞信息;所述關鍵詞塊為所述多于一個的頁面塊中的某一個頁面塊的子塊。

      該步驟可以通過以下過程實現(xiàn):

      基于候選關鍵詞總塊中各網頁元素的位置信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊;從各個候選關鍵詞塊中確定出符合第三視覺特征需求信息的關鍵詞塊,所述關鍵詞塊為某一個候選關鍵詞塊或某一個候選關鍵詞塊的子塊;若未能從各個候選關鍵詞塊中確定出關鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關鍵詞總塊,并從所述新的候選關鍵詞總塊中確定符合第三視覺特征需求信息的關鍵詞塊。

      接下來,會通過相應實施例分別對從網頁中抽取題目、正文、關鍵詞的實現(xiàn)過程進行詳細闡述。

      由以上方案可知,本發(fā)明公開的網頁信息抽取方法,在基于網頁中各網頁元素的位置信息及預定的劃分標準,將網頁頁面劃分為多于一個的頁面塊的基礎上,通過基于待抽取部分在網頁頁面中對應的相應視覺特征需求信息,從劃分所得的各個頁面塊中確定出待抽取部分所對應的信息塊,如基于網頁正文在網頁頁面中的視覺特征需求信息,從多于一個的頁面塊中確定出正文塊等,進而在此基礎上,可實現(xiàn)從確定出的待抽取部分對應的信息塊中進行所需的信息抽取??梢?,本發(fā)明實現(xiàn)了一種基于網頁分割及待抽取部分在網頁頁面中的視覺特征的網頁信息抽取方案,由于待抽取部分在網頁頁面中的視覺特征具有較高的確定性,如正文題目一般在水平方向上處于網頁頁面的中部,在垂直方向上處于網頁的中上部等等,從而應用本發(fā)明方案可有效提升網頁信息的提取準確率。

      實施例二

      本實施二對從網頁中抽取題目信息的實現(xiàn)過程進行詳述,參考圖4,具體可通過以下步驟實現(xiàn)網頁中題目信息的抽?。?/p>

      步驟401、從所述多于一個的頁面塊中,確定出在網頁頁面中所處的位置符合第一位置需求信息的至少一個第一頁面塊。

      所述第一位置需求信息具體為正文題目在網頁頁面中所處的位置需滿足的信息,本實施例依據正文題目在網頁頁面中的慣常布局特征,將所述第一位置需求信息確定為:在水平方向上處于網頁頁面的中部,垂直方向上處于網頁頁面的中部或上部。

      本步驟具體從對網頁頁面進行初步劃分所得的各個頁面塊中,確定出符合所述第一位置需求信息,即確定出在水平方向上處于網頁頁面的中部,垂直方向上處于網頁頁面的中部或上部的至少一個第一頁面塊。參考圖3(b),假設對網頁頁面初步劃分后所得的各頁面塊為VB1、VB2、VB3及VB4,則本步驟可確定出符合所述第一位置需求信息的頁面塊為VB1、VB2,也就是說在VB1、VB2、VB3及VB4四個頁面塊中,一般情況下,正文題目僅可能出現(xiàn)在VB1或VB2中,而不太可能出現(xiàn)在VB3、VB4中。

      步驟402、從所述至少一個第一頁面塊對應的網頁源文件信息中,搜索出與預先從網頁源文件的標頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時不再對所述至少一個第一頁面塊中未搜索的第一頁面塊進行搜索。

      所述預先獲得的正文題目屬性值,具體為從網頁源文件如HTML網頁文件的標頭信息中所獲得的title屬性值。

      由于正文題目一般在水平方向上處于網頁頁面的中部,垂直方向上處于網頁頁面的中部或上部,因此,本步驟僅從符合該位置需求(即第一位置需求信息)的一個或多于一個的頁面塊中,搜索與預先獲得的正文題目屬性值相匹配的題目元素,如對于圖3(b)中初步劃分所得的VB1、VB2、VB3、VB4四個塊,僅對VB1、VB2進行搜索,具體地,可從VB1、VB2在HTML網頁文件中對應的部分搜索具有標題標識的相關元素,如搜索h1/h2元素等,由于在HTML網頁文件中具有標題標識的元素可能是正文題目元素,也可能是一些非正文題目的元素,如廣告題目對應的HTML元素等,從而在搜索出h1/h2元素時,需判斷該元素的內容與title屬性值的編輯距離是否低于預定的距離閾值,如果低于,則表示搜索出的h1/h2元素的內容與預先獲得的title屬性值相匹配,從而搜索成功。

      一旦搜索成功,則不再繼續(xù)對符合第一位置需求信息的頁面塊中未搜索的塊進行搜索,以提高搜索效率,避免對無效區(qū)域進行操作,例如,假設在從VB2(VB2在HTML網頁文件中對應的部分)中搜索出與所述title屬性值相匹配的題目元素即h1/h2元素后,則不再繼續(xù)對VB1進行搜索。

      步驟403、基于所述題目元素所在的第一頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準,將所述題目元素所在的第一頁面塊劃分為多于一個的第一頁面塊子塊。

      在確定出題目元素所在的第一頁面塊后,繼續(xù)依據該頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準對該頁面塊進行劃分,而對于其他不包含題目元素的頁面塊則不執(zhí)行劃分操作。

      所述第二劃分標準具體為:根據對題目元素所在的第一頁面塊進行劃分時實際所需的劃分精細程度所制定的標準。該步驟具體可依據所述第二劃分標準,利用VIPS對題目元素所在的第一頁面塊進行一輪或多于一輪的分割操作。

      步驟404、確定出所述題目元素所在的第一頁面塊子塊。

      在對題目元素所在的第一頁面塊進行分割,得到各個第一頁面塊子塊的基礎上,本步驟繼續(xù)從分割所得的各個第一頁面塊子塊中對題目元素進行搜索,以確定題目元素所在的子塊。一旦搜索成功,則不再繼續(xù)對其他未搜索的子塊進行搜索。

      步驟405、判斷所述題目元素所在的第一頁面塊子塊是否僅包含所述題目元素。

      步驟406、若是,則確定出所述題目元素所在的第一頁面塊子塊為所述題目塊。

      步驟407、若否,則繼續(xù)對所述題目元素所在的第一頁面塊子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。

      在以上步驟基礎上,步驟405判斷題目元素所在的第一頁面塊子塊是否僅包含所述題目元素,若是,則表示該子塊為包含題目元素的最小頁面塊,從而可確定出該子塊即為題目塊,最終可對該題目塊進行信息抽取,并將抽取出的信息作為題目信息。

      否則,若該子塊并非僅包含所述題目元素,則繼續(xù)對該子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。其中,該步驟的劃分過程與步驟403的劃分過程類似,是對步驟403的劃分過程的遞歸應用,具體參考步驟403的描述即可,此處不再進行詳述。

      參考圖5所示,采用本實施例的題目抽取方案,當將網頁頁面初步分割為VB1,VB2,VB3和VB4之后,由于在VB2中發(fā)現(xiàn)與預先獲得的title屬性值相匹配的題目元素,從而其他頁面塊無需進一步劃分,而僅需對VB2進行繼續(xù)展開,如圖5所示,將VB2繼續(xù)劃分為VB2_1、VB2_2和VB2_3,并在VB2_2中發(fā)現(xiàn)題目元素,類似地,繼續(xù)對VB2_2進行劃分,得到VB2_2_1和VB2_2_2,繼續(xù)對VB2_2_1進行劃分,得到VB2_2_1_1及VB2_2_1_2,直到發(fā)現(xiàn)VB2_2_1_1僅包含題目元素,從而確定出VB2_2_1_1是題目塊,最終抽取該VB2_2_1_1塊的信息作為題目信息。

      通過本實施例的方案,可實現(xiàn)準確、有效地對網頁中的題目信息進行抽取,且可避免對其他無效區(qū)域(相對于題目而言的無效)進行操作,確保了較高的信息抽取效率。

      實施例三

      本實施三對從網頁中抽取正文信息的實現(xiàn)過程進行詳述,參考圖6,具體可通過以下步驟實現(xiàn)網頁中題目信息的抽?。?/p>

      步驟601、從所述多于一個的頁面塊中確定出符合候選正文視覺需求信息的一個最小塊作為候選正文塊,所述候選正文視覺需求信息包括:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊。

      本實施例通過從對網頁頁面進行初步劃分所得的各個頁面塊中,確定出符合候選正文視覺需求信息的最小塊,并將其作為候選正文塊,在此基礎上,通過對候選正文塊進行操作,實現(xiàn)從候選正文塊中確定出最終的正文塊。其中,候選正文塊的任何子塊(如按VIPS對候選正文塊繼續(xù)劃分后所得的各個子塊)不符合所述候選正文視覺需求信息的要求。

      一般來說,網頁正文如新聞正文等會在頁面中占據相當大一部分比例(如20%以上),且一般在水平方向上處于網頁頁面的中部,在垂直方向上處于網頁的中部或上部,基于此,本實施例將所述候選正文視覺需求信息確定為:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息。

      其中,由于后續(xù)需要從該候選正文塊中確定出最終的正文塊,從而所確定出的所述候選正文塊至少需包含正文塊,基于此,所述第一預定閾值一般為一個較大的數(shù)值,如可以是依據經驗所確定的正文面積占整個頁面面積的比例上限值;所述第二位置需求信息即為:在水平方向上處于網頁頁面的中部,在垂直方向上處于網頁的中部或上部。

      如圖5所示,依據所述候選正文視覺需求信息,可確定出圖5對應的頁面中VB2_2_2為符合該需求信息的最小塊,從而該VB2_2_2塊即為候選正文塊。

      步驟602、從所述候選正文塊中確定出文字長度最大的子塊作為正文種子塊。

      在確定出候選正文塊的基礎上,繼續(xù)對該候選正文塊進行操作,實現(xiàn)從中確定出正文塊,而對于其他無關的塊(相對于正文而言)則不再執(zhí)行相應操作。

      具體的,可首先基于VIPS對該候選正文塊進行劃分,得到候選正文塊的各個子塊,之后,從候選正文塊的各個子塊中找到文字長度最大的子塊作為正文種子塊,比如,對圖5中候選正文塊VB2_2_2進行劃分后,可得到如圖7所示的該候選正文塊的各個子塊:VB2_2_2_1、VB2_2_2_2、VB2_2_2_3、VB2_2_2_4和VB2_2_2_5,其中,VB2_2_2_4是文字長度最大的子塊,從而可將VB2_2_2_4確定為正文種子塊。

      步驟603、在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊。

      正文文字間在文字密度、字體大小和/或背景顏色等方面具有較高的相似性,基于此,本實施例中,所述預定視覺特征上的相似度可以指在文字密度、字體大小和/或背景顏色等方面的相似度。所述第二預定閾值可以是基于經驗所確定的正文信息在上述相應視覺特征上的相似度下限值。

      在所述候選正文塊中,如果正文種子塊的上部存在與其相鄰的上位子塊,且該上位子塊與正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,比如該上位子塊的文字密度不小于正文種子塊文字密度的30%(假設此時兩者在文字密度的相似度不低于所述第二預定閾值),則將所述正文種子塊及所述上位子塊進行合并,得到新的正文種子塊。

      步驟604、在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預定閾值的上位子塊及下位子塊為止,合并結束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

      相對應地,如果正文種子塊的下部存在與其相鄰的下位子塊,且該下位子塊與正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,比如該下位子塊的文字密度不小于正文種子塊文字密度的30%(假設此時兩者在文字密度的相似度不低于所述第二預定閾值),則將所述正文種子塊及所述下位子塊進行合并,得到新的正文種子塊。

      本實施例通過迭代執(zhí)行上述合并過程獲得最終的正文塊,其中迭代過程直至不存在符合上述要求的上位子塊及下位子塊時結束。迭代結束時所得的最新的正文種子塊即為最終的正文塊。從而,在此基礎上,可抽取該正文塊的信息作為網頁的正文信息。

      仍以圖7為例,當確定出文字長度最大的子塊VB2_2_2_4初步作為正文種子塊后,向上,VB2_2_2_4和VB2_2_2_3合并成新的正文種子塊;向下,所述新的正文種子塊(即VB2_2_2_4加VB2_2_2_3)與VB2_2_2_5繼續(xù)合并成新的正文種子塊,而對于候選正文塊中包括的圖片部分,鑒于其與參與合并的文字類子塊具有相似的位置特征(均在水平方向上處于網頁中部,垂直方向上處于網頁中上部),考慮其極有可能是正文配圖,會對用戶閱讀網頁正文產生較大的輔助作用,因此,本實施例優(yōu)選地,針對圖片部分的子塊,不必滿足上述文字類子塊合并時需滿足的要求,直接將其合并至正文塊即可,從而最后合并后可得到正文塊VB2_2_2。

      本實施例實現(xiàn)了基于網頁正文的視覺特征信息對網頁正文進行抽取,正文識別及抽取的準確率較高,且避免了對無效區(qū)域進行操作,能夠確保一較高的抽取效率。

      實施例四

      本實施四對從網頁中抽取關鍵詞的實現(xiàn)過程進行詳述,參考圖8,具體可通過以下步驟實現(xiàn)網頁中關鍵詞信息的抽?。?/p>

      步驟801、依據所述題目塊和所述正文塊在頁面中對應的視覺信息,確定出候選關鍵詞總塊,所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊。

      一般來說,在網頁頁面中,多數(shù)情況下,正文關鍵詞處于正文題目與正文之間,少數(shù)情況下,正文關鍵詞處于正文的正下方,如具體處于正文正下方的偏左部分或正文正下方的偏右部分等。

      基于此,本實施例依據確定出的題目塊及正文塊在頁面中的視覺信息,如具體所處的位置等,來定位出一候選關鍵詞總塊,如在圖7中,可確定出候選關鍵詞總塊為處于題目塊VB2_2_1_1與正文塊VB2_2_2之間的塊VB2_2_1_2,后續(xù)通過對該候選關鍵詞總塊進行分割,并依據關鍵詞對應的視覺特征需求從分割所得的各子塊中確定出關鍵詞塊。

      步驟802、基于候選關鍵詞總塊中各網頁元素的視覺信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊。

      其中,可基于候選關鍵詞總塊中各網頁元素的視覺信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;候選關鍵詞總塊中各網頁元素的視覺信息可以包括:候選關鍵詞總塊中各網頁元素的布局位置、間距(如詞間距)、背景顏色、字體大小等布局信息;所述第三劃分標準具體為基于對候選關鍵詞總塊進行劃分時實際所需的劃分精細程度所制定的標準。

      實際劃分時,可采用VIPS并結合所述第三劃分標準,對所述候選關鍵詞總塊進行所需的一輪或多于一輪的分割,得到各個候選關鍵詞塊。

      參考圖9,當依據本實施例方法,從題目塊VB2_2_1_1與正文塊VB2_2_2之間確定出候選關鍵詞總塊VB2_2_1_2之后,可將該候選關鍵詞總塊VB2_2_1_2基于VIPS繼續(xù)劃分為VB2_2_1_2_1和VB2_2_1_2_2。其中,通過與圖3(a)的實際頁面對比可知,VB2_2_1_2_1實際對應作者和日期信息,VB2_2_1_2_2實際對應關鍵詞信息,后續(xù)通過依據關鍵詞需滿足的第三視覺特征需求信息對這兩個塊加以識別。

      步驟803、從各個候選關鍵詞塊中確定出符合第三視覺特征需求信息的關鍵詞塊,所述關鍵詞塊為某一個候選關鍵詞塊或某一個候選關鍵詞塊的子塊。

      網頁的正文關鍵詞信息一般對應一個包含多個關鍵詞的關鍵詞列表(該列表一般至少包括3個關鍵詞),關鍵詞列表中的各關鍵詞具有較為相似的視覺特征,例如,一般情況下,各關鍵詞采用相同的字體,背景顏色,且各個關鍵詞中相鄰關鍵詞間的詞間距相同,基于此,本實施例中,所述第三視覺特征需求信息即可以是包含上述關鍵詞特征的信息。

      本步驟具體從各個候選關鍵詞塊中確定出符合所述第三視覺特征需求信息的候選關鍵詞塊,并判斷確定出的該候選關鍵詞塊是否僅包含符合所述第三視覺特征需求信息的關鍵詞列表,如果否,則繼續(xù)對該候選關鍵詞塊進行基于VIPS的劃分,直至確定出一個僅包含符合所述第三視覺特征需求信息的關鍵詞列表的塊為止,則該塊即為關鍵詞塊。之后,可通過抽取該關鍵詞塊中的關鍵詞列表信息,來實現(xiàn)關鍵詞信息的抽取。

      由于在網頁頁面中,每個關鍵詞一般都會對應包含一個鏈接,該鏈接要么帶有關鍵詞標識,如該鏈接具體在HTML網頁文件中直接對應有“tag|key”字樣,要么擁有一個class屬性并且屬性內容中帶有“tag|key”字樣。也就是說,每個正文關鍵詞在HTML文件中均會對應一個關鍵詞標識(反過來,帶有關鍵詞標識的元素不一定對應正文關鍵詞,可能對應廣告詞等非正文關鍵詞的信息),基于此,在本發(fā)明其他實施例中,還可通過查驗所確定出的各關鍵詞的關鍵詞標識來驗證關鍵詞的正確性,一般來說,如果確定出的關鍵詞不存在關鍵詞標識,則可獲知該關鍵詞存在誤判,需重新確定及抽取關鍵詞。

      另外,在本發(fā)明其他實施例中,還可通過將所述第三視覺特征需求信息以及存在關鍵詞標識,共同作為關鍵詞的確定依據,來進行候選關鍵詞總塊的區(qū)域劃分以及在此基礎上的關鍵詞塊的確定。

      如圖9所示,通過對塊VB2_2_1_2_2進行劃分處理,可知該塊由一系列具有相似特征的子塊VB2_2_1_2_2_1、VB2_2_1_2_2_2、VB2_2_1_2_2_3和VB2_2_1_2_2_4(圖9中未標出,具體為圖9中VB2_2_1_2_2包括的四個子塊)構成,具體地,各子塊中的字體大小相同、背景顏色相同、且相鄰子塊間的間距相同,從而識別出塊VB2_2_1_2_2即為關鍵詞塊,最終通過抽取該塊中各子塊的信息即可實現(xiàn)正文關鍵詞信息的抽取。

      步驟804、若未能從各個候選關鍵詞塊中確定出關鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關鍵詞總塊,并從所述新的候選關鍵詞總塊中確定符合第三視覺特征需求信息的關鍵詞塊。

      如果從處于題目塊及正文塊之間的所述候選關鍵詞總塊中未確定出符合要求的關鍵詞塊,則繼續(xù)將正文塊正下方的塊作為新的候選關鍵詞總塊,并按上述從候選關鍵詞總塊中確定出關鍵詞塊的實現(xiàn)過程,對該新的候選關鍵詞總塊進行處理,直至確定出符合要求的關鍵詞塊(或最終仍未確定出關鍵詞塊)為止,進而在此基礎上實現(xiàn)關鍵詞信息的抽取(或在未確定出關鍵詞塊的情況下抽取失敗)。

      本發(fā)明基于待抽取部分在網頁頁面中的視覺特征信息,可以準確、高效地對正文題目、網頁正文及正文關鍵詞等各個待抽取部分進行基于頁面分割的信息識別及信息抽取,在對頁面進行分割時,可基于是否找到待抽取部分對頁面進行劃分粒度的控制,從而實現(xiàn)了頁面劃分粒度的按需控制,且在對頁面進行分割時,可避免對待抽取部分所在區(qū)域以外的其他無效區(qū)域進行分割,有效提高了基于頁面分割的網頁信息抽取效率。

      實施例五

      本實施例五公開一種網頁信息抽取裝置,參考圖10示出的網頁信息抽取裝置的結構示意圖,該裝置包括:

      第一劃分單元101,用于基于網頁中各網頁元素的視覺信息及預定的第一劃分標準,將網頁頁面劃分為多于一個的頁面塊;確定單元102,用于從所述多于一個的頁面塊中確定出符合第一條件的至少一個第一頁面塊;其中,所述第一條件為基于正文題目在網頁頁面中的第一視覺特征需求信息所確定的條件;第一抽取單元103,用于在所述至少一個第一頁面塊中搜索出與預先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;第二抽取單元104,用于從所述多于一個的頁面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網頁正文在網頁頁面中的第二視覺特征需求信息所確定的條件,所述正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;第三抽取單元105,用于依據所述題目塊和所述正文塊在頁面中對應的視覺信息,并結合正文關鍵詞在網頁頁面中的第三視覺特征需求信息,確定出關鍵詞塊,并抽取所述關鍵詞塊中的關鍵詞信息;所述關鍵詞塊為所述多于一個的頁面塊中的某一個頁面塊的子塊。

      在本發(fā)明實施例的一實施方式中,所述確定單元,進一步用于:從所述多于一個的頁面塊中,確定出在網頁頁面中所處的位置符合第一位置信息的至少一個第一頁面塊;

      所述第一抽取單元,進一步用于:

      從所述至少一個第一頁面塊對應的網頁源文件信息中,搜索出與預先從網頁源文件的標頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時不再對所述至少一個第一頁面塊中未搜索的第一頁面塊進行搜索;基于所述題目元素所在的第一頁面塊中各網頁元素的視覺信息,及預定的第二劃分標準,將所述題目元素所在的第一頁面塊劃分為多于一個的第一頁面塊子塊;確定出所述題目元素所在的第一頁面塊子塊;判斷所述題目元素所在的第一頁面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁面塊子塊為所述題目塊;若否,則繼續(xù)對所述題目元素所在的第一頁面塊子塊進行劃分,直至確定出僅包含所述題目元素的題目塊為止。

      在本發(fā)明實施例的一實施方式中,所述第二抽取單元從所述多于一個的頁面塊中確定出符合第二條件的正文塊,進一步包括:

      從所述多于一個的頁面塊中確定出符合候選正文視覺需求信息的一個最小塊作為候選正文塊,所述候選正文視覺需求信息包括:在網頁頁面中所占面積與網頁頁面總面積的比值不低于第一預定閾值,且在網頁頁面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個的頁面塊中的某一個頁面塊或某一個頁面塊的子塊;從所述候選正文塊中確定出文字長度最大的子塊作為正文種子塊;在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預定視覺特征上的相似度不低于第二預定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預定閾值的上位子塊及下位子塊為止,合并結束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

      在本發(fā)明實施例的一實施方式中,所述第三抽取單元確定出關鍵詞塊,進一步包括:

      依據所述題目塊和所述正文塊在頁面中對應的視覺信息,確定出候選關鍵詞總塊,所述候選關鍵詞總塊為網頁頁面中處于所述題目塊及所述正文塊之間的塊;基于候選關鍵詞總塊中各網頁元素的視覺信息,及預定的第三劃分標準,將所述候選關鍵詞總塊劃分為多于一個的候選關鍵詞塊;從各個候選關鍵詞塊中確定出符合第三視覺特征需求信息的關鍵詞塊,所述關鍵詞塊為某一個候選關鍵詞塊或某一個候選關鍵詞塊的子塊;若未能從各個候選關鍵詞塊中確定出關鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關鍵詞總塊,并從所述新的候選關鍵詞總塊中確定符合第三視覺特征需求信息的關鍵詞塊。

      此處,需要說明的是,本實施例涉及的網頁信息抽取裝置的描述,與上文各實施例方法的描述是類似的,且同方法的有益效果描述,對于本發(fā)明的網頁信息抽取裝置在本實施例中未披露的技術細節(jié),請參照本發(fā)明方法實施例的說明,本實施對此不再作贅述。

      需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。

      為了描述的方便,描述以上系統(tǒng)或裝置時以功能分為各種模塊或單元分別描述。當然,在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。

      通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解,本申請的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品可以存儲在存儲介質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。

      最后,還需要說明的是,在本文中,諸如第一、第二、第三和第四等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

      以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1