国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于本體思想的網(wǎng)頁信息提取方法與流程

      文檔序號(hào):11950498閱讀:326來源:國知局

      本發(fā)明屬于網(wǎng)絡(luò)方法領(lǐng)域,更具體地說,本發(fā)明涉及一種基于本體思想的網(wǎng)頁信息提取方法。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web上的網(wǎng)頁數(shù)目正以指數(shù)級(jí)的爆炸性趨勢(shì)增長(zhǎng)。面對(duì)如此巨大的資源,在Web上檢索及發(fā)現(xiàn)有價(jià)值的信息已成為一項(xiàng)重要的任務(wù)。基于Web的研究涉及信息檢索、信息過濾、信息抽取、搜索引擎、網(wǎng)頁分類等,它們研究處理的主要對(duì)象就是網(wǎng)頁信息。在網(wǎng)頁中除了表達(dá)主題的正文內(nèi)容外,還有與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及相關(guān)鏈接等噪音內(nèi)容。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明所要解決的問題是提供一種基于本體思想的網(wǎng)頁信息提取方法。

      為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:

      一種基于本體思想的網(wǎng)頁信息提取方法,包括如下步驟:

      (1)網(wǎng)頁文檔預(yù)處理

      將待抽取信息的網(wǎng)頁作為信息源,主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析,處理成網(wǎng)頁文本;

      (2)本體化分類

      利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞,并對(duì)詞語進(jìn)行本體化分類,同時(shí)得到特征詞在文本中出現(xiàn)的頻率;

      (3)權(quán)值計(jì)算

      根據(jù)向量空間模型,將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量,接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來,所述公式為Wi=∑(Wt*Pt*Wi);

      (4)計(jì)算主題相關(guān)度

      根據(jù)主題相關(guān)度公式

      分析主題相關(guān)度;

      (5)分析主題相關(guān)度

      將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較。

      優(yōu)選的,所述步驟(1)中主題爬蟲的實(shí)現(xiàn)過程分為:

      ①訓(xùn)練集的選??;

      ②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器;

      ③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊;

      ④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí)。

      優(yōu)選的,所述步驟(1)中主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為:

      ①利用URL串自身攜帶的信息確定URL的權(quán)重;

      ②利用URL串的錨文本信息確定URL的權(quán)重;

      ③對(duì)于網(wǎng)頁塊中剩下的普通的URL,首先利用網(wǎng)頁塊內(nèi)容信息根據(jù)分類器判斷該網(wǎng)頁塊所屬主題q,然后將這些普通的URL的權(quán)重賦值為網(wǎng)頁塊與q的相似度和q到目標(biāo)主題的轉(zhuǎn)移概率的乘積;

      ④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中,權(quán)重值高的URL優(yōu)先爬行。

      優(yōu)選的,所述步驟②主題分類器的構(gòu)建包括如下步驟:

      1)特征詞的選??;

      2)類中心向量的各個(gè)分量的權(quán)重;

      3)確定待分類的網(wǎng)頁塊所屬的主題類別;

      4)計(jì)算下載的網(wǎng)頁與主題類別的相似度。

      優(yōu)選的,所述步驟(3)中權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子。

      優(yōu)選的,所述步驟(5)中若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值,則保留此網(wǎng)頁,若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值,則進(jìn)行舍棄。

      有益效果:本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法,該方法采用向量空間模型,首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞,其次計(jì)算特征權(quán)值,然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度,最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較,從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低,減少網(wǎng)頁信息的遺漏,提高了信息提取的質(zhì)量。

      具體實(shí)施方式

      圖1為一種基于本體思想的網(wǎng)頁信息提取方法的流程圖;

      一種基于本體思想的網(wǎng)頁信息提取方法,其特征在于,包括如下步驟:

      (1)網(wǎng)頁文檔預(yù)處理

      將待抽取信息的網(wǎng)頁作為信息源,主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析,處理成網(wǎng)頁文本,主題爬蟲的實(shí)現(xiàn)過程分為:

      ①訓(xùn)練集的選??;

      ②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器,所述主題分類器的構(gòu)建包括如下步驟:

      1)特征詞的選?。?/p>

      2)類中心向量的各個(gè)分量的權(quán)重;

      3)確定待分類的網(wǎng)頁塊所屬的主題類別;

      4)計(jì)算下載的網(wǎng)頁與主題類別的相似度;

      ③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊;

      ④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí);

      所述主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為:

      ①利用URL串自身攜帶的信息確定URL的權(quán)重;

      ②利用URL串的錨文本信息確定URL的權(quán)重;

      ③對(duì)于網(wǎng)頁塊中剩下的普通的URL,首先利用網(wǎng)頁塊內(nèi)容信息根據(jù)分類器判斷該網(wǎng)頁塊所屬主題q,然后將這些普通的URL的權(quán)重賦值為網(wǎng)頁塊與q的相似度和q到目標(biāo)主題的轉(zhuǎn)移概率的乘積;

      ④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中,權(quán)重值高的URL優(yōu)先爬行

      (2)本體化分類

      利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞,并對(duì)詞語進(jìn)行本體化分類,同時(shí)得到特征詞在文本中出現(xiàn)的頻率;

      (3)權(quán)值計(jì)算

      根據(jù)向量空間模型,將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量,接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來,權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子,所述公式為Wi=∑(Wt*Pt*Wi);

      (4)計(jì)算主題相關(guān)度

      根據(jù)主題相關(guān)度公式

      分析主題相關(guān)度;

      (5)分析主題相關(guān)度

      將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較,若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值,則保留此網(wǎng)頁,若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值,則進(jìn)行舍棄。

      本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法,該方法采用向量空間模型,首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞,其次計(jì)算特征權(quán)值,然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度,最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較,從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低,減少網(wǎng)頁信息的遺漏,提高了信息提取的質(zhì)量。

      以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1