一種基于本體思想的網(wǎng)頁信息提取方法與流程

文檔序號(hào)：11950498閱讀：326來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于網(wǎng)絡(luò)方法領(lǐng)域，更具體地說，本發(fā)明涉及一種基于本體思想的網(wǎng)頁信息提取方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的飛速發(fā)展，Web上的網(wǎng)頁數(shù)目正以指數(shù)級(jí)的爆炸性趨勢(shì)增長(zhǎng)。面對(duì)如此巨大的資源，在Web上檢索及發(fā)現(xiàn)有價(jià)值的信息已成為一項(xiàng)重要的任務(wù)。基于Web的研究涉及信息檢索、信息過濾、信息抽取、搜索引擎、網(wǎng)頁分類等,它們研究處理的主要對(duì)象就是網(wǎng)頁信息。在網(wǎng)頁中除了表達(dá)主題的正文內(nèi)容外，還有與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及相關(guān)鏈接等噪音內(nèi)容。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的問題是提供一種基于本體思想的網(wǎng)頁信息提取方法。

為了實(shí)現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案為：

一種基于本體思想的網(wǎng)頁信息提取方法，包括如下步驟：

(1)網(wǎng)頁文檔預(yù)處理

將待抽取信息的網(wǎng)頁作為信息源，主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析，處理成網(wǎng)頁文本；

(2)本體化分類

利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞，并對(duì)詞語進(jìn)行本體化分類，同時(shí)得到特征詞在文本中出現(xiàn)的頻率；

(3)權(quán)值計(jì)算

根據(jù)向量空間模型，將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量，接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來，所述公式為Wi＝∑(Wt*Pt*Wi)；

(4)計(jì)算主題相關(guān)度

根據(jù)主題相關(guān)度公式

分析主題相關(guān)度；

(5)分析主題相關(guān)度

將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較。

優(yōu)選的，所述步驟(1)中主題爬蟲的實(shí)現(xiàn)過程分為：

①訓(xùn)練集的選??；

②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器；

③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊；

④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí)。

優(yōu)選的，所述步驟(1)中主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為：

①利用URL串自身攜帶的信息確定URL的權(quán)重；

②利用URL串的錨文本信息確定URL的權(quán)重；

③對(duì)于網(wǎng)頁塊中剩下的普通的URL，首先利用網(wǎng)頁塊內(nèi)容信息根據(jù)分類器判斷該網(wǎng)頁塊所屬主題q，然后將這些普通的URL的權(quán)重賦值為網(wǎng)頁塊與q的相似度和q到目標(biāo)主題的轉(zhuǎn)移概率的乘積；

④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中，權(quán)重值高的URL優(yōu)先爬行。

優(yōu)選的，所述步驟②主題分類器的構(gòu)建包括如下步驟：

1)特征詞的選??；

2)類中心向量的各個(gè)分量的權(quán)重；

3)確定待分類的網(wǎng)頁塊所屬的主題類別；

4)計(jì)算下載的網(wǎng)頁與主題類別的相似度。

優(yōu)選的，所述步驟(3)中權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子。

優(yōu)選的，所述步驟(5)中若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值，則保留此網(wǎng)頁，若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值，則進(jìn)行舍棄。

有益效果：本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法，該方法采用向量空間模型，首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞，其次計(jì)算特征權(quán)值，然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度，最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較，從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低，減少網(wǎng)頁信息的遺漏，提高了信息提取的質(zhì)量。

具體實(shí)施方式

圖1為一種基于本體思想的網(wǎng)頁信息提取方法的流程圖；

一種基于本體思想的網(wǎng)頁信息提取方法，其特征在于，包括如下步驟：

(1)網(wǎng)頁文檔預(yù)處理

將待抽取信息的網(wǎng)頁作為信息源，主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析，處理成網(wǎng)頁文本，主題爬蟲的實(shí)現(xiàn)過程分為：

①訓(xùn)練集的選??；

②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器，所述主題分類器的構(gòu)建包括如下步驟：

1)特征詞的選?。?/p>

2)類中心向量的各個(gè)分量的權(quán)重；

3)確定待分類的網(wǎng)頁塊所屬的主題類別；

4)計(jì)算下載的網(wǎng)頁與主題類別的相似度；

③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊；

④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí)；

所述主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為：

①利用URL串自身攜帶的信息確定URL的權(quán)重；

②利用URL串的錨文本信息確定URL的權(quán)重；

④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中，權(quán)重值高的URL優(yōu)先爬行

(2)本體化分類

利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞，并對(duì)詞語進(jìn)行本體化分類，同時(shí)得到特征詞在文本中出現(xiàn)的頻率；

(3)權(quán)值計(jì)算

根據(jù)向量空間模型，將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量，接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來，權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子，所述公式為Wi＝∑(Wt*Pt*Wi)；

(4)計(jì)算主題相關(guān)度

根據(jù)主題相關(guān)度公式

分析主題相關(guān)度；

(5)分析主題相關(guān)度

將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較，若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值，則保留此網(wǎng)頁，若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值，則進(jìn)行舍棄。

本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法，該方法采用向量空間模型，首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞，其次計(jì)算特征權(quán)值，然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度，最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較，從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低，減少網(wǎng)頁信息的遺漏，提高了信息提取的質(zhì)量。

以上所述僅為本發(fā)明的實(shí)施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董雄飛;
技術(shù)所有人：合肥民眾億興軟件開發(fā)有限公司;
我是此專利的發(fā)明人

上一篇：搜索方法、裝置和搜索引擎與流程
上一篇：涂裝工藝的車體擦凈系統(tǒng)的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于本體思想的網(wǎng)頁信息提取方法與流程