本發(fā)明屬于網(wǎng)絡(luò)方法領(lǐng)域,更具體地說,本發(fā)明涉及一種基于本體思想的網(wǎng)頁信息提取方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web上的網(wǎng)頁數(shù)目正以指數(shù)級(jí)的爆炸性趨勢(shì)增長(zhǎng)。面對(duì)如此巨大的資源,在Web上檢索及發(fā)現(xiàn)有價(jià)值的信息已成為一項(xiàng)重要的任務(wù)。基于Web的研究涉及信息檢索、信息過濾、信息抽取、搜索引擎、網(wǎng)頁分類等,它們研究處理的主要對(duì)象就是網(wǎng)頁信息。在網(wǎng)頁中除了表達(dá)主題的正文內(nèi)容外,還有與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及相關(guān)鏈接等噪音內(nèi)容。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的問題是提供一種基于本體思想的網(wǎng)頁信息提取方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種基于本體思想的網(wǎng)頁信息提取方法,包括如下步驟:
(1)網(wǎng)頁文檔預(yù)處理
將待抽取信息的網(wǎng)頁作為信息源,主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析,處理成網(wǎng)頁文本;
(2)本體化分類
利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞,并對(duì)詞語進(jìn)行本體化分類,同時(shí)得到特征詞在文本中出現(xiàn)的頻率;
(3)權(quán)值計(jì)算
根據(jù)向量空間模型,將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量,接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來,所述公式為Wi=∑(Wt*Pt*Wi);
(4)計(jì)算主題相關(guān)度
根據(jù)主題相關(guān)度公式
分析主題相關(guān)度;
(5)分析主題相關(guān)度
將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較。
優(yōu)選的,所述步驟(1)中主題爬蟲的實(shí)現(xiàn)過程分為:
①訓(xùn)練集的選??;
②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器;
③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊;
④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí)。
優(yōu)選的,所述步驟(1)中主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為:
①利用URL串自身攜帶的信息確定URL的權(quán)重;
②利用URL串的錨文本信息確定URL的權(quán)重;
③對(duì)于網(wǎng)頁塊中剩下的普通的URL,首先利用網(wǎng)頁塊內(nèi)容信息根據(jù)分類器判斷該網(wǎng)頁塊所屬主題q,然后將這些普通的URL的權(quán)重賦值為網(wǎng)頁塊與q的相似度和q到目標(biāo)主題的轉(zhuǎn)移概率的乘積;
④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中,權(quán)重值高的URL優(yōu)先爬行。
優(yōu)選的,所述步驟②主題分類器的構(gòu)建包括如下步驟:
1)特征詞的選??;
2)類中心向量的各個(gè)分量的權(quán)重;
3)確定待分類的網(wǎng)頁塊所屬的主題類別;
4)計(jì)算下載的網(wǎng)頁與主題類別的相似度。
優(yōu)選的,所述步驟(3)中權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子。
優(yōu)選的,所述步驟(5)中若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值,則保留此網(wǎng)頁,若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值,則進(jìn)行舍棄。
有益效果:本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法,該方法采用向量空間模型,首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞,其次計(jì)算特征權(quán)值,然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度,最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較,從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低,減少網(wǎng)頁信息的遺漏,提高了信息提取的質(zhì)量。
具體實(shí)施方式
圖1為一種基于本體思想的網(wǎng)頁信息提取方法的流程圖;
一種基于本體思想的網(wǎng)頁信息提取方法,其特征在于,包括如下步驟:
(1)網(wǎng)頁文檔預(yù)處理
將待抽取信息的網(wǎng)頁作為信息源,主題爬蟲對(duì)網(wǎng)頁錨文本、網(wǎng)頁標(biāo)題、正文標(biāo)題和正文以標(biāo)簽樹的方式進(jìn)行結(jié)構(gòu)化分析,處理成網(wǎng)頁文本,主題爬蟲的實(shí)現(xiàn)過程分為:
①訓(xùn)練集的選??;
②由訓(xùn)練集得到各主題類別間的轉(zhuǎn)移概率和主題分類器,所述主題分類器的構(gòu)建包括如下步驟:
1)特征詞的選?。?/p>
2)類中心向量的各個(gè)分量的權(quán)重;
3)確定待分類的網(wǎng)頁塊所屬的主題類別;
4)計(jì)算下載的網(wǎng)頁與主題類別的相似度;
③利用基于視覺特征的VIPS算法將網(wǎng)頁分塊;
④在網(wǎng)頁塊的基礎(chǔ)上預(yù)測(cè)塊中URL的訪問優(yōu)先級(jí);
所述主題爬蟲確定該網(wǎng)頁中的URL訪問的優(yōu)先級(jí)步驟為:
①利用URL串自身攜帶的信息確定URL的權(quán)重;
②利用URL串的錨文本信息確定URL的權(quán)重;
③對(duì)于網(wǎng)頁塊中剩下的普通的URL,首先利用網(wǎng)頁塊內(nèi)容信息根據(jù)分類器判斷該網(wǎng)頁塊所屬主題q,然后將這些普通的URL的權(quán)重賦值為網(wǎng)頁塊與q的相似度和q到目標(biāo)主題的轉(zhuǎn)移概率的乘積;
④將網(wǎng)頁塊中的URL根據(jù)其對(duì)應(yīng)的權(quán)重值的高低插入待爬行隊(duì)列中,權(quán)重值高的URL優(yōu)先爬行
(2)本體化分類
利用分詞系統(tǒng)FreeICTCLAS的接口進(jìn)行分詞,并對(duì)詞語進(jìn)行本體化分類,同時(shí)得到特征詞在文本中出現(xiàn)的頻率;
(3)權(quán)值計(jì)算
根據(jù)向量空間模型,將每個(gè)網(wǎng)頁文本抽象成一個(gè)向量,接著通過公式將文本的特征關(guān)鍵詞所占的權(quán)值計(jì)算出來,權(quán)值計(jì)算還應(yīng)結(jié)合詞語頻率、逆向文件頻率和歸一化因子,所述公式為Wi=∑(Wt*Pt*Wi);
(4)計(jì)算主題相關(guān)度
根據(jù)主題相關(guān)度公式
分析主題相關(guān)度;
(5)分析主題相關(guān)度
將計(jì)算得到的主題相關(guān)度與系統(tǒng)設(shè)置的閾值進(jìn)行比較,若主題相關(guān)度大于系統(tǒng)設(shè)置的閾值,則保留此網(wǎng)頁,若主題相關(guān)度小于系統(tǒng)設(shè)置的閾值,則進(jìn)行舍棄。
本發(fā)明提供了一種基于本體思想的網(wǎng)頁信息提取方法,該方法采用向量空間模型,首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞,其次計(jì)算特征權(quán)值,然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度,最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較,從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低,減少網(wǎng)頁信息的遺漏,提高了信息提取的質(zhì)量。
以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。