技術(shù)總結(jié)
本發(fā)明公開了一種基于本體思想的網(wǎng)頁信息提取方法,該方法采用向量空間模型,首先對(duì)網(wǎng)頁分詞結(jié)果進(jìn)行分析得出特征詞,其次計(jì)算特征權(quán)值,然后結(jié)合本體思想分析網(wǎng)頁的主題相關(guān)度,最后采取主題相關(guān)度與系統(tǒng)設(shè)定的閾值進(jìn)行比較,從而提取該網(wǎng)頁的主題信息。此方法使網(wǎng)頁分析的運(yùn)算量降低,減少網(wǎng)頁信息的遺漏,提高了信息提取的質(zhì)量。
技術(shù)研發(fā)人員:董雄飛
受保護(hù)的技術(shù)使用者:合肥民眾億興軟件開發(fā)有限公司
文檔號(hào)碼:201610499614
技術(shù)研發(fā)日:2016.06.29
技術(shù)公布日:2016.12.07