一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法

文檔序號(hào)：6510733閱讀：540來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)的基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法，屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】，用以于大規(guī)模層次分類(lèi)問(wèn)題中搜索出包含待分類(lèi)文檔真實(shí)類(lèi)別的候選類(lèi)別，它采用評(píng)價(jià)指標(biāo)Vk對(duì)搜索出的候選類(lèi)別進(jìn)行量化評(píng)價(jià)，且采用貪心策略和啟發(fā)式算法得出最大的評(píng)價(jià)指標(biāo)Vk值，并求出具有最大Vk值的特征權(quán)重矩陣G，進(jìn)而，準(zhǔn)確地搜索出候選類(lèi)別，且經(jīng)驗(yàn)證本發(fā)明提供的基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法搜索的候選類(lèi)別集合較已有方法在準(zhǔn)確率上提高了大約7.5%。
【專(zhuān)利說(shuō)明】一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】，具體涉及一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法。
【背景技術(shù)】
[0002]以互聯(lián)網(wǎng)為代表的信息革命極大改變了人們的生活、生產(chǎn)方式，社會(huì)對(duì)網(wǎng)絡(luò)信息系統(tǒng)的依賴(lài)也日益增強(qiáng)。然而，互聯(lián)網(wǎng)的自由性、開(kāi)放性、迅捷性以及低廉的成本和高額的利潤(rùn)同時(shí)也使其成為了有害信息發(fā)育繁殖的沃土。各種令人不安的信息如湍急暗流隱藏在互聯(lián)網(wǎng)信息大潮下，包括色情、邪教、賭博、毒品、虛假新聞、宣揚(yáng)暴力在內(nèi)的各種有害信息充斥于互聯(lián)網(wǎng)上。因此，對(duì)網(wǎng)絡(luò)和信息的安全管理與控制尤為關(guān)鍵。
[0003]基于互聯(lián)網(wǎng)分類(lèi)目錄的網(wǎng)絡(luò)訪問(wèn)控制是網(wǎng)絡(luò)安全管理的一種重要技術(shù)手段，通過(guò)建立全面、精確的互聯(lián)網(wǎng)分類(lèi)目錄，可以實(shí)現(xiàn)快速、精細(xì)的網(wǎng)絡(luò)訪問(wèn)控制?；ヂ?lián)網(wǎng)分類(lèi)目錄按照一個(gè)概念或主題類(lèi)別層次將海量網(wǎng)頁(yè)信息組織為網(wǎng)絡(luò)資源分類(lèi)目錄，以更好地搜索、訪問(wèn)和管理這些網(wǎng)絡(luò)資源，例如開(kāi)放目錄專(zhuān)案(Open Directory Project,簡(jiǎn)稱(chēng)ODP目錄)、雅虎目錄(Yahoo !Directory)等。要自動(dòng)構(gòu)建網(wǎng)絡(luò)資源目錄，就需要實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上未知類(lèi)別信息的分類(lèi)，這里的信息類(lèi)別一般被組織為一個(gè)層次式結(jié)構(gòu)，典型的是一棵樹(shù)(tree)或者有向無(wú)環(huán)圖(Directed Acyclic Graph)，這種類(lèi)別層次一般規(guī)模巨大，其類(lèi)別數(shù)目可以達(dá)到數(shù)千、甚至數(shù)萬(wàn)之多。面向網(wǎng)頁(yè)的大規(guī)模層次分類(lèi)技術(shù)(large scale hierarchicalclassification)就是研究如何按照這樣一個(gè)規(guī)模巨大的類(lèi)別層次對(duì)網(wǎng)頁(yè)進(jìn)行準(zhǔn)確分類(lèi)，因此，大規(guī)模層次分類(lèi)技術(shù)是構(gòu)建互聯(lián)網(wǎng)分類(lèi)目錄的基礎(chǔ)，是構(gòu)建健康、和諧的互聯(lián)網(wǎng)環(huán)境的重要技術(shù)手段，同時(shí)也是很多網(wǎng)絡(luò)應(yīng)用的基礎(chǔ)，包括綠色上網(wǎng)、網(wǎng)絡(luò)信譽(yù)管理、安全過(guò)濾坐寸ο
[0004]類(lèi)別層次規(guī)模巨大是大規(guī)模層次分類(lèi)技術(shù)面臨的一個(gè)主要挑戰(zhàn)，大規(guī)模層次分類(lèi)問(wèn)題求解方法的不同主要體現(xiàn)在對(duì)這一挑戰(zhàn)性問(wèn)題的處理策略上，目前有三種處理策略:全局處理策略(overall-conquer)、分而治之的策略(divide-and-conquer)和化繁為簡(jiǎn)的策略(reduce-and-conquer)。整體處理策略將所有類(lèi)別作為一個(gè)整體,在整個(gè)數(shù)據(jù)集上進(jìn)行分類(lèi)的學(xué)習(xí)，然后對(duì)待分類(lèi)文檔進(jìn)行分類(lèi)。分而治之策略按照類(lèi)別層次將一個(gè)大規(guī)模的全局分類(lèi)問(wèn)題分解為一個(gè)個(gè)小規(guī)模的局部分類(lèi)問(wèn)題，然后分別進(jìn)行分類(lèi)的學(xué)習(xí)，對(duì)待分類(lèi)文檔進(jìn)行自上而下的分類(lèi)?；睘楹?jiǎn)的策略通過(guò)搜索類(lèi)別層次中所有與待分類(lèi)文檔相關(guān)的類(lèi)別，然后在所有候選類(lèi)別上進(jìn)行分類(lèi)的學(xué)習(xí)和預(yù)測(cè)，將一個(gè)大規(guī)模的分類(lèi)問(wèn)題降低為一個(gè)小規(guī)模的分類(lèi)問(wèn)題。
[0005]采用化繁為簡(jiǎn)策略的分類(lèi)方法:首先根據(jù)待分類(lèi)文檔搜索候選類(lèi)別，然后根據(jù)候選類(lèi)別的樣本訓(xùn)練分類(lèi)器并對(duì)待分類(lèi)文檔進(jìn)行分類(lèi)，因此，這種方法又被稱(chēng)為兩階段分類(lèi)方法，其核心思想是通過(guò)減小分類(lèi)器學(xué)習(xí)的類(lèi)別數(shù)目以提高分類(lèi)準(zhǔn)確率。兩階段方法基于這樣一個(gè)假設(shè):在一棵大規(guī)模類(lèi)別層次樹(shù)中，給定一個(gè)文檔，其相關(guān)類(lèi)別數(shù)量遠(yuǎn)少于不相關(guān)類(lèi)別。兩階段分類(lèi)方法的優(yōu)點(diǎn)是通過(guò)候選搜索有效減小了數(shù)據(jù)規(guī)模，因此可以靈活的選擇分類(lèi)方法和分類(lèi)器，分類(lèi)準(zhǔn)確率比較高，因此在大規(guī)模層次分類(lèi)問(wèn)題中應(yīng)用的較為廣泛。但是這種優(yōu)點(diǎn)是建立在候選類(lèi)別搜索正確的前提之上的，因?yàn)槠渲械姆诸?lèi)依賴(lài)于候選搜索的準(zhǔn)確性，要確保分類(lèi)正確，就應(yīng)當(dāng)使計(jì)算出來(lái)的候選類(lèi)別集合包含待分類(lèi)文檔的真實(shí)類(lèi)別，因此，候選類(lèi)別搜索是大規(guī)模層次分類(lèi)中的一項(xiàng)關(guān)鍵技術(shù)，然而已有的兩階段分類(lèi)方法并未對(duì)候選搜索方法進(jìn)行深入研究。

【發(fā)明內(nèi)容】

[0006]針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題，本發(fā)明旨在提供一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法，用以于大規(guī)模層次分類(lèi)問(wèn)題中搜索出包含待分類(lèi)文檔真實(shí)類(lèi)別的候選類(lèi)另IJ，它采用評(píng)價(jià)指標(biāo)Vk對(duì)搜索出的候選類(lèi)別進(jìn)行量化評(píng)價(jià)，且采用貪心策略和啟發(fā)式算法得出最大的評(píng)價(jià)指標(biāo)Vk值，進(jìn)而，準(zhǔn)確地搜索出候選類(lèi)別。
[0007]本發(fā)明提供的一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法，用以從測(cè)試文檔中搜索出候選類(lèi)別，其包括以下步驟:
[0008]步驟SOl、輸入已知信息:提供樣本集合I = ((I1, d2,...，dn},特征集合F ={fi, f2,...fm}，類(lèi)別集合 L = (I1, I2,…IrI ；
[0009]步驟S02、初始化評(píng)價(jià)指標(biāo)Vk及特征權(quán)重矩陣G:采用詞頻向量初始化類(lèi)別的特征權(quán)重矩陣G，通過(guò)統(tǒng)計(jì)每個(gè)詞在同一類(lèi)別Ii所有文檔中的出現(xiàn)次數(shù)得到該類(lèi)別的詞頻向量，從而，為每個(gè)類(lèi)別Ii建立一個(gè)詞頻向量Wi, Wij為特征fj關(guān)于類(lèi)別Ii的權(quán)重，并對(duì)詞頻向
量進(jìn)行標(biāo)準(zhǔn)化，使得每個(gè)詞頻向量Wi滿足
【權(quán)利要求】
1.一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法，用以從測(cè)試文檔中搜索出候選類(lèi)別，其特征在于，其包括以下步驟: 步驟SOl、輸入已知信息:提供樣本集合I = ((I1, d2,..., dn},特征集合F ={fi, f2,...fm}，類(lèi)別集合
【文檔編號(hào)】G06F17/30GK103488707SQ201310405219
【公開(kāi)日】2014年1月1日申請(qǐng)日期:2013年9月6日優(yōu)先權(quán)日:2013年9月6日
【發(fā)明者】何力, 賈焰, 楊樹(shù)強(qiáng), 周斌, 韓偉紅, 李?lèi)?ài)平, 韓毅, 李莎莎, 丁兆云申請(qǐng)人:中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何力;賈焰;楊樹(shù)強(qiáng);周斌;韓偉紅;李?lèi)?ài)平;韓毅;李莎莎;丁兆云
技術(shù)所有人：中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于貪心策略和啟發(fā)式算法搜索候選類(lèi)別的方法