国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      針對不安全網(wǎng)頁文本的過濾監(jiān)管方法

      文檔序號:6357525閱讀:159來源:國知局
      專利名稱:針對不安全網(wǎng)頁文本的過濾監(jiān)管方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種網(wǎng)絡(luò)和信息安全領(lǐng)域技術(shù)領(lǐng)域的方法,具體是一種針對不安全網(wǎng) 頁文本的過濾監(jiān)管方法。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)的快速發(fā)展,Internet上的信息呈現(xiàn)多樣性,據(jù)百度統(tǒng)計05年中文網(wǎng) 頁總數(shù)猛增至M億;同時廉價的存儲設(shè)備也加速了文本、圖片等信息載體的發(fā)展。如此多 的信息之中,存在著大量的暴力、色情、反動等有害網(wǎng)頁。這些網(wǎng)頁的存在無論對社會穩(wěn)定, 還是對有效信息的獲取都是一個障礙。因此如何從浩瀚如煙的信息中過濾掉有害信息,是 一個迫切需要解決的問題。目前對互聯(lián)網(wǎng)上的信息過濾大多采用以下幾種方法基于分級標簽、URL及關(guān)鍵 詞過濾分析。其中,基于分級標簽的監(jiān)管方法有效的先決條件是信息發(fā)布者具有良好的自 律性;基于URL過濾的方法有效的先決條件是預(yù)先知道含有不安全信息的網(wǎng)址;基于關(guān)鍵 詞過濾的方法不能理解文本信息的含義,通常效果不是很理想。并且過濾方法在針對某一 主題方面是由于特征向量相似而引起效果不佳的問題,例如,同樣是針對法輪功的文章,一 篇可能是闡述法輪功對社會的危害,是批判的目的;另一篇可能就是弘揚法輪功的文章。然 而它們可能具有相似的向量表示。因此過通過關(guān)鍵字的形式來過濾,就會產(chǎn)生誤判。經(jīng)對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn),樊興華等在《計算機學(xué)報》2006年第一期第9卷 IM頁上發(fā)表的《一種高性能的兩類中文文本分類方法》,該文中提出的兩元詞串為特征來 進行分類,其不足在于沒有考慮到詞語距離等因素,并且其中提到的特征值計算方法針對 兩元詞組并不合適。

      發(fā)明內(nèi)容
      本發(fā)明針對上述現(xiàn)有技術(shù)中的不足,提供了一種針對不安全網(wǎng)頁的過濾監(jiān)管方 法,使其考慮文本的語義,用概念特征向量來替代傳統(tǒng)的關(guān)鍵詞的特征向量,一方面提高過 濾效果,另一方面由于特征向量減少加快過濾速度。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明包括如下具體步驟
      步驟一,針對不同主題文本統(tǒng)計概念特征向量、計算特征值,將多種不同的主題文本的 概念特征向量、特征值存儲到概念庫;
      所述將多種不同的主題文本的概念特征向量、特征值存儲到概念庫,是指設(shè)定某主題 文本有不安全文本和正常文本兩種語料,分別統(tǒng)計概念特征向量、計算特征值,并將不安全 文本和正常文本的概念特征向量、特征值分別存儲到概念庫的相應(yīng)主題的正集和負集中, 對不同主題的文本都作如上操作,最終概念庫包含了關(guān)于不安全文本的多種不同的主題, 每一部分都包含相應(yīng)的正集和負集部分;
      所述統(tǒng)計概念特征向量,是指統(tǒng)計出所有的在若干個詞語距離之間同時出現(xiàn)的兩個詞 語,即若兩個詞語之間的距離不超過若干個詞語,則這兩個詞語所組成的2元組計為1個概念特征向量,概念特征向量是基于詞語前后之間的相關(guān)性;
      所述特征值,由于特征向量數(shù)量巨大,各個特征向量之間的相關(guān)性小,特征值的大小主 要由該特征向量出現(xiàn)頻率和構(gòu)成該特征向量的2元詞語頻率相關(guān),特征值與特征向量頻率 的log成正比,同2元詞組頻率和成反比。步驟二,通過網(wǎng)絡(luò)節(jié)點使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),并對其進 行預(yù)處理,預(yù)處理包括分詞、剔除無意義的詞語;
      步驟三,判斷經(jīng)過步驟二預(yù)處理后的網(wǎng)頁文本的主題是否屬于敏感主題; 所述判斷是否屬于敏感主題,是指通過關(guān)鍵字的方式進行判斷預(yù)處理后的網(wǎng)頁文本的 主題是否與不安全內(nèi)容主題相關(guān),如果不屬于則判斷結(jié)束;否則,判斷屬于概念庫的哪一方 面主題,并將該網(wǎng)頁文本歸類到概念庫的相應(yīng)主題中。例如包含法輪功等關(guān)鍵字的話,就將 該文本歸類到概念庫的法輪功主題部分,進行步驟四操作。步驟四,若網(wǎng)頁文本的主題屬于敏感主題,判斷該話題的內(nèi)容屬于哪一主題,并按 照與步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;
      步驟五,將步驟四計算出網(wǎng)頁文本的概念特征向量和特征值,與概念庫中相對應(yīng)主題 的特征向量以及特征值進行相似度計算,采用VSM、SVM或KNN分類方法找到與網(wǎng)頁文本相 似度最大的類,并將該網(wǎng)頁文本分類到該類中,該文本的性質(zhì)取決于類的性質(zhì),若該類為需 要過濾的類別,則該文本應(yīng)該被過濾,并繼續(xù)由步驟六處理;
      步驟六,根據(jù)過濾結(jié)果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置 于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果本發(fā)明提供了一種新的信息過濾方 法,用概念特征向量來替代傳統(tǒng)的關(guān)鍵詞的特征向量。一方面可以提高過濾效果,普通的分 類算法準確率在80%左右,本發(fā)明的準確率在擬%左右,另一方面由于特征向量減少可以加 快過濾速度,速度上每秒可以處理500篇左右。


      圖1是本發(fā)明的工作流程圖。
      具體實施例方式下面結(jié)合附圖對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術(shù)方案為前 提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下 述的實施例。本實施例過濾監(jiān)管包含有法輪功信息的不安全網(wǎng)頁。如圖1所示,本實施包括如下具體步驟
      1.針對法輪功主題收集正面和反面的兩類文本,包括有關(guān)法輪功的宣揚和抨擊兩方面 的,然后計算它們的特征向量和特征值,并置于概念庫中關(guān)于法輪功主題的正反兩部分。所述統(tǒng)計概念特征向量,是指統(tǒng)計出所有的在N個詞語距離之間同時出現(xiàn)的兩個 詞語,即若兩個詞語之間的距離不超過N個詞語,則這兩個詞語所組成的2元組計為1個概 念特征向量,概念特征向量是基于詞語前后之間的相關(guān)性;如,法輪功危害社會,法輪功危 害、危害社會就是特征向量;所述計算特征值,是指特征值表示兩個詞組的相關(guān)性,m為詞組1的頻率,N2為詞組 2的頻率,N為m和N2同時出現(xiàn)的頻率,則該特征值就表示為log(N)/(m+N2),特征值表 示一個特征向量對分類的貢獻,特征值越大表示分辨率越好。通過網(wǎng)絡(luò)節(jié)點,使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),然后,依賴于編 碼和格式轉(zhuǎn)換方案對得到的文本數(shù)據(jù)進行格式轉(zhuǎn)換和編碼轉(zhuǎn)換,并進行分詞,剔除無意義 的詞匯;
      3.采用關(guān)鍵字匹配的方式來判斷網(wǎng)頁文本是否屬于法輪功敏感話題,敏感話題的關(guān)鍵 詞由管理員制定,關(guān)鍵詞存儲于數(shù)據(jù)庫中,通過查詢數(shù)據(jù)庫就可判斷是否屬于敏感話題,如 果不是結(jié)束判斷;如果是,進行如下處理;
      4.統(tǒng)計該文本的特征向量并計算對應(yīng)的特征值,并判斷該話題的內(nèi)容屬于哪一話題, 例如包含法輪功等字眼的文本屬于法輪功話題;
      5.查詢概念庫中該話題中相應(yīng)特征向量的特征值,該話題在概念庫中有兩類不同的特 征向量和特征值,分別代表對該話題的正面和反面態(tài)度,之后通過采用VSM,SVM, KNN分類 方法計算得到與待分類文本相似度最大的類別一一法輪功宣傳類別,則該文本就判別為 法輪功宣傳的文章,將分類結(jié)果用于監(jiān)管,并進行下面一步處理;
      6.根據(jù)過濾結(jié)果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置于防 火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。與現(xiàn)有技術(shù)相比,本實施例具有如下有益效果本實施例提供了一種新的信息過 濾方法,用概念特征向量來替代傳統(tǒng)的關(guān)鍵詞的特征向量,本實施例的準確率在9 左右, 另外本實施例每秒可以處理500篇左右。
      權(quán)利要求
      1.一種針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征在于,包括如下具體步驟步驟一,針對不同主題文本統(tǒng)計概念特征向量、計算特征值,將多種不同的主題文本的 概念特征向量、特征值存儲到概念庫;步驟二,通過網(wǎng)絡(luò)節(jié)點使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),并對其進行預(yù) 處理,預(yù)處理包括分詞、剔除無意義的詞語;步驟三,判斷經(jīng)過步驟二預(yù)處理后的網(wǎng)頁文本的主題是否屬于敏感主題; 步驟四,若網(wǎng)頁文本的主題屬于敏感主題,判斷該話題的內(nèi)容屬于哪一主題,并按照與 步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;步驟五,將步驟四計算出網(wǎng)頁文本的概念特征向量和特征值,與概念庫中相對應(yīng)主題 的特征向量以及特征值進行相似度計算,采用VSM、SVM或KNN分類方法找到與網(wǎng)頁文本相 似度最大的類,并將該網(wǎng)頁文本分類到該類中,該文本的性質(zhì)取決于類的性質(zhì),若該類為需 要過濾的類別,則該文本應(yīng)該被過濾,并繼續(xù)由步驟六處理;步驟六,根據(jù)過濾結(jié)果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置 于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。
      2.根據(jù)權(quán)利要求1所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述將多 種不同的主題文本的概念特征向量、特征值存儲到概念庫,是指設(shè)定某主題文本有不安全 文本和正常文本兩種語料,分別統(tǒng)計概念特征向量、計算特征值,并將不安全文本和正常文 本的概念特征向量、特征值分別存儲到概念庫的相應(yīng)主題的正集和負集中,對不同主題的 文本都作如上操作,最終概念庫包含了關(guān)于不安全文本的多種不同的主題,每一部分都包 含相應(yīng)的正集和負集部分。
      3.根據(jù)權(quán)利要求1或2所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述統(tǒng) 計概念特征向量,是指統(tǒng)計出所有的在若干個詞語距離之間同時出現(xiàn)的兩個詞語,即若兩 個詞語之間的距離不超過若干個詞語,則這兩個詞語所組成的2元組計為1個概念特征向 量,概念特征向量是基于詞語前后之間的相關(guān)性。
      4.根據(jù)權(quán)利要求1或2所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述特 征值,其與特征向量出現(xiàn)頻率和構(gòu)成該特征向量的2元詞語頻率相關(guān),特征值與特征向量 頻率的log成正比,同2元詞組頻率和成反比。
      5.根據(jù)權(quán)利要求1所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述判斷 是否屬于敏感主題,是指通過關(guān)鍵字的方式進行判斷預(yù)處理后的網(wǎng)頁文本的主題是否與不 安全內(nèi)容主題相關(guān),如果不屬于則判斷結(jié)束;否則,判斷屬于概念庫的哪一方面主題,并將 該網(wǎng)頁文本歸類到概念庫的相應(yīng)主題中。
      全文摘要
      一種網(wǎng)絡(luò)和信息安全領(lǐng)域技術(shù)領(lǐng)域的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,包括步驟一,將多種不同的主題文本的概念特征向量、特征值存儲到概念庫;步驟二,通過網(wǎng)絡(luò)節(jié)點捕獲文本數(shù)據(jù),并對其進行預(yù)處理,預(yù)處理包括分詞、剔除無意義的詞語;步驟三,判斷網(wǎng)頁文本的主題是否屬于敏感主題;步驟四,判斷該話題的內(nèi)容屬于哪一主題,并按照與步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;步驟五,將該網(wǎng)頁文本進行分類;步驟六,根據(jù)過濾結(jié)果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。本發(fā)明能夠增加準確度,并且加快了過濾速度。
      文檔編號G06F17/27GK102117339SQ201110083908
      公開日2011年7月6日 申請日期2011年3月30日 優(yōu)先權(quán)日2011年3月30日
      發(fā)明者曹曉晶 申請人:曹曉晶
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1