国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于神經網絡的自學習語義檢測方法及系統(tǒng)的制作方法

      文檔序號:6492113閱讀:186來源:國知局
      一種基于神經網絡的自學習語義檢測方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開了一種基于神經網絡的自學習語義檢測方法及系統(tǒng),所述方法包含:步驟101)導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對文件名良或不良的判斷結果的分析獲取;步驟102)獲取所有關鍵詞對應的在良語義字符串名中出現(xiàn)的概率之積與良語義字符串名的先驗概率的乘積;和所有關鍵詞對應的在不良語義字符串名中出現(xiàn)的概率之積與不良語義字符串名的先驗概率的乘積;步驟103)比較上述兩個乘積,如果良語義字符串的乘積項大于不良語義字符串的乘積項,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
      【專利說明】—種基于神經網絡的自學習語義檢測方法及系統(tǒng)【技術領域】
      [0001]本發(fā)明屬于網絡信息處理與分析領域,尤其涉及到文字信息內容性質與傾向性的自動判定領域,具體涉及一種基于神經網絡的自學習語義檢測方法及系統(tǒng)。
      【背景技術】
      [0002]網絡信息的自動處理與分析技術是實現(xiàn)網絡內容的分析、檢測與管理的重要組成部分,對于網絡內容處理與安全系統(tǒng)的構建具有重要意義。
      [0003]由于網絡技術的不斷發(fā)展和運營商提供的帶寬不斷的提高,用戶可以很方便的訪問下載網絡上的各種信息,其中,帶寬的提升為信息傳遞提供了更寬廣的舞臺的同時,也給不良信息傳播提供了新便利。近年來,網絡上的淫穢、色情和反動等有害信息傳播盛行,傳統(tǒng)網絡信息處理方案對于這些有害信息的識別往往需要很大的人力和物力,受客觀條件的限制,對于網絡不良信息的發(fā)現(xiàn)與處理遠不能滿足現(xiàn)實需要。
      [0004]互聯(lián)網就像由許多河流交匯組成的龐大水系,里面高速地流動著各種各樣的內容信息,網絡用戶通過到河里取水的方式訪問互聯(lián)網?;ヂ?lián)網這個江河水系的流量巨大、流速極快,連接到之上的用戶數(shù)量數(shù)以億計。傳統(tǒng)的網絡信息處理和分析方案無法實現(xiàn)網絡信息性質的自動和智能化分析,必須投入大量的人員進行手工分析和判別?,F(xiàn)有技術只是單純的定義某個分詞是良或者不良,如果文件名包含不良的分詞即判斷此文件名為不良,而不是進行貝葉斯的全概率分析;另外,這種定義分詞的工作量很大,比較難以更新,本系統(tǒng)可以隨時進行自學習更新,以免出現(xiàn)新興的詞而造成漏判或誤判;還有,本系統(tǒng)還增加了反饋環(huán)節(jié),防止分詞不完整或不正確,提高成功率。從系統(tǒng)組成上分析現(xiàn)有的判別系統(tǒng)基本上只有一個分詞模塊和判別模塊,進行簡單的分詞,然后看是否包含不良關鍵詞,以此來判斷文件名的屬性,往往成功率不高。
      [0005]當前形勢下,面臨互聯(lián)網中海量內容,使用人工方法要做到實時分析已經無法應對,迫切需要具有智能分析 能力的網絡信息處理和識別方案,實現(xiàn)對特定網絡信息性質的自動檢測和判定。

      【發(fā)明內容】

      [0006]本發(fā)明的目的在于為克服上述問題,本發(fā)明提供了一種基于神經網絡的自學習語義檢測方法及系統(tǒng)。
      [0007]為實現(xiàn)上述目的,本發(fā)明提供了一種基于神經網絡的自學習語義檢測方法,所述方法包含:
      [0008]步驟101)導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對文件名良或不良的判斷結果的分析獲??;
      [0009]步驟102)獲取所有關鍵詞對應的在良語義字符串名中出現(xiàn)的概率之積和良語義字符串名的先驗概率,并將上述兩個參量值相乘得到第一乘積;并[0010]獲取所有關鍵詞對應的在不良語義字符串名中出現(xiàn)的概率之積和不良語義字符串名的先驗概率,并將兩個參量相乘得到第二與的乘積;
      [0011]步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項大于第二乘積項,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
      [0012]上述概率項為:良和不良兩種類別分別所占百分比P (Vj)和從類別Vj中的一個文
      件名隨機抽取的一個詞為Wk的概率
      【權利要求】
      1.一種基于神經網絡的自學習語義檢測方法,所述方法包含: 步驟101)導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對文件名良或不良的判斷結果的分析獲??; 步驟102)獲取所有關鍵詞對應的在良語義字符串名中出現(xiàn)的概率之積和良語義字符串名的先驗概率,并將上述兩個參量值相乘得到第一乘積;并 獲取所有關鍵詞對應的在不良語義字符串名中出現(xiàn)的概率之積和不良語義字符串名的先驗概率,并將兩個參量相乘得到第二與的乘積; 步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項大于第二乘積項,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
      2.根據(jù)權利要求1所述的基于神經網絡的自學習語義檢測方法,其特征在于,所述概率項為:良和不良兩種類別分別所占百分比P(Vj)和從類別Vj中的一個文件名隨機抽取的一個詞為Wk的概率
      3.根據(jù)權利要求2所述的基于神經網絡的自學習語義檢測方法,其特征在于, 步驟102)所述的所有關鍵詞對應的在良語義字符串名中出現(xiàn)的概率之積
      4.根據(jù)權利要求1所述的基于神經網絡的自學習語義檢測方法,其特征在于,所述步驟101)和步驟102)之間還包含: 采用反饋策略保證文件名中所有關鍵詞分詞的完整。
      5.一種基于神經網絡的自學習語義檢測系統(tǒng),所述系統(tǒng)包含: 概率項獲取模塊,用于導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對良或不良的判斷結果的分析獲??;處理模塊,用于獲取所有關鍵詞對應的在良語義字符串名中出現(xiàn)的概率之積與良語義字符串名的先驗概率,并將良語義字符串名中出現(xiàn)的概率之積與良語義字符串名的先驗概率相乘;并獲取所有關鍵詞對應的在不良語義字符串名中出現(xiàn)的概率之積與不良語義字符串名的先驗概率,并將不良語義字符串名中出現(xiàn)的概率之積與不良語義字符串名的先驗概率相乘; 比較判決模塊,用于依據(jù)處理模塊的輸出結果,進行如下判決: 如果良語義字符串名中出現(xiàn)的概率之積與良語義字符串名的先驗概率相乘的結果大于良語義字符串名中出現(xiàn)的概率之積與不良語義字符串名的先驗概率相乘的結果,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
      6.根據(jù)權利要求5所述的基于神經網絡的自學習語義檢測系統(tǒng),其特征在于,所述概率項包含類別所占百分比P (Vj)和從類別Vj中的一個文件名隨即抽取的一個詞為Wk的概率
      7.根據(jù)權利要求6所述的基于神經網絡的自學習語義檢測系統(tǒng),其特征在于,所述處理模塊進一步包含: 第一處理子模塊,用于依據(jù)印(合法)=
      8.根據(jù)權利要求5所述的基于神經網絡的自學習語義檢測系統(tǒng),其特征在于,所述系統(tǒng)還包含位于概率項獲取模塊和處理模塊之間的反饋模塊,該反饋模塊用于保證關鍵詞是否分詞完整,將未完整分詞的重新啟動關鍵詞分詞。
      【文檔編號】G06F17/27GK103853701SQ201210505765
      【公開日】2014年6月11日 申請日期:2012年11月30日 優(yōu)先權日:2012年11月30日
      【發(fā)明者】蘇青, 苗光勝, 牛溫佳, 唐暉, 慈松, 譚紅艷 申請人:中國科學院聲學研究所, 華數(shù)傳媒網絡有限公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1