国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于字節(jié)級(jí)n元文法的特征提取方法及垃圾郵件過(guò)濾器的制作方法

      文檔序號(hào):6483496閱讀:547來(lái)源:國(guó)知局

      專利名稱::基于字節(jié)級(jí)n元文法的特征提取方法及垃圾郵件過(guò)濾器的制作方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及到包括垃圾郵件過(guò)濾技術(shù)在內(nèi)的信息處理領(lǐng)域,具體涉及到信息過(guò)濾、信息推送、模式識(shí)別領(lǐng)域。
      背景技術(shù)
      :在處理對(duì)象為包含多種信息類型的信息單元(如網(wǎng)頁(yè)、電子郵件)時(shí),用戶的特定信息需求有兩種表現(xiàn)形式信息過(guò)濾和信息推送。它們具有相同的本質(zhì)用戶的信息需求不變,需要從不斷到來(lái)的信息中甄別出信息的屬性,即用戶是否需求該信息。由于處理對(duì)象為包含多種信息類型的信息單元,語(yǔ)言是信息的重要載體,信息過(guò)濾和信息推送時(shí)主要依靠文本信息。但僅依靠文本信息丟失了大量有價(jià)值的信息,不能僅使用文本信息。例如對(duì)于垃圾郵件過(guò)濾,圖像特征被使用[ImprovingImageSpamFilteringUsingImageTextFeaturesGiorgioFumera,F(xiàn)abioRoli,BattistaBiggioandIgnazioPillai.FourthConferenceonEmailandAnti-Spam(CEASMO7)](使用圖象文本信息特征提升圖象垃圾郵件過(guò)濾性能)。但單獨(dú)處理各種信息形式的復(fù)雜度極高,同時(shí)還面臨多信息融合的困難。隨著電子郵件的廣泛應(yīng)用,伴隨而來(lái)的垃圾郵件問(wèn)題日益嚴(yán)重。它不僅消耗網(wǎng)絡(luò)資源、占用網(wǎng)絡(luò)帶寬、浪費(fèi)用戶的寶貴時(shí)間和上網(wǎng)費(fèi)用,而且嚴(yán)重威脅網(wǎng)絡(luò)安全,己成為網(wǎng)絡(luò)公害,帶來(lái)了嚴(yán)重的經(jīng)濟(jì)損失。中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心發(fā)布的2007年第四季度反垃圾郵件調(diào)査報(bào)告顯示,垃圾郵件在規(guī)模上不斷增長(zhǎng),2007年第四季度中國(guó)網(wǎng)民平均每周收到的垃圾郵件比例為55.65%。迫切需要有效的技術(shù)解決垃圾郵件泛濫的問(wèn)題。近幾年,基于機(jī)器學(xué)習(xí)的文本分類法在垃圾郵件過(guò)濾中發(fā)揮了巨大的作用,郵件過(guò)濾本質(zhì)上是一個(gè)在線二值分類問(wèn)題,過(guò)濾器將郵件區(qū)分為Spam(垃圾郵件)或Ham(正常郵件)。典型的方法包括貝葉斯方法、支持向量機(jī)(SVM,SupportVectorMachine)方法、最大熵方法、PPM(PredictionbyPartialMatch)壓縮算法等。機(jī)器學(xué)習(xí)方法過(guò)濾正確率高、成本低,是當(dāng)前的主流方法,具有廣泛的應(yīng)用前景。應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)垃圾郵件進(jìn)行過(guò)濾時(shí)涉及到3個(gè)問(wèn)題模型選擇、特征抽取(郵件表示)以及訓(xùn)練方法。從模型上看,機(jī)器學(xué)習(xí)技術(shù)可以分為生成模型(如貝葉斯模型)和判別模型(如SVM、最大熵模型)。在相關(guān)領(lǐng)域——文本分類中,判別模型的分類效果比生成模型的分類效果要好,特別在沒(méi)有足夠多的訓(xùn)練數(shù)據(jù)的時(shí)候,這種現(xiàn)象更明顯。在生成模型方面,著名的Bogo系統(tǒng)就是基于貝葉斯模型的,在TREC評(píng)測(cè)中作為基準(zhǔn)(Baseline)系統(tǒng)。用于數(shù)據(jù)壓縮的CTW(contexttreeweight)和PPM(PredictionbyPartialMatch)等壓縮算法被引入到了垃圾郵件過(guò)濾。CTW和PPM是數(shù)據(jù)壓縮中使用的動(dòng)態(tài)壓縮算法,其原理是根據(jù)已經(jīng)出現(xiàn)的數(shù)據(jù)流預(yù)測(cè)后面要出現(xiàn)的數(shù)據(jù)流,預(yù)測(cè)的越準(zhǔn),所需的編碼也就越少,并據(jù)此進(jìn)行分類。2004年,Hulten和Goodman在PU-1垃圾郵件過(guò)濾測(cè)試集上做實(shí)驗(yàn),證明了在郵件過(guò)濾上,判別模型的分類效果比生成模型的分類效果要好。不嚴(yán)格的在線支持向量機(jī)(RelaxedOnlineSVM)克服了支持向量機(jī)計(jì)算量大的問(wèn)題被用于解決垃圾郵件過(guò)濾的問(wèn)題,并在TREC2007評(píng)測(cè)中取得了很好效果。Goodman和Yih提出使用在線邏輯回歸模型,避免了SVM、最大熵模型的大量計(jì)算,并取了與上一年度(2005年)最好結(jié)果可比的結(jié)果。在特征抽取(即郵件表示)上,郵件的文本內(nèi)容是當(dāng)前過(guò)濾器處理的重點(diǎn)。郵件過(guò)濾的依據(jù)是郵件的特征,特征項(xiàng)的定義,是影響分類性能的關(guān)鍵因素。和文本分類問(wèn)題相比,郵件過(guò)濾有其特殊之處。反垃圾郵件技術(shù)在進(jìn)步,發(fā)送垃圾郵件的技術(shù)也在不斷地提高。由于巨大的利益驅(qū)動(dòng),狡猾的垃圾郵件發(fā)送者對(duì)其電子郵件信息進(jìn)行多方面的偽裝,通過(guò)各種手段將垃圾郵件偽裝為正常郵件。同時(shí),大量垃圾郵件以圖像的形式出現(xiàn),導(dǎo)致傳統(tǒng)方法失效;單純的依賴郵件的文本內(nèi)容對(duì)含有病毒的垃圾郵件無(wú)能為力。大多數(shù)英文過(guò)濾器以詞作為過(guò)濾單元,中文過(guò)濾器則是以詞作為過(guò)濾單元。由于垃圾郵件對(duì)文本的內(nèi)容進(jìn)行了變形,使得上述方法存在缺陷。非精確的字符串匹配被用于解決這個(gè)問(wèn)題,參見(jiàn)D.Sculley.AdvancesinOnlineLearning-basedSpamFiltering(i立圾由卩件過(guò)濾的在線學(xué)習(xí)技術(shù)進(jìn)展)Medford,MA,USA:TuftsUniversity.2008.,但該方法只對(duì)英文垃圾郵件過(guò)濾有效,無(wú)法直接用于中文垃圾郵件過(guò)濾。在信息檢索領(lǐng)域的字符級(jí)n元文法被引入垃圾郵件過(guò)濾,并在TREC評(píng)測(cè)中取得優(yōu)于詞袋(Bagofword)假設(shè)的結(jié)果,參見(jiàn)V.Keselj,E.Milios,A.Tuttle,S.Wang,R.Zhang.DalTREC2005SpamTrack:SpamFilteringUsingN-gram-basedTechniques(DalTREC2005垃圾郵件過(guò)濾評(píng)測(cè)n-gram技術(shù)).TheFourteenthTextREtrievalConference(TREC2005)Proceedings.2005.使用字符級(jí)n-gram可以有效解決字符變形,但對(duì)于病毒郵件、文本內(nèi)容轉(zhuǎn)換為圖像、轉(zhuǎn)換為PDF文件、以MP3附件形式發(fā)送的垃圾郵件無(wú)能為力(后兩種形式為2008年新出現(xiàn)的,目前尚未見(jiàn)有效處理手段)。鑒于大量垃圾郵件將文本內(nèi)容轉(zhuǎn)換為圖像,基于圖像分析(ImageAnalysis)的過(guò)濾技術(shù)近年來(lái)得到重視。使用該技術(shù),增大了垃圾郵件過(guò)濾系統(tǒng)的復(fù)雜性,且效果有限。在訓(xùn)練方法上,最簡(jiǎn)單也是最常用的訓(xùn)練方法就是對(duì)每一封郵件都進(jìn)行訓(xùn)練。這種方法在實(shí)際應(yīng)用中已經(jīng)獲得了很好的效果,但是有兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是內(nèi)容相近的郵件可能被多次訓(xùn)練,增加資源的耗費(fèi)。第二個(gè)問(wèn)題是會(huì)出現(xiàn)過(guò)度訓(xùn)練的問(wèn)題,使過(guò)濾器過(guò)度擬合已經(jīng)出現(xiàn)的郵件,而對(duì)未見(jiàn)過(guò)的郵件的泛化能力較弱。改用TOE(TrainOnError)方法后,僅當(dāng)郵件被誤判時(shí)才迸行訓(xùn)練,這種方法只能用于判別學(xué)習(xí)模型。這樣可防止過(guò)度訓(xùn)練、減小空間占用并提高速度。盡管過(guò)度訓(xùn)練會(huì)極大的影響過(guò)濾器的準(zhǔn)確率,但TOE訓(xùn)練法在另一個(gè)方向走過(guò)了頭,僅對(duì)誤判的郵件進(jìn)行訓(xùn)練導(dǎo)致過(guò)濾器訓(xùn)練數(shù)據(jù)不足,其對(duì)準(zhǔn)確率仍有影響。TONE(TrainOnorNearError)在TOE基礎(chǔ)上加以改進(jìn),預(yù)設(shè)一個(gè)分?jǐn)?shù)界限,當(dāng)郵件得分與判斷閥值之差的絕對(duì)值在界限之內(nèi)時(shí),即使正確判斷也進(jìn)行訓(xùn)練,參見(jiàn)D.Sculley,G.M.Wachman.RelaxedOnlineSVMsintheTRECSpamFilteringTrack(在TREC垃圾郵件過(guò)濾評(píng)測(cè)中應(yīng)用不嚴(yán)格的在線支持向量機(jī)模型).TheSixteenthTextREtrievalConference(TREC2007).2007。對(duì)于信息過(guò)濾和信息推送,由于不斷有新的信息到來(lái),批處理學(xué)習(xí)方式并不適合這類任務(wù),在線學(xué)習(xí)得到應(yīng)用,如微軟公司申請(qǐng)的專利(公開(kāi)號(hào)為CN1716293)提出了增量反垃圾郵件査找與更新服務(wù),即在線學(xué)習(xí)模式;Goodman禾口Yih在論文J,GoodmanandW.Yih.OnlineDiscriminativeSpamFilterTraining(在線判別垃圾郵件過(guò)濾訓(xùn)練).ThirdConferenceonEmailandAnti-Spam(CEAS2006).2006:113-115.(http:〃www.ceas.cc/2006/22.pdf)中描述了在線邏輯回歸模型。
      發(fā)明內(nèi)容為了解決現(xiàn)有文本特征提取方法中存在的需要詞庫(kù)支持,并不能夠同時(shí)適應(yīng)對(duì)多語(yǔ)文字(如英語(yǔ)、漢語(yǔ))、圖形以及其它形式信息的特征提取、鑒別的問(wèn)題,本發(fā)明提出了一種基于字節(jié)級(jí)n元文法的特征提取方法及垃圾郵件過(guò)濾器。本發(fā)明的基于字節(jié)級(jí)n元文法(byteleveln-gmm)的特征提取方法為對(duì)提取對(duì)象信息進(jìn)行大小為n的滑動(dòng)窗口操作,獲得m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息,其中m、n為大于0的整數(shù)。采用上述特征提取方法的垃圾郵件過(guò)濾器,它由分類器、特征權(quán)重庫(kù)和訓(xùn)練器組成,其中分類器,用于對(duì)接收郵件進(jìn)行特征提取并獲得特征信息,還用于根據(jù)所述特征信息和特征權(quán)重庫(kù)中的特征信息將接收郵件分為垃圾郵件和正常郵件,所述特征提取方法采用基于字節(jié)級(jí)n元文法的特征提取方法;特征權(quán)重庫(kù),用于存儲(chǔ)垃圾郵件的特征及其權(quán)重,并根據(jù)訓(xùn)練器提供的信息實(shí)時(shí)更新特征信息;所述用戶是能夠反饋垃圾郵件信息的垃圾郵件過(guò)濾器的使用者,包括垃圾郵件過(guò)濾器的實(shí)際使用者,即垃圾郵件過(guò)濾器的服務(wù)對(duì)象,還包括垃圾郵件服務(wù)商的工作人員;訓(xùn)練器,根據(jù)用戶的反饋對(duì)郵件的過(guò)濾結(jié)果進(jìn)行在線學(xué)習(xí),更新調(diào)整特征權(quán)重庫(kù)中的信息。本發(fā)明所述的訓(xùn)練器采用TONE訓(xùn)練方法進(jìn)行垃圾郵件過(guò)濾器的訓(xùn)練。所述分類器中的特征提取方法,可以提取信息流中的前m個(gè)長(zhǎng)度為n的字節(jié)片斷(以下稱n-gram),也可以根據(jù)信息增益(InformationGain)、交叉熵(CrossEntropy)等統(tǒng)計(jì)方法提取n-gram。本發(fā)明提出了字節(jié)級(jí)n元文法獲取郵件特征,有效解決了垃圾郵件特征獲取的問(wèn)題,應(yīng)用該特征不僅簡(jiǎn)化了特征提取,還使得過(guò)濾器能夠處理圖像、病毒郵件的能力,為大幅提高垃圾郵件過(guò)濾器的性能奠定了基礎(chǔ);采用TONE訓(xùn)練方法進(jìn)行垃圾郵件過(guò)濾器的訓(xùn)練,減輕了系統(tǒng)對(duì)訓(xùn)練數(shù)據(jù)的需求,提高了系統(tǒng)的效率,同時(shí)還提高了系統(tǒng)的魯棒性。本發(fā)明提出的垃圾郵件過(guò)濾器的性能在TREC06數(shù)據(jù)上優(yōu)于當(dāng)年評(píng)測(cè)的最好成績(jī),在SEWM07立即反饋上l-ROCA值達(dá)到了0.0000%,并以絕對(duì)優(yōu)勢(shì)獲得了SEWM08評(píng)測(cè)的所有在線過(guò)濾任務(wù)的第一名。本發(fā)明所述的垃圾郵件過(guò)濾器尤其適用于對(duì)中文郵件的過(guò)濾。圖1是本發(fā)明所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器的結(jié)構(gòu)示意圖。具體實(shí)施例方式具體實(shí)施方式一本實(shí)施方式所述的基于字節(jié)級(jí)n元文法(byteleveln-gram)的特征提取方法為對(duì)提取對(duì)象信息進(jìn)行大小為n的滑動(dòng)窗口操作,獲得m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息。本實(shí)施方式中的特征選取方法,可以選擇長(zhǎng)度為n個(gè)字節(jié)滑動(dòng)窗口,然后使用所述滑動(dòng)窗口選取信息中連續(xù)的m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片斷gmm作為特征,第i+1個(gè)字節(jié)片斷是以第i個(gè)字節(jié)片斷中的第二個(gè)字節(jié)為首字節(jié)的,其中i為大于0的整數(shù),并且i〈m。本實(shí)施方式中的特征信息提取方法,可以提取信息的前m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片段(n-gram)作為特征信息,還可以提取信息的后m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片段(n-gmm)作為特征信息。本實(shí)施方式中的特征信息提取方法,還可以根據(jù)信息增益(InformationGain)、交叉熵(CrossEntropy)等統(tǒng)計(jì)方法提取m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片段(n-gram)作為特征信息。本實(shí)施方式采用字節(jié)級(jí)的片斷序列作為特征提取出來(lái),與以往的字序列的特征提取方式不同。它適用于對(duì)文字信息、圖片信息、HTML格式郵件、圖像文件、壓縮文件等等現(xiàn)有各種格式的文件的特征提取具體實(shí)施方式二本實(shí)施方式所述的是一種基于具體實(shí)施方式一所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,它由分類器、特征權(quán)重庫(kù)和訓(xùn)練器組成,其中分類器,用于對(duì)接收郵件進(jìn)行特征提取并獲得特征信息,還用于根據(jù)所述特征信息和特征權(quán)重庫(kù)中的特征信息將接收郵件分為垃圾郵件和正常郵件,所述特征提取方法采用基于字節(jié)級(jí)n元文法的特征提取方法;特征權(quán)重庫(kù),用于存儲(chǔ)垃圾郵件的特征及其權(quán)重,并根據(jù)訓(xùn)練器提供的信息實(shí)時(shí)更新特征信息;所述用戶是能夠反饋垃圾郵件信息的垃圾郵件過(guò)濾器的使用者,包括垃圾郵件過(guò)濾器的實(shí)際使用者,即垃圾郵件過(guò)濾器的服務(wù)對(duì)象,還包括垃圾郵件服務(wù)商的工作人員;訓(xùn)練器,根據(jù)用戶的反饋對(duì)郵件的過(guò)濾結(jié)果進(jìn)行在線學(xué)習(xí),更新調(diào)整特征權(quán)重庫(kù)中的信息。所述分類器在提取了m個(gè)長(zhǎng)度為n的字節(jié)片段之后,選取區(qū)別度大于設(shè)定閾值的字節(jié)片段作為特征信息。本實(shí)施方式中的訓(xùn)練器采用在線學(xué)習(xí)方式。所述分類器中的特征提取方法,可以提取信息流中的前m個(gè)n個(gè)字節(jié)(以下稱n-gram),也可以根據(jù)信息增益(InformationGain)、交叉熵(CrossEntropy)等統(tǒng)計(jì)方法提取區(qū)別度大的字節(jié)n-gmm。所述分類器中的特征提取方法可以采用下述方法選擇長(zhǎng)度為n個(gè)字節(jié)滑動(dòng)窗口,然后使用所述滑動(dòng)窗口選取郵件信息流中的m個(gè)n字節(jié)長(zhǎng)度的信息片斷gram作為特征,其中第i+l個(gè)信息片斷的以第i個(gè)信息片斷中的第二個(gè)字節(jié)為首字節(jié),所述m、n和i為大于0的整數(shù),并且i〈m;所述m的大小根據(jù)郵件的實(shí)際長(zhǎng)度確定。具體實(shí)現(xiàn)上,可以將長(zhǎng)度為n個(gè)字節(jié)的窗口從信息流的第一個(gè)字節(jié)處開(kāi)始,自左向右連續(xù)移動(dòng),每次移動(dòng)的步長(zhǎng)為1個(gè)字節(jié),窗口中出現(xiàn)的n個(gè)字節(jié)即為一個(gè)字節(jié)級(jí)n-gram(n元文法)。也可以信息流的尾端開(kāi)始,自右至左形成字節(jié)級(jí)n-gram。對(duì)于n-gram,n=l時(shí)稱為一元文法(unigram),n=2時(shí)稱為二元文法(bigram),n=3時(shí)稱為三元文法(trigram),n>3時(shí),通常直接稱為n-gram,如4-gram,5-gram。如以ASCII編碼的"hellowolrd",它對(duì)應(yīng)的字節(jié)級(jí)一元文法特征為h、e、1、1、o、w、o、1、r、d,即所有單個(gè)的字節(jié);它對(duì)應(yīng)的字節(jié)級(jí)二元文法特征為he、el、11、lo、ow、wo、ol、lr、r山它對(duì)應(yīng)的字節(jié)級(jí)4-gram特征為hell、ello、llow、lowo、owol、wolr、olrd。再如,以GB2312編碼的"計(jì)算機(jī)",它的機(jī)器內(nèi)碼為BCC6CBE3BBFA,字節(jié)級(jí)一元文法(為二進(jìn)制串)為BC、C6、CB、E3、BB、FA;字節(jié)級(jí)二元文法(為二進(jìn)制串)為BCC6、C6CB、CBE3、E3BB、BBFA;等等。而"計(jì)算機(jī)"對(duì)應(yīng)的字符級(jí)一元文法為"計(jì)"、"算"、"機(jī)";字符級(jí)二元文法為"計(jì)算"、"算機(jī)"。再如,對(duì)于十六進(jìn)制串00090607,其所對(duì)應(yīng)字節(jié)級(jí)一元文法為00、09、06、07;由于該串不存在對(duì)應(yīng)字符,因此沒(méi)有字符級(jí)以元文法。這是字符級(jí)n-gmm和字節(jié)級(jí)n-gram的核心差異,這個(gè)差異導(dǎo)致了字節(jié)級(jí)n-gram能夠有效提取含有圖像、PDF文件、病毒等的郵件的特征。在上述特征提取的過(guò)程中,可以提取部分n-gmm來(lái)作為特征,即將區(qū)分度不大的特征刪除,這樣做,一方面可以達(dá)到降低提取的特征數(shù)量,加快處理速度;另一方面,由于刪除了區(qū)分度不大的特征,降低了長(zhǎng)郵件的影響,提高了過(guò)濾器/分類器的性能。本實(shí)施方式所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器具有以下特點(diǎn)1、無(wú)需任何詞典支持,無(wú)需進(jìn)行分詞處理;無(wú)需語(yǔ)言學(xué)先驗(yàn)知識(shí);無(wú)需對(duì)郵件進(jìn)行預(yù)處理,將郵件當(dāng)作無(wú)差別的字節(jié)流對(duì)待,不用考慮文字編碼的問(wèn)題,同時(shí)具有處理復(fù)雜文件的能力,如HTML格式郵件、圖像文件、壓縮文件。與以詞字、詞組等為特征元素相比,這樣定義特征元素能有效防止垃圾郵件信息被繞過(guò)的情況。如product進(jìn)行文字變形,變換為p!roduct,pro—duct,prod-uct等等,基于詞字、詞組的過(guò)濾器就可能識(shí)別不出該特征,而基于字節(jié)的n元文法仍可以有效識(shí)別出該特征。例如,當(dāng)n-4時(shí),product進(jìn)行特征抽取如下prod、rodu、oduc、duct,以向量的形式表示為《duct,oduc,prod,rodu};當(dāng)product文字變形后變?yōu)閜rod-uct時(shí)進(jìn)行特征抽取如下prod、rod-、od-u、d-uct、國(guó)uct,以向量的形式表示為(-uct、d畫(huà)uct、od-u、prod、rod-};兩者共有的特征是prod。當(dāng)出現(xiàn)特征prod時(shí),則該完整的單詞為product的概率比只捕捉到特征prod時(shí)的概率要大得多。2、更適合對(duì)中文信息的處理中文使用至少2個(gè)字節(jié)表示一個(gè)字(如GB2312使用兩個(gè)字節(jié)表示1個(gè)漢字,GB18030使用兩個(gè)字節(jié)或四個(gè)字節(jié)表示l個(gè)漢字),不使用空格作為詞的分隔符,因此,如果對(duì)漢字進(jìn)行文字變換程度太大的話,是很難讓人讀懂的,如"胡錦濤",常見(jiàn)的變形文字是"胡.錦.濤"、"hu錦濤"等,這種文字變形使得典型的以詞為過(guò)濾單元的方法失效。但在基于字節(jié)級(jí)n元文法下,能夠提取有效特征,表明了該郵件的性質(zhì)。3、適合對(duì)郵件附件、所包含的圖片的處理采用本發(fā)明的垃圾郵件過(guò)濾器,由于在對(duì)郵件的特征提取的過(guò)程中采用基于字節(jié)級(jí)n元文法的特征提取方法,能夠提取郵件的文本內(nèi)容;在處理郵件的附件、所包含的圖片等組成成分時(shí),還提取了它們的二進(jìn)制特征,因此能夠在一個(gè)簡(jiǎn)單的框架下處理以往很難處理問(wèn)題。采用字節(jié)級(jí)n元文法提取郵件特征,避免了繁雜的郵件解析、漢字編碼轉(zhuǎn)換等工作,并使系統(tǒng)具有處理圖像、病毒郵件的能力。本實(shí)施方式所述的特征提取方法以字節(jié)為單位,適用于對(duì)英文信息、中文信息、圖片信息進(jìn)行特征提取,它可以適用于信息過(guò)濾、信息推送、模式識(shí)別
      技術(shù)領(lǐng)域
      ?,F(xiàn)有垃圾郵件過(guò)濾器的學(xué)習(xí)方式可以分為在線學(xué)習(xí)和離線學(xué)習(xí)(批量學(xué)習(xí))。在離線學(xué)習(xí)方式下,通過(guò)訓(xùn)練樣本調(diào)整分類器的參數(shù)。在實(shí)際應(yīng)用時(shí),不再調(diào)整分類器的參數(shù)。在在線學(xué)習(xí)方式下,分類器根據(jù)用戶的反饋不斷調(diào)整特征的權(quán)重,使系統(tǒng)能夠適應(yīng)不斷變化的應(yīng)用環(huán)境。在線學(xué)習(xí)適用于需要快速更新的環(huán)境,受制于在線更新學(xué)習(xí)器,參數(shù)更新算法的復(fù)雜度要低,以適應(yīng)實(shí)際應(yīng)用的需求。離線學(xué)習(xí)方式反之。為了避免垃圾郵件被過(guò)濾器過(guò)濾,垃圾郵件發(fā)送者不斷改進(jìn)垃圾郵件。這就要求垃圾郵件過(guò)濾器具有良好的適應(yīng)能力。在線學(xué)習(xí)方式能夠滿足過(guò)濾不斷變化的垃圾郵件的要求,這也是TREC(TextREtrievalConference)禾口CEAS(ConferenceonEmailandAnti-Spam)評(píng)領(lǐng)!j采用在線學(xué)習(xí)方式的原因。本實(shí)施方式中的訓(xùn)練器采用在線學(xué)習(xí)方式,這也是國(guó)際垃圾郵件過(guò)濾評(píng)測(cè)(如TREC、CEAS垃圾郵件過(guò)濾評(píng)測(cè))采用的方式。所用的郵件在線過(guò)濾模式如圖1所示,以分類器和訓(xùn)練器為中心分為分類和訓(xùn)練(即學(xué)習(xí))兩部分。分類器根據(jù)在線更新的特征庫(kù),過(guò)濾按實(shí)際順序輸入的郵件流,判斷每個(gè)郵件的屬性。訓(xùn)練器根據(jù)用戶的反饋對(duì)郵件的過(guò)濾結(jié)果進(jìn)行在線學(xué)習(xí),并進(jìn)一步調(diào)整過(guò)濾器的特征權(quán)重、更新特征權(quán)重庫(kù);提高過(guò)濾器的適應(yīng)能力與性能。本實(shí)施方式所述的特征提取方法是采用具體實(shí)施方式一所述的基于字節(jié)級(jí)n元文法的特征提取方法,該特征提取方法是分類器和訓(xùn)練器工作的基礎(chǔ),它的優(yōu)點(diǎn)有(1)可以避免現(xiàn)有以詞作為特征提取單元的方法中存在的分詞錯(cuò)誤問(wèn)題,并提高系統(tǒng)處理速度;(2)能夠有效解決垃圾郵件中的字符變形問(wèn)題;(3)具有處理復(fù)雜格式信息的能力,簡(jiǎn)化了復(fù)雜信息的處理。例如對(duì)于垃圾郵件過(guò)濾,采用本發(fā)明提出的方法,可以使垃圾郵件過(guò)濾器具備處理圖像、PDF文件以及病毒的能力。本實(shí)施方式尤其適用于包含文本信息的復(fù)雜信息對(duì)象的特征提取。采用本實(shí)施方式的垃圾郵件過(guò)濾器,由于在對(duì)郵件的特征提取的過(guò)程中采用基于字節(jié)級(jí)n元文法的特征提取方法,即提取郵件的文本內(nèi)容,在處理郵件的附件、所包含的圖片等組成成分時(shí),提取了它們的二進(jìn)制特征,因此能夠在一個(gè)簡(jiǎn)單的框架下處理以往很難處理問(wèn)題。采用字節(jié)級(jí)n元文法提取郵件特征,避免了繁雜的郵件解析、漢字編碼轉(zhuǎn)換等工作,并使系統(tǒng)具有處理圖像、病毒郵件的能力。由于提取的是字節(jié)級(jí)n-gram,這使系統(tǒng)具備了任何信息單元的能力,使其能夠有效處理到目前還未出現(xiàn)的某一類垃圾郵件,例如未來(lái)可能出現(xiàn)的嵌入視頻的垃圾郵件。在實(shí)際使用的時(shí)候,提取的字節(jié)級(jí)的數(shù)據(jù),以n個(gè)字節(jié)為一單元(gmm),然后提取郵件的前m個(gè)單元進(jìn)行判斷。例如,n=4,m=3000,即使用字節(jié)級(jí)4-gram,并且每一封郵件僅取前3000個(gè)4-gram。郵件的特征值為布爾值,即郵件包含某個(gè)4-gram,其值為1,否則為0。由于特征數(shù)量較大,可以采用哈希鏈表或二級(jí)索引等方式組織存儲(chǔ),加快訪問(wèn)速度。本實(shí)施方式中采用哈希鏈表方式組織存儲(chǔ)。本實(shí)施方式中的分類器采用邏輯回歸(LogisticRegression,LR)模型,所述邏輯回歸(LR)模型和SVM—樣,是一種判別學(xué)習(xí)模型。判別學(xué)習(xí)模型與以貝葉斯為代表的生成模型有本質(zhì)差異。傳統(tǒng)生成模型認(rèn)為數(shù)據(jù)都是某種分布生成的,并試圖根據(jù)這種分布建模。采用最大似然估計(jì)(maximumlikelihoodestimation,簡(jiǎn)稱MLE)來(lái)求解模型參數(shù),并用平滑算法來(lái)解決數(shù)據(jù)稀疏問(wèn)題。這種方法僅當(dāng)以下兩個(gè)條件都滿足時(shí)才是最優(yōu)的第一,數(shù)據(jù)的概率分布形式是已知的;第二,存在足夠大的訓(xùn)練數(shù)據(jù)時(shí)才能采用最大似然估計(jì)(MLE)來(lái)求解模型參數(shù),但在實(shí)際應(yīng)用中,這兩個(gè)條件很多時(shí)候無(wú)法滿足。判別學(xué)習(xí)模型是與生成模型相對(duì)應(yīng)的一類建模方法。其假設(shè)條件比采用最大似然估計(jì)(MLE)弱得多,只要求訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同一個(gè)分布即可。而且,判別學(xué)習(xí)算法的目標(biāo)往往與實(shí)際應(yīng)用的評(píng)價(jià)標(biāo)準(zhǔn)密切相關(guān)(如使模型在訓(xùn)練數(shù)據(jù)上的錯(cuò)誤率最小化)。因此判別學(xué)習(xí)模型的性能往往要優(yōu)于生成模型。邏輯回歸模型和SVM本質(zhì)上是一致的,都是判別學(xué)習(xí)模型。但從計(jì)算復(fù)雜度上看,邏輯回歸模型的計(jì)算復(fù)雜要明顯低于SVM,其分類速度要也比SVM快得多。在基于內(nèi)容的郵件過(guò)濾系統(tǒng)中,影響一封郵件是垃圾郵件還是非垃圾郵件的因素是該郵件中的特征。應(yīng)用邏輯回歸模型,可以根據(jù)郵件的特征判斷該郵件是垃圾郵件的概率<formula>formulaseeoriginaldocumentpage13</formula>其中<formula>formulaseeoriginaldocumentpage13</formula>是該封郵件的所有特征組成的向量,<formula>formulaseeoriginaldocumentpage13</formula>是該特征向量相對(duì)應(yīng)的特征權(quán)重向量,即特征A的權(quán)重為Wn特征X2的權(quán)重為Wy等等。定義一個(gè)分界值,通常設(shè)為0.5。比較P(y)和分界值,若P(y)大于等于分界值,就判斷為垃圾郵件;否則就判斷為正常郵件。具體算法為<formula>formulaseeoriginaldocumentpage13</formula>本實(shí)施方式中的訓(xùn)練器采用TONE方法進(jìn)行訓(xùn)練/學(xué)習(xí),即調(diào)整特征權(quán)重時(shí)使用TONE方法。TONE(TrainOnorNearError)方法也被稱之為T(mén)hickThreshold方法,該方法是在TOE基礎(chǔ)上加以改進(jìn),預(yù)設(shè)一個(gè)分?jǐn)?shù)界限,當(dāng)郵件得分與判斷閥值之差的絕對(duì)值在界限之內(nèi)時(shí),即使正確判斷也進(jìn)行訓(xùn)練。對(duì)于本實(shí)施方式采用的邏輯回歸模型,當(dāng)郵件的得分大于等于0.5時(shí),就判斷成垃圾郵件;反之,當(dāng)郵件的得分小于0.5時(shí),就判斷成正常郵件。采用TONE訓(xùn)練方法,在下述兩種情況下進(jìn)行訓(xùn)練(1)過(guò)濾器分類錯(cuò)誤;(2)如果設(shè)定閾值為0.5,則得分介于0.4到0.6之間的郵件都需要進(jìn)行訓(xùn)練。TONE訓(xùn)練方法只對(duì)分類面附近的樣本進(jìn)行訓(xùn)練,通過(guò)分類器將分類錯(cuò)誤和在分類面附近的樣本向"安全區(qū)域"調(diào)整。直觀上,這個(gè)過(guò)程與支持向量機(jī)模型有異曲同工之妙。支持向量機(jī)模型在尋找最大化最近距離的分類面(即最優(yōu)分類面);在TONE方法中,恰當(dāng)?shù)卦O(shè)置閥值,可以起到相同的作用。據(jù)我們所知,尚未有討論TONE方法和最優(yōu)分類面關(guān)系的文獻(xiàn)。本實(shí)施方式中的訓(xùn)練器對(duì)特征權(quán)重庫(kù)的更新方法采用梯度下降的方法。使用梯度下降方法時(shí),選取合適的特征學(xué)習(xí)速率以保證適當(dāng)?shù)膶W(xué)習(xí)速率。采用的權(quán)重更新算法為initialization:0;〃initializeallfeatures'weightto0Input:^(第i封郵件特征向量),yi(第謝郵件的屬性)Output:更新后的Wif(abs(p-0'5)<6orpredictionerror)〃TONEif(y"1)W=W+(1-p)*Xi*rateelseW-^-p*^*rate當(dāng)力為1表示該郵件是垃圾郵件,為0表示該郵件是正常郵件,特征的權(quán)重向量,的初始值是0;^為T(mén)ONE算法中的閾值,p為第i封郵件為垃圾郵件的概率;i加e為學(xué)習(xí)速率,為常數(shù)。具體實(shí)施方式三本實(shí)施方式是采用目前已有的全部公開(kāi)中文垃圾郵件公有測(cè)試集(TREC06c、SEWM07和SEWM08)對(duì)具體實(shí)施方式二所述的垃圾郵件過(guò)濾器進(jìn)行測(cè)試的方法和結(jié)論。過(guò)濾器的性能在目前己有的全部公開(kāi)中文垃圾郵件公有測(cè)試集(TREC06c、SEWM07和SEWM08)上驗(yàn)證,表1是測(cè)試數(shù)據(jù)的情況。起始字符是TREC的測(cè)試集由TREC(TextREtrievalConference)提供,TREC評(píng)測(cè)由美國(guó)國(guó)防部高級(jí)研究規(guī)劃局(DARPA,DefenseAdvancedResearchProjectsAgency和美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST,NationalInstituteofStandardsandTechnology)主辦。起始字符是SEWM(SearchEngineandWebMining)的測(cè)試集由華南理工大學(xué)提供,SEWM垃圾郵件過(guò)濾評(píng)測(cè)由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦。表1垃圾郵件過(guò)濾測(cè)試集<table>tableseeoriginaldocumentpage14</column></row><table>表1中的"SEWM07"評(píng)測(cè)中使用的測(cè)試集與華南理工隨后公布的SEWM2007測(cè)試集不同,評(píng)測(cè)中使用的測(cè)試集包含20000封正常郵件,55056封垃圾郵件。實(shí)驗(yàn)使用(l-ROCA)%作為過(guò)濾器的評(píng)估指標(biāo),lamW也被使用,用于參考。/am%表示邏輯平均誤判率,定義為=/og/,"ogzY*aw%><2正常郵件錯(cuò)誤判斷為垃圾郵件的比率,^^2%為垃圾郵件錯(cuò)誤判斷為正常郵件的比率。ROC曲線下部面積,以hmy。為橫坐標(biāo),以smQ/。為縱坐標(biāo),取不同的T值時(shí),做ROC曲線(實(shí)際表達(dá)recall-fallout),求得ROC曲線上方面積為ROCA,ROC曲線下方面積為l-ROCA。l-ROCA的值介于0和1之間,該值越小,表示過(guò)濾器效能越好。測(cè)試工具采用TREC提供的評(píng)估工具(下文稱為T(mén)REC工具)。實(shí)驗(yàn)在所有的中文垃圾郵件過(guò)濾測(cè)試集上進(jìn)行,測(cè)試包括TREC06c、SEWM07、SEWM08的公開(kāi)語(yǔ)料。這些測(cè)試語(yǔ)料涉及到的測(cè)試任務(wù)有立即反饋(ImmediateFeedback)、延遲反饋(DelayedFeedback)、主動(dòng)學(xué)習(xí)(ActiveLearning)。在立即反饋測(cè)試中,過(guò)濾器按接收到的郵件次序?qū)⑧]件分成正常郵件或垃圾郵件,并計(jì)算每一封郵件分值。過(guò)濾器在對(duì)郵件進(jìn)行分類之后可以立即得到該郵件是否分類正確(即該郵件的金標(biāo)準(zhǔn)(GoldStandard))。立即反饋假定用戶在接收到郵件后立即作出判斷。然而,真實(shí)用戶不可能立即向過(guò)濾器返回正確的類別。用戶經(jīng)常一次讀多封郵件,這導(dǎo)致過(guò)濾器不可能馬上獲得郵件的正確分類,延遲反饋模擬了這種情況。在延遲反饋中,過(guò)濾器需要等待一定數(shù)據(jù)郵件之后才能獲得某一封郵件的分類。主動(dòng)學(xué)習(xí)任務(wù)測(cè)試過(guò)濾器如何最有效的利用反饋信息,降低系統(tǒng)的訓(xùn)練次數(shù)和對(duì)標(biāo)注數(shù)據(jù)的依賴。在主動(dòng)學(xué)習(xí)測(cè)試中,給定一定的配額(quota),過(guò)濾器在配額消耗完后測(cè)試系統(tǒng)不再提供反饋。表2到表4是實(shí)驗(yàn)的主要結(jié)果,分別給出了過(guò)濾器在立即反饋、延遲反抗和主動(dòng)學(xué)習(xí)上的性能。SEWM07評(píng)測(cè)沒(méi)有參賽隊(duì)進(jìn)行了在線學(xué)習(xí)任務(wù),只進(jìn)行了批處理(離線)任務(wù),因此沒(méi)有在線任務(wù)的最佳系統(tǒng)。SEWM07沒(méi)有進(jìn)行延遲反饋測(cè)試,TREC06C和SEWM07沒(méi)有進(jìn)行主動(dòng)反饋測(cè)試,沒(méi)有相關(guān)實(shí)驗(yàn)數(shù)據(jù),因此表中相應(yīng)位置為空。表中"最佳系統(tǒng)/第二名系統(tǒng)"表示評(píng)測(cè)中最佳系統(tǒng)或第二名系統(tǒng),"/"在后表示最佳系統(tǒng),"/"在前表示第二名系統(tǒng)。如"0.0023/"表示最佳系統(tǒng)的性能,"/0.0094"表示第二名系統(tǒng)的性能。本發(fā)明所述的垃圾郵件過(guò)濾器參加了SEWM08評(píng)測(cè),包攬了SEWM08所有在線任務(wù)的第一,在表中SEWM08下的"最佳系統(tǒng)/第二名系統(tǒng)"標(biāo)識(shí)了第二名系統(tǒng)的性能。表2垃圾郵件過(guò)濾器的立即反饋性能<table>tableseeoriginaldocumentpage16</column></row><table>表中的"最佳系統(tǒng)"是指當(dāng)年評(píng)測(cè)的最佳系統(tǒng),排序依據(jù)為l-ROCA。表3垃圾郵件過(guò)濾器的延遲反饋性能<table>tableseeoriginaldocumentpage16</column></row><table>從表2到表4的實(shí)驗(yàn)結(jié)果可以看出,本發(fā)明所述的垃圾郵件過(guò)濾器性能優(yōu)異,要么遠(yuǎn)遠(yuǎn)優(yōu)于當(dāng)年評(píng)測(cè)的最佳系統(tǒng),要么在評(píng)測(cè)中獲得第一,并遠(yuǎn)遠(yuǎn)領(lǐng)先第二名。本發(fā)明與專利CN101227435A(基于Logistic回歸的中文垃圾郵件過(guò)濾方法,發(fā)明人徐從富,王慶幸等)、論文王慶幸,徐從富,何俊.基于Logistic回歸的中文垃圾郵件過(guò)濾方法.計(jì)算機(jī)科學(xué),2008年35巻10期(以下簡(jiǎn)稱徐從富發(fā)明與論文)相比,其共同點(diǎn)是采用邏輯回歸模型;核心差異在于特征提取方式,本發(fā)明采用字節(jié)級(jí)n-gram,這是本發(fā)明的核心內(nèi)容,徐從富發(fā)明與論文采用詞;本發(fā)明采用在線學(xué)習(xí)方式動(dòng)態(tài)更新特征及其權(quán)重,徐從富發(fā)明與論文采用批處理(離線方式)學(xué)習(xí)方式,導(dǎo)致過(guò)濾器無(wú)法動(dòng)態(tài)更新特征及其權(quán)重,導(dǎo)致過(guò)濾器的性能低于本發(fā)明。權(quán)利要求1、基于字節(jié)級(jí)n元文法的特征提取方法,其特征在于它對(duì)提取對(duì)象信息進(jìn)行大小為n個(gè)字節(jié)的滑動(dòng)窗口操作,獲得m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息,所述m、n為大于0的整數(shù)。2、根據(jù)權(quán)利要求1所述的基于字節(jié)級(jí)n元文法的特征提取方法,其特征在于所述m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片斷是連續(xù)選取的,第i+l個(gè)字節(jié)片斷是以第i個(gè)字節(jié)片斷中的第二個(gè)字節(jié)為首字節(jié)的。3、根據(jù)權(quán)利要求1所述的基于字節(jié)級(jí)n元文法的特征提取方法,其特征在于它是提取對(duì)象信息中的前m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息,或者后m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息。4、根據(jù)權(quán)利要求1所述的基于字節(jié)級(jí)n元文法的特征提取方法,其特征在于它是根據(jù)信息增益或者交叉熵統(tǒng)計(jì)方法提取對(duì)象信息中的m個(gè)長(zhǎng)度為n的字節(jié)片斷序列作為特征信息。5、采用權(quán)利要求1所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,它由分類器、特征權(quán)重庫(kù)和訓(xùn)練器組成,其中分類器,用于對(duì)接收郵件進(jìn)行特征提取并獲得特征信息,還用于根據(jù)所述特征信息和特征權(quán)重庫(kù)中的特征信息將接收郵件分為垃圾郵件和正常郵件;特征權(quán)重庫(kù),用于存儲(chǔ)垃圾郵件的特征及其權(quán)重,并根據(jù)訓(xùn)練器提供的信息實(shí)時(shí)更新特征信息;所述用戶是能夠反饋垃圾郵件信息的垃圾郵件過(guò)濾器的使用者,包括垃圾郵件過(guò)濾器的實(shí)際使用者,即垃圾郵件過(guò)濾器的服務(wù)對(duì)象,還包括垃圾郵件服務(wù)商的工作人員;訓(xùn)練器,根據(jù)用戶的反饋對(duì)郵件的過(guò)濾結(jié)果進(jìn)行在線學(xué)習(xí),更新調(diào)整特征權(quán)重庫(kù)中的信息;其特征在于所述分類器中的特征提取方法采用基于字節(jié)級(jí)n元文法的特征提取方法。6、根據(jù)權(quán)利要求5所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,其特征在于所述分類器中采用哈希鏈表或二級(jí)索引方式組織存儲(chǔ)提取的特征信息。7、根據(jù)權(quán)利要求5所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,其特征在于所述分類器采用邏輯回歸模型作為過(guò)濾模型。8、根據(jù)權(quán)利要求5所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,其特征在于所述訓(xùn)練器采用在線學(xué)習(xí)方式。9、根據(jù)權(quán)利要求5所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,其特征在于所述訓(xùn)練器采用TONE方法調(diào)整特征權(quán)重。10、根據(jù)權(quán)利要求5所述的基于字節(jié)級(jí)n元文法的特征提取方法的垃圾郵件過(guò)濾器,其特征在于所述訓(xùn)練器對(duì)特征權(quán)重庫(kù)的更新方法采用梯度下降方法。全文摘要基于字節(jié)級(jí)n元文法的特征提取方法及垃圾郵件過(guò)濾器,涉及到包括垃圾郵件過(guò)濾技術(shù)在內(nèi)的信息處理
      技術(shù)領(lǐng)域
      。它解決了現(xiàn)有文本特征提取方法中存在的需要詞庫(kù)支持,并不能夠同時(shí)適應(yīng)對(duì)英文、漢字、圖形以及其它形式信息的特征提取、鑒別的問(wèn)題,本發(fā)明的特征提取方法所提取的特征信息為m個(gè)長(zhǎng)度為n個(gè)字節(jié)的信息片段序列。本發(fā)明的垃圾郵件過(guò)濾器中的分類器采用上述方法提取郵件的特征信息作為判斷依據(jù),并采用邏輯回歸模型這一判別學(xué)習(xí)模型從理論上保證能夠取得良好的過(guò)濾性能;本發(fā)明的垃圾郵件過(guò)濾器中的訓(xùn)練器采用在線學(xué)習(xí)方式,采用TONE(TrainOnorNearError)方法調(diào)整特征權(quán)重。本發(fā)明的垃圾郵件過(guò)濾器尤其適用于中文垃圾郵件的過(guò)濾。文檔編號(hào)G06Q10/00GK101540017SQ200910071908公開(kāi)日2009年9月23日申請(qǐng)日期2009年4月28日優(yōu)先權(quán)日2009年4月28日發(fā)明者何曉寧,波安,軍李,生李,楊沐昀,雷國(guó)華,詠?lái)n,齊浩亮申請(qǐng)人:黑龍江工程學(xué)院;哈爾濱工業(yè)大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1