一種垃圾短信過濾方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及移動通信中的反垃圾短信領域,尤其涉及一種垃圾短信過濾方法及裝 置。
【背景技術】
[0002] 目前,在移動通信中,隨著垃圾短信的傳播蔓延,移動用戶的利益受到侵害,服務 運營商的正常運營秩序受到影響,從而危害了移動互聯(lián)網(wǎng)安全和社會穩(wěn)定。
[0003] 然而,現(xiàn)有的垃圾短信過濾技術存在嚴重缺陷,其準確性低,且用于過濾垃圾短信 的特征模型不可理解,屬于黑盒操作。另外,現(xiàn)有的垃圾短信過濾技術難以處理不完備數(shù) 據(jù),也無法融入先驗知識。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明實施例期望提供一種垃圾短信過濾方法及裝置,通過對信度網(wǎng) 分類器進行集成的方式,能夠有效提高過濾垃圾短信的準確率。
[0005] 為達到上述目的,本發(fā)明實施例的技術方案是這樣實現(xiàn)的:
[0006] 本發(fā)明實施例提供一種垃圾短信過濾方法,該方法包括:
[0007] 通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判斷,獲得N個第一分類 結果;其中,所述N為大于等于2的正整數(shù);
[0008] 根據(jù)所述N個第一分類結果對所述N個信度網(wǎng)分類器進行集成,形成集成后的信 度網(wǎng)分類器;
[0009] 根據(jù)所述集成后的信度網(wǎng)分類器對所述待處理短信進行第二分類判斷,獲得第二 分類結果;
[0010] 若所述第二分類結果為所述待處理短信為垃圾短信,對所述待處理短信進行過 濾。
[0011] 上述方案中,所述通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判斷, 獲得N個第一分類結果之前,所述方法還包括:獲取短信樣本集;通過標識的劃分和標識精 化處理的方式對所述短信樣本集進行訓練,獲得所述N個信度網(wǎng)分類器分別用于對待處理 短信進行第一分類判斷的特征模型。
[0012] 上述方案中,所述通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判斷, 獲得N個第一分類結果包括:
[0013] 將采用分詞處理所獲取的待處理短信的特征向量發(fā)送給所述N個信度網(wǎng)分類器; 所述N個信度網(wǎng)分類器分別根據(jù)用于對待處理短信進行第一分類判斷的特征模型對所述 待處理短信的特征向量進行檢測,獲得N個第一分類結果;所述第一分類結果包括所述待 處理短信為垃圾短信或所述待處理短信為非垃圾短信。
[0014] 上述方案中,所述根據(jù)所述N個第一分類結果對所述N個信度網(wǎng)分類器進行集成, 形成集成后的信度網(wǎng)分類器包括:
[0015] 根據(jù)所述N個第一分類結果,采用距離函數(shù)確定所述N個信度網(wǎng)分離器中任意兩 個分類器之間的相似度,形成相似度矩陣;根據(jù)所述相似度矩陣,通過改進仿射傳播聚類算 法對所述N個信度網(wǎng)分類器進行聚類,獲得K個由所述N個信度網(wǎng)分類器組成的類簇;分別 在所述K個類簇中選擇精度最高的信度網(wǎng)分類器,形成基分類器組;對所述基分類器組進 行集成處理,獲得集成后的信度網(wǎng)分類器;其中,所述K為大于等于2且小于等于N的正整 數(shù)。
[0016] 上述方案中,所述對所述基分類器組進行集成處理的方式包括證據(jù)理論或拉格朗 日乘數(shù)法。
[0017] 本發(fā)明實施例還提供一種垃圾短信過濾裝置,該裝置包括:第一分類判斷模塊、集 成處理模塊、第二分類判斷模塊、以及過濾模塊;其中,
[0018] 所述第一分類判斷模塊,用于通過N個信度網(wǎng)分類器分別對待處理短信進行第一 分類判斷,獲得N個第一分類結果;
[0019] 所述集成處理模塊,用于根據(jù)所述N個第一分類結果對所述N個信度網(wǎng)分類器進 行集成,形成集成后的信度網(wǎng)分類器;
[0020] 所述第二分類判斷模塊,用于根據(jù)所述集成后的信度網(wǎng)分類器對所述待處理短信 進行第二分類判斷,獲得第二分類結果;
[0021] 所述過濾模塊,用于當所述第二分類結果為所述待處理短信為垃圾短信時,對所 述待處理短信進行過濾。
[0022] 上述方案中,所述裝置還包括:訓練模塊;其中,
[0023] 所述訓練模塊,用于獲取短信樣本集;通過標識的劃分和標識精化處理的方式對 所述短信樣本集進行訓練,獲得所述N個信度網(wǎng)分類器分別用于對待處理短信進行第一分 類判斷的特征模型。
[0024] 上述方案中,所述第一分類判斷模塊,具體用于將采用分詞處理所獲取的待處理 短信的特征向量發(fā)送給所述N個信度網(wǎng)分類器;所述N個信度網(wǎng)分類器分別根據(jù)用于對待 處理短信進行第一分類判斷的特征模型對所述待處理短信的特征向量進行檢測,獲得N個 第一分類結果;所述第一分類結果包括所述待處理短信為垃圾短信或所述待處理短信為非 垃圾短信。
[0025] 上述方案中,所述集成處理模塊,具體用于根據(jù)所述N個第一分類結果,采用距離 函數(shù)確定所述N個信度網(wǎng)分離器中任意兩個分類器之間的相似度,形成相似度矩陣;根據(jù) 所述相似度矩陣,通過改進仿射傳播聚類算法對所述N個信度網(wǎng)分類器進行聚類,獲得K 個由所述N個信度網(wǎng)分類器組成的類簇;分別在所述K個類簇中選擇精度最高的信度網(wǎng)分 類器,形成基分類器組;對所述基分類器組進行集成處理,獲得集成后的信度網(wǎng)分類器;其 中,所述K為大于等于2且小于等于N的正整數(shù)。
[0026] 上述方案中,所述集成處理模塊對所述基分類器組進行集成處理的方式包括證據(jù) 理論或拉格朗日乘數(shù)法。
[0027] 本發(fā)明實施例所提供的垃圾短信過濾方法及裝置,通過N個信度網(wǎng)分類器分別對 待處理短信進行第一分類判斷,獲得N個第一分類結果;根據(jù)所述N個第一分類結果對所 述N個信度網(wǎng)分類器進行集成,形成集成后的信度網(wǎng)分類器;根據(jù)所述集成后的信度網(wǎng)分 類器對所述待處理短信進行第二分類判斷,獲得第二分類結果;若所述第二分類結果為所 述待處理短信為垃圾短信,對所述待處理短信進行過濾。如此,通過對信度網(wǎng)分類器進行集 成的方式,能夠有效提高過濾垃圾短信的準確率。
【附圖說明】
[0028] 圖1為本發(fā)明實施例垃圾短信過濾方法的實現(xiàn)流程示意圖;
[0029] 圖2為本發(fā)明實施例中r(h,k)與a(h,k)的關系圖;
[0030] 圖3為本發(fā)明實施例垃圾短信過濾裝置的組成結構示意圖。
【具體實施方式】
[0031] 在本發(fā)明實施例中,通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判 斷,獲得N個第一分類結果;根據(jù)所述N個第一分類結果對所述N個信度網(wǎng)分類器進行集 成,形成集成后的信度網(wǎng)分類器;根據(jù)所述集成后的信度網(wǎng)分類器對所述待處理短信進行 第二分類判斷,獲得第二分類結果;若所述第二分類結果為所述待處理短信為垃圾短信,對 所述待處理短信進行過濾;其中,所述N為大于等于2的正整數(shù)。
[0032] 下面結合附圖及具體實施例對本發(fā)明再作進一步詳細的說明。
[0033] 圖1為本發(fā)明實施例垃圾短信過濾方法的實現(xiàn)流程示意圖,如圖1所示,本發(fā)明實 施例垃圾短信過濾方法包括 :
[0034] 步驟S100 :通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判斷,獲得N 個第一分類結果;其中,所述N為大于等于2的正整數(shù)。
[0035] 這里,在步驟S100之前,所述垃圾短信過濾方法還包括:獲取短信樣本集;通過標 識的劃分和標識精化處理的方式對所述短信樣本集進行訓練,獲得所述N個信度網(wǎng)分類器 分別用于對待處理短信進行第一分類判斷的特征模型,即訓練集。
[0036] 具體地,所述通過N個信度網(wǎng)分類器分別對待處理短信進行第一分類判斷,獲得N 個第一分類結果包括:
[0037] 將采用分詞處理所獲取的待處理短信的特征發(fā)送給所述N個信度網(wǎng)分類器;所述 N個信度網(wǎng)分類器分別根據(jù)用于對待處理短信進行第一分類判斷的特征模型對所述待處理 短信的特征進行檢測,獲得N個第一分類結果;所述第一分類結果包括所述待處理短信為 垃圾短信或所述待處理短信為非垃圾短信。
[0038