一配置單元,還用于當(dāng)所配置的預(yù)設(shè)值包括第一預(yù)設(shè)值及第二預(yù)設(shè)值時, 且所述標(biāo)注記錄表征所述短消息在第m次標(biāo)注為非正常短消息時,配置所述標(biāo)注序列的第 m個元素取值為第一預(yù)設(shè)值;所述標(biāo)注記錄表征所述短消息在第m次標(biāo)注為正常短消息時, 配置所述標(biāo)注序列的第m個元素取值為第二預(yù)設(shè)值;其中,me{1~M中的正整數(shù)};
[006引相應(yīng)的,
[0064] 所述第一確定單元,用于在所述標(biāo)注序列中,計算取值為第一預(yù)設(shè)值的元素的數(shù) 量,并配置為第一數(shù)量,計算取值為第二預(yù)設(shè)值的元素的數(shù)量,并配置為第二數(shù)量,當(dāng)所述 第一數(shù)量超過所述第二數(shù)量時,確定與所述標(biāo)注序列相對應(yīng)的短消息為非正常短消息;或 者,
[0065] 所述第一確定單元,用于對所述標(biāo)注序列中的元素進(jìn)行采集,形成采樣樣本,在所 述采樣樣本中,計算取值為第一預(yù)設(shè)值的元素的數(shù)量,并配置為第一數(shù)量,計算取值為第二 預(yù)設(shè)值的元素的數(shù)量,并配置為第二數(shù)量,當(dāng)所述第一數(shù)量超過所述第二數(shù)量時,確定在所 述第Q個標(biāo)注周期內(nèi)與所述標(biāo)注序列相對應(yīng)的短消息為非正常短消息;或者,
[0066] 所述第一確定單元,用于在所述標(biāo)注序列中,搜索出連續(xù)取值為第一預(yù)設(shè)值和連 續(xù)取值第二預(yù)設(shè)值的元素塊,計算連續(xù)取值為第一預(yù)設(shè)值的元素塊中所包括的元素的數(shù) 量,并配置為第一數(shù)量,計算連續(xù)取值為第二預(yù)設(shè)值的元素塊中所包括的元素的數(shù)量,并配 置為第二數(shù)量,當(dāng)所述第一數(shù)量超過第二數(shù)量時,確定在所述第Q個標(biāo)注周期內(nèi)與所述標(biāo) 注序列相對應(yīng)的短消息為非正常短消息;或者,
[0067] 所述第一確定單元,用于配置所述標(biāo)注序列為具有第一預(yù)設(shè)值和第二預(yù)設(shè)值兩個 狀態(tài)的馬爾科夫鏈,計算狀態(tài)之間的轉(zhuǎn)移概率,當(dāng)?shù)谝活A(yù)設(shè)值狀態(tài)的轉(zhuǎn)移概率超過第二預(yù) 設(shè)值狀態(tài)的轉(zhuǎn)移概率,確定在所述第Q個標(biāo)注周期內(nèi)與所述標(biāo)注序列相對應(yīng)的短消息為非 正常短消息。
[0068] 上述方案中,所述裝置還包括:
[0069] 第H確定單元,用于在所述第一短消息集合中,計算出為所述短消息配置的標(biāo)注 序列的長度大于預(yù)設(shè)的第一闊值時,確定在所述第Q個標(biāo)注周期內(nèi)對所述短消息是否為非 正常短消息的判定結(jié)果為第一級別可信度的判定結(jié)果。
[0070] 上述方案中,所述裝置還包括;第H獲取單元、第四獲取單元、第二配置單元、第一 合并單元、第二確定單元;其中,
[0071] 所述第H獲取單元,用于獲取在第Q+1個標(biāo)注周期內(nèi)的第二短消息集合,所述第 二短消息集合為在所述第Q+1個標(biāo)注周期內(nèi)的經(jīng)過人工標(biāo)注的短消息的集合;
[0072] 所述第四獲取單元,用于獲取所述第一短消息集合與第二短消息集合中相同或相 似度超過第一闊值的短消息,并配置所述短消息為第一類型短消息;
[0073] 所述第二配置單元,用于獲取所述第二短消息集合中對所述第一類型短消息的人 工標(biāo)注記錄;依據(jù)所述人工標(biāo)注記錄,為所述第一類型短消息配置相應(yīng)的標(biāo)注序列;獲取 在第Q個標(biāo)注周期內(nèi)為所述第一類型短消息的標(biāo)注序列;
[0074] 所述第一合并單元,用于將在所述第Q+1個標(biāo)注周期內(nèi)的標(biāo)注序列與在第Q個標(biāo) 注周期內(nèi)的標(biāo)注序列進(jìn)行合并,形成合并標(biāo)注序列;
[00巧]所述第二確定單元,用于依據(jù)所述合并標(biāo)注序列,確定在所述第Q+1個標(biāo)注周期 內(nèi)的與所述合并標(biāo)注序列相對應(yīng)的所述第一類型短消息是否為非正常短消息,W維持或修 正對所述第一類型短消息在所述第Q個標(biāo)注周期內(nèi)的確定結(jié)果。
[0076] 上述方案中,
[0077] 所述第二配置單元,用于為所述第二短消息集合中的所述第一類型短消息配置的 標(biāo)注序列的元素的個數(shù)等于所述第一類型短消息在所述第Q+1個標(biāo)注周期內(nèi)被人工標(biāo)注 的總次數(shù)M';配置所述標(biāo)注序列的每一元素的取值為與所述標(biāo)注記錄一一對應(yīng)的預(yù)設(shè)值;
[0078] 相應(yīng)的,所述第一合并單元,用于將在所述第Q+1個標(biāo)注周期內(nèi)的所配置的標(biāo)注 序列元素與在所述第Q個標(biāo)注周期內(nèi)的標(biāo)注序列元素進(jìn)行合并,形成所述合并標(biāo)注序列;
[0079] 所述第二確定單元,用于依據(jù)所述合并標(biāo)注序列的元素的取值,確定在所述第Q+1 個標(biāo)注周期內(nèi)與所述合并標(biāo)注序列相對應(yīng)的第一類型短消息是否為非正常短消息。
[0080] 上述方案中,
[0081] 所述第二配置單元,用于當(dāng)所配置的預(yù)設(shè)值包括第一預(yù)設(shè)值及第二預(yù)設(shè)值時,且 所述第一類型短消息的標(biāo)注記錄表征所述短消息在所述第Q+1個標(biāo)注周期內(nèi)的第m'次標(biāo) 注為非正常短消息時,配置所述標(biāo)注序列的第m'個元素取值為第一預(yù)設(shè)值;所述第一類型 短消息的標(biāo)注記錄表征所述短消息在所述第Q+1個標(biāo)注周期內(nèi)的第m'次標(biāo)注為正常短消 息時,配置所述標(biāo)注序列的第m'個元素取值為第二預(yù)設(shè)值;其中,m'e{1~r中的正整 數(shù)};
[008引 相應(yīng)的,
[0083] 所述第二確定單元,用于在所述合并標(biāo)注序列中,計算取值為第一預(yù)設(shè)值的元素 的數(shù)量,并配置為第一數(shù)量,計算取值為第二預(yù)設(shè)值的元素的數(shù)量,并配置為第二數(shù)量,當(dāng) 所述第一數(shù)量超過所述第二數(shù)量時,確定在所述第Q+1個標(biāo)注周期內(nèi)的與所述合并標(biāo)注序 列相對應(yīng)的第一類型短消息為非正常短消息;或者,
[0084] 所述第二確定單元,用于對所述合并標(biāo)注序列中的元素進(jìn)行采集,形成采樣樣本, 在所述采樣樣本中,計算取值為第一預(yù)設(shè)值的元素的數(shù)量,并配置為第一數(shù)量,計算取值為 第二預(yù)設(shè)值的元素的數(shù)量,并配置為第二數(shù)量,當(dāng)所述第一數(shù)量超過所述第二數(shù)量時,確定 在所述第Q+1個標(biāo)注周期內(nèi)的與所述合并標(biāo)注序列相對應(yīng)的第一類型短消息為非正常短 消息;或者,
[0085] 所述第二確定單元,用于在所述合并標(biāo)注序列中,搜索出連續(xù)取值為第一預(yù)設(shè)值 和連續(xù)取值第二預(yù)設(shè)值的元素塊,計算連續(xù)取值為第一預(yù)設(shè)值的元素塊中所包括的元素的 數(shù)量,并配置為第一數(shù)量,計算連續(xù)取值為第二預(yù)設(shè)值的元素塊中所包括的元素的數(shù)量,并 配置為第二數(shù)量,當(dāng)所述第一數(shù)量超過第二數(shù)量時,確定在所述第Q+1個標(biāo)注周期的與所 述合并標(biāo)注序列相對應(yīng)的第一類型短消息為非正常短消息;或者,
[0086] 所述第二確定單元,用于配置所述合并標(biāo)注序列為具有第一預(yù)設(shè)值和第二預(yù)設(shè)值 兩個狀態(tài)的馬爾科夫鏈,計算狀態(tài)之間的轉(zhuǎn)移概率,當(dāng)?shù)谝活A(yù)設(shè)值狀態(tài)的轉(zhuǎn)移概率超過第 二預(yù)設(shè)值狀態(tài)的轉(zhuǎn)移概率,確定在所述第Q+1個標(biāo)注周期內(nèi)的與所述合并標(biāo)注序列相對應(yīng) 的第一類型短消息為非正常短消息。
[0087] 上述方案中,所述裝置還包括:
[0088] 第四確定單元,用于獲取第Q個標(biāo)注周期所述第一類型短消息的標(biāo)注序列長度M;
[0089] 獲取第Q+1個標(biāo)注周期內(nèi)所述短消息的標(biāo)注序列長度r;
[0090] 確定MVM>Y時,確定在第Q+1個標(biāo)注周期內(nèi)對所述短消息是否為非正常短消息 的判定結(jié)果相反于在第Q個標(biāo)注周期對所述短消息的判定結(jié)果;
[0091] 或者,確定r/M>Y,且進(jìn)一步判斷出在第Q+1個標(biāo)注周期之前的X個標(biāo)注周期 內(nèi),判定結(jié)果被改變的次數(shù)不大于預(yù)設(shè)的第H闊值時,確定在第Q+1個標(biāo)注周期內(nèi)對所述 短消息是否為非正常短消息的判定結(jié)果相反于在第Q個標(biāo)注周期對所述短消息的判定結(jié) 果;
[0092] 其中,Y為有理數(shù)、M'、M、X均為正整數(shù)。
[0093] 本發(fā)明實施例提供的非正常短消息識別方法及裝置,所述方法包括:獲取在第Q 個標(biāo)注周期內(nèi)的第一短消息集合,所述第一短消息集合為在所述第Q個標(biāo)注周期內(nèi)的經(jīng)過 人工標(biāo)注的短消息的集合;獲取所述第一短消息集合中對每一條短消息的人工標(biāo)注記錄; 依據(jù)所述標(biāo)注記錄,為每一條短消息配置相應(yīng)的標(biāo)注序列;依據(jù)所述標(biāo)注序列,確定在所述 第Q個標(biāo)注周期內(nèi)與所述標(biāo)注序列相對應(yīng)的短消息是否為非正常短消息;利用本發(fā)明實施 例的技術(shù)方案,能夠解決由于人工標(biāo)注出錯而帶來的垃圾短信識別準(zhǔn)確率不高的問題,進(jìn) 而可提高在海量數(shù)據(jù)系統(tǒng)中垃圾短信識別的效率及準(zhǔn)確率。
【附圖說明】
[0094] 圖I為本發(fā)明實施例提供的非正常短消息識別方法的第一流程示意圖;
[0095] 圖2為本發(fā)明實施例提供的非正常短消息識別方法的第二流程示意圖;
[0096] 圖3為本發(fā)明實施例提供的非正常短消息識別裝置的組成示意圖。
【具體實施方式】
[0097] W下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進(jìn)行詳細(xì)說明,應(yīng)當(dāng)理解,W下所說明的優(yōu) 選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0098] 人工標(biāo)注方法在機器學(xué)習(xí)領(lǐng)域中是一種較為普遍的獲取數(shù)據(jù)結(jié)果的方法。人工標(biāo) 注方法為;依賴一定的先驗知識,判斷當(dāng)前短消息是非正常短消息還是非正常短消息;人 工標(biāo)注方法受時間、人工的限制,如不同的人(或同一個人在不同的時間)可能對同一條短 信是否是非正常短信的標(biāo)注結(jié)果不同;但是由于人工標(biāo)注方法依賴于一定的先驗知識,總 體上仍然具有可靠性。本發(fā)明實施例的技術(shù)方案在W人工標(biāo)注結(jié)果為初始數(shù)據(jù)的基礎(chǔ)上, 進(jìn)一步確定該初始數(shù)據(jù)中的哪些短消息為非正常短消息,哪些短消息為正常短消息。
[0099] 圖1為本發(fā)明實施例提供的非正常短消息識別方法的流程示意圖;如圖1所示,所 述方法包括:
[0100] 步驟11 ;獲取在第Q個標(biāo)注周期內(nèi)的第一短消息集合,所述第一短消息集合為在 所述第Q個標(biāo)注周期內(nèi)經(jīng)過人工標(biāo)注的短消息的集合;其中,Q為>1的正整數(shù)。
[0101] 送里,考慮到網(wǎng)絡(luò)中的短消息具有時間上的不確定性,即幾乎每時每刻網(wǎng)絡(luò)中都 傳輸有短消息;在某一個標(biāo)注周期內(nèi),在網(wǎng)絡(luò)中傳輸?shù)亩滔⒖赡苁莾?nèi)容各不相同的短消 息,也可能有部分短消息是內(nèi)容相同或相近的短消息即在標(biāo)注周期內(nèi)內(nèi)容相同或相近的短 消息有多個。
[0102] 在第Q個標(biāo)注周期內(nèi)如第Q= 1個標(biāo)注周期到來時,服務(wù)器側(cè)將收集到的需要在 網(wǎng)絡(luò)中傳輸?shù)亩滔⑦M(jìn)行人工標(biāo)注,也就是說,通過人工標(biāo)注方法來初步確定在所述第1 個標(biāo)注周期內(nèi)的每一條短消息是非正常短消息還是正常短消息。
[0103] 本步驟中,將第1個標(biāo)注周期內(nèi)所有經(jīng)過人工標(biāo)注的短消息集合為第一短消息集 合;所述第一短消息集合可W視為T= U,n為> 1的正整數(shù);其中,T為第1 個標(biāo)注周期內(nèi)所有經(jīng)人工標(biāo)注的短消息的集合;每個ti(i= 1~n中的任意一個正整數(shù)) 可W視為一條短信,也可W視為一類內(nèi)容相近的短信。為便于理解,在本發(fā)明實施例中, 將ti視為一條短信。舉個例子,如果第Q個標(biāo)注周期內(nèi)有200萬條不同內(nèi)容的短信(n= 2000000),郝么T就是送200萬條短信的集合,ti就是送200萬條短信集合中的每一條短 信。
[0104] 步驟12 ;獲取所述第一短消息集合中對每一條短消息的標(biāo)注記錄;
[0105] 送里,經(jīng)人工標(biāo)注短消息之后,人工標(biāo)注方法會形成有對第一短消息集合中的每 一條短消息的標(biāo)注結(jié)果(標(biāo)注記錄)。例如,第一短消息集合中的短消息ti在第1次標(biāo)注 周期內(nèi)一共出現(xiàn)有10次,經(jīng)人工標(biāo)注被標(biāo)注為非正常短消息的次數(shù)為7次,被標(biāo)注為正常 短消息的次數(shù)為3次,且在送10次中,第1~7次均被標(biāo)注為非正常短消息,第8~10次 均被標(biāo)注為正常短信,郝么短消息ti在第1個標(biāo)注周期內(nèi)的標(biāo)注結(jié)果就是:第1~7次被 標(biāo)注為非正常短信,第8~10次被標(biāo)注為正常短信。由此可見,經(jīng)人工標(biāo)注的第一短消息 集合中的每一條短消息都會有一個與之相對應(yīng)的標(biāo)注結(jié)果。
[0106] 在步驟11、12中,所涉及到的有關(guān)人工標(biāo)注方法的具體過程請參見現(xiàn)有相關(guān)說 明,送里不再賞述。
[0107] 步驟13 ;依據(jù)所述標(biāo)記記錄,為每一條短消息配置相應(yīng)的標(biāo)注序列。
[010引送里,依據(jù)對第一短消息集合中每一條短消息的標(biāo)注記錄,為所述每一條短消息 配置一個標(biāo)注序列,每個標(biāo)注序列的長度等于與之相對應(yīng)的短消息被人工標(biāo)注的總次數(shù)