專利名稱:一種垃圾短信監(jiān)控的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及移動通信領域中的短消息業(yè)務,尤其涉及一種基于發(fā)送者行為特征的 垃圾短信監(jiān)控系統(tǒng)及方法。
背景技術:
據(jù)統(tǒng)計,中國手機用戶數(shù)量已超過6億,平均每天有超過6. 5億條短信在用戶的拇 指之間傳送。然而隨著手機使用的普及和短信業(yè)務的迅速發(fā)展,人們享受著快捷方便的通 信手段的同時,伴隨而來的卻是日趨泛濫的垃圾短信。垃圾短信產(chǎn)生的根源在于短信的發(fā) 送成本極其低廉,而獲得的廣告效益卻非常之高。垃圾短信不僅對運營商的網(wǎng)絡產(chǎn)生沖擊, 給廣大用戶的利益也帶來了巨大的損害,更造成了嚴重的不良的社會影響。國外在垃圾短 信的治理上,主要通過立法和先進的技術手段來識別并處理欺詐性的信息及手機,還有一 整套的打擊手機犯罪的先進技術手段。在國內(nèi),垃圾短信防控任務主要由運營商主導和負 責,通常從技術和管理上采取措施,立法方面還比較欠缺。在目前普遍采用的垃圾短信監(jiān)控技術中,主要采用的是垃圾短信過濾機制。從原 理上,又可以分為黑白名單過濾、基于流量的過濾、基于關鍵字的內(nèi)容過濾幾種方式?;?黑名單的過濾方式是將確定已知垃圾短信制造者的主叫號碼,將其整理成黑名單,并部署 在短消息中心或者短信網(wǎng)關,就可以拒絕來自黑名單的主叫號碼發(fā)送短消息。對黑名單可 以進行號段或號碼的攔截。對于白名單的主叫號碼不做任何形式的攔截?;诹髁康倪^濾 方式對用戶在某個時間段內(nèi)的群發(fā)數(shù)量進行統(tǒng)計,當群發(fā)量超過預先設定的閾值時,將其 手動或自動添加到黑名單中去?;陉P鍵字的內(nèi)容過濾方式對手機內(nèi)容進行關鍵字查詢, 一旦命中,即將發(fā)送號碼加入到黑名單中去。不管是基于流量的過濾方式還是基于關鍵字的內(nèi)容過濾方式,都有其自身的弊 端?;诹髁康姆绞胶苋菀淄ㄟ^“在多個手機發(fā)送少量信息的形式”進行屏蔽,同時這種方 式在很多手機終端實現(xiàn)了群發(fā)功能之后容易對過節(jié)類的祝賀短信產(chǎn)生大量的誤殺,而造成 用戶的投訴率的上升?;陉P鍵詞的方法可以通過“同音詞”、“錯別字”、“結(jié)構(gòu)拆分”、“換 詞”等方式規(guī)避。目前運營商已部署了大量的垃圾監(jiān)控系統(tǒng),評價一個垃圾監(jiān)控系統(tǒng)監(jiān)控效果有兩 個重要的指標查準率和查全率。查準率即在檢測出的垃圾短信發(fā)送名單中真正為垃圾短 信發(fā)送者所占的比例;查全率為檢測出的真正為垃圾短信發(fā)送者的數(shù)量占網(wǎng)絡中實際垃圾 短信發(fā)送者數(shù)量的比例。顯然,一個好的垃圾監(jiān)控系統(tǒng)具備較高的查準率和查全率。目前 運營商已部署的基于以上傳統(tǒng)技術或基于傳統(tǒng)技術的改良的垃圾監(jiān)控系統(tǒng)這兩個方面的 指標都不夠理想,而不得不依靠大量人力輔助檢查垃圾短信。因此如何提高垃圾短信查準 率和查全率成為當前迫切需要解決的問題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題是提供一種垃圾短信監(jiān)控的方法和系統(tǒng),以提高垃圾短信查準率和查全率。為了解決上述技術問題,本發(fā)明提供了一種垃圾短信監(jiān)控的方法,包括若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑 名單,進行垃圾短信的監(jiān)控,所述預定規(guī)則至少包括若短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征在預定時序特征,則將所述短 信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。進一步地,上述方法還具有下面特點在根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短 信發(fā)送者的步驟之前,還包括提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征 來訓練出所述預定時序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點之間以邊相連構(gòu)建所述已知垃 圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié) 點之間兩兩相連的總邊數(shù)的比值訓練出所述預定值。進一步地,上述方法還具有下面特點所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者在單位時間內(nèi)發(fā)送短信的條數(shù)超過 閾值。進一步地,上述方法還具有下面特點所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟具體包括在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測所述短信發(fā)送者 發(fā)送短信的時序特征為所述預定時序特征,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者;或在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測所述短信發(fā)送者 與其發(fā)送短信的所有接收者之間以有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例 小于所述預定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。進一步地,上述方法還具有下面特點所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括提取所述短信發(fā)送者在當前一段時間內(nèi)的短信話單;對所述短信話單進行預處理。進一步地,上述方法還具有下面特點所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者不在黑名單和白名單上。為了解決上述問題,本發(fā)明還提供了一種垃圾短信監(jiān)控的系統(tǒng),包括檢測模塊,用于若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短 信發(fā)送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊;監(jiān)控模塊,用于根據(jù)所述黑名單進行垃圾短信的監(jiān)控,所述預定規(guī)則至少包括若檢測短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征為預定時序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信 記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短 信發(fā)送者。進一步地,上述系統(tǒng)還具有下面特點還包括,訓練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信 記錄中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓練出所述預定時序特征,然 后將所述預定時序特征發(fā)送給所述檢測模塊;或用于將所述歷史短信記錄中的有相互通信 記錄的節(jié)點之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間 的社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié)點之間兩兩相連的總邊數(shù)的比值訓練出所述預 定值,然后將所述預定值發(fā)送給所述檢測模塊。進一步地,上述系統(tǒng)還具有下面特點所述檢測模塊包括,在線檢測模塊,用于在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若 檢測所述短信發(fā)送者發(fā)送短信的時序特征為所述預定時序特征,則判斷所述短信發(fā)送者為 垃圾短信發(fā)送者;或用于在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測 所述短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的 總對數(shù)的比例小于所述預定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。進一步地,上述系統(tǒng)還具有下面特點所述在線檢測模塊在檢測短信發(fā)送者是否 為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者在單位時間內(nèi)發(fā)送短信的條數(shù)超過閾 值。進一步地,上述系統(tǒng)還具有下面特點還包括話單預處理模塊,用于提取所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,對所 述短信話單進行預處理后發(fā)送給所述在線檢測模塊。進一步地,上述系統(tǒng)還具有下面特點所述檢測模塊根據(jù)預定規(guī)則檢測短信發(fā)送 者為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者不在黑名單和白名單上。有益效果傳統(tǒng)的基于內(nèi)容的垃圾監(jiān)控系統(tǒng)對垃圾短信過濾在查準率和查全率兩個指標上 都不是很理想,并且需要掃描短信內(nèi)容,系統(tǒng)資源開銷較大。而本發(fā)明提供的垃圾短信監(jiān)控 的方法和系統(tǒng)是基于發(fā)送者行為在時序和空間上的特征進行垃圾短信監(jiān)控,具有較高的查 準率和查全率,同時也提高了垃圾短信制造者的規(guī)避成本,并且不需要掃描短信內(nèi)容,系統(tǒng) 性能上也有了很大的提升。
圖1為本發(fā)明的垃圾短信監(jiān)控系統(tǒng)的示意圖;圖2為本發(fā)明的垃圾短信監(jiān)控的方法的流程圖;圖3為本發(fā)明實施例的垃圾短信監(jiān)控系統(tǒng)的示意圖;圖4為本發(fā)明實施例的垃圾短信監(jiān)控的方法的流程圖;圖5為本發(fā)明實施例的訓練垃圾短信發(fā)送者的行為特征的流程圖;圖6為本發(fā)明實施例的在線檢測的流程圖。
具體實施例方式短信發(fā)送者在行為上具有一定的時間特征和空間特征,比如很多垃圾短信發(fā)送者 采用機器群發(fā)的方法發(fā)送商業(yè)廣告,在發(fā)送時序上所表現(xiàn)的頻率特征和普通短信發(fā)送者有 明顯的區(qū)別。機器群發(fā)頻率往往比較固定,比如發(fā)送短信的時間間隔一定,普通短信發(fā)送頻 率不固定,規(guī)律性不強。同樣在空間特征上,正常短信的發(fā)送者具有穩(wěn)定而獨特的社會關系網(wǎng)絡特征,且 關系較為隱蔽,而垃圾短信發(fā)送者體現(xiàn)出來的社會關系網(wǎng)絡混亂且不穩(wěn)定。因為,每個人都 有自己較為固定的社交圈,正常發(fā)送短信的對象大部分為社交圈內(nèi)的,并且每個人的社交 圈都不同,也就是社會關系網(wǎng)絡不同;而垃圾短信發(fā)送的對象之間往往沒有任何關系。垃圾 短信制造者如果要規(guī)避基于社會關系網(wǎng)絡的監(jiān)控,就必須要獲取每個人的社會關系網(wǎng)絡, 正因為每個人都有自己獨特的社會關系網(wǎng)絡,所以垃圾短信制造者很難獲取到每個人的社 會關系網(wǎng)絡。簡單地說,關系較為隱蔽就是說我們通常并不知道別人的社交網(wǎng)絡怎樣,垃圾 短信制造者群發(fā)垃圾短信要獲取很多人的社交網(wǎng)絡更困難。本發(fā)明正是利用了垃圾短信發(fā)送者與正常短信發(fā)送者行為在時間特征和/或空 間特征上的不同進行垃圾短信的監(jiān)控。通過分析垃圾短信制造者的時間特征和空間特征, 來提取時序特征和社會關系網(wǎng)絡特征,訓練構(gòu)造垃圾短信制造者的時序特征和社會關系網(wǎng) 絡的度量模型,并用該模型用來度量短信發(fā)送者屬于垃圾制造者的概率。訓練構(gòu)造垃圾短信制造者的時序特征和社會關系網(wǎng)絡的度量模型的過程實際上 就是,在獲取了一組已知的垃圾短信制造者名單的前提下,通過分析這組垃圾短信制造者 在時間和空間上的特征,提取出在時序上以及在社會關系網(wǎng)絡上具有共性的特征,以參數(shù) 值的形式體現(xiàn),作為檢驗其他短信發(fā)送者是否為垃圾短信發(fā)送者的參照。時序特征模型就是從垃圾短信發(fā)送者的歷史短信記錄中訓練分析得出的一組發(fā) 送短信的頻率特征參數(shù),例如,在某段時間內(nèi)所發(fā)送的每條短信之間在發(fā)送時間間隔上有 一定的規(guī)律,比如某個垃圾短信發(fā)送者每隔1秒發(fā)送一條短信,那么表現(xiàn)出的特征就是時 間間隔為1秒。而有些低頻的垃圾短信發(fā)送用戶可能為了逃避監(jiān)控發(fā)送的時間間隔會故意 設置得長一些,但是只要是通過機器群發(fā)的,在發(fā)送時間間隔上總會表現(xiàn)出一定的規(guī)律性。社會關系網(wǎng)絡特征(即空間特征模型)可以從一定時期內(nèi)發(fā)送者與接收者之間的 短信通信記錄的情況體現(xiàn)出來。垃圾短信接收者之間的社會關系比較疏遠,即相互之間的 通信記錄較少??梢岳盟卸绦沤邮照?包括短信發(fā)送者)之間有相互通信記錄的對數(shù) (例如,有發(fā)信有回信的兩用戶為一對)與所有短信接收者(短信發(fā)送者)之間兩兩組合的 總對數(shù)的比例,來衡量短信發(fā)送者與所有接收者之間的社會關系密切度。對垃圾短信的發(fā) 送者和接收者之間的社會關系比例一般很小。可以通過歷史短信記錄構(gòu)造出包含短信發(fā)送者與所有短信接收者之間的社會關 系網(wǎng)絡圖,將各個短信發(fā)送者與所有短信接收者分別視為一個節(jié)點,互相有通信記錄的節(jié) 點之間以邊相連,然后可以根據(jù)該圖計算出的節(jié)點聚合程度參數(shù),具體可以用圖中實際相 連的邊數(shù)與各節(jié)點兩兩相連的總邊數(shù)的比例來衡量。圖的邊數(shù)越多意味著節(jié)點聚合程度越 高,通常由垃圾短信制造者構(gòu)造的社會關系網(wǎng)絡圖中節(jié)點聚合程度較低。垃圾短信制造者有高頻發(fā)送用戶和低頻發(fā)送用戶之分。高頻發(fā)送用戶由于在短時
7間內(nèi)發(fā)送大量垃圾短信,造成的危害性較大;低頻發(fā)送用戶不會在短時間內(nèi)產(chǎn)生大量垃圾 短信,短期內(nèi)不會造成危害。針對兩種情況,垃圾監(jiān)控系統(tǒng)需要在短時間內(nèi)檢測出高頻發(fā)送用戶,在一定時期 內(nèi)檢測出低頻發(fā)送用戶。為了滿足該要求,本發(fā)明采用了在線檢測和離線檢測相結(jié)合的方 法。在線檢測針對高頻發(fā)送用戶,考察當前一段時間內(nèi)數(shù)據(jù),具有較強的時效性;離線檢測 考察一定時期(比如1周內(nèi)的數(shù)據(jù)),作為在線檢測的補充,離線檢測可以檢測出在線檢測 無法發(fā)現(xiàn)的低頻垃圾短信發(fā)送用戶。為了實現(xiàn)基于時序特征和空間特征的垃圾短信檢測,首先需要對一定時間內(nèi)歷史 話單中的垃圾短信制造者的短信發(fā)送記錄作為短信訓練集合進行離線的訓練,以得到垃圾 短信制造者的時序特征和社會關系網(wǎng)絡度量模型,訓練過程包括提取發(fā)送者時序特征和社 會關系網(wǎng)絡特征,進行聚類分析,統(tǒng)計得到垃圾短信發(fā)送者的規(guī)律,最終生成包含垃圾短信 發(fā)送規(guī)律參數(shù)的模型文件。在進行垃圾短信檢測時,同樣提取實時短信中發(fā)送者的時序特征和社會關系網(wǎng)絡 特征,通過計算該樣本與模型文件相似度從而確定發(fā)送者是否為垃圾短信發(fā)送者。訓練的 過程是自適應的,系統(tǒng)會定期取話單進行訓練,并調(diào)整模板庫。在系統(tǒng)進行垃圾短信檢測時,首先,進行基于黑白名單的檢測,如果短信發(fā)送者在 黑白名單列表上,則直接跳過該用戶。因為黑名單為已經(jīng)確定為垃圾短信發(fā)送者用戶或者 是被運營商設定禁止發(fā)送短信的特定用戶,對黑名單用戶再作檢測沒有意義,垃圾短信監(jiān) 控的目的就是找出垃圾短信發(fā)送者,將其加入到黑名單列表,既然已經(jīng)在黑名單列表上了 就無需再檢測了。同樣,白名單用戶通常為運營商設定的不作監(jiān)控的用戶,白名單用戶不管 發(fā)送什么樣的短信,垃圾短信監(jiān)控系統(tǒng)都不能作為垃圾短信制造者來處理,因此對白名單 監(jiān)控也沒有意義。然后,可以進行基于時序特征和/或空間特征的檢測,并且可以在線檢測 和離線檢測并行進行;最后,可以對幾種不同的檢測方法導出的黑名單取并集,并將黑名單 同步給BOSS (業(yè)務操作支撐系統(tǒng))。為了更好地理解本發(fā)明,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步地描述。圖1為本發(fā)明的垃圾短信監(jiān)控系統(tǒng)的示意圖,如圖1所示,本發(fā)明的垃圾短信監(jiān)控 系統(tǒng)主要包括檢測模塊和監(jiān)控模塊,其中,檢測模塊,用于若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短 信發(fā)送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊;監(jiān)控模塊,用于根據(jù)所述黑名單進行垃圾短信的監(jiān)控,所述預定規(guī)則至少包括若檢測短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征為預定時序特征,例如在 單位時間內(nèi)發(fā)送短信的時間間隔一定,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信 記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,例如小于10%,則將所述短信發(fā)送 者規(guī)定為垃圾短信發(fā)送者。這樣,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)即可以根據(jù)垃圾短信發(fā)送者的時序特征和/或 空間特征,實現(xiàn)對垃圾短信的監(jiān)控,以提高垃圾短信的查準率和查全率。進一步地,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)還可以包括
訓練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信 記錄中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓練出所述預定時序特征,然 后將所述預定時序特征發(fā)送給所述檢測模塊;或?qū)⑺鰵v史短信記錄中的有相互通信記 錄的節(jié)點之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的 社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié)點之間兩兩相連的總邊數(shù)的比值訓練出所述預定 值,然后將所述預定值發(fā)送給所述檢測模塊。這樣,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)可以針對不同運營商,訓練出不同的時序特征 模型和空間特征模型。圖2為本發(fā)明的垃圾短信監(jiān)控的方法的流程圖,如圖2所述,本發(fā)明的方法包括下 面步驟步驟10,根據(jù)預定規(guī)則檢測短信發(fā)送者是否為垃圾短信發(fā)送者,若是,則執(zhí)行步驟 20,否則重復執(zhí)行步驟10;步驟20,將所述短信發(fā)送者列入黑名單,進行垃圾短信的監(jiān)控。其中,所述預定規(guī)則至少包括若短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征在預定時序特征,例如在預定 時間段內(nèi)發(fā)送短信的時間間隔一定,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。這樣,根據(jù)本發(fā)明的垃圾短信監(jiān)控的方法即可基于垃圾短信發(fā)送者的時序特征和 /或空間特征,實現(xiàn)對垃圾短信的監(jiān)控,以提高垃圾短信的查準率和查全率。優(yōu)選地,在步驟10之前,還可以包括下面步驟提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征 來訓練出所述預定時序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點之間以邊相連構(gòu)建所述已知垃 圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié) 點之間兩兩相連的總邊數(shù)的比值訓練出所述預定值。下面通過具體實施例對本發(fā)明作詳細的說明。圖3為本發(fā)明實施例的垃圾短信監(jiān)控系統(tǒng)的示意圖,如圖3所示,本實施例的垃圾 監(jiān)控系統(tǒng)包括話單預處理模塊、訓練模塊、人工標注模塊、檢測模塊和黑白名單管理模塊。話單預處理模塊,負責對短信中心話單進行預處理,主要功能為去除重復記錄,去 除非點對點短信,去除非目標運營商話單,提取有用字段,轉(zhuǎn)換格式為系統(tǒng)內(nèi)部格式和入庫 操作。話單記錄中有些記錄是因為系統(tǒng)原因發(fā)送失敗重試的記錄,這種記錄只能當作1 條短信來處理;有些短信記錄是運營商客服系統(tǒng)群發(fā)給用戶的,并非用戶發(fā)送的,無需監(jiān)控 要去除;運營商只監(jiān)控屬于本運營商的用戶,對于非本運營商用戶發(fā)送短信給本運營商用 戶,在短信中心也會產(chǎn)生話單記錄,對這類記錄也無需監(jiān)控;話單記錄會有很多字段,但對 于垃圾短信監(jiān)控只需要用到其中很少一部分字段,只需要提取有用字段。另外,還需要把話單轉(zhuǎn)換為系統(tǒng)內(nèi)部能夠識別的格式。其中,話單預處理模塊可以通過FTP(File Transfer Protocol,文件傳輸協(xié)議)方 式獲取短信中心的原始話單。訓練模塊,用于訓練已知為垃圾短信發(fā)送者的歷史話單,產(chǎn)生用于垃圾短信檢測 的模型文件。人工標注模塊、主要用于在訓練垃圾短信發(fā)送者的模型前對候選出的可能為垃圾 短信發(fā)送者的用戶正確地進行用戶類別的標注,以便模型訓練得到的模型文件更加準確地 符合垃圾短信發(fā)送者的規(guī)律特征。本實施例中的檢測模塊可以包括在線時序檢測模塊,用于在線檢測短信發(fā)送者的時序特征并導出黑名單。在線空間檢測模塊,用于在線檢測短信發(fā)送者的社會關系網(wǎng)絡特征并導出黑名 離線空間檢測模塊,用于離線檢測短信發(fā)送者的社會關系網(wǎng)絡特征并導出黑名黑白名單管理模塊,對以上3個檢測模塊導出的黑名單取并集后,將結(jié)果同步給 BOSS,并從BOSS獲取黑白名單列表同步給檢測模塊。黑白名單管理模塊和BOSS之間也可以通過FTP方式同步黑白名單。圖4為本發(fā)明實施例的垃圾短信監(jiān)控的方法的流程圖,如圖4所示,具體流程包括 如下步驟步驟201,獲取短信中心的原始話單,進行預處理。話單預處理模塊預處理包括去除重復記錄,去除非點對點短信,去除非目標運營 商話單,提取有用字段,轉(zhuǎn)換格式為系統(tǒng)內(nèi)部格式,同時按提交短信的時間順序進行排序, 其中,提取的有用字段包括消息id、發(fā)送者號碼、接收者號碼、短信提交時間、短信長度和 短信內(nèi)容。然后,話單預處理模塊將預處理后的短信話單發(fā)送給檢測模塊。步驟202,檢測模塊逐條掃描預處理后的話單,只記錄提交時間和發(fā)送者號碼和接 收者號碼。步驟203,檢測模塊對每條記錄進行基于黑白名單的過濾,如果用戶在黑白名單列 表上,則直接忽略該用戶。步驟204,根據(jù)訓練模塊訓練產(chǎn)生的模型文件,基于短信發(fā)送者時序特征和/或空 間特征的進行檢測。本實施例中可以進行在線檢測,也可以進行離線檢測,在線檢測可以對短信發(fā)送 者的時序特征進行檢測,也可以對短信發(fā)送者的空間特征進行檢測。離線檢測一般檢測短 信發(fā)送者在歷史一段時間內(nèi)的空間特征。在線時序檢測模塊、在線空間檢測模塊和離線空間檢測模塊可以并行操作,也可 以單獨操作。在線時序檢測模塊、在線空間檢測模塊分析當前一段時間內(nèi)掃描到的用戶發(fā)送短 信的特征,離線空間檢測通常分析用戶在歷史較長一段時間內(nèi)(例如,一周)的社會關系網(wǎng) 絡特征。
10
步驟205,將檢測出的垃圾短信發(fā)送者列入黑名單。若以上3種檢測模塊并行操作,將獨立產(chǎn)生黑名單,黑白名單管理模塊對3個檢測 模塊導出的黑名單取并集得到最終的黑名單列表。這3個檢測模塊可以從3個角度檢測垃圾短信發(fā)送者,從檢測結(jié)果看,這3種方法 檢測出來的大部分黑名單都是相同的。這3種方法并行使用的目的是為了互補,可能有少 部分垃圾短信發(fā)送者,有些方法能監(jiān)控到,有些監(jiān)控不到。比如低頻率的垃圾短信發(fā)送者通 過在線檢測方法比較難監(jiān)控到,而通過離線方法能監(jiān)控到。另外3種方法并行使用也起到 了提高垃圾短信制造者規(guī)避成本的目的。步驟206,黑白名單管理模塊將黑名單列表同步給BOSS。BOSS會把黑名單提供給短信中心的臨控模塊,短信中心在發(fā)送短信時會首先檢查 發(fā)送者是否在黑名單上,如果在黑名單上則禁止該用戶發(fā)送短信。圖5為本發(fā)明實施例的訓練垃圾短信發(fā)送者的行為特征的流程圖;如圖5所示,具 體流程包括如下步驟步驟301,提取一段時期的歷史話單作預處理并入庫。步驟302,根據(jù)已有的經(jīng)驗模型初步獲取認為可能為垃圾短信發(fā)送者的候選訓練集。所述已有的經(jīng)驗模型是指通過分析運營商歷史話單數(shù)據(jù)中垃圾短信制造者的時 序特征和空間特征規(guī)律得出的一組參數(shù)。步驟303,評估訓練集規(guī)模,如果訓練集規(guī)模不夠,表明其中垃圾短信發(fā)送者數(shù)量 不大,則由該訓練集訓練得到的模型文件統(tǒng)計意義不大,須要重新返回步驟301獲取更多 話單重新進行訓練。如果認為訓練集規(guī)模足夠則進入步驟304進行下一步工作。步驟304,對訓練集進行人工標注,利用人工標注模塊提供的標注工具,查看訓練 集每個用戶所發(fā)送的短信,根據(jù)人工判斷對訓練集用戶進行分類標注。人工分類標注通常通過查看短信內(nèi)容,根據(jù)發(fā)送的短信內(nèi)容來判定該用戶有沒有 發(fā)送垃圾短信,通常垃圾短信的判定標準還要結(jié)合運營商的要求。人工分類標注通常將用戶分成4類,即正常短信發(fā)送者、垃圾短信發(fā)送者、混合短 信發(fā)送者和其它短信發(fā)送者。其中,混合短信發(fā)送者既發(fā)送了正常的短信又發(fā)送了垃圾短 信,其他短信發(fā)送者通常為亂碼或運營商群發(fā)的祝福類短信。步驟305,根據(jù)標注結(jié)果提取垃圾短信發(fā)送者的歷史話單,來訓練時序特征和空間 特征。其中,可以將時序特征轉(zhuǎn)換為頻域信息,提取的空間特征參數(shù)可以包括發(fā)送短信 條數(shù)、接收短信條數(shù)、回復短信的接收者的數(shù)量、有相互通信記錄的接收者的對數(shù)等,可以 通過回復短信的數(shù)量,即有相互通信記錄的對數(shù),訓練出空間特征模型。步驟306,通過頻域分析和社會關系網(wǎng)絡分析,確定垃圾短信發(fā)送者發(fā)送規(guī)律,分 別產(chǎn)生基于時序特征的模型文件和基于空間特征的模型文件。步驟307,將生成的模型文件同步給檢測模塊。根據(jù)不同運營商對查準率和查全率的不同要求,模型文件可以靈活調(diào)整。比如,如 果運營商希望更高的查全率,則訓練時對標注為混合短信發(fā)送者這類用戶將歸為垃圾短信 來處理;如果運營商希望更高的查準率,則訓練時只對標注為垃圾短信發(fā)送者的用戶進行訓練。圖6為本發(fā)明實施例的在線檢測的流程圖,如圖6所示,具體流程包括如下步驟步驟401,逐條掃描預處理后的話單,只記錄提交時間和短信發(fā)送者和接收者的號 碼。步驟402,進行在線檢測條件觸發(fā)判斷,滿足一定觸發(fā)條件才會進入步驟403啟動 在線檢測算法,否則返回步驟401繼續(xù)掃描話單。比如用戶在單位時間內(nèi)發(fā)送短信條數(shù)超過一定閾值,這個閾值可以根據(jù)實際檢測 狀況進行調(diào)整,則啟動在線檢測相關算法。步驟403,提取實時短信發(fā)送者的時序特征和空間特征。步驟404,確定該短信發(fā)送者的時序特征和空間特征后,與訓練出的模型文件相比 較,從而判斷該發(fā)送者是否為垃圾發(fā)送者。本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令 相關硬件完成,所述程序可以存儲于計算機可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤 等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應 地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的 形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。以上僅為本發(fā)明的優(yōu)選實施例,當然,本發(fā)明還可有其他多種實施例,在不背離本 發(fā)明精神及其實質(zhì)的情況下,熟悉本領域的技術人員當可根據(jù)本發(fā)明作出各種相應的改變 和變形,但這些相應的改變和變形都應屬于本發(fā)明所附的權(quán)利要求的保護范圍。
權(quán)利要求
一種垃圾短信監(jiān)控的方法,包括若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑名單,進行垃圾短信的監(jiān)控,所述預定規(guī)則至少包括若短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征在預定時序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者。
2.如權(quán)利要求1所述的方法,其特征在于在根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短 信發(fā)送者的步驟之前,還包括提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓 練出所述預定時序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點之間以邊相連構(gòu)建所述已知垃圾短 信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié)點之 間兩兩相連的總邊數(shù)的比值訓練出所述預定值。
3.如權(quán)利要求1所述的方法,其特征在于所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者在單位時間內(nèi)發(fā)送短信的條數(shù)超過閾值。
4.如權(quán)利要求3所述的方法,其特征在于所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟具體包括在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測所述短信發(fā)送者發(fā)送 短信的時序特征為所述預定時序特征,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者;或在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測所述短信發(fā)送者與其 發(fā)送短信的所有接收者之間以有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于 所述預定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。
5.如權(quán)利要求4所述的方法,其特征在于所述根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括提取所述短信發(fā)送者在當前一段時間內(nèi)的短信話單; 對所述短信話單進行預處理。
6.如權(quán)利要求1-5任一項所述的方法,其特征在于所述根據(jù)預定規(guī)則檢測短信發(fā)送 者為垃圾短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者不在黑名單和白名單上。
7.一種垃圾短信監(jiān)控的系統(tǒng),包括檢測模塊,用于若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā) 送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊; 監(jiān)控模塊,用于根據(jù)所述黑名單進行垃圾短信的監(jiān)控, 所述預定規(guī)則至少包括若檢測短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征為預定時序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于還包括,訓練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄 中訓練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓練出所述預定時序特征,然后將 所述預定時序特征發(fā)送給所述檢測模塊;或用于將所述歷史短信記錄中的有相互通信記 錄的節(jié)點之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的 社會關系網(wǎng)絡圖,通過所述邊數(shù)與所有節(jié)點之間兩兩相連的總邊數(shù)的比值訓練出所述預定 值,然后將所述預定值發(fā)送給所述檢測模塊。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于所述檢測模塊包括,在線檢測模塊,用于在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測 所述短信發(fā)送者發(fā)送短信的時序特征為所述預定時序特征,則判斷所述短信發(fā)送者為垃圾 短信發(fā)送者;或用于在線檢測所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,若檢測所述 短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對 數(shù)的比例小于所述預定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于所述在線檢測模塊在檢測短信發(fā)送者是否 為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者在單位時間內(nèi)發(fā)送短信的條數(shù)超過閾值。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于還包括話單預處理模塊,用于提取所述短信發(fā)送者在當前一段時間內(nèi)的短信話單,對所述短 信話單進行預處理后發(fā)送給所述在線檢測模塊。
12.如權(quán)利要求7-11任一項所述的系統(tǒng),其特征在于所述檢測模塊根據(jù)預定規(guī)則檢 測短信發(fā)送者為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者不在黑名單和白名單上。
全文摘要
本發(fā)明提供一種垃圾短信監(jiān)控的方法和系統(tǒng),該方法,包括若根據(jù)預定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑名單,進行垃圾短信的監(jiān)控,所述預定規(guī)則至少包括若短信發(fā)送者在預定時間段內(nèi)發(fā)送短信的時序特征在預定時序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預定時間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者。本發(fā)明基于發(fā)送者行為在時序和空間上的特征進行垃圾短信監(jiān)控,具有較高的查準率和查全率。
文檔編號H04W24/00GK101909261SQ20101025275
公開日2010年12月8日 申請日期2010年8月10日 優(yōu)先權(quán)日2010年8月10日
發(fā)明者馮亞軍, 王飛, 謝鋼鋒, 邢剛 申請人:中興通訊股份有限公司