專利名稱:垃圾短信發(fā)送號碼實時檢測系統及方法
技術領域:
本申請涉及一種垃圾短信發(fā)送號碼實時檢測系統和方法。
背景技術:
垃圾短信(Spam Short Message) -故定義為具有由特定組織/個人發(fā)送 給電信終端用戶的非法或者廣告內容的批量短信,所述電信終端用戶的移動 電話號碼在固定號碼區(qū)內或者被異常獲取。垃圾短信正騷擾著普通移動電話 用戶的日常生活。沒有解決該問題的有用解決方案,即4企測垃圾短信發(fā)送號 碼的有效方法,每個移動電話將變?yōu)槔?,而終端用戶幾乎不可能從它得 到有用的信息。另一個嚴重的問題在于垃圾短信發(fā)送者保存了大量移動電 話用戶的個人信息,這給客戶帶來隱私安全問題。另一方面,垃圾短信發(fā)送 者總是試圖非法使用提供非常便宜的電信業(yè)務價格的電信業(yè)務資費套餐,從 而嚴重影響了電信運營商的正常收入。
電信運營商已經嘗試分析垃圾短信的特征,包括垃圾短信發(fā)送號碼短 時間內存在(平均少于3個月),欠費用戶率相對高(高于41% )。同時,如 果產生誤判,即將正常用戶錯誤判定為垃圾短信的發(fā)送者,將引發(fā)較嚴重的 客戶投訴。因此,檢測垃圾短信發(fā)送號碼需要實時和正確。
運營商已經采用了幾個4企測垃圾短信發(fā)送號碼的解決方案,如實時監(jiān)視 發(fā)送號碼的消息數量,監(jiān)視消息上下文等。但是,所有這些解決方案都有其 限制。中國移動有一個解決方案設置1分鐘間隔內消息發(fā)送數量的閾值, 如果發(fā)送者1分鐘內發(fā)送多于閾值的數量的消息,那么發(fā)送者將被假定為垃 圾短信發(fā)送者,并且其號碼將被鎖定。這種解決方案可識別某些類型的真實 垃圾短信發(fā)送者,但在如中國的春節(jié)這樣的特殊情況下,普通用戶可能使用 短信傳送祝愿給其所有朋友。簡單的基于閾值的檢測規(guī)則可將普通用戶誤解 為垃圾短信發(fā)送者并且鎖定他們的號碼,導致運營商的經濟損失。另外,越 來越多的真正的垃圾短信發(fā)送者傾向于使用如短信貓的自動消息發(fā)送系統模 仿普通用戶的正常發(fā)送行為以避免被檢測到?;谙热莸谋O(jiān)視需要更多的匹配規(guī)則, 一方面,垃圾短信的發(fā)送者可以通過內容混淆、添加特殊符號
等方式逃避監(jiān)管,比如將"發(fā)票"寫為"發(fā)*票"或"fa票"。此外,由于文
本檢索和匹配耗時較長,對于較大數據量的情況下,這基本上是低效率的。
許多運營商的商務智能系統已經構建了 一些基于數據挖掘的技術來檢測 服務提供者欺詐行為、具有異常帳單的潛在欠費用戶。所有這些技術用于離 線系統中,定期數據收集和分析不能確保實時檢測。
發(fā)明內容
在實現本發(fā)明的一個實施方式中,提供一種垃圾短信發(fā)送號碼實時檢測
系統,包括事件處理引擎,用于實時獲取短信事件流,才艮據預定的時間參 數及其規(guī)則進行規(guī)則匹配,提取潛在的垃圾短信發(fā)送號碼;以及圖分析引擎, 用于接收事件處理引擎提取的所迷號碼,然后獲取所述號碼的社會網絡數據, 結合至少一個預定的空間特征及其參數和規(guī)則,進行空間行為模式分析,以 便判定所述號碼是否真正的垃圾短信發(fā)送號碼。
在實現本發(fā)明的另一個實施方式中,才是供一種垃圾短信發(fā)送號碼實時檢 測方法,包括實時獲取短信事件流,根據預定的時間參數及其規(guī)則進行規(guī) 則匹配,提取潛在的垃圾短信發(fā)送號碼;以及獲取提取的所述號碼的社會網 絡數據,結合至少一個預定的空間特征及其參數和規(guī)則,進行空間行為模式 分析,以便判定所述號碼是否真正的垃:t及短信發(fā)送號碼。
按照本發(fā)明的一個實施方式,可產生以下優(yōu)點
1、 基于數據挖掘的模式識別可補足運營商的知識,因為當前的垃圾短信 發(fā)送號碼檢測系統只能依賴于運營商的經驗來建立簡單的判定規(guī)則。
2、 通過事件流的基于時間的潛在垃圾短信發(fā)送號碼在線檢測,可利用現 有的流數據處理系統提供有效的檢測解決方案。
3 、基于空間的用戶社會網絡圖進一步幫助準確過濾潛在垃圾短信發(fā)送 者,以識別真正的垃圾短信發(fā)送者,這實現了電信運營商的正確性要求,從 而在避免潛在經濟損失的同時提高了其收入。
4、實時和正確地才全測到真正的垃;及短信發(fā)送者。
圖1圖示了根據本發(fā)明的一個實施方式的系統架構。圖2A和圖2B圖示了一度子圖。 圖3A和圖3B圖示了二度子圖。
圖4A和圖4B示出根據本發(fā)明的一個實施方式的方法的流程圖。
具體實施例方式
本發(fā)明的一個主要思想是提供一種有效并正確地檢測真正的垃圾短信發(fā) 送號碼的新的解決方案。在本發(fā)明的一個實施方式中,為了實現垃圾短信發(fā) 送號碼檢測目的,設計了集成用戶行為的時間和空間特征的監(jiān)視和分析的分 層架構,其可分為離線部分和在線部分。
垃圾短信通常由機器自動發(fā)送,其發(fā)送模式在相對長時間的統計方面確 實符合一些規(guī)則。將每個短信服務用戶的每個時間點的發(fā)送號碼和發(fā)送對象 以及發(fā)送間隔和頻率,記錄為事件(即短信概要),可將發(fā)送行為描述為事件 序列。利用運營商的經驗和數據挖掘技術,可定義一些^見則并在短信中心中 實施,以便對事件序列執(zhí)行規(guī)則匹配,從而找出潛在的垃圾短信發(fā)送號碼。 因此,垃圾短信發(fā)送號碼的實時檢測是有用的。但是存在一個問題 一些正 常的發(fā)送者在某個時間期間的某時間點可能具有相同的^f亍為,例如,活動組 織者可能同時給多個用戶發(fā)出通知,這像垃圾短信行為。因此,進一步驗證 以便避免正常用戶的投訴是重要的。
在線部分,即用于垃圾短信發(fā)送號碼監(jiān)^L和分析的在線^r測子系統,可 進一步分為兩個子層低層時序分析引擎和高層圖分析引擎。低層時序分析 I擎是基于時間的用戶行為模式分析器,其使用從短信中心的記錄檢索的事 件流實時發(fā)現潛在的垃圾短信發(fā)送號碼。高層圖分析引擎是基于空間的用戶 社會網絡模式分析器,其進一步使用網絡圖從低層過濾潛在垃圾短信發(fā)送號 碼以準確檢測真正的垃圾短信發(fā)送號碼。
離線部分,即離線挖掘子系統,主要集中于歷史數據分析,通過使用數 據挖掘技術,可從長期統計記錄挖掘垃圾短信發(fā)送者行為才莫式來幫助運營商 識別和確認特殊模式,以協助建立高層在線檢測子系統的決定規(guī)則。
以下參照附圖對本發(fā)明的實施方式進4亍詳細的說明。
圖1圖示了根據本發(fā)明的一個實施方式的系統架構,其中也圖示了該實 施方式的實現環(huán)境。該實施方式的系統包括在線檢測模塊1和離線模式挖掘 模塊2。在線檢測模塊1包括事件處理引擎11和圖分析引擎12。
事件處理引擎11執(zhí)行基于事件流的規(guī)則匹配。所有發(fā)送的短信會通過事 件處理引擎ll,并且對于通過的各事件進行實時流處理,即根據預定的時間 參數和規(guī)則(后面詳細說明)進行規(guī)則匹配。所有潛在的垃圾短信被捕捉并
且這些短信的發(fā)送號碼將被報告給圖分析引擎12進行進一步的驗證。在此, 事件處理引擎11分析垃圾短信發(fā)送者的時間行為的內在M^律,進行時序分 析,即時間行為模式分析,將匹配規(guī)則的發(fā)送號碼提取出來報告給圖分析引 擎12。
圖分析引擎12執(zhí)行網絡圖分析,即對呼叫方或者短信發(fā)送者的社會網絡 進行空間行為模式分析(后面詳述)。圖分析引擎12將分析用戶的呼叫或者 短信服務圖(電信社會網絡)的拓樸結構。
通過特定的電信連接特征,如呼叫方或者短信記錄, 一時間段內移動電 話用戶之間的連接將構建定向網絡圖,其中結點代表用戶,這稱為電信社會 網絡。對于垃圾短信發(fā)送者沖企測,這種定向網絡圖拓樸結構描述了該時間段 期間的用戶空間行為。從電信社會網絡可提取統計特征,并且分析該統計特 征來幫助檢測垃圾短信發(fā)送者行為。作為空間統計特征,針對目標接收者的 垃圾短信行為難以隱藏。
上述電信社會網絡的拓樸結構的分析過程可分為逐步深入的三個步驟, 而所有需要的數據來自于運營商的詳單記錄系統。以下以短信服務為例進行說明。
在第一步,執(zhí)行一度子圖分析。如圖2A和圖2B所示, 一度子圖表示呼 叫方或者短信發(fā)送者(圖中的中心結點)與其直接聯系人(圖中與中心結點 直接連接的所有結點)之間的聯系行為。其中,圖2A圖示了潛在的垃圾短 信發(fā)送者的一度子圖,圖中的中心結點表示潛在的垃圾短信發(fā)送者,連接該 的中心結點并突出顯示的邊,標識該潛在的垃圾短信發(fā)送者與其直接聯系人 (潛在的受害人)的聯系行為,各邊的箭頭指示了發(fā)送方向。作為對照,圖 2B圖示了正常短信用戶的一度子圖,圖中的中心結點表示特定的正常短信用 戶(關注的發(fā)送者),連接該中心結點并突出顯示的邊,標識該特定的正常短 信用戶與其直接聯系人的聯系行為,各邊的箭頭指示了發(fā)送方向。因此,一
度子圖展示了當前發(fā)送者的空間聯系行為。通過比較圖2A和圖2B可見對 于大多數正常短信用戶(關注的發(fā)送者),在連接中心結點的邊中,由邊的箭頭指示的出度(表示發(fā)送)和入度(表示接收)基本是平衡的,即發(fā)送行為
和接收行為基本是平衡的;但是,對于潛在的垃圾短信發(fā)送者,在連接中心 結點的邊中,由邊的箭頭指示的出度(表示發(fā)送)遠遠大于入度(表示接收), 即主要是大量的發(fā)送行為,因為其目的在于發(fā)出垃圾短信而非正常通信。
在第二步,進一步執(zhí)行二度子圖分析。如圖3A和圖3B所示,二度子圖 除了顯示呼叫方或者短信發(fā)送者(圖中的中心結點)與其直接聯系人(圖中 與中心結點直接連接的所有結點)之間的聯系行為,進一步顯示這些直接聯 系人之間的聯系行為。即,二度子圖可顯示潛在的垃圾短信發(fā)送者的所有直 接聯系人之間的通信行為。其中,圖3A圖示了潛在的垃;及短信發(fā)送者的二 度子圖,圖中的中心結點表示潛在的垃圾短信發(fā)送者,連接該的中心結點并 突出顯示的邊,標識該潛在的垃圾短信發(fā)送者與其直接聯系人(潛在的受害 人)的聯系行為,各邊的箭頭指示了發(fā)送方向。在圖3A中,在表示這些直 接聯系人的結點之間基本不存在邊,突出顯示的邊看起來仍然是星狀的。作 為對照,圖3B圖示了正常短信用戶的二度子圖,圖中的中心結點表示特定的 正常短信用戶(被關注發(fā)送者),連接該中心結點并突出顯示的邊,標識該特 定的正常短信用戶與其直接聯系人的聯系行為,各邊的箭頭指示了發(fā)送方向。 另夕卜,在圖3B中,在表示這些直接聯系人的結點之間也可能存在帶箭頭的邊, 突出顯示的邊呈現出網狀。通過比較圖3A和圖3B可見乂于于正常短信用戶
(被關注發(fā)送者),其直接聯系人之間可能存在多個聯系(在圖3B中出現網 狀發(fā)展的突出顯示的邊),因為正常短信用戶的直接聯系人之間通常也可能是 朋友;但是,對于潛在的垃圾短信發(fā)送者,短信接收者(直接聯系人)是隨 機選擇的或者來自其目標列表,因而這些短信接收者之間很少可能存在聯系
(在圖3A中很少出現網狀發(fā)展的突出顯示的邊,仍然呈現星狀)。
在第三步,進一步執(zhí)行三度子圖分析,即考慮直接聯系人的深層次社會 網絡的聯系行為,以便通過比較拓樸結構的差異來更加準確地區(qū)分正常短信 用戶和垃圾短信發(fā)送者。具體地,三度子圖除了顯示呼叫方或者短信發(fā)送者
(如上述圖中的中心結點)與其直接聯系人(如上述圖中與中心結點直接連 接的所有結點)之間的聯系行為、以及這些直接聯系人之間的聯系行為,進 一步顯示了這些直接聯系人的更深層次的聯系,即,還顯示以每個直接聯系 人為中心結點的二度圖,以反映除直接聯系人之間的直接通信以外的其自身
的社會網絡聯系。通過擴展如上所述的分析可以進行更進一步的深入分析,從而引入社會 網絡聯系的更深層次。
通過分析短信用戶的空間行為模式(電信社會網絡),可以相對高的準確 度識別真正的垃圾短信發(fā)送者,從而彌補了時間行為模式分析的不足(低準 確度)。分析空間行為模式需要構建短信發(fā)送者的社會網絡圖,這比事件流分 析更難并且耗時,因此,空間行為模式分析不適于同時處理大量的被關注發(fā) 送者。
離線模式挖掘模塊2包括事務處理管理器21和模式挖掘引擎22。 事務處理管理器21進行數據預處理。如圖1所示,所有歷史短信服務數 據從計費系統5和商業(yè)智能(BI)系統6通過數據訪問層4進入事務處理管 理器21進行過濾,即,在所有短信服務記錄中僅僅相關字段被保留。所述相 關字段包括但不限于如下屬性發(fā)送者ID (標識符)、接收者ID和發(fā)送時間。 此后,這些屬性被概括為用于進一步學習的特征數據。產生的數據記錄將概 括短信發(fā)送號碼在一定最小時間段(如距出現第一個短信10秒)中的行為。 產生的數據的字段包括但不限于發(fā)送者ID、不同接收者號碼的總量、發(fā)送 短信的量、發(fā)送的頻率和頻率的變化。所有這些要素形成特征數據,也稱為 短信發(fā)送的事件。
模式挖掘引擎22進行模式挖掘并且產生特征、參數和規(guī)則。模式挖掘引 擎22從事務處理管理器21接收事件,使用適當的聚類(clustering)算法將 事件聚類,以輸出聚類的事件集。運營商可將聚類的事件的結果(屬性)可 視化,然后應用這些知識找出或者驗證垃圾短信發(fā)送號碼及其在某個類中的 行為模式,即規(guī)則。也就是說,對于空間行為模式,模式挖掘引擎22利用機 器學習方法,對所有特征進行聚類分析和驗證,找到有效的特征子集并得出 適合的參數和規(guī)則;而對于時間行為模式,如發(fā)送頻率、發(fā)送數量等,模式 挖掘引擎22利用機器學習方法進行分析,得出適合的參數和規(guī)則。另外,運 營商也可人工增加或者修改特征、參數和規(guī)則,如根據特定要求。
空間行為模式分析中涉及的特征(空間特征)融合了一度子圖、二度子 圖、三度子圖的特征,包含但不限于以下特征
*中心結點的入度,表示中心結點號碼在某一時間段內收到的短信數目; *中心結點的出度,表示中心結點號碼在某一時間段內發(fā)送的短信數目; *中心結點的入度出度比,表示中心結點號碼在某一時間段內收到和短信數 連接中心結點的所有邊中雙向邊所占比例,表示在某一時間段內收到中心
結點號碼的短信并且向其回復短信的比例(發(fā)送與接收無先后順序關系); *連接中心結點的所有邊的平均權重,表示中心結點號碼在某一時間段內對
每個直接聯系人(在該時間段內與中心結點號碼有直接聯系的號碼)發(fā)送
或接收的平均短信數目; 連接中心結點的所有邊中的最大權重,表示中心結點號碼在某一時間段內
對所有直接聯系人(含義同上)發(fā)送或接收的最多短信數目; *連接中心結點的所有邊的權重的方差,表示中心結點號碼在某一時間段內
對每個直接聯系人(含義同上)發(fā)送或接收短信數目的差異分布程度; *中心結點的所有直接聯系人結點之間的邊數,表示中心結點號碼在某一時
間段內的直接聯系人(含義同上)之間相互發(fā)送或接收短信的數目; *中心結點的所有直接聯系人結點之間的邊的平均權重,表示中心結點號碼
在某一時間段內的直接聯系人(含義同上)之間相互發(fā)送或接收短信的平
均凄丈目;以及
*中心結點的所有直接聯系人結點之間的邊的權重之和,表示中心結點號碼 在某一時間段內的直接聯系人(含義同上)之間相互發(fā)送或接收短信的總數。
上面對空間特征的說明以通過短信記錄構建的社會網絡為例。如果電信 社會網絡是通過語音通話記錄構建,那么可將上述說明中的發(fā)送短信替換為 主叫電話,接收短信替換為接聽電話。
以入度出度比特征為例,聚類分析可得出以比值0.001-0.01進行正常 用戶和垃圾短信發(fā)送者的劃分,有90%的準確率,那么0.001-0.01被稱為參 數,而如果入度出度比落在0.001-0.01區(qū)間有90%的概率則可判定是垃圾短 信發(fā)送者,這叫做規(guī)則。可以根據需要在空間行為模式分析中選擇上述特征 之一或其組合。
圖4A和圖4B示出才艮據本發(fā)明的一個實施方式的方法的流程圖,其中圖 4A示出在線檢測的流程,而圖4B示出離線模式挖掘的流程。下面參照圖1、 圖4A和圖4B說明根據本發(fā)明的一個實施方式的方法。
如圖4A所示,在步驟S42,事件處理引擎11定期從短信中心3實時獲 取最新通信數據,即短信事件流。在步驟S44,在事件處理引擎ll中,對短 信流執(zhí)行基于事件流的規(guī)則匹配,即將短信事件流數據根據上述從離線模式挖掘模塊2決定的參數和規(guī)則進行時序分析,過濾掉正常通信的號碼,提取
可疑號碼(潛在的垃圾短信發(fā)送號碼)輸出給圖分析引擎12。在步驟S46, 對于每個可疑號碼,圖分析引擎12通過數據訪問層4從計費系統5、 BI系統 6、并且從短信服務中心3等相關系統獲取歷史社會網絡數據,結合上述從離 線模式挖掘模塊2得到的特征、參數和規(guī)則,進行空間行為模式分析,即對 每個被關注發(fā)送號碼(可疑號碼)的社會網絡進行綜合判定,然后輸出每個 可疑號碼的垃圾短信可疑概率。在步驟S48,根據垃圾短信可疑概率,判定 可疑號碼是否為垃圾短信發(fā)送號碼。運營商的業(yè)務人員可根據該垃圾短信可 疑概率人工確定可疑號碼是否垃圾短信發(fā)送號碼,或者可通過設定閾值自動 進行判定,比如可疑概率超過60%,自動判定可疑號碼是垃圾短信發(fā)送號碼。 以下進一步說明圖分析引擎12在步驟S46進行空間行為模式分析的具體 過程。如上所述,該過程需要對被關注發(fā)送號碼(可疑號碼)的社會網絡進 行綜合判定,這可通過多種方法實現。例如,可采用基于規(guī)則的加權和模式 的綜合判定
1. 根據被關注發(fā)送號碼的完整的社會網絡數據計算上述相關特征的值;
2. 對每個特征,將計算的該特征的值與該特征的參數和規(guī)則進行比較,得到 對應于此特征的概率;
3. 將所有特征的概率求加權和,得到最終的概率,即垃圾短信可疑概率。 還可采用基于機器學習的復雜分類器的綜合判定
1. 利用離線數據作為訓練樣本,根據已選擇的分類方法(分類器,如神經網 絡)進行訓練,得到可以用于垃圾短信發(fā)送號碼檢測的分類器;
2. 根據被關注發(fā)送號碼的完整的社會網絡數據計算上述相關特征的值;
3. 將由所有計算的特征值構成的序列(向量)作為輸入,送給分類器進行判 別;
4. 分類器的輸出是最終的概率,即垃圾短信可疑概率,也可以是0(是垃圾 短信發(fā)送號碼)/1 (不是垃圾短信發(fā)送號碼)的二值結果。
對于離線處理流程,如圖4B所示,在步驟S52,事務處理管理器21通 過數據訪問層4從計費系統5、 BI系統6、并且從短信服務中心3等相關系 統獲取歷史通信數據,包括呼叫和短信等。在步驟S54,事務處理管理器21 按照格式對通信數據進行預處理,即僅僅保留相關字段,形成特征數據,輸 出到模式挖掘引擎22。在步驟S56,模式挖掘引擎22對預處理后的特征數據進行時間和空間行為模式分析與學習。根據分析結果,由運營商決定在在線 檢測模塊1中使用的時間參數及其規(guī)則以及空間特征及其參數和規(guī)則。如上 所述,運營商也可按照需要人工修改參數和規(guī)則。
本申請僅僅描述了本發(fā)明的特定的實施方式和實現。才艮據本申請描述的 內容,可以做出各種改進、變形和其它實施方式和實現。
例如,除了圖1所示的根據本發(fā)明的一個實施方式的系統以及圖4A和 圖4B所示的根據本發(fā)明的一個實施方式的,根據本發(fā)明的系統的另一個實施 方式可以僅僅包含事件處理引擎11和圖分析引擎12,而根據本發(fā)明的方法 的另一個實施方式可以^^義包含圖4A所示的在線4全測流程。
權利要求
1.一種垃圾短信發(fā)送號碼實時檢測系統,包括事件處理引擎,用于實時獲取短信事件流,根據預定的時間參數及其規(guī)則進行規(guī)則匹配,提取潛在的垃圾短信發(fā)送號碼;以及圖分析引擎,用于接收事件處理引擎提取的所述號碼,然后獲取所述號碼的社會網絡數據,結合至少一個預定的空間特征及其參數和規(guī)則,進行空間行為模式分析,以便判定所述號碼是否真正的垃圾短信發(fā)送號碼。
2. 根據權利要求1所述的垃圾短信發(fā)送號碼實時檢測系統,其中圖分析 引擎進行空間行為模式分析包括根據所述號碼的社會網絡數據計算所述空間特征的值,將每個計算的值 與該空間特征的參數和規(guī)則進行比較,得到對應于該空間特征的概率,然后 將所有空間特征的概率求加權和,得到垃圾短信可疑概率。
3. 根據權利要求1所述的垃圾短信發(fā)送號碼實時檢測系統,其中圖分析 引擎進行空間行為模式分析包括利用所述號碼的社會網絡數據作為訓練樣本,才艮據選擇的分類方法進行 訓練,得到用于垃圾短信發(fā)送號碼檢測的分類器,根據所述號碼的社會網絡 數據計算所述空間特征的值,然后將由所有計算的值構成的序列輸入所述分 類器進行判別,得到垃圾短信可疑概率。
4. 根據權利要求1所述的垃圾短信發(fā)送號碼實時檢測系統,其中所述空 間特征包括所述社會網絡的一度子圖、二度子圖、三度子圖的以下特征的至少一個 中心結 中心結 中心結 連接中 連接中 連接中 連接中 中心結 中心結泉的入度; #、的出度; 泉的入度出度比;"、結點的所有邊中雙向邊所占比例;"、結點的所有邊的平均^l重;"、結點的所有邊的最大權重;"、結點的所有邊的權重的方差;泉的所有直接聯系人結點之間的邊數;泉的所有直接聯系人結點之間的邊的平均權重;以及中心結點的所有直接聯系人結點之間的邊的權重之和。
5. 根據權利要求1所述的垃圾短信發(fā)送號碼實時檢測系統,還包括 事務處理管理器,用于獲取歷史通信數據,將其預處理為特征數據;以及模式挖掘引擎,用于接收所述特征數據,對所述特征數據進行時間和空 間行為模式分析與學習,產生所述預定的時間參數及其規(guī)則以及所述預定的 間特征及其參數和規(guī)則。
6. 根據權利要求5所述的垃圾短信發(fā)送號碼實時檢測系統,其中對于空 間行為模式,模式挖掘引擎對所有特征進行聚類分析和驗證,找到有效的特 征子集并得出適合的參數和規(guī)則。
7. —種垃圾短信發(fā)送號碼實時;^測方法,包括實時獲取短信事件流,根據預定的時間參數及其規(guī)則進行規(guī)則匹配,提 取潛在的垃圾短信發(fā)送號碼;以及獲取提取的所述號碼的社會網絡數據,結合至少一個預定的空間特征及 其參數和規(guī)則,進行空間行為模式分析,以便判定所述號碼是否真正的垃圾 短信發(fā)送號碼。
8. 根據權利要求7所述的垃圾短信發(fā)送號碼實時檢測方法,其中進行空 間行為模式分析包括根據所述號碼的社會網絡數據計算所述空間特征的值,將每個計算的值 與該空間特征的參數和規(guī)則進行比較,得到對應于該空間特征的概率,然后 將所有空間特征的概率求加權和,得到垃圾短信可疑概率。
9. 根據權利要求7所述的垃圾短信發(fā)送號碼實時檢測方法,其中進行空 間行為模式分析包括利用所述號碼的社會網絡數據作為訓練樣本,根據選擇的分類方法進行 訓練,得到用于垃圾短信發(fā)送號碼檢測的分類器,根據所述號碼的社會網絡 數據計算所述空間特征的值,然后將由所有計算的值構成的序列輸入所述分類器進行判別,得到垃圾短信可疑概率。
10. 根據權利要求7所述的垃圾短信發(fā)送號碼實時檢測方法,其中所述 空間特征包括所述社會網絡的一度子圖、二度子圖、三度子圖的以下特征的至少一個 中心結點的入度;中心結點的出度;中心結點的入度出度比;連接中心結點的所有邊中雙向邊所占比例;連接中心結點的所有邊的平均權重;連接中心結點的所有邊的最大權重;連接中心結點的所有邊的權重的方差;中心結點的所有直接聯系人結點之間的邊數;中心結點的所有直接聯系人結點之間的邊的平均權重;以及中心結點的所有直接聯系人結點之間的邊的權重之和。
11. 根據權利要求7所述的垃圾短信發(fā)送號碼實時檢測方法,還包括 獲取歷史通信數據,將其預處理為特征數據;以及 對所述特征數據進行時間和空間行為模式分析與學習,產生所述預定的時間參數及其規(guī)則以及所述預定的空間特征及其參數和規(guī)則。
12. 根據權利要求11所述的垃圾短信發(fā)送號碼實時檢測方法,其中對于 空間行為模式,對所有特征進行聚類分析和驗證,找到有效的特征子集并得 出適合的參數和規(guī)則。
全文摘要
本申請?zhí)岢鲆环N垃圾短信發(fā)送號碼實時檢測系統和方法,所述系統包括事件處理引擎,用于實時獲取短信事件流,根據預定的時間參數及其規(guī)則進行規(guī)則匹配,提取潛在的垃圾短信發(fā)送號碼;以及圖分析引擎,用于接收事件處理引擎提取的所述號碼,然后獲取所述號碼的社會網絡數據,結合至少一個預定的空間特征及其參數和規(guī)則,進行空間行為模式分析,以便判定所述號碼是否真正的垃圾短信發(fā)送號碼。通過一個實施方式,可實時和正確地檢測到真正的垃圾短信發(fā)送者。
文檔編號H04W4/12GK101686444SQ20081016877
公開日2010年3月31日 申請日期2008年9月28日 優(yōu)先權日2008年9月28日
發(fā)明者潔 李, 晨 王, 田啟明, 薇 陸 申請人:國際商業(yè)機器公司