一種社交網(wǎng)絡僵尸賬號檢測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及互聯(lián)網(wǎng)社交技術領域,尤其設及一種社交網(wǎng)絡僵尸賬號檢測方法及裝 置。
【背景技術】
[0002] 社交網(wǎng)絡W其內(nèi)容簡潔、交互便捷和快速傳播等特點,迅速發(fā)展成為人們表達觀 點、抒發(fā)情緒、傳遞信息的重要社會媒體。W新浪微博、Twitter、化cebook為代表的社交網(wǎng) 絡在大量社會事件的發(fā)酵和爆發(fā)過程中都起到了重要的推動作用,所W社交網(wǎng)絡是當前輿 情分析必不可少的數(shù)據(jù)來源之一。社交網(wǎng)絡作為輿情傳播平臺的同時也是網(wǎng)絡營銷的重要 手段,其中蘊藏著巨大的經(jīng)濟價值,于是僵尸賬號應運而生,僵尸賬號是指申請了帳號但是 基本不登錄的帳號或者利用使用構造虛假內(nèi)容的方式達到傳播某一特定內(nèi)容的目的。前 者通過低廉的注冊成本自動注冊大量賬號,用戶可W通過購買的方式短期內(nèi)增加大量粉絲 量,一定程度上擴大自己的影響力。后者通過僵尸賬號發(fā)布大量內(nèi)容重復或含有特定營銷 目標的鏈接W達到提高曝光率的目的,增加被點擊概率。隨著社交網(wǎng)絡平臺對僵尸賬號檢 測力度的加大,僵尸賬號運營方也使用了多種逃避檢測的方法,W提高僵尸賬號的存活時 間。例如通過增加發(fā)帖數(shù)和登錄次數(shù)逃避基于活躍度的檢測,通過滲雜無關文本內(nèi)容降低 營銷關鍵詞頻率逃避基于重復率的檢測等。如何高效、準確地檢測出僵尸賬號對提高社交 網(wǎng)絡數(shù)據(jù)分析具有重要意義。
[0003] 現(xiàn)有方法多基于關注圖模型或交互圖模型,根據(jù)交互性特征對僵尸賬號進行檢 巧。,其檢出率、檢出效率和準確率較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術問題是,提供一種社交網(wǎng)絡僵尸賬號檢測方法及裝置,提高 檢測僵尸賬戶的檢出率和準確率。
[0005] 本發(fā)明采用的技術方案是,所述社交網(wǎng)絡僵尸賬號檢測方法,包括:
[0006] 從僵尸賬號樣本集和正常賬號樣本集中分別提取出層次化特征,基于提取出的所 述層次化特征分層次的建立各層分類器;
[0007] 基于各層分類器對待預測賬號進行檢測,判斷所述待預測賬號是否屬于僵尸賬 號。
[0008] 進一步的,所述層次化特征,包括W下四個層次的特征:
[0009] 第一層的特征:賬號資料特征;
[0010] 其余層的特征分別是;微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征。
[0011] 進一步的,所述賬號資料特征,包括:
[0012] 用戶昵稱中字符與數(shù)字的長度之和占用用戶昵稱總長度的比例;
[0013] 是否填寫了家庭住址;
[0014] 賬號發(fā)帖數(shù);
[0015] 賬號粉絲數(shù);
[0016] 賬號關注數(shù);
[0017] 賬號關注數(shù)與粉絲數(shù)的比例;
[0018] 所述微博內(nèi)容特征,包括;
[0019] 賬號所發(fā)微博中含有冊LOJniformResoureLocator,統(tǒng)一資源定位器)的微博的 比例;
[0020] 賬號所發(fā)微博中所含U化去重后的數(shù)量與賬號所發(fā)微博中所有U化數(shù)量的比值;
[0021] 賬號所發(fā)微博中所含內(nèi)容關鍵詞去重后的數(shù)量與賬號所發(fā)微博中所有關鍵詞數(shù) 量的比值;
[0022] 所述發(fā)帖時間特征,包括:
[0023] 最后一次發(fā)帖與第一次發(fā)帖的時間跨度;
[0024] 發(fā)帖時間分布情況;
[00巧]所述發(fā)帖一致性特征,包括:
[0026] 基于發(fā)帖時間間隔,構建發(fā)帖時間間隔序列,按照如下公式計算發(fā)帖時間間隔序 列的波動性S;
[0027]
[002引其中,X康示第i個帖子和第i-1個帖子之間的發(fā)帖時間間隔,i為變量,W秒為 單位,n-1是所有帖子數(shù)減一,X表示發(fā)帖時間間隔平均值。
[0029] 進一步的,所述基于提取出的所述層次化特征分層次的建立各層分類器,包括:
[0030] 步驟A1,在賬號資料特征的基礎上利用分類模型算法建立第一層分類器;
[0031] 步驟A2,在微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征中任選其一、W及 賬號資料特征的基礎上利用分類模型算法建立第二層分類器;
[0032] 步驟A3,在剩余的兩項層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化特 征的基礎上利用分類模型算法建立第=層分類器;
[0033] 步驟A4,在最后一項層次化特征、W及步驟A1~A3中已經(jīng)使用的層次化特征的基 礎上利用分類模型算法建立第四層分類器。
[0034] 進一步的,所述分類模型算法,包括;C4. 5決策樹算法、SVM(SuppcxrtVector Machine,支持向量機)算法或者貝葉斯分類算法。
[0035] 進一步的,在第一層~第四層分類器分別對應于;賬號資料特征;賬號資料特征 和微博內(nèi)容特征;賬號資料特征、微博內(nèi)容特征和發(fā)帖時間特征;賬號資料特征、微博內(nèi)容 特征、發(fā)帖時間特征和發(fā)帖行為一致性特征的情況下;所述基于各層分類器對待預測賬號 進行檢測,判斷所述待預測賬號是否屬于僵尸賬號,包括:
[0036] 步驟B1,將待預測賬號的賬號資料特征輸入第一層分類器進行處理,如果分類結 果為僵尸賬號,則流程結束,如果分類結果為正常賬號,則執(zhí)行步驟B2 ;
[0037] 步驟B2,將待預測賬號的微博內(nèi)容特征、連同該待預測賬號的賬號資料特征一起, 輸入第二層分類器進行處理,如果分類結果為僵尸賬號,則流程結束,如果分類結果為正常 賬號,則執(zhí)行步驟B3;
[0038] 步驟B3,將待預測賬號的發(fā)帖時間特征、連同該待預測賬號的賬號資料特征和微 博內(nèi)容特征一起,輸入第S層分類器進行處理,如果分類結果為僵尸賬號,則流程結束,如 果分類結果為正常賬號,則執(zhí)行步驟B4 ;
[0039] 步驟B4,將待預測賬號的發(fā)帖行為一致性特征、連同該待預測賬號的賬號資料特 征、微博內(nèi)容特征和發(fā)帖時間特征一起,輸入第四層分類器進行處理,如果分類結果為僵尸 賬號,則流程結束,如果分類結果為正常賬號,則判定為正常賬號,流程結束。
[0040] 本發(fā)明還提供一種社交網(wǎng)絡僵尸賬號檢測裝置,包括:
[0041] 訓練模塊,用于從僵尸賬號樣本集和正常賬號樣本集中分別提取出層次化特征, 基于提取出的所述層次化特征分層次的建立各層分類器;
[0042] 檢測模塊,用于基于各層分類器對待預測賬號進行檢測,判斷所述待預測賬號是 否屬于僵尸賬號。
[0043] 進一步的,所述層次化特征,包括W下四個層次的特征:
[0044] 第一層的特征:賬號資料特征;
[0045] 其余層的特征分別是;微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征。
[0046] 進一步的,所述訓練模塊,具體用于執(zhí)行W下流程:
[0047] 步驟A1,在賬號資料特征的基礎上利用分類模型算法建立第一層分類器;
[0048] 步驟A2,在微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征中任選其一、W及 賬號資料特征的基礎上利用分類模型算法建立第二層分類器;
[0049] 步驟A3,在剩余的兩項層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化