一種社交網(wǎng)絡僵尸賬號檢測方法及裝置的制造方法

文檔序號：8925106閱讀：745來源：國知局

一種社交網(wǎng)絡僵尸賬號檢測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及互聯(lián)網(wǎng)社交技術領域，尤其設及一種社交網(wǎng)絡僵尸賬號檢測方法及裝置。
【背景技術】
[0002] 社交網(wǎng)絡W其內(nèi)容簡潔、交互便捷和快速傳播等特點，迅速發(fā)展成為人們表達觀點、抒發(fā)情緒、傳遞信息的重要社會媒體。W新浪微博、Twitter、化cebook為代表的社交網(wǎng) 絡在大量社會事件的發(fā)酵和爆發(fā)過程中都起到了重要的推動作用，所W社交網(wǎng)絡是當前輿情分析必不可少的數(shù)據(jù)來源之一。社交網(wǎng)絡作為輿情傳播平臺的同時也是網(wǎng)絡營銷的重要手段，其中蘊藏著巨大的經(jīng)濟價值，于是僵尸賬號應運而生，僵尸賬號是指申請了帳號但是基本不登錄的帳號或者利用使用構造虛假內(nèi)容的方式達到傳播某一特定內(nèi)容的目的。前者通過低廉的注冊成本自動注冊大量賬號，用戶可W通過購買的方式短期內(nèi)增加大量粉絲量，一定程度上擴大自己的影響力。后者通過僵尸賬號發(fā)布大量內(nèi)容重復或含有特定營銷目標的鏈接W達到提高曝光率的目的，增加被點擊概率。隨著社交網(wǎng)絡平臺對僵尸賬號檢測力度的加大，僵尸賬號運營方也使用了多種逃避檢測的方法，W提高僵尸賬號的存活時間。例如通過增加發(fā)帖數(shù)和登錄次數(shù)逃避基于活躍度的檢測，通過滲雜無關文本內(nèi)容降低營銷關鍵詞頻率逃避基于重復率的檢測等。如何高效、準確地檢測出僵尸賬號對提高社交網(wǎng)絡數(shù)據(jù)分析具有重要意義。
[0003] 現(xiàn)有方法多基于關注圖模型或交互圖模型，根據(jù)交互性特征對僵尸賬號進行檢巧。，其檢出率、檢出效率和準確率較低。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術問題是，提供一種社交網(wǎng)絡僵尸賬號檢測方法及裝置，提高檢測僵尸賬戶的檢出率和準確率。
[0005] 本發(fā)明采用的技術方案是，所述社交網(wǎng)絡僵尸賬號檢測方法，包括：
[0006] 從僵尸賬號樣本集和正常賬號樣本集中分別提取出層次化特征，基于提取出的所述層次化特征分層次的建立各層分類器；
[0007] 基于各層分類器對待預測賬號進行檢測，判斷所述待預測賬號是否屬于僵尸賬號。
[0008] 進一步的，所述層次化特征，包括W下四個層次的特征：
[0009] 第一層的特征：賬號資料特征；
[0010] 其余層的特征分別是；微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征。
[0011] 進一步的，所述賬號資料特征，包括：
[0012] 用戶昵稱中字符與數(shù)字的長度之和占用用戶昵稱總長度的比例；
[0013] 是否填寫了家庭住址；
[0014] 賬號發(fā)帖數(shù)；
[0015] 賬號粉絲數(shù)；
[0016] 賬號關注數(shù)；
[0017] 賬號關注數(shù)與粉絲數(shù)的比例；
[0018] 所述微博內(nèi)容特征，包括；
[0019] 賬號所發(fā)微博中含有冊LOJniformResoureLocator,統(tǒng)一資源定位器）的微博的比例；
[0020] 賬號所發(fā)微博中所含U化去重后的數(shù)量與賬號所發(fā)微博中所有U化數(shù)量的比值；
[0021] 賬號所發(fā)微博中所含內(nèi)容關鍵詞去重后的數(shù)量與賬號所發(fā)微博中所有關鍵詞數(shù) 量的比值；
[0022] 所述發(fā)帖時間特征，包括：
[0023] 最后一次發(fā)帖與第一次發(fā)帖的時間跨度；
[0024] 發(fā)帖時間分布情況；
[00巧]所述發(fā)帖一致性特征，包括：
[0026] 基于發(fā)帖時間間隔，構建發(fā)帖時間間隔序列，按照如下公式計算發(fā)帖時間間隔序列的波動性S;
[0027]
[002引其中，X康示第i個帖子和第i-1個帖子之間的發(fā)帖時間間隔，i為變量，W秒為單位，n-1是所有帖子數(shù)減一，X表示發(fā)帖時間間隔平均值。
[0029] 進一步的，所述基于提取出的所述層次化特征分層次的建立各層分類器，包括：
[0030] 步驟A1，在賬號資料特征的基礎上利用分類模型算法建立第一層分類器；
[0031] 步驟A2,在微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征中任選其一、W及賬號資料特征的基礎上利用分類模型算法建立第二層分類器；
[0032] 步驟A3,在剩余的兩項層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化特征的基礎上利用分類模型算法建立第=層分類器；
[0033] 步驟A4,在最后一項層次化特征、W及步驟A1~A3中已經(jīng)使用的層次化特征的基礎上利用分類模型算法建立第四層分類器。
[0034] 進一步的，所述分類模型算法，包括；C4. 5決策樹算法、SVM(SuppcxrtVector Machine,支持向量機）算法或者貝葉斯分類算法。
[0035] 進一步的，在第一層~第四層分類器分別對應于；賬號資料特征；賬號資料特征和微博內(nèi)容特征；賬號資料特征、微博內(nèi)容特征和發(fā)帖時間特征；賬號資料特征、微博內(nèi)容特征、發(fā)帖時間特征和發(fā)帖行為一致性特征的情況下；所述基于各層分類器對待預測賬號進行檢測，判斷所述待預測賬號是否屬于僵尸賬號，包括：
[0036] 步驟B1，將待預測賬號的賬號資料特征輸入第一層分類器進行處理，如果分類結果為僵尸賬號，則流程結束，如果分類結果為正常賬號，則執(zhí)行步驟B2 ;
[0037] 步驟B2,將待預測賬號的微博內(nèi)容特征、連同該待預測賬號的賬號資料特征一起，輸入第二層分類器進行處理，如果分類結果為僵尸賬號，則流程結束，如果分類結果為正常賬號，則執(zhí)行步驟B3;
[0038] 步驟B3,將待預測賬號的發(fā)帖時間特征、連同該待預測賬號的賬號資料特征和微博內(nèi)容特征一起，輸入第S層分類器進行處理，如果分類結果為僵尸賬號，則流程結束，如果分類結果為正常賬號，則執(zhí)行步驟B4 ;
[0039] 步驟B4,將待預測賬號的發(fā)帖行為一致性特征、連同該待預測賬號的賬號資料特征、微博內(nèi)容特征和發(fā)帖時間特征一起，輸入第四層分類器進行處理，如果分類結果為僵尸賬號，則流程結束，如果分類結果為正常賬號，則判定為正常賬號，流程結束。
[0040] 本發(fā)明還提供一種社交網(wǎng)絡僵尸賬號檢測裝置，包括：
[0041] 訓練模塊，用于從僵尸賬號樣本集和正常賬號樣本集中分別提取出層次化特征，基于提取出的所述層次化特征分層次的建立各層分類器；
[0042] 檢測模塊，用于基于各層分類器對待預測賬號進行檢測，判斷所述待預測賬號是否屬于僵尸賬號。
[0043] 進一步的，所述層次化特征，包括W下四個層次的特征：
[0044] 第一層的特征：賬號資料特征；
[0045] 其余層的特征分別是；微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征。
[0046] 進一步的，所述訓練模塊，具體用于執(zhí)行W下流程：
[0047] 步驟A1，在賬號資料特征的基礎上利用分類模型算法建立第一層分類器；
[0048] 步驟A2,在微博內(nèi)容特征、發(fā)帖時間特征、發(fā)帖行為一致性特征中任選其一、W及賬號資料特征的基礎上利用分類模型算法建立第二層分類器；
[0049] 步驟A3,在剩余的兩項層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化

完整全部詳細技術資料下載

當前第1頁1 2 3 4

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉瑋;王麗宏;張同虎;
技術所有人：國家計算機網(wǎng)絡與信息安全管理中心;
我是此專利的發(fā)明人

上一篇：一種路由器開關機自動化測試系統(tǒng)及方法
上一篇：一種ptn設備智能降耗系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

社交裝置相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種社交網(wǎng)絡僵尸賬號檢測方法及裝置的制造方法