国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種非正常短消息識別方法及裝置的制造方法

      文檔序號:9567611閱讀:241來源:國知局
      一種非正常短消息識別方法及裝置的制造方法
      【技術領域】
      [0001] 本發(fā)明涉及到識別技術,具體涉及一種非正常短消息識別方法及裝置。
      【背景技術】
      [0002] 隨著通信技術的發(fā)展,用戶之間不僅可W通過終端電話聯(lián)系對方,還可W通過短 消息方式聯(lián)系對方。隨著短消息的流行,各種違法短信、不良短信、陷阱短信、廣告短信等非 正常短消息(垃圾短信)嚴重干擾終端用戶的日常生活。
      [0003] 為避免垃圾短信對用戶產(chǎn)生的困惑,運營商通常在服務器側(cè)應用垃圾短信識別方 法,通過該方法識別出垃圾短息,并將識別出的非垃圾短信發(fā)送至終端側(cè)。
      [0004] 目前,在服務器側(cè),通常采用的垃圾短信識別方法為:
      [0005] 依據(jù)獲取的垃圾短信訓練集,建立垃圾短信識別模型;根據(jù)所建立的模型,對服務 器側(cè)收集的短信進行逐條的判斷,從而確定哪條短信為垃圾短信。其中,垃圾短信訓練集雖 然能夠突顯垃圾短信的特征,但它是由人工標注完成的,比較適合于短信數(shù)量不多的情況。 對于海量數(shù)據(jù)系統(tǒng),短信量較大,同時考慮到同一條短信在不同的時間或由不同的人來標 注該短信是否是垃圾短信,可能會產(chǎn)生不同的標注結(jié)果,如何在海量數(shù)據(jù)系統(tǒng)中,降低由人 工標注所帶來的標注誤差,進而提升垃圾短信識別的準確率成為了亟待解決的問題。

      【發(fā)明內(nèi)容】

      [0006] 為解決現(xiàn)有存在的技術問題,本發(fā)明實施例提供一種非正常短消息識別方法及裝 置,能夠解決由人工標注所帶來的標注誤差,有效提高海量數(shù)據(jù)系統(tǒng)中垃圾短信識別效率 及準確率。
      [0007] 本發(fā)明實施例的技術方案是送樣實現(xiàn)的:
      [0008] 本發(fā)明實施例提供了一種非正常短消息識別方法,所述方法還包括:
      [0009] 獲取在第Q個標注周期內(nèi)的第一短消息集合,所述第一短消息集合為在所述第Q 個標注周期內(nèi)的經(jīng)過人工標注的短消息的集合;
      [0010] 獲取所述第一短消息集合中對每一條短消息的人工標注記錄;
      [0011] 依據(jù)所述標注記錄,為每一條短消息配置相應的標注序列;
      [0012] 依據(jù)所述標注序列,確定在所述第Q個標注周期內(nèi)與所述標注序列相對應的短消 息是否為非正常短消息;其中,Q為正整數(shù)。
      [0013] 上述方案中,所述方法還包括:
      [0014] 為所述第一短消息集合中的每一條短消息配置的標注序列的元素的個數(shù)等于所 述短消息在所述第Q個標注周期內(nèi)被人工標注的總次數(shù)M;
      [0015] 配置所述標注序列的每一元素的取值為與所述標注記錄一一對應的預設值;
      [0016] 相應的,依據(jù)所述標注序列,確定在所述第Q個標注周期內(nèi)與所述標注序列相對 應的短消息是否為非正常短消息,包括:
      [0017] 依據(jù)所述標注序列的元素的取值,確定在所述第Q個標注周期內(nèi)與所述標注序列 相對應的短消息是否為非正常短消息。
      [0018] 上述方案中,所述預設值包括第一預設值及第二預設值,且所述標注記錄表征所 述短消息在第m次標注為非正常短消息時,配置所述標注序列的第m個元素取值為第一預 設值;所述標注記錄表征所述短消息在第m次標注為正常短消息時,配置所述標注序列的 第m個元素取值為第二預設值;其中,mE{1~M中的正整數(shù)};
      [0019] 相應的,所述依據(jù)所述標注序列的元素的取值,確定在所述第Q次標注周期內(nèi)與 所述標注序列相對應的短消息是否為非正常短消息,包括:
      [0020] 在所述標注序列中,計算取值為第一預設值的元素的數(shù)量,并配置為第一數(shù)量,計 算取值為第二預設值的元素的數(shù)量,并配置為第二數(shù)量,當所述第一數(shù)量超過所述第二數(shù) 量時,確定與所述標注序列相對應的短消息為非正常短消息;或者,
      [0021] 對所述標注序列中的元素進行采集,形成采樣樣本,在所述采樣樣本中,計算取值 為第一預設值的元素的數(shù)量,并配置為第一數(shù)量,計算取值為第二預設值的元素的數(shù)量,并 配置為第二數(shù)量,當所述第一數(shù)量超過所述第二數(shù)量時,確定在所述第Q個標注周期內(nèi)與 所述標注序列相對應的短消息為非正常短消息;或者,
      [0022] 在所述標注序列中,搜索出連續(xù)取值為第一預設值和連續(xù)取值第二預設值的元素 塊,計算連續(xù)取值為第一預設值的元素塊中所包括的元素的數(shù)量,并配置為第一數(shù)量,計算 連續(xù)取值為第二預設值的元素塊中所包括的元素的數(shù)量,并配置為第二數(shù)量,當所述第一 數(shù)量超過第二數(shù)量時,確定在所述第Q個標注周期內(nèi)與所述標注序列相對應的短消息為非 正常短消息;或者,
      [0023] 配置所述標注序列為具有第一預設值和第二預設值兩個狀態(tài)的馬爾科夫鏈,計算 狀態(tài)之間的轉(zhuǎn)移概率,當?shù)谝活A設值狀態(tài)的轉(zhuǎn)移概率超過第二預設值狀態(tài)的轉(zhuǎn)移概率,確 定在所述第Q個標注周期內(nèi)與所述標注序列相對應的短消息為非正常短消息。
      [0024] 上述方案中,所述依據(jù)所述標注序列,確定在所述第Q個標注周期內(nèi)與所述標注 序列相對應的短消息是否為非正常短消息之后,所述方法還包括:
      [00巧]在所述第一短消息集合中,計算出為所述短消息配置的標注序列的長度大于預設 的第一闊值時,確定在所述第Q個標注周期內(nèi)對所述短消息是否為非正常短消息的判定結(jié) 果為第一級別可信度的判定結(jié)果。
      [0026] 上述方案中,所述依據(jù)所述標注序列,確定在所述第Q個標注周期內(nèi)與所述標注 序列相對應的短消息是否為非正常短消息之后,所述方法還包括:
      [0027] 獲取在第Q+1個標注周期內(nèi)的第二短消息集合,所述第二短消息集合為在所述第 Q+1個標注周期內(nèi)的經(jīng)過人工標注的短消息的集合;
      [0028] 獲取所述第一短消息集合與第二短消息集合中相同或相似度超過第一闊值的短 消息,并配置所述短消息為第一類型短消息;
      [0029] 獲取所述第二短消息集合中對所述第一類型短消息的人工標注記錄;
      [0030] 依據(jù)所述人工標注記錄,為所述第一類型短消息配置相應的標注序列;
      [0031] 獲取在第Q個標注周期內(nèi)為所述第一類型短消息的標注序列;
      [0032] 將在所述第Q+1個標注周期內(nèi)的標注序列與在第Q個標注周期內(nèi)的標注序列進行 合并,形成合并標注序列;
      [0033] 依據(jù)所述合并標注序列,確定在所述第Q+1個標注周期內(nèi)的與所述合并標注序列 相對應的所述第一類型短消息是否為非正常短消息,W維持或修正對所述第一類型短消息 在所述第Q個標注周期內(nèi)的確定結(jié)果。
      [0034] 上述方案中,依據(jù)所述人工標注記錄,為所述第一類型短消息配置相應的標注序 列,包括:
      [0035] 為所述第二短消息集合中的所述第一類型短消息配置的標注序列的元素的個數(shù) 等于所述第一類型短消息在所述第Q+1個標注周期內(nèi)被人工標注的總次數(shù)r;
      [0036] 配置所述標注序列的每一元素的取值為與所述標注記錄一一對應的預設值;
      [0037] 將在所述第Q+1個標注周期內(nèi)的所配置的標注序列元素與在所述第Q個標注周期 內(nèi)的標注序列元素進行合并,形成所述合并標注序列;
      [0038] 相應的,所述依據(jù)所述合并標注序列,確定在所述第Q+1個標注周期內(nèi)與所述合 并標注序列相對應的所述第一類型短消息是否為非正常短消息,包括:
      [0039] 依據(jù)所述合并標注序列的元素的取值,確定在所述第Q+1個標注周期內(nèi)與所述合 并標注序列相對應的第一類型短消息是否為非正常短消息。
      [0040] 上述方案中,所述預設值包括第一預設值及第二預設值時,且所述第一類型短消 息的標注記錄表征所述短消息在所述第Q+1個標注周期內(nèi)的第m'次標注為非正常短消息 時,配置所述標注序列的第m'個元素取值為第一預設值;所述第一類型短消息的標注記錄 表征所述短消息在所述第Q+1個標注周期內(nèi)的第m'次標注為正常短消息時,配置所述標注 序列的第m'個元素取值為第二預設值;其中,m'E{1~r中的正整數(shù)};
      [0041] 相應的,依據(jù)所述合并標注序列的元素的取值,確定在所述第Q+1個標注周期內(nèi) 的與所述合并標注序列相對應的第一類型短消息是否為非正常短消息,包括:
      [0042] 在所述合并標注序列中,計算取值為第一預設值的元素的數(shù)量,并配置為第一數(shù) 量,計算取值為第二預設值的元素的數(shù)量,并配置為第二數(shù)量,當所述第一數(shù)量超過所述第 二數(shù)量時,確定在所述第Q+1個標注周期內(nèi)的與所述合并標注序列相對應的第一類型短消 息為非正常短消息;或者,
      [0043] 對所述合并標注序列中的元素進行采集,形成采樣樣本,在所述采樣樣本中,計算 取值為第一預設值的元素的數(shù)量,并配置為第一數(shù)量,計算取值為第二預設值的元素的數(shù) 量,并配置為第二數(shù)量,當所述第一數(shù)量超過所述第二數(shù)量時,確定在所述第Q+1個標注周 期內(nèi)的與所述合并標注序列相對應的第一類型短消息為非正常短消息;或者,
      [0044] 在所述合并標注序列中,搜索出連續(xù)取值為第一預設值和連續(xù)取值第二預設值的 元素塊,計算連續(xù)取值為第一預設值的元素塊中所包括的元素的數(shù)量,并配置為第一數(shù)量, 計算連續(xù)取值為第二預設值的元素塊中所包括的元素的數(shù)量,并配置為第二數(shù)量,當所述 第一數(shù)量超過第二數(shù)量時,確定在所述第Q+1個標注周期的與所述合并標注序列相對應的 第一類型短消息為非正常短消息;或者,
      [0045] 配置所述合并標注序列為具有第一預設值和第二預設值兩個狀態(tài)的馬爾科夫鏈, 計算狀態(tài)之間的轉(zhuǎn)移概率,當?shù)谝活A設值狀態(tài)的轉(zhuǎn)移概率超過第二預設值狀態(tài)的轉(zhuǎn)移概 率,確定在所述第Q+1個標注周期內(nèi)的與所述合并標注序列相對應的第一類型短消息為非 正常短消息。
      [0046] 上述方案中,所述方法還包括:
      [0047] 獲取第Q個標注周期所述第一類型短消息的標注序列長度M;
      [0048] 獲取第Q+1個標注周期內(nèi)所述短消息的標注序列長度r;
      [0049] 確定MVM>Y時,確定在第Q+1個標注周期內(nèi)對所述短消息是否為非正常短消息 的判定結(jié)果相反于在第Q個標注周期對所述短消息的判定結(jié)果;
      [0050] 或者,確定r/M>Y,且進一步判斷出在第Q+1個標注周期之前的X個標注周期 內(nèi),判定結(jié)果被改變的次數(shù)不大于預設的第H闊值時,確定在第Q+1個標注周期內(nèi)對所述 短消息是否為非正常短消息的判定結(jié)果相反于在第Q個標注周期對所述短消息的判定結(jié) 果;
      [0051] 其中,Y為有理數(shù)、M'、M、X均為正整數(shù)。
      [0052] 本發(fā)明實施例還提供了一種非正常短消息識別裝置,所述裝置包括:
      [0053] 第一獲取單元,用于獲取在第Q個標注周期內(nèi)的第一短消息集合,所述第一短消 息集合為在所述第Q個標注周期內(nèi)的經(jīng)過人工標注的短消息的集合;
      [0054] 第二獲取單元,用于獲取所述第一短消息集合中對每一條短消息的人工標注記 錄;
      [00巧]第一配置單元,用于依據(jù)所述標注記錄,為每一條短消息配置相應的標注序列;
      [0056] 第一確定單元,用于依據(jù)所述標注序列,確定在所述第Q個標注周期內(nèi)與所述標 注序列相對應的短消息是否為非正常短消息;其中,Q為正整數(shù)。
      [0057] 上述方案中,
      [0058] 所述第一配置單元,還用于為所述第一短消息集合中的每一條短消息配置的標注 序列的元素的個數(shù)等于所述短消息在所述第Q個標注周期內(nèi)被人工標注的總次數(shù)M;配置 所述標注序列的每一元素的取值為與所述標注記錄一一對應的預設值;
      [00則相應的,
      [0060] 所述第一確定單元,用于依據(jù)所述標注序列的元素的取值,確定在所述第Q個標 注周期內(nèi)與所述標注序列相對應的短消息是否為非正常短消息。
      [0061] 上述方案中,
      [0062] 所述第
      當前第1頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1