国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      非均衡iptv數(shù)據(jù)集下的用戶報障預(yù)測方法

      文檔序號:10687631閱讀:1175來源:國知局
      非均衡iptv數(shù)據(jù)集下的用戶報障預(yù)測方法
      【專利摘要】本發(fā)明公開了非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,主要步驟:(1)導(dǎo)入IPTV用戶觀看記錄并提取數(shù)值型指標(biāo);(2)平均每位用戶的觀看記錄;(3)初始化平衡值β;(4)采用均基于馬氏距離的ODR和BSMOTE算法刪除不報障樣本,增加人工報障樣本;(5)使用TOMEK算法刪除對分類有負(fù)面影響的新增樣本;(6)將重建后的樣本數(shù)據(jù)集放入自適應(yīng)變核寬度的SVM分類器中訓(xùn)練;(7)將待預(yù)測的IPTV用戶數(shù)據(jù),輸入到訓(xùn)練好的SVM的檢測器中。由于采用改進(jìn)BSMOTE和ODR算法均基于馬氏距離,不僅避免變量的多重相關(guān)性所帶來的信息重疊,還不受樣本點(diǎn)屬性之間不同量綱的影響,獲得更佳的樣本數(shù)據(jù)改造效果,削弱了噪聲點(diǎn)和冗余點(diǎn)對報障預(yù)測的干擾,大幅度提高了分類器預(yù)測準(zhǔn)確度。
      【專利說明】
      非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明屬于IPTV數(shù)據(jù)分析與處理的技術(shù)領(lǐng)域,具體涉及一種非均衡IPTV數(shù)據(jù)集下 的用戶報障預(yù)測方法。
      【背景技術(shù)】
      [0002] 伴隨著多媒體通信技術(shù)的迅猛發(fā)展,以寬帶互聯(lián)網(wǎng)為基礎(chǔ)的IPTV(Internet Protocol Television),即交互式網(wǎng)絡(luò)電視,極大便利了普通居民在家中享受交互式、個性 化、自由定制的視頻服務(wù)與增值應(yīng)用服務(wù)。然而在視頻傳輸過程中,傳統(tǒng)的網(wǎng)絡(luò)服務(wù)質(zhì)量 (Quality of Service,QoS)如帶寬、丟包、延遲和抖動發(fā)生惡化時,會在一定程度上影響用 戶的觀看體驗,進(jìn)而引起用戶投訴報障。其中,報障的用戶占整體用戶的比例很小,用戶數(shù) 據(jù)將不可避免成為非均衡數(shù)據(jù)集,且隨著IPTV技術(shù)的日益成熟,非均衡比例將持續(xù)增大。
      [0003] 預(yù)測用戶報障與否是一個典型的二值分類問題。傳統(tǒng)處理該問題的成熟算法包括 支持向量機(jī)(Support Vector Machine,SVM),但SVM的分類性能隨著數(shù)據(jù)不均衡程度增大 而降低。因此需要將不均衡數(shù)據(jù)通過數(shù)據(jù)層面上的算法轉(zhuǎn)換成均衡數(shù)據(jù)集后,再通過SVM分 類器進(jìn)行分類。而傳統(tǒng)數(shù)據(jù)層面上的算法常采用基于歐式距離的過采樣BSMOTE (Borderline-Synthetic Minority Oversampling Technique)算法或米用基于歐式距離 的欠米樣0DR(0ptimization of Decreasing Reduction)算法對數(shù)據(jù)進(jìn)行處理。盡管這些 算法能提高預(yù)測準(zhǔn)確性,但是不可避免因強(qiáng)調(diào)變量的多重相關(guān)性而造成的信息重疊,同時 也無法確保生成的人工樣本點(diǎn)不為噪聲點(diǎn)。
      [0004] 授權(quán)號為CN102254177B、名稱為"一種不均衡數(shù)據(jù)SVM軸承故障檢測方法"的國內(nèi) 發(fā)明提供了一種不均衡數(shù)據(jù)SVM軸承故障檢測方法,其不足之處是(1)算法采用歐式距離容 易受樣本點(diǎn)屬性之間不同量綱的影響;(2)對于BSMOTE算法所生成的雜質(zhì)人工樣本點(diǎn),缺乏 行之有效的去除方法;(3)未充分挖掘SVM算法中核寬度對提升分類準(zhǔn)確性的優(yōu)勢。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的算法易受樣本點(diǎn)屬性之間不同量綱的 影響,缺乏對于雜質(zhì)人工樣本點(diǎn)的行之有效的去除方法以及能未充分挖掘SVM算法中核寬 度對提升分類準(zhǔn)確性的優(yōu)勢等缺陷。
      [0006] 為此,本發(fā)明提出一種非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法。該方法包括如 下步驟:
      [0007] 步驟1:導(dǎo)入IPTV用戶觀看記錄,記錄含有用戶id、指標(biāo)、報障時間等信息,本發(fā)明 方法僅提取其中的數(shù)值型指標(biāo),其變量表示為z;
      [0008] 設(shè)定導(dǎo)入的IPTV用戶總數(shù)為N,總記錄數(shù)為D,其中報障用戶有見個,不報障用戶有 他個,第η個用戶含有Dn(n=l,..,N)條記錄。數(shù)值型指標(biāo)維度均為Q,用z表示數(shù)值型指標(biāo)變 量,分別為以,22, . . ·,zq,每個指標(biāo)~的取值(?,…= O 1 步驟2:對于每個用戶得到平均后的記錄gn(n=l,...,N)具體如下:
      [0011]
      [0010] 計算第η個用戶的Q個指標(biāo)各自的均值%1?
      [0012] 即每個用戶經(jīng)過預(yù)處理后僅剩一條記錄
      且設(shè) 定由N1個少數(shù)類報障用戶組成的數(shù)據(jù)集為Gmin = {gP",g#i},由N2個多數(shù)類不報障用戶組成 的數(shù)據(jù)集,
      ,總用戶組成的數(shù)據(jù)集為G=GminUG maJ。
      [0013] 步驟3:初始化基于馬氏距離ODR算法的平衡值β;
      [0014] 確定平衡值β,若平衡值β取值過小,對多數(shù)類的減少效果不明顯,反之,若平衡值β 取值過大,很可能會誤刪除有價值的多數(shù)類樣本,其取值范圍是〇. .5。
      [0015] 步驟4:采用基于馬氏距離的BSMOTE算法增加人工報障用戶樣本集YbsMte,并確定 BSMOTE算法的平衡值α。接著采用基于馬氏距離的ODR算法減少不報障用戶樣本集Ycidr,實現(xiàn) 均衡數(shù)據(jù)集63111。*(3 +。(]1·;
      [0016] (4-1)采用基于馬氏距離的BSMOTE確定增加的人工報障用戶樣本集Yb_te:
      [0017] (4-H)計算每個報障用戶數(shù)據(jù)81印_與其他用戶數(shù)據(jù)gjeG(g# gl)之間的馬 氏距離d(gi,gj)。
      [0018]
      [0019]其中,Σ^1為總用戶數(shù)據(jù)集G的協(xié)方差矩陣。
      [0020] (4-1-2)根據(jù)d(gi,gj)并采用K最近鄰(K-Nearest Neighbor ,K-NN)算法對第η (η = 1,. .,Ν〇個報障用戶確定其一系列最近鄰樣本集Gn-KNN,并確定所屬的樣本集。
      [0021] 確定K-NN算法中的奇數(shù)心值,判斷報障用戶的最近鄰樣本集中屬于不報障的個 數(shù)。
      [0022] 若滿足__
      則將該報障用戶樣本劃分到Border樣本集GBtirder 中。
      [0023] 若I Gn-K_ n Gmaj I = Φ,則將該報障用戶樣本劃分到Safe樣本集Gsafe中。
      [0024] 若|Gn-K_nGmaj I =K1,則將該報障用戶樣本劃分到Noise樣本集GNtlise中。
      [0025] 其中Gn-KNN表示在第η個報障用戶樣本點(diǎn)周圍的Ki個樣本點(diǎn),有G"_£ViV <= G。
      [0026] (4-1-3)統(tǒng)計81)(81)£68???〇在61^11中的隨機(jī)1(2近鄰樣本集 |^11;11-£2??,,并計算81)與 Spk ^-Spk e Gmim2AlV)的屬性差hpk。
      [0027] 統(tǒng)計68。^={81,..&,...撕}中的每個報障用戶樣本81)在樣本集(^中的隨機(jī)1(2 個最近鄰= {Αι,···,^,···4Λ},其中P為Border樣本集里的總數(shù)。計算樣本gPk與該 報障用戶樣本gP之間的全部屬性的差值hPk:
      [0028] hpk = gp-gpk, (p = I, . . . ,P;k= I, . . . ,K2)
      [0029] (4-1 -4)對8[) (gP e GBtirder)都生成人工報障樣本集Yp。
      [0030] 若gpkGGNoise或gpkGGsafe,3|3么111)1{乘上一個隨機(jī)數(shù)rpk G ( 〇,〇 · 5 )。若gpk G GBorder,那 么hpk乘上一個隨機(jī)數(shù)rpke (Ο,I),則為每個gp生成的人工樣本ypk:
      [0031]
      [0032] 最后生成的人工報障用戶樣本集為:I - iJVydVdb -1"··,#) D.
      [0033] (4-1-5)重復(fù)步驟(4-1-3)、(4-1-4),計算GBtirder中每個報障用戶的新增樣本集4 (P = 1,...,P),確定BSMOTE算法的平衡值α,直至生成的Ybsmcite= (Y1,...,ΥΡ}中包含的新增 報障樣本總數(shù)大于等于(1-β)Ν2_Νι。
      [0034] 其中平衡值α取大于等弓
      的最小整數(shù)值。
      [0035] (4-2)采用基于馬氏距離的ODR確定減少的不報障用戶樣本集Ycidr:
      [0036] (4-2-1)計算每個不報障用戶數(shù)據(jù)gm(gmeG響)與其他不報障用戶數(shù) 辛gm)之間的馬氏距離d(gm,gl)。
      [0037] (4-2-2)根據(jù)d(gm,gl)計算出Gmaj中每個樣本gm的關(guān)聯(lián)集
      O
      [0038] 定義關(guān)聯(lián)集Cm是指Gmaj中除gm的其他樣本的K3個最近鄰中含有g(shù)m的樣本集。用gmn表 示樣本點(diǎn)gn( gn £ Gmaj )的K3個最近鄰包含gm樣本點(diǎn),則若干個gmn組成的樣本集U就是gm樣本 點(diǎn)的關(guān)聯(lián)集。
      [0039] ( 4-2-3 )根據(jù)有無 gm對gmn( gmn e Cm)的K4-NN算法判斷準(zhǔn)確性的影響,對gm分類。
      [0040] 確定奇數(shù)K4。計算有g(shù)m時,K4-NN算法對gmn(gmneCm)分類正確的個數(shù)Num p。再計算無 gm時,KrNN對gmn( gmn e Cm)分類正確的個數(shù)Numn。-P,比較Nump和Numn。-P大小,按照如下準(zhǔn)則將 gm分類:
      [0041 ] 滿足NumP<Numn。-p時,說明gm起負(fù)作用并劃分到Noise樣本集SNoise中。
      [0042] 滿足NumP = Numn〇-P時,說明gm可有可無并劃分到Safe樣本集Ssafe中。
      [0043] 滿足Nump彡Numno-p時,說明gm有用并劃分到Save樣本集Ss ave中。
      [0044] (4-2-4)優(yōu)先刪除SNtllse,其次刪除Ssafe中的樣本,直至不報障樣本集滿足條件,最 終輸出處理后的全部數(shù)據(jù)集Gsmote+odr。
      [0045] 定義Yodr為所刪除的不報障樣本點(diǎn)集合,刪除的樣本點(diǎn)優(yōu)先取自SNcllse3,其次為 SSaf(3。刪除的Yodr總個數(shù)大于等于_2,即處理后的不報障樣本集{G^-Yodr}總個數(shù)小于等于 α-β)Ν2〇
      [0046] 經(jīng)過馬氏距離的ODR和BSMOTE算法后,全部數(shù)據(jù)集G_te+Cldr為:
      [0047]
      [0048]步驟5:使用TOMEK算法對數(shù)據(jù)集G_te+Cldr進(jìn)行數(shù)據(jù)清洗,得到清洗后的數(shù)據(jù) Gsmote+odr+tomek;
      [0049] (5-1)初始化 6_^+。<1付?!?集合。
      [0050] (5-2)隨機(jī)從GSMte+cldr中抽取出樣本點(diǎn)gi,并在GSMte+cldr中尋找與之最近鄰的點(diǎn)gj (gj^gi)〇
      [0051 ] (5-3)在Gsmote+odr中尋找與gj最近鄰的點(diǎn)gk(gk辛gj)。
      [0052] (5-4)判斷81==81<是否成立,若成立則繼續(xù)執(zhí)行(5-5),否則令81 = 8」舊=81{,然 后跳轉(zhuǎn)到步驟(5-3)。
      [0053] (5-5)判斷g_gk對應(yīng)用戶類另Ij(報障或不報障)是否一致。若一致,則將這兩個樣 本點(diǎn)保存至樣本集6_^ +。&4。_1<,然后從6_*(3+。(^中刪除這兩個樣本點(diǎn)。若類別不一致,則直 接從G_te +C1dr中刪除這兩個樣本點(diǎn)。
      [0054] (5-6)判斷樣本集G_te+C1dr中的個數(shù)是否為大于0的偶數(shù)。若為偶數(shù)則重復(fù)步驟(5-2),否則結(jié)束退出。
      [0055] 步驟6:將G_te+cldr+t_k中的數(shù)據(jù)帶入到SVM分類器中訓(xùn)練,并用粗細(xì)步長結(jié)合以自 適應(yīng)調(diào)整SVM分類器的核寬度〇,尋找近似最優(yōu)全局點(diǎn),并確定對應(yīng)的OciptimaI;
      [0056] (6-1)確定SVM分類器的核函數(shù)為高斯核函數(shù)e :
      [0057]
      [0058] 其中
      ?x的均值,〇為高斯核寬度。
      [0059] (6-2)確定模型準(zhǔn)確評判準(zhǔn)則幾何平均值6-1116311和?-1116381^6:
      [0060] 根據(jù)分類樣本集的混淆矩陣
      [0061 ] 用戶報障召回率Recall_Min、用戶報障查準(zhǔn)率Precision_Min、用戶不報障召回率 1^0&11_]\&〇、幾何平均值6-1116311和?-1116381^6數(shù)學(xué)表達(dá)式分別如下:
      [0062]
      [0063]
      [0064]
      [0065] G-mean是保持用戶報障、用戶不報障分類精度平衡的情況下最大化它們的精度, 也就是說只有當(dāng)Recal l_Min和Recal l_Maj同時都高的時候,Giean的值才是最大。F-measure指標(biāo)是一種綜合考慮查全率和查準(zhǔn)率的分類評價指標(biāo)。F-measure能綜合體現(xiàn)出分 類器對用戶報障和用戶不報障的分類效果,但更加側(cè)重于用戶報障樣本的分類效果。
      [0066] (6-3)初始化SVM分類器懲罰因子C、核寬度σ、核寬度最大值〇max,粗步長,然后進(jìn)入 SVM分類器運(yùn)算,獲得G-mean和F-measure最佳局部點(diǎn)。
      [0067] 以粗步長改變〇,在每一次獲得更佳的SVM分類結(jié)果后,更細(xì)最佳局部點(diǎn),直至滿足 σ > 〇max后結(jié)束。此時,選擇其中最佳的局部點(diǎn)。
      [0068] (6-4)從最佳的局部點(diǎn)的左側(cè),以細(xì)步長自適應(yīng)改變核寬度〇,當(dāng)G-mean和F-measure成為近似最優(yōu)全局點(diǎn)時,獲得所對應(yīng)的近似最優(yōu)核寬度 〇ciptimai,并輸出分類結(jié)果。
      [0069] 步驟7:將待預(yù)測的IPTV用戶數(shù)據(jù),輸入到訓(xùn)練好的SVM的檢測器中,預(yù)測用戶報障 與否,實現(xiàn)對IPTV報障用戶的預(yù)警。
      [0070] 進(jìn)一步,上述步驟1中,所述數(shù)值型指標(biāo)是從記錄含有用戶id、指標(biāo)、報障時間信息 中提取的數(shù)值型指標(biāo)。
      [0071] 進(jìn)一步,步驟3中,平衡值邱勺取值范圍是0.2<β<0.5。
      [0072] 進(jìn)一步,步驟6-2中的分類樣本集的混淆矩陣為:
      [0074]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
      [0075] 本發(fā)明中所采用的改進(jìn)BSMOTE和ODR算法均基于馬氏距離,不僅避免變量的多重 相關(guān)性所帶來的信息重疊,還不受樣本點(diǎn)屬性之間不同量綱的影響,從而獲得更佳的樣本 數(shù)據(jù)改造效果。
      [0076] 本發(fā)明中所采用的BSMOTE、ODR算法和數(shù)據(jù)清洗TOMEK算法,一方面削弱噪聲點(diǎn)和 冗余點(diǎn)對報障預(yù)測的干擾,另一方面加強(qiáng)少數(shù)有效樣本點(diǎn)對正確分類的貢獻(xiàn)。同時再清除 BSMOTE算法生成在SVM分類邊界上難以區(qū)分判斷的雜質(zhì)點(diǎn),大幅度提高了分類器預(yù)測準(zhǔn)確 度。
      [0077] 本發(fā)明中所采用的粗細(xì)步長結(jié)合以自適應(yīng)調(diào)整SVM分類器核寬度〇的算法,僅以很 小的σ精度損失為代價,就能顯著改善預(yù)測的準(zhǔn)確性,同時還能保證該算法具備高運(yùn)行效 率。
      【附圖說明】
      [0078] 圖1為本發(fā)明的非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法的流程圖。
      [0079] 圖2為本發(fā)明涉及的自適應(yīng)變核寬度SVM的流程圖。
      [0080] 圖3為本發(fā)明實施例中標(biāo)準(zhǔn)SVM和傳統(tǒng)0DR-BSM0TE-SVM的報障預(yù)測結(jié)果示意圖。
      [0081] 圖4為本發(fā)明實施例中改進(jìn)算法的報障預(yù)測結(jié)果示意圖。
      【具體實施方式】
      [0082] 下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
      [0083] 為了更好地說明本發(fā)明涉及的非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,將其應(yīng) 用于IPTV報障的預(yù)警中。本發(fā)明所使用的訓(xùn)練和測試數(shù)據(jù)來源于江蘇電信全省IPTV用戶的 數(shù)據(jù),這里有439050個用戶數(shù)據(jù),涉及4723101條觀看記錄,其中包含4871位報障用戶,涉及 48172條觀看記錄。此外,還有434179位不報障用戶,涉及4674929條觀看記錄,少數(shù)類和多 數(shù)類的不平衡比例高達(dá)1:89。每個用戶觀看記錄的數(shù)值型指標(biāo)維度為10,同時在本例中取 K1 = K3 = K4 = Sj2 = S,初始平衡值 β = 0.3,懲罰因子 C= 1000。
      [0084] 按照
      【發(fā)明內(nèi)容】
      (如圖1所示)的流程,開始報障用戶預(yù)測。
      [0085] 步驟1:導(dǎo)入IPTV用戶觀看記錄,記錄含有用戶id、指標(biāo)、報障時間等信息,本發(fā)明 方法僅提取其中的數(shù)值型指標(biāo),其變量表示為z;
      [0086] 在本例中,導(dǎo)入的IPTV用戶總數(shù)N = 439050,總記錄數(shù)為D = 4723101,其中報障用 戶有^ = 4871,不報障用戶有N2 = 434179,第η個用戶含有Dn(n=l,. .,439050)條記錄,數(shù)值 型指標(biāo)維度均為Q=l〇,用Z表示數(shù)值型指標(biāo)變量,分別為Z1,Z2, . . .,Z1〇,每個指標(biāo)Zq的取值
      [0087] 步驟2:對于每個用戶得到平均后的記錄gn(n=l,...,N)具體如下:
      [0088] 計算第η個用戶的Q個指標(biāo)各自的均值Zfw :
      [0089]
      [0090] 每個用戶經(jīng)過預(yù)處理后僅剩一條』
      〗錄,且 設(shè)定由^ = 4871個少數(shù)類報障用戶組成的數(shù)據(jù)集為^11:={容1""名《1},由吣=434179個多數(shù) 類不報障用戶組成的數(shù)據(jù)集為^胃· = ,總用戶組成的數(shù)據(jù)集為G=GminUGmajt3
      [0091 ]步驟3:初始化基于馬氏距離ODR算法的平衡值β = 0.3;
      [0092]步驟4:采用基于馬氏距離的BSMOTE算法增加人工報障用戶樣本集YbsMte,并確定 BSMOTE算法的平衡值α。接著采用基于馬氏距離的ODR算法減少不報障用戶樣本集Ycidr,實現(xiàn) 均衡數(shù)據(jù)集63111。*(3 +。(]1·;
      [0093] (4-1)采用基于馬氏距離的BSMOTE確定增加的人工報障用戶樣本集Yb_ te:
      [0094] (4-1-1)計算每個報障用戶數(shù)據(jù)81^議與其他用戶數(shù)據(jù)gjeG(g# gl)之間的馬 氏距離. Pik
      [0095]
      [0096] 其中,Σ^1為總用戶數(shù)據(jù)集G的協(xié)方差矩陣。
      [0097] (4-1-2)根據(jù)d(gi,gj)并采用K最近鄰(K-Nearest Neighbor ,K-NN)算法對第η (η = 1,. .,Ν〇個報障用戶確定其一系列最近鄰樣本集Gn-KNN,并確定所屬的樣本集。
      [0098] 確定K-NN算法中的奇數(shù)K1 = 5值,判斷報障用戶的最近鄰樣本集中屬于不報障的 個數(shù)。
      [0099] 若滿萬 則將該報障用戶樣本劃分到Border樣本集GB tirder中。 5
      [0100] 若I Gn-K_ n Gmaj I = Φ,則將該報障用戶樣本劃分到Safe樣本集Gsafe中。
      [0101 ] 若I Gn-KNN Π Gmaj I =5,則將該報障用戶樣本劃分到Noise樣本集GNoise中。
      [0102] ( 4-1-3 )統(tǒng)計gp ( gp e GBorder )在Gmin中的隨機(jī)K2 = 3近鄰樣本集Gmin-Ayw ,并計算gp與 eGmin-Α:Λ?)的屬性差 hpk。
      [0103] 統(tǒng)計68。士={81,..&,...撕}中的每個報障用戶樣本81)在樣本集(^中的隨機(jī)1(2 個最近鄰-pw = te w ·,··,。計算樣本gpk與該報障用戶樣本gp之間的全部屬性 的差值hpk:
      [0104] hpk = gp-gpk, (p = I, . . . ,P;k= I, . . . ,K2)
      [0105] (4-1 -4)對8[) (gP e GBtirder)都生成人工報障樣本集Yp。
      [0106] 若gpkGGNoise或gpkGGsafe,3|3么111)1{乘上一個隨機(jī)數(shù)rpk G ( 〇,〇 · 5 )。若gpk G GBorder,那 么hpk乘上一個隨機(jī)數(shù)rpke (〇,1),則為每個gp生成的人工樣本ypk:
      [0107] ypk = gk+|rPkXhPkl,(p=l,...,P;k=l,...,K2)
      [0108] 最后生成的人工報障用戶樣本集為= =
      [0109] (4-1-5)重復(fù)步驟(4-1-3)、(4-1-4),計算GBcirder中每個報障用戶的新增樣本集4 (P = 1,...,P),確定BSMOTE算法的平衡值α,直至生成的Ybsmcite= (Y1,...,ΥΡ}中包含的新增 報障樣本總數(shù)大于等于(1-β)Ν2-Νι = 299054。 299054
      [0110]其中平衡值α取大于等于一Γ^的最小整數(shù)值。 ixP
      [0111] (4-2)采用基于馬氏距離的ODR確定減少的不報障用戶樣本集Ycidr:
      [0112] (4-2-1)計算每個不報障用戶數(shù)據(jù)gm(gmeG響)與其他不報障用戶數(shù) 辛gm)之間的馬氏距離d(gm,gl)。
      [0113] ( 4 - 2 - 2 )根據(jù)d ( g m,g 1 )計算出G m a j中每個樣本g m的關(guān)聯(lián)集 〔.抝-成,;"'.",襲圓:".",.容顧-}("脈(二43.4179)、
      [0114] (4-2-3)根據(jù)有無 g4gmn( gmn e Cm)的K4-NN算法判斷準(zhǔn)確性的影響,對gm分類。
      [01 1 5] 確定奇數(shù)K4= 5。計算有g(shù)m時,K4-NN算法對gmn( gmn e Cm)分類正確的個數(shù)Nump。再計 算無 gm時,KrNN對gmn(gmne Cm)分類正確的個數(shù)Numn。-p,比較Nump和Numn。-p大小,按照如下準(zhǔn) 則將gm分類:
      [0116] 滿足NumP<Numn。-p時,說明gm起負(fù)作用并劃分到Noise樣本集SNoise中。
      [0117] 滿足NumP = Numn〇-P時,說明gm可有可無并劃分到Safe樣本集Ssafe中。
      [0118] 滿足Nump彡Numntj-P時,說明gm有用并劃分到Save樣本集Ss ave中。
      [0119] (4-2-4)優(yōu)先刪除SNcilse,其次刪除Ssafe中的樣本,直至不報障樣本集滿足條件,最 終輸出處理后地全部數(shù)據(jù)集Gsmote+odr。
      [0120] 定義Ycidr為所刪除的不報障樣本點(diǎn)集合,刪除的樣本點(diǎn)優(yōu)先取自SNcllse3,其次為 ssafe。刪除的Yodr總個數(shù)大于等于m2 = 130254,即處理后的不報障樣本集{G^j-Yodr}總個數(shù) 小于等于(1-β)Ν2 = 303925。
      [0121] 經(jīng)過馬氏距離的ODR和BSMOTE算法后,全部數(shù)據(jù)集G_te+Cldr為:
      [01 22] Gsmote+odr - {Gmaj_Yodr } + {Gmin+Ybsmote }
      [0123]步驟5:使用TOMEK算法對數(shù)據(jù)集Gsmcite^dr進(jìn)行數(shù)據(jù)清洗,得到清洗后的數(shù)據(jù) Gsmote+odr+tomek;
      [01 24] ( 5_1 )初始化63111。16 +。(^+1;。11161{集合。
      [0125] ( 5-2 )隨機(jī)從Gsmote+odr中抽取出樣本點(diǎn)gi,并在Gsmote+odr中尋找與之最近鄰的點(diǎn)gj (gj^gi)o
      [01 26] ( 5-3 )在Gsmote+odr中尋找與gj最近鄰的點(diǎn)gk(gk辛gj )。
      [0127] (5-4)判斷81==81<是否成立,若成立則繼續(xù)執(zhí)行(5-5),否則令81 = 8」舊=81{,然 后跳轉(zhuǎn)到步驟(5-3)。
      [0128] (5-5)判斷gjPgk對應(yīng)用戶類別(報障或不報障)是否一致。若一致,則將這兩個樣 本點(diǎn)保存至樣本集6_^ +。&4。_1<,然后從6_*(3+。(^中刪除這兩個樣本點(diǎn)。若類別不一致,則直 接從G_te +C1dr中刪除這兩個樣本點(diǎn)。
      [0129] (5-6)判斷樣本集G_te+C1dr中的個數(shù)是否為大于0的偶數(shù)。若為偶數(shù)則重復(fù)步驟(5- 2),否則結(jié)束退出。
      [0130] 步驟6:將G_te+cldr+t_k中的數(shù)據(jù)帶入到SVM分類器中訓(xùn)練,并用粗細(xì)步長結(jié)合以自 適應(yīng)調(diào)整SVM分類器的核寬度〇,尋找近似最優(yōu)全局點(diǎn),并確定對應(yīng)的OciptimaI;
      [0131 ] (6-1)確定S觀分類器的核函數(shù)為高斯核函數(shù)AXgv, A),(g、. e G\,,,,,,e+adr+toffiA):
      [0132]
      [0133] (6_2)確定模型準(zhǔn)確評判準(zhǔn)則幾何平均值G-mear^PF-measure。
      [0134] (6-3)初始化SVM分類器懲罰因子C、核寬度σ、核寬度最大值〇max,粗步長,然后進(jìn)入 SVM分類器運(yùn)算,獲得G-mean和F-measure最佳局部點(diǎn)。
      [0135] 初始化SVM分類器懲罰因子C= 1000,核寬度σ = 〇. I,〇max= 2,粗步長為0.1。現(xiàn)以粗 步長改變〇,在每一次獲得更佳的SVM分類結(jié)果后,更新最佳局部點(diǎn),直至滿足〇>2后結(jié)束, 并獲得G-mean和F-measure最優(yōu)局部點(diǎn)。。
      [0136] (6-4)從最佳的局部點(diǎn)的左側(cè),以細(xì)步長自適應(yīng)改變核寬度〇,當(dāng)G-mean和F-measure成為近似最優(yōu)全局點(diǎn)時,獲得所對應(yīng)的近似最優(yōu)核寬度 〇ciptimai,并輸出分類結(jié)果。
      [0137] 如圖2流程圖所示,確定細(xì)步長為0.01后,從本發(fā)明方法獲得最佳局部點(diǎn)〇 = 0.2的 左側(cè)開始改變〇,最終得到近似最優(yōu)全局點(diǎn)及所對應(yīng)的σ〇Ρ-ι = 0.21。
      [0138] 步驟7:將待預(yù)測的IPTV用戶數(shù)據(jù),輸入到訓(xùn)練好的SVM的檢測器中,預(yù)測用戶報障 與否,實現(xiàn)對IPTV報障用戶的預(yù)警。
      [0139] 性能評價
      [0140] 將采用本發(fā)明所涉及的預(yù)測方法所得到的結(jié)果與正確的類別結(jié)果進(jìn)行比較,從而 可以評價和衡量本發(fā)明所涉及的方法的有效性和準(zhǔn)確性。從圖3的(a)和(b)中可以看出標(biāo) 準(zhǔn)SVM算法得到的最佳點(diǎn)將會在核寬度σ = 0.3附近。此時的報障與不報障的召回率大約在 65 %左右,但G-mean和F-measure的值普遍都很低,均在0.1以下。從圖3的(c)和(d)中可以 看出傳統(tǒng)0DR-BSM0TE-SVM算法的分類效果較標(biāo)準(zhǔn)SVM有所提高,且高斯核寬度σ在0.2以前, 是能獲得較好的G-mean和F-measure。而從圖4的(a)和(b)中可以看出本發(fā)明方法分類效果 明顯優(yōu)于前兩個算法,且高斯核寬度〇在〇. 2以前,是能獲得很好的G-mean和F-measure。從 圖4的(a)和(b)中可以看出本發(fā)明方法經(jīng)過細(xì)步長后,能確定核寬度σ在0.21處可得到近似 最優(yōu)分類效果。標(biāo)準(zhǔn)SVM、傳統(tǒng)0DR-BSM0TE-SVM和本發(fā)明方法測得的用戶報障召回率依次 為:64.0%、71.7%、92.6%,用戶不報障召回率分別為:69.04%、71.78%、93.08%。因此, 采用本發(fā)明方法能獲得更佳的預(yù)測性能。
      [0141]需要說明的是,以上所述并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所 作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【主權(quán)項】
      1.非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,其特征在于包含以下步驟: 步驟1:導(dǎo)入IPTV用戶觀看記錄,提取數(shù)值型指標(biāo),其變量表示為Ζ; 設(shè)定導(dǎo)入的IPTV用戶總數(shù)為Ν,總記錄數(shù)為D,其中報障用戶有他個,不報障用戶有他個, 第η個用戶含有Dn(n=l,..,N)條記錄;數(shù)值型指標(biāo)維度均為Q,用ζ表示數(shù)值型指標(biāo)變量,分 力 lj 為 Zl,Z2,· · ·,ZQ,母個f 曰標(biāo)Zq 的取值 步驟2:對于每個用戶得到平均后的記錄gn(n=l,. . .,Ν)具體如下: 計算第η個用戶的Q個指標(biāo)各自的均值^ :即每個用戶經(jīng)過預(yù)處理后僅剩一條記錄=1,..,Λ〇 ,且設(shè)定由Nl 個少數(shù)類報障用戶組成的數(shù)據(jù)集為^={知··,^】,由仏個多數(shù)類不報障用戶組成的數(shù)據(jù) 集為Gma/ ,總用戶組成的數(shù)據(jù)集為G=G minUGmaj; 步驟3:初始化基于馬氏距離ODR算法的平衡值β; 步驟4:采用基于馬氏距離的BSMOTE算法增加人工報障用戶樣本集Ybsmcite,并確定 BSMOTE算法的平衡值α;接著采用基于馬氏距離的ODR算法減少不報障用戶樣本集Yodr,實現(xiàn) 均衡數(shù)據(jù)集63111。*(3 +。(]1·; (4-1)采用基于馬氏距離的BSMOTE確定增加的人工報障用戶樣本集Yb_te: (4-H)計算每個報障用戶數(shù)據(jù)81郎證與其他用戶數(shù)據(jù)gjeG(g#gl)之間的馬氏距離 d(gi,gj);其中,為總用戶數(shù)據(jù)集G的協(xié)方差矩陣; (4-1 -2)根據(jù)d (gi,gj)并采用Κ-ΝΝ算法對第η (η = 1,..,他)個報障用戶確定其一系列最 近鄰樣本集Gn-KNN,并確定所屬的樣本集; 確定K-NN算法中的奇數(shù)心值,判斷報障用戶的最近鄰樣本集中屬于不報障的個數(shù);,則將該報障用戶樣本劃分到Border樣本集GBcird CT*; 若|Gn-KNNHGmaj | = Φ,則將該報障用戶樣本劃分到Safe樣本集Gsafe中; 若| Gn-KNNHGmaj I =Kl,則將該報障用戶樣本劃分到Noise樣本集GNoise中; (4-1-3)統(tǒng)計81^1)£6[3。1^1〇在61^11中的隨機(jī)1(2近鄰樣本集 (^1111_^5¥,并計算81)與 e Gmin-私維)的屬性差hpk; 統(tǒng)計GBorderMgl,. .,gp, . . .,gp}中的每個報障用戶樣本gp在樣本集Gmin中的隨機(jī)K2個最 近鄰Gmm-…,心*,…,l·其中P為Border樣本集里的總數(shù);計算樣本gpk與該報障 用戶樣本辦之間的全部屬性的差值h pk: hpk=gp-gpk, (p=l,. . . ,P;k=l,. . . ,K2) (4-1-4MgP(gPeGBcirder)都生成人工報障樣本集Y P; 若gpkGGNoise或gpkGGsafe,那么hpk乘上一個隨機(jī)數(shù)rpk G ( 〇,〇 · 5 );若gpk G GBorder,那么hpk 乘上一個隨機(jī)數(shù)rpke (〇,l),則為每個gp生成的人工樣本ypk: yPk=gk+1 rPkXhpk I , (p = 1,... ,P;k= 1,... ,K2) 最后生成的人工報障用戶樣本集為:= {.Vw,…,= 1,…; (4-1-5)重復(fù)步驟(4-1-3)、(4-1-4),計算GBorder中每個報障用戶的新增樣本集4(?= 1,. . .,P),確定BSM0TE算法的平衡值α,直至生成的YbsMte= {Y1; . . .,ΥΡ}中包含的新增報障 樣本總數(shù)大于等于(1-β)Ν2_Νι;(4-2)采用基于馬氏距離的0DR確定減少的不報障用戶樣本集Υ_: (4-2-1)計算每個不報障用戶數(shù)據(jù)gm(gmeG?。┡c其他不報障用戶數(shù) gm)之間的馬氏距離d(gm,gl); (4-2-2)根據(jù)d(gm,gi)計算出Gmaj中每個樣本gm的關(guān)聯(lián)集 C m - {Sml("mix < ^2 ). 定義關(guān)聯(lián)集Cm是指中除gm的其他樣本的K3個最近鄰中含有8"的樣本集; (4-2-3 )根據(jù)有無 gm對gmn( gmn e Cm)的Κ4-ΝΝ算法判斷準(zhǔn)確性的影響,對gm分類; 確定奇數(shù)K4;計算有g(shù)m時,K4-NN算法對gmn(gmneCm)分類正確的個數(shù)Nump;再計算無 gm時, K4-NN對gmn(gmne Cm)分類正確的個數(shù)Numn。-p,比較NumP和Numn。-p大小,按照如下準(zhǔn)則將gm分 類: 滿足NumP < NunwP時,說明gm起負(fù)作用并劃分到No i s e樣本集SNoise中; 滿足NumP = Numno-p時,說明gm可有可無并劃分到Saf e樣本集Ssaf e中; 滿足NumP彡Numno-p時,說明gm有用并劃分到Save樣本集Ssave3中; (4-2-4)優(yōu)先刪除SNcilse,其次刪除SSafe中的樣本,直至不報障樣本集滿足條件,最終輸 出處理后的全部數(shù)據(jù)集Gsmote+odr; 定義Yodr為所刪除的不報障樣本點(diǎn)集合,刪除的樣本點(diǎn)優(yōu)先取自SNci1s(3,其次為SSaf(3;刪 除的Yodr總個數(shù)大于等于_,即處理后的不報障樣本集{G^-Yodr}總個數(shù)小于等于(1_β)Ν2; 經(jīng)過馬氏距離的0DR和BSM0TE算法后,全部數(shù)據(jù)集G_ te+Cldr為: Gsmote+odr - {Gmaj_Yodr } + {Gmin+Ybsmote } 步驟5:使用T0MEK算法對數(shù)據(jù)集Gsmcite3 + cldr進(jìn)行數(shù)據(jù)清洗,得到清洗后的數(shù)據(jù) Gsmote+odr+tomek; (5_1)初始化63111。16+。(^+1;。11161{集合; (5-2 )隨機(jī)從Gsmote + odr中抽取出樣本點(diǎn)gi,并在Gsmote+odr中尋找與之最近鄰的點(diǎn)gj ( gj辛 gi); (5_3 )在Gsmote+odr中尋找與gj取近鄰的點(diǎn)gk( gk# gj ); (5-4)判斷81==81<是否成立,若成立則繼續(xù)執(zhí)行(5-5),否則令81 = 8」舊=81{,然后跳 轉(zhuǎn)到步驟(5-3); (5-5)判斷gjPgk對應(yīng)用戶類別(報障或不報障)是否一致;若一致,則將這兩個樣本點(diǎn) 保存至樣本集6_^+。&4。_1<,然后從6_^。(^中刪除這兩個樣本點(diǎn);若類別不一致,則直接從 G_te+C1dr中刪除這兩個樣本點(diǎn); (5-6)判斷樣本集G_te+C1dr中的個數(shù)是否為大于0的偶數(shù);若為偶數(shù)則重復(fù)步驟(5-2), 否則結(jié)束退出; 步驟6:將6_*(3+。_?!?中的數(shù)據(jù)帶入到3¥1分類器中訓(xùn)練,并用粗細(xì)步長結(jié)合以自適應(yīng) 調(diào)整SVM分類器的核寬度〇,尋找近似最優(yōu)全局點(diǎn),并確定對應(yīng)的〇ciptimai; (6-1)確定SVM分類器的核函數(shù)為高斯核函數(shù)義(仏.e ^$tnutc+0iir-Homek ^ *其中g(shù)x E Gsmote+odr+tomek,容# Agx的均值,〇為尚斯核寬度; (6 -2)確定模型準(zhǔn)確評判準(zhǔn)則幾何平均值G_me an和F_me a sur e: 根據(jù)分類樣本集的混淆矩陣,用戶報障召回率Recall_Min、用戶報障查準(zhǔn)率 Preci s ion_Min、用戶不報障召回率Recal l_Ma j、幾何平均值G-mean和F-measure數(shù)學(xué)表達(dá) 式分別如下:(6-3)初始化SVM分類器懲罰因子C、核寬度σ、核寬度最大值〇max,粗步長,然后進(jìn)入SVM 分類器運(yùn)算,獲得G-mean和F-measure最佳局部點(diǎn); 以粗步長改變〇,在每一次獲得更佳的SVM分類結(jié)果后,更細(xì)最佳局部點(diǎn),直至滿足〇> 〇max后結(jié)束;此時,選擇其中最佳的局部點(diǎn); (6-4)從最佳的局部點(diǎn)的左側(cè),以細(xì)步長自適應(yīng)改變核寬度〇,當(dāng)G-mean和F-measure成 為近似最優(yōu)全局點(diǎn)時,獲得所對應(yīng)的近似最優(yōu)核寬度〇c>ptlmal,并輸出分類結(jié)果; 步驟7:將待預(yù)測的IPTV用戶數(shù)據(jù),輸入到訓(xùn)練好的SVM的檢測器中,預(yù)測用戶報障與 否,實現(xiàn)對IPTV報障用戶的預(yù)警。2. 根據(jù)權(quán)利要求1所述的非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,其特征在于步驟1 中,所述數(shù)值型指標(biāo)是從記錄含有用戶id、指標(biāo)、報障時間信息中提取的數(shù)值型指標(biāo)。3. 根據(jù)權(quán)利要求1所述的非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,其特征在于步驟3 中,平衡值β的取值范圍是0.2彡β彡0.5。4. 根據(jù)權(quán)利要求1所述的非均衡IPTV數(shù)據(jù)集下的用戶報障預(yù)測方法,其特征在于步驟 6-2中所述分類樣本集的混淆矩陣為:
      【文檔編號】G06K9/62GK106056160SQ201610392603
      【公開日】2016年10月26日
      【申請日】2016年6月6日
      【發(fā)明人】周亮, 吳志峰, 黃若塵, 魏昕
      【申請人】南京郵電大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1