本發(fā)明涉及通訊單社區(qū)發(fā)現(xiàn)技術(shù)領(lǐng)域,特別涉及一種基于通信時(shí)空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)。
背景技術(shù):
當(dāng)今社會(huì)正處于數(shù)據(jù)爆發(fā)式增長的大數(shù)據(jù)時(shí)代。人們?cè)谏缃幻襟w上以一種前所未有的速度交流、分享、聯(lián)絡(luò)、互動(dòng),同時(shí)產(chǎn)生極具規(guī)模的數(shù)據(jù)。電話、短信這種傳統(tǒng)社交媒體在當(dāng)今時(shí)代依舊起著溝通聯(lián)絡(luò)的主導(dǎo)地位。
社交媒體的發(fā)展產(chǎn)生了大量的數(shù)據(jù),對(duì)于社會(huì)科學(xué)、商業(yè)發(fā)展、人類進(jìn)步帶來了巨大潛力,社交媒體挖掘就是一種伴隨著社交媒體高速發(fā)展的新型研究領(lǐng)域,它是一種社會(huì)學(xué)與計(jì)算科學(xué)的交叉研究型學(xué)科,經(jīng)常使用或綜合研究多個(gè)領(lǐng)域如統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、社會(huì)心理學(xué)等。
社區(qū)也稱為群組(group)、集群(cluster)等,直觀上,是指網(wǎng)絡(luò)中的一些密集群體,每個(gè)社區(qū)內(nèi)部的結(jié)點(diǎn)間的聯(lián)系相對(duì)緊密,它在社會(huì)學(xué)領(lǐng)域中已經(jīng)被廣泛、深入的研究。社區(qū)發(fā)現(xiàn)主要針對(duì)與顯示社區(qū)相對(duì)的隱式社區(qū)挖掘。本發(fā)明主要針對(duì)于,傳統(tǒng)通信媒體網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn),傳統(tǒng)社區(qū)發(fā)現(xiàn)聚類算法主要有如下幾類:
現(xiàn)有方法一:層次聚類,假設(shè)社區(qū)是存在層次結(jié)構(gòu),計(jì)算網(wǎng)絡(luò)中每對(duì)節(jié)點(diǎn)的相似程度,根據(jù)相似程度進(jìn)行進(jìn)一步劃分,主要有如下兩種劃分方法:凝聚法,根據(jù)節(jié)點(diǎn)對(duì)的相似度從強(qiáng)到弱進(jìn)行連接,形成樹狀圖,然后根據(jù)需求對(duì)樹狀圖進(jìn)行橫切,最終獲得社區(qū)結(jié)構(gòu);分裂法,依照得出的相似度,找出節(jié)點(diǎn)對(duì)中相互關(guān)聯(lián)最弱的節(jié)點(diǎn),刪除他們之間的邊,反復(fù)操作將社交網(wǎng)絡(luò)劃分為越來越小的組件,最終連通的網(wǎng)絡(luò)構(gòu)成社區(qū)。
現(xiàn)有方法二:劃分聚類,劃分聚類就是典型的機(jī)器學(xué)習(xí)中無監(jiān)督學(xué)習(xí)的聚類方法,該種聚類方法很多,k-means算法是最為經(jīng)典的基于劃分的聚類方法,該方法是將數(shù)據(jù)依照不同特征標(biāo)準(zhǔn)化后計(jì)算相應(yīng)的距離,往往使用歐式距離進(jìn)行計(jì)算,初始以空間中隨機(jī)k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類,通過迭代的方法,逐次更新各聚類中心,直至得到最好的聚類結(jié)果;
現(xiàn)有方法三:譜聚類,建立在譜圖理論基礎(chǔ)上,根據(jù)給定的樣本數(shù)據(jù)集定義一個(gè)描述成對(duì)數(shù)據(jù)點(diǎn)相似度的拉普拉斯矩陣,并且計(jì)算矩陣的特征值和特征向量,然后選擇合適的特征向量聚類不同的點(diǎn)。其本質(zhì)是將聚類問題轉(zhuǎn)化為圖的最優(yōu)劃分問題,是一種點(diǎn)對(duì)聚類算法。
隨著即時(shí)通信的不斷發(fā)展,演變社交網(wǎng)絡(luò)的研究也越來越引起社交媒體挖掘的研究者的關(guān)注,主要針對(duì)演變網(wǎng)絡(luò)的聚類方法有:
現(xiàn)有方法四:演變聚類算法,chakrabarti在2006年最先提出的演變社交網(wǎng)絡(luò),并提出了一種時(shí)間平滑性框架。時(shí)間平滑性框架的是使任意時(shí)刻聚類表現(xiàn)的盡可能的好,并且使聚類在時(shí)間上具有平滑性。演變聚類算法就是將當(dāng)前時(shí)間的聚類,跟歷史的聚類做比較得出偏差,利用時(shí)間平滑框架中的時(shí)間懲罰因子做計(jì)算,最終得出當(dāng)前時(shí)刻的聚類結(jié)果。
現(xiàn)有方法缺陷:現(xiàn)有方法一,假設(shè)社區(qū)存在層級(jí)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的,傳統(tǒng)通信媒體網(wǎng)絡(luò)往往不具備層次結(jié)構(gòu),從傳統(tǒng)通信媒體網(wǎng)絡(luò)結(jié)構(gòu)考慮,使用現(xiàn)有方法一進(jìn)行社區(qū)發(fā)現(xiàn)不滿足條件?,F(xiàn)有方法二,傳統(tǒng)劃分聚類,應(yīng)用于很多領(lǐng)域,經(jīng)實(shí)踐證明具有較好的實(shí)用效果,但針對(duì)傳統(tǒng)通信媒體網(wǎng)絡(luò)的某些具有在不定時(shí)間、不定地點(diǎn)集會(huì)特征的特殊群體的挖掘方面上,不具備很強(qiáng)的優(yōu)勢(shì),傳統(tǒng)通信媒體網(wǎng)絡(luò)在針對(duì)案發(fā)時(shí)間和地點(diǎn)方面屬于演變的社交網(wǎng)絡(luò),且通訊單中數(shù)據(jù)特征不適合用于表示網(wǎng)絡(luò)中節(jié)點(diǎn)距離,固現(xiàn)有技術(shù)二不滿足本發(fā)明的使用場(chǎng)景?,F(xiàn)有方法三,與其他兩種方法比較具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解的優(yōu)點(diǎn),而且通過計(jì)算得出的拉普拉斯矩陣的特征向量雖然方便用于現(xiàn)有方法二的聚類,但在演變的社交網(wǎng)絡(luò),特別是針對(duì)特殊群體集會(huì)的時(shí)間、地點(diǎn)等因素的演變社交網(wǎng)絡(luò)不滿足條件?,F(xiàn)有方法四,雖考慮了時(shí)間的因素,但卻忽視了集會(huì)地點(diǎn)這個(gè)至關(guān)重要的因素,而且特殊群體集會(huì)時(shí)個(gè)體往往交替出現(xiàn),演變聚類算法在使用時(shí)間代價(jià)的同時(shí)可能將不長出現(xiàn)的個(gè)體排除在聚類外,固現(xiàn)有方法四也不適用于某些會(huì)在不定時(shí)間、地點(diǎn)集會(huì)的特殊群體的挖掘任務(wù)。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明人在進(jìn)行針對(duì)具有不定時(shí)間不定地點(diǎn)集會(huì)特征的特殊群體挖掘研究時(shí),發(fā)現(xiàn)現(xiàn)有方法三的缺陷是由于沒有考慮到針對(duì)特殊群體的集會(huì)時(shí)間和地點(diǎn)等因素的考慮導(dǎo)致的,發(fā)明人經(jīng)過調(diào)查、研究并參考現(xiàn)有方法四演變網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的研究發(fā)現(xiàn),在考慮特殊群體集會(huì)的案發(fā)時(shí)間和地點(diǎn)等因素的基礎(chǔ)上,將演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)變成多個(gè)靜態(tài)網(wǎng)絡(luò),利用現(xiàn)有方法三的拉普拉斯矩陣特征向量和現(xiàn)有方法二的k-means聚類方法將每一個(gè)靜態(tài)網(wǎng)絡(luò)進(jìn)行聚類,然后針對(duì)總體的演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)采用投票機(jī)制挖掘出最終的特殊群體,因此本發(fā)明提出一種基于通信時(shí)空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)。
本發(fā)明提出一種基于通信時(shí)空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法,包括:
步驟1,根據(jù)通信數(shù)據(jù),獲取時(shí)間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點(diǎn);
步驟2,按照所述時(shí)間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對(duì)應(yīng)的拉普拉斯矩陣,計(jì)算矩陣特征向量,并對(duì)矩陣特征向量進(jìn)行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;
步驟3,根據(jù)所述聚類結(jié)果,采取投票機(jī)制,獲取最終特殊群體聚類結(jié)果。
通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點(diǎn)數(shù)據(jù)。
所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。
所述步驟3中所述投票機(jī)制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。
還包括對(duì)所述最終特殊群體聚類結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)公式為:
準(zhǔn)確率pred的計(jì)算公式:
其中accuate是準(zhǔn)確判斷出所述群體電話號(hào)碼的數(shù)量,n是電話號(hào)碼總個(gè)數(shù);
召回率recall的計(jì)算公式:
其中realsum是經(jīng)驗(yàn)證的所述群體使用的電話號(hào)碼;
根據(jù)準(zhǔn)確率pred與召回率recall計(jì)算評(píng)價(jià)標(biāo)準(zhǔn)f1值,計(jì)算所述評(píng)價(jià)標(biāo)準(zhǔn)f1值的計(jì)算公式如下:
本發(fā)明還提出一種基于通信時(shí)空特征的演變網(wǎng)絡(luò)特殊群體挖掘系統(tǒng),包括:
獲取數(shù)據(jù)模塊,用于根據(jù)通信數(shù)據(jù),獲取時(shí)間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點(diǎn);
聚類模塊,用于按照所述時(shí)間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對(duì)應(yīng)的拉普拉斯矩陣,計(jì)算矩陣特征向量,并對(duì)矩陣特征向量進(jìn)行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;
獲取結(jié)果模塊,用于根據(jù)所述聚類結(jié)果,采取投票機(jī)制,獲取最終特殊群體聚類結(jié)果。
通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點(diǎn)數(shù)據(jù)。
所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。
所述獲取結(jié)果模塊中所述投票機(jī)制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。
還包括對(duì)所述最終特殊群體聚類結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)公式為:
準(zhǔn)確率pred的計(jì)算公式:
其中accuate是準(zhǔn)確判斷出所述群體電話號(hào)碼的數(shù)量,n是電話號(hào)碼總個(gè)數(shù);
召回率recall的計(jì)算公式:
其中realsum是經(jīng)驗(yàn)證的所述群體使用的電話號(hào)碼;
根據(jù)準(zhǔn)確率pred與召回率recall計(jì)算評(píng)價(jià)標(biāo)準(zhǔn)f1值,計(jì)算所述評(píng)價(jià)標(biāo)準(zhǔn)f1值的計(jì)算公式如下:
由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明可幫助用戶對(duì)具有不定時(shí)間不定地點(diǎn)集會(huì)特征的特殊群體進(jìn)行挖掘和發(fā)現(xiàn)。
附圖說明
圖1為本發(fā)明流程圖;
圖2為無向加權(quán)圖。
具體實(shí)施方式
本發(fā)明中“特殊群體”為一種具有不定時(shí)間不定地點(diǎn)集會(huì)特征的隱藏群體。
以下為本發(fā)明的總體流程,如下所示:
步驟1,針對(duì)通信數(shù)據(jù)將其中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度從而確定通信數(shù)據(jù)產(chǎn)生的地點(diǎn),提取符合案件時(shí)空特征的數(shù)據(jù);
步驟2,將整體通信數(shù)據(jù)構(gòu)建的傳統(tǒng)通信媒體網(wǎng)絡(luò),按照每個(gè)集會(huì)的不同的時(shí)空特征及通信關(guān)系構(gòu)建靜態(tài)的通信網(wǎng)絡(luò);
步驟3,按照不同時(shí)空特征的靜態(tài)通信網(wǎng)絡(luò),構(gòu)建與之對(duì)應(yīng)的拉普拉斯矩陣,利用譜聚類中計(jì)算矩陣特征向量,選用合適的特征向量,使用k-means聚類方法進(jìn)行聚類,得出聚類結(jié)果;
步驟4,根據(jù)每個(gè)靜態(tài)網(wǎng)絡(luò)聚類結(jié)果,采用投票機(jī)制,得出最終的聚類結(jié)果,該聚類結(jié)果就是總的演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)的特殊群體挖掘結(jié)果。
以下為本發(fā)明的一實(shí)施例:
如圖1所示,本發(fā)明的實(shí)驗(yàn)數(shù)據(jù)來源于真實(shí)的團(tuán)伙犯罪案件。根據(jù)實(shí)驗(yàn)數(shù)據(jù)的通信時(shí)空特征構(gòu)建演變網(wǎng)絡(luò),并從中挖掘出特殊群體即案件中的犯罪團(tuán)伙,具體實(shí)施方式如下所示:
s01、根據(jù)集會(huì)時(shí)間選取符合時(shí)間特征數(shù)據(jù)。
警察依照作案手段、手法、時(shí)間、地點(diǎn)的綜合考慮,實(shí)驗(yàn)數(shù)據(jù)中多起案件均來自于同一個(gè)犯罪團(tuán)伙。每起案件有詳細(xì)的案發(fā)時(shí)間和案發(fā)地點(diǎn),即特殊群體中的集會(huì)時(shí)間和集會(huì)地點(diǎn)。
根據(jù)生活經(jīng)驗(yàn),特殊群體在進(jìn)行集會(huì)前會(huì)進(jìn)行大量的聯(lián)系,同樣按照警察刑偵經(jīng)驗(yàn),團(tuán)伙犯罪案件中,犯罪團(tuán)伙在實(shí)施犯罪前,需要選擇犯罪地點(diǎn)和目標(biāo),并對(duì)目標(biāo)進(jìn)行觀察從而制定高效的犯罪行為,犯罪團(tuán)伙在進(jìn)行觀察、制定方案過程中需要通過電話、短信、微信等社交媒體進(jìn)行大量的聯(lián)絡(luò)。
依照上述特征,選取特殊群體集會(huì)時(shí)間,即該實(shí)驗(yàn)中每起案件案發(fā)時(shí)間,該時(shí)間前幾日內(nèi)的電話、短信數(shù)據(jù)進(jìn)行保留,與集會(huì)無關(guān)的時(shí)間采取忽略策略。
s02、將lac(位置區(qū)碼)、ci(小區(qū)識(shí)別)轉(zhuǎn)換為經(jīng)緯度。
從電信運(yùn)營商中取得的通信數(shù)據(jù)中,有用于確定移動(dòng)臺(tái)的位置標(biāo)示位置區(qū)的lac(位置區(qū)碼)和具有唯一標(biāo)示的運(yùn)營商定義的小區(qū)編碼ci(小區(qū)識(shí)別)等兩類字段值,通過這兩類值可以獲取到某條通信數(shù)據(jù)產(chǎn)生于哪個(gè)基站,將用于基站的lac(位置區(qū)碼)和ci(小區(qū)識(shí)別)轉(zhuǎn)化為地理信息系統(tǒng)中常使用的經(jīng)緯度坐標(biāo),用以判定通信數(shù)據(jù)產(chǎn)生的位置。
s03、根據(jù)集會(huì)地點(diǎn)的經(jīng)緯度選取符合空間特征數(shù)據(jù)。
實(shí)驗(yàn)數(shù)據(jù)中的每起案件的案發(fā)地點(diǎn),即集會(huì)地點(diǎn),通過逆地址解析的方法,將案件的案發(fā)地點(diǎn)轉(zhuǎn)換為地理信息系統(tǒng)中常使用的經(jīng)緯度坐標(biāo),然后,以每起案件中案發(fā)地點(diǎn)經(jīng)緯度為中心取一個(gè)大致范圍,根據(jù)步驟s02中轉(zhuǎn)換后的經(jīng)緯度坐標(biāo),將在該區(qū)域內(nèi)產(chǎn)生的電話、短信數(shù)據(jù)進(jìn)行保留,不在該范圍內(nèi)產(chǎn)生的數(shù)據(jù)則不做考慮。
s04、依照集會(huì)時(shí)空特征獲取通信數(shù)據(jù)
傳統(tǒng)社交媒體中的電話和短信屬于即時(shí)通信范圍,即時(shí)通信的網(wǎng)絡(luò)會(huì)隨著時(shí)間的推演不斷產(chǎn)生變化。任何時(shí)間點(diǎn)內(nèi)產(chǎn)生的交互數(shù)據(jù)是有限的,按照任何時(shí)間點(diǎn)進(jìn)行社區(qū)發(fā)現(xiàn)是不合理的,固這里將整體的演變網(wǎng)絡(luò),取不同時(shí)間段的產(chǎn)生的靜態(tài)網(wǎng)絡(luò)進(jìn)行挖掘,根據(jù)每個(gè)靜態(tài)網(wǎng)絡(luò)的挖掘結(jié)果,構(gòu)建整個(gè)演變網(wǎng)絡(luò)的挖掘結(jié)果。
考慮到特殊群體的通信特點(diǎn)和集會(huì)流程,加入集會(huì)地點(diǎn)因素,即取集會(huì)地點(diǎn)經(jīng)緯度坐標(biāo)為中心的一定范圍的圓區(qū)內(nèi)。按照步驟s01和s03得出的數(shù)據(jù),取不同集會(huì)的不同的時(shí)空特征,即集會(huì)前一段時(shí)間和集會(huì)地點(diǎn)一定范圍內(nèi),選取滿足條件的通信數(shù)據(jù)。
本發(fā)明實(shí)驗(yàn)中則采用不同案件的時(shí)空特征,即案發(fā)前一段時(shí)間和案發(fā)地點(diǎn)一定范圍內(nèi),選取滿足條件的通信數(shù)據(jù)。
s05、構(gòu)建每次集會(huì)的無向加權(quán)通信圖。
無向圖g=<v,e>,其中:v是非空集合,稱為頂點(diǎn)集;e是v中元素構(gòu)成的無序二元組的集合,稱為邊集。由頂點(diǎn)的集合和邊的集合共同構(gòu)建的沒有方向的圖,稱為無向圖。
對(duì)圖的每一條邊e來說,都對(duì)應(yīng)于一個(gè)實(shí)數(shù)w(e),我們把w(e)稱為邊e的權(quán)重。把這樣的無向圖g稱為無向加權(quán)圖。無向加權(quán)圖,如下圖2所示。
按照步驟s04取出滿足每次集會(huì)的時(shí)空特征的通信數(shù)據(jù),根據(jù)取出的通信數(shù)據(jù),按照通信關(guān)系,即不同號(hào)碼間有過電話、短信等聯(lián)系,例如號(hào)碼a與號(hào)碼b在集會(huì)時(shí)間、集會(huì)地點(diǎn)范圍內(nèi)打過電話或者發(fā)過短信一次,則在網(wǎng)絡(luò)中將頂點(diǎn)a與頂點(diǎn)b連接并將該權(quán)重加1,通過這種方式構(gòu)建每次集會(huì),即實(shí)驗(yàn)中每起案件的無向加權(quán)通信網(wǎng)絡(luò),如下圖2所示,頂點(diǎn)a與頂點(diǎn)b鄰接邊權(quán)重為2,表示為號(hào)碼a與號(hào)碼b在集會(huì)時(shí)間和集會(huì)地點(diǎn)范圍內(nèi)有過兩次聯(lián)絡(luò)。
每次集會(huì)的無向加權(quán)通信圖,就是整個(gè)演變網(wǎng)絡(luò)中根據(jù)不同集會(huì)時(shí)空特征提取的靜態(tài)網(wǎng)絡(luò)。
s06、構(gòu)建與無向加權(quán)通信圖相關(guān)的拉普拉斯矩陣。
拉普拉斯矩陣(laplacianmatrix)也叫做導(dǎo)納矩陣、基爾霍夫矩陣或離散拉普拉斯算子,主要應(yīng)用在圖論中,作為一個(gè)圖的矩陣表示。拉普拉斯特征向量可以將處于流形上的數(shù)據(jù),在盡量保留原數(shù)據(jù)間相似度的情況下,映射到低維度下表示。
本發(fā)明考慮通信話單不同維度的數(shù)據(jù)特征不具備可比較性,即使標(biāo)準(zhǔn)化后采用歐氏距離進(jìn)行聚類仍存在嚴(yán)重不合理性,所以使用拉普拉斯矩陣的特征向量降維處理,然后聚類。
拉普拉斯矩陣公式如下所示:
l=d-a
其中d是度矩陣,a是鄰接矩陣,l是拉普拉斯矩陣。
構(gòu)建鄰接矩陣a,鄰接矩陣是表示頂點(diǎn)之間相鄰關(guān)系的矩陣,根據(jù)圖2構(gòu)建的鄰接矩陣a如下所示:
構(gòu)建度矩陣d,d根據(jù)圖中的入度、出度僅考慮其中一個(gè)構(gòu)建的對(duì)角矩陣,在本發(fā)明中無向加權(quán)通信圖中使用度的值構(gòu)建,根據(jù)圖2構(gòu)建的度矩陣d如下所示:
根據(jù)拉普拉斯矩陣公式,得出圖2的拉普拉斯矩陣l如下:
根據(jù)依照s05方法構(gòu)建的每次集會(huì)的無向加權(quán)通信圖,依照上述取得拉普拉斯矩陣的方法,構(gòu)建與無向加權(quán)通信圖圖相關(guān)的拉普拉斯矩陣。
s07、計(jì)算每個(gè)靜態(tài)網(wǎng)絡(luò)的拉普拉斯矩陣求特征向量α。
設(shè)a是n階矩陣,如果存在數(shù)λ和非零n維列向量α,使得公式成立,公式如下:
a*α=λ*α
λ是a的一個(gè)特征值。則非零n維列向量α稱為矩陣a的對(duì)應(yīng)于特征值λ的特征向量,簡稱a的特征向量。
根據(jù)上述特征值計(jì)算公式,根據(jù)s06構(gòu)建的每起案件的拉普拉斯矩陣,可以得出每起案件拉普拉斯矩陣的特征向量。
s08、對(duì)每個(gè)靜態(tài)網(wǎng)絡(luò)的特征向量使用k-means進(jìn)行聚類。
k-means算法的基本思想是:以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。
假設(shè)要把樣本集分為c個(gè)類別,算法描述如下:
(1)隨機(jī)選擇c個(gè)類的初始中心;
(2)在第k次迭代中,對(duì)任意一個(gè)樣本,求其到c個(gè)中心的距離,將該樣本歸到距離最短的中心所在的類;
(3)利用均值等方法更新該類的中心值;
(4)對(duì)于所有的c個(gè)聚類中心,如果利用(2)(3)的迭代法更新后,中心值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。
利用s07得出的每個(gè)靜態(tài)網(wǎng)絡(luò)的拉普拉斯矩陣的特征向量,選擇其中合適的特征向量使用上述算法對(duì)其劃分成兩個(gè)類,屬于特殊群體的聚類和不屬于特殊群體的聚類。從而,得出實(shí)驗(yàn)數(shù)據(jù)中每起案件的犯罪團(tuán)伙社區(qū)。
s09、根據(jù)每個(gè)靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)得出最終的特殊群體社區(qū)。
由根據(jù)s08的k-means算法挖掘出每個(gè)靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū),采用投票機(jī)制設(shè)票數(shù)閾值為n,在每個(gè)靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)中出現(xiàn)的號(hào)碼記票數(shù)為1,對(duì)每個(gè)靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)進(jìn)行遍歷,計(jì)算每個(gè)號(hào)碼的票數(shù),當(dāng)號(hào)碼的票數(shù)達(dá)到閾值時(shí),則將它記入整個(gè)演變網(wǎng)絡(luò)的特殊群體社區(qū)中,得出最終的特殊群體社區(qū)。
s10、對(duì)得出的結(jié)果進(jìn)行評(píng)價(jià)。
用于本發(fā)明的通信數(shù)據(jù)中,有效電話號(hào)碼共1316個(gè)。團(tuán)伙犯罪案件共14起,僅采用其中7起案件。最終,依照上述方法得出聚類結(jié)果共11個(gè)犯罪團(tuán)伙嫌疑人電話號(hào)碼,經(jīng)警方驗(yàn)證,整個(gè)犯罪團(tuán)伙共使用8個(gè)號(hào)碼,其中4個(gè)出現(xiàn)在犯罪團(tuán)伙的挖掘結(jié)果中。
準(zhǔn)確率pred的計(jì)算公式:
其中accuate是準(zhǔn)確判斷出犯罪嫌疑人電話號(hào)碼的數(shù)量,n是挖掘結(jié)果中共多少個(gè)電話號(hào)碼。依照上述公式得出最終演變網(wǎng)絡(luò)的犯罪團(tuán)伙社區(qū)的準(zhǔn)確率pred約為0.364。
召回率recall的計(jì)算公式:
其中accuate是準(zhǔn)確判斷出犯罪嫌疑人電話號(hào)碼的數(shù)量,realsum是經(jīng)警方驗(yàn)證的犯罪團(tuán)伙使用的電話號(hào)碼。依照上述公式得出召回率recall為0.5。
利用準(zhǔn)確率pred和召回率recall得出的結(jié)果,可以計(jì)算出更合理的評(píng)價(jià)標(biāo)準(zhǔn)f1值。f1值的計(jì)算公式如下:
依照上述公式得出整個(gè)演變網(wǎng)絡(luò)犯罪團(tuán)伙挖掘的f1值約為0.421。
本發(fā)明還提出一種基于通信時(shí)空特征的演變網(wǎng)絡(luò)特殊群體挖掘系統(tǒng),包括:
獲取數(shù)據(jù)模塊,用于根據(jù)通信數(shù)據(jù),獲取時(shí)間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點(diǎn);
聚類模塊,用于按照所述時(shí)間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對(duì)應(yīng)的拉普拉斯矩陣,計(jì)算矩陣特征向量,并對(duì)矩陣特征向量進(jìn)行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;
獲取結(jié)果模塊,用于根據(jù)所述聚類結(jié)果,采取投票機(jī)制,獲取最終特殊群體聚類結(jié)果。
通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點(diǎn)數(shù)據(jù)。
所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。
所述獲取結(jié)果模塊中所述投票機(jī)制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。
還包括對(duì)所述最終特殊群體聚類結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)公式為:
準(zhǔn)確率pred的計(jì)算公式:
其中accuate是準(zhǔn)確判斷出所述群體電話號(hào)碼的數(shù)量,n是電話號(hào)碼總個(gè)數(shù);
召回率recall的計(jì)算公式:
其中realsum是經(jīng)驗(yàn)證的所述群體使用的電話號(hào)碼;
根據(jù)準(zhǔn)確率pred與召回率recall計(jì)算評(píng)價(jià)標(biāo)準(zhǔn)f1值,計(jì)算所述評(píng)價(jià)標(biāo)準(zhǔn)f1值的計(jì)算公式如下: