基于聚類融合算法的社交團(tuán)體發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于社交網(wǎng)絡(luò)團(tuán)體挖掘技術(shù)領(lǐng)域,涉及一種運(yùn)用聚類融合算法的判斷方 法,具體涉及一種基于聚類融合算法的社交團(tuán)體發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002] "互聯(lián)網(wǎng)+"是互聯(lián)網(wǎng)思維的進(jìn)一步實(shí)踐成果,它代表一種先進(jìn)的生產(chǎn)力,推動(dòng)經(jīng)濟(jì) 形態(tài)不斷的發(fā)生演變,從而帶動(dòng)社會(huì)經(jīng)濟(jì)實(shí)體的生命力,為改革、發(fā)展、創(chuàng)新提供廣闊的網(wǎng) 絡(luò)平臺(tái)。
[0003] 現(xiàn)在,傳統(tǒng)的互聯(lián)網(wǎng)正在邁向全新的時(shí)代----社交服務(wù)網(wǎng)時(shí)代(Social NetworkingService),從"人與機(jī)器"的時(shí)代邁向"人與人"的時(shí)代。個(gè)體的社交圈會(huì)不斷 地?cái)U(kuò)大和重疊并在最終形成大的社交網(wǎng)絡(luò)。社交網(wǎng)的一個(gè)顯著特點(diǎn)是支持巨大用戶數(shù),例 如Facebook支持超過(guò)3億的用戶,其數(shù)據(jù)中心運(yùn)行著超過(guò)萬(wàn)臺(tái)的服務(wù)器,為遍布全球的用 戶提供信息通訊服務(wù)。另外,任何兩個(gè)社交網(wǎng)用戶都可能交互,也就是必須支持任何兩個(gè)數(shù) 據(jù)庫(kù)用戶的數(shù)據(jù)關(guān)聯(lián)操作。這對(duì)于服務(wù)端的數(shù)據(jù)庫(kù)管理提出了極大的挑戰(zhàn)。
[0004] 云服務(wù)器(ElasticComputeService,簡(jiǎn)稱ECS)是一種處理能力可彈性伸縮的 計(jì)算服務(wù),其管理方式比物理服務(wù)器更簡(jiǎn)單高效。云服務(wù)器幫助您快速構(gòu)建更穩(wěn)定、安全的 應(yīng)用,降低開發(fā)運(yùn)維的難度和整體IT成本,使您能夠更專注于核心業(yè)務(wù)的創(chuàng)新。目前,是做 的比較完善的生態(tài)系統(tǒng)。
[0005] 聚類融合算法的核心思想是通過(guò)把多個(gè)聚類算法融合,得出更準(zhǔn)確、更健壯的決 策。一方面,由于基聚類分別來(lái)自于不同基聚類算法,其聚類算法的初始化條件、參數(shù)設(shè)置, 甚至算法思想都各不相同,所以這些各不相同的基聚類都蘊(yùn)含數(shù)據(jù)集的一部分特征。通過(guò) 把這些各異的基聚類進(jìn)行融合,能有效地更全面地、更準(zhǔn)確地反映出數(shù)據(jù)集的真正特征。另 一方面,即使某些基聚類存在反映數(shù)據(jù)集的錯(cuò)誤信息,但通過(guò)大量基聚類的正確信息修正, 能有效地得出更健壯的聚類決策。由于聚類融合算法這些優(yōu)良特點(diǎn),目前在聚類算法研究 領(lǐng)域,聚類融合算法正在蓬勃地發(fā)展。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于聚類融合算法的社交團(tuán)體發(fā)現(xiàn)方法,針對(duì)復(fù)雜的社 交網(wǎng)絡(luò)數(shù)據(jù),運(yùn)用聚類融合算法作為判斷準(zhǔn)則,然后對(duì)一系列未知的社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分 類,得到相應(yīng)的分類,讓市場(chǎng)人員能相應(yīng)的服務(wù)。
[0007] 本發(fā)明所采用的技術(shù)方案是,基于聚類融合算法的社交團(tuán)體發(fā)現(xiàn)方法,具體按照 以下步驟實(shí)施:
[0008] 步驟1:對(duì)于社交網(wǎng)路中的數(shù)據(jù),根據(jù)基聚類算法分別得出相應(yīng)的采樣基聚類;
[0009] 步驟2 :對(duì)步驟1得到的每個(gè)采樣基聚類集進(jìn)行融合,得出候選基準(zhǔn);
[0010] 步驟3 :對(duì)步驟2得到的候選基準(zhǔn)進(jìn)行篩選,評(píng)分最高的候選基準(zhǔn)作為最優(yōu)基準(zhǔn);
[0011] 步驟4 :使用步驟3得到的最優(yōu)基準(zhǔn)對(duì)聚類質(zhì)量進(jìn)行評(píng)價(jià)。
[0012] 本發(fā)明的特點(diǎn)還在于,
[0013] 其中的步驟1具體按照以下步驟實(shí)施:
[0014] 假設(shè)有一個(gè)包含m個(gè)對(duì)象的數(shù)據(jù)集X,定義X={xdx2,…,xM},在運(yùn)行N個(gè)基聚類 算法后,得到N個(gè)基聚類π,定義π= {jii,jt2,···,jtn},然后,對(duì)π進(jìn)行融合聚類算法運(yùn) 算,得到融合聚類31 %定義Φ( 3〇,其中Φ是聚類融合函數(shù);
[0015] 首先,對(duì)社交網(wǎng)絡(luò)用戶信息進(jìn)行采樣,利用社交平臺(tái)賬戶獲取平臺(tái)訪問(wèn)權(quán)限,通過(guò) 設(shè)置初始任務(wù)集對(duì)目標(biāo)信息進(jìn)行定向獲??;
[0016] 其次,采用k-means作為候選基準(zhǔn)算法,先設(shè)定聚類個(gè)數(shù),然后隨機(jī)設(shè)定初始化聚 類中心,生成多個(gè)基聚類;為了生成多樣性高的基聚類集,通過(guò)采樣器對(duì)基聚類集進(jìn)行采 樣,通過(guò)組合子基聚類集的方式,得到多個(gè)組差異化大的采樣基聚類基。
[0017] 其中的采樣器采樣的方式是隨機(jī)賭輪盤方式。
[0018] 其中的步驟2具體按照以下步驟實(shí)施:
[0019] 采用SLC算法來(lái)對(duì)融合聚類集進(jìn)行融合,得到候選基準(zhǔn):
[0020] 候選基準(zhǔn)的評(píng)分定義如下:
[0021]
[0022] 其中,候選基準(zhǔn)為融合聚類為<和<,α為閾值。
[0023] 其中的當(dāng)融合聚類之間相似程度大于α?xí)r,評(píng)分為0,這時(shí)防止融合聚類之間的 相似性太大;當(dāng)融合聚類之間相似程度小于α?xí)r,評(píng)分由兩部分相加而成;第一部分是融 合聚類于候選基準(zhǔn)之間的相似程度,第二部分是融合聚類之間的相似程度;λ是兩部分之 間的權(quán)重;當(dāng)λ>0.5時(shí),在評(píng)分中,第一部分比第二部分的權(quán)重大;當(dāng)λ<0.5時(shí),在評(píng) 分中,第二部分比第一部分的權(quán)重大;當(dāng)λ=0.5時(shí),在評(píng)分中,第二部分比第一部分的權(quán) 重相等;一般而言,選擇λ= 0. 5,即第二部分和第一部分占評(píng)分的權(quán)重一樣;據(jù)此,計(jì)算每 一個(gè)候選基準(zhǔn)的評(píng)分,評(píng)分最高的候選基準(zhǔn)作為最終的基準(zhǔn);經(jīng)過(guò)篩選的基準(zhǔn)作為下一步 的最優(yōu)基準(zhǔn)使用,來(lái)評(píng)價(jià)聚類質(zhì)量。
[0024] 其中的步驟4具體按照以下步驟實(shí)施:
[0025] 利用上一步生成的最優(yōu)基準(zhǔn),利用外在方法BCubed對(duì)聚類質(zhì)量進(jìn)行評(píng)價(jià):給定基 準(zhǔn)31jPK個(gè)由不同聚類融合算法所得的融合聚類31 ={> 31 2,~31 k},對(duì)每一個(gè)融合聚 類^,都可以得出一個(gè)質(zhì)量評(píng)價(jià)以^,;評(píng)分越高,代表該聚類融合算法得出來(lái)的融 合結(jié)果越好;
[0026] 假設(shè)有對(duì)象集合X= {Xl,x2,…,xn},C是X的一個(gè)聚類,B是X的基準(zhǔn);C(Xl) (1彡i彡η)表示\在C的類別,B(xJ(1彡i彡η)表示\在B的類別;對(duì)于兩個(gè)對(duì)象Xi 和Xj(1彡i,j彡n,i乒j),xjPX」在聚類C的正確性的定義如下: ?
[0028] BCubed的精度定義如下:
[0029]
[0030] BCubed的召回率定義如下:
[0031]
[0032] 精度和召回率都可以用來(lái)評(píng)價(jià)聚類,F(xiàn)度量可以同時(shí)結(jié)合精度和召回率,定義如 下:
[0033]
7
[0034]F度量的取值范圍在0到1之間,當(dāng)F度量等于0時(shí),聚類質(zhì)量并不理想;當(dāng)F度 量等于1時(shí),聚類質(zhì)量理想,與基準(zhǔn)完全一致;所以當(dāng)F度量越接近1時(shí),聚類質(zhì)量越好。
[0035] 發(fā)明的有益效果是,本發(fā)明提出一種不依賴專家評(píng)價(jià)基準(zhǔn)的外在評(píng)價(jià)方法為準(zhǔn)則 的團(tuán)體發(fā)現(xiàn)識(shí)別方法。首先,由社交網(wǎng)絡(luò)數(shù)據(jù)生成基準(zhǔn)類,使同基準(zhǔn)類中的社交用戶具有相 似的團(tuán)體屬性。對(duì)于基聚類,使用采用器,生成各種基聚類集。對(duì)于每個(gè)基聚類集,使用聚 類融合算法,對(duì)聚類融合結(jié)果采用聚類融合算法進(jìn)行融合,生成候選基準(zhǔn)。對(duì)于候選基準(zhǔn), 使用篩選器,依據(jù)設(shè)定篩選條件,得出基準(zhǔn)。然后,使用基準(zhǔn)對(duì)聚類質(zhì)量進(jìn)行評(píng)價(jià)。得到基 準(zhǔn)后,本文采用外在評(píng)價(jià)方法對(duì)聚類質(zhì)量進(jìn)行評(píng)價(jià)。本發(fā)明通過(guò)對(duì)基聚類的決策進(jìn)行融合, 得出更準(zhǔn)確、壯健的決策。提高了社交網(wǎng)絡(luò)數(shù)據(jù)中團(tuán)體發(fā)現(xiàn),個(gè)體發(fā)現(xiàn)的準(zhǔn)確率,使服務(wù)商 更加充分的獲得用戶信息,從而提高服務(wù)質(zhì)量,具有極大的使用價(jià)值。
【附圖說(shuō)明】
[0036] 圖1為對(duì)基聚類采樣部分實(shí)現(xiàn)的框架圖;
[0037] 圖2為生成候選基準(zhǔn)部分實(shí)現(xiàn)的框架圖;
[0038] 圖3為篩選候選基準(zhǔn)部分實(shí)現(xiàn)的框架圖。
【具體實(shí)施方式】
[0039] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0040] 本發(fā)明基于聚類融合算法的社交團(tuán)體發(fā)現(xiàn)方法,具體按照以下步驟實(shí)施:
[0041] 步驟1:對(duì)于社交網(wǎng)路中的數(shù)據(jù),根據(jù)基聚類算法分別得出相應(yīng)的基聚類(基聚類 算法1得出相應(yīng)的基聚類1),其中采樣的方式是隨機(jī)賭輪盤方式。具體為:構(gòu)建社交網(wǎng)路 數(shù)據(jù)中的基聚類:對(duì)于社交網(wǎng)路中的數(shù)據(jù),根據(jù)基聚類算法分別得出相應(yīng)的基聚類(基聚 類算法1得出相應(yīng)的基聚類1),把社交網(wǎng)路數(shù)據(jù)分為不同的基聚類,然后對(duì)基聚類集進(jìn)行 采樣,目的是生成多樣性高的采樣基聚類集。多樣性高的采樣基聚類集有助于后續(xù)生成的 多樣性的候選融合聚類,有利于于篩選最后的融合聚類。
[0042] 步驟2:對(duì)每個(gè)采樣基聚類集進(jìn)行融合,得出候選基準(zhǔn)。具體為:對(duì)每個(gè)采樣網(wǎng)絡(luò) 數(shù)據(jù)基聚類運(yùn)行參與評(píng)價(jià)的聚類融合算法,把生成的融合聚類集用聚類融合算法來(lái)生成候 選基準(zhǔn)。以此類推,生成候選基準(zhǔn)集。
[0043] 步驟3:對(duì)候選基準(zhǔn)進(jìn)行篩選,評(píng)分最高的候選基準(zhǔn)即是基準(zhǔn)。
[0044] 步驟4:使用基準(zhǔn)對(duì)聚類質(zhì)量進(jìn)行評(píng)價(jià)。
[0045] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0046] 實(shí)施例
[0047] 圖1為本發(fā)明實(shí)施例的對(duì)基聚類采樣部分實(shí)現(xiàn)的框架圖,具體流程描述如下:
[0048] 用公式表達(dá)來(lái)表達(dá),假設(shè)有一個(gè)包含m個(gè)對(duì)象的數(shù)據(jù)集X,定義X= {Xl,x2,… ,xM}。在運(yùn)行N個(gè)基聚類算法后,得到N個(gè)基聚類π,定義jt= {l,jt2,···,jtn}。然后, 對(duì)η進(jìn)