基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法
【專利摘要】本發(fā)明公開了一種基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,包括步驟:S1、對社交網(wǎng)絡(luò)的文檔集進(jìn)行主題分析,從而得到主題向量集;S2、對所述主題向量集使用k-means算法進(jìn)行聚類,從而得到主題簇;S3、對每個(gè)所述主題簇進(jìn)行鏈接劃分,得到每個(gè)主題簇的主題社團(tuán)集。本發(fā)明結(jié)合基于鏈接的社團(tuán)發(fā)現(xiàn)算法和主題模型算法提供了一種能夠有效和高效地對社團(tuán)進(jìn)行主題和鏈接劃分的主題社團(tuán)發(fā)現(xiàn)算法。
【專利說明】基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]隨著社交網(wǎng)絡(luò)服務(wù)(簡稱SNS)的迅速發(fā)展,社交網(wǎng)絡(luò)已經(jīng)成為人們獲取實(shí)時(shí)信息的重要來源和進(jìn)行網(wǎng)絡(luò)社交的重要平臺(tái)。近幾年里我國社交網(wǎng)絡(luò)的用戶數(shù)量在高速增長,這就說明了社交網(wǎng)絡(luò)在高速發(fā)展。同時(shí),社交網(wǎng)絡(luò)存在大量數(shù)據(jù)信息,而且數(shù)據(jù)類型有多種形式,如人際網(wǎng)絡(luò),文本,圖片,視頻和音頻等。如何利用這些數(shù)據(jù)為社交網(wǎng)絡(luò)用戶提供更好的服務(wù)已經(jīng)成為了社交網(wǎng)絡(luò)分析(Social network analysis)的重要研究方向。社團(tuán)發(fā)現(xiàn)問題是社交網(wǎng)絡(luò)分析的核心問題之一。由原來的無向圖社團(tuán)發(fā)現(xiàn)到現(xiàn)在的核心社團(tuán)發(fā)現(xiàn),社團(tuán)發(fā)現(xiàn)問題得到了許多擴(kuò)展,并且新的問題又被提出來。社團(tuán)發(fā)現(xiàn)研究既有豐富的科學(xué)理論,又有巨大的商業(yè)意義,比如社團(tuán)發(fā)現(xiàn)算法可以對社交網(wǎng)絡(luò)的人及其人際結(jié)構(gòu)進(jìn)行分析,并可以向其推薦好友、商品等。
[0003]在社交網(wǎng)絡(luò)分析時(shí),通常是采集社交網(wǎng)絡(luò)的文本集,再對文本集進(jìn)行主題分析,主題分析是通過對文本內(nèi)容分析并提取出文本中的主題的過程。傳統(tǒng)的LDA算法就是對文本集進(jìn)行主題分析,其中,LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項(xiàng)分布、圖模型、變分推斷、EM算法、Gibbs抽樣等知識(shí)。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。
[0004]LDA算法以文檔集合作為輸入(會(huì)有切詞,去停用詞,取詞干等常見的預(yù)處理,略去不表),希望訓(xùn)練出兩個(gè)結(jié)果向量,即每個(gè)文檔文檔在主題上的概率,和每個(gè)主題在詞上的概率。以下就是基于gibbs抽樣的LDA算法的偽代碼:
[0005]
【權(quán)利要求】
1.一種基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,包括步驟: .51、對社交網(wǎng)絡(luò)的文檔集進(jìn)行主題分析,從而得到主題向量集; .52、對所述主題向量集使用k-means算法進(jìn)行聚類,從而得到主題簇;. 53、對每個(gè)所述主題簇進(jìn)行鏈接劃分,得到每個(gè)主題簇的主題社團(tuán)集。
2.如權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,所述步驟SI具體包括步驟: . 511、對所述社交網(wǎng)絡(luò)的文檔集分詞,得到文檔集中詞的總數(shù),并對所述分詞后的文檔集采用LDA算法進(jìn)行主題分析,得到每個(gè)主題出現(xiàn)在每個(gè)文檔的概率矩陣以及每個(gè)文檔的主題總數(shù)、每個(gè)詞出現(xiàn)在每個(gè)主題上的次數(shù)和每個(gè)主題所包含的詞的總數(shù);其中,所述概率矩陣中的每一行即為對應(yīng)的文檔在主題上的主題向量,全部的主題向量集合即為所述主題向量集。
3.如權(quán)利要求2所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,所述步驟Sll之后還包括步驟: . 512、當(dāng)社交網(wǎng)絡(luò)的文檔集更新從而產(chǎn)生新的文檔集時(shí),根據(jù)所述步驟Sll得到的每個(gè)文檔的主題總數(shù)、每個(gè)詞出現(xiàn)在每個(gè)主題上的次數(shù)和每個(gè)主題所包含的詞的總數(shù),對所述新的文檔集中每一個(gè)新文檔分 詞后進(jìn)行主題分析,從而得到更新后的每個(gè)主題出現(xiàn)在每個(gè)文檔的概率矩陣。
4.如權(quán)利要求3所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,步驟S12中對所述新的文檔集中每一個(gè)文檔執(zhí)行以下步驟: .5121、對當(dāng)前新文檔進(jìn)行分詞,得到詞序列; .5122、所述詞序列中的每個(gè)詞所屬的主題服從概率分布Multinomial(1/K),對所述每個(gè)詞所屬的主題進(jìn)行抽樣,并統(tǒng)計(jì)每個(gè)主題被抽到的次數(shù),將所述每個(gè)主題被抽到的次數(shù)標(biāo)記為當(dāng)前主題的出現(xiàn)次數(shù); 其中,概率分布Multinomial (1/K)具體為p (zn=k) =1/K, ζη表示詞η所屬的主題,K表示當(dāng)前新文檔的主題總數(shù),k表示主題變量; . 5123、對于所述詞序列中的每個(gè)詞,執(zhí)行以下步驟:取出當(dāng)前詞所屬的主題,并將步驟S122統(tǒng)計(jì)的被取出的主題的出現(xiàn)次數(shù)減1,則此時(shí)當(dāng)前詞所屬的主題服從概率分布P(zn|m, α, β),接著對當(dāng)前詞所屬的主題進(jìn)行抽樣,并將抽到的主題的出現(xiàn)次數(shù)加I ; 其中,
5.如權(quán)利要求4所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,所述參數(shù)β =0.10
6.如權(quán)利要求4所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,所述參數(shù)α =50/文檔數(shù)。
7.如權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的主題社團(tuán)發(fā)現(xiàn)方法,其特征在于,所述步驟S3對于每個(gè)主題簇進(jìn)行如下步驟: . 531、將主題簇看作一個(gè)無向圖,對圖中的每個(gè)點(diǎn)進(jìn)行編號(hào); . 532、計(jì)算任意兩個(gè)點(diǎn)的社團(tuán)鏈接相似度,找出使一個(gè)節(jié)點(diǎn)的社團(tuán)鏈接相似度最大的另一個(gè)節(jié)點(diǎn),若此兩個(gè)節(jié)點(diǎn)的AQ >0,則將此兩個(gè)節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn); 其中,節(jié)點(diǎn)i和節(jié)點(diǎn)j的社團(tuán)鏈接相似度CLS為:
【文檔編號(hào)】G06F17/30GK103793501SQ201410033736
【公開日】2014年5月14日 申請日期:2014年1月20日 優(yōu)先權(quán)日:2014年1月20日
【發(fā)明者】蔡昭權(quán), 周獻(xiàn)政, 黃翰 申請人:惠州學(xué)院