基于lda主題模型的微博用戶興趣的挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于LDA主題模型的微博用戶興趣的挖掘方法,包括以下步驟:從微博中采集用戶關(guān)系信息和用戶標(biāo)簽信息;將用戶關(guān)系信息集成至LDA主題模型中;根據(jù)興趣類別從用戶標(biāo)簽信息中分別為每個主題選定一個標(biāo)簽作為種子詞,并提取多個種子詞以將多個種子詞集成至LDA主題模型中,以利用LDA主題模型對用戶的興趣進行挖掘。本發(fā)明實施例的挖掘方法,通過采集用戶關(guān)系信息和用戶標(biāo)簽信息,從而根據(jù)用戶關(guān)系信息和用戶標(biāo)簽信息深入的挖掘隱藏在用戶關(guān)系和用戶標(biāo)簽當(dāng)中的用戶興趣和用戶標(biāo)簽的對應(yīng)關(guān)系,找出用戶在不同興趣領(lǐng)域的分布。本發(fā)明還公開了一種基于LDA主題模型的微博用戶興趣的挖掘系統(tǒng)。
【專利說明】基于LDA主題模型的微博用戶興趣的挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機應(yīng)用與互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種基于LDA(LatentDirichlet Allocation,隱式狄利克雷分配)主題模型的微博用戶興趣的挖掘方法及系統(tǒng)。
【背景技術(shù)】
[0002]近些年,許多用戶開始通過微博例如推特或者新浪微博向他人分享自己的想法或者展示自己,例如用戶在社交網(wǎng)絡(luò)中通過各種社交行為如發(fā)微博或者給某種資源點贊,從而分享自己的想法或者展示自己。因此,在某種程度上,用戶的社交行為或者微博可以顯示用戶的興趣領(lǐng)域。舉例而言,新浪微博的用戶可以給自己加上標(biāo)簽信息,以用來展示自己的不同,因此用戶標(biāo)簽信息可以顯示用戶的興趣。另外,由于用戶之間的關(guān)系不僅僅能表現(xiàn)他們的交往關(guān)系,也能展示他們之間有共同的興趣,因此用戶關(guān)系信息也能被用來做用戶興趣的挖掘。
[0003]然而,雖然對如何從用戶的社交行為或者微博中挖掘興趣信息做了很多研究,但是都忽略了用戶標(biāo)簽信息和用戶關(guān)系信息,尤其是基于新浪微博的研究并沒有考慮用戶標(biāo)簽信息,且由于基于推特的研究并沒有這種資源,所以也沒有考慮標(biāo)簽信息,導(dǎo)致無法深入的挖掘隱藏在用戶關(guān)系和標(biāo)簽當(dāng)中的用戶興趣和用戶標(biāo)簽的對應(yīng)關(guān)系。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種能深入的挖掘隱藏在用戶關(guān)系和用戶標(biāo)簽當(dāng)中的用戶興趣和用戶標(biāo)簽的對應(yīng)關(guān)系的基于LDA主題模型的微博用戶興趣的挖掘方法。
[0005]本發(fā)明的另一個目的在于提出一種基于LDA主題模型的微博用戶興趣的挖掘系統(tǒng)。
[0006]為達到上述目的,本發(fā)明一方面實施例提出了一種基于LDA主題模型的微博用戶興趣的挖掘方法,包括以下步驟:從微博中采集用戶關(guān)系信息和用戶標(biāo)簽信息,其中,所述用戶標(biāo)簽信息包括多個用戶標(biāo)簽;將所述用戶關(guān)系信息集成至隱式狄利克雷分配LDA主題模型中,所述LDA主題模型根據(jù)興趣類別設(shè)置有多個主題;以及根據(jù)所述興趣類別從所述用戶標(biāo)簽信息中分別為每個主題選定一個標(biāo)簽作為種子詞,并提取多個種子詞以將所述多個種子詞集成至所述LDA主題模型中,以利用所述LDA主題模型對用戶的興趣進行挖掘。
[0007]根據(jù)本發(fā)明實施例的基于LDA主題模型的微博用戶興趣的挖掘方法,通過采集用戶關(guān)系信息和用戶標(biāo)簽信息,并將用戶關(guān)系信息集成至LDA主題模型中,且從用戶標(biāo)簽信息中提取出多個種子詞,以將多個種子詞集成至LDA模型中,實現(xiàn)利用LDA主題模型對用戶的興趣進行挖掘,可以深入的挖掘隱藏在用戶關(guān)系和標(biāo)簽當(dāng)中的用戶興趣和用戶標(biāo)簽的對應(yīng)關(guān)系,找出用戶在不同興趣領(lǐng)域的分布。
[0008]另外,根據(jù)本發(fā)明上述實施例的基于LDA主題模型的微博用戶興趣的挖掘方法還可以具有如下附加的技術(shù)特征:[0009]在本發(fā)明的一個實施例中,在將所述用戶關(guān)系信息集成至所述LDA主題模型中之后,還包括:將Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗集成至所述LDA主題模型中。
[0010]進一步地,在本發(fā)明的一個實施例中,所述用戶關(guān)系信息、Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗根據(jù)以下公式進行采樣,以集成至所述LDA主題模型中:
【權(quán)利要求】
1.一種基于LDA主題模型的微博用戶興趣的挖掘方法,其特征在于,包括以下步驟: 從微博中采集用戶關(guān)系信息和用戶標(biāo)簽信息,其中,所述用戶標(biāo)簽信息包括多個用戶標(biāo)簽; 將所述用戶關(guān)系信息集成至隱式狄利克雷分配LDA主題模型中,所述LDA主題模型根據(jù)興趣類別設(shè)置有多個主題;以及 根據(jù)所述興趣類別從所述用戶標(biāo)簽信息中分別為每個主題選定一個標(biāo)簽作為種子詞,并提取多個種子詞以將所述多個種子詞集成至所述LDA主題模型中,以利用所述LDA主題模型對用戶的興趣進行挖掘。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在將所述用戶關(guān)系信息集成至所述LDA主題模型中之后,還包括: 將Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗集成至所述LDA主題模型中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述用戶關(guān)系信息、Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗根據(jù)以下公式進行采樣,以集成至所述LDA主題模型中:
4.根據(jù)權(quán)利要求1所述的方法、其特征在于,從所述用戶標(biāo)簽信息中提取所述多個種子詞,并將所述多個種子詞集成至所述LDA主題模型中,進一步包括: 通過計算每個剩余標(biāo)簽與所述每個主題的種子詞的共現(xiàn),為所述每個主題選定預(yù)設(shè)個數(shù)標(biāo)簽作為所述種子詞的候選詞,并集成至所述LDA主題模型中,以對所述種子詞進行補充。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)以下公式計算所述每個剩余標(biāo)簽與所述每個主題的種子詞的共現(xiàn):
6.一種基于LDA主題模型的微博用戶興趣的挖掘系統(tǒng),其特征在于,包括: 采集模塊,用于從微博中采集用戶關(guān)系信息和用戶標(biāo)簽信息,其中,所述用戶標(biāo)簽信息包括多個用戶標(biāo)簽; 集成模塊,用于將所述用戶關(guān)系信息集成至LDA主題模型中,其中,所述LDA主題模型根據(jù)興趣類別設(shè)置有多個主題;以及 提取模塊,用于根據(jù)所述興趣類別從所述用戶標(biāo)簽信息中分別為每個主題選定一個標(biāo)簽作為種子詞,并提取多個種子詞以將所述多個種子詞集成至所述LDA主題模型中,以利用所述LDA主題模型對用戶的興趣進行挖掘。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述集成模塊還用于將Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗集成至所述LDA主題模型中。
8.根據(jù)權(quán)利要 求7所述的系統(tǒng),其特征在于,所述用戶關(guān)系信息驗、Topic-1n-set先驗、狄利克雷森林先驗和層次非對稱先驗根據(jù)以下公式進行采樣,以集成到所述LDA主題模型中:
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述提取模塊還用于通過計算每個剩余標(biāo)簽與所述每個主題的種子詞的共現(xiàn),為所述每個主題選定預(yù)設(shè)個數(shù)標(biāo)簽作為所述種子詞的候選詞,并集成至所述LDA主題模型中,以對所述種子詞進行補充。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,根據(jù)以下公式計算所述每個剩余標(biāo)簽與所述每個主題的種子詞的共現(xiàn):
【文檔編號】G06F17/30GK103970863SQ201410193287
【公開日】2014年8月6日 申請日期:2014年5月8日 優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】徐華, 黃笑秋, 王瑋 申請人:清華大學(xué)