專利名稱:論壇網(wǎng)民興趣分析方法
技術(shù)領(lǐng)域:
本發(fā)明是一種網(wǎng)絡(luò)虛擬環(huán)境的分析技術(shù),具體涉及一種論壇網(wǎng)民興趣分析方法,屬于數(shù) 據(jù)挖掘技術(shù)領(lǐng)域。 背景4支術(shù)
隨著網(wǎng)絡(luò)信息化的發(fā)展,出現(xiàn)了大量的網(wǎng)絡(luò)虛擬社區(qū),形成了一個網(wǎng)絡(luò)虛擬環(huán)境,網(wǎng)絡(luò) 論壇就是其中的一種主要形式。在傳統(tǒng)的社會化經(jīng)中,長期已經(jīng)具有一套行之有效的人和群 的管理體系,但是網(wǎng)絡(luò)虛擬環(huán)境這是一個新生事物,它不僅僅具有網(wǎng)上自由發(fā)言的特點,還 具有網(wǎng)民匿名性的特點,加大了監(jiān)管的難度。目前,網(wǎng)絡(luò)輿情已經(jīng)成為一個不可忽視的方面, 而網(wǎng)絡(luò)論壇更能體現(xiàn)出網(wǎng)絡(luò)聚眾的特點,和其它網(wǎng)絡(luò)應(yīng)用相比,更能反映網(wǎng)絡(luò)輿情態(tài)勢。因 此,對于網(wǎng)站論壇中輿情的主要推動力量一一網(wǎng)民的分析具有重大意義。通過對論壇中網(wǎng)民 興趣的分析,可以準確掌控某一時間段內(nèi)網(wǎng)絡(luò)輿情態(tài)勢發(fā)展的主要趨向。
雖然對基于論壇的網(wǎng)民興趣分析具有較好的發(fā)展前景和應(yīng)用前途,也出現(xiàn)了 一些相關(guān)的 系統(tǒng)和方法,但是,目前在該領(lǐng)域的系統(tǒng)和方法仍然存在著一系列的問題,主要有幾下幾種
1. 單純的網(wǎng)民和發(fā)表文章的關(guān)聯(lián)分析,缺乏對網(wǎng)民參與議題、熱點話題、內(nèi)容類別的時
間跨度上的系統(tǒng)分析,使得對個體網(wǎng)民的分析缺乏立體感。
2. 網(wǎng)民在網(wǎng)絡(luò)上的活動往往帶有團體的性質(zhì),目前的系統(tǒng)和方法往往忽略了這一點。網(wǎng)
絡(luò)輿情基本上都是在網(wǎng)絡(luò)團體的帶動下而形成的,個體的網(wǎng)民很難形成一股力量,
因此,需要對網(wǎng)絡(luò)人群進行深入的分析。 由此可見,網(wǎng)絡(luò)論壇中網(wǎng)民興趣的分析是非常重要的,對網(wǎng)民興趣的分析在舉據(jù)挖據(jù)上 有著深度的要求,而現(xiàn)有的系統(tǒng)和方法在網(wǎng)民和內(nèi)容關(guān)聯(lián)、網(wǎng)民之間關(guān)聯(lián)都存在著缺陷,還 無法滿足網(wǎng)民興趣分析的深層次要求。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有基于論壇的網(wǎng)絡(luò)虛擬環(huán)境網(wǎng)民興趣分析的系統(tǒng)和方法中存 在的缺陷,提出一種以網(wǎng)民和內(nèi)容關(guān)關(guān)聯(lián)、網(wǎng)民之間關(guān)聯(lián)為技術(shù)基礎(chǔ)實現(xiàn)的基于數(shù)據(jù)挖掘的 論壇網(wǎng)民興趣分析系統(tǒng)和方法,它主要通過網(wǎng)民和熱點話題、議題、內(nèi)容分類、傾向性分析, 網(wǎng)民和網(wǎng)民之間關(guān)系分析,實現(xiàn)論壇網(wǎng)民興趣的深層次分析。
本發(fā)明所述的以網(wǎng)民和內(nèi)容關(guān)關(guān)聯(lián)、網(wǎng)民之間關(guān)聯(lián)為技術(shù)基礎(chǔ)實現(xiàn)的基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析方法包括如下步驟
將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到數(shù)據(jù)存儲系統(tǒng); 采用數(shù)據(jù)挖掘方法對所述非結(jié)構(gòu)化數(shù)據(jù)進行內(nèi)容分析; 將所述內(nèi)容分析的結(jié)果與網(wǎng)民相關(guān)聯(lián)。
所述將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到數(shù)據(jù)存儲系統(tǒng)的步驟,負責(zé)存放結(jié)構(gòu)化數(shù)據(jù)和 非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的入庫和索引都是在該步驟完成。對于結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)民ID、時間等, 將其存放于通用的商業(yè)數(shù)據(jù)庫中,這里采用的是oracle;而對于非結(jié)構(gòu)化數(shù)據(jù),主要是文本 rt)容,如果存放在通用的商業(yè)數(shù)據(jù)庫中,隨著數(shù)據(jù)量的增加,索引性能將會急劇降低,因此, 我們將其置于自主開發(fā)的專用的非結(jié)構(gòu)化數(shù)據(jù)存儲庫內(nèi)。每篇文章的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化 數(shù)據(jù)因為存于不同的數(shù)據(jù)庫內(nèi),而且類型不一樣,因此需要將數(shù)據(jù)統(tǒng)一關(guān)聯(lián)起來,我們采用 結(jié)構(gòu)化數(shù)據(jù)在通用商業(yè)數(shù)據(jù)庫內(nèi)的唯一標志ID作為關(guān)聯(lián)的依據(jù)。
所述采用數(shù)據(jù)挖掘方法對所述非結(jié)構(gòu)化數(shù)據(jù)進行內(nèi)容分析的步驟,針對非結(jié)構(gòu)化數(shù)據(jù), 采用數(shù)據(jù)挖掘的方法,主要包括文本分類、文本聚類、文本摘要等,進行智能化文本內(nèi)容分 析,實現(xiàn)了主題分類、熱點話題提取和跟蹤、傾向性分析等功能。
所述文本分類是采用人工和自動化相結(jié)合的方式,對既設(shè)主題進行類別的識別。分類的 方法有很多種,我們采用了 SUPPORT VECTOR MACHINE (支持向量機)的方法,該方法 建立在對詞的統(tǒng)計基礎(chǔ)之上。其工作流程主要如下第一步,人工提取一部分文章作為訓(xùn)練 集;第二步,對特征集進行中文分詞,過濾停用詞,提取特征詞,并將特征集內(nèi)的每篇文章 轉(zhuǎn)化為特征詞向量表示;第三步,調(diào)用分類訓(xùn)練器,對特征集向量進行訓(xùn)練,得到分類器; 第四步,輸入待分類文本內(nèi)容,根據(jù)訓(xùn)練集特征詞提取特征,形成特征向量,利用分類器對 其進行分類。
所述熱點話題提取和跟蹤采用文本聚類和分類相結(jié)合的方式,具體做法上是對熱點話題 的提取采用文本聚類的方法,而對熱點話題的跟蹤采用文本分類的方法,其工作流程如下 第一步,對指定時間段內(nèi)的文本數(shù)據(jù)進行中文分詞、特征提取,形成向量;第二步,對形成 的向量進行自動化聚類,聚類的算法有^l多,我們采用的是基于層次的聚類算法;第三步, 將聚類出的類別作為新的熱點話題;如果需要跟蹤該話題,將新熱點話題內(nèi)的文章作為文本 分類的訓(xùn)練集,對其進行訓(xùn)練,得到分類器;第四步,利用得到的分類器,對新輸入的文章 進行分類,將其歸入某個熱點話題,從而實現(xiàn)了對熱點話題的跟蹤。
所述傾向性分析采用人工和自動相結(jié)合的方式,首先,我們對通用詞形成了語義庫,在 這個語義庫內(nèi),我們對每個詞進行了傾向性的權(quán)值分析;其次,輸入文本內(nèi)容,利用語義庫 對文本內(nèi)容中的詞進行語義加權(quán),從而得到文本內(nèi)容的傾向性;再次,介入人工的方式,調(diào)節(jié)傾向性分析結(jié)果。
所述將所述內(nèi)容分析的結(jié)果與網(wǎng)民相關(guān)聯(lián)的步驟,不是指網(wǎng)民和他所發(fā)表文章的關(guān)聯(lián), 而是利用上述的內(nèi)容分析模塊結(jié)果,進行網(wǎng)民與內(nèi)容關(guān)聯(lián)、網(wǎng)民與網(wǎng)民關(guān)聯(lián)。所述網(wǎng)民與內(nèi) 容關(guān)聯(lián),對網(wǎng)民和當(dāng)前的主題分類、熱點話題、言論傾向性進行關(guān)聯(lián),從而可以看出該網(wǎng)民 在這段時間內(nèi)的興趣在哪個主題分類、哪個熱點話題,持何種態(tài)度?主要釆用概率統(tǒng)計的方 法,統(tǒng)計分析網(wǎng)民在各個方向的關(guān)注情況,從而判斷出興趣點。
所述網(wǎng)民與網(wǎng)民關(guān)聯(lián)是綜合運用網(wǎng)絡(luò)論壇結(jié)構(gòu)化數(shù)據(jù)、內(nèi)容分析結(jié)果數(shù)據(jù)、網(wǎng)民和內(nèi)容 關(guān)聯(lián)分析結(jié)果數(shù)據(jù),采用數(shù)據(jù)關(guān)聯(lián)的方法,分析得出網(wǎng)絡(luò)社會結(jié)構(gòu),包括網(wǎng)絡(luò)社區(qū)、網(wǎng)絡(luò)群 體、網(wǎng)絡(luò)團伙。根據(jù)論壇結(jié)構(gòu)化數(shù)據(jù),包括網(wǎng)站、版面、網(wǎng)民、時間等,分析出某段時間內(nèi), 經(jīng)常活躍于某個網(wǎng)站某個版面某個分類的網(wǎng)民群,我們定義為網(wǎng)絡(luò)社區(qū);在網(wǎng)絡(luò)社區(qū)內(nèi),經(jīng)
常同時參與某類敏感話題的網(wǎng)民群,我們定義為網(wǎng)絡(luò)群體;在網(wǎng)絡(luò)群體內(nèi),經(jīng)常參與統(tǒng)一個 議題,即統(tǒng)一個根貼和回帖的群,我們定義為網(wǎng)絡(luò)團伙。
本發(fā)明具有實質(zhì)性特點和顯著進步(1)通過對網(wǎng)民和內(nèi)容關(guān)聯(lián)的深度挖掘,對網(wǎng)民進 行興趣分析;(2 )通過對網(wǎng)絡(luò)人群的分析,挖掘,得到網(wǎng)民在網(wǎng)絡(luò)上所扮演的角色和起到的 作用,從而發(fā)掘出網(wǎng)民的動機。
本發(fā)明提出的以網(wǎng)民和內(nèi)容關(guān)關(guān)聯(lián)、網(wǎng)民之間關(guān)聯(lián)為技術(shù)基礎(chǔ)實現(xiàn)的基于數(shù)據(jù)挖掘的論 壇網(wǎng)民興趣分析系統(tǒng)和方法,充分利用網(wǎng)絡(luò)內(nèi)容信息、網(wǎng)民信息、歷史數(shù)據(jù)信息,有效的解 決了對論壇網(wǎng)民興趣分析的深度挖掘需求,適用于網(wǎng)絡(luò)輿情分析系統(tǒng)的實施。
具體實施例方式
對應(yīng)于本發(fā)明的系統(tǒng)架構(gòu)可分為三個層次第一層是數(shù)據(jù)存儲層,負責(zé)管理結(jié)構(gòu)化數(shù)據(jù) 和非結(jié)構(gòu)化數(shù)據(jù)的入庫、索引;第二層是智能內(nèi)容分析層,采用數(shù)據(jù)挖掘的方法對文章內(nèi)容 進行文本分類、熱點話題提取和跟蹤、傾向性分析;第三層是關(guān)聯(lián)分析層,包括網(wǎng)民和內(nèi)容 關(guān)聯(lián)模塊、網(wǎng)民和網(wǎng)民關(guān)聯(lián)模塊,其中網(wǎng)民和內(nèi)容關(guān)聯(lián)模塊的分析結(jié)果是網(wǎng)民和網(wǎng)民關(guān)聯(lián)模 塊的分析基礎(chǔ)。
智能內(nèi)容分析層,首先將文本數(shù)據(jù)輸入該模塊,內(nèi)容分析模塊調(diào)用中文分詞功能,對中
文文本進行分詞,然后再進入特征選擇,主要有兩項工作,首先去掉停用詞,再計算TFIDF
值,進行特征選擇。文本分類和文本聚類的特征選擇是不一樣的,文本分類直接對訓(xùn)練文檔
進行特征選擇,而文本聚類將所有的測試文檔看作不同的類別,進行特征選擇,因此,得到
兩個特征選擇結(jié)果。特征選擇結(jié)束以后,分為兩部分, 一部分是進行文本分類,另一部分是
進行文本聚類。在文本分類這一部分,首先調(diào)用分類訓(xùn)練功能,經(jīng)過訓(xùn)練后得到分類的分類器;其次進行文本分類;最后對分類結(jié)果進行傾向性分析,得到每個類別的言論傾向性情況。 在文本聚類這一部分,首先調(diào)用文本聚類功能,自動舉出類別;再次將自動聚出的類別提取 出來,形成新的熱點話題和跟蹤;最后,對熱點話題進行傾向性分析,得出每個熱點話題的 言論傾向性。
關(guān)聯(lián)分析層,既有網(wǎng)民和內(nèi)容關(guān)聯(lián)模塊,又有網(wǎng)民和網(wǎng)民關(guān)聯(lián)模塊。首先是網(wǎng)民和內(nèi)容 關(guān)聯(lián)模塊,分為三個部分,第一個是文本分類結(jié)果和網(wǎng)站版面網(wǎng)民關(guān)聯(lián)分析,第二個是熱點 話題分析結(jié)果和網(wǎng)站版面網(wǎng)民刮臉分析,第三個是同題目議題與網(wǎng)站版面網(wǎng)民關(guān)聯(lián)分析;其 次是網(wǎng)民和網(wǎng)民關(guān)聯(lián)模塊,也分為三個部分,分別對應(yīng)著上述三個部分,第一個將相同網(wǎng)站 相同版面相同分類的網(wǎng)絡(luò)群劃分為網(wǎng)絡(luò)社區(qū);第二個將相同網(wǎng)站相同版面相同話題的網(wǎng)絡(luò)群 劃分為網(wǎng)絡(luò)群體;第三個將相同網(wǎng)站相同版面同題目議題的網(wǎng)絡(luò)群劃分為網(wǎng)絡(luò)團伙。
本發(fā)明的主要工作流程如下
1. 將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)入庫到本地數(shù)據(jù)存儲系統(tǒng),建立索引,由數(shù)據(jù)存儲模塊
層管理;
2. 對本地數(shù)據(jù)存儲系統(tǒng)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)進行智能化內(nèi)容分析,包括主題分類、熱點話
題提取和跟蹤、傾向性分析;
3. 在智能化內(nèi)容分析的基礎(chǔ)上,進行網(wǎng)民和內(nèi)容關(guān)聯(lián)分析;
4. 進行網(wǎng)民和網(wǎng)民關(guān)聯(lián)分析。
從上述實施過程可以看出,本發(fā)明所做的以網(wǎng)民和內(nèi)容關(guān)關(guān)聯(lián)、網(wǎng)民之間關(guān)聯(lián)為技術(shù)基礎(chǔ)實 現(xiàn)的基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析系統(tǒng)和方法.有效的實現(xiàn)了論壇網(wǎng)民興趣分析的深度 挖掘,為網(wǎng)絡(luò)輿情分析中的網(wǎng)絡(luò)人和群的分析提供了可靠方法。
權(quán)利要求
1.一種論壇網(wǎng)民興趣分析方法,其特征在于包括以下步驟將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到數(shù)據(jù)存儲系統(tǒng);采用數(shù)據(jù)挖掘方法對所述非結(jié)構(gòu)化數(shù)據(jù)進行內(nèi)容分析;將所述內(nèi)容分析的結(jié)果與網(wǎng)民相關(guān)聯(lián)。
2. 根據(jù)權(quán)利要求1所述的論壇網(wǎng)民興趣分析方法,其特征在于在所述將所述內(nèi)容分析的結(jié)果 與網(wǎng)民相關(guān)聯(lián)的步驟之后還包括,將網(wǎng)民與網(wǎng)民相關(guān)聯(lián)。
3. 根據(jù)權(quán)利要求2所述的論壇網(wǎng)民興趣分析方法,其特征在于所述網(wǎng)民與網(wǎng)民相關(guān)聯(lián)包括將 相同網(wǎng)站相同版面相同分類的網(wǎng)民相關(guān)聯(lián)、將相同網(wǎng)站相同版面相同話題的網(wǎng)民相關(guān)聯(lián)和 將相同網(wǎng)站相同版面同題目議題的網(wǎng)民相關(guān)聯(lián)。
4. 根據(jù)權(quán)利要求l、 2或3所述的論壇網(wǎng)民興趣分析方法,其特征在于所述將結(jié)構(gòu)化數(shù)據(jù)和 非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到數(shù)據(jù)存儲系統(tǒng)的步驟還包括為所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù) 建立索引。
5. 根據(jù)權(quán)利要求l、 2或3所述的論壇網(wǎng)民興趣分析方法,其特征在于所述數(shù)據(jù)挖掘方法包 才舌文本分類、文本聚類或文本摘要。
6. 根據(jù)權(quán)利要求l、 2或3所述的論壇網(wǎng)民興趣分析方法,其特征在于所述將所述內(nèi)容分析 的結(jié)果與網(wǎng)民相關(guān)聯(lián)的步驟包括文本分類結(jié)果與網(wǎng)民相關(guān)聯(lián)、熱點話題分析結(jié)果與網(wǎng)民相 關(guān)聯(lián)和同題目議題與網(wǎng)民相關(guān)聯(lián)。
7. 根據(jù)權(quán)利要求4所述的論壇網(wǎng)民興趣分析方法,其特征在于所述數(shù)據(jù)挖掘方法包括文本分 類、文本聚類或文本摘要。
8. 根據(jù)權(quán)利要求6所述的論壇網(wǎng)民興趣分析方法,其特征在于所述數(shù)據(jù)挖掘方法包括文本分 類、文本聚類或文本摘要。
全文摘要
一種論壇網(wǎng)民興趣分析方法,其特征在于包括以下步驟將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入到數(shù)據(jù)存儲系統(tǒng);采用數(shù)據(jù)挖掘方法對所述非結(jié)構(gòu)化數(shù)據(jù)進行內(nèi)容分析;將所述內(nèi)容分析的結(jié)果與網(wǎng)民相關(guān)聯(lián)。根據(jù)本方法,能夠有效解決對論壇網(wǎng)民興趣分析的深度挖掘需求,適用于網(wǎng)絡(luò)輿情分析系統(tǒng)的實施。
文檔編號G06F17/30GK101551797SQ20081003560
公開日2009年10月7日 申請日期2008年4月3日 優(yōu)先權(quán)日2008年4月3日
發(fā)明者吳承榮, 張世永, 謝劍鋒 申請人:上海復(fù)旦光華信息科技股份有限公司