一種基于混雜特征計算的微博主題情感分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)輿情分析技術(shù)領(lǐng)域,特別涉及一種應(yīng)用于Web2.0環(huán)境下社交網(wǎng)絡(luò) 的基于混雜特征計算的微博主題情感分析方法。
【背景技術(shù)】
[0002] 以自由開放共享為核心精神的Web 2.0使得用戶成為互聯(lián)網(wǎng)的主角,諸如社交網(wǎng) 站、微博和BBS論壇之類的平臺為網(wǎng)民發(fā)表意見和交流情感提供了經(jīng)濟(jì)便捷的渠道。一般來 說,用戶在微博平臺上發(fā)表的言論比較簡短卻又飽含著豐富的個人情感與主觀傾向性,例 如,不同讀者對于同一條新聞事件持有不同的看法,不同用戶對于某款手機有著其個性化 的用戶體驗,不同影視愛好者對于同一部電影會留下不同的觀影評論,等等。研究如何高效 挖掘隱藏于這些魚目混雜的微博消息中的主題與情感有助于各級政府機構(gòu)、企業(yè)組織與理 性個體的管理決策,例如,政府機構(gòu)可以對網(wǎng)絡(luò)輿論進(jìn)行實時監(jiān)測與導(dǎo)向、網(wǎng)上商家能夠根 據(jù)用戶反饋意見及時調(diào)整生產(chǎn)服務(wù)實現(xiàn)利潤最大化、個體網(wǎng)民可以敏捷獲取目標(biāo)信息,等 等。
[0003] 文本情感分析又稱意見挖掘,其實質(zhì)是對帶有情感色彩的主觀性文本進(jìn)行分析、 處理、歸納和推理的過程,目前正在吸引著來自人工智能、數(shù)據(jù)挖掘、自然語言處理等不同 領(lǐng)域研究者的廣泛關(guān)注,涌現(xiàn)出的具體算法不勝枚舉,其中以有監(jiān)督情感分類方法與無監(jiān) 督情感分類方法最為引人注目。
[0004] 有監(jiān)督情感分類的基本思想是通過對具有情感極性標(biāo)記的訓(xùn)練樣本模型學(xué)習(xí)并 以此訓(xùn)練好的模型對未見文本進(jìn)行情感分類。該類方法主要涉及訓(xùn)練集獲取、文本向量化、 分類器訓(xùn)練與分類器檢測等步驟。具有里程碑意義的是2002年P(guān)ang應(yīng)用3個代表性分類器 (支持向量機SVM、樸素貝葉斯NB與最大熵ME)對文本情感分類任務(wù)進(jìn)行實驗研究,得出機器 學(xué)習(xí)的文本情感分類性能遠(yuǎn)高于隨機猜選,可達(dá)到大致80%的準(zhǔn)確率.文本向量化過程涉及 的特征工程在情感分類任務(wù)中起著至關(guān)重要的作用,因而,很多研究者圍繞著文本情感表 示模型展開研究。Mullen等提出基于wordnet特征項的Osgood情感特征權(quán)重值計算機制。Ng 等設(shè)計出基于n-gram的5類特征項用于文本情感識別。Kennedy等提出在使用單個詞語特征 的基礎(chǔ)上,通過語境情感值轉(zhuǎn)換器構(gòu)造雙詞詞組形式的上下文敏感的特征項。Rui等提出一 種詞語關(guān)系特征與單個詞語特征相結(jié)合的文本情感特征模型。Bespalov等提出一種基于詞 語、短語與文檔等多級嵌入的短文本情感表示方法,然后利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)情感的分 布式表示向量。Li等提出"短語-句子"的混合表示模型,在短語粒度上運用Left-Middle-Right 模板與條件隨機場 CRF 來提取情感詞。盡管各種基于不同情感表示模型的有監(jiān)督情 感分類方法取得長足的進(jìn)步。但絕大多數(shù)情感表示模型是針對長文本的,很難直接應(yīng)用于 微博情感分析任務(wù)。
[0005] 雖然有監(jiān)督情感分類器能取得較高的分類準(zhǔn)確率,但其訓(xùn)練過程需要大量帶情感 標(biāo)簽的訓(xùn)練數(shù)據(jù),人工標(biāo)記的高昂代價與機器標(biāo)記的低劣質(zhì)量使得有監(jiān)督情感分類方法的 實際應(yīng)用大打折扣。因而,無需標(biāo)簽數(shù)據(jù)的無監(jiān)督情感分類策略因勢而動?,F(xiàn)有的無監(jiān)督情 感分類方法大致可分為兩類,其一是基于主題模型的情感分類方法,其二是基于情感特征 項集成的情感分類方法。前一類方法中的代表性算法有:Me i等提出一個主題情感模型TSM 進(jìn)行主題及其相關(guān)情感的演化分析。TSM-方面存在著類似pLSI所有的學(xué)習(xí)過度問題,另一 方面需要相關(guān)后處理操作才能完成文檔情感的預(yù)測。Titov等應(yīng)用MG-LDA提取評論對象中 的各個被評價,然后提出MAS模型對情感進(jìn)行總結(jié),MAS模型要求評論對象的每個方面至少 在部分評論中被評價過,然而,這對真實評論文本數(shù)據(jù)集來說是不實際的。Dasgupta等提出 一種基于用戶反饋的譜聚類技術(shù)進(jìn)行網(wǎng)絡(luò)文本的無監(jiān)督情感分類,聚類分析過程涉及數(shù)據(jù) 特征都是具有情感傾向的主題,然而,在該分析過程中需要人為指定最重要的特征維。Lin 等提出一種基于LDA模型的JST模型,該模型將文本情感標(biāo)簽加入LDA,形成一個包含包含 詞、主題、情感和文檔的四層貝葉斯概率模型。后一類方法中的代表性算法有:Hu等提出一 種基于wordnet的情感詞典構(gòu)建法,首先人工選出情感極性已知的情感詞作為種子詞,然后 迭代進(jìn)行同義或反義搜索不斷將擴展情感詞典。Andreevskaia等以不同的種子詞集在 wordnet同義關(guān)系圖中進(jìn)行boot strap,然后通過運用模糊理論對各個詞在所有boot strap 結(jié)果中表現(xiàn)為積極或消極情感的頻數(shù)進(jìn)行規(guī)范化得到詞的情感值。
[0006] 以JST、SLDA and DPLDA等為代表的無監(jiān)督情感分析方法近年來備受青睞,此類方 法能有效地避免傳統(tǒng)無監(jiān)督情感分析方法具有的情感詞典依賴性缺點,能達(dá)到較好的情感 識別效果。遺憾的是,現(xiàn)有的無監(jiān)督情感分析方法難以直接用于微博情感分析,主要原因是 絕大多數(shù)這類方法都不同程度地忽略了幾個基本事實:1)微博消息的情感極性是與微博主 題密切相關(guān)的,不可能存在游離于主題之外的情感;2)微博具有篇幅短小、不規(guī)范與多模態(tài) 等特性,許多在傳統(tǒng)文本挖掘被視為噪聲的數(shù)據(jù)在微博消息中卻顯得格外重要,例如ACSII 藝術(shù)化的表情符號;3)微博用戶群的性格存在差異性,而不同性格微博用戶的思想感情表 達(dá)方式不同,含蓄委婉抑或坦率直接。這些基本事實的忽略導(dǎo)致此類無監(jiān)督方法的情感分 析與主題檢測效果難盡人意。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種基于混雜特征計算的微博主題情感分析方法,該方法 能夠有效挖掘出隱藏于微博消息中的用戶關(guān)注主題及其真實情感。
[0008] 為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于混雜特征計算的微博主題情感 分析方法,包括以下步驟: 步驟1、微博數(shù)據(jù)預(yù)處理:應(yīng)用中文分詞、英文詞根化、表情符提取技術(shù)提取微博特征, 包括詞語和表情符,并利用先驗知識對微博特征的情感和主題進(jìn)行初始賦值; 步驟2、算法參數(shù)初始化:隨機初始化聯(lián)合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m, s),分布A的超參數(shù)α,分布B的超參數(shù)β,分布Η的超參數(shù)η和分布Z的超參數(shù)ζ,微博用戶性格 分布矩陣US,其中m、s、t、《和 6分別表示微博消息變量、微博情感變量、微博主題變量、詞語 變量和表情符變量; 步驟3、利用吉布斯采樣技術(shù)對多特征主題情感模型MfJST的參數(shù)的聯(lián)合分布A和Η進(jìn)行 估值; 步驟4、通過%判斷每條微博m的情感極性,表示微博m中情感極性s出現(xiàn)的概 率:對于微博m,若> |i|,其中si為積極情感,s2為消極情感,則判定微博m的情感極性 為積極情感,反之為消極情感;通過對聯(lián)合分布A進(jìn)行關(guān)于微博情感變量s的邊緣化來實現(xiàn) 微博消息隱含主題的檢測。
[0009] 進(jìn)一步地,所述多特征主題情感模型MfJST的建立方法為: A1、利用以α為參數(shù)的狄利克雷分布函數(shù)隨機生成(微博,情感,主題)先驗分布; Α2、利用以β為參數(shù)的狄利克雷分布函數(shù)隨機生成(情感,主題,詞語)先驗概率分布; A3、利用以ζ為參數(shù)的狄利克雷分布函數(shù)隨機生成(情感,主題,表情符)先驗概率分布; Α4、利用以γ為參數(shù)的狄利克雷分布函數(shù)隨機生成(微博-情感)先驗分布; Α5、重復(fù)如下方法直到生成一條微博中的所有特征,包括詞語和表情符:對一條微博首 先利用(微博-情感)先驗分布生成一個情感標(biāo)簽s,然后情感標(biāo)簽s從(微博,情感,主題)先 驗分布生成一個主題標(biāo)簽t,最后根據(jù)選出的情感標(biāo)簽s和主題標(biāo)簽t,通過比較隨機概率 rand與情感標(biāo)簽詞語比例PR0B的方式產(chǎn)生詞語w和表情符e:若rand大于PR0B,則從(情感, 主題,詞語)先驗概率分布產(chǎn)生詞語《,否則從(情感,主題,表情符)先驗概率分布產(chǎn)生表情 符e; A6、重復(fù)步驟A5,直到微博數(shù)據(jù)集中的所有微博生成完畢。
[0010] 進(jìn)一步地,所述多特征主題情感模型MfJST參數(shù)的估值方法為: B1、循環(huán)控制參數(shù)Maxlter置零; B2、對每條微博m的每個特征,包括詞語w和表情符e執(zhí)行操作序列:從變量集
中排除具有情感s和主題t的詞語w;從變量
中排除具有情感s和主題t的詞語e;其中 ns,t,w表示在微博集合C中,除微博m中當(dāng)前位置上的元素外,詞語w同時屬于主題t和情感極 性8的頻數(shù),,s,t表示在微博m中,除微博m中當(dāng)前位置上的特征外,具有主題t和情感極性 S 的特征總計數(shù),ns,t表示在微博集合C中,除微博m中當(dāng)前位置上的特征外,所有其他具有主 題t和情感極性S的詞語總計數(shù),nm,3表示表示在微博m中,除微博m中當(dāng)前位置上的特征外, 具有情感極性s的特征總計數(shù),n m表示在微博m中,除微博m中當(dāng)前位置上的特征外,所有其 他特征的總計數(shù),口^^^表示在微博集合C中,除微博m中當(dāng)前位置上的特征外,表情符e同時 屬于主題t和情感極性s的頻數(shù),p s,t表示在微博集合C中,除微博m中當(dāng)前位置上的特征外, 所有其他具有主題t和情感極性s的表情符總計數(shù),n m表示在微博m