一種基于主題建模的多粒度情感分析方法
【專利摘要】本發(fā)明公開了一種基于主題建模的多粒度情感分析方法,包括如下步驟:提取社交媒體文本數(shù)據(jù)庫中所有數(shù)據(jù)的單詞和單詞特征;訓練得到核心模型;根據(jù)用戶的查詢請求從社交媒體文本數(shù)據(jù)庫中得到搜索結(jié)果;根據(jù)系統(tǒng)自動設定或用戶指定的參數(shù),確定主題建模中需要的主題數(shù)目和細粒度情感數(shù)目;隨機地將某個主題和某個細粒度情感分配給每一個單詞;計算所有單詞所屬主題和細粒度情感以及所查詢文檔表達粗粒度情感,并將結(jié)果反饋給用戶。本發(fā)明具有的有益效果有:可對社交網(wǎng)絡文本數(shù)據(jù)同時進行主題建模與多粒度情感分析;可在單詞特征與單詞所表達細粒度情感之間建立起關聯(lián)度,為用戶理解數(shù)據(jù)提供幫助。
【專利說明】一種基于主題建模的多粒度情感分析方法
【技術領域】
[0001] 本發(fā)明涉及用戶情感分析,尤其涉及一種基于主題建模的多粒度情感分析方法。
【背景技術】
[0002] 目前,隨著互聯(lián)網(wǎng)架構(gòu)、存儲科技及其他有關技術的發(fā)展,各種各樣的網(wǎng)絡數(shù)據(jù)飛 速增長。這些數(shù)據(jù)除了給互聯(lián)網(wǎng)用戶更好的瀏覽體驗和為多媒體檢索應用提供了更多的樣 本以外,也使得高效組織這些大規(guī)模數(shù)據(jù)成為了一種挑戰(zhàn)。為了應對這一挑戰(zhàn),作為通過 "隱性主題"來聚類媒體數(shù)據(jù)的典型算法,非監(jiān)督層次化貝葉斯模型(或稱主題模型)被大 量使用,如LDA(隱狄利克雷分配,一種廣泛的傳統(tǒng)主題模型)及其擴展等。從2003年被提 出直至今日,LDA及其衍生模型已經(jīng)作為多種主題建模應用的核心算法,被用于解決文檔摘 要生成、跨數(shù)據(jù)集主題建模和文檔主題演化等領域,并且在實際使用中發(fā)揮了良好的效果。 和傳統(tǒng)的基于統(tǒng)計的一些文本歸納方法相比,主題模型在可觀測的文檔層和單詞層間增加 了一個隱含的主題層,并認為文檔包含有一個或若干多個主題,每個主題又是不同比例單 詞的組合。這一新增加的主題隱含層能讓用戶更好地理解一篇文檔所蘊含語義內(nèi)容(相當 于為文檔數(shù)據(jù)本身自動添加了諸如"體育"、"社會"等一個或多個類別標簽),而且對海量數(shù) 據(jù)能通過主題進行表達而達到降維效果。
[0003] 在對海量互聯(lián)網(wǎng)數(shù)據(jù)處理中,情感分析是隨著社交網(wǎng)絡的發(fā)展與網(wǎng)絡用戶生成數(shù) 據(jù)(User Generated Data,例如對電影或者電子產(chǎn)品的感想、對于新聞事件的觀點與感受 等)飛速增多而新出現(xiàn)的研究方向。情感分析的基本任務是從用戶生成的包含觀點和意見 的文本數(shù)據(jù)中抽取出這些觀點和意見,然后實現(xiàn)情感摘要生成、情感分類和情感詞典構(gòu)建 等等情感分析任務。將主題模型應用于情感分析后,能夠同時挖掘出數(shù)據(jù)所包含的用戶主 觀感受(用戶的情感)與客觀描述事實(用戶評論所涉及到的內(nèi)容),因此是一種具有高可 行性與研究前景的應用方向。
[0004] 當前,通過主題建模方法進行用戶情感分析的研究工作及應用還不豐富。已經(jīng)被 提出的核心算法主要有:基于概率隱語義分析模型、將正面(positive)和負面(negative) 兩種情感作為主題之外能夠產(chǎn)生單詞的多項分布的情感主題模型(Topic Sentiment Mixture,TSM);基于隱狄利克雷分配、抽取和聚合不同主題中表達情感的詞組或語句的多 側(cè)面情感模型(Multi-aspect Sentiment Model, MAS);以及同樣基于隱狄利克雷分配、同 時挖掘數(shù)據(jù)中情感和主題分布的聯(lián)合情感主題模型(Joint Sentiment-topic Model, JST) 等。需要指出的是,當前已有的絕大部分情感分析方法著眼于在"粗粒度"上對用戶情感進 行分析,即認為用戶生成數(shù)據(jù)中的每一個詞都表達正面、負面或中立這三種粗粒度情感中 的一種。但是,實際中大部分用戶生成數(shù)據(jù)盡管可在段落或文檔層面進行粗粒度情感分析 與判別,但其中一些單詞會表達細粒度情感(如"喜悅"、"感動"、"悲傷"等)。如何對用戶 產(chǎn)生數(shù)據(jù)進行多粒度情感分析是當前情感分析研究領域和應用開發(fā)領域的難點與熱點。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術的不足,提供一種基于主題建模的多粒度情感分析 方法。
[0006] 基于主題建模的多粒度情感分析方法包括如下步驟:
[0007] 1)提取社交媒體文本數(shù)據(jù)庫中所有數(shù)據(jù)的單詞和單詞特征;
[0008] 2)根據(jù)系統(tǒng)自動設定或用戶指定的參數(shù),確定建模中所采用的主題數(shù)目和細粒度 情感數(shù)目;
[0009] 3)根據(jù)給定訓練數(shù)據(jù),通過Gibbs采樣過程得到主題建模和細粒度情感建模的核 心模型;
[0010] 4)根據(jù)用戶的查詢請求從社交媒體數(shù)據(jù)庫中搜索得到文本結(jié)果;
[0011] 5)通過Gibbs采樣迭代確定每一個單詞所屬主題以及所屬細粒度情感;
[0012] 6)通過嵴回歸分類確定查詢得到的每個文檔中各段落表達的粗粒度情感并向用 戶反饋;
[0013] 7)根據(jù)單詞所屬主題以及單詞所表達細粒度情感向用戶反饋各個主題和各個細 粒度情感中最有代表性單詞,以及單詞不同特征在表達不同細粒度情感時的不同能力。
[0014] 所述的提取社交媒體文本數(shù)據(jù)庫中所有數(shù)據(jù)的單詞和單詞特征的步驟如下:
[0015] 1)采用自然語言處理工具標注每個單詞的詞性,以得到的詞性標注結(jié)果作為各單 詞的特征;
[0016] 2)去除其中無用的高頻詞以及頻數(shù)過低的生僻詞;
[0017] 3)統(tǒng)計處理后文本中所有出現(xiàn)過的單詞,組成詞匯表。
[0018] 所述的根據(jù)給定訓練數(shù)據(jù),通過Gibbs采樣得到基于主題建模的多粒度情感分析 核心模型的步驟如下:
[0019] 1)由系統(tǒng)自動設定,或者由用戶指定各組Dirichlet分布所需參數(shù)α、β和Y, 以及嵴回歸懲罰項系數(shù)λ,并且設定好迭代次數(shù)、收斂條件等參數(shù);
[0020] 2)對于文本中所包含的每個單詞,隨機分配K個主題中的一個作為該單詞所屬主 題;
[0021] 3)對于文本中所包含的每個單詞,隨機分配S個細粒度情感中的一個作為該單詞 所表達的細粒度情感;
[0022] 4)在區(qū)間[-1,1]內(nèi)隨機初始化嵴回歸參數(shù)η各分量,設置嵴回歸方差〇2初始 值為1 ;
[0023] 5)對于各個文本文檔d,統(tǒng)計屬于各個主題k的單詞數(shù)nd,k ;
[0024] 6)對于各個文本文檔d,統(tǒng)計各個段落p中表達細粒度情感s的單詞數(shù)nd, p,s及文 本文檔d中具有細粒度情感s的單詞總和nd,p ;
[0025] 7)對于各個主題k,統(tǒng)計屬于細粒度情感s、具有特性t的單詞數(shù);
[0026] 8)對于各個主題k,統(tǒng)計屬于細粒度情感s、單詞為V的數(shù)量ns,k, v;
[0027] 9)將所有單詞、單詞特征、單詞主題和單詞表達的細粒度情感合并為Φ ; α、β、 Y合并記為Ψ ;記4為α的第k個分量、3S,V和'3分別為β的{s,v}組分量和Y 的It, s}組分量;記η s為η的第s個分量;記yd,p為文檔d中段落p表達的粗粒度情感, 其在訓練數(shù)據(jù)中已知;按如下概率采樣文檔d中段落p內(nèi)的第i個單詞所屬主題Z iiu和所 表達細粒度情感8(1^ :
【權利要求】
1. 一種基于主題建模的多粒度情感分析方法,其特征在于包括如下步驟: 1) 提取社交媒體文本數(shù)據(jù)庫中所有數(shù)據(jù)的單詞和單詞特征; 2) 根據(jù)系統(tǒng)自動設定或用戶指定的參數(shù),確定建模中所采用的主題數(shù)目和細粒度情感 數(shù)目; 3) 根據(jù)給定訓練數(shù)據(jù),通過Gibbs采樣過程得到主題建模和細粒度情感建模的核心模 型; 4) 根據(jù)用戶的查詢請求從社交媒體數(shù)據(jù)庫中搜索得到文本結(jié)果; 5) 通過Gibbs采樣迭代確定每一個單詞所屬主題以及所屬細粒度情感; 6) 通過嵴回歸分類確定查詢得到的每個文檔中各段落表達的粗粒度情感并向用戶反 饋; 7) 根據(jù)單詞所屬主題以及單詞所表達細粒度情感向用戶反饋各個主題和各個細粒度 情感中最有代表性單詞,以及單詞不同特征在表達不同細粒度情感時的不同能力。
2. 根據(jù)權利要求1所述的一種基于主題建模的多粒度情感分析方法,其特征在于所述 的提取社交媒體文本數(shù)據(jù)庫中所有數(shù)據(jù)的單詞和單詞特征的步驟如下: 1) 采用自然語言處理工具標注每個單詞的詞性,以得到的詞性標注結(jié)果作為各單詞的 特征; 2) 去除其中無用的高頻詞以及頻數(shù)過低的生僻詞; 3) 統(tǒng)計處理后文本中所有出現(xiàn)過的單詞,組成詞匯表。
3. 根據(jù)權利要求1所述的一種基于主題建模的多粒度情感分析方法,其特征在于所述 的根據(jù)給定訓練數(shù)據(jù),通過Gibbs采樣得到基于主題建模的多粒度情感分析核心模型的步 驟如下: 1) 由系統(tǒng)自動設定,或者由用戶指定各組Dirichlet分布所需參數(shù)α、β和γ,以及 嵴回歸懲罰項系數(shù)λ,并且設定好迭代次數(shù)、收斂條件等參數(shù); 2) 對于文本中所包含的每個單詞,隨機分配K個主題中的一個作為該單詞所屬主題; 3) 對于文本中所包含的每個單詞,隨機分配S個細粒度情感中的一個作為該單詞所表 達的細粒度情感; 4) 在區(qū)間[_1,1]內(nèi)隨機初始化嵴回歸參數(shù)η各分量,設置嵴回歸方差〇2初始值為 1 ; 5) 對于各個文本文檔d,統(tǒng)計屬于各個主題k的單詞數(shù)nd,k ; 6) 對于各個文本文檔d,統(tǒng)計各個段落p中表達細粒度情感s的單詞數(shù)nd,p,s及文本文 檔d中具有細粒度情感s的單詞總和nd,p ; 7) 對于各個主題k,統(tǒng)計屬于細粒度情感s、具有特性t的單詞數(shù)ntits ; 8) 對于各個主題k,統(tǒng)計屬于細粒度情感s、單詞為V的數(shù)量ns,tv ; 9) 將所有單詞、單詞特征、單詞主題和單詞表達的細粒度情感合并為Φ;α、β、Y合 并記為Ψ;記ak為ct的第k個分量、βs,v和Yt,s分別為β的{s,ν}組分量和Y的{t,s} 組分量;記\為η的第s個分量;記yip為文檔d中段落p表達的粗粒度情感,其在訓練 數(shù)據(jù)中已知;按如下概率采樣文檔d中段落p內(nèi)的第i個單詞所屬主題Ziiu和所表達細粒 度情感Siiu:
式中,符號代表從向量中排除一個分量,下文中采用了相同符號記法; 10) 將所有文檔片段(這里是文檔段落)表達的粗粒度情感記為向量y,所有文檔段落 內(nèi)單詞表達的細粒度情感的比例組成矩陣Sr;記文檔d中所包含的段落數(shù)目為Pd,如下式求 得η與σ2的估計值:々與
11) 檢查算法是否滿足收斂條件,如不滿足返回步驟5 ; 12) 若算法已滿足收斂條件,記各個細粒度情感和各個主題關于所有不同單詞的多項 分布為Φ,各個單詞特征和各個主題關于所有不同細粒度情感的多項分布為μ,如下式得 到Φ的{s,k,v}維參數(shù)估計量?ι,.和μ的{t,k,s}維參數(shù)估計量Ah:
4. 根據(jù)權利要求1所述的一種基于主題建模的多粒度情感分析方法,其特征在于所述 的通過Gibbs采樣迭代地確定所有單詞所屬主題和所表達細粒度情感的步驟如下: 1) 由系統(tǒng)自動設定,或者由用戶指定各組Dirichlet分布的參數(shù)α、β、Y,以及嵴回 歸懲罰項系數(shù)λ,并且設定好迭代次數(shù)、收斂條件等參數(shù); 2) 對于數(shù)據(jù)集包含的每個單詞,隨機分配K個主題中的一個作為該單詞所屬主題; 3) 對于數(shù)據(jù)集包含的每個單詞,隨機分配S個細粒度情感中的一個作為該單詞所表達 的細粒度情感; 4) 對于各個文本文檔d,統(tǒng)計屬于某一主題k的單詞數(shù)nd,k ; 5) 按如下概率采樣文本文檔d中段落p內(nèi)的第i個單詞所屬主題Z4iu和所表達細粒 度情感Siiu:
6) 檢查算法是否滿足收斂條件,如不滿足返回步驟4 ; 7) 若算法已滿足收斂條件,輸出所有單詞所屬主題z和所表達的細粒度情感s。
5. 根據(jù)權利要求1所述的一種基于主題建模的多粒度情感分析方法,其特征在于所述 的通過嵴回歸分類確定所查詢的每個文檔中各段落表達的粗粒度情感并向用戶反饋的步 驟如下: 1) 將所有文本文檔段落中每個單詞表達的細粒度情感的比例組成矩陣記為i,如下式 求得所有文檔段落的粗粒度情感組成的向量y:
2) 將y中各個分量一一對應到所有文檔段落,作為各個段落所表達粗粒度情感的預測 值; 3) 將所有預測值整理成可視化圖表并反饋給用戶。
6.根據(jù)權利要求1所述的一種基于主題建模的多粒度情感分析方法,其特征在于所述 的根據(jù)單詞所屬主題和單詞所表達細粒度情感的最終分配結(jié)果向用戶反饋各個主題中與 各個細粒度情感中最有代表性的單詞信息的步驟如下: 1) 針對權利要求4中步驟7的輸出結(jié)果,記各個細粒度情感和各個主題關于所有不 同單詞的多項分布為Φ,各個單詞特征和各個主題關于所有不同細粒度情感的多項分布為 μ,如下式得到Φ的{s,k,v}維參數(shù)估計量iih和μ的{t,k,s}維參數(shù)估計量Ah:
2) 將所有Ah在各主題上求和,得到具有單詞特征t的所有單詞表達細粒度情感s的 比例估計/'1; 3) 對于每個主題k和每種細粒度情感s,根據(jù)L,,.的大小由高至低對各個單詞V排序; 4) 根據(jù)用戶指定或系統(tǒng)設定的數(shù)量返回最前面的排序結(jié)果作為各個主題內(nèi)表達各種 細粒度情感最有代表性的單詞,并整理成可視化圖表反饋給用戶; 5) 對于每種單詞特征t,根據(jù)的大小由高至低對各種細粒度情感s排序; 6) 將排序結(jié)果整理成可視化圖表反饋給用戶。
【文檔編號】G06F17/30GK104462408SQ201410766559
【公開日】2015年3月25日 申請日期:2014年12月12日 優(yōu)先權日:2014年12月12日
【發(fā)明者】湯斯亮, 邵健, 王翰琪, 吳飛, 莊越挺 申請人:浙江大學