一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
【專(zhuān)利摘要】本發(fā)明提出了一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法。包括:提出將在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題作為多標(biāo)簽分類(lèi)任務(wù),即一篇新聞對(duì)應(yīng)一種或者多種讀者情緒;提出一種多標(biāo)簽監(jiān)督的情緒?主題模型(ML?sETM),利用該模型對(duì)新聞文本進(jìn)行讀者情緒分類(lèi)。本發(fā)明提出的方法能夠有效預(yù)測(cè)讀者在閱讀在線(xiàn)新聞文本內(nèi)容后可能產(chǎn)生的情緒類(lèi)別集合。本發(fā)明可用于讀者情緒分析和輿情監(jiān)控等領(lǐng)域。
【專(zhuān)利說(shuō)明】
一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于情緒分析領(lǐng)域,具體涉及一種新型的面向新聞文本的讀者情緒預(yù)測(cè)方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展和Web 2.0時(shí)代的到來(lái),以在線(xiàn)新聞、微博、論壇、微信為代 表的新一代網(wǎng)絡(luò)媒體逐漸成為人們獲取信息的主要渠道。這些新興的網(wǎng)絡(luò)媒體逐漸改變了 人們參與互聯(lián)網(wǎng)的方式,由用戶(hù)產(chǎn)生的內(nèi)容(User Generate Content,UGC)開(kāi)始在互聯(lián)網(wǎng) 中占據(jù)越來(lái)越重要的地位。在線(xiàn)新聞服務(wù)作為主要的網(wǎng)絡(luò)信息載體,其內(nèi)容和形式也不斷 創(chuàng)新,開(kāi)始允許用戶(hù)通過(guò)情緒投票服務(wù)直接抒發(fā)自己對(duì)新聞事件的情緒,如感動(dòng)、同情、憤 怒和難過(guò)等。這些用戶(hù)情緒信息不但可以輔助在線(xiàn)新聞提供商更好地了解用戶(hù)偏好,為用 戶(hù)提供更好的個(gè)性化服務(wù)。同時(shí),有助于分析大眾對(duì)新聞事件的態(tài)度和情緒變化,有效實(shí)現(xiàn) 網(wǎng)絡(luò)輿情監(jiān)控,維護(hù)健康的網(wǎng)絡(luò)環(huán)境和社會(huì)的穩(wěn)定發(fā)展。因此,如何對(duì)用戶(hù)的情緒進(jìn)行預(yù)測(cè) 具有重要的理論意義和應(yīng)用價(jià)值。
[0003] 傳統(tǒng)的情緒預(yù)測(cè)研究工作往往集中在對(duì)文本作者的情緒進(jìn)行預(yù)測(cè),而針對(duì)文本讀 者的情緒預(yù)測(cè)研究工作還比較少。讀者情緒預(yù)測(cè)研究的目標(biāo)是預(yù)測(cè)讀者在閱讀文本后所產(chǎn) 生的情緒,已有研究證明讀者的情緒與作者的情緒并不總是一致的。且已有的讀者情緒預(yù) 測(cè)研究往往將其作為一個(gè)單標(biāo)簽分類(lèi)任務(wù),即認(rèn)為一篇新聞只會(huì)使讀者產(chǎn)生一種情緒。這 明顯與人類(lèi)直覺(jué)和大規(guī)模讀者情緒統(tǒng)計(jì)結(jié)果不符,不同讀者對(duì)同一篇新聞產(chǎn)生的情緒往往 是不同的。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是解決如何準(zhǔn)確預(yù)測(cè)讀者在閱讀新聞后可能產(chǎn)生情緒的問(wèn)題,針對(duì) 現(xiàn)有情緒預(yù)測(cè)方法直接應(yīng)用到面向新聞文本的讀者情緒預(yù)測(cè)問(wèn)題上時(shí)凸顯的不足,以知名 在線(xiàn)新聞網(wǎng)站新浪新聞為代表性研究對(duì)象,提供一種專(zhuān)門(mén)面向在線(xiàn)新聞的,對(duì)讀者在閱讀 新聞文本后可能產(chǎn)生的情緒進(jìn)行預(yù)測(cè)的方法。
[0005] 本發(fā)明針對(duì)現(xiàn)有技術(shù)的問(wèn)題,創(chuàng)新性地在傳統(tǒng)LDA主題模型的基礎(chǔ)上,提出了一種 多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM),增加一層表示讀者情緒的情緒層,并利用讀者情 緒反饋信息對(duì)模型進(jìn)行監(jiān)督。最終本發(fā)明能夠有效利用文本語(yǔ)義信息,更加準(zhǔn)確地預(yù)測(cè)讀 者情緒。
[0006] 本發(fā)明提出的面向新聞文本的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法,包括如下步 驟:
[0007] 第1、對(duì)在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題進(jìn)行形式化描述
[0008] 定義1:在線(xiàn)新聞文本集合,用符號(hào)D表示:
[0009] D={d(1),d(2),H.,d(N)} (H)
[0010] 其中,d(1)表示新聞文本,N為在線(xiàn)新聞文本數(shù);
[0011 ]定義2:讀者情緒標(biāo)簽集合,用符號(hào)E表示:
[0012] E={ei,e2,...,eM} (1~2)
[0013] 其中,&表示讀者的某一種情緒標(biāo)簽,M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù);
[0014] 定義3:讀者在閱讀新聞文本d(1)后會(huì)產(chǎn)生某一種或者某幾種情緒,且不同的讀者 對(duì)同一新聞文本d (i)可能會(huì)產(chǎn)生不同的情緒,這些情緒標(biāo)簽組合在一起構(gòu)成了一個(gè)情緒標(biāo) 簽子集合^,其中teF;
[0015] 定義4:向量g IT為在線(xiàn)新聞文本d(i) GD的特征構(gòu)成的特征向量:
[0017]其中.療)表示新聞文本d(1)的第j個(gè)特征;
[0018]定義5:向量y(1)為對(duì)應(yīng)的新聞文本d(1)GD的情緒標(biāo)簽標(biāo)注,用來(lái)表示讀者在閱讀 新聞后可能產(chǎn)生的所有情緒:
[0020]如果新聞文本d(i)標(biāo)注的情緒標(biāo)簽子集合為足G五,則y⑴中的項(xiàng)g'kG 1,2,…,M 可表示為
[0022] 定義6:由新聞文本的特征向量和相應(yīng)的情緒標(biāo)注的N個(gè)向量組成的標(biāo)注數(shù)據(jù)集T, 用于讀者情緒預(yù)測(cè)模型訓(xùn)練,可表示為:
[0023] T={(x ⑴,y⑴),(x ⑵,y(2)),...,(x(N),y(N))} (1-6)
[0024] 其中,x(1)表示新聞文本d(1)的特征向量,y(1)表示新聞文本d (1)的情緒標(biāo)簽標(biāo)注;
[0025] 定義7:語(yǔ)料庫(kù)中的所有新聞文本,關(guān)于預(yù)定義的情緒標(biāo)簽集合中各情緒的概率分 布,用符號(hào)5表不;
[0026] 定義8:對(duì)于情緒標(biāo)簽集合中的所有情緒標(biāo)簽,關(guān)于語(yǔ)料庫(kù)中隱含主題集合中的各 個(gè)主題,構(gòu)成情緒-主題分布,用符號(hào)9表示;
[0027] 定義9 :對(duì)于主題集合中的所有主題,關(guān)于語(yǔ)料庫(kù)中的所有詞,構(gòu)成主題-詞分布, 用符號(hào)f表不;
[0028] 第2、構(gòu)建多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM
[0029] 定義10:多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM:對(duì)LDA主題模型(Latent Dirichlet Allocation Topic Model)進(jìn)行擴(kuò)展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴(kuò)展 為"文檔-情緒-主題-詞"四層貝葉斯結(jié)構(gòu),同時(shí)將其擴(kuò)展為監(jiān)督的主題模型。
[0030]第2.1、對(duì)于情緒標(biāo)簽集合中的每個(gè)情緒標(biāo)簽心££,其中mG{l,2,…,M},從先驗(yàn) 參數(shù)為a的狄利克雷分布中得到相應(yīng)的情緒-主題分布0m={0m>1,0m, 2,…,0m,dT,其中K為語(yǔ) 料庫(kù)中隱含主題的數(shù)目;
[0031]第2.2、對(duì)于隱含主題集合中的每個(gè)主題t(tGl,2,…,K),從先驗(yàn)參數(shù)為0的狄利 克雷分布中得到相應(yīng)的主題-詞分布%={1,42,-,%>1,;} 1,:其中¥為語(yǔ)料庫(kù)中特征詞的數(shù) 目;
[0032]第2.3、對(duì)于語(yǔ)料庫(kù)中的每一篇新聞文本(1(1),根據(jù)其標(biāo)注向量11(1)和先驗(yàn)參數(shù)丫, 得到新聞文本d(1)屬于各個(gè)情緒標(biāo)簽的概率分布S'd = SdXy(1),其中…,Sd,M }TS從先驗(yàn)參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布;
[0033]第2.4、利用Gibbs采樣方法,計(jì)算情緒-主題模型對(duì)訓(xùn)練數(shù)據(jù)的情緒-主題分布0和 主題-詞分布識(shí);
[0034] 第2.4.1、對(duì)于語(yǔ)料庫(kù)中的每一個(gè)單詞Wi,隨機(jī)初始化情緒標(biāo)簽e G {ei,e2,…,eM} 和主題t G { tl,t2,…,tl(};
[0035] 第2.4.2、根據(jù)計(jì)算得到情緒標(biāo)簽e、主題t的后驗(yàn)概率分布,為語(yǔ)料庫(kù)中的每個(gè)詞 重新分配情緒標(biāo)簽和主題。其中詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式:
[0036]
[0037] 其中,表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后主題z被分配給情緒標(biāo)簽e的次數(shù); 表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后詞Wl被分配給主題t的次數(shù);%表示文檔d中被分配 給情緒標(biāo)簽e的詞的數(shù)目。|W|為語(yǔ)料庫(kù)中詞的數(shù)目,K為語(yǔ)料庫(kù)中隱含主題的數(shù)目,M為語(yǔ)料 庫(kù)中情緒標(biāo)簽數(shù)。
[0038] 第2.4.3、將第2.4.2步重復(fù)I次直至收斂,可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié) 果進(jìn)行頻次統(tǒng)計(jì),計(jì)算得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布和主題-詞分布#,計(jì)算方法如下 公式:
[0040] 其中,ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n.,z, w表示整個(gè)語(yǔ) 料庫(kù)中詞^被分配給主題t的次數(shù)。
[0041] 第3、對(duì)于未知讀者情緒標(biāo)簽的新聞文本d(N+1),利用第2.4步得到的情緒-主題分布 S和主題-詞分布#,采用Gibbs采樣方法得到文檔屬于各個(gè)情緒標(biāo)簽的概率S;
[0042] 第3.1、對(duì)于新聞文本d(N+1)中的每一個(gè)單詞^,隨機(jī)初始化情緒標(biāo)簽eG{ei, e2,…, eM}和主題t E {ti,t2,…,ti(};
[0043]第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題。 詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式:
[0045] 其中,Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù),或,為第2步訓(xùn)練后的情緒-主 題模型得到的主題z屬于情緒標(biāo)簽e的概率,氣 >.為已訓(xùn)練模型得到的詞w屬于主題z的概率;
[0046] 第3.3、將第3.2步重復(fù)I次直至收斂,可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié)果進(jìn) 行頻次統(tǒng)計(jì),得到文檔關(guān)于各情緒標(biāo)簽的概率分布8,計(jì)算方法如下公式:
[0048]第3.4、根據(jù)第3.3步計(jì)算得到的未知文檔關(guān)于情緒標(biāo)簽的概率分布5,采用基于閾 值的方法得到新聞文本所屬的情緒標(biāo)簽集合。其計(jì)算方法如下:
[0050]其中,p為預(yù)先定義的閾值,為未知新聞文本屬于情緒標(biāo)簽e的概率。
[00511本發(fā)明的優(yōu)點(diǎn)和積極效果:
[0052]本發(fā)明提出的面向在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)方法,能夠有效解決傳統(tǒng)情緒預(yù) 測(cè)方法僅能預(yù)測(cè)單一情緒的不足;同時(shí)本發(fā)明提出的多標(biāo)簽監(jiān)督的情緒-主題模型,能夠有 效利用文本語(yǔ)義信息,挖掘讀者情緒與新聞"主題"之間的聯(lián)系,與傳統(tǒng)模型相比,能夠更加 準(zhǔn)確地預(yù)測(cè)讀者在閱讀新聞文本后可能產(chǎn)生的情緒。
【附圖說(shuō)明】
[0053] 圖1為本發(fā)明提出的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法的過(guò)程示意圖
[0054] 圖2為本發(fā)明提出的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法的整體流程。
[0055] 圖3為多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM)。
[0056] 圖4為現(xiàn)有單標(biāo)簽分類(lèi)算法與本發(fā)明方法在讀者情緒預(yù)測(cè)問(wèn)題上的性能比較結(jié) 果。
[0057] 圖5為現(xiàn)有多標(biāo)簽分類(lèi)算法與本發(fā)明方法在讀者情緒預(yù)測(cè)問(wèn)題上的性能比較結(jié) 果。
[0058]圖6為一篇新的未知讀者情緒的新聞文本。
[0059] 圖7為新聞數(shù)據(jù)集中排名前10的情感標(biāo)簽。
【具體實(shí)施方式】
[0060] 本發(fā)明提出了一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
[0061] 方法整體流程如圖2所示,首先根據(jù)訓(xùn)練數(shù)據(jù)集中的情感知識(shí)訓(xùn)練模型,實(shí)驗(yàn)的數(shù) 據(jù)集來(lái)自新浪新聞社會(huì)頻道抓取的從2011年1月到2011年6月4654篇熱點(diǎn)新聞,讀者情緒投 票總數(shù)為1221458,平均每篇新聞的用戶(hù)情緒投票數(shù)目為262,為實(shí)驗(yàn)提供了充足的情感數(shù) 據(jù)。
[0062]圖7為新聞數(shù)據(jù)集中排名前10的情感標(biāo)簽集合,證明了多標(biāo)簽情感分析的必要性。 [0063]首先采用Gibbs采樣訓(xùn)練整個(gè)數(shù)據(jù)集T,估計(jì)參數(shù),最后得到三個(gè)參數(shù),文檔-情緒 分布S、情緒-主題分布0、主題-詞分布P,由于三個(gè)參數(shù)都是矩陣,這里就不再具體展開(kāi),具 體算法如下:
[0064]算法lGibbs采樣參數(shù)估計(jì)算法
[0065] 1)初始化后驗(yàn)概率0 = 0、辦=〇、5 = 0;
[0066] 2)將隨機(jī)變量0、切、_5對(duì)應(yīng)的先驗(yàn)參數(shù)a、0、y初始化為常數(shù),g卩a = a、0 = b、y =r;
[0067] 3)為文檔中每個(gè)詞隨機(jī)分配情緒標(biāo)簽和主題,得到初始的分布變量,y和z;
[0068] 4)計(jì)算情緒標(biāo)簽和主題的后驗(yàn)概率,計(jì)算公式如下:
[0071] 其中,K表示語(yǔ)料庫(kù)中隱含主題的數(shù)目,M表示語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)目,W表示語(yǔ)料 庫(kù)中詞的總數(shù);表示不包含當(dāng)前詞下語(yǔ)料庫(kù)中主題t分配給情緒標(biāo)簽£的數(shù)目;表 示不包含當(dāng)前詞下文檔中的詞被分配給情緒標(biāo)簽£的數(shù)目;表示當(dāng)前文檔的情緒標(biāo)注結(jié) 果,表示為M維的向量,每一維為0或者1,分別表示文檔不屬于或者屬于該維對(duì)應(yīng)的情緒標(biāo) 簽;〃 乂表示不包含當(dāng)前詞下語(yǔ)料庫(kù)中詞w分配給主題t的數(shù)目;
[0072] 5)根據(jù)步驟4)計(jì)算得到的后驗(yàn)概率值,為語(yǔ)料庫(kù)中所有詞重新分配情緒標(biāo)簽和主 題;
[0073] 6)將步驟5)迭代I次,可認(rèn)為文檔中所有詞的情緒標(biāo)簽、主題分配結(jié)果已接近真實(shí) 分布。對(duì)迭代后的結(jié)果進(jìn)行頻次統(tǒng)計(jì),得到得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布#和主題-詞 分布#,計(jì)算方法如下公式:
[0076]其中,ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n., z,w表示整個(gè)語(yǔ) 料庫(kù)中詞^被分配給主題t的次數(shù);
[0077] 7)結(jié)束。
[0078]圖6為新的未知讀者情緒的新聞文本(IT小伙半夜疑猝死專(zhuān)家稱(chēng)猝死年輕化趨勢(shì) 明顯),我們需要利用訓(xùn)練得到的多標(biāo)簽監(jiān)督的情緒-主題模型,將其分類(lèi)到相應(yīng)的情緒類(lèi) 別集合中。這里的文本類(lèi)別是指對(duì)應(yīng)的讀者情緒,如高興、震驚、難過(guò)、感動(dòng)等。圖3為本發(fā)明 提出的多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM)的模型圖。其主要包括的核心思想:在LDA主 題模型的基礎(chǔ)上增加一層讀者情緒層,認(rèn)為文檔是若干情緒的混合分布,而每種情緒又是 一個(gè)關(guān)于主題的混合分布,每個(gè)主題又是一個(gè)關(guān)于單詞的概率分布。該多標(biāo)簽監(jiān)督的情緒-主題模型可以看作是文檔的一種生成模型:文檔的生成就是基于主題模型的一個(gè)簡(jiǎn)單概率 過(guò)程。當(dāng)生成一個(gè)新的文檔時(shí),首先得到一個(gè)關(guān)于情緒的分布,對(duì)于該文檔中的每一個(gè)單 詞,先通過(guò)情緒的分布隨機(jī)得到某個(gè)情緒,接著通過(guò)該情緒對(duì)應(yīng)的主題分布隨機(jī)得到一個(gè) 主題,最后通過(guò)該主題對(duì)應(yīng)的單詞分布隨機(jī)得到一個(gè)具體的詞。最終,每個(gè)單詞都被分配一 個(gè)情緒和主題,通過(guò)這種方式將新聞文本主題與讀者情緒聯(lián)系起來(lái),利用情緒-主題模型能 夠有效挖掘文本語(yǔ)義的特點(diǎn),提高模型的讀者情緒預(yù)測(cè)能力。
[0079] 算法2情緒預(yù)測(cè)算法
[0080] 1)對(duì)于未知文本中的每一個(gè)單詞Wi,隨機(jī)初始化情緒標(biāo)簽e G {ei,e2,…,eM}和主 題te {tl,t2,…,tl(};
[0081] 2)利用Gibbs采樣方法為d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題。詞^屬于各情 緒標(biāo)簽、主題的概率的計(jì)算方法如下公式:
[0084] Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù),么_為已訓(xùn)練模型得到的主題z屬于 情緒標(biāo)簽e的概率,灸#為已訓(xùn)練模型得到的詞w屬于主題z的概率;
[0085] 3)將步驟(2)重復(fù)I次直至收斂,可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié)果進(jìn)行頻 次統(tǒng)計(jì),得到文檔關(guān)于各情緒標(biāo)簽的概率分布8,計(jì)算方法如下公式:
[0087] 4)根據(jù)步驟(3)計(jì)算得到的未知文檔關(guān)于情緒標(biāo)簽的概率分布8,采用基于閾值的 方法得到新聞所屬的情緒標(biāo)簽集合。其計(jì)算方法如下:
[0089] 其中,p為預(yù)先定義的閾值,為未知新聞文本屬于情緒標(biāo)簽e的概率。
[0090] 5)結(jié)束。
[0091] 對(duì)于圖6的新聞文本(IT小伙半夜疑猝死專(zhuān)家稱(chēng)猝死年輕化趨勢(shì)明顯),經(jīng)過(guò)上述 的算法2進(jìn)行預(yù)測(cè),最后得到一系列的情緒標(biāo)簽的概率。
[0092] {5.0% ,33.7% ,13.1% ,9.9% ,0.6% ,27.9% ,10.7% ,4.1%};
[0093] 根據(jù)經(jīng)驗(yàn)我們選擇閾值p的值為0.8,根據(jù)步驟(4)的計(jì)算,我們發(fā)現(xiàn)只有同情和難 過(guò)這兩個(gè)情緒在閾值范圍內(nèi)。
[0094] 另一方面,我們查看讀者的情感投票,八種情感的讀者投票分別為:
[0095] {0,212,32,11,0,191,10,20};
[0096] 根據(jù)步驟(4)的計(jì)算,我們發(fā)現(xiàn)同樣只有兩種情感在閾值范圍中,同情和難過(guò),和 預(yù)測(cè)的結(jié)果不謀而合。
[0097] 然而,一條新聞的預(yù)測(cè)準(zhǔn)確不能證明我們模型的準(zhǔn)確性和高效性,我們需要通過(guò) 大量的數(shù)據(jù)來(lái)證明,同時(shí)還需要對(duì)比最新的情感分析的多標(biāo)簽算法。
[0098] 實(shí)驗(yàn)從多標(biāo)簽分類(lèi)領(lǐng)域常用的 Hamming-Loss、subsetAcc、0ne_error 和 F-Measure 四個(gè)指標(biāo)來(lái)評(píng)測(cè),其中Hamming-Loss通過(guò)計(jì)算模型預(yù)測(cè)出的標(biāo)簽集合與真實(shí)標(biāo)注的標(biāo)簽集 合之間的差距來(lái)度量多標(biāo)簽分類(lèi)器的性能,One-error衡量的是排名第一的標(biāo)簽不包含在 標(biāo)簽集合中的概率,這兩個(gè)指標(biāo)越小表示結(jié)果越好;subsetAcc可以反應(yīng)預(yù)測(cè)的標(biāo)簽集合與 實(shí)際的標(biāo)簽集合完全相同所占的比例,F(xiàn)-Measure是對(duì)查全率和查準(zhǔn)率的一種權(quán)衡,這兩個(gè) 指標(biāo)越大表示結(jié)果越好。
[0099] 試驗(yàn)中用來(lái)對(duì)比的方法是修改后的多元邏輯回歸算法MLR、多標(biāo)簽分類(lèi)領(lǐng)域經(jīng)典 的BR算法、MLkNN算法、RAkEL算法、CLR算法,對(duì)于BR、CLR和RAkEL三種算法的基礎(chǔ)二分類(lèi)器 均選擇在文本分類(lèi)問(wèn)題中表現(xiàn)效果比較好的SVM算法,RAkEL中和MLkNN中的參數(shù)k都設(shè)置為 3(實(shí)驗(yàn)證明k = 3時(shí)效果最好)。
[0100] 圖4為本發(fā)明提出的多標(biāo)簽監(jiān)督的情緒-主題模型與多元邏輯斯諫回歸模型MLR的 性能比較結(jié)果??梢钥闯?,本發(fā)明提出的ML-sETM模型在所有的評(píng)測(cè)指標(biāo)上,均明顯優(yōu)于多 元邏輯斯諫回歸模型。
[0101] 圖5為本發(fā)明提出的方法與傳統(tǒng)多標(biāo)簽分類(lèi)方法性能比較結(jié)果。可以看出,本文提 出的多標(biāo)簽監(jiān)督的情緒主題模型ML-sETM在全部評(píng)價(jià)指標(biāo)上表現(xiàn)效果均最優(yōu),從而驗(yàn)證了 本文提出的ML-sETM模型能夠更加準(zhǔn)確地將新聞文本分類(lèi)到讀者可能產(chǎn)生的情緒類(lèi)別集合 中。
【主權(quán)項(xiàng)】
1. 一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法,該方法包括如下步驟: 第1、對(duì)在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題進(jìn)行形式化描述 定義1:在線(xiàn)新聞文本集合,用符號(hào)D表示: D= {d⑴,d⑵,…,d(N)} (1-1) 其中,d(i)表示新聞文本,N為在線(xiàn)新聞文本數(shù); 定義2:讀者情緒標(biāo)簽集合,用符號(hào)E表示: E= {ei,e2, ??? ,eM} (1-2) 其中,ei表示讀者的某一種情緒標(biāo)簽,M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù); 定義3:讀者在閱讀新聞文本d(1)后會(huì)產(chǎn)生某一種或者某幾種情緒,且不同的讀者對(duì)同 一新聞文本d(1)會(huì)產(chǎn)生不同的情緒,這些情緒標(biāo)簽組合在一起構(gòu)成了一個(gè)情緒標(biāo)簽子集合 Yl,其中}^ 定義4:向量x(/> g 在線(xiàn)新聞文本d(1)GD的特征構(gòu)成的特征向量:其中.#表示新聞文本d(1)的第j個(gè)特征; 定義5:向量y(1)為對(duì)應(yīng)的新聞文本d(1)GD的情緒標(biāo)簽標(biāo)注,用來(lái)表示讀者在閱讀新聞 后可能廣生的所有情緒: //(,t(!-4> 如果新聞文本d(i)標(biāo)注的情緒標(biāo)簽子集合為f ,則y(i)中的項(xiàng)…,il#可表 示為定義6:由新聞文本的特征向量和相應(yīng)的情緒標(biāo)注的N個(gè)向量組成的標(biāo)注數(shù)據(jù)集T,用于 讀者情緒預(yù)測(cè)模型訓(xùn)練,可表示為: T={(xw,iiw),(xm,ym),~,( xw,iiw)} (1-6) 其中,X(1)表示新聞文本d(1)的特征向量,ii(1)表示新聞文本d (1)的情緒標(biāo)簽標(biāo)注; 定義7:語(yǔ)料庫(kù)中的所有新聞文本,關(guān)于預(yù)定義的情緒標(biāo)簽集合中各情緒的概率分布, 用符號(hào)S表示; 定義8:對(duì)于情緒標(biāo)簽集合中的所有情緒標(biāo)簽,關(guān)于語(yǔ)料庫(kù)中隱含主題集合中的各個(gè)主 題,構(gòu)成情緒-主題分布,用符號(hào)9表示; 定義9:對(duì)于主題集合中的所有主題,關(guān)于語(yǔ)料庫(kù)中的所有詞,構(gòu)成主題-詞分布,用符 號(hào)於表;^;; 第2、構(gòu)建多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM 定義10:多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM:對(duì)LDA主題模型(Latent Dirichlet Allocation Topic Model)進(jìn)行擴(kuò)展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴(kuò)展為"文檔-情 緒-主題-詞"四層貝葉斯結(jié)構(gòu),同時(shí)將其擴(kuò)展為監(jiān)督的主題模型; 第2.1、對(duì)于情緒標(biāo)簽集合中的每個(gè)情緒標(biāo)簽&££,其中mG{l,2,…,M},從先驗(yàn)參數(shù)為 a的狄利克雷分布中得到相應(yīng)的情緒-主題分布0m= {0m>1,0m,2,…,0m,d T,其中K為語(yǔ)料庫(kù)中 隱含主題的數(shù)目; 第2.2、對(duì)于隱含主題集合中的每個(gè)主題t,其中tG{l,2,…,K},從先驗(yàn)參數(shù)為0的狄利 克雷分布中得到相應(yīng)的主題-詞分布% ,其中V為語(yǔ)料庫(kù)中特征詞的數(shù) 目; 第2.3、對(duì)于語(yǔ)料庫(kù)中的每一篇新聞文本d(1),根據(jù)其標(biāo)注向量y(1)和先驗(yàn)參數(shù)y,得到 新聞文本d(1)屬于各個(gè)情緒標(biāo)簽的概率分布S'd = SdXy(1),其中~二㈨山~』,…,Sd,M} T為 從先驗(yàn)參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布; 第2.4、利用Gibbs采樣方法,計(jì)算情緒-主題模型對(duì)訓(xùn)練數(shù)據(jù)的情緒-主題分布0和主 題-詞分布伊 第2.4.1、對(duì)于語(yǔ)料庫(kù)中的每一個(gè)單詞Wl,隨機(jī)初始化情緒標(biāo)簽e G {ei,e2,…,eM}和主題 tG {tl,t2,…,tl(}; 第2.4.2、根據(jù)計(jì)算得到的情緒標(biāo)簽、主題的后驗(yàn)概率分布,為語(yǔ)料庫(kù)中的每個(gè)詞重新 分配情緒標(biāo)簽和主題,其中詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式:其中,表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后主題z被分配給情緒標(biāo)簽e的次數(shù);表 示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞Wl后詞Wl被分配給主題t的次數(shù);表示文檔d中被分配給情 緒標(biāo)簽e的詞的數(shù)目;|W|為語(yǔ)料庫(kù)中詞的數(shù)目,K為語(yǔ)料庫(kù)中隱含主題的數(shù)目,M為語(yǔ)料庫(kù)中 情緒標(biāo)簽數(shù); 第2.4.3、將第2.4.2步重復(fù)I次直至收斂,認(rèn)為接近真實(shí)的分布;對(duì)迭代后的結(jié)果進(jìn)行 頻次統(tǒng)計(jì),計(jì)算得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布#和主題-詞分布參4十算方法如下公式:其中,ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n.,z, w表示整個(gè)語(yǔ)料庫(kù) 中詞Wl被分配給主題t的次數(shù); 第3、對(duì)于未知讀者情緒標(biāo)簽的新聞文本d(N+1),利用第2.4步得到的情緒-主題分布#和 主題-詞分布#,采用Gibbs采樣方法得到文檔屬于各個(gè)情緒標(biāo)簽的概率S; 第3.1、對(duì)于新聞文本d(N+1)中的每一個(gè)單詞^,隨機(jī)初始化情緒標(biāo)簽e G {ei,e2,…,eM} 和主題tE {tl,t2,"_,tl(}; 第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題;詞^ 屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式:其中,Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù),4為第2步訓(xùn)練后的情緒-主題模型 得到的主題z屬于情緒標(biāo)簽e的概率,氣,#為已訓(xùn)練模型得到的詞w屬于主題z的概率; 第3.3、將第3.2步重復(fù)I次直至收斂,認(rèn)為接近真實(shí)的分布;對(duì)迭代后的結(jié)果進(jìn)行頻次 統(tǒng)計(jì),得到文檔關(guān)于各情緒標(biāo)簽的概率分布L計(jì)算方法如下公式:第3.4、根據(jù)第3.3步計(jì)算得到的未知文檔關(guān)于情緒的概率分布8,采用基于閾值的方法 得到新聞文本所屬的情緒標(biāo)簽集合,其計(jì)算方法如下:其中,P為預(yù)先定義的閾值,8&為未知新聞文本屬于情緒標(biāo)簽e的概率。
【文檔編號(hào)】G06F17/30GK106055596SQ201610347226
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】張瑩, 楊志帆, 俞力, 趙雪, 袁曉潔
【申請(qǐng)人】南開(kāi)大學(xué)