一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法

文檔序號(hào)：10687094閱讀：170來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
【專(zhuān)利摘要】本發(fā)明提出了一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法。包括：提出將在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題作為多標(biāo)簽分類(lèi)任務(wù)，即一篇新聞對(duì)應(yīng)一種或者多種讀者情緒；提出一種多標(biāo)簽監(jiān)督的情緒?主題模型(ML?sETM)，利用該模型對(duì)新聞文本進(jìn)行讀者情緒分類(lèi)。本發(fā)明提出的方法能夠有效預(yù)測(cè)讀者在閱讀在線(xiàn)新聞文本內(nèi)容后可能產(chǎn)生的情緒類(lèi)別集合。本發(fā)明可用于讀者情緒分析和輿情監(jiān)控等領(lǐng)域。
【專(zhuān)利說(shuō)明】
一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于情緒分析領(lǐng)域，具體涉及一種新型的面向新聞文本的讀者情緒預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展和Web 2.0時(shí)代的到來(lái)，以在線(xiàn)新聞、微博、論壇、微信為代表的新一代網(wǎng)絡(luò)媒體逐漸成為人們獲取信息的主要渠道。這些新興的網(wǎng)絡(luò)媒體逐漸改變了人們參與互聯(lián)網(wǎng)的方式，由用戶(hù)產(chǎn)生的內(nèi)容(User Generate Content,UGC)開(kāi)始在互聯(lián)網(wǎng) 中占據(jù)越來(lái)越重要的地位。在線(xiàn)新聞服務(wù)作為主要的網(wǎng)絡(luò)信息載體，其內(nèi)容和形式也不斷創(chuàng)新，開(kāi)始允許用戶(hù)通過(guò)情緒投票服務(wù)直接抒發(fā)自己對(duì)新聞事件的情緒，如感動(dòng)、同情、憤怒和難過(guò)等。這些用戶(hù)情緒信息不但可以輔助在線(xiàn)新聞提供商更好地了解用戶(hù)偏好，為用戶(hù)提供更好的個(gè)性化服務(wù)。同時(shí)，有助于分析大眾對(duì)新聞事件的態(tài)度和情緒變化，有效實(shí)現(xiàn) 網(wǎng)絡(luò)輿情監(jiān)控，維護(hù)健康的網(wǎng)絡(luò)環(huán)境和社會(huì)的穩(wěn)定發(fā)展。因此，如何對(duì)用戶(hù)的情緒進(jìn)行預(yù)測(cè) 具有重要的理論意義和應(yīng)用價(jià)值。
[0003] 傳統(tǒng)的情緒預(yù)測(cè)研究工作往往集中在對(duì)文本作者的情緒進(jìn)行預(yù)測(cè)，而針對(duì)文本讀者的情緒預(yù)測(cè)研究工作還比較少。讀者情緒預(yù)測(cè)研究的目標(biāo)是預(yù)測(cè)讀者在閱讀文本后所產(chǎn) 生的情緒，已有研究證明讀者的情緒與作者的情緒并不總是一致的。且已有的讀者情緒預(yù) 測(cè)研究往往將其作為一個(gè)單標(biāo)簽分類(lèi)任務(wù)，即認(rèn)為一篇新聞只會(huì)使讀者產(chǎn)生一種情緒。這明顯與人類(lèi)直覺(jué)和大規(guī)模讀者情緒統(tǒng)計(jì)結(jié)果不符，不同讀者對(duì)同一篇新聞產(chǎn)生的情緒往往是不同的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是解決如何準(zhǔn)確預(yù)測(cè)讀者在閱讀新聞后可能產(chǎn)生情緒的問(wèn)題，針對(duì) 現(xiàn)有情緒預(yù)測(cè)方法直接應(yīng)用到面向新聞文本的讀者情緒預(yù)測(cè)問(wèn)題上時(shí)凸顯的不足，以知名在線(xiàn)新聞網(wǎng)站新浪新聞為代表性研究對(duì)象，提供一種專(zhuān)門(mén)面向在線(xiàn)新聞的，對(duì)讀者在閱讀新聞文本后可能產(chǎn)生的情緒進(jìn)行預(yù)測(cè)的方法。
[0005] 本發(fā)明針對(duì)現(xiàn)有技術(shù)的問(wèn)題，創(chuàng)新性地在傳統(tǒng)LDA主題模型的基礎(chǔ)上，提出了一種多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM)，增加一層表示讀者情緒的情緒層，并利用讀者情緒反饋信息對(duì)模型進(jìn)行監(jiān)督。最終本發(fā)明能夠有效利用文本語(yǔ)義信息，更加準(zhǔn)確地預(yù)測(cè)讀者情緒。
[0006] 本發(fā)明提出的面向新聞文本的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法，包括如下步驟：
[0007] 第1、對(duì)在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題進(jìn)行形式化描述
[0008] 定義1:在線(xiàn)新聞文本集合，用符號(hào)D表示：
[0009] D={d(1)，d(2)，H.，d(N)} (H)
[0010] 其中，d(1)表示新聞文本，N為在線(xiàn)新聞文本數(shù)；
[0011 ]定義2:讀者情緒標(biāo)簽集合，用符號(hào)E表示：
[0012] E={ei，e2，...，eM} (1~2)
[0013] 其中，&表示讀者的某一種情緒標(biāo)簽，M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)；
[0014] 定義3:讀者在閱讀新聞文本d(1)后會(huì)產(chǎn)生某一種或者某幾種情緒，且不同的讀者對(duì)同一新聞文本d (i)可能會(huì)產(chǎn)生不同的情緒，這些情緒標(biāo)簽組合在一起構(gòu)成了一個(gè)情緒標(biāo) 簽子集合^，其中teF;
[0015] 定義4:向量g IT為在線(xiàn)新聞文本d(i) GD的特征構(gòu)成的特征向量：
[0017]其中.療)表示新聞文本d(1)的第j個(gè)特征；
[0018]定義5:向量y(1)為對(duì)應(yīng)的新聞文本d(1)GD的情緒標(biāo)簽標(biāo)注，用來(lái)表示讀者在閱讀新聞后可能產(chǎn)生的所有情緒：
[0020]如果新聞文本d(i)標(biāo)注的情緒標(biāo)簽子集合為足G五，則y⑴中的項(xiàng)g'kG 1，2,…，M 可表示為
[0022] 定義6:由新聞文本的特征向量和相應(yīng)的情緒標(biāo)注的N個(gè)向量組成的標(biāo)注數(shù)據(jù)集T，用于讀者情緒預(yù)測(cè)模型訓(xùn)練，可表示為：
[0023] T={(x ⑴，y⑴），（x ⑵，y(2))，...，（x(N)，y(N))} (1-6)
[0024] 其中，x(1)表示新聞文本d(1)的特征向量，y(1)表示新聞文本d (1)的情緒標(biāo)簽標(biāo)注；
[0025] 定義7:語(yǔ)料庫(kù)中的所有新聞文本，關(guān)于預(yù)定義的情緒標(biāo)簽集合中各情緒的概率分布，用符號(hào)5表不；
[0026] 定義8:對(duì)于情緒標(biāo)簽集合中的所有情緒標(biāo)簽，關(guān)于語(yǔ)料庫(kù)中隱含主題集合中的各個(gè)主題，構(gòu)成情緒-主題分布，用符號(hào)9表示；
[0027] 定義9 :對(duì)于主題集合中的所有主題，關(guān)于語(yǔ)料庫(kù)中的所有詞，構(gòu)成主題-詞分布，用符號(hào)f表不；
[0028] 第2、構(gòu)建多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM
[0029] 定義10:多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM:對(duì)LDA主題模型（Latent Dirichlet Allocation Topic Model)進(jìn)行擴(kuò)展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴(kuò)展為"文檔-情緒-主題-詞"四層貝葉斯結(jié)構(gòu)，同時(shí)將其擴(kuò)展為監(jiān)督的主題模型。
[0030]第2.1、對(duì)于情緒標(biāo)簽集合中的每個(gè)情緒標(biāo)簽心￡￡，其中mG{l，2,…，M}，從先驗(yàn) 參數(shù)為a的狄利克雷分布中得到相應(yīng)的情緒-主題分布0m={0m>1，0m, 2,…，0m,dT，其中K為語(yǔ) 料庫(kù)中隱含主題的數(shù)目；
[0031]第2.2、對(duì)于隱含主題集合中的每個(gè)主題t(tGl，2,…，K)，從先驗(yàn)參數(shù)為0的狄利克雷分布中得到相應(yīng)的主題-詞分布％={1，42,-,％>1,；} 1，:其中￥為語(yǔ)料庫(kù)中特征詞的數(shù) 目；
[0032]第2.3、對(duì)于語(yǔ)料庫(kù)中的每一篇新聞文本(1(1)，根據(jù)其標(biāo)注向量11(1)和先驗(yàn)參數(shù)丫，得到新聞文本d(1)屬于各個(gè)情緒標(biāo)簽的概率分布S'd = SdXy(1)，其中…，Sd,M }TS從先驗(yàn)參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布；
[0033]第2.4、利用Gibbs采樣方法，計(jì)算情緒-主題模型對(duì)訓(xùn)練數(shù)據(jù)的情緒-主題分布0和主題-詞分布識(shí)；
[0034] 第2.4.1、對(duì)于語(yǔ)料庫(kù)中的每一個(gè)單詞Wi，隨機(jī)初始化情緒標(biāo)簽e G {ei，e2，…，eM} 和主題t G { tl，t2，…，tl(};
[0035] 第2.4.2、根據(jù)計(jì)算得到情緒標(biāo)簽e、主題t的后驗(yàn)概率分布，為語(yǔ)料庫(kù)中的每個(gè)詞重新分配情緒標(biāo)簽和主題。其中詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式：
[0036]
[0037] 其中，表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后主題z被分配給情緒標(biāo)簽e的次數(shù)；表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后詞Wl被分配給主題t的次數(shù);％表示文檔d中被分配給情緒標(biāo)簽e的詞的數(shù)目。|W|為語(yǔ)料庫(kù)中詞的數(shù)目，K為語(yǔ)料庫(kù)中隱含主題的數(shù)目，M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)。
[0038] 第2.4.3、將第2.4.2步重復(fù)I次直至收斂，可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié) 果進(jìn)行頻次統(tǒng)計(jì)，計(jì)算得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布和主題-詞分布#，計(jì)算方法如下公式：
[0040] 其中，ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n.,z, w表示整個(gè)語(yǔ) 料庫(kù)中詞^被分配給主題t的次數(shù)。
[0041] 第3、對(duì)于未知讀者情緒標(biāo)簽的新聞文本d(N+1)，利用第2.4步得到的情緒-主題分布 S和主題-詞分布#，采用Gibbs采樣方法得到文檔屬于各個(gè)情緒標(biāo)簽的概率S;
[0042] 第3.1、對(duì)于新聞文本d(N+1)中的每一個(gè)單詞^，隨機(jī)初始化情緒標(biāo)簽eG{ei， e2，…， eM}和主題t E {ti，t2，…，ti(};
[0043]第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題。詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式：
[0045] 其中，Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù)，或，為第2步訓(xùn)練后的情緒-主題模型得到的主題z屬于情緒標(biāo)簽e的概率，氣 >.為已訓(xùn)練模型得到的詞w屬于主題z的概率；
[0046] 第3.3、將第3.2步重復(fù)I次直至收斂，可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié)果進(jìn) 行頻次統(tǒng)計(jì)，得到文檔關(guān)于各情緒標(biāo)簽的概率分布8,計(jì)算方法如下公式：
[0048]第3.4、根據(jù)第3.3步計(jì)算得到的未知文檔關(guān)于情緒標(biāo)簽的概率分布5,采用基于閾值的方法得到新聞文本所屬的情緒標(biāo)簽集合。其計(jì)算方法如下：
[0050]其中，p為預(yù)先定義的閾值，為未知新聞文本屬于情緒標(biāo)簽e的概率。
[00511本發(fā)明的優(yōu)點(diǎn)和積極效果：
[0052]本發(fā)明提出的面向在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)方法，能夠有效解決傳統(tǒng)情緒預(yù) 測(cè)方法僅能預(yù)測(cè)單一情緒的不足；同時(shí)本發(fā)明提出的多標(biāo)簽監(jiān)督的情緒-主題模型，能夠有效利用文本語(yǔ)義信息，挖掘讀者情緒與新聞"主題"之間的聯(lián)系，與傳統(tǒng)模型相比，能夠更加準(zhǔn)確地預(yù)測(cè)讀者在閱讀新聞文本后可能產(chǎn)生的情緒。
【附圖說(shuō)明】
[0053] 圖1為本發(fā)明提出的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法的過(guò)程示意圖
[0054] 圖2為本發(fā)明提出的多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法的整體流程。
[0055] 圖3為多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM)。
[0056] 圖4為現(xiàn)有單標(biāo)簽分類(lèi)算法與本發(fā)明方法在讀者情緒預(yù)測(cè)問(wèn)題上的性能比較結(jié) 果。
[0057] 圖5為現(xiàn)有多標(biāo)簽分類(lèi)算法與本發(fā)明方法在讀者情緒預(yù)測(cè)問(wèn)題上的性能比較結(jié) 果。
[0058]圖6為一篇新的未知讀者情緒的新聞文本。
[0059] 圖7為新聞數(shù)據(jù)集中排名前10的情感標(biāo)簽。
【具體實(shí)施方式】
[0060] 本發(fā)明提出了一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法
[0061] 方法整體流程如圖2所示，首先根據(jù)訓(xùn)練數(shù)據(jù)集中的情感知識(shí)訓(xùn)練模型，實(shí)驗(yàn)的數(shù) 據(jù)集來(lái)自新浪新聞社會(huì)頻道抓取的從2011年1月到2011年6月4654篇熱點(diǎn)新聞，讀者情緒投票總數(shù)為1221458,平均每篇新聞的用戶(hù)情緒投票數(shù)目為262,為實(shí)驗(yàn)提供了充足的情感數(shù) 據(jù)。
[0062]圖7為新聞數(shù)據(jù)集中排名前10的情感標(biāo)簽集合，證明了多標(biāo)簽情感分析的必要性。 [0063]首先采用Gibbs采樣訓(xùn)練整個(gè)數(shù)據(jù)集T，估計(jì)參數(shù)，最后得到三個(gè)參數(shù)，文檔-情緒分布S、情緒-主題分布0、主題-詞分布P，由于三個(gè)參數(shù)都是矩陣，這里就不再具體展開(kāi)，具體算法如下：
[0064]算法lGibbs采樣參數(shù)估計(jì)算法
[0065] 1)初始化后驗(yàn)概率0 = 0、辦=〇、5 = 0;
[0066] 2)將隨機(jī)變量0、切、_5對(duì)應(yīng)的先驗(yàn)參數(shù)a、0、y初始化為常數(shù)，g卩a = a、0 = b、y =r;
[0067] 3)為文檔中每個(gè)詞隨機(jī)分配情緒標(biāo)簽和主題，得到初始的分布變量，y和z;
[0068] 4)計(jì)算情緒標(biāo)簽和主題的后驗(yàn)概率，計(jì)算公式如下：
[0071] 其中，K表示語(yǔ)料庫(kù)中隱含主題的數(shù)目，M表示語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)目，W表示語(yǔ)料庫(kù)中詞的總數(shù);表示不包含當(dāng)前詞下語(yǔ)料庫(kù)中主題t分配給情緒標(biāo)簽￡的數(shù)目；表示不包含當(dāng)前詞下文檔中的詞被分配給情緒標(biāo)簽￡的數(shù)目；表示當(dāng)前文檔的情緒標(biāo)注結(jié) 果，表示為M維的向量，每一維為0或者1，分別表示文檔不屬于或者屬于該維對(duì)應(yīng)的情緒標(biāo) 簽；〃乂表示不包含當(dāng)前詞下語(yǔ)料庫(kù)中詞w分配給主題t的數(shù)目；
[0072] 5)根據(jù)步驟4)計(jì)算得到的后驗(yàn)概率值，為語(yǔ)料庫(kù)中所有詞重新分配情緒標(biāo)簽和主題；
[0073] 6)將步驟5)迭代I次，可認(rèn)為文檔中所有詞的情緒標(biāo)簽、主題分配結(jié)果已接近真實(shí) 分布。對(duì)迭代后的結(jié)果進(jìn)行頻次統(tǒng)計(jì)，得到得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布#和主題-詞分布#，計(jì)算方法如下公式：
[0076]其中，ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n., z,w表示整個(gè)語(yǔ) 料庫(kù)中詞^被分配給主題t的次數(shù)；
[0077] 7)結(jié)束。
[0078]圖6為新的未知讀者情緒的新聞文本（IT小伙半夜疑猝死專(zhuān)家稱(chēng)猝死年輕化趨勢(shì) 明顯），我們需要利用訓(xùn)練得到的多標(biāo)簽監(jiān)督的情緒-主題模型，將其分類(lèi)到相應(yīng)的情緒類(lèi) 別集合中。這里的文本類(lèi)別是指對(duì)應(yīng)的讀者情緒，如高興、震驚、難過(guò)、感動(dòng)等。圖3為本發(fā)明提出的多標(biāo)簽監(jiān)督的情緒-主題模型(ML-sETM)的模型圖。其主要包括的核心思想:在LDA主題模型的基礎(chǔ)上增加一層讀者情緒層，認(rèn)為文檔是若干情緒的混合分布，而每種情緒又是一個(gè)關(guān)于主題的混合分布，每個(gè)主題又是一個(gè)關(guān)于單詞的概率分布。該多標(biāo)簽監(jiān)督的情緒-主題模型可以看作是文檔的一種生成模型：文檔的生成就是基于主題模型的一個(gè)簡(jiǎn)單概率過(guò)程。當(dāng)生成一個(gè)新的文檔時(shí)，首先得到一個(gè)關(guān)于情緒的分布，對(duì)于該文檔中的每一個(gè)單詞，先通過(guò)情緒的分布隨機(jī)得到某個(gè)情緒，接著通過(guò)該情緒對(duì)應(yīng)的主題分布隨機(jī)得到一個(gè) 主題，最后通過(guò)該主題對(duì)應(yīng)的單詞分布隨機(jī)得到一個(gè)具體的詞。最終，每個(gè)單詞都被分配一個(gè)情緒和主題，通過(guò)這種方式將新聞文本主題與讀者情緒聯(lián)系起來(lái)，利用情緒-主題模型能夠有效挖掘文本語(yǔ)義的特點(diǎn)，提高模型的讀者情緒預(yù)測(cè)能力。
[0079] 算法2情緒預(yù)測(cè)算法
[0080] 1)對(duì)于未知文本中的每一個(gè)單詞Wi，隨機(jī)初始化情緒標(biāo)簽e G {ei，e2，…，eM}和主題te {tl，t2,…，tl(};
[0081] 2)利用Gibbs采樣方法為d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題。詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式：
[0084] Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù)，么_為已訓(xùn)練模型得到的主題z屬于情緒標(biāo)簽e的概率，灸#為已訓(xùn)練模型得到的詞w屬于主題z的概率；
[0085] 3)將步驟(2)重復(fù)I次直至收斂，可認(rèn)為接近真實(shí)的分布。對(duì)迭代后的結(jié)果進(jìn)行頻次統(tǒng)計(jì)，得到文檔關(guān)于各情緒標(biāo)簽的概率分布8,計(jì)算方法如下公式：
[0087] 4)根據(jù)步驟(3)計(jì)算得到的未知文檔關(guān)于情緒標(biāo)簽的概率分布8,采用基于閾值的方法得到新聞所屬的情緒標(biāo)簽集合。其計(jì)算方法如下：
[0089] 其中，p為預(yù)先定義的閾值，為未知新聞文本屬于情緒標(biāo)簽e的概率。
[0090] 5)結(jié)束。
[0091] 對(duì)于圖6的新聞文本（IT小伙半夜疑猝死專(zhuān)家稱(chēng)猝死年輕化趨勢(shì)明顯），經(jīng)過(guò)上述的算法2進(jìn)行預(yù)測(cè)，最后得到一系列的情緒標(biāo)簽的概率。
[0092] {5.0% ,33.7% ,13.1% ,9.9% ,0.6% ,27.9% ,10.7% ,4.1%}；
[0093] 根據(jù)經(jīng)驗(yàn)我們選擇閾值p的值為0.8,根據(jù)步驟(4)的計(jì)算，我們發(fā)現(xiàn)只有同情和難過(guò)這兩個(gè)情緒在閾值范圍內(nèi)。
[0094] 另一方面，我們查看讀者的情感投票，八種情感的讀者投票分別為：
[0095] {0,212,32，11，0，191，10,20};
[0096] 根據(jù)步驟(4)的計(jì)算，我們發(fā)現(xiàn)同樣只有兩種情感在閾值范圍中，同情和難過(guò)，和預(yù)測(cè)的結(jié)果不謀而合。
[0097] 然而，一條新聞的預(yù)測(cè)準(zhǔn)確不能證明我們模型的準(zhǔn)確性和高效性，我們需要通過(guò) 大量的數(shù)據(jù)來(lái)證明，同時(shí)還需要對(duì)比最新的情感分析的多標(biāo)簽算法。
[0098] 實(shí)驗(yàn)從多標(biāo)簽分類(lèi)領(lǐng)域常用的 Hamming-Loss、subsetAcc、0ne_error 和 F-Measure 四個(gè)指標(biāo)來(lái)評(píng)測(cè)，其中Hamming-Loss通過(guò)計(jì)算模型預(yù)測(cè)出的標(biāo)簽集合與真實(shí)標(biāo)注的標(biāo)簽集合之間的差距來(lái)度量多標(biāo)簽分類(lèi)器的性能，One-error衡量的是排名第一的標(biāo)簽不包含在標(biāo)簽集合中的概率，這兩個(gè)指標(biāo)越小表示結(jié)果越好;subsetAcc可以反應(yīng)預(yù)測(cè)的標(biāo)簽集合與實(shí)際的標(biāo)簽集合完全相同所占的比例，F(xiàn)-Measure是對(duì)查全率和查準(zhǔn)率的一種權(quán)衡，這兩個(gè) 指標(biāo)越大表示結(jié)果越好。
[0099] 試驗(yàn)中用來(lái)對(duì)比的方法是修改后的多元邏輯回歸算法MLR、多標(biāo)簽分類(lèi)領(lǐng)域經(jīng)典的BR算法、MLkNN算法、RAkEL算法、CLR算法，對(duì)于BR、CLR和RAkEL三種算法的基礎(chǔ)二分類(lèi)器均選擇在文本分類(lèi)問(wèn)題中表現(xiàn)效果比較好的SVM算法，RAkEL中和MLkNN中的參數(shù)k都設(shè)置為 3(實(shí)驗(yàn)證明k = 3時(shí)效果最好）。
[0100] 圖4為本發(fā)明提出的多標(biāo)簽監(jiān)督的情緒-主題模型與多元邏輯斯諫回歸模型MLR的性能比較結(jié)果?？梢钥闯?，本發(fā)明提出的ML-sETM模型在所有的評(píng)測(cè)指標(biāo)上，均明顯優(yōu)于多元邏輯斯諫回歸模型。
[0101] 圖5為本發(fā)明提出的方法與傳統(tǒng)多標(biāo)簽分類(lèi)方法性能比較結(jié)果。可以看出，本文提出的多標(biāo)簽監(jiān)督的情緒主題模型ML-sETM在全部評(píng)價(jià)指標(biāo)上表現(xiàn)效果均最優(yōu)，從而驗(yàn)證了本文提出的ML-sETM模型能夠更加準(zhǔn)確地將新聞文本分類(lèi)到讀者可能產(chǎn)生的情緒類(lèi)別集合中。
【主權(quán)項(xiàng)】
1. 一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法，該方法包括如下步驟：第1、對(duì)在線(xiàn)新聞文本的讀者情緒預(yù)測(cè)問(wèn)題進(jìn)行形式化描述定義1:在線(xiàn)新聞文本集合，用符號(hào)D表示： D= {d⑴，d⑵，…，d(N)} (1-1) 其中，d(i)表示新聞文本，N為在線(xiàn)新聞文本數(shù)；定義2:讀者情緒標(biāo)簽集合，用符號(hào)E表示： E= {ei,e2, ??? ,eM} (1-2) 其中，ei表示讀者的某一種情緒標(biāo)簽，M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)；定義3:讀者在閱讀新聞文本d(1)后會(huì)產(chǎn)生某一種或者某幾種情緒，且不同的讀者對(duì)同一新聞文本d(1)會(huì)產(chǎn)生不同的情緒，這些情緒標(biāo)簽組合在一起構(gòu)成了一個(gè)情緒標(biāo)簽子集合 Yl，其中}^ 定義4:向量x(/> g 在線(xiàn)新聞文本d(1)GD的特征構(gòu)成的特征向量：其中.#表示新聞文本d(1)的第j個(gè)特征；定義5:向量y(1)為對(duì)應(yīng)的新聞文本d(1)GD的情緒標(biāo)簽標(biāo)注，用來(lái)表示讀者在閱讀新聞后可能廣生的所有情緒： //(,t(!-4> 如果新聞文本d(i)標(biāo)注的情緒標(biāo)簽子集合為f ，則y(i)中的項(xiàng)…,il#可表示為定義6:由新聞文本的特征向量和相應(yīng)的情緒標(biāo)注的N個(gè)向量組成的標(biāo)注數(shù)據(jù)集T，用于讀者情緒預(yù)測(cè)模型訓(xùn)練，可表示為： T={(xw，iiw)，（xm，ym)，~，（ xw，iiw)} (1-6) 其中，X(1)表示新聞文本d(1)的特征向量，ii(1)表示新聞文本d (1)的情緒標(biāo)簽標(biāo)注；定義7:語(yǔ)料庫(kù)中的所有新聞文本，關(guān)于預(yù)定義的情緒標(biāo)簽集合中各情緒的概率分布，用符號(hào)S表示；定義8:對(duì)于情緒標(biāo)簽集合中的所有情緒標(biāo)簽，關(guān)于語(yǔ)料庫(kù)中隱含主題集合中的各個(gè)主題，構(gòu)成情緒-主題分布，用符號(hào)9表示；定義9:對(duì)于主題集合中的所有主題，關(guān)于語(yǔ)料庫(kù)中的所有詞，構(gòu)成主題-詞分布，用符號(hào)於表;^；; 第2、構(gòu)建多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM 定義10:多標(biāo)簽監(jiān)督的情緒-主題模型ML-sETM:對(duì)LDA主題模型（Latent Dirichlet Allocation Topic Model)進(jìn)行擴(kuò)展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴(kuò)展為"文檔-情緒-主題-詞"四層貝葉斯結(jié)構(gòu)，同時(shí)將其擴(kuò)展為監(jiān)督的主題模型；第2.1、對(duì)于情緒標(biāo)簽集合中的每個(gè)情緒標(biāo)簽&￡￡，其中mG{l，2,…，M}，從先驗(yàn)參數(shù)為 a的狄利克雷分布中得到相應(yīng)的情緒-主題分布0m= {0m>1，0m,2，…，0m,d T，其中K為語(yǔ)料庫(kù)中隱含主題的數(shù)目；第2.2、對(duì)于隱含主題集合中的每個(gè)主題t，其中tG{l，2,…，K}，從先驗(yàn)參數(shù)為0的狄利克雷分布中得到相應(yīng)的主題-詞分布％ ,其中V為語(yǔ)料庫(kù)中特征詞的數(shù) 目；第2.3、對(duì)于語(yǔ)料庫(kù)中的每一篇新聞文本d(1)，根據(jù)其標(biāo)注向量y(1)和先驗(yàn)參數(shù)y，得到新聞文本d(1)屬于各個(gè)情緒標(biāo)簽的概率分布S'd = SdXy(1)，其中~二㈨山~』，…，Sd,M} T為從先驗(yàn)參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布；第2.4、利用Gibbs采樣方法，計(jì)算情緒-主題模型對(duì)訓(xùn)練數(shù)據(jù)的情緒-主題分布0和主題-詞分布伊第2.4.1、對(duì)于語(yǔ)料庫(kù)中的每一個(gè)單詞Wl，隨機(jī)初始化情緒標(biāo)簽e G {ei，e2，…，eM}和主題 tG {tl，t2,…，tl(}; 第2.4.2、根據(jù)計(jì)算得到的情緒標(biāo)簽、主題的后驗(yàn)概率分布，為語(yǔ)料庫(kù)中的每個(gè)詞重新分配情緒標(biāo)簽和主題，其中詞^屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式：其中，表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞^后主題z被分配給情緒標(biāo)簽e的次數(shù)；表示整個(gè)語(yǔ)料庫(kù)中除去當(dāng)前詞Wl后詞Wl被分配給主題t的次數(shù);表示文檔d中被分配給情緒標(biāo)簽e的詞的數(shù)目；|W|為語(yǔ)料庫(kù)中詞的數(shù)目，K為語(yǔ)料庫(kù)中隱含主題的數(shù)目，M為語(yǔ)料庫(kù)中情緒標(biāo)簽數(shù)；第2.4.3、將第2.4.2步重復(fù)I次直至收斂，認(rèn)為接近真實(shí)的分布;對(duì)迭代后的結(jié)果進(jìn)行頻次統(tǒng)計(jì)，計(jì)算得到整個(gè)語(yǔ)料庫(kù)的情緒-主題分布#和主題-詞分布參4十算方法如下公式：其中，ne,z,.表示整個(gè)語(yǔ)料庫(kù)中主題z被分配給情緒標(biāo)簽e的次數(shù);n.,z, w表示整個(gè)語(yǔ)料庫(kù) 中詞Wl被分配給主題t的次數(shù)；第3、對(duì)于未知讀者情緒標(biāo)簽的新聞文本d(N+1)，利用第2.4步得到的情緒-主題分布#和主題-詞分布#，采用Gibbs采樣方法得到文檔屬于各個(gè)情緒標(biāo)簽的概率S; 第3.1、對(duì)于新聞文本d(N+1)中的每一個(gè)單詞^，隨機(jī)初始化情緒標(biāo)簽e G {ei，e2，…，eM} 和主題tE {tl，t2，"_，tl(}; 第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個(gè)詞重新分配情緒標(biāo)簽和主題；詞^ 屬于各情緒標(biāo)簽、主題的概率的計(jì)算方法如下公式：其中，Nd,e為文檔d中詞被分配給情緒標(biāo)簽e的次數(shù)，4為第2步訓(xùn)練后的情緒-主題模型得到的主題z屬于情緒標(biāo)簽e的概率，氣,#為已訓(xùn)練模型得到的詞w屬于主題z的概率；第3.3、將第3.2步重復(fù)I次直至收斂，認(rèn)為接近真實(shí)的分布;對(duì)迭代后的結(jié)果進(jìn)行頻次統(tǒng)計(jì)，得到文檔關(guān)于各情緒標(biāo)簽的概率分布L計(jì)算方法如下公式：第3.4、根據(jù)第3.3步計(jì)算得到的未知文檔關(guān)于情緒的概率分布8,采用基于閾值的方法得到新聞文本所屬的情緒標(biāo)簽集合，其計(jì)算方法如下：其中，P為預(yù)先定義的閾值，8&為未知新聞文本屬于情緒標(biāo)簽e的概率。
【文檔編號(hào)】G06F17/30GK106055596SQ201610347226
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】張瑩, 楊志帆, 俞力, 趙雪, 袁曉潔
【申請(qǐng)人】南開(kāi)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張瑩;楊志帆;俞力;趙雪;袁曉潔;
技術(shù)所有人：南開(kāi)大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種多標(biāo)簽在線(xiàn)新聞讀者情緒預(yù)測(cè)方法