本發(fā)明涉及自然語(yǔ)言處理的,特別是涉及一種基于主題模型和圖神經(jīng)網(wǎng)絡(luò)的輿論主題與情感傾向性聯(lián)合分析方法。
背景技術(shù):
1、情感分析是一種研究人類情感表達(dá)和識(shí)別的方法,通過(guò)分析和理解具有人類情感(積極的/消極的)表達(dá)的文本,準(zhǔn)確的識(shí)別文本信息中的情感傾向;對(duì)于監(jiān)測(cè)病人心理健康和分析社交媒體中的公眾輿論等是至關(guān)重要的。
2、近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多基于神經(jīng)網(wǎng)絡(luò)的方法被應(yīng)用于情感分析任務(wù),情感分析技術(shù)也取得了飛速發(fā)展。但現(xiàn)有方法往往是對(duì)于給定的文本信息,利用模型,通過(guò)學(xué)習(xí)文本中的關(guān)鍵信息來(lái)判斷文本所表達(dá)的情感傾向。
3、現(xiàn)有技術(shù)忽視了相同情感文本之間的關(guān)聯(lián)相似度,這會(huì)對(duì)模型準(zhǔn)確的判斷情感產(chǎn)生影響;且忽略了文本主題中情感的變化,這會(huì)對(duì)研究人們情感變化的原因以及社交媒體輿論態(tài)勢(shì)產(chǎn)生影響。因此,需要一種能夠基于文本主題和相同情感文本關(guān)聯(lián)分析的文本情感傾向分類方法。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)利用模型對(duì)文本進(jìn)行情感分類,無(wú)法關(guān)聯(lián)相似文本以及主題的問(wèn)題,本發(fā)明提供了一種輿論主題與情感傾向性聯(lián)合分析方法,以提高模型對(duì)文本情感分類的準(zhǔn)確度。
2、為此,本發(fā)明提供了以下技術(shù)方案:
3、本發(fā)明公開(kāi)了一種輿論主題與情感傾向性聯(lián)合分析方法,包括:
4、采集并預(yù)處理待分析的輿論文本數(shù)據(jù),得到語(yǔ)料庫(kù);
5、利用bert預(yù)訓(xùn)練模型對(duì)所述語(yǔ)料庫(kù)中的文本數(shù)據(jù)進(jìn)行編碼,得到具有上下文關(guān)系的文本特征向量;
6、將所述文本特征向量輸入lda模型,提取文本的主題特征;
7、利用所述文本特征向量和所述主題特征,通過(guò)文本相似度計(jì)算構(gòu)建輿論特征圖;
8、構(gòu)建并訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò);所述圖卷積神經(jīng)網(wǎng)絡(luò)以所述輿論特征圖為輸入,融合不同文本的特征表示,學(xué)習(xí)相鄰節(jié)點(diǎn)信息更新自身節(jié)點(diǎn)表示,生成具有相似文本之間相互作用的融合特征;
9、將所述融合特征輸入分類器,得到文本的情感傾向分類;所述情感傾向種類包括:消極和積極。
10、進(jìn)一步地,還包括:利用困惑度計(jì)算優(yōu)化lda模型。
11、進(jìn)一步地,利用所述文本特征向量和所述主題特征,通過(guò)文本相似度計(jì)算構(gòu)建輿論特征圖,包括:
12、通過(guò)余弦距離計(jì)算輿論圖節(jié)點(diǎn)集合中不同節(jié)點(diǎn)之間的語(yǔ)義相似度;所述輿論圖節(jié)點(diǎn)集合由所述文本特征向量構(gòu)成;
13、當(dāng)兩節(jié)點(diǎn)之間距離在特定范圍內(nèi)時(shí),構(gòu)建其兩點(diǎn)語(yǔ)義關(guān)系的邊;
14、將文本特征節(jié)點(diǎn)和語(yǔ)義關(guān)系的邊構(gòu)建輿論特征圖。
15、進(jìn)一步地,所述圖卷積神經(jīng)網(wǎng)絡(luò)為三層圖神經(jīng)網(wǎng)絡(luò)。
16、進(jìn)一步地,訓(xùn)練所述圖卷積神經(jīng)網(wǎng)絡(luò)時(shí)采用的損失函數(shù)為對(duì)比損失函數(shù)。
17、進(jìn)一步地,訓(xùn)練所述圖卷積神經(jīng)網(wǎng)絡(luò)包括:
18、對(duì)比學(xué)習(xí)中,依據(jù)數(shù)據(jù)集的相同情感標(biāo)簽的數(shù)據(jù)作為正樣本分類,其他作為負(fù)樣本分類;給定小批量文本的隱藏向量對(duì)于一個(gè)vi∈h,如果vt和vi有相同的情感標(biāo)簽,即yi=y(tǒng)t則vi被認(rèn)為是vt的正例,而其他例子vx∈h被認(rèn)為是負(fù)例;計(jì)算所有正例(vt,vi)和(vi和vt)的對(duì)比損失:
19、
20、其中1[t≠i]∈(0,1)為指示函數(shù),sim(vt,vi)計(jì)算向量vt和vi的余弦相似度。
21、進(jìn)一步地,使用交叉熵?fù)p失函數(shù)作為分類器的損失函數(shù)。
22、本發(fā)明的優(yōu)點(diǎn)和積極效果:
23、1)通過(guò)使用圖神經(jīng)網(wǎng)絡(luò)的方法,融合模塊通過(guò)學(xué)習(xí)相鄰節(jié)點(diǎn)的信息來(lái)更新節(jié)點(diǎn)自身的特征表示,生成考慮相似文本節(jié)點(diǎn)之間相互作用的新特征,可以有效的增加情感分類的準(zhǔn)確性。
24、2)通過(guò)對(duì)比學(xué)習(xí)模塊更好的將模型學(xué)習(xí)到的類別特征延伸至不同的目標(biāo)數(shù)據(jù),進(jìn)一步提高了分類的準(zhǔn)確性和泛化性。
25、3)傳統(tǒng)lda模型在長(zhǎng)文本中不能更好的結(jié)合上下文信息,通過(guò)引入bert預(yù)訓(xùn)練模型融合文本的上下文信息從而增強(qiáng)主題聚類的準(zhǔn)確性。輿論數(shù)據(jù)大多都是針對(duì)某一事件發(fā)表的觀點(diǎn),所以數(shù)據(jù)之間存在較大的共性特征,通過(guò)主題聚類將輿論數(shù)據(jù)劃分主題,再將不同主題的數(shù)據(jù)引入圖神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)相似節(jié)點(diǎn)之間的相互作用以及相同主題之間的共性特征,最終獲得融合主題共性以及文本相似度的特征表示,提高模型的準(zhǔn)確性。
1.一種主題與情感傾向性聯(lián)合分析方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,還包括:利用困惑度計(jì)算優(yōu)化lda模型。
3.根據(jù)權(quán)利要求1所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,利用所述文本特征向量和所述主題特征,通過(guò)文本相似度計(jì)算構(gòu)建輿論特征圖,包括:
4.根據(jù)權(quán)利要求1所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,所述圖卷積神經(jīng)網(wǎng)絡(luò)為三層圖神經(jīng)網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求4所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,訓(xùn)練所述圖卷積神經(jīng)網(wǎng)絡(luò)時(shí)采用的損失函數(shù)為對(duì)比損失函數(shù)。
6.根據(jù)權(quán)利要求5所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,訓(xùn)練所述圖卷積神經(jīng)網(wǎng)絡(luò)包括:
7.根據(jù)權(quán)利要求1所述的一種主題與情感傾向性聯(lián)合分析方法,其特征在于,使用交叉熵?fù)p失函數(shù)作為分類器的損失函數(shù)。