国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種針對文本情感分類的多層次分析方法及裝置與流程

      文檔序號:40405602發(fā)布日期:2024-12-20 12:29閱讀:11來源:國知局
      一種針對文本情感分類的多層次分析方法及裝置與流程

      本技術(shù)涉及文本識別,特別是涉及一種針對文本情感分類的多層次分析方法及裝置。


      背景技術(shù):

      1、近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,許多社交網(wǎng)絡(luò)涌現(xiàn)出來,成為了用戶傳播信息、了解時事、發(fā)表觀點的一個重要平臺,大量觀點充斥其中,社交網(wǎng)絡(luò)成為了一個巨大的資源庫,吸引了學(xué)者、企業(yè)和政府的注意力。例如,公司可以利用社交網(wǎng)絡(luò)上的大量數(shù)據(jù)了解用戶對其產(chǎn)品的態(tài)度,從而對產(chǎn)品進行改進。通過挖掘社交網(wǎng)絡(luò)中的情感可以檢測網(wǎng)絡(luò)中的突發(fā)事件,為政府進行輿情引導(dǎo)等提供機遇。面對海量且紛繁復(fù)雜的社交網(wǎng)絡(luò)中的文本,如何對其進行情感分析,為推薦系統(tǒng)、輿情引導(dǎo)等重要應(yīng)用提供數(shù)據(jù)基礎(chǔ),已經(jīng)成為了一個重要需求。

      2、情感分析是自然語言處理的一個分支,旨在將文本信息分為積極、消極、中性或者喜怒哀樂等情感。目前的情感分析方法主要分為兩種,一種為基于詞典的情感分析方法,該方法通過詞典如wordnet、senticnet等為文本中的詞語分配不同的情感得分,然后通過綜合所有詞的情感得分得到文本最終的情感類別。但這些方法在社交網(wǎng)絡(luò)中的文本情感分類上表現(xiàn)較差,這是由于社交網(wǎng)絡(luò)中的文本多為非結(jié)構(gòu)化文本,包含大量的網(wǎng)絡(luò)用語、特殊符號、縮寫、錯別字等不規(guī)范的表達方式,情感詞典無法解決文本中不規(guī)范表達的情感分配問題,且不能處理相同的詞在不同語境中有不同情感的問題。另一種方法為基于機器學(xué)習(xí)的情感分析方法,該類方法通過不同的特征抽取方法如詞包、詞向量等將文本映射為向量,輸入到svm、cnn、lstm、transformer等機器學(xué)習(xí)模型中。但基于機器學(xué)習(xí)的情感分析方法需要大量的訓(xùn)練數(shù)據(jù),在訓(xùn)練數(shù)據(jù)較少時會產(chǎn)生過擬合等現(xiàn)象。

      3、社交網(wǎng)絡(luò)有著其特有的環(huán)境因素,目前針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類僅從文本內(nèi)容進行分析,忽略了社交網(wǎng)絡(luò)環(huán)境因素對文本情感的影響,故存在著識別準確度不夠的問題。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)實施例中提供了一種針對文本情感分類的多層次分析方法及裝置,以解決現(xiàn)有技術(shù)中針對社交網(wǎng)絡(luò)中出現(xiàn)的文本的情感分類準確度低的技術(shù)問題。

      2、為達到上述目的,本技術(shù)的實施例采用如下技術(shù)方案:

      3、第一方面,本技術(shù)實施例提供一種針對文本情感分類的多層次分析方法,所述方法包括:

      4、獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實標簽;

      5、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);

      6、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進行劃分,得到社區(qū)劃分結(jié)果,并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);

      7、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個發(fā)布者與另一個發(fā)布者之間的第二關(guān)聯(lián)信息,并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);

      8、根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化所述綜合損失函數(shù)為目標,對多層次情感分類器進行訓(xùn)練,得到文本情感分類模型;

      9、通過所述文本情感分類模型對待識別文本進行情感分類,確定分類結(jié)果。

      10、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,包括:

      11、提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果;

      12、根據(jù)所述相似比對結(jié)果確定兩條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息。

      13、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個發(fā)布者與另一個發(fā)布者之間的第二關(guān)聯(lián)信息,包括:

      14、獲取發(fā)布者信息,其中,所述發(fā)布者信息包括發(fā)布者的關(guān)注列表,所述關(guān)注列表用于表征發(fā)布者與其他發(fā)布者之間的關(guān)注行為;

      15、基于所述關(guān)注列表,將發(fā)布者與其他之間的關(guān)注行為轉(zhuǎn)化為發(fā)布者關(guān)系矩陣,得到第二關(guān)聯(lián)信息,其中,所述發(fā)布者關(guān)系矩陣中的每一個元素用于表示發(fā)布者與其他發(fā)布者之間是否相關(guān)聯(lián)。

      16、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者之間的相似比對結(jié)果,包括:

      17、根據(jù)所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本是否為同一發(fā)布者發(fā)布,以及所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本對應(yīng)的發(fā)布者與另一條訓(xùn)練樣本對應(yīng)的發(fā)布者是否相似,確定相似比對結(jié)果。

      18、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù),包括:

      19、基于所述第一關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本是否相關(guān)聯(lián);

      20、根據(jù)兩條相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第一差距,小于兩條不相關(guān)聯(lián)的所述訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第一差距,構(gòu)建第一損失函數(shù)。

      21、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù),包括:

      22、基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度;

      23、根據(jù)社區(qū)相似度高的兩個發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第二差距,小于社區(qū)相似度低的兩個發(fā)布者發(fā)布的訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第二差距,構(gòu)建第二損失函數(shù)。

      24、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述基于所述社區(qū)劃分結(jié)果確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者的社區(qū)相似度,包括:

      25、以所述社區(qū)劃分結(jié)果中的節(jié)點表示發(fā)布者,獲取所述社區(qū)劃分結(jié)果中各節(jié)點之間的連接數(shù)量;

      26、將兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者所在的社區(qū)中所有節(jié)點之間的連接數(shù)量,與所在的社區(qū)中所有節(jié)點的數(shù)量相除,得到社區(qū)相似度,其中,所述社區(qū)相似度通過發(fā)布者所在的社區(qū)之間的連接數(shù)量的稀疏性來表征。

      27、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù),包括:

      28、基于所述第二關(guān)聯(lián)信息確定兩條所述訓(xùn)練樣本對應(yīng)的發(fā)布者是否相關(guān)聯(lián);

      29、根據(jù)兩個相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第三差距,小于兩個不相關(guān)聯(lián)的發(fā)布者發(fā)布的所述訓(xùn)練樣本對應(yīng)的預(yù)測標簽之間的第三差距,構(gòu)建第三損失函數(shù)。

      30、結(jié)合第一方面,在一種可能的設(shè)計方式中,所述根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),包括:

      31、分別為所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)分配權(quán)重;

      32、將所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)與各自對應(yīng)的權(quán)重的乘積相加,并結(jié)合模型參數(shù)、范數(shù),構(gòu)建得到綜合損失函數(shù)。

      33、第二方面,本技術(shù)實施例提供一種針對文本情感分類的多層次分析裝置,包括:

      34、樣本獲取模塊,用于獲取訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的真實標簽;

      35、函數(shù)構(gòu)建模塊,用于提取所述訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于所述第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);

      36、對所述訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進行劃分,得到社區(qū)劃分結(jié)果,并基于所述社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);

      37、提取所述訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個發(fā)布者與另一個發(fā)布者之間的第二關(guān)聯(lián)信息,并基于所述第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);

      38、模型訓(xùn)練模塊,用于根據(jù)所述第一損失函數(shù)、所述第二損失函數(shù)、所述第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化所述綜合損失函數(shù)為目標,對多層次情感分類器進行訓(xùn)練,得到文本情感分類模型;

      39、模型應(yīng)用模塊,用于通過所述文本情感分類模型對待識別文本進行情感分類,確定分類結(jié)果。

      40、第三方面,本技術(shù)實施例提供一種終端,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設(shè)置為運行所述計算機程序以執(zhí)行第一方面及其可能的設(shè)計方式的方法。

      41、第四方面,本技術(shù)實施例提供一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機程序,其中,計算機程序被設(shè)置為運行時執(zhí)行第一方面及其可能的設(shè)計方式的方法。

      42、與現(xiàn)有技術(shù)相比,本技術(shù)先獲取訓(xùn)練樣本以及訓(xùn)練樣本對應(yīng)的真實標簽;提取訓(xùn)練樣本中的其中一條訓(xùn)練樣本與另一條訓(xùn)練樣本之間的第一關(guān)聯(lián)信息,并基于第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù);對訓(xùn)練樣本對應(yīng)的發(fā)布者按照社區(qū)進行劃分,得到社區(qū)劃分結(jié)果,并基于社區(qū)劃分結(jié)果構(gòu)建第二損失函數(shù);提取訓(xùn)練樣本對應(yīng)的發(fā)布者中的其中一個發(fā)布者與另一個發(fā)布者之間的第二關(guān)聯(lián)信息,并基于第二關(guān)聯(lián)信息構(gòu)建第三損失函數(shù);根據(jù)第一損失函數(shù)、第二損失函數(shù)、第三損失函數(shù)構(gòu)建得到綜合損失函數(shù),并以最小化綜合損失函數(shù)為目標,對多層次情感分類器進行訓(xùn)練,得到文本情感分類模型;通過文本情感分類模型對待識別文本進行情感分類,確定分類結(jié)果。本技術(shù)分別考慮了樣本關(guān)聯(lián)性、社區(qū)相似性、用戶關(guān)聯(lián)性三個層次對于情感分析的影響,便以基于樣本關(guān)聯(lián)性得到的第一關(guān)聯(lián)信息構(gòu)建第一損失函數(shù),以基于社區(qū)相似性的第二關(guān)聯(lián)信息構(gòu)建第二損失函數(shù),以基于用戶關(guān)聯(lián)性的第三關(guān)聯(lián)信息構(gòu)建第三損失函數(shù),并結(jié)合第一關(guān)聯(lián)信息、第二關(guān)聯(lián)信息、第三關(guān)聯(lián)信息來構(gòu)建綜合損失函數(shù)。以最小化綜合損失函數(shù)為目的優(yōu)化多層次情感分類器的參數(shù),便可訓(xùn)練得到文本情感分類模型,由于模型的訓(xùn)練過程考慮了上文三個層次的影響,所以模型在對非結(jié)構(gòu)化文本進行識別時,在不依賴于大量樣本的情況下就能達到較高的識別準確率,解決了目前針對文本的情感分類存在著識別準確度不夠的問題。

      43、本技術(shù)的一個或多個實施例的細節(jié)在以下附圖和描述中提出,以使本技術(shù)的其他特征、目的和優(yōu)點更加簡明易懂。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1