一種雙語情感分類方法及裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N雙語情感分類方法及裝置,方法包括:翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔;組合待分類的源語言文檔和待分類的翻譯文檔,得到待分類的雙語文檔,組合訓練樣本集的源語言文檔和訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔;構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間;利用最大熵模型在樣本集的雙語特征向量空間上訓練分類器;通過訓練后的分類器對待分類的雙語特征向量空間進行情感極性分類。本申請結合兩種語言特征,為情感分類提供了額外的分類信息,提高了分類正確率,從雙語特征向量空間中提取較為重要的特征項,提高了分類效率。
【專利說明】一種雙語情感分類方法及裝置
【技術領域】
[0001]本發(fā)明涉及信息處理【技術領域】,尤其涉及一種雙語情感分類方法及裝置。
【背景技術】
[0002]近年來,情感分類技術在電子商務、輿情分析、信息安全等領域表現出巨大的應用需求和應用前景。情感分類技術可以幫助了解用戶的消費習慣與產品的優(yōu)缺點,自動對產品評論進行分析和決策;了解民眾的滿意度與訴求,及時發(fā)現社會特點問題;分析當前社會的熱點輿情信息,給用戶、企業(yè)、政府等提供重要的決策參考依據?,F有技術中的情感分類方法主要針對一種語言,并且只要針對英文。
[0003]發(fā)明人在實現本發(fā)明創(chuàng)造的過程中發(fā)現:現有技術中的情感分類方法會使分類結果產生誤差,影響分類正確率,例如,“It looks like a book”,在英文中,“l(fā)ike”可能會被認為是一個褒義詞(與“enjoy”同義),如果被認為褒義詞,就會使分類結果產生誤差。
【發(fā)明內容】
[0004]有鑒于此,本發(fā)明提供了一種雙語情感分類方法及裝置,用以解決現有技術中的情感分類方法會使分類結果產生誤差,影響分類正確率的問題,其技術方案如下:
[0005]一種雙語情感分類方法,包括:
[0006]翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔;
[0007]組合所述待分類的源語言文檔和所述待分類的翻譯文檔,得到待分類的雙語文檔,組合所述訓練樣本集的源語言文檔和所述訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔;
[0008]構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間;
[0009]利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器;
[0010]通過訓練后的分類器對所述待分類的雙語特征向量空間進行情感極性分類,得到所述待分類的源語言文檔的情感分類結果。
[0011]其中,利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器包括:
[0012]確定所述樣本集的雙語特征向量空間中每個特征項的權重值;
[0013]利用最大熵模型在權重值大于預設值的特征項組成的雙語特征向量空間上訓練分類器。
[0014]其中,確定所述樣本集的雙語特征向量空間中每個特征項的權重值的過程包括:
[0015]利用CHI特征提取方法計算所述樣本集的雙語特征向量空間中每個特征項的權重值。
[0016]其中,構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間的過程包括:
[0017]對所述待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理;[0018]選取詞的一元特征組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向
量空間。
[0019]其中,翻譯待分類的源語言文檔和訓練樣本集的源語言文檔的過程包括:
[0020]利用機器翻譯系統(tǒng)Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。
[0021]一種雙語情感分類裝置,包括:
[0022]翻譯單元,用于翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔;
[0023]組合單元,用于組合所述待分類的源語言文檔和所述待分類的翻譯文檔,得到待分類的雙語文檔,組合所述訓練樣本集的源語言文檔和所述訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔;
[0024]構建單元,用于構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間;
[0025]訓練單元,用于利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器;
[0026]分類單元,用于通過訓練后的分類器對所述待分類的雙語特征向量空間進行情感極性分類,得到所述待分類的源語言文檔的情感分類結果。
[0027]其中,所述訓練單元包括:
[0028]確定子單元,用于確定所述樣本集的雙語特征向量空間中每個特征項的權重值;
[0029]訓練子單元,用于利用最大熵模型在權重值大于預設值的特征項組成的雙語特征向量空間上訓練分類器。
[0030]其中,所述確定子單元包括:
[0031]計算子單元,用于利用CHI特征提取方法計算所述樣本集的雙語特征向量空間中每個特征項的權重值。
[0032]其中,所述構建單元包括:
[0033]分詞子單元,用于對所述待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理;
[0034]構建子單元,用于選取詞的一元特征組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
[0035]其中,所述翻譯單元包括:
[0036]翻譯子單元,用于利用機器翻譯系統(tǒng)Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。
[0037]上述技術方案具有如下有益效果:
[0038]本發(fā)明提供的雙語情感分類方法及裝置,將源語言文檔和翻譯文檔組合成雙語文檔,通過特征擴展構成了雙語特征向量空間,采用最大熵方法在雙語特征向量空間上訓練分類器,根據后驗概率進行情感分類。本申請在情感分類中加入了兩種語言特征,彌補了單一語言分類信息不足的問題,兩種語言結合能夠消除歧義,提高情感分類的正確率。另外,從雙語特征向量空間中提取較為重要的特征項,使得雙語特征向量空間的維度降低,縮短了情感分類時間,提高了分類效率?!緦@綀D】
【附圖說明】
[0039]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
[0040]圖1為本發(fā)明實施例一提供的雙語情感分類方法的流程示意圖;
[0041]圖2為本發(fā)明實施例二提供的雙語情感分類方法的流程示意圖;
[0042]圖3為采用本發(fā)明實施例提供的雙語情感分類方法對四個領域的評論進行情感分類的實驗結果圖;
[0043]圖4為采用本發(fā)明實施例提供的雙語情感分類方法對四個領域的文檔進行情感分類的實驗結果圖;
[0044]圖5為本發(fā)明實施例三提供的雙語情感分類裝置的結構示意圖;
[0045]圖6為本發(fā)明實施例四提供的雙語情感分類裝置的結構示意圖。
【具體實施方式】
[0046]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0047]實施例一
[0048]請參閱圖1,為本發(fā)明實施例一提供的一種雙語情感分類方法的流程示意圖,該方法包括:
[0049]步驟SlOl:翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔。
[0050]在本實施例中,可采用機器翻譯系統(tǒng)如Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。例如,源語言文檔為中文文檔,可利用Google Translate將中文文檔翻譯成英文文檔。
[0051]步驟S102:組合待分類的源語言文檔和待分類的翻譯文檔組合,得到待分類的雙語文檔,組合訓練樣本集的源語言文檔和訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔。
[0052]步驟S103:構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
[0053]在本實施例中,構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間的過程可以包括:對待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理;選取詞的一元特征(unigram)組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
[0054]雙語特征向量空間可表示為=F=G1,e2,...en, C1, c2,...,cn),其中,e1; e2,...en 為源語言文檔的特征項,C1, C2,..., cn為對應的翻譯文檔的特征項。
[0055]步驟S104:利用最大熵模型在樣本集的雙語特征向量空間上訓練分類器。[0056]步驟S105:通過訓練后的分類器對待分類的雙語特征向量空間進行情感極性分類,得到待分類的源語言文檔的情感分類結果。
[0057]雙語特征向量輸入分類器后,根據返回的后驗概率判定情感極性,取后驗概率大的類別作為最終的分類結果。
[0058]本發(fā)明實施例一提供的雙語情感分類方法,將源語言文檔和翻譯文檔組合成雙語文檔,通過特征擴展構成了雙語特征向量空間,采用最大熵方法在雙語特征向量空間上訓練分類器,根據后驗概率進行情感分類。本實施例在情感分類中加入了兩種語言特征,彌補了單一語言分類信息不足的問題,兩種語言結合能夠消除歧義,提高情感分類的正確率。
[0059]實施例二
[0060]請參閱圖2,為本發(fā)明實施例一提供的一種雙語情感分類方法的流程示意圖,該方法包括:
[0061]步驟S201:翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔。
[0062]在本實施例中,可采用機器翻譯系統(tǒng)如Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。
[0063]步驟S202:組合待分類的源語言文檔和待分類的翻譯文檔組合,得到待分類的雙語文檔,組合訓練樣本集的源語言文檔和訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔。
[0064]步驟S203:構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
[0065]在本實施例中,構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間的過程可以包括:對待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理;選取詞的一元特征(unigram)組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
[0066]例如,源語言文檔為中文文檔,翻譯文檔為英文文檔。雙語特征向量空間可表示為=F=Ce1, e2,...en, C1, c2,..., cn),其中,e” e2,...en 為中文文檔的特征,C1, c2,..., Cn 為對應的英文文檔的特征。
[0067]步驟S204:確定樣本集的雙語特征向量空間中每個特征項的權重值,利用最大熵模型在權重值大于預設值的特征項組成的雙語特征向量空間上訓練分類器。
[0068]考慮到雙語特征向量空間的維度較大,會導致分類時間較長,分類效率較低,本實施例通過特征提取過程,從樣本集的雙語特征向量空間中確定權重值大于預設值的特征項組成雙語特征向量,通過該雙語特征向量訓練分類器。特征提取方法在保證分類效果的前提下降低特征向量的維度,縮短了分類時間,提高了分類效率。
[0069]在本實施例中,可利用CHI特征提取方法計算樣本集的雙語特征向量空間中每個特征項的權重值,權重值越大,表示對應的特征越重要。在確定出權重值后,可基于權重值但從大到小的順序對進行排序,依次選取權重值大于預設值的前N個特征項組成用于訓練分類器的雙語特征向量。
[0070]另外,本實施例中的訓練樣本集中部分樣本是褒義的,部分樣本是貶義的,最大熵模型在訓練集上學習出二元分類模型。
[0071]需要說明的是,CHI統(tǒng)計量計算特征項與類別的獨立性,它基于如下假設:在指定類別文本中出現頻率高的詞條與在其他類別文本中出現頻率比較高的詞條,對判定文檔是否屬于該類別都是很有幫助的。CHI方法定義如下:
[0072]
【權利要求】
1.一種雙語情感分類方法,其特征在于,包括: 翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔; 組合所述待分類的源語言文檔和所述待分類的翻譯文檔,得到待分類的雙語文檔,組合所述訓練樣本集的源語言文檔和所述訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔; 構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間; 利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器; 通過訓練后的分類器對所述待分類的雙語特征向量空間進行情感極性分類,得到所述待分類的源語言文檔的情感分類結果。
2.根據權利要求1所述的方法,其特征在于,利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器包括: 確定所述樣本集的雙語特征向量空間中每個特征項的權重值; 利用最大熵模型在權重值大于預設值的特征項組成的雙語特征向量空間上訓練分類器。
3.根據權利要求2所述的方法,其特征在于,確定所述樣本集的雙語特征向量空間中每個特征項的權重值的過程包括: 利用CHI特征提取方法計算所述樣本集的雙語特征向量空間中每個特征項的權重值。
4.根據權利要求1所述的方法,其特征在于,構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間的過程包括: 對所述待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理; 選取詞的一元特征組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
5.根據權利要求1所述的方法,其特征在于,翻譯待分類的源語言文檔和訓練樣本集的源語言文檔的過程包括: 利用機器翻譯系統(tǒng)Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。
6.一種雙語情感分類裝置,其特征在于,包括: 翻譯單元,用于翻譯待分類的源語言文檔和訓練樣本集的源語言文檔,得到待分類的翻譯文檔和訓練樣本集的翻譯文檔; 組合單元,用于組合所述待分類的源語言文檔和所述待分類的翻譯文檔,得到待分類的雙語文檔,組合所述訓練樣本集的源語言文檔和所述訓練樣本集的翻譯文檔,得到訓練樣本集的雙語文檔; 構建單元,用于構建待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間; 訓練單元,用于利用最大熵模型在所述樣本集的雙語特征向量空間上訓練分類器; 分類單元,用于通過訓練后的分類器對所述待分類的雙語特征向量空間進行情感極性分類,得到所述待分類的源語言文檔的情感分類結果。
7.根據權利要求6所述的裝置,其特征在于,所述訓練單元包括: 確定子單元,用于確定所述樣本集的雙語特征向量空間中每個特征項的權重值;訓練子單元,用于利用最大熵模型在權重值大于預設值的特征項組成的雙語特征向量空間上訓練分類器。
8.根據權利要求7所述的裝置,其特征在于,所述確定子單元包括: 計算子單元,用于利用CHI特征提取方法計算所述樣本集的雙語特征向量空間中每個特征項的權重值。
9.根據權利要求6所述的裝置,其特征在于,所述構建單元包括: 分詞子單元,用于對所述待分類的雙語文檔和訓練樣本集的雙語文檔進行分詞處理;構建子單元,用于選取詞的一元特征組成待分類的雙語特征向量空間和訓練樣本集的雙語特征向量空間。
10.根據權利要求6所述的裝置,其特征在于,所述翻譯單元包括: 翻譯子單元,用于利用機器翻譯系統(tǒng)Google Translate翻譯待分類的源語言文檔和訓練樣本集的源語言文檔。
【文檔編號】G06F17/30GK103617245SQ201310616753
【公開日】2014年3月5日 申請日期:2013年11月27日 優(yōu)先權日:2013年11月27日
【發(fā)明者】李壽山, 蘇艷, 周國棟 申請人:蘇州大學