一種對話文本情感摘要的生成方法
【專利摘要】一種對話文本情感摘要的生成方法,包括構(gòu)建對話文本中各個句子的包括單詞特征和情感特征的特征向量,采用修訂的余弦相似度算法計算向量間的相似度,再根據(jù)相似度計算句子間的轉(zhuǎn)移概率,最后由PageRank算法計算各個句子的權(quán)值,最后根據(jù)權(quán)值進行排序,選擇出符合預(yù)設(shè)數(shù)量且權(quán)值較大的句子組成對話文本的情感摘要。該方法不需要人工去生成摘要,節(jié)省了人力物力,同時,提高了生成對話文本情感摘要的精度。
【專利說明】一種對話文本情感摘要的生成方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,特別是涉及一種對話文本情感摘要的生成方法?!颈尘凹夹g(shù)】
[0002]21世紀以來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們越來越多地在網(wǎng)絡(luò)上表達自己的觀點與情感,這類文本往往以商品評論、論壇評論、博客的形式存在,并且大部分文本能很好的反映人們的看法和意見。而通過人工的方法來分析這些海量文本中的情感信息需要耗費大量的時間,人力和物力,在這種背景下,情感分析技術(shù)應(yīng)運而生,并在自然語言處理研究領(lǐng)域得到了廣大研究者的關(guān)注,具有很大的應(yīng)用價值。
[0003]在現(xiàn)有的大多數(shù)的情感分析中,主要關(guān)注于評論語料。而摘要也應(yīng)用到各個領(lǐng)域,如:新聞文章、科技文章和語音領(lǐng)域,語音領(lǐng)域包括廣播新聞、會議、對話、和演講。然而,對情感摘要的研究還比較少。
[0004]情感摘要旨在于對有情感的文本進行濃縮提煉生成帶有情感的摘要。而現(xiàn)有的情感摘要主要集中在對評論語料的研究。隨著對話記錄的大量增加,作用于對話的情感摘要變得十分的迫切。對話文本的情感摘要具有其自己的特征:1.需要關(guān)注對話的主題相關(guān)性和情感相關(guān)性;2.對話的結(jié)構(gòu)對摘要的選取起到重要的作用;3.對話文本中存在許多毫無信息量的句子,如:“Uh”,“Yeah”,“Well”等。雖然這些特征在現(xiàn)有的研究中被提及過,但并沒有很好的被處理,而這很大的影響了對話文本情感摘要的效果。
[0005]因此如何處理對話文本中的上述問題,已經(jīng)成為該種語料結(jié)構(gòu)中獲取情感摘要的新課題。
【發(fā)明內(nèi)容】
[0006]有鑒于此,本發(fā)明的目的在于提供一種對話文本情感摘要的生成方法,以減少人工的工作量及更好的解決對話文本中的主題相關(guān)性和情感相關(guān)性。
[0007]根據(jù)本發(fā)明的目的提出的一種對話文本情感摘要的生成方法,該對話文本為英文對話文本,包括:
[0008]I)將英文對話文本進行分句;
[0009]2)將步驟I)中獲得的句子進行分詞處理,獲取單詞特征;
[0010]3)抽取步驟2)中具有情感詞的句子,標記成情感特征,并根據(jù)單詞特征和情感特征構(gòu)建句子的特征向量;
[0011]4)采用余弦算法計算向量間的相似度;
[0012]5)根據(jù)所得相似度計算句子間的轉(zhuǎn)移概率;
[0013]6)采用PageRank算法計算句子的權(quán)值;
[0014]7)根據(jù)所述句子的權(quán)值進行排序,抽取句子,獲得摘要。
[0015]優(yōu)選的,所述步驟I)中是按所述英文對話文本中的結(jié)束標志進行分句,所述結(jié)束標志為句話、感嘆號、問號或省略號中的一種。[0016]優(yōu)選的,所述步驟2)中分詞處理是據(jù)英文句子的空格,將一個句子分成各個單詞。
[0017]優(yōu)選的,所述步驟3)具體包括步驟:
[0018]3.1)提供一情感詞詞典;
[0019]3.2)將句子中的單詞與所述情感詞詞典進行匹配查找,以檢測句子中的情感詞,當檢測到情感詞,在該句子后增加“OPINION”特征作為情感特征;
[0020]3.3)將所獲得的單詞特征和情感特征結(jié)合構(gòu)建句子的特征向量。
[0021]優(yōu)選的,所述步驟4)中余弦算法計算向量間的相似度具體為:
[0022]根據(jù)公式
【權(quán)利要求】
1.一種對話文本情感摘要的生成方法,該對話文本為英文對話文本,其特征在于,包括: 1)將英文對話文本進行分句處理; 2)將步驟1)中獲得的句子進行分詞處理,獲取單詞特征; 3)抽取步驟2)中具有情感詞的句子,標記成情感特征,并根據(jù)單詞特征和情感特征構(gòu)建句子的特征向量; 4)采用余弦算法計算向量間的相似度; 5)根據(jù)所得相似度計算句子間的轉(zhuǎn)移概率; 6)采用PageRank算法獲取句子的權(quán)值; 7)根據(jù)所述句子的權(quán)值進行排序,抽取句子,獲得摘要。
2.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟I)中是按所述英文對話文本中的結(jié)束標志進行分句,所述結(jié)束標志為句話、感嘆號、問號或省略號中的一種。
3.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟2)中分詞處理是據(jù)英文句子的空格,將一個句子分 成各個單詞。
4.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟3)具體包括步驟: 3.1)提供一情感詞詞典; 3.2)根據(jù)步驟2)獲得的單詞特征,將句子中可能成為情感詞的單詞與所述情感詞詞典進行匹配查找,以檢測句子中的情感詞,當檢測到情感詞,在該句子后增加“OPINION”特征作為情感特征; 3.3)將所獲得的單詞特征和情感特征結(jié)合構(gòu)建句子的特征向量。
5.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟4)中余弦算法計算向量間的相似度具體為:
根據(jù)公式
6.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟5)具體為:
根據(jù)公式
7.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟6)具體為: 根據(jù)公式
8.根據(jù)權(quán)利要求1所述的生成方法,其特征在于:所述步驟7)具體包括: . 7.1)按照所述句子的權(quán)值大小,分別選擇出符合預(yù)設(shè)數(shù)量,且權(quán)值較大句子; . 7.2)由選擇的所述的句子組成對話文本的情感摘要。
【文檔編號】G06F17/27GK103617158SQ201310693047
【公開日】2014年3月5日 申請日期:2013年12月17日 優(yōu)先權(quán)日:2013年12月17日
【發(fā)明者】李壽山, 林莉媛, 王中卿, 周國棟 申請人:蘇州大學(xué)張家港工業(yè)技術(shù)研究院