專(zhuān)利名稱(chēng):一種情感特征詞提取系統(tǒng)的制作方法
專(zhuān)利說(shuō)明一種情感特征詞提取系統(tǒng) 技術(shù)主題 本發(fā)明涉及一種特征提取系統(tǒng),特別是關(guān)于一種情感特征詞提取系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)上的數(shù)據(jù)以指數(shù)級(jí)的速度增長(zhǎng)。特別是Web2.0的興起和發(fā)展,網(wǎng)絡(luò)上用戶(hù)生成內(nèi)容越來(lái)越多,比如博客、評(píng)論、論壇帖子等,它們?cè)诰W(wǎng)絡(luò)中占據(jù)越來(lái)越重要的地位。用戶(hù)生成的內(nèi)容中除了包含很多事實(shí)性的內(nèi)容之外,也包含大量與情感因素相關(guān)的內(nèi)容,并且后者的影響也越來(lái)越大。比如用戶(hù)在購(gòu)買(mǎi)商品時(shí)會(huì)很自然的去網(wǎng)上搜索其要購(gòu)買(mǎi)商品的相關(guān)信息,其他用戶(hù)對(duì)于該商品的評(píng)論信息很可能直接影響到用戶(hù)的購(gòu)買(mǎi)。因此廠家也越來(lái)越關(guān)注于消費(fèi)者對(duì)其商品的反饋,利用這些反饋信息可以用來(lái)理解用戶(hù)需求和滿(mǎn)意度,從而改善產(chǎn)品質(zhì)量以及提高服務(wù)質(zhì)量。此外,政府機(jī)關(guān)、政治團(tuán)體也越來(lái)越關(guān)注網(wǎng)絡(luò)平臺(tái)的作用,例如政府會(huì)關(guān)注其政策法規(guī)在網(wǎng)絡(luò)中的反響,關(guān)注網(wǎng)上的輿情信息,特別是熱點(diǎn)事件的輿情信息。
傳統(tǒng)的網(wǎng)絡(luò)信息處理主要是基于事實(shí)性的文本進(jìn)行處理,比如基于關(guān)鍵字的檢索,文本的分類(lèi)、聚類(lèi)等,很少關(guān)注其中包含的情感信息。與傳統(tǒng)文本處理方式不同的是,情感分析主要用來(lái)分析和挖掘用戶(hù)的情感傾向,來(lái)彌補(bǔ)傳統(tǒng)搜索引擎等工具的不足。在情感分析工作中,情感的特征選取不僅是進(jìn)行情感分類(lèi)的主要基礎(chǔ),還是影響情感分析結(jié)果的重要因素。與傳統(tǒng)的分類(lèi)方法不同的是,情感分析很難采用傳統(tǒng)的基于詞頻等簡(jiǎn)單的統(tǒng)計(jì)信息來(lái)提取特征,因?yàn)榍楦蟹诸?lèi)所需的特征最好應(yīng)該是能夠直接代表情感特征詞的詞;而且不同主題有不同的情感特征詞,比如“布什是中國(guó)人民的老朋友”和“老布什越老越糊涂”?!袄稀边@個(gè)詞在這三個(gè)地方中有三種不同的情感特征詞。由于情感特征詞分析的特殊性,傳統(tǒng)文本分析方法不能滿(mǎn)足其要求。
在情感分析中,特征選取的方法是其中的最重要的一個(gè)部分,其效果直接決定了情感分析的效果。目前的研究發(fā)現(xiàn),利用機(jī)器學(xué)習(xí)的方法比直接進(jìn)行人工選取的方法還要有效?,F(xiàn)在情感的特征提取方式主要有手動(dòng)選取情感特征詞,基于搜索引擎來(lái)計(jì)算少量的其它特征詞和選定特征詞的逐點(diǎn)互信息量值(Pointwise Mutual Information,PMI)來(lái)確定;在大規(guī)模語(yǔ)料中,找出同義共現(xiàn)的模式去匹配;使用更多的種子詞,使用對(duì)數(shù)似然率(log likelihood ratio,LLR);基于字典的方法,從一些核心詞典出發(fā),利用WordNet(英文),HowNet(中文)提供的關(guān)系去擴(kuò)展。但是這些方法對(duì)評(píng)論的召回率都存在著偏低的現(xiàn)象,即很多評(píng)論沒(méi)有對(duì)應(yīng)的情感特征詞去分析其情感傾向。
發(fā)明內(nèi)容
針對(duì)上述問(wèn)題,本發(fā)明的目的是提供一種能有效改進(jìn)評(píng)論語(yǔ)句少、評(píng)論對(duì)象相對(duì)分散內(nèi)容的情感分析效果,并且能在細(xì)化的主題中進(jìn)行細(xì)致情感分析的情感特征詞提取系統(tǒng)。
為實(shí)現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案一種情感特征詞提取系統(tǒng),其特征在于它包括特征選取模塊、特征驗(yàn)證模塊、關(guān)系提取模塊、廣義情感特征詞表和狹義情感特征詞表;所述特征選取模塊利用文章集合中的文章內(nèi)容和評(píng)論集合中的評(píng)論內(nèi)容,分別提取評(píng)論內(nèi)容全體的候選情感特征詞和分類(lèi)的候選情感特征詞;所述關(guān)系提取模塊根據(jù)所述文章內(nèi)容,通過(guò)模板構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖;通過(guò)所述全體的候選情感特征詞和語(yǔ)義關(guān)系圖建立廣義情感特征詞表;通過(guò)所述分類(lèi)的候選情感特征詞和語(yǔ)義關(guān)系圖建立狹義情感特征詞表。
所述特征選取模塊中候選情感特征詞的提取方法為利用評(píng)論集合與文章集合的詞頻信息差異,用打分法選取候選情感特征詞,計(jì)算方程為 Score1(Term)=(R_DF(Term)/(N_DF(Term)+1) (1) Score2(Term)=(R_TF(Term)/(N_TF(Term)+1) (2) 其中Score1表示通過(guò)方程(1)計(jì)算得到的分值,Score2表示通過(guò)方程(2)計(jì)算得到的分值;Term表示詞;R_DF(Term)表示詞出現(xiàn)在所述評(píng)論集合的不同評(píng)論內(nèi)容中的次數(shù);N_DF(Term)表示詞出現(xiàn)在所述文章集合的不同文章內(nèi)容中的次數(shù);R_TF(Term)表示詞在所述評(píng)論集合中出現(xiàn)的總次數(shù);N_TF(Term)表示詞在所述文章集合中出現(xiàn)的總次數(shù);之后按分值對(duì)詞進(jìn)行排序,選取一定數(shù)目得分較高的詞作為候選情感特征詞;排序規(guī)則是先按Score1進(jìn)行比較,如果Score1一樣,再按Score2進(jìn)行比較。
建立所述廣義情感特征詞表時(shí),在所述特征驗(yàn)證模塊中,在全體的候選情感特征詞中選取部分進(jìn)行正負(fù)向標(biāo)注,形成基礎(chǔ)情感特征詞表,所述基礎(chǔ)情感特征詞表根據(jù)其中的詞性,分為正向表和負(fù)向表兩部分;在所述語(yǔ)義關(guān)系圖中找出基礎(chǔ)情感特征詞表中已標(biāo)注的情感特征詞的所有的同位詞,將這些同位詞擴(kuò)充入所述基礎(chǔ)情感特征詞表中的正向表和負(fù)向表中;最后結(jié)合所述語(yǔ)義關(guān)系圖,使用半監(jiān)督學(xué)習(xí)的方法對(duì)擴(kuò)充的同位詞進(jìn)行傾向標(biāo)注和過(guò)濾,得到所述廣義情感特征詞表。
建立所述狹義情感特征詞表時(shí),在所述特征驗(yàn)證模塊中,針對(duì)所有的分類(lèi)的候選情感特征詞,結(jié)合所述擴(kuò)充后的正向表和負(fù)向表,對(duì)各類(lèi)候選情感特征詞進(jìn)行半監(jiān)督學(xué)習(xí)的正負(fù)向判定。
所述半監(jiān)督學(xué)習(xí)方法為在語(yǔ)義關(guān)系圖中尋找某個(gè)詞的同位詞,如果某個(gè)詞的同位詞落在正向表中的數(shù)目大于落在負(fù)向表中的數(shù)目,并且落在正向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞的詞性就標(biāo)識(shí)為正向;如果某個(gè)詞的同位詞落在負(fù)向表中的數(shù)目大于落在正向表中的數(shù)目,并且落在負(fù)向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞就標(biāo)識(shí)為負(fù)向;如果某個(gè)詞的同位詞落在正向表和落在負(fù)向表中的數(shù)目均達(dá)不到預(yù)先設(shè)定的最小閾值,則過(guò)濾掉該詞。
本發(fā)明由于采取以上技術(shù)方案,其具有以下優(yōu)點(diǎn)1、本發(fā)明的系統(tǒng)由于使用評(píng)論對(duì)象和評(píng)論之間差異獲取情感特征詞的方法,對(duì)于評(píng)論語(yǔ)句少、評(píng)論對(duì)象相對(duì)分散的新聞、論壇和博客等評(píng)論,進(jìn)行情感分析的效果有較大的改進(jìn)。2、本發(fā)明獲取情感特征詞的方法既適用于較大主題的通用情感分析,也能在細(xì)化的主題中進(jìn)行更加深入的情感分析,在通用的情感分析中,評(píng)論的情感分析召回率提高了34.8%~40.9%;在特定類(lèi)別的情感分析中,召回率提高了91%~105%。本發(fā)明的情感特征詞提取系統(tǒng)可廣泛應(yīng)用于對(duì)新聞、論壇和博客等評(píng)論進(jìn)行情感分析。
圖1是本發(fā)明產(chǎn)生廣義情感特征詞表的流程示意圖 圖2是本發(fā)明產(chǎn)生狹義情感特征詞表的流程示意圖 圖3是本發(fā)明系統(tǒng)應(yīng)用于新聞評(píng)論情感分析的流程示意圖
具體實(shí)施例方式 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
如圖1所示,本發(fā)明基于多層次的情感特征詞提取系統(tǒng),通過(guò)評(píng)論與評(píng)論所針對(duì)的文章之間的用詞差異性進(jìn)行建模,按詞與詞的層次關(guān)系找出評(píng)論內(nèi)容中常用的情感特征詞,以及特定領(lǐng)域的情感特征詞。本發(fā)明的系統(tǒng)包括特征選取模塊1、特征驗(yàn)證模塊2、關(guān)系提取模塊3、廣義情感特征詞表4和狹義情感特征詞表5。一方面,在特征選取模塊1中分別計(jì)算評(píng)論集合R中的評(píng)論內(nèi)容及其針對(duì)的文章集合N中的文章內(nèi)容的統(tǒng)計(jì)信息,再利用評(píng)論內(nèi)容的詞的特征信息與評(píng)論內(nèi)容所針對(duì)的文章內(nèi)容的特征信息的差異信息,來(lái)得出評(píng)論內(nèi)容的候選情感特征詞。在特征驗(yàn)證模塊2中,根據(jù)評(píng)論集合R所針對(duì)的文章集合N的文章內(nèi)容中的詞與詞的同位關(guān)系和詞性信息,先采用人工方法或人機(jī)混合方法對(duì)候選情感特征詞進(jìn)行初步正負(fù)向判定和有效性過(guò)濾,得出部分候選情感特征詞的正負(fù)向詞性,建立有標(biāo)號(hào)的情感特征詞組成的基礎(chǔ)情感特征詞庫(kù)。在關(guān)系提取模塊3中根據(jù)評(píng)論集合R所針對(duì)的文章集合N中的文章內(nèi)容構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖,包括“上位,同位,下位”三種關(guān)系?;A(chǔ)情感特征詞庫(kù)結(jié)合語(yǔ)義關(guān)系圖,對(duì)候選情感特征詞通過(guò)半監(jiān)督學(xué)習(xí)方法進(jìn)行情感傾向標(biāo)注和擴(kuò)充,得出由標(biāo)注后的情感特征詞組成的廣義情感特征詞表4,用于對(duì)一般的評(píng)論內(nèi)容進(jìn)行通用情感分析。
如圖2所示,本發(fā)明的系統(tǒng)為了改善對(duì)具體針對(duì)某個(gè)類(lèi)別主題評(píng)論的情感分析效果,特別是針對(duì)熱點(diǎn)主題的評(píng)論內(nèi)容的情感分析,本發(fā)明提出一種狹義情感特征詞表5的提取方法在評(píng)論集合R所針對(duì)的文章集合N中根據(jù)文章內(nèi)容進(jìn)行聚類(lèi),按聚類(lèi)的數(shù)目的多少確定出熱點(diǎn)主題作為我們關(guān)注的具體類(lèi)別,如類(lèi)別1、類(lèi)別2,……,類(lèi)別n。在特征選取模塊1中通過(guò)分別對(duì)類(lèi)別1、類(lèi)別2,……,類(lèi)別n的主題和對(duì)應(yīng)的評(píng)論內(nèi)容進(jìn)行對(duì)比,獲得分別屬于類(lèi)別1、類(lèi)別2,……,類(lèi)別n的候選情感特征詞。然后在特征驗(yàn)證模塊2中對(duì)該類(lèi)別下的候選情感特征進(jìn)行情感傾向標(biāo)注,最終得到屬于各類(lèi)的狹義情感特征詞表5。綜上所述,本發(fā)明基于多層次的情感特征詞提取系統(tǒng)不僅可以構(gòu)建出通用的情感分析所用的情感特征詞,也可以從細(xì)化的特定領(lǐng)域中找出與領(lǐng)域相關(guān)的情感特征詞。比如既可以與產(chǎn)品相關(guān)的情感候選通用特征,也可以找到某一類(lèi)產(chǎn)品,甚至某一種具體產(chǎn)品,具體產(chǎn)品的具體型號(hào)的相關(guān)情感特征詞。
本發(fā)明的基于多層次的情感特征詞提取系統(tǒng)建立步驟為 1、提取候選情感特征詞 1)在特征選取模塊1中文章集合N中的文章內(nèi)容和評(píng)論集合R中的評(píng)論內(nèi)容的詞頻信息,詞頻信息包括詞的TF值,即詞出現(xiàn)的總的次數(shù);DF值,即包含該詞的文章數(shù)。
2)利用評(píng)論集合R與文章集合N的詞頻信息差異,用打分法選取候選情感特征詞,計(jì)算方程為 Score1(Term)=(R_DF(Term)/(N_DF(Term)+1)(1) Score2(Term)=(R_TF(Term)/(N_TF(Term)+1)(2) 其中Score1表示通過(guò)方程(1)計(jì)算得到的分值,Score2表示通過(guò)方程(2)計(jì)算得到的分值;Term表示詞;R_DF(Term)表示詞出現(xiàn)在評(píng)論集合R的不同評(píng)論內(nèi)容中的次數(shù);N_DF(Term)表示詞出現(xiàn)在評(píng)論集合所針對(duì)的文章集合N的不同文章內(nèi)容中的次數(shù);R_TF(Term)表示詞在評(píng)論集合R中出現(xiàn)的總次數(shù);N_TF(Term)表示詞在文章集合N中出現(xiàn)的總次數(shù)。
3)利用方程(1)和方程(2)對(duì)評(píng)論集合R中出現(xiàn)的詞進(jìn)行打分,然后按分值對(duì)詞進(jìn)行排序,選取一定數(shù)目得分較高的詞作為候選情感特征詞。排序規(guī)則是先按Score1進(jìn)行比較,如果Score1一樣,再按Score2進(jìn)行比較。
4)對(duì)評(píng)論所針對(duì)的文章集合N進(jìn)行逐層細(xì)分,得到在每一層的候選情感特征詞。對(duì)評(píng)論所針對(duì)的文章集合N采用的細(xì)分方法是,對(duì)文章集合N中的文章內(nèi)容進(jìn)行聚類(lèi),把那些包含文章內(nèi)容數(shù)目較多的集合對(duì)應(yīng)的內(nèi)容主題當(dāng)作熱點(diǎn)主題,每一個(gè)熱點(diǎn)主題作為一個(gè)層次。在熱點(diǎn)主題對(duì)應(yīng)的文章內(nèi)容中,又可以進(jìn)一步聚類(lèi)成多個(gè)子熱點(diǎn)主題,因此就可以得到一個(gè)根據(jù)熱點(diǎn)主題和子熱點(diǎn)主題之間的包含關(guān)系構(gòu)建的層次化樹(shù)形結(jié)構(gòu),之后在每一個(gè)層次上利用方程(1)和方程(2)得到該層次對(duì)應(yīng)的候選情感特征詞。這樣不僅可以構(gòu)建出分類(lèi)粒度較大的廣義情感分析所用的候選情感特征詞,及根據(jù)它們建立的廣義情感特征詞表4;也可以得到分類(lèi)粒度較小的狹義情感分析所用的候選情感特征詞,及根據(jù)它們建立的類(lèi)別相關(guān)的狹義情感特征詞表5。
2、建立廣義情感特征詞表4和狹義情感特征詞表5 在關(guān)系提取模塊3中,根據(jù)評(píng)論所針對(duì)的文章集合N中的詞與詞的同位關(guān)系和詞性信息,對(duì)步驟1中的候選情感特征詞進(jìn)行正負(fù)向判定和過(guò)濾,進(jìn)而生成廣義情感特征詞表4和狹義情感特征詞表5。這里同位關(guān)系是指詞與詞之間的在語(yǔ)句中的地位相同,比如汽車(chē),豐田,寶馬這三個(gè)詞,豐田和保密是同位關(guān)系;情續(xù),高興,悲傷這三個(gè)詞,高興和悲傷時(shí)同位關(guān)系。詞性信息是指根據(jù)詞的詞性進(jìn)行過(guò)濾,只保留名詞,動(dòng)詞,形容詞和副詞這些詞性的詞,其他如嘆詞,擬聲詞等詞性的詞都會(huì)被過(guò)濾掉。
i)在關(guān)系提取模塊3中基于評(píng)論所針對(duì)的文章集合N,通過(guò)模板構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖,語(yǔ)義關(guān)系指詞與詞之間存在著同位的關(guān)系。
ii)在構(gòu)建評(píng)論集合R的廣義情感特征詞表4時(shí),在特征驗(yàn)證模塊2中,首先選取部分候選情感特征詞進(jìn)行正負(fù)向標(biāo)注,形成基礎(chǔ)情感特征詞表,基礎(chǔ)情感特征詞表根據(jù)其中的詞性,分為正向表和負(fù)向表兩部分。之后在語(yǔ)義關(guān)系圖中找出基礎(chǔ)情感特征詞表已標(biāo)注的情感特征詞的所有同位詞,將這些同位詞擴(kuò)充入的正向表和負(fù)向表中。最后利用語(yǔ)義關(guān)系圖驗(yàn)證正向表和負(fù)向表中未標(biāo)注詞的詞性,在語(yǔ)義關(guān)系圖中尋找正向表和負(fù)向表中未標(biāo)注詞的同位詞,如果某個(gè)未標(biāo)注詞的同位詞落在正向表中的數(shù)目大于落在負(fù)向表中的數(shù)目,并且落在正向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該未標(biāo)注詞的詞性就標(biāo)識(shí)為正向,加到廣義情感特征詞表4中去;如果某個(gè)未標(biāo)注詞的同位詞落在負(fù)向表中的數(shù)目大于落在正向表中的數(shù)目,并且落在負(fù)向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該未標(biāo)注詞就標(biāo)識(shí)為負(fù)向,加到廣義情感特征詞表4中去;如果某個(gè)未標(biāo)注詞的同位詞落在正向表和落在負(fù)向表中的數(shù)目均達(dá)不到預(yù)先設(shè)定的最小閾值,則過(guò)濾掉該未標(biāo)注詞。
iii)在構(gòu)建狹義情感特征詞表5時(shí),利用在步驟4)中得到的依層次劃分的候選情感特征詞以及熱點(diǎn)主題內(nèi)實(shí)體之間的相互關(guān)系,來(lái)確定候選情感特征詞中詞的正負(fù)傾向和是否需要過(guò)濾。在特征驗(yàn)證模塊2中,針對(duì)每個(gè)類(lèi)別的候選情感特征詞,根據(jù)基礎(chǔ)情感特征詞表中的已標(biāo)注的情感特征詞,對(duì)各類(lèi)候選情感特征詞進(jìn)行半監(jiān)督學(xué)習(xí)的正負(fù)向判定。首先在語(yǔ)義關(guān)系圖中尋找已標(biāo)注的情感特征詞的所有同位詞,加上基礎(chǔ)情感特征詞表中的已標(biāo)注情感特征詞,根據(jù)其中詞性分為正向表和負(fù)向表兩部分。其次分別對(duì)各類(lèi)別的候選情感特征詞進(jìn)行判斷,在語(yǔ)義關(guān)系圖中尋找某類(lèi)候選情感特征詞的詞的同位詞,如果某個(gè)候選情感特征詞的同位詞落在正向表中的數(shù)目大于落在負(fù)向表中的數(shù)目,并且落在正向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該候選情感特征詞的詞性就標(biāo)識(shí)為正向,加到狹義情感特征詞表5中去;如果某個(gè)候選情感特征詞的同位詞落在負(fù)向表中的數(shù)目大于落在正向表中的數(shù)目,并且落在負(fù)向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該候選情感特征詞就標(biāo)識(shí)為負(fù)向,加到狹義情感特征詞表5中去;如果該候選情感特征詞的同位詞落在正向表和落在負(fù)向表中的數(shù)目均達(dá)不到預(yù)先設(shè)定的最小閾值,則過(guò)濾掉該候選情感特征詞。與步驟ii)的不同之處在于,對(duì)狹義情感特征詞表5不再進(jìn)行擴(kuò)充,而且這些情感特征詞需要與實(shí)體存在修飾的關(guān)系。
如圖3所示,通過(guò)對(duì)某則新聞的評(píng)論進(jìn)行情感分析為實(shí)施例,說(shuō)明本發(fā)明系統(tǒng)的工作過(guò)程,其中新聞集合N中的新聞內(nèi)容,對(duì)新聞主題的新聞評(píng)論對(duì)應(yīng)評(píng)論集合R中的評(píng)論內(nèi)容。
I)將新聞集合N及其對(duì)應(yīng)的評(píng)論集合R輸入特征選取模塊1,利用方程(1)和方程(2)對(duì)比新聞集合N和評(píng)論集合R的詞頻信息,得到評(píng)論內(nèi)容的候選情感特征詞。
II)在特征驗(yàn)證模塊2中對(duì)候選情感特征詞進(jìn)行初步的篩選和傾向標(biāo)注,得到基礎(chǔ)情感特征詞表。
III)在關(guān)系提取模塊3中通過(guò)模板根據(jù)新聞集合N構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖。
VI)對(duì)情感特征詞結(jié)合語(yǔ)義關(guān)系圖進(jìn)行情感特征詞的擴(kuò)充和驗(yàn)證,得到廣義情感特征詞表4和狹義情感特征詞表5。
V)通用的情感分析中利用廣義情感特征詞表4進(jìn)行分析,在特定類(lèi)別的情感分析中,利用狹義情感特征詞表5進(jìn)行分析。
綜上所述,在經(jīng)過(guò)以上步驟之后,可以得到了廣義情感特征詞表4和狹義情感特征詞表5。在對(duì)新聞評(píng)論進(jìn)行情感分析時(shí),首先判斷新聞評(píng)論是否屬于某個(gè)具體類(lèi)別下,如果能找出新聞評(píng)論的類(lèi)別,則利用該類(lèi)別的狹義情感特征詞表5結(jié)合一些經(jīng)過(guò)否定、轉(zhuǎn)折等句法分析得到的評(píng)論特征,對(duì)新聞評(píng)論進(jìn)行情感傾向性判定。而如果沒(méi)有找到具體類(lèi)別,就利用廣義情感特征詞表4對(duì)新聞評(píng)論進(jìn)行判定。進(jìn)行情感傾向性判定的方法在廣義情感特征詞表4或狹義情感特征詞表5中定位情感特征詞,如果情感特征詞前有否定前綴,則將其情感傾向取反;如果情感特征詞處于轉(zhuǎn)折語(yǔ)句中,在轉(zhuǎn)折前的分句中有情感特征詞,則舍棄轉(zhuǎn)折后的分句;否則看轉(zhuǎn)折后的分句有無(wú)情感特征詞,有的話(huà)將其情感傾向取反;最后統(tǒng)計(jì)所有的情感特征詞的情感傾向,如果為正,則認(rèn)為整個(gè)評(píng)論的情感傾向?yàn)檎?br>
本發(fā)明的系統(tǒng)既適用于較大主題的通用情感分析,也能在細(xì)化的主題中進(jìn)行更加深入的情感分析。在通用的情感分析中,評(píng)論的情感分析召回率提高了34.8%-40.9%;在特定類(lèi)別的情感分析中,召回率提高了91%~105%。
權(quán)利要求
1、一種情感特征詞提取系統(tǒng),其特征在于它包括特征選取模塊、特征驗(yàn)證模塊、關(guān)系提取模塊、廣義情感特征詞表和狹義情感特征詞表;所述特征選取模塊利用文章集合中的文章內(nèi)容和評(píng)論集合中的評(píng)論內(nèi)容,分別提取評(píng)論內(nèi)容全體的候選情感特征詞和分類(lèi)的候選情感特征詞;所述關(guān)系提取模塊根據(jù)所述文章內(nèi)容,通過(guò)模板構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖;通過(guò)所述全體的候選情感特征詞和語(yǔ)義關(guān)系圖建立廣義情感特征詞表;通過(guò)所述分類(lèi)的候選情感特征詞和語(yǔ)義關(guān)系圖建立狹義情感特征詞表。
2、如權(quán)利要求1所述的一種情感特征詞提取系統(tǒng),其特征在于所述特征選取模塊中候選情感特征詞的提取方法為利用評(píng)論集合與文章集合的詞頻信息差異,用打分法選取候選情感特征詞,計(jì)算方程為
Score1(Term)=(R_DF(Term)/(N_DF(Term)+1)(1)
Score2(Term)=(R_TF(Term)/(N_TF(Term)+1)(2)
其中Score1表示通過(guò)方程(1)計(jì)算得到的分值,Score2表示通過(guò)方程(2)計(jì)算得到的分值;Term表示詞;R_DF(Term)表示詞出現(xiàn)在所述評(píng)論集合的不同評(píng)論內(nèi)容中的次數(shù);N_DF(Term)表示詞出現(xiàn)在所述文章集合的不同文章內(nèi)容中的次數(shù);R_TF(Term)表示詞在所述評(píng)論集合中出現(xiàn)的總次數(shù);N_TF(Term)表示詞在所述文章集合中出現(xiàn)的總次數(shù);之后按分值對(duì)詞進(jìn)行排序,選取一定數(shù)目得分較高的詞作為候選情感特征詞;排序規(guī)則是先按Score1進(jìn)行比較,如果Score1一樣,再按Score2進(jìn)行比較。
3、如權(quán)利要求1所述的一種情感特征詞提取系統(tǒng),其特征在于建立所述廣義情感特征詞表時(shí),在所述特征驗(yàn)證模塊中,在全體的候選情感特征詞中選取部分進(jìn)行正負(fù)向標(biāo)注,形成基礎(chǔ)情感特征詞表,所述基礎(chǔ)情感特征詞表根據(jù)其中的詞性,分為正向表和負(fù)向表兩部分;在所述語(yǔ)義關(guān)系圖中找出基礎(chǔ)情感特征詞表中已標(biāo)注的情感特征詞的所有的同位詞,將這些同位詞擴(kuò)充入所述基礎(chǔ)情感特征詞表中的正向表和負(fù)向表中;最后結(jié)合所述語(yǔ)義關(guān)系圖,使用半監(jiān)督學(xué)習(xí)的方法對(duì)擴(kuò)充的同位詞進(jìn)行傾向標(biāo)注和過(guò)濾,得到所述廣義情感特征詞表。
4、如權(quán)利要求2所述的一種情感特征詞提取系統(tǒng),其特征在于建立所述廣義情感特征詞表時(shí),在所述特征驗(yàn)證模塊中,在所述全體的候選情感特征詞中選取部分進(jìn)行正負(fù)向標(biāo)注,形成基礎(chǔ)情感特征詞表,所述基礎(chǔ)情感特征詞表根據(jù)其中的詞性,分為正向表和負(fù)向表兩部分;在所述語(yǔ)義關(guān)系圖中找出基礎(chǔ)情感特征詞表中已標(biāo)注的情感特征詞的所有的同位詞,將這些同位詞擴(kuò)充入所述基礎(chǔ)情感特征詞表中的正向表和負(fù)向表中;最后結(jié)合所述語(yǔ)義關(guān)系圖,使用半監(jiān)督學(xué)習(xí)的方法對(duì)擴(kuò)充后的正向表和負(fù)向表進(jìn)行傾向標(biāo)注和過(guò)濾,形成所述廣義情感特征詞表。
5、如權(quán)利要求1或2或3或4所述的一種情感特征詞提取系統(tǒng),其特征在于建立所述狹義情感特征詞表時(shí),在所述特征驗(yàn)證模塊中,針對(duì)所有的分類(lèi)的候選情感特征詞,結(jié)合所述擴(kuò)充后的正向表和負(fù)向表,對(duì)各類(lèi)候選情感特征詞進(jìn)行半監(jiān)督學(xué)習(xí)的正負(fù)向判定。
6、如權(quán)利要求1或2或3或4所述的一種情感特征詞提取系統(tǒng),其特征在于所述半監(jiān)督學(xué)習(xí)方法為在語(yǔ)義關(guān)系圖中尋找某個(gè)詞的同位詞,如果某個(gè)詞的同位詞落在正向表中的數(shù)目大于落在負(fù)向表中的數(shù)目,并且落在正向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞的詞性就標(biāo)識(shí)為正向;如果某個(gè)詞的同位詞落在負(fù)向表中的數(shù)目大于落在正向表中的數(shù)目,并且落在負(fù)向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞就標(biāo)識(shí)為負(fù)向;如果某個(gè)詞的同位詞落在正向表和落在負(fù)向表中的數(shù)目均達(dá)不到預(yù)先設(shè)定的最小閾值,則過(guò)濾掉該詞。
7、如權(quán)利要求5所述的一種情感特征詞提取系統(tǒng),其特征在于所述半監(jiān)督學(xué)習(xí)方法為在語(yǔ)義關(guān)系圖中尋找某個(gè)詞的同位詞,如果某個(gè)詞的同位詞落在正向表中的數(shù)目大于落在負(fù)向表中的數(shù)目,并且落在正向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞的詞性就標(biāo)識(shí)為正向;如果某個(gè)詞的同位詞落在負(fù)向表中的數(shù)目大于落在正向表中的數(shù)目,并且落在負(fù)向表中的同位詞數(shù)目超過(guò)預(yù)先設(shè)定的最小閾值,那么該詞就標(biāo)識(shí)為負(fù)向;如果某個(gè)詞的同位詞落在正向表和落在負(fù)向表中的數(shù)目均達(dá)不到預(yù)先設(shè)定的最小閾值,則過(guò)濾掉該詞。
全文摘要
本發(fā)明涉及一種情感特征詞提取系統(tǒng),其特征在于它包括特征選取模塊、特征驗(yàn)證模塊、關(guān)系提取模塊、廣義情感特征詞表和狹義情感特征詞表;特征選取模塊利用評(píng)論所針對(duì)的文章集合中的文章內(nèi)容和評(píng)論集合中的評(píng)論內(nèi)容,分別提取評(píng)論內(nèi)容全體的候選情感特征詞和分類(lèi)的候選情感特征詞;關(guān)系提取模塊根據(jù)文章內(nèi)容,通過(guò)模板構(gòu)建一個(gè)詞與詞的語(yǔ)義關(guān)系圖;通過(guò)全體的候選情感特征詞和語(yǔ)義關(guān)系圖建立廣義情感特征詞表;通過(guò)分類(lèi)的候選情感特征詞和語(yǔ)義關(guān)系圖建立狹義情感特征詞表。本發(fā)明獲取情感特征詞的方法既適用于較大主題的通用情感分析,也能在細(xì)化的主題中進(jìn)行更加深入的情感分析。本發(fā)明的情感特征詞提取系統(tǒng)可廣泛應(yīng)用于對(duì)新聞、論壇和博客等評(píng)論進(jìn)行情感分析。
文檔編號(hào)G06F17/30GK101609459SQ20091008971
公開(kāi)日2009年12月23日 申請(qǐng)日期2009年7月21日 優(yōu)先權(quán)日2009年7月21日
發(fā)明者陶富民, 軍 高, 王騰蛟, 楊冬青 申請(qǐng)人:北京大學(xué)