基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法及裝置,包括以下步驟:首先對語料及其分詞結(jié)果進行規(guī)范化處理,然后通過基于比較特征詞詞典與句法結(jié)構(gòu)模板、依存關(guān)系相結(jié)合的方法進行粗粒度提?。蛔詈笤O(shè)計一種類別序列規(guī)則(CSR)提取算法,并利用CRF挖掘?qū)嶓w對象信息即語義角色信息,輔以比較特征詞與統(tǒng)計詞特征,利用這四種特征構(gòu)造BP神經(jīng)網(wǎng)絡(luò),找到使性能達到最優(yōu)的特征形式完成細粒度提取。對比現(xiàn)有技術(shù),本發(fā)明能夠有效利用不同層級語義信息進行識別,使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的中文比較句,提高中文比較句的識別率。
【專利說明】基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種中文比較句識別方法,特別涉及一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]每天人們都被形形色色的選擇所包圍。為了做出更好的抉擇,我們往往會選擇拿我們感興趣的物品作比較。同時,伴隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,互聯(lián)網(wǎng)逐漸變得更加人性化。在“以用戶為中心,用戶參與”的開放式架構(gòu)理念的指導(dǎo)下,互聯(lián)網(wǎng)用戶由被動地瀏覽互聯(lián)網(wǎng)信息逐步向主動創(chuàng)造互聯(lián)網(wǎng)信息邁進?;ヂ?lián)網(wǎng)用戶既是網(wǎng)站內(nèi)容的瀏覽者,也成為了網(wǎng)站內(nèi)容的制造者。因此,互聯(lián)網(wǎng)上產(chǎn)生了大量的用戶制造的評論信息,這些評論信息表達了人們對于諸如產(chǎn)品、事件、人物、機構(gòu)等主題的看法和情感傾向,如滿意、抱怨、支持、反對和贊揚、批評等。從這些信息中快速、準(zhǔn)確地獲取其所包含的情感或者評價信息,可以有效地支持多種實際應(yīng)用,如:智能導(dǎo)購、有害信息過濾、民意調(diào)查等。
[0003]然而,對互聯(lián)網(wǎng)上的觀點進行監(jiān)控卻并非易事。網(wǎng)絡(luò)上的觀點信息有多種來源,如:網(wǎng)站的帖子、論壇、博客、討論組等,每一種來源背后都存在大量的信息,并且在很多情況下,觀點還隱藏在長長的的文本中。因此,使用人工的方法去尋找相關(guān)的文本來源,抽取相關(guān)的句子并對其歸納概括,最終以適當(dāng)?shù)姆绞浇M織起來變得非常困難。如今,互聯(lián)網(wǎng)的飛速發(fā)展使得人們尤為迫切地需要一種自動的挖掘比較觀點、概括比較觀點的技術(shù),比較觀點挖掘應(yīng)勢而生。
[0004]在如今這個大數(shù)據(jù)時代,我們會從中得到海量的信息,這比傳統(tǒng)的問卷調(diào)查式方法要好很多。然而與此同時我們卻又為之困擾,同時處理這么大量的信息會是一件費時費力的事情。因此,我們需要一種比較觀點挖掘系統(tǒng)來幫助我們自動從海量數(shù)據(jù)中得到兩者(或更多事物)間的比較信息,這是一項有實用意義和學(xué)術(shù)意義的研究課題。正因如此,設(shè)計一種能夠穩(wěn)定高效識別中文比較句的方法顯得十分的重要。
[0005]比較句與比較關(guān)系識別的研究尚不系統(tǒng)和成熟,目前還處于起步階段。而中文的句式更加靈活多樣,因而中文比較句的研究相對更加困難。目前識別的思路大多是模板匹配或者將該問題歸類為機器學(xué)習(xí)問題,利用特征提取并構(gòu)造分類器將句子劃分為比較句與非比較句兩類。同比較句與比較關(guān)系識別相關(guān)的處理技術(shù)有文本分類、實體抽取、情感分析
坐寸ο
[0006]在以往的研究工作中,前人總結(jié)了許多有效的詞語級特征,或詞語搭配特征,但大多數(shù)的研究中只考慮這些特征在句子中出現(xiàn)與否或出現(xiàn)次數(shù)的多少,很少關(guān)注它們出現(xiàn)的位置以及在句子中的作用從而導(dǎo)致錯判。本方法在句法、語義層面進一步挖掘有效信息,在很大程度上提高了中文比較句判定的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是為解決以往在中文比較句識別中不能有效利用句法和語義信息的問題,盡可能發(fā)揮不同層級的語義信息特征,提出一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法。
[0008]為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0009]本發(fā)明技術(shù)方案的思想是首先對語料及其分詞結(jié)果進行規(guī)范化處理,然后通過基于比較特征詞詞典與句法結(jié)構(gòu)模板、依存關(guān)系相結(jié)合的方法進行粗粒度提??;最后設(shè)計一種類別序列規(guī)則(CSR)提取算法,并利用CRF挖掘?qū)嶓w對象信息即語義角色信息,輔以比較特征詞與統(tǒng)計詞特征,利用這四種特征構(gòu)造BP神經(jīng)網(wǎng)絡(luò),找到使性能達到最優(yōu)的特征形式完成細粒度提取。
[0010]本發(fā)明的具體實施步驟如下:
[0011]一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,該方法包括以下步驟:
[0012]步驟一、語料預(yù)處理:對語料集S的每一個句子進行分詞、句法結(jié)構(gòu)分析、依存關(guān)系分析和詞性標(biāo)注、語義角色標(biāo)注;
[0013]步驟二、句法結(jié)構(gòu)模板抽取:將S中每一個句子的句法結(jié)構(gòu)分析樹與句法結(jié)構(gòu)模板進行匹配,如果匹配成功,則判斷其屬于顯性比較句。本步驟中提取得到的顯性比較句的結(jié)果記為集合A ;
[0014]步驟三、依存關(guān)系相似度計算:將步驟二中抽取之后的剩余語料集S-A中的每一個句子進行依存關(guān)系統(tǒng)計計算,得到相似度S,并將S與預(yù)設(shè)的閾值V進行比較,如果S〉=V,則判斷其屬于隱性比較句;否則,判斷其屬于非比較句。本步驟中提取得到的隱性比較句的結(jié)果記為集合B,非比較句的結(jié)果記為集合D ;
[0015]步驟四、BP神經(jīng)網(wǎng)絡(luò)分類:將集合A和集合B作為粗粒度提取結(jié)果置于經(jīng)過訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)中進行細粒度提取,得到比較句集合C和非比較句集合E,BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征為:類別序列規(guī)則(Class Sequential Rules, CSR)、語義角色標(biāo)注(Semantic RoleLabeling, SRL)、比較特征詞(Keyword)以及統(tǒng)計詞特征(Statistical Word Feature, SWF)這四種;
[0016]步驟五、識別完成:輸出識別結(jié)果比較句集合C和非比較句集合D+E。
[0017]所述句法結(jié)構(gòu)模板如下:
[0018]1) SSl =...VP...+ (Keywords/Key Phrases) +...VA...[0019]此模式(SSl)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在表語形容詞(VA);
[0020]2) SS2 =...VP...+ (Keywords/Key Phrases) +...ADJP...[0021]此模式(SS2)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在形容詞短語(ADJP);
[0022]3) SS3 =...VP...+ (Keywords/Key Phrases) +...ADVP...[0023]此模式(SS3)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在副詞短語(ADVP);
[0024]4) SS4 =...NP...+ (Keywords/Key Phrases) +...NP...[0025]此模式(SS4)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在名詞短語(NP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在名詞短語(NP)。
[0026]5) SS5 =...NP...+ (Keywords/Key Phrases) +...ADJP...[0027]此模式(SS5)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在名詞短語(NP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在形容詞短語(ADJP)。
[0028]一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別裝置如圖2,包括:預(yù)處理模塊、模板匹配模塊、相似度過濾模塊、粗粒度提取結(jié)果生成模塊、特征提取模塊、特征向量生成模塊、BP神經(jīng)網(wǎng)絡(luò)分類模塊和細粒度提取結(jié)果生成模塊。
[0029]所述預(yù)處理模塊,用于讀入語料集合,并對集合中的每一個句子進行分詞、句法結(jié)構(gòu)分析、依存關(guān)系分析和詞性標(biāo)注、語義角色標(biāo)注;
[0030]所述模板匹配模塊,用于將由句法結(jié)構(gòu)處理模塊得到的對應(yīng)于每一個句子的句法結(jié)構(gòu)與句法結(jié)構(gòu)模板進行匹配,并將所有匹配成功的句子作為顯性比較句輸出;
[0031]所述相似度過濾模塊,用于對由模板匹配模塊匹配不成功的剩余句子集合中的每一個句子計算依存關(guān)系相似度,并將所有高于相似度閾值的句子作為隱性比較句輸出,其它低于相似度閾值的句子作為非比較句輸出;
[0032]粗粒度提取結(jié)果生成模塊將由模板匹配模塊輸出的顯性比較句和相似度過率模塊輸出的隱性比較句集合合并,生成粗粒度提取結(jié)果即準(zhǔn)比較句集合,并將由相似度過濾模塊判定為非比較句的句子置入非比較句集合;
[0033]所述特征提取模塊用于對粗粒度提取結(jié)果集合中的每一個句子提取類別序列規(guī)貝U、語義角色標(biāo)注、比較特征詞、統(tǒng)計特征詞四類特征;
[0034]所述類別序列規(guī)則特征的提取是將所述句子轉(zhuǎn)化為包含非關(guān)鍵詞的詞性標(biāo)識項和包含關(guān)鍵詞及其詞性標(biāo)識的組合項的序列,并且按照對應(yīng)詞在句子中的順序排列;
[0035]所述語義角色標(biāo)注特征的提取是將所述句子轉(zhuǎn)化為包含非比較詞的語義角色標(biāo)識項和比較詞的序列,并且按照對應(yīng)詞在句子中的順序排列;
[0036]所述比較特征詞特征的提取是將所述句子看做詞的集合,提取出句子中出現(xiàn)在比較特征詞表中的詞作為比較特征詞;
[0037]所述統(tǒng)計特征詞特征的提取是將所述句子看做詞的集合,提取出句子中出現(xiàn)在統(tǒng)計特征詞表中的詞作為統(tǒng)計特征詞;
[0038]所述特征向量生成模塊用于對與粗粒度提取結(jié)果集合中的每一個句子對應(yīng)的特征向量根據(jù)由特征提取模塊提取得到的四類特征分別與四類特征集合比對進行賦值;
[0039]所述BP神經(jīng)網(wǎng)絡(luò)分類模塊用于使用經(jīng)訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)對與粗粒度提取結(jié)果集合中的每一個句子對應(yīng)的特征向量進行識別,輸出識別結(jié)果,如果是比較句,輸出C,否則輸出NC ;
[0040]所述細粒度提取結(jié)果生成模塊用于將通過BP神經(jīng)網(wǎng)絡(luò)識別后,將所有標(biāo)記為C的比較句置入比較句集合,標(biāo)記為NC的句子置入非比較句集合,并輸出比較句集合和非比較句集合。
[0041]有益效果[0042]本發(fā)明對比現(xiàn)有技術(shù),通過采用規(guī)則與統(tǒng)計相結(jié)合的策略,利用句法結(jié)構(gòu)與依存關(guān)系進行粗粒度提取、BP神經(jīng)網(wǎng)絡(luò)進行細粒度提取,用模板的方式彌補基于概率統(tǒng)計的機器學(xué)習(xí)方法導(dǎo)致的錯判,相互補充,能夠有效利用不同層級語義信息進行識別,使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的中文比較句,提高中文比較句的識別率。
【專利附圖】
【附圖說明】
[0043]圖1為本發(fā)明方法的流程圖。
[0044]圖2為本發(fā)明方法的比較句識別裝置圖。
【具體實施方式】
[0045]在介紹實施例以前,先做如下定義:
[0046]將含有比較特征詞,明確表達兩者(或多者)之間對比的句子,稱為顯性比較句;將不含有比較特征詞,但整體意圖是為了比較兩者(或多者)之間的特征的句子,稱為隱性比較句。
[0047]下面結(jié)合實施例對本發(fā)明做進一步說明。
[0048]本實施例首先介紹句法結(jié)構(gòu)模板的生成方法,語義角色標(biāo)注集的獲取,BP神經(jīng)網(wǎng)絡(luò)的構(gòu)建方法,最后介紹中文比較句的識別方法。
[0049]本實施例選取第五屆中文傾向性分析評測(The Fifth Chinese Opinion AnalysisEvaluation,簡稱C0AE2013)提供的數(shù)據(jù)集與從互聯(lián)網(wǎng)上采集的關(guān)于汽車領(lǐng)域和電子產(chǎn)品領(lǐng)域的用戶評論信息一起作為實驗語料集,用于句法結(jié)構(gòu)模板的生成、語義角色標(biāo)注集的獲取以及BP神經(jīng)網(wǎng)絡(luò)權(quán)值的學(xué)習(xí)。該語料集含有類別標(biāo)注(C(是比較句)/NC(不是比較句))以及語義角色標(biāo)注。
[0050]句法結(jié)構(gòu)模板的生成方法,實現(xiàn)步驟如下:
[0051]1、獲取三元組,即對語料集的每一個句子執(zhí)行下述過程:
[0052]采用通用的句法結(jié)構(gòu)分析工具(本文使用的是Stanford Parser工具)進行句法結(jié)構(gòu)分析,得到句法結(jié)構(gòu)分析樹;
[0053]在句法結(jié)構(gòu)分析樹中找到該句的比較特征詞(Keyword),記該詞所在位置為當(dāng)前節(jié)點,并確定其在句法結(jié)構(gòu)樹中的特征,即其父節(jié)點;
[0054]按先序遍歷尋找特征的祖先節(jié)點和兄弟節(jié)點,若有的話分別將任一祖先節(jié)點、任一兄弟節(jié)點分別與比較特征詞的特征組成一個三元組;
[0055]舉例:以句子“諾基亞NS的屏幕不如iPhone的好?!睘槔?
[0056]
【權(quán)利要求】
1.一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,其特征在于規(guī)則與統(tǒng)計相結(jié)合,充分考慮了語義句法信息,包括以下步驟: 步驟1:對語料進行預(yù)處理,包括如下過程:對語料集S的每一個句子進行分詞、句法結(jié)構(gòu)分析、依存關(guān)系分析和詞性標(biāo)注、語義角色標(biāo)注; 步驟2:進行句法結(jié)構(gòu)模板抽取,過程如下:將S中每一個句子的句法結(jié)構(gòu)分析樹與句法結(jié)構(gòu)模板進行匹配,如果匹配成功,則判斷其屬于顯性比較句,本步驟中提取得到的顯性比較句的結(jié)果記為集合A ; 步驟3:進行依存關(guān)系相似度計算,過程如下:將步驟二中抽取之后的剩余語料集S-A中的每一個句子進行依存關(guān)系相似度計算,得到相似度S,并將s與預(yù)設(shè)的閾值V進行比較,如果s> = V,則判斷其屬于隱性比較句;否則,判斷其屬于非比較句;本步驟中提取得到的隱性比較句的結(jié)果記為集合B,非比較句的結(jié)果記為集合D ; 步驟4:利用經(jīng)訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)進行分類,過程如下:將集合A和集合B作為粗粒度提取結(jié)果置于經(jīng)過訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)中進行細粒度提取,得到比較句集合C和非比較句集合E, BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征為:類別序列規(guī)則(Class Sequential Rules, CSR)、語義角色標(biāo)注(Semantic Role Labeling, SRL)、比較特征詞(Keyword)以及統(tǒng)計詞特征(Statistical Word Feature, SffF)這四種; 步驟4:識別完成:輸出識別結(jié)果比較句集合C和非比較句集合D+E。
2.根據(jù)權(quán)利要求1所述的一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,其特征在于規(guī)則與統(tǒng)計相結(jié)合,充分考慮了語義句法信息,所述句法結(jié)構(gòu)模板如下:
1)SSl =...VP...+ (Keywords/Key Phrases) +...VA...此模式(SSl)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在表語形容詞(VA);
2)SS2 =...VP...+ (Keywords/Key Phrases) +...ADJP...此模式(SS2)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在形容詞短語(ADJP);
3)SS3 =...VP...+ (Keywords/Key Phrases) +...ADVP...此模式(SS3)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在動詞短語(VP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在副詞短語(ADVP);
4)SS4 =...NP...+ (Keywords/Key Phrases) +...NP...此模式(SS4)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在名詞短語(NP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在名詞短語(NP)。
5)SS5 =...NP...+ (Keywords/Key Phrases) +...ADJP...此模式(SS5)含義為:句子中出現(xiàn)了比較特征詞(Keywords/Key Phrases),且此特征詞父節(jié)點的祖先節(jié)點存在名詞短語(NP),其父節(jié)點的子節(jié)點(即其兄弟節(jié)點)中存在形容詞短語(ADJP)。
3.根據(jù)權(quán)利要求1所述的一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,其特征在于規(guī)則與統(tǒng)計相結(jié)合,充分考慮了語義句法信息,所述將句子的句法結(jié)構(gòu)分析樹與句法結(jié)構(gòu)模板進行匹配,匹配過程如下: Stepl:在句法結(jié)構(gòu)分析樹中尋找表1中列出的比較特征詞(Keyword),如果找到,記該詞所在位置為當(dāng)前節(jié)點C,否則,轉(zhuǎn)至St印6 ; Step2:確定C在句法結(jié)構(gòu)樹中的特征F,并記F的所有祖先節(jié)點為集合A ; Step3:對F的所有兄弟節(jié)點N依次執(zhí)行以下步驟: 如果A中存在VP,并且N為VA或者ADJP或者ADVP,則轉(zhuǎn)至St印5 ; 如果A中存在NP,并且N為NP或者ADJP則轉(zhuǎn)至St印5 ; Step4:如果句法結(jié)構(gòu)分析樹中還有未遍歷節(jié)點,返回Stepl,否則轉(zhuǎn)至Step6 ; Step5:返回匹配成功; Step6:返回匹配不成功。
4.根據(jù)權(quán)利要求1所述的一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別方法,其特征在于規(guī)則與統(tǒng)計相結(jié)合,充分考慮了語義句法信息,所述BP神經(jīng)網(wǎng)絡(luò),采用三層(輸入層、隱含層和輸出層)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元個數(shù)N與特征向量的元素個數(shù)相同,特征向量的元素個數(shù)為類別序列規(guī)則、語義角色標(biāo)注、比較特征詞以及統(tǒng)計詞特征四個集合的元素個數(shù)的和;隱含層神經(jīng)元個數(shù)為2N+1 ;輸 出層神經(jīng)元個數(shù)為2,分別對應(yīng)比較句類別C和非比較句類別NC。
5.一種基于神經(jīng)網(wǎng)絡(luò)的中文比較句識別裝置,包括:預(yù)處理模塊、模板匹配模塊、相似度過濾模塊、粗粒度提取結(jié)果生成模塊、特征提取模塊、特征向量生成模塊、BP神經(jīng)網(wǎng)絡(luò)分類模塊和細粒度提取結(jié)果生成模塊; 所述預(yù)處理模塊,用于讀入語料集合,并對集合中的每一個句子進行分詞、句法結(jié)構(gòu)分析、依存關(guān)系分析和詞性標(biāo)注、語義角色標(biāo)注; 所述模板匹配模塊,用于將由句法結(jié)構(gòu)處理模塊得到的對應(yīng)于每一個句子的句法結(jié)構(gòu)與句法結(jié)構(gòu)模板進行匹配,并將所有匹配成功的句子作為顯性比較句輸出; 所述相似度過濾模塊,用于對由模板匹配模塊匹配不成功的剩余句子集合中的每一個句子計算依存關(guān)系相似度,并將所有高于相似度閾值的句子作為隱性比較句輸出,其它低于相似度閾值的句子作為非比較句輸出; 所述粗粒度提取結(jié)果生成模塊將由模板匹配模塊輸出的顯性比較句和相似度過率模塊輸出的隱性比較句集合合并,生成粗粒度提取結(jié)果即準(zhǔn)比較句集合,并將由相似度過濾模塊判定為非比較句的句子置入非比較句集合; 所述特征提取模塊用于對粗粒度提取結(jié)果集合中的每一個句子提取類別序列規(guī)則、語義角色標(biāo)注、比較特征詞、統(tǒng)計特征詞四類特征,提取過程如下: 類別序列規(guī)則特征的提取是將所述句子轉(zhuǎn)化為包含非關(guān)鍵詞的詞性標(biāo)識項和包含關(guān)鍵詞及其詞性標(biāo)識的組合項的序列,并且按照對應(yīng)詞在句子中的順序排列; 語義角色標(biāo)注特征的提取是將所述句子轉(zhuǎn)化為包含非比較詞的語義角色標(biāo)識項和比較詞的序列,并且按照對應(yīng)詞在句子中的順序排列; 比較特征詞特征的提取是將所述句子看做詞的集合,提取出句子中出現(xiàn)在比較特征詞表中的詞作為比較特征詞;統(tǒng)計特征詞特征的提取是將所述句子看做詞的集合,提取出句子中出現(xiàn)在統(tǒng)計特征詞表中的詞作為統(tǒng)計特征詞; 所述特征向量生成模塊用于對與粗粒度提取結(jié)果集合中的每一個句子對應(yīng)的特征向量根據(jù)由特征提取模塊提取得到的四類特征分別與四類特征集合比對進行賦值; 所述BP神經(jīng)網(wǎng)絡(luò)分類模塊用于使用經(jīng)訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)對與粗粒度提取結(jié)果集合中的每一個句子對應(yīng)的特征向量進行識別,輸出識別結(jié)果,如果是比較句,輸出C,否則輸出NC ; 所述細粒度提取結(jié)果生成模塊用于將通過BP神經(jīng)網(wǎng)絡(luò)識別后,將所有標(biāo)記為C的比較句置入比較句集合,標(biāo)記為NC的句子置入非比較句集合,并輸出比較句集合和非比較句集合。
【文檔編號】G06F17/27GK104021115SQ201410264137
【公開日】2014年9月3日 申請日期:2014年6月13日 優(yōu)先權(quán)日:2014年6月13日
【發(fā)明者】馮沖, 廖純, 張辰, 楊森 申請人:北京理工大學(xué)