一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公布了一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和系統(tǒng),針對(duì)鏈接數(shù)據(jù)的實(shí)體分類問(wèn)題,包括預(yù)處理、統(tǒng)計(jì)分類和后處理過(guò)程;其中,預(yù)處理通過(guò)對(duì)實(shí)體頁(yè)面中的文本描述信息進(jìn)行分詞;由信息框的屬性名和分詞得到的詞信息構(gòu)成實(shí)體頁(yè)面特征;統(tǒng)計(jì)分類過(guò)程采用多種切分粒度來(lái)訓(xùn)練統(tǒng)計(jì)分類模型對(duì)實(shí)體頁(yè)面進(jìn)行分類,得到實(shí)體類別的初步預(yù)測(cè)結(jié)果;后處理過(guò)程對(duì)實(shí)體統(tǒng)計(jì)分類結(jié)果進(jìn)行修正,包括模型融合、語(yǔ)言知識(shí)、鏈接信息以及利用類別關(guān)聯(lián)屬性信息對(duì)融合后的實(shí)體類別進(jìn)行修正等方法。本發(fā)明技術(shù)方案易實(shí)現(xiàn)、易調(diào)試、效率高、精度好,適合用來(lái)鏈接數(shù)據(jù)進(jìn)行知識(shí)管理;能夠?qū)崿F(xiàn)對(duì)實(shí)體進(jìn)行高精準(zhǔn)分類。
【專利說(shuō)明】
一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信息處理領(lǐng)域,涉及鏈接數(shù)據(jù)分類和搜索,尤其涉及一種面向鏈接數(shù) 據(jù)中的實(shí)體頁(yè)面進(jìn)行高精準(zhǔn)分類的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 目前處在大數(shù)據(jù)時(shí)代,如何最大限度地利用數(shù)據(jù)來(lái)幫助計(jì)算機(jī)進(jìn)行信息處理已經(jīng) 成為了當(dāng)前信息處理領(lǐng)域最熱門的研究課題。近年來(lái),隨著Web2.0時(shí)代的到來(lái),鏈接數(shù)據(jù) (例如語(yǔ)義網(wǎng)、知識(shí)圖譜等)因?yàn)槠鋸?qiáng)大的關(guān)系描述能力,得到了人們的廣泛關(guān)注。鏈接數(shù)據(jù) 是指象百度百科、維基百科的數(shù)據(jù)組織形式,這種數(shù)據(jù)中,每個(gè)頁(yè)面對(duì)應(yīng)一個(gè)實(shí)體,實(shí)體間 有相互的鏈接,因此被稱為鏈接數(shù)據(jù)(linked data)。隨著數(shù)據(jù)規(guī)模的不斷增大,采用人工 方法管理鏈接數(shù)據(jù)已經(jīng)不現(xiàn)實(shí),迫切需要能夠?qū)︽溄訑?shù)據(jù)進(jìn)行知識(shí)管理的高效方法和系 統(tǒng)。
[0003] 鏈接數(shù)據(jù)的實(shí)體分類是鏈接數(shù)據(jù)知識(shí)管理領(lǐng)域的一個(gè)重要技術(shù)問(wèn)題,針對(duì)鏈接數(shù) 據(jù)進(jìn)行實(shí)體分類,能夠有效地組織鏈接數(shù)據(jù)中大量的實(shí)體頁(yè)面,從而加強(qiáng)用戶搜索和閱讀 的體驗(yàn)。
[0004] 目前,實(shí)體分類的常用方法是針對(duì)實(shí)體的描述文本進(jìn)行分類。但是,這種簡(jiǎn)單的方 法在很多情況下并不能夠準(zhǔn)確地分析出實(shí)體的類別,其不足主要表現(xiàn)在:
[0005] ( - )對(duì)于人來(lái)說(shuō),盡管根據(jù)文本描述來(lái)判斷實(shí)體類別是一件很容易的事情,但是 對(duì)于目前基于特征的統(tǒng)計(jì)分類方法而言,想要高精準(zhǔn)地通過(guò)文本描述判斷實(shí)體類別并不現(xiàn) 實(shí);例如,文本"X是根據(jù)著名游戲改編的動(dòng)畫"與"A是根據(jù)著名動(dòng)畫制作的游戲"在詞匯級(jí) 別有著非常相似的表示,但是前者是對(duì)一個(gè)動(dòng)畫實(shí)體的描述而后者是對(duì)游戲?qū)嶓w的描述, 其描述的實(shí)體類型完全不同。因此,單純基于文本特征的統(tǒng)計(jì)分類方法識(shí)別精度不足,并不 能精準(zhǔn)地獲得實(shí)體類別。
[0006] (二)很多實(shí)體頁(yè)面并沒(méi)有足夠的文本描述信息,這種情況下,單純利用文本描述 信息來(lái)對(duì)實(shí)體進(jìn)行分類,必然會(huì)導(dǎo)致分類錯(cuò)誤,通過(guò)文本描述無(wú)法得到實(shí)體類別。
【發(fā)明內(nèi)容】
[0007] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和 系統(tǒng),針對(duì)鏈接數(shù)據(jù)的實(shí)體分類問(wèn)題,通過(guò)統(tǒng)計(jì)分類過(guò)程和后處理過(guò)程來(lái)達(dá)到高精準(zhǔn)實(shí)體 分類的目的;其中,統(tǒng)計(jì)分類過(guò)程通過(guò)針對(duì)文本信息建模來(lái)進(jìn)行分類;后處理過(guò)程利用豐富 資源(例如詞綴信息、鏈接數(shù)據(jù)等信息)對(duì)實(shí)體統(tǒng)計(jì)分類的結(jié)果進(jìn)行修正,包括模型融合、語(yǔ) 言知識(shí)、鏈接信息以及利用類別關(guān)聯(lián)屬性信息對(duì)融合后的實(shí)體類別進(jìn)行修正等方法。
[0008] 鏈接數(shù)據(jù)中的實(shí)體頁(yè)面通常包含文本描述和信息框(infobox)。本發(fā)明將文本描 述進(jìn)行切分以后,將信息框(infobox)屬性名連同切分得到的詞信息作為特征抽取出來(lái),作 為實(shí)體頁(yè)面的特征表示;然后,對(duì)實(shí)體頁(yè)面利用最大熵模型采用多種切分粒度進(jìn)行分類,得 到對(duì)實(shí)體類別的初步預(yù)測(cè);再對(duì)所得到的實(shí)體類別進(jìn)行后處理,以驗(yàn)證其分類結(jié)果是否可 靠;后處理具體包括對(duì)利用不同切分粒度的特征訓(xùn)練的分類器的分類結(jié)果進(jìn)行融合;利用 類別屬性數(shù)據(jù)庫(kù)庫(kù)中的類別關(guān)聯(lián)屬性信息修正明顯的預(yù)測(cè)錯(cuò)誤;對(duì)文本描述首句進(jìn)行深度 理解,利用語(yǔ)法分析等方法分析句子結(jié)構(gòu),獲取實(shí)體類別信息,以修正之前的預(yù)測(cè)結(jié)果;優(yōu) 選地,還可利用困惑矩陣識(shí)別難以正確分類的類別,針對(duì)難以正確分類的類別的預(yù)測(cè)進(jìn)行 進(jìn)一步驗(yàn)證,包括使用實(shí)體頁(yè)面所鏈接的相鄰頁(yè)面的類別對(duì)實(shí)體類別進(jìn)行修正和使用實(shí)體 頁(yè)面的詞綴信息對(duì)實(shí)體類別進(jìn)行修正。
[0009] 本發(fā)明提供的技術(shù)方案是:
[0010] -種面向鏈接數(shù)據(jù)的實(shí)體分類方法,所述鏈接數(shù)據(jù)為多個(gè)實(shí)體頁(yè)面,所述實(shí)體頁(yè) 面包含文本描述和信息框;所述實(shí)體分類方法包括預(yù)處理階段、統(tǒng)計(jì)分類階段和后處理階 段,具體包括如下步驟:
[0011] 1)在預(yù)處理階段過(guò)程,通過(guò)對(duì)實(shí)體頁(yè)面中的文本描述信息進(jìn)行分詞,切分得到詞 信息;由信息框的屬性名和所述詞信息構(gòu)成實(shí)體頁(yè)面的特征;
[0012] 2)在統(tǒng)計(jì)分類階段,利用所述實(shí)體頁(yè)面的特征,采用多種切分粒度來(lái)訓(xùn)練統(tǒng)計(jì)分 類模型對(duì)實(shí)體頁(yè)面進(jìn)行分類,得到實(shí)體類別的初步預(yù)測(cè)結(jié)果;
[0013] 3)在后處理階段,對(duì)實(shí)體類別的初步預(yù)測(cè)結(jié)果進(jìn)行修正,得到修正后的實(shí)體分類 類別;所述修正包括如下步驟:
[0014] 31)通過(guò)多粒度模型融合方法,將采用不同切分粒度訓(xùn)練的統(tǒng)計(jì)分類模型得到的 實(shí)體類別的初步預(yù)測(cè)結(jié)果進(jìn)行融合,得到融合后的實(shí)體類別結(jié)果;
[0015] 32)構(gòu)建類別屬性數(shù)據(jù)庫(kù),利用類別屬性數(shù)據(jù)庫(kù)庫(kù)中的類別關(guān)聯(lián)屬性信息,對(duì)融合 后的實(shí)體類別進(jìn)行修正,得到類別關(guān)聯(lián)屬性修正后的實(shí)體類別;
[0016] 33)利用語(yǔ)法分析方法分析句子結(jié)構(gòu),通過(guò)對(duì)文本描述首句進(jìn)行深度理解步驟32) 所得到的類別關(guān)聯(lián)屬性修正后的實(shí)體類別,獲取首句深度理解修正后的實(shí)體類別信息。
[0017] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,步驟1)所述分詞方法包括前 后最大匹配方法、后向最大匹配方法和基于統(tǒng)計(jì)序列標(biāo)注方法。
[0018] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,步驟2)采用兩種切分粒度,分 別為帶有命名實(shí)體識(shí)別的切分粒度和不帶有命名實(shí)體識(shí)別的切分粒度。
[0019] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,所述統(tǒng)計(jì)分類模型為最大熵 模型;步驟31)所述多粒度模型融合方法具體通過(guò)式1計(jì)算得到融合不同切分粒度分類器預(yù) 測(cè)的概率分布,將多個(gè)切分粒度訓(xùn)練的最大熵分類模型對(duì)實(shí)體頁(yè)面進(jìn)行分類得到實(shí)體類別 結(jié)果進(jìn)行融合:
[0020] Pmulti(y | x) =APw(y | x) + ( l-A)Pn(y | x)(式1)
[0021] 式1中,Pmultl(y|x)為融合不同切分粒度分類器預(yù)測(cè)的概率分布;Pw(y|x)為只用詞 切分作為特征最大熵分類模型對(duì)于樣本x預(yù)測(cè)的概率分布;y為樣本類別,x為樣本;P n(y|x) 為在詞切分基礎(chǔ)上加入命名實(shí)體標(biāo)注作為特征的最大熵預(yù)測(cè)的概率分布;A是調(diào)整線性插 值權(quán)重的參數(shù)。
[0022] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,步驟33)所述利用語(yǔ)法分析方 法分析句子結(jié)構(gòu),獲取首句深度理解修正后的實(shí)體類別信息,具體包括如下步驟:
[0023] 331)對(duì)實(shí)體描述的首句進(jìn)行依存句法分析,識(shí)別首句的賓語(yǔ)是否屬于判斷句賓 語(yǔ);
[0024] 332)在大規(guī)模未標(biāo)注語(yǔ)料上訓(xùn)練漢語(yǔ)詞向量,定義詞匯語(yǔ)義相似度,計(jì)算詞向量 與判斷句賓語(yǔ)的詞匯語(yǔ)義相似度,得到詞匯語(yǔ)義相似度最高的詞向量;
[0025] 333)采用余弦相似度計(jì)算方法,設(shè)定余弦相似度閾值,當(dāng)判斷句賓語(yǔ)與其最相似 類別的詞向量的余弦相似度大于余弦相似度閾值,將該實(shí)體的類別修正為最相似類別。
[0026] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,在所述后處理階段對(duì)實(shí)體類 別的初步預(yù)測(cè)結(jié)果進(jìn)行修正,得到修正后的實(shí)體分類類別之后,使用困惑矩陣識(shí)別出困難 實(shí)體類別;針對(duì)識(shí)別出的困難實(shí)體類別,通過(guò)鏈接分析方法和詞綴分析方法對(duì)實(shí)體類別結(jié) 果進(jìn)行驗(yàn)證;所述困惑矩陣識(shí)別方法具體是:在驗(yàn)證集上,當(dāng)統(tǒng)計(jì)分類模型對(duì)于某一實(shí)體類 別又:的預(yù)測(cè)精度未達(dá)到90%時(shí),類別 71被視為困難實(shí)體類別。
[0027] 進(jìn)一步地,所述鏈接分析方法具體是:設(shè)定分類器對(duì)實(shí)體頁(yè)面e所做出的類別預(yù)測(cè) 為y',將實(shí)體頁(yè)面e所鏈接的實(shí)體頁(yè)面的集合記為N(e),找出N(e)中有類別標(biāo)注的頁(yè)面,統(tǒng) 計(jì)得到N(e)中有類別標(biāo)注的頁(yè)面最多的類別,記作y*;當(dāng)類別y*與類別預(yù)測(cè)y'不一致時(shí),利 用y*來(lái)修正y'的結(jié)果,得到實(shí)體頁(yè)面e的類別為y*。
[0028] 針對(duì)上述面向鏈接數(shù)據(jù)的實(shí)體分類方法,進(jìn)一步地,所述詞綴分析方法具體是:針 對(duì)實(shí)體名稱以固定漢字結(jié)尾的實(shí)體類別,利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)得到的實(shí)體類型相關(guān) 聯(lián)的詞綴信息,通過(guò)分別對(duì)最相近詞匯的詞綴進(jìn)行頻次統(tǒng)計(jì),得到困難實(shí)體類別相關(guān)聯(lián)的 詞綴,通過(guò)分析詞綴獲得所述實(shí)體的類別。
[0029] 本發(fā)明還提供利用上述面向鏈接數(shù)據(jù)的實(shí)體分類方法實(shí)現(xiàn)的面向鏈接數(shù)據(jù)的實(shí) 體分類系統(tǒng),包括預(yù)處理模塊、統(tǒng)計(jì)分類模塊和后處理模塊;所述預(yù)處理模塊用于對(duì)實(shí)體頁(yè) 面中的文本描述信息進(jìn)行分詞,將信息框?qū)傩悦头衷~得到的詞信息作為特征抽取出來(lái), 作為實(shí)體頁(yè)面的特征表示;所述統(tǒng)計(jì)分類模塊通過(guò)采用最大熵分類算法來(lái)訓(xùn)練分類模型, 利用實(shí)體頁(yè)面中對(duì)實(shí)體的描述信息識(shí)別得到實(shí)體類別;所述后處理模塊用于采用多粒度模 型融合、類別關(guān)聯(lián)屬性和首句深入理解對(duì)所述統(tǒng)計(jì)分類模塊得到的實(shí)體類別進(jìn)行修正,得 到修正后的實(shí)體類別。
[0030]上述面向鏈接數(shù)據(jù)的實(shí)體分類系統(tǒng)中,所述分詞工具為Stanford CoreNLP工具 包;所述分類模型采用最大熵分類器軟件包Maxent。
[0031] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0032] 本發(fā)明提供一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和系統(tǒng),針對(duì)鏈接數(shù)據(jù)的實(shí)體分類 問(wèn)題,通過(guò)統(tǒng)計(jì)分類過(guò)程和后處理過(guò)程來(lái)達(dá)到高精準(zhǔn)實(shí)體分類的目的。其中,在對(duì)文本進(jìn)行 基本分類的基礎(chǔ)上,對(duì)于實(shí)體描述文本分類的結(jié)果進(jìn)行修正,采用方法包括:
[0033] ( - )采用多粒度詞語(yǔ)切分模型融合方法,用于克服單一切分粒度在文本特征抽取 上的缺陷;
[0034](二)利用類別關(guān)聯(lián)屬性信息對(duì)融合后的實(shí)體類別進(jìn)行修正,以達(dá)到修正明顯錯(cuò)誤 的目的;
[0035](三)通過(guò)首句深入理解,達(dá)到降低文本噪音的效果;
[0036] (四)能夠識(shí)別困難樣本,并對(duì)識(shí)別結(jié)果使用鏈接分析和詞綴等方法進(jìn)行驗(yàn)證。
[0037] 與現(xiàn)有技術(shù)相比,目前現(xiàn)有的實(shí)體分類方法不再進(jìn)行處理,對(duì)于實(shí)體識(shí)別分類可 能錯(cuò)誤的情況無(wú)法修正結(jié)果;而本發(fā)明通過(guò)后處理流程對(duì)基于文本統(tǒng)計(jì)分類模塊可能錯(cuò)誤 的情況進(jìn)行修正。本發(fā)明所提出的技術(shù)方案易實(shí)現(xiàn)、易調(diào)試、效率高、精度好,非常適合企業(yè) 用來(lái)鏈接數(shù)據(jù)進(jìn)行知識(shí)管理;能夠?qū)?shí)體進(jìn)行高精準(zhǔn)分類。在JIST2015實(shí)體分類評(píng)測(cè)比賽 中,本發(fā)明的方案準(zhǔn)確率為98.6%,為當(dāng)次評(píng)測(cè)比賽準(zhǔn)確率最高的分類方案。
【附圖說(shuō)明】
[0038]圖1是本發(fā)明提供的面向鏈接數(shù)據(jù)的實(shí)體分類方法的流程框圖。
[0039]圖2是本發(fā)明實(shí)施例提供的面向鏈接數(shù)據(jù)的實(shí)體分類系統(tǒng)的結(jié)構(gòu)框圖。
[0040] 圖3是本發(fā)明提供方法中首句深入理解步驟的流程框圖。
【具體實(shí)施方式】
[0041] 下面結(jié)合附圖,通過(guò)實(shí)施例進(jìn)一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范 圍。
[0042] 本發(fā)明提供一種面向鏈接數(shù)據(jù)的實(shí)體分類方法和系統(tǒng),針對(duì)鏈接數(shù)據(jù)的實(shí)體分類 問(wèn)題,通過(guò)統(tǒng)計(jì)分類過(guò)程和后處理過(guò)程來(lái)達(dá)到高精準(zhǔn)實(shí)體分類的目的;其中,統(tǒng)計(jì)分類過(guò)程 通過(guò)針對(duì)文本信息建模來(lái)進(jìn)行分類;后處理過(guò)程利用豐富資源(例如詞綴信息、鏈接數(shù)據(jù)等 信息)對(duì)實(shí)體統(tǒng)計(jì)分類的結(jié)果進(jìn)行修正,圖1是本發(fā)明提供的針對(duì)鏈接數(shù)據(jù)的實(shí)體分類方法 的流程框圖。如圖1所示,本發(fā)明方法包括預(yù)處理過(guò)程、統(tǒng)計(jì)分類過(guò)程和后處理過(guò)程;首先對(duì) 實(shí)體頁(yè)面進(jìn)行分詞特征抽取,然后利用抽取得到的特征訓(xùn)練統(tǒng)計(jì)分類模型。對(duì)于分類所得 到的結(jié)果,我們首先利用多粒度模型融合來(lái)修正單模型預(yù)測(cè)錯(cuò)誤,然后利用類別關(guān)聯(lián)屬性 信息對(duì)融合后的實(shí)體類別進(jìn)行修正,來(lái)修正一些明顯的錯(cuò)誤預(yù)測(cè),再對(duì)實(shí)體頁(yè)面的首句描 述進(jìn)行深度分析,來(lái)確定其類別。對(duì)于一些難以正確分類的類別的樣本,本發(fā)明可通過(guò)鏈接 分析和詞綴分析方法對(duì)其類別進(jìn)行再次修正。具體步驟包括:
[0043] 1)對(duì)于實(shí)體頁(yè)面進(jìn)行預(yù)處理,包括漢語(yǔ)分詞(典型的分詞方法有前后最大匹配、后 向最大匹配以及基于統(tǒng)計(jì)序列標(biāo)注的方法)、特征抽取(抽取詞特征以及實(shí)體信息框?qū)傩悦?特征對(duì)頁(yè)面進(jìn)行表示)等,得到實(shí)體頁(yè)面特征;
[0044] 2)利用步驟1)中抽取得到的實(shí)體頁(yè)面特征,對(duì)實(shí)體頁(yè)面利用最大熵模型采用多種 切分粒度進(jìn)行分類,得到對(duì)實(shí)體類別的初步預(yù)測(cè);
[0045] 在本發(fā)明實(shí)施例中,利用最大熵模型訓(xùn)練兩個(gè)分類器;一個(gè)分類器的特征表示用 的是帶有命名實(shí)體識(shí)別粒度切分的詞+inf〇b 〇X屬性;另一個(gè)分類器用的是不帶有命名實(shí)體 識(shí)別所進(jìn)行的切分產(chǎn)生的詞和inf obox屬性。
[0046] 3)對(duì)步驟2)中所得到的實(shí)體類別進(jìn)行后處理,驗(yàn)證其分類結(jié)果是否可靠;具體包 括如下步驟:
[0047] 31)對(duì)利用不同切分粒度的特征訓(xùn)練的分類器的分類結(jié)果進(jìn)行融合;
[0048] 在本發(fā)明實(shí)施例中,采用兩種切分粒度,分別指帶有命名實(shí)體識(shí)別的切分和不帶 有命名實(shí)體識(shí)別;
[0049] 32)預(yù)先構(gòu)建類別屬性數(shù)據(jù)庫(kù),利用類別屬性數(shù)據(jù)庫(kù)庫(kù)中的類別關(guān)聯(lián)屬性信息修 正明顯的預(yù)測(cè)錯(cuò)誤;
[0050] 33)通過(guò)句法分析器對(duì)文本描述首句進(jìn)行深度理解,利用語(yǔ)法分析等方法分析句 子結(jié)構(gòu),從而獲取實(shí)體類別信息,以修正之前的預(yù)測(cè)結(jié)果;
[0051] 34)利用困惑矩陣識(shí)別難以正確分類的類別,對(duì)該類別的預(yù)測(cè)進(jìn)行進(jìn)一步驗(yàn)證,包 括:
[0052] 341)使用實(shí)體頁(yè)面所鏈接的相鄰頁(yè)面的類別對(duì)實(shí)體類別進(jìn)行修正;
[0053] 342)使用實(shí)體頁(yè)面的詞綴信息對(duì)實(shí)體類別進(jìn)行修正。
[0054]圖2是本發(fā)明實(shí)施例提供的面向鏈接數(shù)據(jù)的實(shí)體分類系統(tǒng)的結(jié)構(gòu)框圖。鏈接數(shù)據(jù) 的實(shí)體分類系統(tǒng)包括預(yù)處理模塊、統(tǒng)計(jì)分類模塊和后處理模塊;針對(duì)各模塊進(jìn)一步敘述如 下:
[0055] 預(yù)處理模塊
[0056]鏈接數(shù)據(jù)中的實(shí)體頁(yè)面通常包含文本描述和信息框(infobox)。
[0057] 在預(yù)處理模塊中,我們利用了Stanford CoreNLP工具包對(duì)實(shí)體頁(yè)面中的文本描述 信息進(jìn)行分詞。本實(shí)施例中,我們采取了兩種不同切分粒度:有命名實(shí)體識(shí)別和無(wú)命名實(shí)體 識(shí)別。例如,在有命名實(shí)體識(shí)別的切分下,"紐約時(shí)代廣場(chǎng)"將被視為一個(gè)詞匯,而在無(wú)命名 實(shí)體識(shí)別的切分下,該詞將被切分為"紐約"、"時(shí)代"、"廣場(chǎng)"三個(gè)詞。
[0058]在對(duì)于漢語(yǔ)文本進(jìn)行切分以后,我們將信息框(infobox)屬性名連同切分得到的 詞信息作為特征抽取出來(lái),作為實(shí)體頁(yè)面的特征表示。
[0059]統(tǒng)計(jì)分類模塊
[0060] 本發(fā)明主要利用實(shí)體頁(yè)面中對(duì)實(shí)體的描述信息來(lái)作為判斷實(shí)體類別的依據(jù)。本發(fā) 明采用了自然語(yǔ)言處理領(lǐng)域常用的對(duì)數(shù)線性模型一一最大熵分類算法來(lái)訓(xùn)練分類模型。如 預(yù)處理模塊所提到,統(tǒng)計(jì)分類模塊所用到的特征包括詞特征和信息框?qū)傩蕴卣鳎辉~特征是 經(jīng)典的詞袋模型特征表示;信息框?qū)傩蕴卣鲗?duì)于識(shí)別實(shí)體的類別有著非常重要的作用,例 如,"出生日期"也可能與人物類型的實(shí)體相關(guān)聯(lián)。
[0061] 在文本分類模塊,我們采用了不同粒度的詞切分來(lái)訓(xùn)練文本分類模型,這是因?yàn)?在有些情況下,一種切分粒度并不能滿足對(duì)于分類的要求。例如,"紐約時(shí)代廣場(chǎng)"如果作為 一個(gè)命名實(shí)體來(lái)看待的話,對(duì)于分類的作用并不如將其切分成"紐約" "時(shí)代"和"廣場(chǎng)",因 為"廣場(chǎng)" 一詞對(duì)于類別有著至關(guān)重要的影響。另一方面,如果我們不進(jìn)行命名實(shí)體識(shí)別,那 么像"張一山"就會(huì)被切分成"張" "一" "山",那么這也會(huì)對(duì)分類結(jié)果造成影響。因此,在統(tǒng)計(jì) 分類模塊中,本發(fā)明實(shí)施例通過(guò)最大熵分類器軟件包Maxent(可由以下鏈接網(wǎng)站下載最大 熵分類器軟件包:http: //homepages ? inf ? ed ? ac ? uk/1 zhang 10/maxent_tool kit ? html)訓(xùn) 練了兩種分類模型,一種是帶有命名實(shí)體識(shí)別的細(xì)粒度切分、一種是單純的粗粒度詞切分。 [0062] 后處理模塊
[0063]基于文本統(tǒng)計(jì)分類模塊可能錯(cuò)誤的情況,本發(fā)明利用后處理模塊來(lái)進(jìn)行修正。后 處理模塊可執(zhí)行以下過(guò)程:
[0064] 31)多粒度模型融合過(guò)程
[0065] 盡量模型融合在機(jī)器學(xué)習(xí)領(lǐng)域被廣泛應(yīng)用,但大多模型融合的方法都是針對(duì)不同 種機(jī)器學(xué)習(xí)模型的融合。對(duì)于自然語(yǔ)言(尤其是中文)來(lái)說(shuō),切分粒度的不同對(duì)于整個(gè)模型 的效果會(huì)產(chǎn)生影響。針對(duì)不同切分粒度的各自優(yōu)劣性,本發(fā)明提出了利用模型融合的方法 來(lái)對(duì)各種切分粒度所得到的分類模型進(jìn)行"取長(zhǎng)補(bǔ)短"。
[0066] 我們定為只用詞切分作為特征、最大熵分類模型對(duì)于樣本x預(yù)測(cè)的類別 y概率分布,Pn(y | X)為在詞切分基礎(chǔ)上加入命名實(shí)體標(biāo)注作為特征的最大熵預(yù)測(cè)的概率分 布。我們將這兩種分類器的結(jié)果用以下方法進(jìn)行融合:
[0067] Pmulti(y | x) =APw(y | x) + ( l-A)Pn(y | x)(式 1)
[0068] 式1中,Pmultl(y|x)為融合不同切分粒度分類器預(yù)測(cè)的概率分布;Pw(y|x)為只用詞 切分作為特征最大熵分類模型對(duì)于樣本x預(yù)測(cè)的概率分布;y為樣本類別,x為樣本;P n(y|x) 為在詞切分基礎(chǔ)上加入命名實(shí)體標(biāo)注作為特征的最大熵預(yù)測(cè)的概率分布;A是調(diào)整線性插 值權(quán)重的參數(shù),本實(shí)施例中,設(shè)X = 〇. 5。
[0069] 32)類別關(guān)聯(lián)屬性修正預(yù)測(cè)
[0070]該模塊利用類別關(guān)聯(lián)屬性修正一些明顯錯(cuò)誤的類別預(yù)測(cè)。該模塊所利用的主要是 信息框?qū)傩缘念悇e特異性。如表1所示,對(duì)于某些屬性而言,它們不可能與有些特定的類別 相關(guān)聯(lián)。例如,"游戲平臺(tái)"不可能與城市實(shí)體相關(guān)聯(lián)。因此,利用這些屬性的特異性,可以修 正分類器明顯的預(yù)測(cè)錯(cuò)誤。本發(fā)明針對(duì)預(yù)定義好的實(shí)體類型人工建立了類別屬性數(shù)據(jù)庫(kù), 用來(lái)進(jìn)行對(duì)預(yù)測(cè)的修正。
[0071]表1類別關(guān)聯(lián)屬性示例
[0074] 33)通過(guò)依存句法分析器深入理解實(shí)體描述的首句,進(jìn)一步精準(zhǔn)識(shí)別實(shí)體類別;
[0075]鏈接數(shù)據(jù)(例如:維基百科、百度百科等)中的實(shí)體頁(yè)面描述的第一句話通常是對(duì) 實(shí)體的定性描述(例如:砸六家是一種流行于天津的撲克牌游戲)。如果能夠深入理解實(shí)體 描述的首句,那么將會(huì)對(duì)精準(zhǔn)識(shí)別實(shí)體類別有著非常大的幫助。
[0076]圖3是本發(fā)明提供方法中首句深入理解步驟的流程框圖。本發(fā)明首先利用依存句 法分析器來(lái)找出實(shí)體頁(yè)面文本描述首句中的判斷句賓語(yǔ),然后利用該判斷句賓語(yǔ)分析實(shí)體 頁(yè)面的類別;具體包括如下步驟:
[0077] 331)判斷句賓語(yǔ)識(shí)別
[0078] 本發(fā)明利用了斯坦福大學(xué)依存句法分析器,對(duì)實(shí)體描述的首句進(jìn)行依存句法分 析,分析出首句中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)。如果依存句法所得到的首句的賓語(yǔ)與"是"有直接的 依存關(guān)系,那么該賓語(yǔ)被稱為"判斷句賓語(yǔ)";否則,該賓語(yǔ)被稱為"非判斷句賓語(yǔ)"。
[0079] 如果實(shí)體文本描述的首句的賓語(yǔ)為判斷句賓語(yǔ),我們可以利用該賓語(yǔ)為線索確定 實(shí)體的類別,從而驗(yàn)證分類器預(yù)測(cè)的結(jié)果是否準(zhǔn)確。如果分類器預(yù)測(cè)的結(jié)果與斷句賓語(yǔ)所 得出的結(jié)論矛盾,則利用該結(jié)果修正分類器的預(yù)測(cè)。如果首句中不存在判斷句賓語(yǔ),則跳過(guò) 該步驟,進(jìn)入34)。
[0080] 例如,在"砸六家是一種流行于天津的撲克牌游戲"句中,依存句法分析結(jié)果分析 得到"游戲"為該句賓語(yǔ),并且"游戲"與"是"有直接依存關(guān)系,那么"游戲"即為該句的判斷 句賓語(yǔ)。如果"游戲"是實(shí)體分類體系中預(yù)定義的實(shí)體類別,那么我們用它來(lái)作為該實(shí)體的 類別。
[0081] 332)利用判斷句賓語(yǔ)修正類別預(yù)測(cè)
[0082]在一些情況下,即使我們找出了判斷句賓語(yǔ),也不能隨意用來(lái)對(duì)預(yù)測(cè)進(jìn)行修正,因 為這樣可能會(huì)引入一些不必要的錯(cuò)誤。同時(shí),在很多情況下,判斷句賓語(yǔ)并不完全匹配類別 名稱。例如:"野澤雅子是日本著名聲優(yōu)",盡管依存句法分析可以得到"聲優(yōu)"是這句話的判 斷賓語(yǔ),然而預(yù)定義的實(shí)體類別中有可能并沒(méi)有"聲優(yōu)"這個(gè)類別。對(duì)此,本發(fā)明定義了修正 條件,利用詞匯語(yǔ)義相似度,即詞向量間的余弦相似度,從大規(guī)模未標(biāo)注語(yǔ)料中來(lái)尋找判斷 句賓語(yǔ)最相似的類別,來(lái)可靠地進(jìn)行類別修正。
[0083] 在自然語(yǔ)言處理領(lǐng)域,余弦相似度通常被當(dāng)作詞匯的語(yǔ)義相似度。具體來(lái)說(shuō),本發(fā) 明實(shí)施例首先利用 了使用word2vec工具包(https : //word2vec ? google code ? com/svn/ trunk/)在Gi gaword中文語(yǔ)料(漢語(yǔ)Gi gaword是公開的數(shù)據(jù)集)上訓(xùn)練漢語(yǔ)詞向量,利用訓(xùn) 練得到的詞向量來(lái)尋找與判斷句賓語(yǔ)語(yǔ)義最相似的類別名稱。如果判斷句賓語(yǔ)與其最相似 類別的詞向量的余弦相似度大于預(yù)設(shè)定的閾值(本發(fā)明實(shí)施例中,通過(guò)計(jì)算余弦相似度的 方法,余弦相似度閾值設(shè)定為0.9),才將該實(shí)體的類別修正為最相似類別。
[0084] 為此,我們定義實(shí)體頁(yè)面首句文本描述的判斷句賓語(yǔ)為類別詞為yeY(Y為實(shí) 體類別集合),8;[111(¥1,'\¥2)為詞語(yǔ)¥1、'\¥2的詞向量的余弦相似度。那么修正條件為式2如示 :
[0085] y* = argmaxyEYsim(wo,y)八 sim(wo,y*)>0.9 (式 2)
[0086] 式2中,'表示并且(與)關(guān)系前部分的內(nèi)容(左邊項(xiàng))表明y*是語(yǔ)義相似度最高的 類別,'后部分的內(nèi)容(右邊項(xiàng))表示y*與w〇的相似度需要高于0.9;修正條件(式2)滿足才進(jìn) 行修正,即只有當(dāng)y*是語(yǔ)義相似度最高的類別并且y*與w0的相似度需要高于0.9時(shí),用y*來(lái) 修正原有的類別預(yù)測(cè)。
[0087] 在上面例子("野澤雅子是日本著名聲優(yōu)")中,我們可以找出與"聲優(yōu)"最相似的類 別是"演員"(如表2所示,表2是利用從漢語(yǔ)gigaword上訓(xùn)練的詞向量計(jì)算出的與類別最相 似的一些詞匯,其中粗體詞表示這些詞匯與類別的相似度在0.9以上),并發(fā)現(xiàn)"演員"與"聲 優(yōu)"的語(yǔ)義相似度在〇. 9以上,因此,將"野澤雅子"這個(gè)實(shí)體頁(yè)面的類別修正為"演員"。 [0088]表2類別最相似詞匯
[0090] 34)使用困惑矩陣識(shí)別困難樣本
[0091]在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)遇到某些類別的樣本難以區(qū)分,這類樣本稱為困難樣 本。例如對(duì)于"城市"和"景點(diǎn)"兩個(gè)類別的實(shí)體,分類器往往會(huì)做出錯(cuò)誤的預(yù)測(cè),因?yàn)檫@兩類 實(shí)體的描述和信息框?qū)傩远己芟嗨?。為了提高分類的精?zhǔn)度,本發(fā)明使用困惑矩陣來(lái)找出 分類詞容易出錯(cuò)的樣本類別。具體來(lái)說(shuō),如果在驗(yàn)證集上,統(tǒng)計(jì)分類模型對(duì)于某一實(shí)體類別 yi的預(yù)測(cè)精度未達(dá)到90 %,則類別yi被視為困難樣本類別。例如,在驗(yàn)證集上,統(tǒng)計(jì)分類模型 對(duì)18個(gè)實(shí)體頁(yè)面預(yù)測(cè)為"城市"類別,但其中只有15個(gè)頁(yè)面確實(shí)為"城市"類別,因此統(tǒng)計(jì)分 類模型在"城市"類別的預(yù)測(cè)精度僅為83.33% (15/18),"城市"類別被認(rèn)定為困難樣本類 另IJ。對(duì)于那些被統(tǒng)計(jì)分類模型預(yù)測(cè)為困難樣本類別的樣本,我們稱之為困難樣本。
[0092]對(duì)于識(shí)別出的困難樣本,我們利用了以下兩種方法來(lái)對(duì)結(jié)果進(jìn)行驗(yàn)證。
[0093] 341)鏈接分析
[0094]對(duì)于困難樣本,單靠實(shí)體頁(yè)面上的內(nèi)容可能不足以做出正確的判斷,因此,本發(fā)明 采用了鏈接分析方法來(lái)對(duì)困難樣本進(jìn)行分類結(jié)果驗(yàn)證。
[0095]在鏈接數(shù)據(jù)中,一個(gè)實(shí)體頁(yè)面通常會(huì)鏈接到與其相關(guān)的其它的實(shí)體頁(yè)面。通常來(lái) 說(shuō),其鏈接到的其它實(shí)體頁(yè)面的類別非常有可能與其本身的類別的相同的。因此,利用一個(gè) 實(shí)體頁(yè)面鏈接到的其它實(shí)體頁(yè)面的類別,可以幫助系統(tǒng)更好的判斷該實(shí)體的類別。
[0096]具體來(lái)說(shuō),對(duì)于某實(shí)體頁(yè)面e,我們分析e所鏈接的實(shí)體頁(yè)面,其集合記為WehN (e)中會(huì)有一部分頁(yè)面有類別標(biāo)注信息。本發(fā)明找出N(e)中有類別標(biāo)注的頁(yè)面,并統(tǒng)計(jì)出這 些頁(yè)面最多的類別y*,判斷該類別是否與分類器對(duì)e所做出的類別預(yù)測(cè)y'一致。如結(jié)果不一 致,利用y*來(lái)修正y '的結(jié)果。
[0097] 342)詞綴分析
[0098]對(duì)于某些難以區(qū)分的樣本,本發(fā)明還利用了詞綴分析法來(lái)驗(yàn)證其分類結(jié)果。對(duì)于 某些類別,其實(shí)體名稱通常以固定漢字結(jié)尾。例如,"城市"實(shí)體通常以"市、縣"結(jié)尾,"景點(diǎn)" 實(shí)體通常會(huì)以"湖、山"等結(jié)尾。表3列出了類別常見實(shí)體詞綴的實(shí)例。
[0099]表3常見實(shí)體的類別詞綴
[0101] 本發(fā)明首先提出利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)實(shí)體類型相關(guān)聯(lián)的詞綴信息,具體來(lái) 說(shuō),我們利用詞向量工具包word2vec在中文Gigaword數(shù)據(jù)集上訓(xùn)練詞向量,然后通過(guò)計(jì)算 余弦相似度的方法,找出每個(gè)類別語(yǔ)義最相近的詞(詞向量余弦相似度0.7以上的詞)。然 后,通過(guò)分別對(duì)這兩個(gè)景點(diǎn)的最相近詞匯的詞綴進(jìn)行頻次統(tǒng)計(jì),就可以得到困難樣本類別 相關(guān)聯(lián)的詞綴,從而通過(guò)分析詞綴,來(lái)確定其所屬類別。具體來(lái)說(shuō),如果某一實(shí)體頁(yè)面詞綴s 在某一類別yi中的頻率顯著高于(2倍以上)另一類別72中的出現(xiàn)頻率,則我們將71作為該實(shí) 體類別修正原有預(yù)測(cè)結(jié)果。舉例來(lái)說(shuō),對(duì)于"廬山仙人洞"實(shí)體頁(yè)面,其詞綴"洞"出現(xiàn)在"景 點(diǎn)"類別的頻率明顯高于出現(xiàn)在"城市"類別的頻率,因此將該實(shí)體的預(yù)測(cè)類別修正為"景 點(diǎn)"。
[0102] 需要注意的是,公布實(shí)施例的目的在于幫助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技 術(shù)人員可以理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是 可能的。因此,本發(fā)明不應(yīng)局限于實(shí)施例所公開的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求 書界定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種面向鏈接數(shù)據(jù)的實(shí)體分類方法,所述鏈接數(shù)據(jù)為多個(gè)實(shí)體頁(yè)面,所述實(shí)體頁(yè)面 包含文本描述和信息框;所述實(shí)體分類方法包括預(yù)處理階段、統(tǒng)計(jì)分類階段和后處理階段, 具體包括如下步驟: 1) 在預(yù)處理階段過(guò)程,通過(guò)對(duì)實(shí)體頁(yè)面中的文本描述信息進(jìn)行分詞,切分得到詞信息; 由信息框的屬性名和所述詞信息構(gòu)成實(shí)體頁(yè)面的特征; 2) 在統(tǒng)計(jì)分類階段,利用所述實(shí)體頁(yè)面的特征,采用多種切分粒度來(lái)訓(xùn)練統(tǒng)計(jì)分類模 型對(duì)實(shí)體頁(yè)面進(jìn)行分類,得到實(shí)體類別的初步預(yù)測(cè)結(jié)果; 3) 在后處理階段,對(duì)實(shí)體類別的初步預(yù)測(cè)結(jié)果進(jìn)行修正,得到修正后的實(shí)體分類類別; 所述修正包括如下步驟: 31) 通過(guò)多粒度模型融合方法,將采用多個(gè)切分粒度訓(xùn)練的統(tǒng)計(jì)分類模型得到的實(shí)體 類別的初步預(yù)測(cè)結(jié)果進(jìn)行融合,得到融合后的實(shí)體類別結(jié)果; 32) 構(gòu)建類別屬性數(shù)據(jù)庫(kù),利用類別屬性數(shù)據(jù)庫(kù)庫(kù)中的類別關(guān)聯(lián)屬性信息,對(duì)融合后的 實(shí)體類別進(jìn)行修正,得到類別關(guān)聯(lián)屬性修正后的實(shí)體類別; 33) 利用語(yǔ)法分析方法分析句子結(jié)構(gòu),通過(guò)對(duì)文本描述首句進(jìn)行深度理解步驟32)所得 到的類別關(guān)聯(lián)屬性修正后的實(shí)體類別,獲取首句深度理解修正后的實(shí)體類別信息。2. 如權(quán)利要求1所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,步驟1)所述分詞方法包 括前后最大匹配方法、后向最大匹配方法和基于統(tǒng)計(jì)序列標(biāo)注方法。3. 如權(quán)利要求1所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,步驟2)采用兩種切分粒 度,分別為帶有命名實(shí)體識(shí)別的切分粒度和不帶有命名實(shí)體識(shí)別的切分粒度。4. 如權(quán)利要求1所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,所述統(tǒng)計(jì)分類模型為最 大熵模型;步驟31)所述多粒度模型融合方法具體通過(guò)式1計(jì)算得到融合不同切分粒度分類 器預(yù)測(cè)的概率分布,將多個(gè)切分粒度訓(xùn)練的最大熵分類模型對(duì)實(shí)體頁(yè)面進(jìn)行分類得到實(shí)體 類別結(jié)果進(jìn)行融合: Pmulti(y I x) = APw(y I χ) + ( 1-λ)Ρη(γ I χ)(式I) 式I中,Pmultl(y|X)為融合不同切分粒度分類器預(yù)測(cè)的概率分布;Pw(y|x)為只用詞切分 作為特征最大熵分類模型對(duì)于樣本χ預(yù)測(cè)的概率分布;y為樣本類別,χ為樣本;Pn(y |χ)為在 詞切分基礎(chǔ)上加入命名實(shí)體標(biāo)注作為特征的最大熵預(yù)測(cè)的概率分布;λ是調(diào)整線性插值權(quán) 重的參數(shù)。5. 如權(quán)利要求1所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,步驟33)所述利用語(yǔ)法 分析方法分析句子結(jié)構(gòu),獲取首句深度理解修正后的實(shí)體類別信息,具體包括如下步驟: 331) 對(duì)實(shí)體描述的首句進(jìn)行依存句法分析,識(shí)別首句的賓語(yǔ)是否屬于判斷句賓語(yǔ); 332) 在大規(guī)模未標(biāo)注語(yǔ)料上訓(xùn)練漢語(yǔ)詞向量,定義詞匯語(yǔ)義相似度,計(jì)算詞向量與判 斷句賓語(yǔ)的詞匯語(yǔ)義相似度,得到詞匯語(yǔ)義相似度最高的詞向量; 333) 通過(guò)余弦相似度計(jì)算方法,設(shè)定余弦相似度閾值,當(dāng)判斷句賓語(yǔ)與其最相似類別 的詞向量的余弦相似度大于余弦相似度閾值,將該實(shí)體的類別修正為最相似類別。6. 如權(quán)利要求1所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,在所述后處理階段對(duì)實(shí) 體類別的初步預(yù)測(cè)結(jié)果進(jìn)行修正,得到修正后的實(shí)體分類類別之后,使用困惑矩陣識(shí)別出 困難實(shí)體類別;針對(duì)識(shí)別出的困難實(shí)體類別,通過(guò)鏈接分析方法和詞綴分析方法對(duì)實(shí)體類 別結(jié)果進(jìn)行驗(yàn)證;所述困惑矩陣識(shí)別方法具體是:在驗(yàn)證集上,當(dāng)統(tǒng)計(jì)分類模型對(duì)于某一實(shí) 體類別yi的預(yù)測(cè)精度未達(dá)到90 %時(shí),類別71被視為困難實(shí)體類別。7. 如權(quán)利要求6所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,所述鏈接分析方法具體 是:設(shè)定分類器對(duì)實(shí)體頁(yè)面e所做出的類別預(yù)測(cè)為y',將實(shí)體頁(yè)面e所鏈接的實(shí)體頁(yè)面的集 合記為N(e),找出N(e)中有類別標(biāo)注的頁(yè)面,統(tǒng)計(jì)得到N(e)中有類別標(biāo)注的頁(yè)面最多的類 另IJ,記作y*;當(dāng)類別y*與類別預(yù)測(cè)y'不一致時(shí),利用y*來(lái)修正y'的結(jié)果,得到實(shí)體頁(yè)面e的類 別為y*。8. 如權(quán)利要求6所述面向鏈接數(shù)據(jù)的實(shí)體分類方法,其特征是,所述詞綴分析方法具體 是:針對(duì)實(shí)體名稱以固定漢字結(jié)尾的實(shí)體類別,利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)得到的實(shí)體類 型相關(guān)聯(lián)的詞綴信息,通過(guò)分別對(duì)最相近詞匯的詞綴進(jìn)行頻次統(tǒng)計(jì),得到困難實(shí)體類別相 關(guān)聯(lián)的詞綴,通過(guò)分析詞綴獲得所述實(shí)體的類別。9. 利用權(quán)利要求1~8所述面向鏈接數(shù)據(jù)的實(shí)體分類方法實(shí)現(xiàn)的面向鏈接數(shù)據(jù)的實(shí)體 分類系統(tǒng),其特征是,包括預(yù)處理模塊、統(tǒng)計(jì)分類模塊和后處理模塊; 所述預(yù)處理模塊用于對(duì)實(shí)體頁(yè)面中的文本描述信息進(jìn)行分詞,將信息框?qū)傩悦头衷~ 得到的詞信息作為特征抽取出來(lái),作為實(shí)體頁(yè)面的特征表示; 所述統(tǒng)計(jì)分類模塊通過(guò)采用最大熵分類算法來(lái)訓(xùn)練分類模型,利用實(shí)體頁(yè)面中對(duì)實(shí)體 的描述信息識(shí)別得到實(shí)體類別; 所述后處理模塊用于采用多粒度模型融合、類別關(guān)聯(lián)屬性和首句深入理解對(duì)所述統(tǒng)計(jì) 分類模塊得到的實(shí)體類別進(jìn)行修正,得到修正后的實(shí)體類別。10. 如權(quán)利要求9所述面向鏈接數(shù)據(jù)的實(shí)體分類系統(tǒng),其特征是,所述分詞工具為 Stanford CoreNLP工具包;所述分類模型采用最大熵分類器軟件包Maxent。
【文檔編號(hào)】G06F17/30GK105912625SQ201610213411
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月7日
【發(fā)明人】葛濤, 穗志方
【申請(qǐng)人】北京大學(xué)