一種基于多特征語義樹核的關(guān)系抽取方法和信息檢索方法
【技術(shù)領域】
[0001] 本發(fā)明涉及一種關(guān)系抽取方法,特別是涉及一種基于多特征語義樹核的關(guān)系抽取 方法,以及應用該方法對互聯(lián)網(wǎng)網(wǎng)中文本信息進行檢索的方法,屬于自然語言處理技術(shù)領 域。
【背景技術(shù)】
[0002] 近年來,隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出越來越多的非結(jié)構(gòu)化文本信息。如 何挖掘這些文本中的信息并構(gòu)建智能信息服務是一項有重要意義的工作。通過從非結(jié)構(gòu)化 的文本中抽取出用戶感興趣的知識,關(guān)系抽取是實現(xiàn)上述目標的關(guān)鍵技術(shù)之一。
[0003] 另一方面,語義知識是自然語言理解的基石,是實現(xiàn)文本各個層面智能分析的基 礎,其核心是概念與概念之間的語義關(guān)系。由于人工編寫方法受制于專家構(gòu)建的時間,低估 了語義知識的復雜性和規(guī)模,大規(guī)模語義知識的缺乏一直是高性能自然語言處理的關(guān)鍵瓶 頸。為此如何利用自動的關(guān)系抽取技術(shù)獲取海量的語義知識也是自然語言處理技術(shù)實用化 的重要因素之一。
[0004] 綜上,構(gòu)建智能信息服務的核心之一是知識獲取和自然語言理解,而關(guān)系抽取是 提供自然語言理解基礎知識的一項關(guān)鍵技術(shù)。
[0005] 由于自然語言表達的多樣性和歧義性,關(guān)系抽取需要結(jié)合關(guān)系表述的句法結(jié)構(gòu)特 征和內(nèi)容特征進行綜合判斷?,F(xiàn)有的關(guān)系抽取方法分為兩種:一種是基于淺層特征的分類 方法,一種是基于樹核的分類方法。然而,上述兩種方法都存在一定的不足,它們都不能在 一個統(tǒng)一的框架下表示和利用關(guān)系表述的句法結(jié)構(gòu)特征和內(nèi)容特征:其中基于淺層特征的 分類方法只能捕捉內(nèi)容特征,而基于樹核的分類方法只能捕捉關(guān)系表述的句法結(jié)構(gòu)。
【發(fā)明內(nèi)容】
[0006] 為克服現(xiàn)有關(guān)系抽取技術(shù)在統(tǒng)一表示和利用關(guān)系表述句法結(jié)構(gòu)和內(nèi)容特征方面 的不足,本發(fā)明主要提供了一種基于多特征語義樹核的關(guān)系抽取方法,采用統(tǒng)一的框架來 表示關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征,可結(jié)合關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征進行綜合判 斷。
[0007] 本發(fā)明所采用的技術(shù)方案如下:
[0008] -種基于多特征語義樹核的關(guān)系抽取方法,其步驟包括:
[0009] 1)在句法分析樹的每一個節(jié)點處加入用于表示內(nèi)容特征的特征向量,以統(tǒng)一表示 關(guān)系表述的句法結(jié)構(gòu)特征和內(nèi)容特征;
[0010] 2)對句法分析樹中的每一個樹節(jié)點,抽取表示其內(nèi)容特性的一系列特征,并將該 一系列特征加入到樹節(jié)點的特征向量中,從而形成多特征擴展句法分析樹;
[0011] 3)基于所述多特征擴展句法分析樹構(gòu)建多特征語義樹核,通過該多特征語義樹核 綜合利用句法結(jié)構(gòu)特征和內(nèi)容特征計算不同句法分析樹之間的相似度,得到可靠的關(guān)系抽 取結(jié)果。
[0012] 進一步地,步驟1)使用通用句法分析器對關(guān)系表述文本進行句法分析得到所述句 法分析樹。
[0013] 進一步地,步驟1)所述多特征擴展句法分析樹,其中每一個節(jié)點被擴展表示為: _4] Rn = (Ln, Fn),
[0015] 其中,Rn是多特征擴展句法分析樹中的節(jié)點η的多特征表示,Ln是節(jié)點η的句法 樹標簽;F n是節(jié)點η的內(nèi)容特征向量。該多特征擴展句法分析樹表示實現(xiàn)了關(guān)系表述句法 結(jié)構(gòu)和內(nèi)容特征的高效統(tǒng)一表示:其中樹結(jié)構(gòu)表示了句法結(jié)構(gòu),而節(jié)點的特征向量表示了 內(nèi)容特征。
【主權(quán)項】
1. 一種基于多特征語義樹核的關(guān)系抽取方法,其步驟包括: 1) 在句法分析樹的每一個節(jié)點處加入用于表示內(nèi)容特征的特征向量,以統(tǒng)一表示關(guān)系 表述的句法結(jié)構(gòu)特征和內(nèi)容特征; 2) 對句法分析樹中的每一個樹節(jié)點,抽取表示其內(nèi)容特性的一系列特征,并將該一系 列特征加入到樹節(jié)點的特征向量中,從而形成多特征擴展句法分析樹; 3) 基于所述多特征擴展句法分析樹構(gòu)建多特征語義樹核,通過該多特征語義樹核綜合 利用句法結(jié)構(gòu)特征和內(nèi)容特征計算不同句法分析樹之間的相似度,得到可靠的關(guān)系抽取結(jié) 果。
2. 如權(quán)利要求1所述的方法,其特征在于:所述多特征擴展句法分析樹中每一個節(jié)點 被擴展表示為: Rn= (Ln,F(xiàn)n), 其中,Rn是多特征擴展句法分析樹中的節(jié)點n的多特征表示,Ln是節(jié)點n的句法樹標 簽,F(xiàn)n是節(jié)點n的內(nèi)容特征向量。
3. 如權(quán)利要求2所述的方法,其特征在于:所述多特征語義樹核綜合考慮不同多特征 擴展句法分析樹之間的句法結(jié)構(gòu)相似度和內(nèi)容相似度,并采用如下公式計算相似度:
其中,和T2是待比較的多特征擴展句法分析樹,h和t2是和T2的子樹,kh,t2) 是子樹h和t2之間的相似度。
4. 如權(quán)利要求3所述的方法,其特征在于:所述子樹h和t2之間的相似度k(懷t2)的 采用如下公式計算:
其中,S(tl,t2)是表征心和t2是否有相同句法結(jié)構(gòu)的指示函數(shù),Eh,t2)是子樹心 和t2的所有對齊節(jié)點對;sim(叫,n」)是對齊節(jié)點叫和n」之間的相似度,由其特征向量的內(nèi) 積決定。
5. 如權(quán)利要求1所述的方法,其特征在于:給定訓練語料,通過所述多特征語義樹核計 算訓練實例之間的相似度,并基于該相似度及支持向量機訓練算法構(gòu)建支持向量機關(guān)系分 類器;然后計算測試實例與訓練實例之間的多特征語義樹核相似度,并基于該相似度使用 支撐向量機對測試實例進行分類,從而得到可靠的關(guān)系抽取結(jié)果。
6. 如權(quán)利要求5所述的方法,其特征在于,構(gòu)建所述支持向量機的方法為: a) 對多特征擴展句法分析樹進行編程實現(xiàn),實現(xiàn)句法分析樹與其文本表示之間的轉(zhuǎn)換 接口; b) 面向特定通用支持向量機軟件,基于其擴展接口編程實現(xiàn)多特征語義樹核; c) 使用特定通用支持向量機軟件及多特征擴展句法分析樹的表示進行訓練得到最終 的支持向量機模型。
7. 如權(quán)利要求5所述的方法,其特征在于,所述構(gòu)建支持向量機關(guān)系分類器的方法為: a) 給定需要抽取的關(guān)系類別,標注一定數(shù)量的關(guān)系表述實例; b) 對關(guān)系表述實例進行分析得到多特征擴展句法分析樹; C)面向需要抽取的關(guān)系類別,訓練對應的支持向量機模型; d)構(gòu)建支持向量機模型分類結(jié)果到關(guān)系類別的映射工具。
8. 如權(quán)利要求5所述的方法,其特征在于,所述對測試實例進行分類的方法為: a) 對每一個測試實例,使用通用句法分析器對其進行句法分析,對句法樹中的每一個 節(jié)點進行特征抽取,得到多特征擴展句法分析樹表示; b) 使用基于訓練語料訓練得到的支持向量機模型對測試實例的句法分析樹進行分 類; c) 選擇具有最大分類概率的關(guān)系類別作為測試實例的關(guān)系類別。
9. 一種采用權(quán)利要求1所述方法的文本信息檢索方法,其步驟包括: 1) 采用權(quán)利要求1所述方法對互聯(lián)網(wǎng)上的文本信息進行關(guān)系抽取,將其將轉(zhuǎn)換為計算 機可處理的知識; 2) 采用權(quán)利要求1所述方法對用戶輸入的查詢信息進行關(guān)系抽取,將用戶的信息需求 轉(zhuǎn)換為特定關(guān)系的查詢,進而根據(jù)經(jīng)步驟1)處理的互聯(lián)網(wǎng)上的文本信息返回查詢結(jié)果。
【專利摘要】本發(fā)明公開一種基于多特征語義樹核的關(guān)系抽取方法,以及應用該方法進行文本信息檢索的方法,屬于自然語言處理技術(shù)領域。該關(guān)系抽取方法主要包含:面向句法分析樹關(guān)系表述表示的特征擴展機制;基于上述特征擴展機制的句法樹內(nèi)容特征擴展;融合內(nèi)容特征和句法分析樹結(jié)構(gòu)特征的多特征語義樹核。面向句法分析樹的特征擴展機制將特定關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征置于統(tǒng)一的表示框架之中進行表示。句法樹特征擴展將關(guān)系表述的重要語義信息和內(nèi)容信息融入到句法樹表示中。多特征語義樹核提供了一種有效和高性能的算法,可綜合關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征進行綜合判斷。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104699695
【申請?zhí)枴緾N201310652675
【發(fā)明人】韓先培, 孫樂
【申請人】中國科學院軟件研究所
【公開日】2015年6月10日
【申請日】2013年12月5日