基于漢語句義結(jié)構(gòu)模型和主題模型的句子表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于漢語句義結(jié)構(gòu)模型和主題模型的句子表示方法,屬于計(jì)算機(jī) 科學(xué)與自然語言處理的中文分析技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 句子表示的目的是將句子中的內(nèi)容表示成計(jì)算機(jī)可處理的數(shù)據(jù)形式,用于分類、 聚類或句子生成。作為自然語言處理的基礎(chǔ)性研究,在自動(dòng)問答和自動(dòng)摘要等系統(tǒng)中有著 廣泛的應(yīng)用。
[0003] 詞袋模型和η格模型由于其簡單高效的特性,是目前使用最為普遍的長文本表示 方法。然而,當(dāng)分析處理句子等短文本時(shí),這些傳統(tǒng)方法由于文本中數(shù)據(jù)內(nèi)容較少會(huì)造成表 示特征的稀疏問題。為了解決該問題,目前有三種主要的方法:基于語法的方法、基于語義 的方法和基于分布式語義的方法。
[0004] 基于語法的方法使用語法信息來表示句子。Lee和Chang等人提出利用語法信息的 方法用于計(jì)算句子之間的相似程度。Stef anescu和Ban jade使用語法中的塊信息來表示句 子?;谡Z義的方法基本上是使用本體論的概念,使用類似于WordNet等語義知識(shí)庫來計(jì)算 詞語之間的相似程度,進(jìn)而計(jì)算句子之間的相似度?;诜植际秸Z義方法將句子轉(zhuǎn)換成一 個(gè)確定長度的向量來表示句子。Le和Mikolov提出了一個(gè)半監(jiān)督的學(xué)習(xí)確定長度向量來表 示句子的方法。該算法基于詞向量構(gòu)建句子以及段落的向量,詞向量通過對(duì)文本的學(xué)習(xí)獲 得。
[0005] 基于語法和語義混合的方法在文本相似度計(jì)算任務(wù)中表現(xiàn)良好。然而,構(gòu)建詞語 知識(shí)庫需要花費(fèi)大量的人力物力。同時(shí),人工構(gòu)建的知識(shí)庫通常是領(lǐng)域獨(dú)立的。除此之外, 基于語法的方法、基于語義的方法以及這二者的混合方法經(jīng)常用于計(jì)算句子之間的相似程 度而非對(duì)句子的表示。
[0006] 綜上,為了解決句子表示時(shí)的特征稀疏問題,實(shí)現(xiàn)句子表示,借助于近幾年提出的 句義結(jié)構(gòu)模型(羅森林等),提出基于漢語句義結(jié)構(gòu)模型和主題模型的句子表示方法。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是:為解決自然語言處理中句子表示時(shí)的特征稀疏問題,提出一種 基于漢語句義結(jié)構(gòu)模型和主題模型的句子表示方法。
[0008] 本發(fā)明的設(shè)計(jì)原理為:針對(duì)漢語句子,得到其表示結(jié)果:1.對(duì)原始句子進(jìn)行句義結(jié) 構(gòu)分析,得到句子的句義結(jié)構(gòu);2 .在得到句子句義結(jié)構(gòu)的基礎(chǔ)上,使用句義結(jié)構(gòu)中基本項(xiàng)和 一般項(xiàng)詞語分別進(jìn)行主題模型分析,得到基本項(xiàng)知識(shí)庫和一般項(xiàng)知識(shí)庫;3.在以上兩步的 基礎(chǔ)上,利用第1步句義結(jié)構(gòu)識(shí)別結(jié)果,利用其中的話題詞語和述題詞語,結(jié)合第二步的知 識(shí)庫,生成句子的表示向量。
[0009] 本發(fā)明的技術(shù)方案是通過如下步驟實(shí)現(xiàn)的:
[0010] 步驟1,為獲取句子中基本項(xiàng)詞語、一般項(xiàng)詞語、話題詞語和述題詞語,需要先對(duì)句 子進(jìn)行句義結(jié)構(gòu)分析,得到句子的句義結(jié)構(gòu)。
[0011] 在上述步驟中,基本項(xiàng)詞語是指在句子的句義結(jié)構(gòu)中,該詞語作為基本項(xiàng);一般項(xiàng) 詞語是指在句子的句義結(jié)構(gòu)中,該詞語作為一般項(xiàng);話題詞語是指在句子的句義結(jié)構(gòu)中,該 詞語在話題下面;述題詞語是指在句子的句義結(jié)構(gòu)中,該詞語在述題下面。
[0012] 步驟2,構(gòu)建知識(shí)庫,具體方法為:針對(duì)句子的句義結(jié)構(gòu),分別提取其中詞語,進(jìn)行 主題模型分析,得到主題-詞語的分布,該分布即為知識(shí)庫。
[0013] 步驟2.1,構(gòu)建基本項(xiàng)知識(shí)庫,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為基 本項(xiàng)的詞語構(gòu)成文本-基本項(xiàng)詞語矩陣,進(jìn)行主題模型分析,得到主題-基本項(xiàng)詞語分布,即 為基本項(xiàng)知識(shí)庫。
[0014]步驟2.2,構(gòu)建一般項(xiàng)知識(shí)庫,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為一 般項(xiàng)的詞語構(gòu)成文本-一般項(xiàng)詞語矩陣,進(jìn)行主題模型分析,得到主題-一般項(xiàng)詞語分布,即 為一般項(xiàng)知識(shí)庫
[0015] 步驟3,在步驟1得到句子句義結(jié)構(gòu)和步驟2得到知識(shí)庫的基礎(chǔ)上,對(duì)句子中詞語進(jìn) 行擴(kuò)充。
[0016] 步驟3.1,對(duì)話題下詞語進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話 題下的詞語,這些詞語中的基本項(xiàng)詞語,使用基本項(xiàng)知識(shí)庫進(jìn)行擴(kuò)充,一般項(xiàng)詞語使用一般 項(xiàng)知識(shí)庫進(jìn)行擴(kuò)充,得到話題的表示向量。
[0017] 步驟3.2,對(duì)述題下詞語進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話 題下的詞語,這些詞語中的基本項(xiàng)詞語,使用基本項(xiàng)知識(shí)庫進(jìn)行擴(kuò)充,一般項(xiàng)詞語使用一般 項(xiàng)知識(shí)庫進(jìn)行擴(kuò)充,得到述題的表示向量。
[0018] 步驟4,在步驟3對(duì)句子中詞語進(jìn)行擴(kuò)充的基礎(chǔ)上,合并已擴(kuò)充的話題和述題表示 向量,構(gòu)建句子表示向量,得到句子表示結(jié)果。
[0019] 有益效果
[0020] 為解決句子表示的特征稀疏問題提供了新的思路,并有效提升了句子的分類效 果。
【附圖說明】
[0021] 圖1為本發(fā)明的基于漢語句義結(jié)構(gòu)模型和主題模型的句子表示方法原理圖;
【具體實(shí)施方式】
[0022] 為了更好的說明本發(fā)明的目的和優(yōu)點(diǎn),下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明方法的實(shí) 施方式做進(jìn)一步詳細(xì)說明。
[0023] 以sogou文本分類語料庫中隨機(jī)挑選的車輛、金融和健康三個(gè)類別的文本,每個(gè)類 另IJ200篇共14357條句子為數(shù)據(jù),采用十折交叉法進(jìn)行句子分類測(cè)試。
[0024] 步驟1,為獲取句子中基本項(xiàng)詞語、一般項(xiàng)詞語、話題詞語和述題詞語,需要先對(duì)句 子進(jìn)行句義結(jié)構(gòu)分析,得到句子的句義結(jié)構(gòu)。
[0025] 在上述步驟中,基本項(xiàng)詞語是指在句子的句義結(jié)構(gòu)中,該詞語作為基本項(xiàng);一般項(xiàng) 詞語是指在句子的句義結(jié)構(gòu)中,該詞語作為一般項(xiàng);話題詞語是指在句子的句義結(jié)構(gòu)中,該 詞語在話題下面;述題詞語是指在句子的句義結(jié)構(gòu)中,該詞語在述題下面。
[0026] 在上述步驟中,對(duì)普通漢語句子進(jìn)行句義結(jié)構(gòu)分析的方法使用羅森林等在文獻(xiàn) (