基于語義圖譜的短文本特征擴展方法
【專利摘要】本發(fā)明公開了一種基于語義圖譜的短文本特征擴展方法,包括以下步驟:利用短文本訓(xùn)練數(shù)據(jù)集進行主題建模,抽取主題詞分布;對主題詞分布進行重排序;構(gòu)建候選關(guān)鍵詞詞典和主題-關(guān)鍵詞語義圖譜;基于鏈接分析的方法計算候選關(guān)鍵詞和種子關(guān)鍵詞的綜合相似度評價,選擇最相似的候選關(guān)鍵詞完成對短文本的擴展。本發(fā)明方法較基于語言模型的短文本特征表示方法操作簡單,執(zhí)行效率高,而且充分利用關(guān)鍵詞之間的語義關(guān)聯(lián)信息,較傳統(tǒng)的基于詞袋模型的短文本特征表示方法,有效緩解了數(shù)據(jù)稀疏性問題和語義敏感性問題,不依賴于外部大規(guī)模輔助訓(xùn)練語料或者搜索引擎。
【專利說明】基于語義圖譜的短文本特征擴展方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘【技術(shù)領(lǐng)域】,是一種基于主題-關(guān)鍵詞語義圖譜和鏈接分析的 短文本特征擴展方法,可應(yīng)用于短文本分類、聚類任務(wù)中的特征表示,并最終應(yīng)用于知識問 答,用戶意圖理解和智能檢索等子領(lǐng)域。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)以及各種移動終端都產(chǎn)生了大量的短文本信息, 比如網(wǎng)頁檢索片段、微博、產(chǎn)品評論、新聞標(biāo)題以及各種微信息等,而特定用戶所關(guān)注的有 用信息也被海量的資源所湮沒。如何讓系統(tǒng)智能管理和更好的使用這些海量的數(shù)據(jù)資源, 面臨著巨大的挑戰(zhàn)。因此一種高精度的短文本分類方法可以幫助系統(tǒng)加深對短文本內(nèi)容的 理解,對于構(gòu)建智能網(wǎng)絡(luò)和智能系統(tǒng)有重要作用。短文本特征擴展是實現(xiàn)短文本特征有效 表示的一種必要手段,短文本的高精度自動分類是文本挖掘領(lǐng)域中一個重要的子問題。與 其緊密相關(guān)的【技術(shù)領(lǐng)域】包括:知識問答、用戶意圖理解、智能信息檢索等。目前,短文本分類 任務(wù)的一個顯著特征是總體數(shù)據(jù)量巨大,但是由于短文本長度的限制,其包含的詞共現(xiàn)和 上下文信息不足。傳統(tǒng)的特征表示方法和分類模型面臨嚴(yán)重的數(shù)據(jù)稀疏性問題,同時由于 受到同義詞和多義詞的影響,快速準(zhǔn)確的進行短文本的自動分類,仍然是一項極具挑戰(zhàn)性 的技術(shù)。因此,如何獲得短文本特征的有效表示并改善其分類性能是一個亟待解決的問題。
[0003] 針對海量短文本的自動分類技術(shù)展開的各項研究,主要是集中在如何選取更好的 特征表達上,以解決由于短文本自身特性所造成的稀疏性和歧義性問題。目前,短文本特征 的表示方法大體上可分為兩種,一種是使用語言模型將短文本在特征空間中映射為有效的 特征向量;另一種是對短文本內(nèi)容進行信息擴展,然后基于詞袋模型對短文本特征進行表 /Jn 〇
[0004] 基于語言模型的短文本特征表示,主要是利用深度學(xué)習(xí)算法先對詞進行向量表 示,然后再合成句子,或者直接對句子進行向量表示。但是該方法模型繁瑣,執(zhí)行復(fù)雜度較 高,而且在句子層面的特征表示尚不能滿足應(yīng)用需求。傳統(tǒng)的詞袋模型在對短文本進行特 征表示時,簡單易操作,而且時間復(fù)雜度較低,但是存在嚴(yán)重的數(shù)據(jù)稀疏性問題,而且忽略 了詞語之間的語義信息。此外,主題上很相關(guān)的短文本可能含有非常少的重疊關(guān)鍵詞,導(dǎo)致 短文本之間的相似度難以有效計算,將直接影響分類任務(wù)的性能。目前針對該問題,主流的 技術(shù)主要是使用潛在的語義信息或者相關(guān)的關(guān)鍵詞對短文本進行信息擴展。而這些擴展信 息的獲得往往需要大規(guī)模的外部輔助語料或者借助搜索引擎,其中輔助訓(xùn)練語料和目標(biāo)短 文本數(shù)據(jù)集要求具有語義一致性。然而這些大規(guī)模訓(xùn)練語料的收集是很耗時耗力的?;?搜索引擎的特征擴展方法,首先是提取短文本中出現(xiàn)的關(guān)鍵詞作為Query,通過搜索引擎進 行檢索,然后將返回的結(jié)果作為擴展信息。但是這種方法的時間復(fù)雜度很大,特別是在處理 海量短文本時,是不可取的。
[0005] 綜上所述,基于傳統(tǒng)詞袋模型的短文本特征表示技術(shù)主要存在以下兩個問題:一 是短文本中詞共現(xiàn)不足,以及關(guān)鍵詞出現(xiàn)在不同的上下文環(huán)境中表達不同的語義,即短文 本在特征表示時存在數(shù)據(jù)稀疏性和語義敏感性問題;二是依賴外部大規(guī)模的輔助訓(xùn)練語料 或者搜索引擎,而外部訓(xùn)練語料要求與目標(biāo)數(shù)據(jù)集具有語義一致性,這一點使其難以搜集。 基于搜索引擎的方法時間復(fù)雜度較大,難以適應(yīng)海量數(shù)據(jù)或者在線數(shù)據(jù)的處理。這些問題 都使得短文本的相似度計算面臨著巨大困難,嚴(yán)重影響分類任務(wù)的性能。本發(fā)明提出一種 短文本特征的擴展方法,可以在很大程度上彌補傳統(tǒng)詞袋模型的缺點,并進一步改善短文 本分類的性能。
【發(fā)明內(nèi)容】
[0006] 針對上述兩個主要問題,本發(fā)明提出了一種基于語義圖譜的短文本特征擴展方 法,解決了傳統(tǒng)詞袋模型對短文本特征表示中的數(shù)據(jù)稀疏性問題和語義敏感性問題,并最 終改善短文本的分類性能。
[0007] 本發(fā)明所提出的一種基于語義圖譜的短文本特征擴展方法包括以下步驟:
[0008] 步驟1,使用短文本訓(xùn)練數(shù)據(jù)集進行主題建模,提取每一個主題下的關(guān)鍵詞概率分 布;
[0009] 步驟2,采用基于主題概率分布的指數(shù)變換排序方法,對每一個主題下的關(guān)鍵詞分 布進行重排序,獲得重排序的主題表示;
[0010] 步驟3,基于重排序的主題表示,對于每一個主題,選擇前N個關(guān)鍵詞生成由候選 關(guān)鍵詞構(gòu)成的候選關(guān)鍵詞詞典,并構(gòu)建主題-關(guān)鍵詞語義圖譜;
[0011] 步驟4,采用候選關(guān)鍵詞詞典與目標(biāo)短文本中的短語進行匹配的方法對目標(biāo)短文 本進行過濾,將匹配到的短語作為種子關(guān)鍵詞,利用主題-關(guān)鍵詞語義圖譜,候選關(guān)鍵詞詞 典中所有元素的相似度,提取前V個最相似的候選關(guān)鍵詞對所述種子關(guān)鍵詞進行擴展。
[0012] 優(yōu)選的,步驟2中基于主題概率分布的指數(shù)變換排序方法,其評分計算方法是對 每一個主題下關(guān)鍵詞的分布進行指數(shù)變換?£/〃',然后對每一個關(guān)鍵詞估計一個顯著度值 SAS,公式為
[0013]
【權(quán)利要求】
1. 一種基于語義圖譜的短文本特征擴展方法,其特征在于,包括以下步驟: 步驟1,使用短文本訓(xùn)練數(shù)據(jù)集進行主題建模,提取每一個主題下的關(guān)鍵詞概率分布; 步驟2,采用基于主題概率分布的指數(shù)變換排序方法,對每一個主題下的關(guān)鍵詞分布進 行重排序,獲得重排序的主題表示; 步驟3,基于重排序的主題表示,對于每一個主題,選擇前N個關(guān)鍵詞生成由候選關(guān)鍵 詞構(gòu)成的候選關(guān)鍵詞詞典,并構(gòu)建主題-關(guān)鍵詞語義圖譜; 步驟4,采用候選關(guān)鍵詞詞典與目標(biāo)短文本中的短語進行匹配的方法對目標(biāo)短文本進 行過濾,將匹配到的短語作為種子關(guān)鍵詞,利用主題-關(guān)鍵詞語義圖譜,候選關(guān)鍵詞詞典中 所有元素的相似度,提取前V個最相似的候選關(guān)鍵詞對所述種子關(guān)鍵詞進行擴展。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟2中基于主題概率分布的指數(shù)變換排 序方法,其評分計算方法是對每一個主題下關(guān)鍵詞的分布進行指數(shù)變換e%·1,然后對每一 個關(guān)鍵詞估計一個顯著度值SAS,公式為
其中,是主題Z下第i個關(guān)鍵詞的概率分布值,K是總的主題個數(shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟3中主題-關(guān)鍵詞語義圖譜構(gòu)建方法 為: 步驟3. 1 :對于每一個重排序的主題,選擇前N個關(guān)鍵詞作為候選關(guān)鍵詞,所有主題的 候選關(guān)鍵詞構(gòu)成候選關(guān)鍵詞詞典; 步驟3. 2,將每一個主題選取的候選關(guān)鍵詞作為葉子節(jié)點,相應(yīng)的主題索引作為父親節(jié) 點,生成一個有向二分圖的團簇,所有的主題構(gòu)成一個主題-關(guān)鍵詞語義圖譜; 步驟3. 3,將步驟2中計算所得顯著度值,設(shè)置為主題-關(guān)鍵詞語義圖譜中父親節(jié)點指 向葉子節(jié)點的連接邊上的權(quán)值。
4. 根據(jù)權(quán)利要求2或3中任一項所述的方法,其特征在于,種子關(guān)鍵詞和候選關(guān)鍵詞的 相似度的計算包括以下步驟: 步驟4. 1 :計算種子關(guān)鍵詞和候選關(guān)鍵詞詞典中所有元素的結(jié)構(gòu)相似度,公式為 SR (Swi,CWj.) = SAS (Swi) SAS (CWj) s (Swi,CWj.) 其中,SWi是目標(biāo)短文本中第i個種子關(guān)鍵詞,是候選關(guān)鍵詞詞典中第j個候選關(guān) 鍵詞,SAS(SWi)為SWi的顯著度值,SAS(CWj)為CWj的顯著度值,s (SWi, CWj)是傳統(tǒng)基于鏈 接分析的結(jié)構(gòu)相似度計算方法計算的Swi與CWj的相似度的值,SR(sWi,CW j)是計算出的Swi 與CWj結(jié)構(gòu)相似度的值。 步驟4.2 :計算種子關(guān)鍵詞和候選關(guān)鍵詞詞典中所有元素的語義相似度,包括如下步 驟: a、 提取Swi對應(yīng)的主題分布向量,提取c%對應(yīng)的主題分布向量; b、 利用計算種子關(guān)鍵詞和候選關(guān)鍵詞的K-L散度,并以該值作為語義相似 度; 步驟4. 3 :綜合結(jié)構(gòu)相似度和語義相似度對關(guān)鍵詞進行綜合評分,公式為
其中,KL (Swi, CWj)是種子關(guān)鍵詞Swi和候選關(guān)鍵詞CWj之間的K-L散度,CScore (Swi, CWj)是計算出的SWi與CWj結(jié)構(gòu)相似度和語義相似度的綜合評分。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,選取種子關(guān)鍵詞時,對種子關(guān)鍵詞所屬主 題數(shù)目進行統(tǒng)計,如果所屬主題數(shù)目大于一定閾值,應(yīng)將種子關(guān)鍵詞剔除。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟1中的建模方法為采用基于二元詞組 的主題模型直接對短文本數(shù)據(jù)集中的詞共現(xiàn)進行建模。
【文檔編號】G06F17/30GK104391942SQ201410686237
【公開日】2015年3月4日 申請日期:2014年11月25日 優(yōu)先權(quán)日:2014年11月25日
【發(fā)明者】徐博, 王鵬, 王方圓, 張恒, 郝紅衛(wèi) 申請人:中國科學(xué)院自動化研究所