專利名稱:正反向訓(xùn)練去混淆文本檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于正反向訓(xùn)練的去混淆文本檢索(Decrease Confusion TextRetrieval, DCTR)方法,屬于計(jì)算機(jī)科學(xué)與信息檢索技術(shù)領(lǐng)域。
背景技術(shù):
信息檢索是自然語言處理中的一項(xiàng)重要應(yīng)用,能夠使用戶從浩如煙海的信息中快速準(zhǔn)確地獲得所需要信息,緩解信息豐富和知識(shí)貧乏之間的矛盾?;陉P(guān)鍵詞與基于標(biāo)簽內(nèi)容的信息檢索,目前已得到極大應(yīng)用?;谖谋镜男畔z索,目前需要解決的一個(gè)問題是文本混淆現(xiàn)象:即檢索返回的結(jié)果中包含了大量與檢索條件存在一定的相關(guān)性但是與用戶檢索意愿并不相符的文本。綜觀現(xiàn)有信息檢索技術(shù),通常使用的模型有:1.布爾模型(BM, Boolean Model)布爾模型以布爾表達(dá)式為基礎(chǔ),采用邏輯關(guān)系符號(hào)AND、OR、NOT連接多個(gè)檢索詞構(gòu)成查詢邏輯表達(dá)式;而特征詞在文本中標(biāo)引值為一個(gè)二值函數(shù)(即“出現(xiàn)”或“不出現(xiàn)”)。布爾模型采用文本與查詢表達(dá)式精確匹配的方式進(jìn)行文本檢索,結(jié)果中文本與查詢之間的相關(guān)性也是一個(gè)二元值(即“相關(guān)”或“不相關(guān)”)。布爾模型的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單、推理嚴(yán)密;缺點(diǎn)是精確匹配要求導(dǎo)致漏檢率高,此外布爾模型無法對(duì)檢索結(jié)果進(jìn)行相關(guān)性排序。2.向量空間模型(VSM, Vector Space Model)向量空間模型采用特征詞作為向量空間的維度,并采用該向量空間中的向量來代表文本以及檢索條件,通過計(jì)算向量之間的余弦相似度對(duì)檢索條件和文本進(jìn)行匹配。向量空間模型通過對(duì)特征詞的加權(quán)和部分匹配的策略允許輸出與檢索條件相近而不是完全匹配的結(jié)果,改進(jìn)了檢索的效果,并對(duì)允許通過相似度對(duì)檢索結(jié)果排序輸出。3.概率模型(PM, Probabilistic Model)概率模型將是否符合查詢條件視作一個(gè)隨機(jī)事件,通過文本中的特征詞估計(jì)文本符合檢索條件的概率。布爾模型具有簡(jiǎn)潔性、高效性等特點(diǎn),向量空間模型具有形式化表達(dá)方面的優(yōu)勢(shì),概率模型考慮了詞條、文本之間的內(nèi)在聯(lián)系,利用詞條之間和詞條與文本之間的概率相似度進(jìn)行信息檢索。使用三類模型進(jìn)行信息檢索,都存在檢索結(jié)果混淆問題。
發(fā)明內(nèi)容
本發(fā)明的目的是:針對(duì)信息檢索中存在的文本混淆問題,提出了一種基于正反向訓(xùn)練的針對(duì)結(jié)果混淆問題的信息檢索方法。本發(fā)明的設(shè)計(jì)原理為:使用概率模型,通過正向訓(xùn)練為檢索模板提供符合檢索意愿的文本特征,反向訓(xùn)練為檢索模板提供與檢索意愿相違背的文本特征。使用檢索模板作為檢索條件,利用其中的先驗(yàn)概率去估計(jì)文本符合檢索意愿的概率(P(R+Id))以及文本違背檢索意愿的概率(P(RlD))。將文本檢索的過程,轉(zhuǎn)換為比較這兩個(gè)的概率,并從文本集中檢索出P+>P_的文本。通過正向與反向的分析,有效地解決了文本混淆問題,提高了檢索精度。本發(fā)明的技術(shù)方案是通過如下步驟實(shí)現(xiàn)的:步驟1,為了得到檢索模板,需要進(jìn)行正、反向訓(xùn)練。步驟1.1,首先對(duì)符合檢索意愿的文本與違背檢索意愿的文本,進(jìn)行正、反向訓(xùn)練,具體方法為:對(duì)符合意愿的文本,進(jìn)行句子分析及特征提取,得到正向訓(xùn)練結(jié)果,即符合檢索意愿文本的語言特征;對(duì)違背檢索意愿的文本,進(jìn)行句子分析及特征提取,得到反向訓(xùn)練結(jié)果,即違背檢索意愿文本的語言特征。步驟1.1中的語言特征,包括詞法層特征(U、語法層特征(fSyn)和句義層特征Cfsem)O檢索模板的訓(xùn)練過程,通過對(duì)符合檢索意愿和違背檢索意愿文本的正、反向訓(xùn)練,來估計(jì)P (R+1 ti)和P (R_ I ti)。由Bayes公式,推導(dǎo)其計(jì)算方法為:
權(quán)利要求
1.正反向去混淆文本檢索方法,其特征在于,所述方法包括以下步驟: 步驟1,對(duì)文本數(shù)據(jù)進(jìn)行正、反向訓(xùn)練,得到檢索模板。
步驟1.1,對(duì)符合檢索意愿的文本,進(jìn)行句子分析及特征提取,得到正向訓(xùn)練結(jié)果,即符合檢索意愿文本的語言特征;對(duì)違背檢索意愿的文本,進(jìn)行句子分析及特征提取,得到反向訓(xùn)練結(jié)果,即違背檢索意愿文本的語言特征。
步驟1.2,在步驟1.1的基礎(chǔ)上,將符合檢索意愿文本的語言特征與違背檢索意愿文本的語言特征歸并為檢索模板,該檢索模板用于在文本檢索時(shí)提供相似度計(jì)算的特征。
步驟2,在步驟I得到檢索模板的基礎(chǔ)上,首先對(duì)待檢文本集進(jìn)行與步驟1.1中同樣的句子分析及特征提取,獲取語言特征信息,得到文本集特征庫。其次,在步驟I中檢索模板的條件下,對(duì)文本集特征庫進(jìn)行檢索判別與相似度計(jì)算,得到檢索結(jié)果。
步驟2.1,檢索判別是通過步驟2中的文本集特征庫,判斷文本D與檢索模板的相似度,將P(R+|D)>P(R_|D)的文本作為檢索結(jié)果。
步驟2.2,對(duì)步驟1.1中得到的語言特征,給每類特征項(xiàng)分別賦予權(quán)重α、β、λ,且滿足 α +β + λ =1。
步驟3,步驟2.1中檢出的文本,按照與步驟I中檢索模板的相似度,由高到低進(jìn)行排序,得到檢索結(jié)果。
步驟4,對(duì)于步驟3得到的檢索結(jié)果,將其中符合檢索意愿和違背檢索意愿的文本應(yīng)用步驟I中同樣的操作,再次進(jìn)行檢索模板訓(xùn)練,之后更新步驟I中得到的檢索模板,重復(fù)步驟2、3,可進(jìn)行反饋式檢索。
2.根據(jù)權(quán)利I所述的正反向去混淆文本檢索方法,其特征在于:步驟1.1中語言特征包括詞法層特征(fh)、語法層特征(fSyn)和句義層特征(fSM)。檢索模板的訓(xùn)練過程,通過對(duì)符合檢索意愿和違背檢索意愿文本的正、反向訓(xùn)練,來估計(jì)P(R+Iti)和P(ITlti)。由Bayes公式,推導(dǎo)其計(jì)算方法為:
3.根據(jù)權(quán)利I所述的正反向去混淆文本檢索方法,其特征在于:步驟2.1中,關(guān)于文本D的正、反向支持概率計(jì)算公式為:
4.根據(jù)權(quán)利I所述的正反向去混淆文本檢索方法,其特征在于:步驟2.2中,為每類特征賦予權(quán)重后,正、反向支持概率的計(jì)算公式為:
全文摘要
本發(fā)明涉及一種基于正反向訓(xùn)練的去混淆文本檢索方法,屬于計(jì)算機(jī)科學(xué)與信息檢索技術(shù)領(lǐng)域。本發(fā)明首先對(duì)符合檢索意愿和違背檢索意愿的文本進(jìn)行語言特征提取,訓(xùn)練得到檢索模板;進(jìn)而利用該檢索模板,對(duì)待檢索文本提取的語言特征庫進(jìn)行檢索,得到檢出文本,并按照與檢索模板相似度由高到低對(duì)檢出文本進(jìn)行排序;最終在檢出文本中,使用符合檢索意愿和違背檢索意愿的文本,反饋式更新檢索模板,重新檢索,得到優(yōu)化檢索結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明采用的正、反向訓(xùn)練文本檢索方法具有檢索準(zhǔn)確率高、檢索速度快、去混淆明顯等特點(diǎn)。
文檔編號(hào)G06F17/30GK103150371SQ201310074209
公開日2013年6月12日 申請(qǐng)日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 韓磊, 潘麗敏, 魏超 申請(qǐng)人:北京理工大學(xué)