專利名稱:用于xml文檔分類的語(yǔ)義相似度度量方法
用于XML文檔分類的語(yǔ)義相似度度量方法技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)識(shí)別技術(shù)領(lǐng)域,尤其是一種用于文檔分類的相似度度量方法。
技術(shù)背景
XML作為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn),已得到廣泛的應(yīng)用。隨著XML文檔 數(shù)量的不斷增長(zhǎng),如何對(duì)XML數(shù)據(jù)進(jìn)行有效的管理在數(shù)據(jù)庫(kù)和信息檢索領(lǐng)域變得越來(lái)越重 要。在很多XML數(shù)據(jù)應(yīng)用,例如版本控制、半結(jié)構(gòu)化數(shù)據(jù)集成、XML文檔分類/聚類、XML檢 索等領(lǐng)域,如何度量XML文檔之間的相似度成為一個(gè)重要的問(wèn)題,尤其在XML文檔分類/聚 類應(yīng)用中,需要根據(jù)文檔之間的相似度把XML文檔歸到不同的類別中。
Ifligi^"Tekli J, Chbeir R, Yetongnon K. An overview on XML similarity Background, current trends and future directions. Computer ScienceReview,2009, 3(3) :151-173. ”,度量XML文檔之間相似度的方法大體可分成基于編輯距離(ED,Edit Distance)的方法、基于信息檢索(IR,Information Retrieval)的方法以及其它一些方 法。
基于編輯距離的方法一般都忽略了包含在文檔中的內(nèi)容信息,利用結(jié)構(gòu)信息計(jì)算 文檔距離并進(jìn)行分類,這種方法的缺點(diǎn)在于編輯距離的計(jì)算開(kāi)銷很大。文獻(xiàn)“DalamagasT, Cheng Τ, Winel KJ, Sellis Τ. A methodology for clustering XML documents by structure. Information Systems, 2006, 31 (3) :187-228. ”首先對(duì) XML 文檔進(jìn)行簡(jiǎn)化,得到 文檔的Summary Tree,然后計(jì)算Summary Tree之間的編輯距離來(lái)進(jìn)行分類。雖然這種方 法降低了計(jì)算樹編輯距離的時(shí)間復(fù)雜性,但是Summary Tree并不能很好地保持原有文檔的 結(jié)構(gòu)° 文獻(xiàn)"Xing G, Guo J, Xia ZH. Classifying XML Documents Based onStructure/ Content Similarity. Comparative Evaluation of XML Information RetrievalSystems, 2007,4518 :444-457. ”通過(guò)計(jì)算XML文檔與khema之間的編輯距離對(duì)XML文檔進(jìn)行分類, 這種方法假設(shè)屬于同一個(gè)類別的所有XML文檔具有共同的khema,并且該khema可以得 到。事實(shí)上屬于同一類別的XML文檔很多情況下并不具有共同的khema,而且XML文檔的 Schema并非總是可以輕易獲得,雖然文中提出了一種從XML文檔中抽取khema的方法,但 這需要額外的開(kāi)銷。由于基于編輯距離的方法忽略了文檔的內(nèi)容,因而并沒(méi)有利用關(guān)鍵字 的語(yǔ)義信息。
傳統(tǒng)的基于信息檢索的方法將文檔表示為一個(gè)向量,向量的每個(gè)分量為該文檔中 所包含的關(guān)鍵字在該文檔中的權(quán)重,然后任意兩個(gè)文檔之間的相似度可以轉(zhuǎn)換為計(jì)算兩個(gè) 向量的距離。關(guān)鍵為如何計(jì)算關(guān)鍵字的權(quán)重,使用最多的方法是tf-idf公式,這種方法僅 僅利用文檔中的內(nèi)容信息,并未考慮到XML文檔中的結(jié)構(gòu)信息,因此不完全適用于XML文檔 的相似度計(jì)算。針對(duì)XML文檔,也有方法對(duì)tf-idf方法進(jìn)行擴(kuò)展,同時(shí)利用XML文檔中的 結(jié)構(gòu)和內(nèi)容信息,例如文獻(xiàn)“袁家政,須德,鮑泓.基于結(jié)構(gòu)與文本關(guān)鍵詞相關(guān)度的xml網(wǎng)頁(yè) 分類研究.計(jì)算機(jī)研究與發(fā)展,2006,43 (8) :1361-1367. ”在計(jì)算關(guān)鍵字的權(quán)重時(shí)考慮了關(guān) 鍵字出現(xiàn)在不同樹節(jié)點(diǎn)的位置以及位置的權(quán)重,但僅僅考慮關(guān)鍵字在不同樹節(jié)點(diǎn)的位置和位置權(quán)重還未能完全利用包含在其中的語(yǔ)義信息,比如還可以考慮包含關(guān)鍵字的路徑的層 次,包含路徑的文檔數(shù)以及同時(shí)包含路徑和關(guān)鍵字的文檔數(shù)等信息。
文獻(xiàn)"Zaki MJ, Aggarwal CC. XRules :an effective structural classifier for XML data. In :Getoor L,Senator TE, domingos P,F(xiàn)aloutsos C,eds. Proc. of the ninth ACM SIGKDDinternational conference on Knowledge discovery and data mining. Washington, D. C. :ACM,2003. 316-325. ”提出 了一種基于規(guī)則的分類方法,首先 從XML文檔中挖掘頻繁子樹,然后利用這些頻繁子樹生成規(guī)則進(jìn)行分類。這種方法假設(shè) 屬于同一類別的文檔具有相同的子結(jié)構(gòu),事實(shí)上在很多情況下這個(gè)假設(shè)并不成立。文獻(xiàn) “Theobald M,Schenkel R,Weikum Gerhard. Exploiting Structure,Annotation,and OntologicalKnowledge for Automatic Classification of XML Data. In Christophides V,F(xiàn)reire J,eds. Proc. ofthe WebDB Workshop. San Diego, California :ACM,2003.1-6. ” 除了使用關(guān)鍵字作為特征外,還使用小枝(Twigs)和標(biāo)簽路徑(Tag Paths)作為結(jié)構(gòu)特 征來(lái)構(gòu)造特征空間,然后利用本體論和互信息來(lái)確定與某一個(gè)類別最相關(guān)的m個(gè)特征, 然后根據(jù)這些類相關(guān)的特征來(lái)構(gòu)造分類器。由于這種方法預(yù)先限制結(jié)構(gòu)特征中只包含 兩層結(jié)構(gòu),在一定程度上破壞了 XML的多層結(jié)構(gòu)。文獻(xiàn)“mi Jff, Tang J. A bottom-up approach for XMLdocuments classification. In :Desai BC, ed.Proc. of the 12th International DatabaseEngineering and Applications Symposium. Coimbra,Portugal ACM, 2008. 131-137. ”利用支持度和互信息的概念從文檔中抽取與某一個(gè)特定類別相關(guān)的 關(guān)鍵字,稱為KeyTerm,然后找到包含這些Key Term的路徑,稱為Key Path,該類別的所有 Key Path就構(gòu)成了該類別的一個(gè)分類Model,然后通過(guò)計(jì)算XML文檔與各個(gè)類別的Model 之間的距離來(lái)對(duì)文檔進(jìn)行分類。作者同樣利用了一個(gè)假設(shè),即屬于同一類別的XML文檔的 Schema是相似的,雖然并不要求khema —定能夠得到,但這個(gè)假設(shè)仍然在一定程度上限制 了其應(yīng)用的靈活性。發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)未充分考慮XML文檔中關(guān)鍵字語(yǔ)義信息或者依賴于文檔 khema的不足,本發(fā)明提供一種基于關(guān)鍵字語(yǔ)義信息的XML文檔相似度度量方法,將XML文 檔表示為由關(guān)鍵字權(quán)重組成的向量,XML文檔之間的相似度計(jì)算就可以轉(zhuǎn)換為計(jì)算兩個(gè)向 量之間的距離問(wèn)題,計(jì)算過(guò)程中不需要得到XML文檔的khema。本發(fā)明同時(shí)利用了 XML文 檔中包含的結(jié)構(gòu)信息和內(nèi)容信息,較為充分地考慮包含在文檔中的關(guān)鍵字的語(yǔ)義信息,比 如關(guān)鍵字在不同路徑中出現(xiàn)的次數(shù),路徑的深度,路徑本身的分類能力,包含路徑的文檔個(gè) 數(shù),同時(shí)包含某一路徑和關(guān)鍵字的文檔個(gè)數(shù)等計(jì)算關(guān)鍵字的權(quán)重,并據(jù)此度量文檔之間的 相似度。如果將利用這種方法度量的文檔之間相似度用于XML文檔的分類時(shí),可以提高分 類的準(zhǔn)確率。
對(duì)于給定的XML文檔集D,其中的第i個(gè)文檔表示為屯,設(shè)D中的文檔分屬于|C| 個(gè)類別,C表示所有類別的集合,Ci表示文檔集D中所有屬于第i個(gè)類別的文檔組成的集合。 則為了計(jì)算文檔之間的相似度,本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案包括以下步驟
1.解析文檔集中所有的XML文檔,將每一個(gè)XML文檔分解為結(jié)構(gòu)信息和內(nèi)容信息。
2.從內(nèi)容信息中抽取關(guān)鍵字特征,構(gòu)造關(guān)鍵字特征空間。
3.從結(jié)構(gòu)信息中抽取所有的路徑,構(gòu)造路徑字典。
4.統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在每個(gè)文檔的任意路徑pat、中出 現(xiàn)的頻率tfi (tk,pathj),同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)(Ifai^pathj)以及包含 該關(guān)鍵字特征的文檔個(gè)數(shù)df(tk),并根據(jù)df(tk)進(jìn)行關(guān)鍵字特征篩選。
5.計(jì)算路徑字典中每條路徑Pathj的深度pi (Pathj),數(shù)據(jù)集中包含該路徑的文檔 數(shù)Clf(Pathj)及其權(quán)重wpathj,其中權(quán)重利用信息論中信息增益的概念進(jìn)行計(jì)算。
6.根據(jù)第4,5步得到的信息,利用下式計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk 在文檔Cli中的權(quán)重wik,然后將文檔表示為由關(guān)鍵字特征權(quán)重組成的向量。
權(quán)利要求
1. 一種用于XML文檔分類的語(yǔ)義相似度度量方法,其特征在于對(duì)于給定的XML文檔 集D,其中的第i個(gè)文檔表示為d”設(shè)D中的文檔分屬于|C|個(gè)類別,C表示所有類別的集 合,Ci表示文檔集D中所有屬于第i個(gè)類別的文檔組成的集合,則為了計(jì)算文檔之間的相似 度,包括以下步驟a.解析文檔集中所有的XML文檔,將每一個(gè)XML文檔分解為結(jié)構(gòu)信息和內(nèi)容信息;b.從內(nèi)容信息中抽取關(guān)鍵字特征,構(gòu)造關(guān)鍵字特征空間;c.從結(jié)構(gòu)信息中抽取所有的路徑,構(gòu)造路徑字典;d.統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在每個(gè)文檔的任意路徑中出現(xiàn)的 頻率tfi (tk,pathj),同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)df(tk,path」)以及包含該關(guān) 鍵字特征的文檔個(gè)數(shù)df(tk),并根據(jù)df(tk)進(jìn)行關(guān)鍵字特征篩選;e.計(jì)算路徑字典中每條路徑Pathj的深度Pl(Pathj),數(shù)據(jù)集中包含該路徑的文檔數(shù) df(pathj)及其權(quán)重wpathj,其中權(quán)重利用信息論中信息增益的概念進(jìn)行計(jì)算;f.根據(jù)第d,e步得到的信息,利用下式計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在文 檔Cli中的權(quán)重wik,然后將文檔表示為由關(guān)鍵字特征權(quán)重組成的向量;
全文摘要
本發(fā)明公開(kāi)了一種用于XML文檔分類的語(yǔ)義相似度度量方法,依次將每個(gè)文檔分解為結(jié)構(gòu)信息和內(nèi)容信息;從內(nèi)容信息中抽取關(guān)鍵字特征,構(gòu)造關(guān)鍵字特征空間;從結(jié)構(gòu)信息中抽取所有的路徑,構(gòu)造路徑字典;統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征在每個(gè)文檔的任意路徑中出現(xiàn)的頻率,同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)以及包含該關(guān)鍵字特征的文檔個(gè)數(shù)等信息,計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征在文檔中的權(quán)重;根據(jù)余弦度量計(jì)算任意兩個(gè)文檔之間的相似度。本發(fā)明應(yīng)用于XML文檔的分類,可以提高準(zhǔn)確率。
文檔編號(hào)G06F17/27GK102033867SQ201010590689
公開(kāi)日2011年4月27日 申請(qǐng)日期2010年12月14日 優(yōu)先權(quán)日2010年12月14日
發(fā)明者婁穎, 崔海文, 張利軍, 李戰(zhàn)懷, 李霞, 陳群 申請(qǐng)人:西北工業(yè)大學(xué)