用于xml文檔分類的語(yǔ)義相似度度量方法

文檔序號(hào)：6619343閱讀：481來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于xml文檔分類的語(yǔ)義相似度度量方法
用于XML文檔分類的語(yǔ)義相似度度量方法技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)識(shí)別技術(shù)領(lǐng)域，尤其是一種用于文檔分類的相似度度量方法。
技術(shù)背景
XML作為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)，已得到廣泛的應(yīng)用。隨著XML文檔數(shù)量的不斷增長(zhǎng)，如何對(duì)XML數(shù)據(jù)進(jìn)行有效的管理在數(shù)據(jù)庫(kù)和信息檢索領(lǐng)域變得越來(lái)越重要。在很多XML數(shù)據(jù)應(yīng)用，例如版本控制、半結(jié)構(gòu)化數(shù)據(jù)集成、XML文檔分類/聚類、XML檢索等領(lǐng)域，如何度量XML文檔之間的相似度成為一個(gè)重要的問(wèn)題，尤其在XML文檔分類/聚類應(yīng)用中，需要根據(jù)文檔之間的相似度把XML文檔歸到不同的類別中。
Ifligi^"Tekli J, Chbeir R, Yetongnon K. An overview on XML similarity Background, current trends and future directions. Computer ScienceReview,2009, 3(3) :151-173. ”，度量XML文檔之間相似度的方法大體可分成基于編輯距離(ED，Edit Distance)的方法、基于信息檢索(IR，Information Retrieval)的方法以及其它一些方法。
基于編輯距離的方法一般都忽略了包含在文檔中的內(nèi)容信息，利用結(jié)構(gòu)信息計(jì)算文檔距離并進(jìn)行分類，這種方法的缺點(diǎn)在于編輯距離的計(jì)算開(kāi)銷很大。文獻(xiàn)“DalamagasT， Cheng Τ, Winel KJ, Sellis Τ. A methodology for clustering XML documents by structure. Information Systems, 2006, 31 (3) :187-228. ”首先對(duì) XML 文檔進(jìn)行簡(jiǎn)化，得到文檔的Summary Tree，然后計(jì)算Summary Tree之間的編輯距離來(lái)進(jìn)行分類。雖然這種方法降低了計(jì)算樹編輯距離的時(shí)間復(fù)雜性，但是Summary Tree并不能很好地保持原有文檔的結(jié)構(gòu)° 文獻(xiàn)"Xing G, Guo J, Xia ZH. Classifying XML Documents Based onStructure/ Content Similarity. Comparative Evaluation of XML Information RetrievalSystems, 2007,4518 :444-457. ”通過(guò)計(jì)算XML文檔與khema之間的編輯距離對(duì)XML文檔進(jìn)行分類，這種方法假設(shè)屬于同一個(gè)類別的所有XML文檔具有共同的khema，并且該khema可以得到。事實(shí)上屬于同一類別的XML文檔很多情況下并不具有共同的khema，而且XML文檔的 Schema并非總是可以輕易獲得，雖然文中提出了一種從XML文檔中抽取khema的方法，但這需要額外的開(kāi)銷。由于基于編輯距離的方法忽略了文檔的內(nèi)容，因而并沒(méi)有利用關(guān)鍵字的語(yǔ)義信息。
傳統(tǒng)的基于信息檢索的方法將文檔表示為一個(gè)向量，向量的每個(gè)分量為該文檔中所包含的關(guān)鍵字在該文檔中的權(quán)重，然后任意兩個(gè)文檔之間的相似度可以轉(zhuǎn)換為計(jì)算兩個(gè) 向量的距離。關(guān)鍵為如何計(jì)算關(guān)鍵字的權(quán)重，使用最多的方法是tf-idf公式，這種方法僅僅利用文檔中的內(nèi)容信息，并未考慮到XML文檔中的結(jié)構(gòu)信息，因此不完全適用于XML文檔的相似度計(jì)算。針對(duì)XML文檔，也有方法對(duì)tf-idf方法進(jìn)行擴(kuò)展，同時(shí)利用XML文檔中的結(jié)構(gòu)和內(nèi)容信息，例如文獻(xiàn)“袁家政，須德，鮑泓.基于結(jié)構(gòu)與文本關(guān)鍵詞相關(guān)度的xml網(wǎng)頁(yè) 分類研究.計(jì)算機(jī)研究與發(fā)展，2006，43 (8) :1361-1367. ”在計(jì)算關(guān)鍵字的權(quán)重時(shí)考慮了關(guān) 鍵字出現(xiàn)在不同樹節(jié)點(diǎn)的位置以及位置的權(quán)重，但僅僅考慮關(guān)鍵字在不同樹節(jié)點(diǎn)的位置和位置權(quán)重還未能完全利用包含在其中的語(yǔ)義信息，比如還可以考慮包含關(guān)鍵字的路徑的層次，包含路徑的文檔數(shù)以及同時(shí)包含路徑和關(guān)鍵字的文檔數(shù)等信息。
文獻(xiàn)"Zaki MJ, Aggarwal CC. XRules :an effective structural classifier for XML data. In :Getoor L，Senator TE, domingos P，F(xiàn)aloutsos C，eds. Proc. of the ninth ACM SIGKDDinternational conference on Knowledge discovery and data mining. Washington, D. C. :ACM，2003. 316-325. ”提出了一種基于規(guī)則的分類方法，首先從XML文檔中挖掘頻繁子樹，然后利用這些頻繁子樹生成規(guī)則進(jìn)行分類。這種方法假設(shè) 屬于同一類別的文檔具有相同的子結(jié)構(gòu)，事實(shí)上在很多情況下這個(gè)假設(shè)并不成立。文獻(xiàn) “Theobald M，Schenkel R，Weikum Gerhard. Exploiting Structure，Annotation，and OntologicalKnowledge for Automatic Classification of XML Data. In Christophides V，F(xiàn)reire J，eds. Proc. ofthe WebDB Workshop. San Diego, California :ACM，2003.1-6. ” 除了使用關(guān)鍵字作為特征外，還使用小枝(Twigs)和標(biāo)簽路徑(Tag Paths)作為結(jié)構(gòu)特征來(lái)構(gòu)造特征空間，然后利用本體論和互信息來(lái)確定與某一個(gè)類別最相關(guān)的m個(gè)特征，然后根據(jù)這些類相關(guān)的特征來(lái)構(gòu)造分類器。由于這種方法預(yù)先限制結(jié)構(gòu)特征中只包含兩層結(jié)構(gòu)，在一定程度上破壞了 XML的多層結(jié)構(gòu)。文獻(xiàn)“mi Jff, Tang J. A bottom-up approach for XMLdocuments classification. In :Desai BC, ed.Proc. of the 12th International DatabaseEngineering and Applications Symposium. Coimbra,Portugal ACM, 2008. 131-137. ”利用支持度和互信息的概念從文檔中抽取與某一個(gè)特定類別相關(guān)的關(guān)鍵字，稱為KeyTerm，然后找到包含這些Key Term的路徑，稱為Key Path，該類別的所有 Key Path就構(gòu)成了該類別的一個(gè)分類Model，然后通過(guò)計(jì)算XML文檔與各個(gè)類別的Model 之間的距離來(lái)對(duì)文檔進(jìn)行分類。作者同樣利用了一個(gè)假設(shè)，即屬于同一類別的XML文檔的 Schema是相似的，雖然并不要求khema —定能夠得到，但這個(gè)假設(shè)仍然在一定程度上限制了其應(yīng)用的靈活性。發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)未充分考慮XML文檔中關(guān)鍵字語(yǔ)義信息或者依賴于文檔 khema的不足，本發(fā)明提供一種基于關(guān)鍵字語(yǔ)義信息的XML文檔相似度度量方法，將XML文檔表示為由關(guān)鍵字權(quán)重組成的向量，XML文檔之間的相似度計(jì)算就可以轉(zhuǎn)換為計(jì)算兩個(gè)向量之間的距離問(wèn)題，計(jì)算過(guò)程中不需要得到XML文檔的khema。本發(fā)明同時(shí)利用了 XML文檔中包含的結(jié)構(gòu)信息和內(nèi)容信息，較為充分地考慮包含在文檔中的關(guān)鍵字的語(yǔ)義信息，比如關(guān)鍵字在不同路徑中出現(xiàn)的次數(shù)，路徑的深度，路徑本身的分類能力，包含路徑的文檔個(gè) 數(shù)，同時(shí)包含某一路徑和關(guān)鍵字的文檔個(gè)數(shù)等計(jì)算關(guān)鍵字的權(quán)重，并據(jù)此度量文檔之間的相似度。如果將利用這種方法度量的文檔之間相似度用于XML文檔的分類時(shí)，可以提高分類的準(zhǔn)確率。
對(duì)于給定的XML文檔集D，其中的第i個(gè)文檔表示為屯，設(shè)D中的文檔分屬于|C| 個(gè)類別，C表示所有類別的集合，Ci表示文檔集D中所有屬于第i個(gè)類別的文檔組成的集合。則為了計(jì)算文檔之間的相似度，本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案包括以下步驟
1.解析文檔集中所有的XML文檔，將每一個(gè)XML文檔分解為結(jié)構(gòu)信息和內(nèi)容信息。
2.從內(nèi)容信息中抽取關(guān)鍵字特征，構(gòu)造關(guān)鍵字特征空間。
3.從結(jié)構(gòu)信息中抽取所有的路徑，構(gòu)造路徑字典。
4.統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在每個(gè)文檔的任意路徑pat、中出現(xiàn)的頻率tfi (tk,pathj)，同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)(Ifai^pathj)以及包含該關(guān)鍵字特征的文檔個(gè)數(shù)df(tk)，并根據(jù)df(tk)進(jìn)行關(guān)鍵字特征篩選。
5.計(jì)算路徑字典中每條路徑Pathj的深度pi (Pathj)，數(shù)據(jù)集中包含該路徑的文檔數(shù)Clf(Pathj)及其權(quán)重wpathj，其中權(quán)重利用信息論中信息增益的概念進(jìn)行計(jì)算。
6.根據(jù)第4，5步得到的信息，利用下式計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk 在文檔Cli中的權(quán)重wik，然后將文檔表示為由關(guān)鍵字特征權(quán)重組成的向量。
權(quán)利要求
1. 一種用于XML文檔分類的語(yǔ)義相似度度量方法，其特征在于對(duì)于給定的XML文檔集D，其中的第i個(gè)文檔表示為d”設(shè)D中的文檔分屬于|C|個(gè)類別，C表示所有類別的集合，Ci表示文檔集D中所有屬于第i個(gè)類別的文檔組成的集合，則為了計(jì)算文檔之間的相似度，包括以下步驟a.解析文檔集中所有的XML文檔，將每一個(gè)XML文檔分解為結(jié)構(gòu)信息和內(nèi)容信息；b.從內(nèi)容信息中抽取關(guān)鍵字特征，構(gòu)造關(guān)鍵字特征空間；c.從結(jié)構(gòu)信息中抽取所有的路徑，構(gòu)造路徑字典；d.統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在每個(gè)文檔的任意路徑中出現(xiàn)的頻率tfi (tk,pathj)，同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)df(tk，path」)以及包含該關(guān) 鍵字特征的文檔個(gè)數(shù)df(tk)，并根據(jù)df(tk)進(jìn)行關(guān)鍵字特征篩選；e.計(jì)算路徑字典中每條路徑Pathj的深度Pl(Pathj),數(shù)據(jù)集中包含該路徑的文檔數(shù) df(pathj)及其權(quán)重wpathj，其中權(quán)重利用信息論中信息增益的概念進(jìn)行計(jì)算；f.根據(jù)第d，e步得到的信息，利用下式計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征tk在文檔Cli中的權(quán)重wik，然后將文檔表示為由關(guān)鍵字特征權(quán)重組成的向量；
全文摘要
本發(fā)明公開(kāi)了一種用于XML文檔分類的語(yǔ)義相似度度量方法，依次將每個(gè)文檔分解為結(jié)構(gòu)信息和內(nèi)容信息；從內(nèi)容信息中抽取關(guān)鍵字特征，構(gòu)造關(guān)鍵字特征空間；從結(jié)構(gòu)信息中抽取所有的路徑，構(gòu)造路徑字典；統(tǒng)計(jì)關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征在每個(gè)文檔的任意路徑中出現(xiàn)的頻率，同時(shí)包含該關(guān)鍵字特征和路徑的文檔個(gè)數(shù)以及包含該關(guān)鍵字特征的文檔個(gè)數(shù)等信息，計(jì)算關(guān)鍵字特征空間中每個(gè)關(guān)鍵字特征在文檔中的權(quán)重；根據(jù)余弦度量計(jì)算任意兩個(gè)文檔之間的相似度。本發(fā)明應(yīng)用于XML文檔的分類，可以提高準(zhǔn)確率。
文檔編號(hào)G06F17/27GK102033867SQ201010590689
公開(kāi)日2011年4月27日申請(qǐng)日期2010年12月14日優(yōu)先權(quán)日2010年12月14日
發(fā)明者婁穎, 崔海文, 張利軍, 李戰(zhàn)懷, 李霞, 陳群申請(qǐng)人:西北工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張利軍;陳群;李戰(zhàn)懷;婁穎;李霞;崔海文
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義相似度相關(guān)技術(shù)

語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

語(yǔ)義相似度算法相關(guān)技術(shù)

文本語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

語(yǔ)義相似性相關(guān)技術(shù)

句子語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

知網(wǎng)語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于xml文檔分類的語(yǔ)義相似度度量方法