一種文檔語(yǔ)義相似度計(jì)算方法
【專利摘要】本發(fā)明提出了一種文檔語(yǔ)義相似度計(jì)算方法,減小了文檔檢索工作量,提高了工作效率,其采用設(shè)定閾值的方法,分區(qū)間計(jì)算相似度,具體包括以下步驟:A、構(gòu)建一套或多套本體庫(kù);通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù),本體庫(kù)中,概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù),概念樹(shù)構(gòu)成概念森林;B、計(jì)算語(yǔ)義相似度;利用tf-idf算法計(jì)算查詢對(duì)象vQuerym與文檔vDocm之間的語(yǔ)義相似度,計(jì)算公式為tf為查詢對(duì)象在文檔中出現(xiàn)的次數(shù),idf為查詢對(duì)象普遍重要性的度量,sim(cmi,cnj)為概念cmi,cnj之間的語(yǔ)義相似度,計(jì)算公式如下d為兩個(gè)概念在概念樹(shù)中的距離;c為隨系統(tǒng)自動(dòng)調(diào)節(jié)參數(shù);p為本體中預(yù)定義的cmi,cnj之間的關(guān)聯(lián)程度,默認(rèn)值為1。
【專利說(shuō)明】一種文檔語(yǔ)義相似度計(jì)算方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及面向文檔的智能信息檢索【技術(shù)領(lǐng)域】,尤其涉及一種文檔語(yǔ)義相似度計(jì)算方法。
【背景技術(shù)】
[0002]語(yǔ)義計(jì)算是一種在用戶和計(jì)算機(jī)共享的涵義和詞匯的基礎(chǔ)上編寫(xiě)信息內(nèi)容,目標(biāo)是通過(guò)這種涵義上的共享,填充語(yǔ)義鴻溝,使用戶和計(jì)算機(jī)能夠更緊密地合作,將信息系統(tǒng)建立在人們現(xiàn)實(shí)生活的基礎(chǔ)上,從而豐富整個(gè)現(xiàn)實(shí)世界的涵義和價(jià)值。
[0003]基于關(guān)鍵字匹配的搜索引擎在判斷查詢與文檔之間是否匹配是通過(guò)關(guān)鍵字的字面匹配,是二值邏輯;而基于語(yǔ)義搜索引擎理論上絕大部分文檔都與被查詢概念之間有一個(gè)非O相似度值,從對(duì)語(yǔ)義相似度的定義上可以發(fā)現(xiàn),這種現(xiàn)象的存在是由于詞語(yǔ)相似度矩陣中大部分詞語(yǔ)之間有非零的相似度。這將對(duì)系統(tǒng)的存儲(chǔ)能力帶來(lái)巨大挑戰(zhàn),這也是一些語(yǔ)義計(jì)算方法不能大規(guī)模系統(tǒng)中應(yīng)用的一個(gè)重要原因。
[0004]因此,相似度矩陣中的較小的相似度值,既沒(méi)有多大意義,又對(duì)系統(tǒng)帶來(lái)巨大的負(fù)擔(dān),需要相似的矩陣中的數(shù)據(jù)進(jìn)行篩選。篩選的原則是刪除值比較小的相似度值,只保留部分較大的相似度值。
【發(fā)明內(nèi)容】
[0005]基于【背景技術(shù)】提出的問(wèn)題,本發(fā)明提出了一種文檔語(yǔ)義相似度計(jì)算方法,減小了文檔檢索工作量,提高了工作效率。
[0006]本發(fā)明提出的一種文檔語(yǔ)義相似度計(jì)算方法,采用設(shè)定閾值的方法,分區(qū)間計(jì)算相似度,具體包括以下步驟:
[0007]A、構(gòu)建一套或多套本體庫(kù);通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù),本體庫(kù)中,概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù),概念樹(shù)構(gòu)成概念森林;
[0008]B、計(jì)算語(yǔ)義相似度;利用tf-1df算法計(jì)算查詢對(duì)象VQuerym與文檔vDocm之間的語(yǔ)義相似度,計(jì)算公式為,
【權(quán)利要求】
1.一種文檔語(yǔ)義相似度計(jì)算方法,其特征在于,采用設(shè)定閾值的方法,分區(qū)間計(jì)算相似度,具體包括以下步驟: A、構(gòu)建一套或多套本體庫(kù);通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù),本體庫(kù)中,概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù),概念樹(shù)構(gòu)成概念森林; B、計(jì)算語(yǔ)義相似度;利用tf-1df算法計(jì)算查詢對(duì)象VQuerym與文檔vDocm之間的語(yǔ)義相似度,計(jì)算公式為,
tf為查詢對(duì)象在文檔中出現(xiàn)的次數(shù),idf為查詢對(duì)象普遍重要性的度量, sim(cffli, cnJ)為概念cmi,cnJ之間的語(yǔ)義相似度,計(jì)算公式如下,
d為兩個(gè)概念在概念樹(shù)中的距離;c為隨系統(tǒng)自動(dòng)調(diào)節(jié)參數(shù);P為本體中預(yù)定義的cmi,Cnj之間的關(guān)聯(lián)程度,默認(rèn)值為I ; C、設(shè)定閾值,計(jì)算概念相似度;選擇閾值δ,0<δ < 1,重新改寫(xiě)概念相似度并記為S,則,
sim 為 sim(cmi, cnJ)簡(jiǎn)寫(xiě); D、語(yǔ)義相似度計(jì)算公式變形;將概念相似度S代入tf-1df算法,得到語(yǔ)義相似度計(jì)算公式,
s(cmi, cnJ)為的Cmi, Cnj的概念相似度S,詞語(yǔ)Cmi屬于VQuerym, SETi為與Cmi相似度大于O的詞語(yǔ)集合。
2.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,步驟A中構(gòu)建兩套本體,第一套為通用詞匯構(gòu)成的本體庫(kù),第二套為企業(yè)根據(jù)自己的行業(yè)構(gòu)建的專用本體庫(kù)。
3.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,概念之間的關(guān)聯(lián)程度自動(dòng)設(shè)置。
4.如權(quán)利要求3所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,利用關(guān)聯(lián)統(tǒng)計(jì)數(shù)據(jù)挖掘算法從指定文檔庫(kù)計(jì)算概念之間的關(guān)聯(lián)程度。
5.如權(quán)利要求4所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,指定文檔庫(kù)為互聯(lián)網(wǎng)網(wǎng)站和/或本地文檔庫(kù)。
6.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,概念之間的關(guān)聯(lián)程度可手動(dòng)設(shè)置。
7.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,0.2< δ <1。
8.如權(quán)利要求7所述的文檔語(yǔ)義相似度計(jì)算方法,其特征在于,δ=0.7。
【文檔編號(hào)】G06F17/30GK104182468SQ201410348547
【公開(kāi)日】2014年12月3日 申請(qǐng)日期:2014年7月21日 優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司