一種文檔語(yǔ)義相似度計(jì)算方法

文檔序號(hào)：6620882閱讀：280來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文檔語(yǔ)義相似度計(jì)算方法
【專利摘要】本發(fā)明提出了一種文檔語(yǔ)義相似度計(jì)算方法，減小了文檔檢索工作量，提高了工作效率，其采用設(shè)定閾值的方法，分區(qū)間計(jì)算相似度，具體包括以下步驟：A、構(gòu)建一套或多套本體庫(kù)；通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù)，本體庫(kù)中，概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù)，概念樹(shù)構(gòu)成概念森林；B、計(jì)算語(yǔ)義相似度；利用tf-idf算法計(jì)算查詢對(duì)象vQuerym與文檔vDocm之間的語(yǔ)義相似度，計(jì)算公式為tf為查詢對(duì)象在文檔中出現(xiàn)的次數(shù)，idf為查詢對(duì)象普遍重要性的度量，sim(cmi,cnj)為概念cmi，cnj之間的語(yǔ)義相似度，計(jì)算公式如下d為兩個(gè)概念在概念樹(shù)中的距離；c為隨系統(tǒng)自動(dòng)調(diào)節(jié)參數(shù)；p為本體中預(yù)定義的cmi，cnj之間的關(guān)聯(lián)程度，默認(rèn)值為1。
【專利說(shuō)明】一種文檔語(yǔ)義相似度計(jì)算方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及面向文檔的智能信息檢索【技術(shù)領(lǐng)域】，尤其涉及一種文檔語(yǔ)義相似度計(jì)算方法。

【背景技術(shù)】
[0002]語(yǔ)義計(jì)算是一種在用戶和計(jì)算機(jī)共享的涵義和詞匯的基礎(chǔ)上編寫(xiě)信息內(nèi)容，目標(biāo)是通過(guò)這種涵義上的共享，填充語(yǔ)義鴻溝，使用戶和計(jì)算機(jī)能夠更緊密地合作，將信息系統(tǒng)建立在人們現(xiàn)實(shí)生活的基礎(chǔ)上，從而豐富整個(gè)現(xiàn)實(shí)世界的涵義和價(jià)值。
[0003]基于關(guān)鍵字匹配的搜索引擎在判斷查詢與文檔之間是否匹配是通過(guò)關(guān)鍵字的字面匹配，是二值邏輯；而基于語(yǔ)義搜索引擎理論上絕大部分文檔都與被查詢概念之間有一個(gè)非O相似度值，從對(duì)語(yǔ)義相似度的定義上可以發(fā)現(xiàn)，這種現(xiàn)象的存在是由于詞語(yǔ)相似度矩陣中大部分詞語(yǔ)之間有非零的相似度。這將對(duì)系統(tǒng)的存儲(chǔ)能力帶來(lái)巨大挑戰(zhàn)，這也是一些語(yǔ)義計(jì)算方法不能大規(guī)模系統(tǒng)中應(yīng)用的一個(gè)重要原因。
[0004]因此，相似度矩陣中的較小的相似度值，既沒(méi)有多大意義，又對(duì)系統(tǒng)帶來(lái)巨大的負(fù)擔(dān)，需要相似的矩陣中的數(shù)據(jù)進(jìn)行篩選。篩選的原則是刪除值比較小的相似度值，只保留部分較大的相似度值。

【發(fā)明內(nèi)容】

[0005]基于【背景技術(shù)】提出的問(wèn)題，本發(fā)明提出了一種文檔語(yǔ)義相似度計(jì)算方法，減小了文檔檢索工作量，提高了工作效率。
[0006]本發(fā)明提出的一種文檔語(yǔ)義相似度計(jì)算方法，采用設(shè)定閾值的方法，分區(qū)間計(jì)算相似度，具體包括以下步驟:
[0007]A、構(gòu)建一套或多套本體庫(kù)；通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù)，本體庫(kù)中，概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù)，概念樹(shù)構(gòu)成概念森林；
[0008]B、計(jì)算語(yǔ)義相似度；利用tf-1df算法計(jì)算查詢對(duì)象VQuerym與文檔vDocm之間的語(yǔ)義相似度，計(jì)算公式為，

【權(quán)利要求】
1.一種文檔語(yǔ)義相似度計(jì)算方法，其特征在于，采用設(shè)定閾值的方法，分區(qū)間計(jì)算相似度，具體包括以下步驟: A、構(gòu)建一套或多套本體庫(kù)；通過(guò)輸入概念體系和主要描述詞語(yǔ)構(gòu)成本體庫(kù),本體庫(kù)中，概念之間根據(jù)關(guān)聯(lián)程度構(gòu)成概念樹(shù)，概念樹(shù)構(gòu)成概念森林； B、計(jì)算語(yǔ)義相似度；利用tf-1df算法計(jì)算查詢對(duì)象VQuerym與文檔vDocm之間的語(yǔ)義相似度，計(jì)算公式為，
tf為查詢對(duì)象在文檔中出現(xiàn)的次數(shù)，idf為查詢對(duì)象普遍重要性的度量， sim(cffli, cnJ)為概念cmi，cnJ之間的語(yǔ)義相似度，計(jì)算公式如下，
d為兩個(gè)概念在概念樹(shù)中的距離；c為隨系統(tǒng)自動(dòng)調(diào)節(jié)參數(shù)；P為本體中預(yù)定義的cmi，Cnj之間的關(guān)聯(lián)程度，默認(rèn)值為I ; C、設(shè)定閾值，計(jì)算概念相似度；選擇閾值δ，0<δ < 1，重新改寫(xiě)概念相似度并記為S，則，
sim 為 sim(cmi, cnJ)簡(jiǎn)寫(xiě)； D、語(yǔ)義相似度計(jì)算公式變形；將概念相似度S代入tf-1df算法，得到語(yǔ)義相似度計(jì)算公式，
s(cmi, cnJ)為的Cmi, Cnj的概念相似度S,詞語(yǔ)Cmi屬于VQuerym, SETi為與Cmi相似度大于O的詞語(yǔ)集合。
2.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，步驟A中構(gòu)建兩套本體，第一套為通用詞匯構(gòu)成的本體庫(kù)，第二套為企業(yè)根據(jù)自己的行業(yè)構(gòu)建的專用本體庫(kù)。
3.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，概念之間的關(guān)聯(lián)程度自動(dòng)設(shè)置。
4.如權(quán)利要求3所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，利用關(guān)聯(lián)統(tǒng)計(jì)數(shù)據(jù)挖掘算法從指定文檔庫(kù)計(jì)算概念之間的關(guān)聯(lián)程度。
5.如權(quán)利要求4所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，指定文檔庫(kù)為互聯(lián)網(wǎng)網(wǎng)站和/或本地文檔庫(kù)。
6.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，概念之間的關(guān)聯(lián)程度可手動(dòng)設(shè)置。
7.如權(quán)利要求1所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，0.2< δ <1。
8.如權(quán)利要求7所述的文檔語(yǔ)義相似度計(jì)算方法，其特征在于，δ=0.7。
【文檔編號(hào)】G06F17/30GK104182468SQ201410348547
【公開(kāi)日】2014年12月3日申請(qǐng)日期:2014年7月21日優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】賈巖申請(qǐng)人:安徽華貞信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈巖
技術(shù)所有人：安徽華貞信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義相似度計(jì)算方法相關(guān)技術(shù)

語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

文本語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

句子語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

知網(wǎng)語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

詞語(yǔ)語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文檔語(yǔ)義相似度計(jì)算方法