文本語義的可視化表示與獲取方法

文檔序號：6572451閱讀：729來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：文本語義的可視化表示與獲取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種計算機(jī)自動生成文本語義的表示與獲取方法，更具體地說，涉及一種基于語義矩陣的文本語義的可視化表示與獲取方法。
背景技術(shù)：
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展，在今天我們可以很容易地通過電子和網(wǎng)絡(luò)媒體獲得數(shù)量巨大而且涉及各個領(lǐng)域的信息資源，即所謂的信息爆炸(Information Explosion)問題已經(jīng)對迅速有效地組織和索引信息資源以及信息檢索技術(shù)產(chǎn)生了迫切的需求。信息非結(jié)構(gòu)化、信息種類多樣化、文檔內(nèi)容涵蓋范圍廣泛等因素對信息組織和檢索提出了巨大的挑戰(zhàn)。例如，Web已經(jīng)成為科學(xué)研究、教育學(xué)習(xí)等領(lǐng)域最重要的信息源和知識庫；但Web信息的指數(shù)級增長速度同時也為用戶有效的利用帶來了巨大的難度。近年來廣泛得到建設(shè)的數(shù)字圖書館是另外一個重要的海量信息源。數(shù)字圖書館是保存大量結(jié)構(gòu)化信息的數(shù)字化資源庫，這些數(shù)字資源的生成者可能是傳統(tǒng)的圖書館、博物館、檔案館、大學(xué)、政府部門、專業(yè)組織或個人，其目標(biāo)是讓所有的人在任何時間、任何地點(diǎn)可以用任何連接互聯(lián)網(wǎng)的數(shù)字設(shè)備來訪問人類所有的知識。以一本書300頁、每頁1500個字符計算，百萬冊數(shù)字圖書的文本信息共9006，再加上相關(guān)的元數(shù)據(jù)描述，XML文檔總的數(shù)據(jù)量超過IT，同時數(shù)字圖書館中還含有大量用于教學(xué)、科研和娛樂的視頻和音頻等多媒體資源。通過搜索引擎、瀏覽器等軟件和服務(wù)設(shè)施，用戶可以訪問Web或數(shù)字圖書館的信息和資源，但是用戶往往需要的是更為精細(xì)、更符合需求的知識而不是成堆的信息，例如用戶要求能同時獲得表達(dá)同一主題的不同媒體形態(tài)的信息(例如文本形式的網(wǎng)頁和電子書、圖像和文本共存形式的演示文檔、視音頻形式的多媒體資料等)。因此為滿足用戶多樣化、個性化、具有多種媒體形態(tài)的信息和知識服務(wù)需求，基于Web的信息服務(wù)系統(tǒng)(例如網(wǎng)絡(luò)教育資源管理系統(tǒng))以及數(shù)字圖書館的內(nèi)容管理和訪問系統(tǒng)必須具有能對這些半結(jié)構(gòu)化的信息或數(shù)據(jù)進(jìn)行有效的語義提取及相關(guān)的分析處理功能。
本發(fā)明涉及對文本數(shù)據(jù)資源進(jìn)行語義提取，可以是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等，這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成，但數(shù)據(jù)對象同時也具有內(nèi)部結(jié)構(gòu)?，F(xiàn)有的方法對這類數(shù)據(jù)的分類存在著如下一些缺點(diǎn)或不足(1)語義提取過程中多利用純統(tǒng)計的方法，而利用的語義信息少。語義信息對于檢索系統(tǒng)的準(zhǔn)確度以及用戶需求都有重要的意義；(2)統(tǒng)計方法的重要假設(shè)是所有數(shù)據(jù)都是具有相同結(jié)構(gòu)的實(shí)體，數(shù)據(jù)之間是獨(dú)立且同分布的(Independent and identically distributed)。然而，許多現(xiàn)實(shí)數(shù)據(jù)集本身具有復(fù)雜的內(nèi)部結(jié)構(gòu)。例如我們可以用傳統(tǒng)的文本挖掘方法來進(jìn)行超文本的主題提取和分類，即將每個文檔用關(guān)鍵字或術(shù)語向量來進(jìn)行描述，在此基礎(chǔ)上對每個網(wǎng)頁進(jìn)行獨(dú)立的分類。這種統(tǒng)計方法完全忽略了文檔的內(nèi)部結(jié)構(gòu)。一般地，每個文檔內(nèi)部也具有節(jié)、段等結(jié)構(gòu)。因此，在對這種半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行處理的過程中，我們不能忽略數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)。
為解決上述兩個問題，我們需要有新的模型和方法來利用文本的內(nèi)部結(jié)構(gòu)來對半結(jié)構(gòu)關(guān)系數(shù)據(jù)進(jìn)行有效的語義提取和分析。本發(fā)明即給出這樣一種文本語義表示與獲取方法，其核心是從文本的內(nèi)部結(jié)構(gòu)來建模文本語義的上下文依賴關(guān)系，在基于矩陣運(yùn)算的推理規(guī)則(模糊認(rèn)知圖)的基礎(chǔ)上構(gòu)造文本語義表示模型并加以可視化。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對已有技術(shù)存在的問題，提供一種文本語義的可視化表示與獲取方法，這種方法能利用文本數(shù)據(jù)之間的內(nèi)部結(jié)構(gòu)進(jìn)行更有效地語義提取。這種方法能直接應(yīng)用在不同的半結(jié)構(gòu)化數(shù)據(jù)資源。本發(fā)明的文本數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等，這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成，但數(shù)據(jù)對象同時具有復(fù)雜的內(nèi)部結(jié)構(gòu)。
為實(shí)現(xiàn)上述目的，本發(fā)明的構(gòu)思是用語義矩陣及其圖形可視化來建模這些半結(jié)構(gòu)化數(shù)據(jù)的內(nèi)部多層語義結(jié)構(gòu)。本發(fā)明的語義矩陣及其圖形可視化可以用于建模具有復(fù)雜內(nèi)在結(jié)構(gòu)的半結(jié)構(gòu)化數(shù)據(jù)對象，從而能有效地刻畫數(shù)據(jù)對象內(nèi)部結(jié)點(diǎn)間上下文主題相關(guān)關(guān)系。
根據(jù)上述的發(fā)明構(gòu)思，本發(fā)明采用下述技術(shù)方案一種文本語義的可視化表示與獲取方法，其特征在于將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義；通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣，再通過文本主題的鏈接形成文本篇章語義；具體操作步驟如下(1)將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義，其中用TF-IDF公式提取出關(guān)鍵詞，再把下載的文本按照其內(nèi)部結(jié)構(gòu)分成若干段落，(如自然段落)，用一個XML的標(biāo)簽表示一個文本段落的標(biāo)題，一個段落代表一個文本主題，用一個XML文件儲存一篇文本中的所有段落，一個XML文件代表一個文本篇章；(2)計算一個文本段落中的關(guān)鍵詞的狀態(tài)值和關(guān)鍵詞之間的權(quán)重在每個文本段落內(nèi)，統(tǒng)計關(guān)鍵詞出現(xiàn)的頻率，再計算關(guān)鍵詞的狀態(tài)值，以及關(guān)鍵詞之間的權(quán)重；(3)用關(guān)鍵詞的狀態(tài)值、關(guān)鍵詞之間的權(quán)重和基于矩陣相乘運(yùn)算的推理規(guī)則，計算各個關(guān)鍵詞對文本主題的權(quán)重，歸一化文本主題中的所有權(quán)重在區(qū)間
之間，生成文本主題的語義矩陣；(4)用一個文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱；(5)找出文本主題之間共同的關(guān)鍵詞，根據(jù)共同出現(xiàn)的關(guān)鍵詞對各自文本主題的權(quán)重，計算文本篇章中文本主題之間的權(quán)重，并鏈接文本主題為文本篇章，并用有向圖可視化文本篇章歸一化文本篇章中的所有權(quán)重在區(qū)間
之間，通過把文本主題語義和其生成的文本篇章語義表示為結(jié)點(diǎn)和有向邊構(gòu)成的有向圖，實(shí)現(xiàn)文本篇章語義的圖形可視化；(6)在文本篇章語義的可視化圖形中枝剪各個文本主題所獨(dú)有的關(guān)鍵詞。本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下突出的實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)(1)本發(fā)明能有效地利用各種上下文依賴關(guān)系(包括數(shù)據(jù)對象內(nèi)部的同一粒度結(jié)構(gòu)上下文和粒度間上下文)進(jìn)行更有效的語義提取，從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取的準(zhǔn)確率。
(2)本發(fā)明提供的方法，通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點(diǎn)的多層描述，通過建模結(jié)點(diǎn)間的上下文結(jié)構(gòu)來刻畫結(jié)點(diǎn)間的文本主題相關(guān)關(guān)系。
(3)本發(fā)明提供的方法，用權(quán)重來度量關(guān)鍵詞之間、關(guān)鍵詞對文本主題之間、以及文本主題之間的相關(guān)程度。
(4)本發(fā)明的方法中，生成語義矩陣所用的推理規(guī)則就是模糊認(rèn)知圖(FuzzyCognitive Maps)的推理規(guī)則。
本發(fā)明可以分層次、簡捷高效地獲取和表示文本的語義，便于計算機(jī)掌握和進(jìn)行理解處理。

圖1是一個包含4個關(guān)鍵詞的文本主題的語義矩陣及其圖形可視化。
圖2是文本段落“基于模糊認(rèn)知圖的文本表示”構(gòu)成的文本主題的語義矩陣及其可視化圖形。
圖3是文本段落“模糊認(rèn)知圖”構(gòu)成的可視化圖形。
圖4是文本段落“模糊認(rèn)知圖的自動構(gòu)建”構(gòu)成的可視化圖形。
圖5是鏈接三個文本主題生成的文本篇章的可視化圖形。
圖6是枝剪后的文本篇章的可視化圖形。
圖7是計算文本主題之間的權(quán)重時，反轉(zhuǎn)關(guān)鍵詞對文本主題的權(quán)重的方向。
具體實(shí)施例方式本發(fā)明的一個優(yōu)選實(shí)施例結(jié)合附圖詳述如下如有四個關(guān)鍵詞C1，C2，C3，C4，它們的文本主題的語義矩陣，及其文本主題的可視化圖形如圖1所示。
文本語義的可視化表示與獲取方法的具體步驟和如下(1)將一篇文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義；(2)計算關(guān)鍵詞的狀態(tài)值VCi和關(guān)鍵詞之間的權(quán)重wij；(3)用關(guān)鍵詞的狀態(tài)值VCi和關(guān)鍵詞之間的權(quán)重wij，經(jīng)一次矩陣運(yùn)算的推理，得到各個關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重VCj，并將所有值歸一化，生成一個文本主題的語義矩陣E；(4)用文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱；這兒wij表示第i個關(guān)鍵詞Ci與第j個關(guān)鍵詞Cj之間的權(quán)重，用wij=Σk=1mbk/m]]>計算，這兒本段落共有m個句子，若關(guān)鍵詞Ci和Cj共現(xiàn)第k個句子中，則bk＝1，否則bk＝0；這兒第i個關(guān)鍵詞Ci在文本中的狀態(tài)值用VCi=tanh(xi)]]>計算，xi表示第i個關(guān)鍵詞在文本出現(xiàn)的頻率；這兒關(guān)鍵詞Ci對主題結(jié)點(diǎn)的權(quán)重由推理公式
VCj(t+1)=f(Σi=1i&NotEqual;jNVCi(t)wij)]]>經(jīng)一次推理計算得到，這兒f()表示對所有關(guān)鍵詞權(quán)重的歸一化函數(shù)(這里采用求算術(shù)和的歸一化方法)，本段落包含N個關(guān)鍵詞，VCi表示第i個關(guān)鍵詞Ci在文本中的狀態(tài)值，wij表示第i個關(guān)鍵詞Ci與第j個關(guān)鍵詞Cj之間的權(quán)重，所有關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重構(gòu)成文本主題的語義矩陣E中的第j列；例如，一篇文本有三個文本段落，標(biāo)題分別為基于模糊認(rèn)知圖的文本表示(FCM-based document representation)、模糊認(rèn)知圖(Fuzzy Cognitive Maps，F(xiàn)CM)和模糊認(rèn)知圖的自動構(gòu)建(FCM’s automatic construction)，它們的文本主題的語義矩陣及其圖形可視化圖形分別如圖2，圖3和圖4所示。
在圖2中，文本段落包含關(guān)鍵詞C1(模糊認(rèn)知圖)，C2(語義)，C3(表示)，C4(推理)，C5(因果)，C6(關(guān)鍵詞)，C7(模板)，C18(文本)，以及主題結(jié)點(diǎn)C00(基于模糊認(rèn)知圖的文本表示)，其圖形可視化如圖3(a)所示，文本主題的語義矩陣如圖3(b)所示；在圖3中，文本段落包含關(guān)鍵詞C4(推理)，C5(因果)，C15(關(guān)系)，C17(概念)，C33(圖形)，以及主題結(jié)點(diǎn)C10(模糊認(rèn)知圖)；在圖4中，文本段落包含關(guān)鍵詞C1(模糊認(rèn)知圖)，C4(推理)，C5(因果)，C6(關(guān)鍵詞)，C7(模板)，C16(自動構(gòu)建)，以及主題結(jié)點(diǎn)C80(模糊認(rèn)知圖的自動構(gòu)建)；(5)找出要鏈接的文本段落之間共同的關(guān)鍵詞Ck，根據(jù)共同的關(guān)鍵詞的權(quán)重wki和wkj，經(jīng)過反轉(zhuǎn)得到wjk，再計算主題結(jié)點(diǎn)之間的權(quán)重Tji，圖7是計算文本主題之間的權(quán)重時，共同關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重的方向的反轉(zhuǎn)過程，圖5為鏈接三個文本主題語義后的文本篇章語義的圖形可視化；這兒主題結(jié)點(diǎn)Cj0和Ci0之間的權(quán)重用公式Tji=tanh(2*Σk=1N1βkVCkwjkwki)]]>計算，主題結(jié)點(diǎn)之間有N1個共同的關(guān)鍵詞，βk表示第k個關(guān)鍵詞Ck的反轉(zhuǎn)系數(shù)，取值范圍
，也可由貝葉斯公式求出，VCk表示關(guān)鍵詞Ck的狀態(tài)值，wjk表示反轉(zhuǎn)后的關(guān)鍵詞Ck對主題結(jié)點(diǎn)Cj0的權(quán)重，wki表示關(guān)鍵詞Ck對主題結(jié)點(diǎn)Ci0的權(quán)重；(6)枝剪各個文本主題語義所獨(dú)有的關(guān)鍵詞，圖6是對三個文本主題語義所獨(dú)有的關(guān)鍵詞進(jìn)行枝剪后的文本篇章語義的可視化圖形。
權(quán)利要求
1.一種文本語義的可視化表示與獲取方法，其特征在于將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義；通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣，再通過文本主題的鏈接形成文本篇章語義。
2.根據(jù)權(quán)利要求1所述的文本語義的可視化表示與獲取方法，其特征在于操作步驟如下(1)將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義；(2)計算一個文本段落中的關(guān)鍵詞的狀態(tài)值和關(guān)鍵詞之間的權(quán)重；(3)用關(guān)鍵詞之間的權(quán)重、關(guān)鍵詞的狀態(tài)值和基于矩陣相乘運(yùn)算的推理規(guī)則，計算各個關(guān)鍵詞對文本主題的權(quán)重，生成文本主題的語義矩陣；(4)用文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱；(5)找出要鏈接的文本主題中共同的關(guān)鍵詞，根據(jù)共同出現(xiàn)的關(guān)鍵詞對各自文本主題的權(quán)重，計算各個文本主題之間的權(quán)重，鏈接各個文本主題為文本篇章，并用有向圖可視化文本篇章；(6)枝剪各個文本主題中所獨(dú)有的關(guān)鍵詞。
全文摘要
本發(fā)明涉及一種文本語義的可視化表示與獲取方法，它是將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義；通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣，再通過文本主題的鏈接形成文本篇章語義。本發(fā)明能有效地利用文本數(shù)據(jù)中的上下文依賴關(guān)系進(jìn)行更有效的語義提取，從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取的準(zhǔn)確率；通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點(diǎn)的多層描述，通過建模結(jié)點(diǎn)間的上下文結(jié)構(gòu)來刻畫結(jié)點(diǎn)間的主題相關(guān)關(guān)系；用權(quán)重來度量關(guān)鍵詞之間、關(guān)鍵詞對文本主題之間、以及文本主題之間的相關(guān)程度。該方法可以分層次、簡捷高效地獲取和表示文本的語義，便于計算機(jī)掌握和進(jìn)行理解處理。
文檔編號G06F17/30GK101067807SQ20071004114
公開日2007年11月7日申請日期2007年5月24日優(yōu)先權(quán)日2007年5月24日
發(fā)明者駱祥峰, 方寧, 徐煒民申請人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：駱祥峰;方寧;徐煒民
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

上一篇：一種氧離子-電子混合導(dǎo)體離子電導(dǎo)率的測量方法
上一篇：無進(jìn)位無借位n值運(yùn)算器的設(shè)計方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本語義分析相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

文本語義相似度計算相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

短文本語義相似度相關(guān)技術(shù)

文本語義相似度相關(guān)技術(shù)

短文本語義分析相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本語義的可視化表示與獲取方法