專利名稱:文本語義的可視化表示與獲取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機(jī)自動生成文本語義的表示與獲取方法,更具體地說,涉及一種基于語義矩陣的文本語義的可視化表示與獲取方法。
背景技術(shù):
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,在今天我們可以很容易地通過電子和網(wǎng)絡(luò)媒體獲得數(shù)量巨大而且涉及各個領(lǐng)域的信息資源,即所謂的信息爆炸(Information Explosion)問題已經(jīng)對迅速有效地組織和索引信息資源以及信息檢索技術(shù)產(chǎn)生了迫切的需求。信息非結(jié)構(gòu)化、信息種類多樣化、文檔內(nèi)容涵蓋范圍廣泛等因素對信息組織和檢索提出了巨大的挑戰(zhàn)。例如,Web已經(jīng)成為科學(xué)研究、教育學(xué)習(xí)等領(lǐng)域最重要的信息源和知識庫;但Web信息的指數(shù)級增長速度同時也為用戶有效的利用帶來了巨大的難度。近年來廣泛得到建設(shè)的數(shù)字圖書館是另外一個重要的海量信息源。數(shù)字圖書館是保存大量結(jié)構(gòu)化信息的數(shù)字化資源庫,這些數(shù)字資源的生成者可能是傳統(tǒng)的圖書館、博物館、檔案館、大學(xué)、政府部門、專業(yè)組織或個人,其目標(biāo)是讓所有的人在任何時間、任何地點(diǎn)可以用任何連接互聯(lián)網(wǎng)的數(shù)字設(shè)備來訪問人類所有的知識。以一本書300頁、每頁1500個字符計算,百萬冊數(shù)字圖書的文本信息共9006,再加上相關(guān)的元數(shù)據(jù)描述,XML文檔總的數(shù)據(jù)量超過IT,同時數(shù)字圖書館中還含有大量用于教學(xué)、科研和娛樂的視頻和音頻等多媒體資源。通過搜索引擎、瀏覽器等軟件和服務(wù)設(shè)施,用戶可以訪問Web或數(shù)字圖書館的信息和資源,但是用戶往往需要的是更為精細(xì)、更符合需求的知識而不是成堆的信息,例如用戶要求能同時獲得表達(dá)同一主題的不同媒體形態(tài)的信息(例如文本形式的網(wǎng)頁和電子書、圖像和文本共存形式的演示文檔、視音頻形式的多媒體資料等)。因此為滿足用戶多樣化、個性化、具有多種媒體形態(tài)的信息和知識服務(wù)需求,基于Web的信息服務(wù)系統(tǒng)(例如網(wǎng)絡(luò)教育資源管理系統(tǒng))以及數(shù)字圖書館的內(nèi)容管理和訪問系統(tǒng)必須具有能對這些半結(jié)構(gòu)化的信息或數(shù)據(jù)進(jìn)行有效的語義提取及相關(guān)的分析處理功能。
本發(fā)明涉及對文本數(shù)據(jù)資源進(jìn)行語義提取,可以是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等,這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成,但數(shù)據(jù)對象同時也具有內(nèi)部結(jié)構(gòu)?,F(xiàn)有的方法對這類數(shù)據(jù)的分類存在著如下一些缺點(diǎn)或不足(1)語義提取過程中多利用純統(tǒng)計的方法,而利用的語義信息少。語義信息對于檢索系統(tǒng)的準(zhǔn)確度以及用戶需求都有重要的意義;(2)統(tǒng)計方法的重要假設(shè)是所有數(shù)據(jù)都是具有相同結(jié)構(gòu)的實(shí)體,數(shù)據(jù)之間是獨(dú)立且同分布的(Independent and identically distributed)。然而,許多現(xiàn)實(shí)數(shù)據(jù)集本身具有復(fù)雜的內(nèi)部結(jié)構(gòu)。例如我們可以用傳統(tǒng)的文本挖掘方法來進(jìn)行超文本的主題提取和分類,即將每個文檔用關(guān)鍵字或術(shù)語向量來進(jìn)行描述,在此基礎(chǔ)上對每個網(wǎng)頁進(jìn)行獨(dú)立的分類。這種統(tǒng)計方法完全忽略了文檔的內(nèi)部結(jié)構(gòu)。一般地,每個文檔內(nèi)部也具有節(jié)、段等結(jié)構(gòu)。因此,在對這種半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行處理的過程中,我們不能忽略數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)。
為解決上述兩個問題,我們需要有新的模型和方法來利用文本的內(nèi)部結(jié)構(gòu)來對半結(jié)構(gòu)關(guān)系數(shù)據(jù)進(jìn)行有效的語義提取和分析。本發(fā)明即給出這樣一種文本語義表示與獲取方法,其核心是從文本的內(nèi)部結(jié)構(gòu)來建模文本語義的上下文依賴關(guān)系,在基于矩陣運(yùn)算的推理規(guī)則(模糊認(rèn)知圖)的基礎(chǔ)上構(gòu)造文本語義表示模型并加以可視化。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對已有技術(shù)存在的問題,提供一種文本語義的可視化表示與獲取方法,這種方法能利用文本數(shù)據(jù)之間的內(nèi)部結(jié)構(gòu)進(jìn)行更有效地語義提取。這種方法能直接應(yīng)用在不同的半結(jié)構(gòu)化數(shù)據(jù)資源。本發(fā)明的文本數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等,這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成,但數(shù)據(jù)對象同時具有復(fù)雜的內(nèi)部結(jié)構(gòu)。
為實(shí)現(xiàn)上述目的,本發(fā)明的構(gòu)思是用語義矩陣及其圖形可視化來建模這些半結(jié)構(gòu)化數(shù)據(jù)的內(nèi)部多層語義結(jié)構(gòu)。本發(fā)明的語義矩陣及其圖形可視化可以用于建模具有復(fù)雜內(nèi)在結(jié)構(gòu)的半結(jié)構(gòu)化數(shù)據(jù)對象,從而能有效地刻畫數(shù)據(jù)對象內(nèi)部結(jié)點(diǎn)間上下文主題相關(guān)關(guān)系。
根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案一種文本語義的可視化表示與獲取方法,其特征在于將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義;通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣,再通過文本主題的鏈接形成文本篇章語義;具體操作步驟如下(1)將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義,其中用TF-IDF公式提取出關(guān)鍵詞,再把下載的文本按照其內(nèi)部結(jié)構(gòu)分成若干段落,(如自然段落),用一個XML的標(biāo)簽表示一個文本段落的標(biāo)題,一個段落代表一個文本主題,用一個XML文件儲存一篇文本中的所有段落,一個XML文件代表一個文本篇章;(2)計算一個文本段落中的關(guān)鍵詞的狀態(tài)值和關(guān)鍵詞之間的權(quán)重在每個文本段落內(nèi),統(tǒng)計關(guān)鍵詞出現(xiàn)的頻率,再計算關(guān)鍵詞的狀態(tài)值,以及關(guān)鍵詞之間的權(quán)重;(3)用關(guān)鍵詞的狀態(tài)值、關(guān)鍵詞之間的權(quán)重和基于矩陣相乘運(yùn)算的推理規(guī)則,計算各個關(guān)鍵詞對文本主題的權(quán)重,歸一化文本主題中的所有權(quán)重在區(qū)間
之間,生成文本主題的語義矩陣;(4)用一個文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱;(5)找出文本主題之間共同的關(guān)鍵詞,根據(jù)共同出現(xiàn)的關(guān)鍵詞對各自文本主題的權(quán)重,計算文本篇章中文本主題之間的權(quán)重,并鏈接文本主題為文本篇章,并用有向圖可視化文本篇章歸一化文本篇章中的所有權(quán)重在區(qū)間
之間,通過把文本主題語義和其生成的文本篇章語義表示為結(jié)點(diǎn)和有向邊構(gòu)成的有向圖,實(shí)現(xiàn)文本篇章語義的圖形可視化;(6)在文本篇章語義的可視化圖形中枝剪各個文本主題所獨(dú)有的關(guān)鍵詞。本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下突出的實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)(1)本發(fā)明能有效地利用各種上下文依賴關(guān)系(包括數(shù)據(jù)對象內(nèi)部的同一粒度結(jié)構(gòu)上下文和粒度間上下文)進(jìn)行更有效的語義提取,從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取的準(zhǔn)確率。
(2)本發(fā)明提供的方法,通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點(diǎn)的多層描述,通過建模結(jié)點(diǎn)間的上下文結(jié)構(gòu)來刻畫結(jié)點(diǎn)間的文本主題相關(guān)關(guān)系。
(3)本發(fā)明提供的方法,用權(quán)重來度量關(guān)鍵詞之間、關(guān)鍵詞對文本主題之間、以及文本主題之間的相關(guān)程度。
(4)本發(fā)明的方法中,生成語義矩陣所用的推理規(guī)則就是模糊認(rèn)知圖(FuzzyCognitive Maps)的推理規(guī)則。
本發(fā)明可以分層次、簡捷高效地獲取和表示文本的語義,便于計算機(jī)掌握和進(jìn)行理解處理。
圖1是一個包含4個關(guān)鍵詞的文本主題的語義矩陣及其圖形可視化。
圖2是文本段落“基于模糊認(rèn)知圖的文本表示”構(gòu)成的文本主題的語義矩陣及其可視化圖形。
圖3是文本段落“模糊認(rèn)知圖”構(gòu)成的可視化圖形。
圖4是文本段落“模糊認(rèn)知圖的自動構(gòu)建”構(gòu)成的可視化圖形。
圖5是鏈接三個文本主題生成的文本篇章的可視化圖形。
圖6是枝剪后的文本篇章的可視化圖形。
圖7是計算文本主題之間的權(quán)重時,反轉(zhuǎn)關(guān)鍵詞對文本主題的權(quán)重的方向。
具體實(shí)施例方式本發(fā)明的一個優(yōu)選實(shí)施例結(jié)合附圖詳述如下如有四個關(guān)鍵詞C1,C2,C3,C4,它們的文本主題的語義矩陣,及其文本主題的可視化圖形如圖1所示。
文本語義的可視化表示與獲取方法的具體步驟和如下(1)將一篇文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義;(2)計算關(guān)鍵詞的狀態(tài)值VCi和關(guān)鍵詞之間的權(quán)重wij;(3)用關(guān)鍵詞的狀態(tài)值VCi和關(guān)鍵詞之間的權(quán)重wij,經(jīng)一次矩陣運(yùn)算的推理,得到各個關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重VCj,并將所有值歸一化,生成一個文本主題的語義矩陣E;(4)用文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱;這兒wij表示第i個關(guān)鍵詞Ci與第j個關(guān)鍵詞Cj之間的權(quán)重,用wij=Σk=1mbk/m]]>計算,這兒本段落共有m個句子,若關(guān)鍵詞Ci和Cj共現(xiàn)第k個句子中,則bk=1,否則bk=0;這兒第i個關(guān)鍵詞Ci在文本中的狀態(tài)值用VCi=tanh(xi)]]>計算,xi表示第i個關(guān)鍵詞在文本出現(xiàn)的頻率;這兒關(guān)鍵詞Ci對主題結(jié)點(diǎn)的權(quán)重由推理公式
VCj(t+1)=f(Σi=1i≠jNVCi(t)wij)]]>經(jīng)一次推理計算得到,這兒f()表示對所有關(guān)鍵詞權(quán)重的歸一化函數(shù)(這里采用求算術(shù)和的歸一化方法),本段落包含N個關(guān)鍵詞,VCi表示第i個關(guān)鍵詞Ci在文本中的狀態(tài)值,wij表示第i個關(guān)鍵詞Ci與第j個關(guān)鍵詞Cj之間的權(quán)重,所有關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重構(gòu)成文本主題的語義矩陣E中的第j列;例如,一篇文本有三個文本段落,標(biāo)題分別為基于模糊認(rèn)知圖的文本表示(FCM-based document representation)、模糊認(rèn)知圖(Fuzzy Cognitive Maps,F(xiàn)CM)和模糊認(rèn)知圖的自動構(gòu)建(FCM’s automatic construction),它們的文本主題的語義矩陣及其圖形可視化圖形分別如圖2,圖3和圖4所示。
在圖2中,文本段落包含關(guān)鍵詞C1(模糊認(rèn)知圖),C2(語義),C3(表示),C4(推理),C5(因果),C6(關(guān)鍵詞),C7(模板),C18(文本),以及主題結(jié)點(diǎn)C00(基于模糊認(rèn)知圖的文本表示),其圖形可視化如圖3(a)所示,文本主題的語義矩陣如圖3(b)所示;在圖3中,文本段落包含關(guān)鍵詞C4(推理),C5(因果),C15(關(guān)系),C17(概念),C33(圖形),以及主題結(jié)點(diǎn)C10(模糊認(rèn)知圖);在圖4中,文本段落包含關(guān)鍵詞C1(模糊認(rèn)知圖),C4(推理),C5(因果),C6(關(guān)鍵詞),C7(模板),C16(自動構(gòu)建),以及主題結(jié)點(diǎn)C80(模糊認(rèn)知圖的自動構(gòu)建);(5)找出要鏈接的文本段落之間共同的關(guān)鍵詞Ck,根據(jù)共同的關(guān)鍵詞的權(quán)重wki和wkj,經(jīng)過反轉(zhuǎn)得到wjk,再計算主題結(jié)點(diǎn)之間的權(quán)重Tji,圖7是計算文本主題之間的權(quán)重時,共同關(guān)鍵詞對主題結(jié)點(diǎn)的權(quán)重的方向的反轉(zhuǎn)過程,圖5為鏈接三個文本主題語義后的文本篇章語義的圖形可視化;這兒主題結(jié)點(diǎn)Cj0和Ci0之間的權(quán)重用公式Tji=tanh(2*Σk=1N1βkVCkwjkwki)]]>計算,主題結(jié)點(diǎn)之間有N1個共同的關(guān)鍵詞,βk表示第k個關(guān)鍵詞Ck的反轉(zhuǎn)系數(shù),取值范圍
,也可由貝葉斯公式求出,VCk表示關(guān)鍵詞Ck的狀態(tài)值,wjk表示反轉(zhuǎn)后的關(guān)鍵詞Ck對主題結(jié)點(diǎn)Cj0的權(quán)重,wki表示關(guān)鍵詞Ck對主題結(jié)點(diǎn)Ci0的權(quán)重;(6)枝剪各個文本主題語義所獨(dú)有的關(guān)鍵詞,圖6是對三個文本主題語義所獨(dú)有的關(guān)鍵詞進(jìn)行枝剪后的文本篇章語義的可視化圖形。
權(quán)利要求
1.一種文本語義的可視化表示與獲取方法,其特征在于將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義;通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣,再通過文本主題的鏈接形成文本篇章語義。
2.根據(jù)權(quán)利要求1所述的文本語義的可視化表示與獲取方法,其特征在于操作步驟如下(1)將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義;(2)計算一個文本段落中的關(guān)鍵詞的狀態(tài)值和關(guān)鍵詞之間的權(quán)重;(3)用關(guān)鍵詞之間的權(quán)重、關(guān)鍵詞的狀態(tài)值和基于矩陣相乘運(yùn)算的推理規(guī)則,計算各個關(guān)鍵詞對文本主題的權(quán)重,生成文本主題的語義矩陣;(4)用文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句形成文本主題中的主題結(jié)點(diǎn)名稱;(5)找出要鏈接的文本主題中共同的關(guān)鍵詞,根據(jù)共同出現(xiàn)的關(guān)鍵詞對各自文本主題的權(quán)重,計算各個文本主題之間的權(quán)重,鏈接各個文本主題為文本篇章,并用有向圖可視化文本篇章;(6)枝剪各個文本主題中所獨(dú)有的關(guān)鍵詞。
全文摘要
本發(fā)明涉及一種文本語義的可視化表示與獲取方法,它是將文本語義劃分為三個層次離散的關(guān)鍵詞的集合構(gòu)成的文本低層語義、文本段落構(gòu)成的文本主題作為文本的中層語義和由文本主題之間相互鏈接而構(gòu)成文本篇章的高層語義;通過提取關(guān)鍵詞和基于關(guān)鍵詞權(quán)重的矩陣運(yùn)算生成文本主題的語義矩陣,再通過文本主題的鏈接形成文本篇章語義。本發(fā)明能有效地利用文本數(shù)據(jù)中的上下文依賴關(guān)系進(jìn)行更有效的語義提取,從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取的準(zhǔn)確率;通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點(diǎn)的多層描述,通過建模結(jié)點(diǎn)間的上下文結(jié)構(gòu)來刻畫結(jié)點(diǎn)間的主題相關(guān)關(guān)系;用權(quán)重來度量關(guān)鍵詞之間、關(guān)鍵詞對文本主題之間、以及文本主題之間的相關(guān)程度。該方法可以分層次、簡捷高效地獲取和表示文本的語義,便于計算機(jī)掌握和進(jìn)行理解處理。
文檔編號G06F17/30GK101067807SQ20071004114
公開日2007年11月7日 申請日期2007年5月24日 優(yōu)先權(quán)日2007年5月24日
發(fā)明者駱祥峰, 方寧, 徐煒民 申請人:上海大學(xué)