專利名稱:文本認(rèn)知難度的度量方法
技術(shù)領(lǐng)域:
-
木發(fā)明涉及一種文本的認(rèn)知難度的度量方法,更具體地說(shuō),涉及一種計(jì)算文本中句子之 間的邏輯關(guān)系來(lái)度量文本的認(rèn)知難度的方法。
背景技術(shù):
文本的認(rèn)知過(guò)程離不開對(duì)文本句子之間邏輯關(guān)系的掌握。傳統(tǒng)的文本分析僅僅停留在語(yǔ) 法分析和簡(jiǎn)單的語(yǔ)義分析的基礎(chǔ)之上,很少有針對(duì)文本句子之間的邏輯關(guān)系的定量分析。本 發(fā)明能從認(rèn)知科學(xué)的角度對(duì)文本的認(rèn)知難度進(jìn)行度量,從而為基于機(jī)器的文本理解提供技術(shù) 支持。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)目前機(jī)器分析文本的局限性,提供一種文本認(rèn)知難度的度量方法。 其本質(zhì)是把文本的理解過(guò)程抽象為一個(gè)概念學(xué)習(xí)的過(guò)程,通過(guò)對(duì)概念中的對(duì)象(句子)和屬 性(關(guān)鍵詞)的邏輯運(yùn)算來(lái)度量文本的認(rèn)知難度。
為實(shí)現(xiàn)上述目的,本發(fā)明的構(gòu)思是把一篇文本中的關(guān)鍵詞,即具有重要意義的名詞和 動(dòng)詞,提取出來(lái);統(tǒng)計(jì)每一個(gè)句子中出現(xiàn)和不出現(xiàn)的關(guān)鍵詞,形成一個(gè)布爾表達(dá)式;通過(guò)各 種手段化簡(jiǎn)這個(gè)布爾表達(dá)式到最簡(jiǎn)單的形式,即包含的變量數(shù)目最少;再計(jì)算該文本的認(rèn)知 難度根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案-一種文本認(rèn)知難度的度量方法,其特征在于操作步驟如下
(1) 統(tǒng)計(jì)一篇文本中的關(guān)鍵詞和句子,所述關(guān)鍵詞就是該文本中具有重要含義的名詞和動(dòng) 詞;
(2) 根據(jù)所述關(guān)鍵詞是否在相應(yīng)的句子上出現(xiàn)來(lái)構(gòu)建一個(gè)布爾表達(dá)式;
(3) 根據(jù)所述布爾表達(dá)式進(jìn)行邏輯運(yùn)算來(lái)計(jì)算該文本的認(rèn)知難度。
上述步驟(2)中的布爾表達(dá)式由若干項(xiàng)相加構(gòu)成每一個(gè)所述項(xiàng)代表一個(gè)句子,每一項(xiàng)由若干 變量相乘構(gòu)成,每一個(gè)所述變量代表一個(gè)所述關(guān)鍵詞;若關(guān)鍵詞出現(xiàn)在相應(yīng)的句子中,則所 述變量為"1";若關(guān)鍵詞不出現(xiàn),則所述變量為"0";把一個(gè)句子看成若干關(guān)鍵詞的相乘關(guān) 系,再把一篇文本看成若干句子的相加關(guān)系,這樣,該文本就用一個(gè)布爾表達(dá)式來(lái)表示,為 初始的布爾表達(dá)式。
上述步驟(3)中的所述的基于邏輯運(yùn)算的文本認(rèn)知難度的度量方法,其特征在于所述步驟(3) 中所述的根據(jù)布爾表達(dá)式進(jìn)行的邏輯運(yùn)算就是對(duì)布爾表達(dá)式進(jìn)行邏輯化簡(jiǎn),直到最簡(jiǎn)單的布爾表達(dá)式出現(xiàn)為止。
上述最簡(jiǎn)單的布爾表達(dá)式就是長(zhǎng)度最短的布爾表達(dá)式,其包含的所述變量數(shù)目最少;所述 最簡(jiǎn)單的布爾表達(dá)式是由若千所述項(xiàng)相加構(gòu)成。
上述文本的認(rèn)知難度是用所述最簡(jiǎn)單的布爾表達(dá)式所包含的所述變量數(shù)目除以所述初始的 布爾表達(dá)式所包含的變量數(shù)目而得到的。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)本發(fā)明先定 義單篇文本為一個(gè)若各關(guān)鍵詞和句子組成的布爾表達(dá)式,再對(duì)該布爾表達(dá)式進(jìn)行邏輯運(yùn)算來(lái)
度量該文本的認(rèn)知難度,其核心是把文本的理解過(guò)程抽象為一個(gè)概念學(xué)習(xí)的認(rèn)知過(guò)程。通過(guò) 對(duì)概念中的對(duì)象(句子)和屬性(關(guān)鍵詞)的邏輯運(yùn)算來(lái)度量文本的認(rèn)知難度,本方法以計(jì)算文 本中句子之間的邏輯關(guān)系,從而便于計(jì)算機(jī)進(jìn)行處理。
具體實(shí)施例方式
本發(fā)明的一個(gè)優(yōu)選實(shí)例如下本文本認(rèn)知難度的度量方法,操作步驟如下-
1. 統(tǒng)計(jì)一篇文本中的關(guān)鍵詞和句子,關(guān)鍵詞就是該文本中具有重要含義的名詞和動(dòng)詞;
2. 根據(jù)關(guān)鍵詞是否在相應(yīng)的句子上出現(xiàn)來(lái)構(gòu)建一個(gè)布爾表達(dá)式。此布爾表達(dá)式由若干項(xiàng)相 加構(gòu)成,每一個(gè)項(xiàng)代表一個(gè)句子,每一項(xiàng)由若干變量相乘構(gòu)成,每一個(gè)變量代表一個(gè)關(guān)鍵詞。 若關(guān)鍵詞出現(xiàn)在相應(yīng)的句子中,則變量為"1";若關(guān)鍵詞不出現(xiàn),則變量為"0"。把一個(gè)句 子看成若干關(guān)鍵詞的相乘關(guān)系,再把一篇文本看成若干句子的相加關(guān)系,這樣該文本可以用 一個(gè)布爾表達(dá)式來(lái)表示(初始的布爾表達(dá)式)。
假設(shè)有兩個(gè)關(guān)鍵詞分別用變量a和b表示。我們用項(xiàng)ab代表一個(gè)句子里出現(xiàn)了兩個(gè)關(guān)鍵詞a 和b,用兩個(gè)項(xiàng)a+b代表第一個(gè)句子有關(guān)鍵詞a,第二個(gè)句子有關(guān)鍵詞b,用變量a'代表關(guān) 鍵詞a沒有出現(xiàn)。
3. 根據(jù)布爾表達(dá)式進(jìn)行邏輯運(yùn)算來(lái)計(jì)算該文本的認(rèn)知難度,其特征在于操作步驟如下
(1) 對(duì)布爾表達(dá)式進(jìn)行邏輯化簡(jiǎn),直到最簡(jiǎn)單的布爾表達(dá)式出現(xiàn)為止。最簡(jiǎn)單的布爾表達(dá) 式就是布爾表達(dá)式的長(zhǎng)度最短,即包含的變量數(shù)目最少。最簡(jiǎn)單的布爾表達(dá)式是由若干 項(xiàng)相加構(gòu)成,每一項(xiàng)是由若干變量相乘構(gòu)成;
(2) 最簡(jiǎn)單的布爾表達(dá)式所包含的變量數(shù)目除以初始的布爾表達(dá)式所包含的變量數(shù)目,從 而得到該文本的認(rèn)知難度度量。
假設(shè)一篇有兩個(gè)句子的文本有初始布爾表達(dá)式ab+ab'表示,它包含4個(gè)變量,化簡(jiǎn) 布爾表達(dá)式的過(guò)程為ab+ab' =a(b+b' )=a,則最簡(jiǎn)單的布爾表達(dá)式就包含1個(gè)變量,
則該文本的認(rèn)知難度為1/4;假設(shè)另一篇有兩個(gè)句子的文本ab+a' b',由于沒有更
4短的表達(dá)式,所以最簡(jiǎn)單的布爾表達(dá)式的長(zhǎng)度就是4,則該文本的認(rèn)知難度為1。發(fā) 現(xiàn)特定表達(dá)式的最短等價(jià)表達(dá)式是一個(gè)很難的問(wèn)題。實(shí)際中通過(guò)一些近似的計(jì)算技術(shù) (如因數(shù)分解)化簡(jiǎn)表達(dá)式。
兩個(gè)對(duì)比實(shí)例如下
1. 假設(shè)有一段對(duì)話在兩個(gè)人之間,記為A和B。
A: Can you tell me the time B: The milkman has just left. 我們從對(duì)話中抽取兩個(gè)關(guān)鍵詞(對(duì)話中被加粗表示),即time (用符號(hào)a表示)和milkman (用符號(hào)b表示)。
2. 這段對(duì)話的初始的布爾表達(dá)式如ab' +a' b所示。
3. 這個(gè)對(duì)話的初始的布爾表達(dá)式包含4個(gè)變量,因?yàn)檫@個(gè)布爾表達(dá)式無(wú)法化簡(jiǎn),所以最簡(jiǎn) 單的布爾表達(dá)式也包含4個(gè)變量。這樣它的文本認(rèn)知難度就是l,表示這是一段很難理解 的對(duì)話。
另一個(gè)一個(gè)基于邏輯運(yùn)算的文本認(rèn)知難度的度量方法的具體步驟如下
1. 現(xiàn)在我們加入一個(gè)背景知識(shí)到這段對(duì)話如下
A: Can you tell me the time B: The milkman has just left. 背景矢口識(shí)The time is 6 am of the milkman leaving.
2. 這段對(duì)話的初始的布爾表達(dá)式如ab' +a' b+ab所示。
3. 包含了背景知識(shí)的初始的布爾表達(dá)式包含6個(gè)變量。通過(guò)啟發(fā)式方法可以化簡(jiǎn)為最簡(jiǎn)單 的布爾表達(dá)式a+b,此最簡(jiǎn)單的布爾表達(dá)式包含2個(gè)變量,則包含了背景知識(shí)的這段對(duì)話 的文本認(rèn)知難度是0. 333,表示加入了背景知識(shí)可以降低文本的認(rèn)知難度。 對(duì)比上面兩個(gè)例子可以看出,本發(fā)明定義的文本認(rèn)知難度的度量方法確實(shí)可以體現(xiàn)實(shí)際
文本的認(rèn)知難度。
權(quán)利要求
1. 一種文本認(rèn)知難度的度量方法,其特征在于操作步驟如下(1)統(tǒng)計(jì)一篇文本中的關(guān)鍵詞和句子,所述關(guān)鍵詞就是該文本中具有重要含義的名詞和動(dòng)詞;(2)根據(jù)所述關(guān)鍵詞是否在相應(yīng)的句子上出現(xiàn)來(lái)構(gòu)建一個(gè)布爾表達(dá)式;(3)根據(jù)所述布爾表達(dá)式進(jìn)行邏輯運(yùn)算來(lái)計(jì)算該文本的認(rèn)知難度。
2. 根據(jù)權(quán)利要求1所述的文本認(rèn)知難度的度量方法,其特征在于所屬步驟(2)中的布爾表達(dá) 式由若干項(xiàng)相加構(gòu)成,每一個(gè)所述項(xiàng)代表一個(gè)句子,每一項(xiàng)由若干變量相乘構(gòu)成,每一個(gè) 所述變量代表一個(gè)所述關(guān)鍵詞;若關(guān)鍵詞出現(xiàn)在相應(yīng)的句了中,則所述變量為"l";若關(guān) 鍵詞不出現(xiàn),則所述變量為"0";把一個(gè)句子看成若干關(guān)鍵詞的相乘關(guān)系,再把一篇文本 看成若干句子的相加關(guān)系,這樣,該文本就用一個(gè)布爾表達(dá)式來(lái)表示,為初始的布爾表達(dá) 式。
3. 根據(jù)權(quán)利要求2所述的文本認(rèn)知難度的度量方法,其特征在于所述步驟(3)中所述的根據(jù) 布爾表達(dá)式進(jìn)行的邏輯運(yùn)算就是對(duì)布爾表達(dá)式進(jìn)行邏輯化簡(jiǎn),直到最簡(jiǎn)單的布爾表達(dá)式出 現(xiàn)為止。
4. 根據(jù)權(quán)利要求3所述的文本認(rèn)知難度的度量方法,其特征在于所述最簡(jiǎn)單的布爾表達(dá)式, 就是長(zhǎng)度最短的布爾表達(dá)式,其包含的所述變量數(shù)目最少;所述最簡(jiǎn)單的布爾表達(dá)式是由 若干所述項(xiàng)相加構(gòu)成。
5. 根據(jù)權(quán)利要求4所述的文本認(rèn)知難度的度量方法,其特征在于文本的認(rèn)知難度是用所述最 簡(jiǎn)單的布爾表達(dá)式所包含的所述變量數(shù)目除所以述初始的布爾表達(dá)式所包含的變量數(shù)目 而得到的。
全文摘要
本發(fā)明涉及一種文本認(rèn)知難度的度量方法。它先定義單篇文本為一個(gè)若干關(guān)鍵詞和句子組成的布爾表達(dá)式,再對(duì)該布爾表達(dá)式進(jìn)行邏輯運(yùn)算來(lái)度量該文本的認(rèn)知難度。本發(fā)明其核心是把文本的理解過(guò)程抽象為一個(gè)概念學(xué)習(xí)的認(rèn)知過(guò)程,通過(guò)對(duì)概念中的對(duì)象(句子)和屬性(關(guān)鍵詞)的邏輯運(yùn)算來(lái)度量文本的認(rèn)知難度。本方法以計(jì)算文本中句子之間的邏輯關(guān)系,從而便于計(jì)算機(jī)進(jìn)行處理。
文檔編號(hào)G06F17/27GK101520773SQ200910048309
公開日2009年9月2日 申請(qǐng)日期2009年3月26日 優(yōu)先權(quán)日2009年3月26日
發(fā)明者劉方方, 徐煒民, 寧 方, 駱祥峰 申請(qǐng)人:上海大學(xué)