專利名稱:基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng)及其檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)信息檢索系統(tǒng),尤其涉及使用自然語言方式提問進(jìn)行信息檢索的計(jì)算機(jī)系統(tǒng)。
背景技術(shù):
計(jì)算機(jī)信息檢索系統(tǒng)幫助我們?cè)诤棋男畔⒑Q笾胁檎蚁胍男畔①Y料,目前檢索信息的工具如查詢軟件,搜索引擎如google等,采用的主要是關(guān)鍵詞匹配,網(wǎng)頁鏈接分析等技術(shù)。但是人們很難通過簡單的關(guān)鍵詞組合來準(zhǔn)確定義自己的搜索意圖,而且關(guān)鍵詞匹配的搜索過程沒有處理詞意組合,語句內(nèi)部的語義關(guān)系等語義因素。所以人們經(jīng)常不得不花大量時(shí)間對(duì)數(shù)目巨大的結(jié)果網(wǎng)頁列表再作人工辨識(shí)來尋找理想的答案。
信息查詢用戶希望使用更自然,更準(zhǔn)確的方式定義自己的查詢要求,希望能夠得到在語義,知識(shí)層面上準(zhǔn)確地符合查詢意圖的答案,而不僅是匹配到關(guān)鍵詞的答案列表。
本發(fā)明利用自然語言處理技術(shù),允許用戶以自然語言提問的方式向系統(tǒng)提出查詢要求,系統(tǒng)通過對(duì)疑問句的語句分析,對(duì)目標(biāo)答案的語句模式和語義關(guān)系結(jié)構(gòu)的抽取和識(shí)別,從而能夠識(shí)別出在語義的各個(gè)層次上與目標(biāo)答案最接近的答案內(nèi)容,并返回給用戶較高準(zhǔn)確度的回答。
發(fā)明內(nèi)容
本發(fā)明的目的在于建立一個(gè)高效,統(tǒng)一的知識(shí)處理的模型,生成一種建立自然語言知識(shí)庫的計(jì)算機(jī)系統(tǒng)。
一種基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),由用戶輸入的疑問句啟動(dòng)檢索,系統(tǒng)輸出按照語義相關(guān)程度排序的答案;包括HNC句類分析模塊、以及句類模式匹配模塊和排序模塊;所述HNC句類分析模塊對(duì)來自互聯(lián)網(wǎng)或其他內(nèi)容源的文章和內(nèi)容進(jìn)行分析構(gòu)成具有標(biāo)注的待選答案句的知識(shí)庫,還對(duì)啟動(dòng)檢索的疑問句進(jìn)行句類結(jié)構(gòu)分析得到目標(biāo)句類模式,生成等語義目標(biāo)句模式序列;再由所述句類模式匹配模塊與所述知識(shí)庫中的待選答案句匹配,匹配結(jié)果由所述排序模塊排序。
一種基于自然語言理解的計(jì)算機(jī)信息檢索方法,由用戶輸入的疑問句啟動(dòng)檢索,系統(tǒng)輸出按照語義相關(guān)程度排序的答案;包括如下處理步驟第一步,來自互聯(lián)網(wǎng)的文章和內(nèi)容數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過HNC句類分析模塊的處理,獲得具有標(biāo)注的待選答案句知識(shí)庫;第二步,所述用戶輸入的疑問句首先調(diào)用HNC句類分析模塊處理獲得疑問句的HNC句類結(jié)構(gòu),進(jìn)入疑問句分析模塊進(jìn)行分析,然后進(jìn)入疑問中心分析模塊中處理,并在此基礎(chǔ)上抽取目標(biāo)答案句模式,生成等語義目標(biāo)句模式序列;第三步,知識(shí)庫中已經(jīng)標(biāo)注的待選答案句與目標(biāo)答案句模式(序列)經(jīng)過句類模式匹配模塊對(duì)詞語,語義塊進(jìn)行概念相似度計(jì)算,對(duì)待選句與目標(biāo)句進(jìn)行比較,獲得句類模式匹配結(jié)果、語義關(guān)系結(jié)構(gòu)識(shí)別匹配結(jié)果、和答案準(zhǔn)確度得分;第四步按照答案正確度排序,并返回結(jié)果。
所述第三步中,對(duì)于難以適用句類模式匹配的情況,在HNC句類分析的語義關(guān)系結(jié)構(gòu)抽取目標(biāo)句中的各個(gè)概念元素(或者概念元素的組合)之間相互交叉的語義關(guān)系矩陣。通過假設(shè)-校驗(yàn)機(jī)制模塊,利用系統(tǒng)的語言學(xué)知識(shí)來校驗(yàn)計(jì)算知識(shí)庫待選句中含有某個(gè)目標(biāo)語義關(guān)系的置信度,以此發(fā)現(xiàn)不同的語言表達(dá)形式下所隱含的深層語義的相似度。
與以往相類似技術(shù)相比,本發(fā)明采用HNC自然語言理解技術(shù)對(duì)疑問句和待選句做了深層的語義模式識(shí)別和語義關(guān)系抽取,不僅突破了以往信息查詢技術(shù)中查詢?cè)~之間沒有語義關(guān)聯(lián)的弊病,而且能夠通過模式匹配法匹配用戶所提出的疑問句與待選句之間的語義異同;通過語義關(guān)系識(shí)別法抽取疑問句在詞義概念,語義塊內(nèi)部詞義搭配的語義關(guān)系,語義塊之間,語句的各個(gè)不同粒度的組成部分之間的語義關(guān)系,并識(shí)別待選句是否具有相對(duì)應(yīng)的語義或語義關(guān)系,所以能夠提供給用戶合乎語義并且準(zhǔn)確度較高的答案。由于系統(tǒng)接受用戶以自然語言提問的查詢請(qǐng)求,使得用戶可以方便而且精確地定義自己的查詢意圖;由于系統(tǒng)對(duì)查詢的問句做問句分析,能夠識(shí)別問句的語義關(guān)系和目標(biāo)答案的要求。
本發(fā)明包括如下附圖圖1是HNC概念相似度計(jì)算過程流程圖;圖2是模式匹配法的目標(biāo)答案句模式序列生成過程;圖3模式匹配算法過程方框圖;圖4是語義關(guān)系識(shí)別法處理步驟流程圖;圖5是系統(tǒng)組成結(jié)構(gòu)和運(yùn)行原理。
具體實(shí)施方法下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
本發(fā)明是一種使用自然語言理解技術(shù)進(jìn)行信息檢索的技術(shù),系統(tǒng)接受用戶以自然語言方式提問的查詢請(qǐng)求,通過對(duì)待選語句進(jìn)行面向目標(biāo)答案的自然語言分析后,返回給用戶最準(zhǔn)確的答案。
本發(fā)明采用HNC自然語言處理技術(shù)對(duì)從互聯(lián)網(wǎng)或其他內(nèi)容源獲取的自然語言格式的語句篇章進(jìn)行句類分析,將句類分析結(jié)果語句以HNC句類標(biāo)注,并作為待選答案句保存在知識(shí)庫(KB)中。
系統(tǒng)接受用戶以自然語言提問的查詢請(qǐng)求后,系統(tǒng)先對(duì)疑問句進(jìn)行疑問詞,疑問中心分析,然后通過兩種方式來尋求最佳的目標(biāo)答案。
1.模式匹配法系統(tǒng)通過HNC句類分析得到疑問句的句類模式(目標(biāo)句類模式)。對(duì)于具有相同(相近)句類模式的待選句(待選句可以是不同句類格式的簡單句,混合句類,復(fù)合句的形式),系統(tǒng)通過計(jì)算目標(biāo)句與待選句的各個(gè)相對(duì)應(yīng)語義塊之間的概念相似度來得到待選句相對(duì)于目標(biāo)答案的準(zhǔn)確程度。
2.語義關(guān)系識(shí)別法對(duì)于句類差別比較大的待選句不能使用模式匹配法,而只能使用語義關(guān)系識(shí)別法來尋求目標(biāo)答案。
系統(tǒng)對(duì)疑問句的各個(gè)由字,詞,語義塊,語句等語義元素或語義元素的組合之間的語義關(guān)系進(jìn)行發(fā)現(xiàn)識(shí)別,并由此構(gòu)建目標(biāo)語義關(guān)系矩陣,然后嘗試在待選句中發(fā)現(xiàn)對(duì)應(yīng)的語義關(guān)系,系統(tǒng)通過一個(gè)假設(shè)-評(píng)價(jià)機(jī)制來計(jì)算待選句中存在某個(gè)目標(biāo)語義關(guān)系的置信度,最后通過各個(gè)關(guān)系的置信度與其權(quán)重的綜合計(jì)算結(jié)果來得到待選句相對(duì)于目標(biāo)答案的答案準(zhǔn)確度。
本發(fā)明采用HNC自然語言理解技術(shù)對(duì)疑問句和待選句做了深層的語義模式識(shí)別和語義關(guān)系抽取,不僅突破了以往信息查詢技術(shù)中查詢?cè)~之間沒有語義關(guān)聯(lián)的弊病,而且能夠通過模式匹配法匹配用戶所提出的疑問句與待選句之間的語義異同;通過語義關(guān)系識(shí)別法抽取疑問句在詞義概念,語義塊內(nèi)部詞義搭配的語義關(guān)系,語義塊之間,語句的各個(gè)不同粒度的組成部分之間的語義關(guān)系,并識(shí)別待選句是否具有相對(duì)應(yīng)的語義或語義關(guān)系,所以能夠提供給用戶合乎語義并且準(zhǔn)確度較高的答案。
什么是疑問句特性分析呢?不同的疑問詞所引導(dǎo)的疑問句結(jié)構(gòu)對(duì)目標(biāo)答案具有不同的要求,為了便于針對(duì)分析,系統(tǒng)定義了兩個(gè)概念疑問中心,疑問中心詞。
疑問中心詞疑問句中疑問詞所引導(dǎo),修飾的詞語。
疑問中心疑問詞和疑問中心詞所組成的結(jié)構(gòu)。
系統(tǒng)通過對(duì)疑問中心和疑問中心詞的分析來得到目標(biāo)答案的概念和所要求的語義結(jié)構(gòu),并以此與待選句的對(duì)應(yīng)結(jié)構(gòu)匹配比較,作為計(jì)算待選句答案準(zhǔn)確度的一個(gè)重要因素。
從HNC角度對(duì)疑問詞,疑問中心的分析,獲得的統(tǒng)計(jì)結(jié)果如下表所示,其中得代碼如J111,JK等是HNC所定義的描述語言語義的概念符號(hào),其意義在CN98101921.8號(hào)專利中定義。
目標(biāo)答案的求解策略通過使用HNC理論對(duì)疑問句和待選句的分析,本文提出尋求疑問句目標(biāo)答案的兩種求解策略模式匹配法,語義關(guān)系識(shí)別法。
在HNC理論體系中,HNC概念符號(hào)是表達(dá)自然語言形式化語義的基本元素,所以在討論兩種求解策略之前先討論HNC概念符號(hào)的相似度比較方法。
HNC概念相似度比較對(duì)于詞語的多義模糊性,通過HNC句類分析可以多選一地得到該詞語在句中的特定語義概念。兩個(gè)詞語概念之間的相似程度可以通過對(duì)于二者的HNC概念符號(hào)比較得到。
HNC概念符號(hào)的結(jié)構(gòu)[1]((類別符號(hào)串)(層次符號(hào)串)(組合結(jié)構(gòu)符號(hào))(類別符號(hào)串)(層次符號(hào)串))HNC概念相似度計(jì)算過程如圖1所示首先比較疑問句和目標(biāo)句的概念類別,判斷其概念類別符號(hào)是否相同,如果不相同,則概念相似度為0.0,結(jié)束概念相似度的計(jì)算;如果概念類別符號(hào)相同,則分別進(jìn)行五元組符號(hào)比較和語法符號(hào)比較;判斷其概念層次符號(hào)為掛靠方式還是高中低層組合方式;如果是高中低層組合方式,首先判斷高層符號(hào)是否相同,然后再分別比較中層符號(hào)序列和低層符號(hào)序列;然后綜合計(jì)算概念相似度,結(jié)束概念相似度的計(jì)算;如果是掛靠方式,首先判斷本體層符號(hào)是否相同,再比較掛靠層符號(hào)序列;然后綜合計(jì)算概念相似度,結(jié)束概念相似度的計(jì)算。
HNC概念相似度計(jì)算方法為simConcept(t,b)=]]>simCat(t,b)βcat+ΣsimFiv(t,b)βfiv+simSynt(t,b)βsyn]]> 式中各符號(hào)含義simConcept待選概念b相對(duì)于目標(biāo)概念t的概念相似度。
simCat概念類別相似度。
simFiv五元組符號(hào)序列的概念相似度。
simSyn語法符號(hào)的相似度。
simNou本體層概念相似度。
simRe掛靠層概念相似度。
simHigh高層概念相似度。
simMid中層概念相似度。
simLow底層概念相似度。
β對(duì)應(yīng)概念符號(hào)部分的計(jì)算權(quán)重參數(shù)。
模式匹配法通過對(duì)疑問句進(jìn)行HNC句類分析可以得到包含疑問中心的目標(biāo)句類模式。目標(biāo)句類模式可以通過等語義的句類格式變換得到一個(gè)目標(biāo)句類模式序列。將目標(biāo)句類模式與待選答案句模式各個(gè)部分進(jìn)行匹配比較能夠判斷二者的語義相似度,以及待選答案句包含目標(biāo)答案的程度。模式匹配法適合于疑問句和待選答案句的句類相同或者相近的情況。
如圖2所示是模式匹配法的目標(biāo)答案句模式序列生成過程(虛線部分表示可缺項(xiàng))。所述目標(biāo)句模式序列生成過程特征為對(duì)目標(biāo)答案句按照不同的句類格式,增減語義塊指示符,和調(diào)整語義塊位置的方法生成語義相同而語言表達(dá)形式不同的目標(biāo)答案句模式序列;對(duì)目標(biāo)答案句按照不同的句類格式,增減語義塊指示符,和調(diào)整語義塊位置的方法生成語義相同而語言表達(dá)形式不同的目標(biāo)答案句模式序列。首先通過疑問中心語義塊JK或FK生成疑問中心,包括疑問詞,和緊隨或者修飾疑問詞的疑問中心詞,還可以同時(shí)在疑問中心之前生成輔塊FK的累加值,和在疑問中心之后主塊JK的累加值;如果在頭尾同時(shí)結(jié)合陳述表達(dá)J(或者J的若干部分)、輔塊FK的累加值、和主塊JK的累加值,則等語義的句類格式變換所產(chǎn)生的目標(biāo)句類模式序列,順序包括輔塊FK和主塊JK的累加值、語義塊指示符,以及疑問中心語義塊JK or FK、語義塊指示符和輔塊FK和主塊JK的累加值。
模式匹配算法過程如圖3所示,首先判斷目標(biāo)模式句類和待選答案句類是否相同,如果完全不相同,則由語義關(guān)系識(shí)別模塊處理,結(jié)束模式匹配;對(duì)于混合句,復(fù)合句部分相同的待選句,則識(shí)別出混合句類中該句類部分的各個(gè)語義塊,以后跟句類相同的部分同樣處理;如果句類相同,則對(duì)于各個(gè)語義塊,逐個(gè)進(jìn)行語義塊相似度比較,分別比較GBK塊核心詞的概念相似度、比較GBK塊修飾部分的概念相似度、比較各個(gè)GBK的FK與對(duì)應(yīng)FK的概念相似度、以及對(duì)于疑問中心和目標(biāo)答案概念的分析和計(jì)算,然后綜合計(jì)算待選答案句的答案準(zhǔn)確度得分。
待選句語義塊相對(duì)于對(duì)應(yīng)的目標(biāo)句語義塊的語義塊相似度計(jì)算方法為simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbi)βk)/Tt模式匹配法的答案準(zhǔn)確度計(jì)算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb)]]>式中各符號(hào)含義answFitness待選句對(duì)于目標(biāo)答靠的回答程度。
Tt目標(biāo)語義塊參與概念比較的元素?cái)?shù)目。
M語義塊的修飾詞。
K語義塊的核心詞。
correctness待選句的答案準(zhǔn)確度。
語義關(guān)系識(shí)別法語義關(guān)系識(shí)別法,其基本思想是盡量發(fā)現(xiàn)和抽取目標(biāo)句在不同組成部分,不同粒度層次之間的各種語義關(guān)系,然后嘗試在待選句中發(fā)現(xiàn)和識(shí)別出對(duì)應(yīng)概念之間相似的語義關(guān)系?;镜恼Z義關(guān)系有概念組合關(guān)系如作用,效應(yīng),對(duì)象,內(nèi)容,包含,偏正,主謂,邏輯;句類結(jié)構(gòu)的內(nèi)部關(guān)系;以及表示世界知識(shí)的關(guān)系。
由于自然語言表達(dá)的多樣性,一個(gè)語義關(guān)系可以通過多種簡單或復(fù)雜的結(jié)構(gòu),如嵌套句蛻,快擴(kuò),語義塊分離,單句,混合句,復(fù)合句等形式來表達(dá)。所以在語義關(guān)系識(shí)別法中系統(tǒng)采用了一種面向目標(biāo)語義關(guān)系的假設(shè)-校驗(yàn)機(jī)制,利用系統(tǒng)的語言學(xué)知識(shí)來校驗(yàn)計(jì)算待選句中含有某個(gè)目標(biāo)語義關(guān)系的置信度(即使只是部分地與目標(biāo)語義關(guān)系結(jié)構(gòu)相符合),以此發(fā)現(xiàn)不同的語言表達(dá)形式下所隱含的深層語義。
圖4是語義關(guān)系識(shí)別法處理步驟,首先發(fā)現(xiàn)待選句中所存在的與目標(biāo)句相同或者相似的概念,再對(duì)目標(biāo)句中的各個(gè)概念元素(或者概念元素的組合)之間相互交叉的語義關(guān)系矩陣作分析和抽取,分別得到基于概念搭配的語義關(guān)系、基于句類結(jié)構(gòu)的語義關(guān)系、基于修飾關(guān)系的語義關(guān)系和面向世界知識(shí)的語義關(guān)系;然后再對(duì)各種語義關(guān)系假設(shè)利用目前現(xiàn)場語句分析結(jié)果的校驗(yàn)計(jì)算;語義關(guān)系矩陣中的各個(gè)對(duì)應(yīng)語義關(guān)系在待選句中的發(fā)現(xiàn)和假設(shè)校驗(yàn),以及對(duì)于疑問中心所對(duì)應(yīng)的匹配和目標(biāo)答案概念的相似度計(jì)算;對(duì)語義關(guān)系矩陣中各個(gè)語義關(guān)系的相似度的綜合計(jì)算得到待選句的答案準(zhǔn)確度。
語義關(guān)系識(shí)別的答案準(zhǔn)確度計(jì)算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,cinfidRbi)βi+answFitness(St,Sb)]]>各符號(hào)含義n目標(biāo)句中語義矩陣中的語義元素(或語義元素組合)的語義關(guān)系數(shù)目simSynR語義關(guān)系相似度。
R目標(biāo)句(待選句)的語義關(guān)系。
confid由兩個(gè)語義關(guān)系的置信度所得的對(duì)于二者相似度的置信度。
confidR語義關(guān)系的置信度。
βi語義關(guān)系i的計(jì)算權(quán)重參數(shù)。
如圖5是系統(tǒng)組成結(jié)構(gòu)和運(yùn)行原理圖,描述了在執(zhí)行模塊控制下數(shù)據(jù)庫中的數(shù)據(jù)流動(dòng)的執(zhí)行順序。來自互聯(lián)網(wǎng)或其他內(nèi)容源的文章和內(nèi)容數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過HNC句類分析模塊的處理,獲得具有已經(jīng)標(biāo)注的待選答案句知識(shí)庫;用戶輸入的疑問句首先進(jìn)入疑問句分析模塊進(jìn)行分析,然后進(jìn)入疑問中心分析模塊中處理,語義關(guān)系結(jié)構(gòu)抽取模塊處理結(jié)合目標(biāo)答案句模式(序列)獲得目標(biāo)句的語義關(guān)系矩陣;疑問句分析模塊分析的疑問句還進(jìn)入HNC句類分析模塊處理獲得疑問句的HNC句類結(jié)構(gòu)數(shù)據(jù),疑問中心分析模塊還得到包含疑問中心對(duì)目標(biāo)答案的要求的疑問中心數(shù)據(jù),疑問中心數(shù)據(jù)與疑問句的HNC句類結(jié)構(gòu)數(shù)據(jù)結(jié)合獲得目標(biāo)答案句模式(序列)。經(jīng)過疑問中心分析模塊處理的疑問句語義關(guān)系結(jié)構(gòu)抽取模塊結(jié)合目標(biāo)答案句模式(序列)生成目標(biāo)句的語義關(guān)系矩陣,再結(jié)合知識(shí)庫中已經(jīng)標(biāo)注的待選答案句,進(jìn)入假設(shè)-校驗(yàn)機(jī)制模塊對(duì)待選答案句針對(duì)目標(biāo)答案語義關(guān)系矩陣的識(shí)別;知識(shí)庫中已經(jīng)標(biāo)注的待選答案句結(jié)合目標(biāo)答案句模式(序列)經(jīng)過句類模式匹配模塊處理,跟假設(shè)校驗(yàn)機(jī)制匹配,獲得句類模式匹配結(jié)果、語義關(guān)系結(jié)構(gòu)識(shí)別匹配結(jié)果、和答案準(zhǔn)確度得分,再按照答案正確度排序,獲得排序后的答案列表。
權(quán)利要求
1.一種基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),由用戶輸入的疑問句啟動(dòng)檢索,系統(tǒng)輸出按照語義相關(guān)程度排序的答案;其特征在于,包括HNC句類分析模塊、以及句類模式匹配模塊和排序模塊;所述HNC句類分析模塊對(duì)來自互聯(lián)網(wǎng)或其他內(nèi)容源的文章和內(nèi)容進(jìn)行分析構(gòu)成具有標(biāo)注的待選答案句的知識(shí)庫,還對(duì)啟動(dòng)檢索的疑問句進(jìn)行句類結(jié)構(gòu)分析得到目標(biāo)句類模式,生成等語義目標(biāo)句模式序列;再由所述句類模式匹配模塊與所述知識(shí)庫中的待選答案句匹配,匹配結(jié)果由所述排序模塊排序。
2.根據(jù)權(quán)利要求l所述的基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),其特征在于,所述目標(biāo)句類模式對(duì)于所述知識(shí)庫中具有相同或者相近句類模式的待選答案句,系統(tǒng)通過計(jì)算目標(biāo)句與待選句的各個(gè)相對(duì)應(yīng)語義塊的概念之間相似度來得到待選句相對(duì)于目標(biāo)答案的準(zhǔn)確程度simConcept(t,b)=simCat(t,b)βcat+∑simFiv(t,b)βfiv+simSynt(t,b)βsyn 式中各符號(hào)含義simConcept待選概念b相對(duì)于目標(biāo)概念t的概念相似度;simCat概念類別相似度simFiv五元組符號(hào)序列的概念相似度;simSyn語法符號(hào)的相似度;simNou本體層概念相似度;simRe掛靠層概念相似度;simHigh高層概念相似度;simMid中層概念相似度;simLow底層概念相似度;β對(duì)應(yīng)概念符號(hào)部分的計(jì)算權(quán)重參數(shù)。
3.根據(jù)權(quán)利要求1所述的基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),其特征在于,所述目標(biāo)句類模式通過等語義的句類格式變換得到一個(gè)目標(biāo)句類模式序列,將目標(biāo)句類模式與所述待選答案句模式各個(gè)部分進(jìn)行匹配比較判斷二者的語義相似度,以及待選答案句包含目標(biāo)答案的程度,待選句語義塊相對(duì)于對(duì)應(yīng)的目標(biāo)句語義塊的語義塊相似度計(jì)算方法為simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbf)βk)/Tt模式匹配法的答案準(zhǔn)確度計(jì)算方法correctness(St,Sb)=Σi=1nsimChunk(Chunkti,Chunkbi)+answFitness(St,Sb).]]>
4.根據(jù)權(quán)利要求1所述的基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),其特征在于,還包括假設(shè)—校驗(yàn)機(jī)制模塊,所述目標(biāo)句的語義關(guān)系矩陣通過假設(shè)—校驗(yàn)機(jī)制模塊分析對(duì)待選答案句針對(duì)目標(biāo)答案語義關(guān)系矩陣的識(shí)別;所述假設(shè)—校驗(yàn)機(jī)制模塊,利用系統(tǒng)的語言學(xué)知識(shí)來校驗(yàn)計(jì)算所述知識(shí)庫待選句中含有某個(gè)目標(biāo)語義關(guān)系的置信度,以此發(fā)現(xiàn)不同的語言表達(dá)形式下所隱含的深層語義,語義關(guān)系識(shí)別的答案準(zhǔn)確度計(jì)算方法correctness(St,Sb)=Σi=1nsimSynR(Rti,Rbi)confid(confidRti,confidRbi)βi+answFitness(St,Sb)]]>各符號(hào)含義n目標(biāo)句中語義矩陣中的語義元素(或語義元素組合)的語義關(guān)系數(shù)目;simSynR語義關(guān)系相似度;R目標(biāo)句(待選句)的語義關(guān)系;confid由兩個(gè)語義關(guān)系的置信度所得的對(duì)于二者相似度的置信度;confidR語義關(guān)系的置信度;βi語義關(guān)系i的計(jì)算權(quán)重參數(shù)。
5.根據(jù)權(quán)利要求1所述的基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng),其特征在于,所述語義關(guān)系結(jié)構(gòu)抽取模塊對(duì)目標(biāo)句中的各個(gè)概念元素(或者概念元素的組合)之間相互交叉的語義關(guān)系矩陣作分析和抽取,分別得到基于概念搭配的語義關(guān)系、基于句類結(jié)構(gòu)的語義關(guān)系、基于修飾關(guān)系的語義關(guān)系和面向世界知識(shí)的語義關(guān)系;然后再對(duì)各種語義關(guān)系假設(shè)利用目前現(xiàn)場語句分析結(jié)果的校驗(yàn)計(jì)算。
6.一種基于自然語言理解的計(jì)算機(jī)信息檢索方法,由用戶輸入的疑問句啟動(dòng)檢索,系統(tǒng)輸出按照語義相關(guān)程度排序的答案;其特征在于,包括如下處理步驟第一步,來自互聯(lián)網(wǎng)的文章和內(nèi)容數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過HNC句類分析模塊的處理,獲得具有標(biāo)注的待選答案句知識(shí)庫;第二步,所述用戶輸入的疑問句首先調(diào)用HNC句類分析模塊處理獲得疑問句的HNC句類結(jié)構(gòu),進(jìn)入疑問句分析模塊進(jìn)行分析,然后進(jìn)入疑問中心分析模塊中處理,并在此基礎(chǔ)上抽取目標(biāo)答案句模式,生成等語義目標(biāo)句模式序列;第三步,知識(shí)庫中已經(jīng)標(biāo)注的待選答案句與目標(biāo)答案句模式(序列)經(jīng)過句類模式匹配模塊對(duì)詞語,語義塊進(jìn)行概念相似度計(jì)算,對(duì)待選句與目標(biāo)句進(jìn)行比較,獲得句類模式匹配結(jié)果、語義關(guān)系結(jié)構(gòu)識(shí)別匹配結(jié)果、和答案準(zhǔn)確度得分;第四步按照答案正確度排序,并返回結(jié)果。
7.根據(jù)權(quán)利要求6所述的基于自然語言理解的計(jì)算機(jī)信息檢索方法,其特征在于,所述第三步中,對(duì)于難以適用句類模式匹配的情況,在HNC句類分析的語義關(guān)系結(jié)構(gòu)抽取目標(biāo)句中的各個(gè)概念元素(或者概念元素的組合)之間相互交叉的語義關(guān)系矩陣。通過假設(shè)—校驗(yàn)機(jī)制模塊,利用系統(tǒng)的語言學(xué)知識(shí)來校驗(yàn)計(jì)算知識(shí)庫待選句中含有某個(gè)目標(biāo)語義關(guān)系的置信度,以此發(fā)現(xiàn)不同的語言表達(dá)形式下所隱含的深層語義的相似度。
8.根據(jù)權(quán)利要求6所述的基于自然語言理解的計(jì)算機(jī)信息檢索方法,其特征在于,所述目標(biāo)答案句模式序列生成過程包括如下步驟通過疑問中心語義塊JK or FK生成疑問中心,包括疑問詞,和緊隨或者修飾疑問詞的疑問中心詞,以及同時(shí)在疑問中心之前生成輔塊FK的累加值,和在疑問中心之后主塊JK的累加值;如果在頭尾同時(shí)結(jié)合陳述表達(dá)J(或者J的若干部分)、輔塊FK的累加值、和主塊JK的累加值,則通過等語義的句類格式變換所產(chǎn)生的目標(biāo)句類模式序列順序包括輔塊FK和主塊JK的累加值、語義塊指示符,以及疑問中心語義塊JK or FK、語義塊指示符和輔塊FK和主塊JK的累加值。
9.根據(jù)權(quán)利要求6所述的基于自然語言理解的計(jì)算機(jī)信息檢索方法,其特征在于,所述第三步中包括如下步驟,首先判斷目標(biāo)模式句類和待選答案句類是否相同,如果完全不相同,則由語義關(guān)系識(shí)別模塊處理,結(jié)束模式匹配;對(duì)于混合句,復(fù)合句部分相同的待選句,則識(shí)別出混合句類中該句類部分的各個(gè)語義塊,以后跟句類相同的部分同樣處理;如果句類相同,則對(duì)于各個(gè)語義塊,逐個(gè)進(jìn)行語義塊相似度比較,分別比較GBK塊核心詞的概念相似度、比較GBK塊修飾部分的概念相似度、比較各個(gè)GBK的FK與對(duì)應(yīng)FK的概念相似度、以及對(duì)于疑問中心和目標(biāo)答案概念的分析和計(jì)算,然后綜合計(jì)算待選答案句的答案準(zhǔn)確度得分。
10.根據(jù)權(quán)利要求6所述的基于自然語言理解的計(jì)算機(jī)信息檢索方法,其特征在于,所述第四步中包括如下步驟,首先發(fā)現(xiàn)待選句中所存在的與目標(biāo)句相同或者相似的概念,再對(duì)目標(biāo)句中的各個(gè)概念元素(或者概念元素的組合)之間相互交叉的語義關(guān)系矩陣作分析和抽取,分別得到基于概念搭配的語義關(guān)系、基于句類結(jié)構(gòu)的語義關(guān)系、基于修飾關(guān)系的語義關(guān)系和面向世界知識(shí)的語義關(guān)系;然后再對(duì)各種語義關(guān)系假設(shè)利用目前現(xiàn)場語句分析結(jié)果的校驗(yàn)計(jì)算;語義關(guān)系矩陣中的各個(gè)對(duì)應(yīng)語義關(guān)系在待選句中的發(fā)現(xiàn)和假設(shè)校驗(yàn),以及對(duì)于疑問中心所對(duì)應(yīng)的匹配和目標(biāo)答案概念的相似度計(jì)算;對(duì)語義關(guān)系矩陣中各個(gè)語義關(guān)系的相似度的綜合計(jì)算得到待選句的答案準(zhǔn)確度。
全文摘要
本發(fā)明涉及一種基于自然語言理解的計(jì)算機(jī)信息檢索系統(tǒng)及其檢索方法,由用戶輸入的疑問句啟動(dòng)檢索,系統(tǒng)輸出按照語義相關(guān)程度排序的答案;首先來自互聯(lián)網(wǎng)的文章和內(nèi)容數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過HNC句類分析模塊的處理,獲得具有標(biāo)注的待選答案句知識(shí)庫;其次所述用戶輸入的疑問句首先調(diào)用HNC句類分析模塊處理獲得疑問句的HNC句類結(jié)構(gòu),進(jìn)入疑問句分析模塊進(jìn)行分析,然后進(jìn)入疑問中心分析模塊中處理,并在此基礎(chǔ)上抽取目標(biāo)答案句模式,生成等語義目標(biāo)句模式序列;然后知識(shí)庫中已經(jīng)標(biāo)注的待選答案句與目標(biāo)答案句模式(序列)經(jīng)過句類模式匹配模塊對(duì)詞語,語義塊進(jìn)行概念相似度計(jì)算,對(duì)待選句與目標(biāo)句進(jìn)行比較,獲得句類模式匹配結(jié)果、語義關(guān)系結(jié)構(gòu)識(shí)別匹配結(jié)果、和答案準(zhǔn)確度得分;按照答案正確度排序,并返回結(jié)果。
文檔編號(hào)G06F17/27GK1794240SQ20061003272
公開日2006年6月28日 申請(qǐng)日期2006年1月9日 優(yōu)先權(quán)日2006年1月9日
發(fā)明者梁威 申請(qǐng)人:北京大學(xué)深圳研究生院