專利名稱:一種基于事件本體的查詢擴展方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,具體地說是涉及一種基于事件本體的查詢擴展方法。
背景技術(shù):
在目前的信息檢索模型與系統(tǒng)中,用戶的查詢請求通常以關(guān)鍵詞的形式出現(xiàn),傳統(tǒng)信息檢索利用簡單的詞匹配法則計算文檔特征值與檢索詞間的相似度,往往只有查詢詞出現(xiàn)在文檔中才可能檢索到。因而,經(jīng)常出現(xiàn)與用戶查詢請求相關(guān)的文檔由于用詞不同而無法被檢索出來的情況。詞不匹配成為影響信息檢索效果的重要原因之一。解決這一問題,目前常采用查詢擴展技術(shù)。查詢擴展是指在原查詢詞的基礎(chǔ)上加入相關(guān)的詞,從而組成新的、更準(zhǔn)確的查詢 詞集。它利用計算機語言學(xué)、信息學(xué)等多種技術(shù),以用戶原查詢?yōu)榛A(chǔ),把與原查詢相關(guān)的詞添加到原查詢,以便更完整地描述原查詢所隱含的語義或主題,幫助信息檢索系統(tǒng)提供更多有利于判斷文檔相關(guān)性的信息,是彌補用戶查詢信息不足,改善信息檢索的查全率和查準(zhǔn)率的有效手段。其核心問題是如何設(shè)計和利用擴展詞的來源。本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持。它在計算機領(lǐng)域中的應(yīng)用使查詢擴展從基于關(guān)鍵詞的層面提高到基于知識(或概念)的層面成為了可能。將本體融合到傳統(tǒng)信息檢索技術(shù)中,不僅可以對文檔中的信息進行語義層次上的處理,還可以對用戶的查詢內(nèi)容進行基于本體的聯(lián)想推理,進而得到更為準(zhǔn)確的查詢描述。早在1994年,英國出版的會議論文集!Proceedings of the 17thannual international ACM SIGIR Conference on Research on and developmentininformation retrieval,題目為Query expansion using lexical -semanticrelations (該文作者是Voorhees E.),該文提出了基于本體的查詢擴展的方法,使用了本體中的概念進行查詢擴展,并得出最有效的擴展方式是利用本體中的同義概念和父子關(guān)系進行擴展的結(jié)論。在2000年中國出版的期刊計算機工程,題目為本體論與信息檢索(該文作者是廖明宏),該文對概念化和本體論進行了比較,試圖對本體論做形式化的描述,并在此基礎(chǔ)上討論了基于本體論的信息檢索方法。在2003 年加拿大出版的會議論文集!Proceedings of the IstInternationalWorkshop on Adaptive Text Extraction and Mining,題目為An analysis ofontology-based query expansion strategies (該文作者是Navigli R. , Velardi P.),該文提出了基于本體注釋的查詢擴展方法。該方法假定了在本體中相似的概念或術(shù)語也具有相似的定義,使用了 WordNet擴充了本體中概念的注釋。在計算擴展概念之間的相似度時,根據(jù)概念注釋中出現(xiàn)的單詞或短語統(tǒng)計計算概念的相似度。在2004 年美國出版的期刊Behavior Research Methods, Instruments,& Computers, 題目為Semantic distance norms computed from anelectronicdictionary (wordnet)(該文作者是Maki ff. , McKinley L. , Thompson A.),該文提出了基于本體結(jié)構(gòu)的擴展方法,基本的思想是利用本體中的結(jié)構(gòu)圖來進行查詢的擴展。在本體的結(jié)構(gòu)圖中,概念的節(jié)點之間有著連通的路徑,對用戶查詢內(nèi)容進行擴展的時候,可以選擇與該概念節(jié)點連通的路徑上的概念。在2005年中國出版的期刊南京大學(xué)學(xué)報,題目為基于本體的信息檢索模型研究(該文作 者是宋峻峰,張維明,肖衛(wèi)東,唐九陽),該文提出的基于本體的信息檢索模型采用了描述邏輯作為本體的描述語言,使用本體中定義的詞匯來標(biāo)記文檔,生成基于本體的文檔邏輯視圖和用戶信息需求邏輯視圖,從而實現(xiàn)語義層次的檢索,使檢索性能有所改
盡
口 o近幾年,有些學(xué)者開始在基于本體的查詢擴展中引入了事件的思想。在2005年中國香港出版的會議論文集!Proceedings of the 2005 IEEEInternational Conference one-Technology, e-Commerce and e-Service,題目為Event_based ontology design forretrieving digital archiveson human religious self-help consulting(該文的作者是Lin H.F.,LiangJ.M.),該文提出了一種稱為“事件本體”的檢索技術(shù)。該本體的頂層概念為事件的要素(如地點、時間等),將事件的構(gòu)成要素作為該本體中的主要分類,在檢索的時候可以按事件要素對查詢詞進行擴展。在2007年中國出版的會議論文集Proceedings of the 2007IEEEInternational conference on natural language processing andknowledgeengineering,題目為!Reconstruction of people information based onanevent ontology (該文的作者是Han Y.),該文提出了一種基于事件的人物本體模型,他認(rèn)為可以根據(jù)人物之間的關(guān)系構(gòu)造本體,同時人物會關(guān)聯(lián)一些特定的事件,事件可以作為人物的一類屬性??梢姡诒倔w的信息檢索已經(jīng)有了很多研究成果,對事件的檢索也已經(jīng)引起了一些學(xué)者的注意。但已有的本體在查詢擴展中的應(yīng)用仍然是以傳統(tǒng)的概念本體為基礎(chǔ)。事件是關(guān)聯(lián)了時間、地點、人物等多個要素,比概念更大的語義資源,事件本體是共享的客觀存在的事件類系統(tǒng)模型的明確的形式化規(guī)范說明,以事件本體為語義資源的查詢擴展技術(shù)有待研究提出。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于事件本體的查詢擴展方法,該方法基于已有的事件本體語義資源進行查詢擴展,能提高事件類信息查詢的準(zhǔn)確率。為了解決上述問題,本發(fā)明采用下述技術(shù)方案一種基于事件本體的查詢擴展方法,其具體步驟如下(I)、在指定的查詢框中分別輸入查詢事件的觸發(fā)詞、時間、地點、人物四個要素;(2)、對輸入的時間要素的格式進行規(guī)整,統(tǒng)一規(guī)整為〈年,月,日〉三元組的形式;(3)、對輸入的地點要素依據(jù)地點本體進行擴展;
(4)、根據(jù)輸入的查詢事件的觸發(fā)詞,判斷查詢事件所屬的事件本體的領(lǐng)域;(5)、選取特定領(lǐng)域的事件本體進行查詢擴展;(6)、計算查詢項與文本的相似度,獲取的結(jié)果文本按照相似度的大小降序排列輸出。上述步驟(3)中所述的對
權(quán)利要求
1.一種基于事件本體的查詢擴展方法,其特征在于,其具體步驟如下 (1)、在指定的查詢框中分別輸入查詢事件的觸發(fā)詞、時間、地點、人物四個要素; (2)、對輸入的時間要素的格式進行規(guī)整,統(tǒng)一規(guī)整為〈年,月,日〉三元組的形式; (3)、對輸入的地點要素依據(jù)地點本體進行擴展; (4)、根據(jù)輸入的查詢事件的觸發(fā)詞,判斷查詢事件所屬的事件本體的領(lǐng)域; (5)、選取特定領(lǐng)域的事件本體進行查詢擴展; (6)、計算查詢項與文本的相似度,獲取的結(jié)果文本按照相似度的大小降序排列輸出。
2.根據(jù)權(quán)利要求I所述的一種基于事件本體的查詢擴展方法,其特征在于,上述步驟(3)中所述的對輸入的地點要素依據(jù)地點本體進行擴展,其具體步驟如下 (3-1)、在地點本體中找到輸入的地點要素; (3-2)、將輸入的地點要素的所有子概念按層次依次擴展。
3.根據(jù)權(quán)利要求I所述的一種基于事件本體的查詢擴展方法,其特征在于,上述步驟(4)中根據(jù)輸入的查詢事件的觸發(fā)詞,判斷查詢事件所屬的事件本體的領(lǐng)域,其具體步驟如下 (4-1)、對領(lǐng)域事件本體的事件類進行排序,假設(shè)領(lǐng)域事件本體有n個,分別記作EQ1,EQ2, A,EQn, EQid ^ i ^ n)中的事件類按照重要度的大小降序排列得到的事件類集合是ECi = {ECn,ECi2,AjECij, A}; (4-2)、用輸入的事件觸發(fā)詞依次與每個領(lǐng)域事件本體EQi中的事件類集合ECi比對,記下事件觸發(fā)詞在ECi中出現(xiàn)的序號為Ici (I ( i Sn),如果ECi中無此事件觸發(fā)詞,則匕值設(shè)置為機器最大數(shù); (4-3)最后,取序號最小的匕即為所屬的事件本體。
4.根據(jù)權(quán)利要求3所述的根據(jù)輸入的查詢事件觸發(fā)詞,判斷查詢事件所屬的事件本體的領(lǐng)域,其特征在于,上述步驟(4-1)中對領(lǐng)域事件本體的事件類進行排序,其具體步驟如下 (4-1-1)、初始化事件本體中每個事件類的重要度,對事件類集合ECi中的每個事件類的重要度的初始化公式為R(ECij) = -n 其中,R(ECij)是事件類ECij的重要度,n是事件類集合ECi中事件類的個數(shù); (4-1-2)、初始化每個事件類的Authorities值和Hubs值均為0 ; (4-1-3)、計算每個事件類的Authorities值,計算每個事件類的Authorities值公式為 Sy =X wgjgeIn(ECv) 其中,Sij是事件類ECij的Authorities值,In(ECij)表示鏈入ECij的事件類集合,R(ECig)lri是事件類ECig的第k-1次迭代時的重要度,Wgj是事件類ECig對事件類ECij的影響因子; (4-1-4)、計算每個事件類的Hubs值,計算每個事件類的Hubs值公式為
5.根據(jù)權(quán)利要求I所述的一種基于事件本體的查詢擴展方法,其特征在于,上述步驟(5)中所述的選取特定領(lǐng)域的事件本體進行查詢擴展,其具體步驟如下 (5-1)、假設(shè)擴展項的個數(shù)限定為S,已選取的擴展項的個數(shù)m ;根據(jù)此領(lǐng)域事件本體的事件實例包含的要素進行擴展,如果待擴展的要素已經(jīng)包含在輸入的查詢項中,則不進行此要素的擴展;如果m > S,則停止擴展; (5-2)、根據(jù)此領(lǐng)域事件本體的事件類包含的要素進行擴展,如果待擴展的要素已經(jīng)包含在輸入的查詢項中,則不進行此要素的擴展;如果m > S,則停止擴展; (5-3)、根據(jù)此領(lǐng)域事件本體的事件類之間的分類關(guān)系進行擴展,添加事件類下的所有子事件類,如果m > S,則停止擴展; (5-4)、根據(jù)此領(lǐng)域事件本體的事件類之間的關(guān)聯(lián)強度進行擴展,如果m > S,則停止擴展。
全文摘要
本發(fā)明公開了一種基于事件本體的查詢擴展方法,其步驟如下(1)輸入查詢事件的觸發(fā)詞、時間、地點、人物四個要素;(2)對輸入的時間要素的格式進行規(guī)整;(3)對輸入的地點要素依據(jù)地點本體進行擴展;(4)判斷查詢事件所屬的事件本體的領(lǐng)域;(5)進而,選取特定領(lǐng)域的事件本體進行查詢擴展;(6)最后,計算查詢項與文本的相似度,按照相似度的大小降序排列輸出檢索文本。該方法使用事件四元組的思想,基于已有的事件本體語義資源進行查詢擴展,能顯著的提高事件類信息查詢結(jié)果的準(zhǔn)確率。
文檔編號G06F17/30GK102760140SQ201110110808
公開日2012年10月31日 申請日期2011年4月29日 優(yōu)先權(quán)日2011年4月29日
發(fā)明者仲兆滿, 李存華, 管燕, 陳宗華, 陳永江 申請人:江蘇金鴿網(wǎng)絡(luò)科技有限公司, 淮海工學(xué)院