專利名稱:一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,涉及到自然語(yǔ)言處理的應(yīng)用技術(shù),具體針 對(duì)網(wǎng)絡(luò)搜索引擎,提出一種基于領(lǐng)域知識(shí)的語(yǔ)義査詢擴(kuò)展方法。
背景技術(shù):
隨著因特網(wǎng)的發(fā)展,美國(guó)的搜索引擎使用率達(dá)到90%,在中國(guó)2008 年也同樣達(dá)到了 72.4%,因特網(wǎng)使用者越來(lái)越傾向于通過(guò)檢索獲取自己 所需要的資源。以搜索引擎為代表的互聯(lián)網(wǎng)公共信息服務(wù)正在蓬勃發(fā)展。 在通用搜索引擎市場(chǎng)被谷歌、微軟、雅虎、百度等著名公司壟斷的情況 下,新的搜索算法和搜索技術(shù)不斷涌現(xiàn),個(gè)性化、專業(yè)化、深入化的垂 直搜索正在成為搜索引擎發(fā)展的又一個(gè)亮點(diǎn),涌現(xiàn)了如酷訊、搜房、和 訊搜索等垂直搜索引擎。
Craig Silverstein、王繼民等學(xué)者通過(guò)對(duì)大規(guī)模搜索引擎實(shí)際查詢
語(yǔ)義距離記錄的分析得出的結(jié)論是無(wú)論是中文還是英文用戶,在使用 搜索引擎進(jìn)行檢索的過(guò)程中,輸入的查詢關(guān)鍵字長(zhǎng)度一般是3-4個(gè)詞, 甚至更短。但是,脫離了自然語(yǔ)言的語(yǔ)義關(guān)聯(lián)性,單純地依賴3-4個(gè)詞 的描述,難以準(zhǔn)確地把握用戶的檢索意圖,獲取理想的搜索結(jié)果。
針對(duì)這個(gè)問(wèn)題,研究者們提出了新的想法運(yùn)用查詢擴(kuò)展技術(shù)來(lái)幫 助用戶擴(kuò)充和組織新的查詢?cè)~,以便更加準(zhǔn)確地描述用戶的査詢需要, 提高檢索的査全率和準(zhǔn)確率。目前,查詢擴(kuò)展作為搜索引擎的新興技術(shù), 越來(lái)越廣泛地吸引了業(yè)界的關(guān)注。
查詢擴(kuò)展方法可以分為手動(dòng)查詢擴(kuò)展和自動(dòng)查詢擴(kuò)展兩類。手動(dòng)查 詢擴(kuò)展需要用戶的大量干預(yù),或者對(duì)所査詢領(lǐng)域具有深入的了解,不適 宜面向大規(guī)模普通用戶。自動(dòng)查詢擴(kuò)展工作,主要使用權(quán)重或者聯(lián)合的 搜索技術(shù)進(jìn)行擴(kuò)展,通常與具體的查詢過(guò)程形成強(qiáng)耦合,難于將方法與 內(nèi)容分離開(kāi)來(lái)。目前,搜索引擎多傾向于采用后一種方法。自動(dòng)?xùn)嗽償U(kuò)展又可以分為全局的査詢擴(kuò)展和局部的查詢擴(kuò)展。局部 査詢擴(kuò)展是從第一次査詢的返回結(jié)果中抽取某一部分文檔,對(duì)檢索詞和 文檔進(jìn)行重新計(jì)算,再生成新的檢索詞,再次進(jìn)行檢索。已經(jīng)證明這種方 法對(duì)信息檢索的效果有所改善,但存在的問(wèn)題是,如果在一次查詢的結(jié) 果集中選取的是與用戶查詢無(wú)關(guān)的內(nèi)容,或者前一次查詢效果不佳時(shí), 那么此方法將無(wú)法獲得更好的結(jié)果。并且,二次查詢將影響搜索引擎的 效率?;谌值牟樵償U(kuò)展方法通常建立同義詞典或者相關(guān)語(yǔ)義詞典, 利用詞典對(duì)用戶的查詢?cè)~進(jìn)行相應(yīng)的擴(kuò)展。詞典可以自動(dòng)、手工或二者 結(jié)合的方式建立。全局查詢擴(kuò)展方式不受前一次查詢結(jié)果的限制,查詢 速度快,算法較為獨(dú)立。但是,現(xiàn)有方法對(duì)擴(kuò)展項(xiàng)中詞語(yǔ)的語(yǔ)義相關(guān)性 缺少足夠重視。
針對(duì)以上問(wèn)題,本發(fā)明提出了基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法。 充分利用各領(lǐng)域內(nèi)可描述的知識(shí),充分挖掘與各查詢?cè)~有語(yǔ)義相關(guān)的各 項(xiàng)。使得新增加的各項(xiàng)具有更加緊密的語(yǔ)義關(guān)聯(lián)性,進(jìn)而提高檢索效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決用戶在使用搜索引擎的時(shí)候,輸入的査詢?cè)~ 較少,不能完整的表達(dá)用戶搜索意愿,因而搜索結(jié)果的召回率和準(zhǔn)確率 不能滿足用戶需要的問(wèn)題,本發(fā)明針對(duì)自然語(yǔ)言的語(yǔ)義關(guān)聯(lián)特性,提出 一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法。
為了實(shí)現(xiàn)所述的目的,本發(fā)明基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法, 包括如下步驟
步驟Sl:根據(jù)對(duì)領(lǐng)域知識(shí)和用戶查詢語(yǔ)句特征的分析構(gòu)建領(lǐng)域知
識(shí)庫(kù),形成描述領(lǐng)域知識(shí)的領(lǐng)域知識(shí)庫(kù);
步驟S2:利用領(lǐng)域知識(shí)庫(kù)內(nèi)容,對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行初步語(yǔ)
義處理,獲得一個(gè)語(yǔ)義項(xiàng)列表;
步驟S3:利用語(yǔ)義項(xiàng)列表,結(jié)合領(lǐng)域知識(shí)庫(kù)內(nèi)容,對(duì)語(yǔ)義項(xiàng)列表中
的每一語(yǔ)義項(xiàng)生成語(yǔ)義步驟S4:根據(jù)語(yǔ)義圖中頂點(diǎn)間的語(yǔ)義距離計(jì)算公式,計(jì)算每個(gè)語(yǔ)義
圖中各頂點(diǎn)與初始頂點(diǎn)間的語(yǔ)義距離,通過(guò)設(shè)定的閾值,選擇可擴(kuò)展頂點(diǎn),作為查詢擴(kuò)展的可擴(kuò)展項(xiàng);
步驟S5:根據(jù)語(yǔ)義項(xiàng)列表中各語(yǔ)義項(xiàng)的邏輯關(guān)系,歸并由每個(gè)語(yǔ)義 圖確定的可擴(kuò)展項(xiàng),將所獲得的可擴(kuò)展項(xiàng)提交搜索系統(tǒng)進(jìn)行查詢,并對(duì) 搜索系統(tǒng)的查詢結(jié)果進(jìn)行分析;
步驟S6:參考搜索系統(tǒng)查詢結(jié)果的召回率和準(zhǔn)確率,調(diào)節(jié)語(yǔ)義圖中 用于計(jì)算語(yǔ)義距離的各可變參數(shù),重新組織領(lǐng)域知識(shí)庫(kù)內(nèi)的知識(shí)。
本發(fā)明的有益效果本發(fā)明提出了一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò) 展方法,計(jì)算時(shí)間短,充分利用了領(lǐng)域知識(shí),新增加的擴(kuò)展語(yǔ)義項(xiàng)與原 査詢短語(yǔ)之間具有明確的語(yǔ)義關(guān)系,能有效的提高搜索系統(tǒng)的召回率和 準(zhǔn)確率。解決了用戶在使用搜索引擎的時(shí)候,因輸入的查詢?cè)~較少,不 能完整的表達(dá)用戶搜索意愿,因而搜索結(jié)果的召回率和準(zhǔn)確率不能滿足 用戶需要的問(wèn)題,本發(fā)明考慮了語(yǔ)言中一詞多義, 一義多表的現(xiàn)象,用 概念描述基礎(chǔ)層知識(shí),用知識(shí)樹(shù)構(gòu)建應(yīng)用層知識(shí),用語(yǔ)義復(fù)合模型描述 簡(jiǎn)單概念與復(fù)合概念之間的語(yǔ)義關(guān)聯(lián),通過(guò)計(jì)算語(yǔ)義圖中各頂點(diǎn)間的語(yǔ) 義距離,對(duì)用戶查詢?cè)~進(jìn)行了基于領(lǐng)域知識(shí)的語(yǔ)義擴(kuò)展,實(shí)現(xiàn)對(duì)初始查 詢短語(yǔ)的語(yǔ)義擴(kuò)展計(jì)算,提高了査詢的準(zhǔn)確率和召回率。此方法提高了 全局査詢擴(kuò)展項(xiàng)的語(yǔ)義相關(guān)性,改善了搜索效果,尤其對(duì)于垂直搜索, 具有較強(qiáng)的實(shí)用價(jià)值。
-
圖1是本發(fā)明基于領(lǐng)域知識(shí)的語(yǔ)義査詢擴(kuò)展方法結(jié)構(gòu)示意圖 圖2是本發(fā)明初步語(yǔ)義處理流程示意圖 圖3是本發(fā)明領(lǐng)域知識(shí)庫(kù)示意圖
圖4是本發(fā)明實(shí)施例概念"泰山_1"知識(shí)表示示意圖 圖5是本發(fā)明實(shí)施例計(jì)算機(jī)領(lǐng)域部分知識(shí)樹(shù)示意圖 圖6是本發(fā)明實(shí)施例由"迎客松"生成的語(yǔ)義圖示意圖 圖7是本發(fā)明具體實(shí)施例的一個(gè)應(yīng)用環(huán)境示意圖
具體實(shí)施例方式
下面結(jié)合附圖,系統(tǒng)地對(duì)本發(fā)明如何實(shí)現(xiàn)基于領(lǐng)域知識(shí)、利用語(yǔ)義
8對(duì)用戶輸入査詢語(yǔ)句進(jìn)行擴(kuò)展做出說(shuō)明。應(yīng)該指出的是,本部分所描述 的過(guò)程僅僅說(shuō)明本發(fā)明在某一個(gè)應(yīng)用中的使用情況,是為了更加清楚的 認(rèn)識(shí)和了解本發(fā)明,而不是對(duì)本發(fā)明的限制。
本發(fā)明的算法流程如圖l所示,通過(guò)對(duì)查詢用戶經(jīng)常使用的查詢?cè)~ 進(jìn)行總結(jié)分析,歸類用戶的查詢意愿,分領(lǐng)域?qū)︻I(lǐng)域內(nèi)的知識(shí)進(jìn)行分類 總結(jié),再通過(guò)機(jī)器學(xué)習(xí)和人工處理等多種方法建立和豐富知識(shí)樹(shù)、概念 庫(kù)、命名實(shí)體庫(kù)、語(yǔ)義支撐分類樹(shù)、語(yǔ)義圖生成規(guī)則等,前述六部分綜 合起來(lái)構(gòu)成描述知識(shí)的領(lǐng)域知識(shí)庫(kù);利用領(lǐng)域知識(shí)庫(kù)提供的概念庫(kù)、領(lǐng) 域知識(shí)樹(shù)和命名實(shí)體庫(kù),對(duì)用戶輸入的査詢語(yǔ)句進(jìn)行初步語(yǔ)義處理,初 步語(yǔ)義處理包括屬性提取、命名實(shí)體識(shí)別和概念分析三個(gè)步驟,經(jīng)過(guò)初 步語(yǔ)義處理之后獲得一個(gè)語(yǔ)義項(xiàng)列表Q',該語(yǔ)義項(xiàng)列表中含有知識(shí)樹(shù)知
識(shí)節(jié)點(diǎn)、命名實(shí)體、概念和字符串四種類型;利用語(yǔ)義項(xiàng)列表,結(jié)合領(lǐng)
域知識(shí)庫(kù)內(nèi)容(例如概念庫(kù)內(nèi)概念間的關(guān)系、知識(shí)樹(shù)、語(yǔ)義支撐分類
樹(shù)和命名實(shí)體庫(kù)),就語(yǔ)義項(xiàng)列表中的每一語(yǔ)義項(xiàng)生成語(yǔ)義圖;根據(jù)語(yǔ)義
圖中頂點(diǎn)間的語(yǔ)義距離計(jì)算公式
計(jì)算每個(gè)語(yǔ)義圖中各頂點(diǎn)V與初始頂點(diǎn)間的語(yǔ)義距離s,通過(guò)設(shè)定
閾值y(最佳閾值的確定通過(guò)實(shí)驗(yàn)獲得, 一般先設(shè)定一個(gè)初始閾值,然 后根據(jù)具體實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié)),選擇可擴(kuò)展頂點(diǎn),作為查詢擴(kuò)展的可擴(kuò)
展項(xiàng);根據(jù)語(yǔ)義項(xiàng)列表中各項(xiàng)的邏輯關(guān)系,歸并由每個(gè)語(yǔ)義圖確定的可 擴(kuò)展項(xiàng),將所獲得的可擴(kuò)展項(xiàng)提交搜索系統(tǒng)進(jìn)行查詢,并對(duì)搜索系統(tǒng)的 查詢結(jié)果進(jìn)行分析;參考搜索系統(tǒng)查詢結(jié)果的召回率和準(zhǔn)確率,調(diào)節(jié)語(yǔ) 義圖中用于計(jì)算語(yǔ)義距離的各可變參數(shù)(乙A,邁,"),重新組織領(lǐng)域 知識(shí)庫(kù)內(nèi)的知識(shí),如對(duì)領(lǐng)域知識(shí)庫(kù)中的知識(shí)樹(shù)進(jìn)行補(bǔ)充或調(diào)整,對(duì)語(yǔ)義 支撐分類樹(shù)的分類層次結(jié)構(gòu)數(shù)量等進(jìn)行調(diào)整。其中根據(jù)搜索結(jié)果對(duì)各可 變參數(shù)進(jìn)行修改,屬于本方法的調(diào)節(jié)試驗(yàn)反饋過(guò)程,故在圖1中用虛線 標(biāo)出。
一次基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展計(jì)算形式化的表示為設(shè)用戶輸 入查詢?cè)~序列為Q,經(jīng)過(guò)初步語(yǔ)義處理后獲得語(yǔ)義項(xiàng)列表Q' , ^EC /"E(^V / OW(257T / 5T7fTM7 / A^ffiSfiW77T入仏一0/,其中臉 表示知識(shí)樹(shù)的節(jié)點(diǎn),OW6S7T表示概念,5T7 /M 表示字符串, 7V^ffi7^7^/7T表示命名實(shí)體,。表示臨時(shí)處理結(jié)果項(xiàng)中,仏由^獲 得。針對(duì)".,建立語(yǔ)義圖,根據(jù)設(shè)定閾值S',最終確定由其擴(kuò)展形成的 新的查詢項(xiàng)f。二/"egef" / e(7e^e^^rap力r^人5Ye^C"二5V。其中 5"e/z^r,力(^J表示?,形成的語(yǔ)義圖,5&W表示在語(yǔ)義圖6^^rap力6 J 中頂點(diǎn)eq與初始頂點(diǎn)間的語(yǔ)義距離,S'表示設(shè)定的語(yǔ)義距離的閾值。根
據(jù)仏之間的(與或非)邏輯關(guān)系,列出五"的邏輯關(guān)系,如《,與^為交的 關(guān)系,則擴(kuò)展獲得的結(jié)果為^%'/7£%',將所有的可擴(kuò)展項(xiàng)(包括它們之 間的邏輯關(guān)系)提交給搜索引擎進(jìn)行檢索。 一、如上述,本發(fā)明中涉及的各部分表述如下 1、領(lǐng)域知識(shí)庫(kù)的表達(dá)和組織
本發(fā)明所述的領(lǐng)域知識(shí)庫(kù)包括概念庫(kù)、命名實(shí)體庫(kù)、同義概念庫(kù)、 知識(shí)樹(shù)、語(yǔ)義支撐分類樹(shù)和語(yǔ)義圖生成規(guī)則等部分。如圖3所示,概念庫(kù) 是整個(gè)領(lǐng)域知識(shí)庫(kù)的表示基礎(chǔ),包括簡(jiǎn)單概念單元和復(fù)合概念單元兩部 分,復(fù)合概念單元將簡(jiǎn)單概念單元存儲(chǔ)的簡(jiǎn)單概念經(jīng)過(guò)語(yǔ)義復(fù)合運(yùn)算獲 得復(fù)合概念并存儲(chǔ);在概念庫(kù)的基礎(chǔ)上,以概念庫(kù)內(nèi)的簡(jiǎn)單概念和復(fù)合 概念為表達(dá)基礎(chǔ),從概念庫(kù)中抽取具有層次關(guān)系的簡(jiǎn)單概念和復(fù)合概 念,按照層次關(guān)系組成表達(dá)領(lǐng)域知識(shí)的知識(shí)樹(shù),知識(shí)樹(shù)分為核心知識(shí)樹(shù) 和支撐知識(shí)分類樹(shù)兩部分,支撐知識(shí)分類樹(shù)用來(lái)描述核心知識(shí)樹(shù)的屬性 和屬性值的層次關(guān)系;同時(shí),在概念庫(kù)中抽取同義概念,形成同義概念 庫(kù);在概念庫(kù)中存在的所有概念中,結(jié)合領(lǐng)域知識(shí)庫(kù)所描述領(lǐng)域的實(shí)際 情況,分離出概念庫(kù)中存在的命名實(shí)體,形成命名實(shí)體庫(kù);考察知識(shí)樹(shù) 節(jié)點(diǎn)的屬性值中不能用知識(shí)樹(shù)模型進(jìn)行表示而具有層次關(guān)系的,按照層 級(jí)關(guān)系列成語(yǔ)義支撐分類樹(shù);在知識(shí)樹(shù)、同義概念庫(kù)、語(yǔ)義支撐分類樹(shù) 和命名實(shí)體庫(kù)的基礎(chǔ)上,按照實(shí)際查詢擴(kuò)展的形成語(yǔ)義圖生成規(guī)則,限 制語(yǔ)義圖生成時(shí)的擴(kuò)展方向和范圍。
各部分詳細(xì)說(shuō)明如下 (l)概念庫(kù)由簡(jiǎn)單概念單元和復(fù)合概念單元兩部分組成。其中,簡(jiǎn) 單概念單元中存儲(chǔ)簡(jiǎn)單概念,復(fù)合概念單元中存儲(chǔ)復(fù)合概念,簡(jiǎn)單概念經(jīng)過(guò)語(yǔ)義復(fù)合運(yùn)算形成復(fù)合概念。
所述的概念與詞之間存在的關(guān)系是詞與概念之間是多對(duì)多的關(guān)系, 一詞多義稱同名概念,多詞一義稱同義概念。同名概念用詞加下標(biāo)形式 區(qū)分,如"先生"這個(gè)詞有三個(gè)基本語(yǔ)義,分別對(duì)應(yīng)三個(gè)概念,"先生 —1"是老師,"先生—2"是對(duì)丈夫的稱呼,"先生—3"表示尊稱。同義 概念在知識(shí)體系中用同義關(guān)系描述,如概念"先生一l"與"老師一l"是 同義概念,則在這兩個(gè)概念之間建立一個(gè)同義關(guān)系。
所述簡(jiǎn)單概念,是通過(guò)編輯或語(yǔ)料庫(kù)機(jī)器學(xué)習(xí)獲得簡(jiǎn)單概念屬性和 屬性值,簡(jiǎn)單概念用{屬性,關(guān)系}二元組表示;屬性是由{屬性名,屬 性值}表示的二元組;屬性名稱的類型是簡(jiǎn)單概念或復(fù)合概念,屬性值 的類型是概念、數(shù)字、字符串、數(shù)組、時(shí)向或布爾值,用于界定概念的 內(nèi)涵;關(guān)系包括父子繼承關(guān)系和部分組成關(guān)系兩類。 一個(gè)詞可能對(duì)應(yīng)多
個(gè)簡(jiǎn)單概念, 一個(gè)簡(jiǎn)單概念可能由多個(gè)詞表示。
所述的概念的屬性和屬性值、以及各概念間的屬性關(guān)系的確定,一
方面可以通過(guò)人工分析然后編輯;另一方面可以采用機(jī)器學(xué)習(xí)的方法,
從大規(guī)模一般語(yǔ)料庫(kù)中獲取概念的屬性和屬性值和概念間關(guān)系,也可以 從各種字典對(duì)詞匯意義的描述中人工分析和提取屬性和屬性值、概念間
關(guān)系出現(xiàn)的特定模式,用計(jì)算機(jī)按照模式自動(dòng)抽取獲得。
所述概念的一個(gè)例子如詞匯"泰山"對(duì)應(yīng)的簡(jiǎn)單概念"泰山_1",
表示山的名稱,為五岳之一,還有另一個(gè)概念"泰山_2",表示岳父的
別稱。對(duì)于概念"泰山—1"可以用屬性"地域"和"海拔"等描述,在 旅游領(lǐng)域中對(duì)名山進(jìn)行分類時(shí),其可以歸為"五岳"的子節(jié)點(diǎn),具體描
述見(jiàn)圖4。
所述的復(fù)合概念為描述短語(yǔ)或句子內(nèi)在語(yǔ)義關(guān)系的語(yǔ)義表達(dá)方式。 按照語(yǔ)義組合方式分類,復(fù)合概念具體有語(yǔ)義約束、語(yǔ)義狀態(tài)和語(yǔ)義邏 輯三種語(yǔ)義結(jié)構(gòu)類型。語(yǔ)義約束用來(lái)描述具有約束性質(zhì)的偏正短語(yǔ),由 {約束,核心}二元組描述兩部分組成,"約束"的類型可以是簡(jiǎn)單概念、 復(fù)合概念、數(shù)字、字符串、布爾值、時(shí)間、數(shù)組,"核心"只能是簡(jiǎn)單概 念或者復(fù)合概念,如"紅色的玫瑰"用一個(gè)語(yǔ)義約束描述,"紅色_1"概 念為約束部分,概念"玫瑰一l"為核心,形式化表示為〈紅色—1:玫瑰一1〉;語(yǔ)義狀態(tài)用來(lái)描述擁有主謂或者動(dòng)賓關(guān)系的短語(yǔ),由{狀態(tài)概念,語(yǔ)義主 格,語(yǔ)義賓格,狀態(tài)列表)四部分組成,狀態(tài)概念、語(yǔ)義主格、語(yǔ)義賓格 和狀態(tài)等四個(gè)元素的類型只能是簡(jiǎn)單概念或復(fù)合概念,如"伍子胥在吳 國(guó)殺了他"用一個(gè)語(yǔ)義狀態(tài)結(jié)構(gòu)表示,狀態(tài)概念相當(dāng)于主謂結(jié)構(gòu)或動(dòng)賓 結(jié)構(gòu)的核心動(dòng)詞,狀態(tài)列表記錄限定或補(bǔ)充動(dòng)作的語(yǔ)義成分;狀態(tài)概念 為"殺_1"表示"使人或動(dòng)物失去生命"的概念,語(yǔ)義主格是"伍子胥 一l"表示歷史上的伍子胥這個(gè)人,語(yǔ)義賓格是"他_1"表示指代,狀態(tài) 列表中有一個(gè)屬性名為"地點(diǎn)一1",對(duì)應(yīng)的狀態(tài)值為"吳國(guó)一1",其形式 化描述為[〈伍子胥_1>殺一1{(地點(diǎn)—h吳國(guó)—1)}〈他—1>];語(yǔ)義邏輯描述 體現(xiàn)了邏輯組合關(guān)系的短語(yǔ)的語(yǔ)義結(jié)構(gòu),由邏輯連詞連接的短語(yǔ),現(xiàn)概 念系統(tǒng)在時(shí)間、空間、事物、狀態(tài)等方面存在的邏輯性組合包括"邏輯
與(AND)","邏輯或(OR)","邏輯表(TABLE)","邏輯異或(XOR, Exclusive Or)"和"邏輯蘊(yùn)含(ENTAIL)"五種邏輯關(guān)系,各邏輯項(xiàng)的類型只能是 簡(jiǎn)單概念或復(fù)合概念,如表示"愛(ài)與恨",為并列關(guān)系,用"邏輯表"來(lái) 描述,形式化表示為L(zhǎng)ogic: (Table愛(ài)—1恨—1)。
所述的由簡(jiǎn)單概念獲得復(fù)合概念的語(yǔ)義復(fù)合運(yùn)算是現(xiàn)有技術(shù),可以 參照中科院自動(dòng)化所博士論文《基于概念網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)義復(fù)合研究》,
該論文在概念網(wǎng)絡(luò)模型及語(yǔ)義復(fù)合表達(dá)模型的基礎(chǔ)上,設(shè)計(jì)了漢語(yǔ)名詞 性短語(yǔ)復(fù)合的計(jì)算框架,分析并建立了名詞性短語(yǔ)語(yǔ)義復(fù)合的計(jì)算機(jī)處 理原型系統(tǒng)。
(2)所述的領(lǐng)域知識(shí)樹(shù)是用來(lái)表示構(gòu)建和存儲(chǔ)某個(gè)領(lǐng)域內(nèi)的各種層 次性知識(shí),描述知識(shí)點(diǎn)間的上下位關(guān)系、組成關(guān)系等,以樹(shù)的形式表 達(dá)。樹(shù)的節(jié)點(diǎn)稱為知識(shí)節(jié)點(diǎn),如圖5所示列出了計(jì)算機(jī)領(lǐng)域的一棵知識(shí) 樹(shù)。知識(shí)節(jié)點(diǎn)包括知識(shí)節(jié)點(diǎn)名稱、知識(shí)節(jié)點(diǎn)語(yǔ)義、知識(shí)節(jié)點(diǎn)的屬性三部 分。知識(shí)節(jié)點(diǎn)的名稱以詞表示,知識(shí)節(jié)點(diǎn)的語(yǔ)義以簡(jiǎn)單概念和復(fù)合概念 形式描述。知識(shí)節(jié)點(diǎn)的屬性包括屬性名和屬性值兩部分。屬性名以概念 形式定義,屬性值可以是概念、字符串、數(shù)字、數(shù)組等。例如一棵領(lǐng)域 知識(shí)樹(shù)為計(jì)算機(jī),成員關(guān)系軟件、硬件;父子關(guān)系為微型計(jì)算機(jī)、工作 站;軟件的父子關(guān)系為數(shù)據(jù)庫(kù)、系統(tǒng)軟件、應(yīng)用軟件等;微型計(jì)算機(jī)的 成員關(guān)系為硬盤、主板等。
12根據(jù)在語(yǔ)義計(jì)算中發(fā)揮的作用,知識(shí)樹(shù)分為核心知識(shí)樹(shù)和語(yǔ)義支撐 知識(shí)分類樹(shù)兩類。核心知識(shí)樹(shù)用來(lái)描述領(lǐng)域內(nèi)主要知識(shí)節(jié)點(diǎn)間的語(yǔ)義關(guān) 系,語(yǔ)義支撐知識(shí)分類樹(shù)描述知識(shí)節(jié)點(diǎn)的屬性名稱和屬性值的語(yǔ)義關(guān) 系,核心知識(shí)樹(shù)是語(yǔ)義計(jì)算的主要依據(jù),語(yǔ)義支撐知識(shí)分類樹(shù)提供的內(nèi) 容,可以從知識(shí)點(diǎn)屬性的角度,為語(yǔ)義計(jì)算提供約束條件,并為核心知 識(shí)點(diǎn)間提供橫向關(guān)聯(lián)。
采用編輯或機(jī)器學(xué)習(xí)的手段從語(yǔ)料庫(kù)中獲得所述領(lǐng)域知識(shí)庫(kù)中的知 識(shí)樹(shù),用來(lái)描述領(lǐng)域知識(shí)的層次性和具體內(nèi)容,知識(shí)樹(shù)形式化表示為 〈知識(shí)樹(shù)〉= <知識(shí)樹(shù)名稱〉<頂層節(jié)點(diǎn)〉*
〈知識(shí)樹(shù)名稱〉= <字符串〉 〈頂層節(jié)點(diǎn)〉= <節(jié)點(diǎn)〉*
<節(jié)點(diǎn)〉=〈序列號(hào)〉〈節(jié)點(diǎn)名稱〉〈節(jié)點(diǎn)概念〉[〈父類節(jié)點(diǎn)〉][與父節(jié) 點(diǎn)關(guān)系][〈子類節(jié)點(diǎn)〉*][〈節(jié)點(diǎn)屬性〉] 〈序列號(hào)〉=〈字符串〉 <節(jié)點(diǎn)名稱> ::=〈字符串〉 〈節(jié)點(diǎn)概念〉二 〈語(yǔ)義表達(dá)〉
〈語(yǔ)義表達(dá)〉二 〈概念〉l〈語(yǔ)義約束〉i〈語(yǔ)義狀態(tài)〉l〈語(yǔ)義邏輯〉 〈父類節(jié)點(diǎn)〉二 〈節(jié)點(diǎn)〉
〈與節(jié)點(diǎn)關(guān)系〉=〈上下位關(guān)系〉I 〈整體與局部關(guān)系〉 <子類節(jié)點(diǎn)> ::二 〈節(jié)點(diǎn)>
<節(jié)點(diǎn)屬性> ::二 〈屬性名稱〉〈屬性值〉 〈屬性名稱〉=〈概念〉1〈復(fù)合概念〉 〈屬性值〉=〈符號(hào)〉
〈符號(hào)〉= <整數(shù)〉|<字符串>|〈浮點(diǎn)數(shù)〉|<日期〉|〈語(yǔ)義表達(dá)〉 其中*表示出現(xiàn)一次或者多次,1表示或,[]表示可選。 其所述的"采用編輯或機(jī)器學(xué)習(xí)的手段從語(yǔ)料庫(kù)中獲得所述領(lǐng)域知 識(shí)庫(kù)中的知識(shí)樹(shù)"為現(xiàn)有機(jī)器學(xué)習(xí)手段,參考自動(dòng)生成本體(Ontology Generation)的相關(guān)算法。
(3〉命名實(shí)體庫(kù)用來(lái)存儲(chǔ)領(lǐng)域內(nèi)的機(jī)構(gòu)名、人名、地名等實(shí)體名。 (4)語(yǔ)義支撐分類樹(shù)描述領(lǐng)域內(nèi)不能按照父子關(guān)系或組成關(guān)系描述的具有層次關(guān)系的知識(shí),語(yǔ)義支撐分類樹(shù)體現(xiàn)知識(shí)節(jié)點(diǎn)的屬性名稱或?qū)?性值的取值之間的層次性語(yǔ)義關(guān)系。例如將知識(shí)節(jié)點(diǎn)的屬性價(jià)格,按照 高、中、低等三個(gè)層次分類,其結(jié)構(gòu)不具備父子和組成的關(guān)系,僅表示 了價(jià)格的上的一種數(shù)量上的遞減關(guān)系,構(gòu)建成為語(yǔ)義支撐分類樹(shù),以便 于支撐語(yǔ)義擴(kuò)展計(jì)算。
(5) 所述的同義概念庫(kù)是由同義概念組成的庫(kù),同義概念的描述從 概念庫(kù)中獲得。
同義概念獲取為現(xiàn)有計(jì)算,可以通過(guò)大規(guī)模語(yǔ)料學(xué)習(xí)獲得,也可以 利用現(xiàn)有的人工編纂的同義概念庫(kù)。
(6) 語(yǔ)義圖生成規(guī)則用來(lái)約束查詢擴(kuò)展的語(yǔ)義計(jì)算過(guò)程,限制在何 中情況下,在知識(shí)樹(shù)上,可以擴(kuò)展到上位節(jié)點(diǎn)或者子節(jié)點(diǎn);在語(yǔ)義支撐
分類樹(shù)上何種情況下不能夠由一個(gè)層次擴(kuò)展到另外一個(gè)層次等。例如在 核心知識(shí)樹(shù)和語(yǔ)義支撐分類樹(shù)中,某個(gè)節(jié)點(diǎn)能否向上下位節(jié)點(diǎn)擴(kuò)展,受
到語(yǔ)義生成規(guī)則的約束。例 'f/YCondif'.on—S(jfc^lCnovvNode〖kn」'n''tta' eKnovvTree(TV) —KnovvNodeExpandecf〖kns—expanded eKnovvTreefTV門/cns—expancfecf
-畫(huà)一公式W 附(Condif'bn—No化nowNocfe〖knjni,tta, eKnovvT"ree順— KnovvNocfeExpanclecl化ns—expandecf eKnovvTree〖TV門
Mcns_expanded eParenfKnovvNodes〖kn—Zni.闊W -—-紐卜2
其中公式l-l表示,如果滿足約束O^c/i^oy^^^則由初始節(jié)點(diǎn)擴(kuò)展 出來(lái)的節(jié)點(diǎn)只能是該初始節(jié)點(diǎn)的子節(jié)點(diǎn);公式l-2表示在擴(kuò)展中沒(méi)有限 制Ow^i"朋」Vo的時(shí)候,初始節(jié)點(diǎn)既可以擴(kuò)展到子節(jié)點(diǎn),也可以向父節(jié) 點(diǎn)擴(kuò)展。如上述公式,6b/7c/2'tio/ —5^6和6b/7力'"o/7—Ab表示一定條件; KnowTree (T》表示知識(shí)樹(shù)L, 7T77一i;^^2/表示初始待擴(kuò)展知識(shí)樹(shù)節(jié) 點(diǎn),^T iL ayps77Qfe^表示擴(kuò)展出來(lái)的節(jié)點(diǎn),z^7o『7Vbofes (^/ _ f <g" 表示知識(shí)節(jié)點(diǎn)A/7—i"i"'a2的父節(jié)點(diǎn)集合,5"t/M77o『7Vbofes(^/7—^7it&"表示知識(shí)節(jié)點(diǎn)A/7—//7/Wa7的子節(jié)點(diǎn)集合。 2、初步語(yǔ)義處理
(1) 所述初步語(yǔ)義處理是依賴于領(lǐng)域知識(shí)庫(kù),對(duì)用戶輸入的查詢語(yǔ) 句進(jìn)行處理,涉及的步驟依次是-
屬性提取掃描查詢語(yǔ)句,通過(guò)字符結(jié)構(gòu)匹配尋找査詢語(yǔ)句與屬性 提取規(guī)則匹配的結(jié)構(gòu),提取到查詢語(yǔ)句擁有該屬性的知識(shí)樹(shù)的節(jié)點(diǎn)和概 念,增加到語(yǔ)義項(xiàng)列表中;
命名實(shí)體識(shí)別,將查詢語(yǔ)句中經(jīng)過(guò)屬性提取后,將剩余的未識(shí)別語(yǔ) 句部分進(jìn)行命名實(shí)體識(shí)別,將獲得的命名實(shí)體增加到語(yǔ)義項(xiàng)列表中;
概念分析將查詢語(yǔ)句中經(jīng)過(guò)命名實(shí)體識(shí)別后,將剩余的未識(shí)別語(yǔ) 句部分進(jìn)行分詞,將每個(gè)分詞獲得的漢語(yǔ)詞匯對(duì)應(yīng)的概念增加到語(yǔ)義項(xiàng) 列表中;査找與這些概念相關(guān)的知識(shí)樹(shù)的節(jié)點(diǎn),獲得知識(shí)樹(shù)的節(jié)點(diǎn),將 獲得的知識(shí)樹(shù)的節(jié)點(diǎn)增加到語(yǔ)義項(xiàng)列表中;
最后,沒(méi)有識(shí)別的字符串作為一個(gè)整體增加到語(yǔ)義項(xiàng)列表中;初步 語(yǔ)義處理獲得的結(jié)果為一個(gè)以概念、知識(shí)樹(shù)的節(jié)點(diǎn)、命名實(shí)體、字符串 四種形式存在的語(yǔ)義項(xiàng)列表。
(2) 所述的屬性提取,是針對(duì)能夠由詞語(yǔ)的組合順序確定的屬性,
根據(jù)屬性提取規(guī)則,選擇屬性計(jì)算函數(shù),確定用戶輸入所針對(duì)屬性內(nèi)容
中屬性的名稱,并利用屬性計(jì)算函數(shù)計(jì)算出該屬性的屬性值的取值范圍,
搜索領(lǐng)域知識(shí)庫(kù),尋找擁有分析獲得的屬性名而且屬性值在屬性計(jì)算函
數(shù)計(jì)算所獲得的范圍內(nèi)的概念、知識(shí)樹(shù)各節(jié)點(diǎn)和命名實(shí)體,增加到語(yǔ)義
項(xiàng)列表中;其中,屬性提取規(guī)則的一般形式為 /F(C,, C2C3…C ) r服7V , va/(a,, ;c))
Re犯/f: CAT = e CA" | a,, e cA:.J欲/ZiW and c&.^"n'(a,. ).va/we e va/(",., x)},
上述屬性提取規(guī)則的意義是,當(dāng)用戶輸入滿足詞匯短語(yǔ)組合;q,…G的 形式時(shí),由屬性提取規(guī)則推理得到,其查詢的屬性是對(duì)應(yīng)的目標(biāo)概念或
者知識(shí)節(jié)點(diǎn)為cj,其中or均具有屬性a;,且屬性s,的屬性值在屬性計(jì) 算函數(shù) 確定的區(qū)間之內(nèi);其中,d滿足
c" ^ ^CWM^£S} , OWC5P7表示概念,^M^WZ^ 表示知
識(shí)樹(shù)知識(shí)節(jié)點(diǎn),Ci是用戶査詢輸入短語(yǔ)中的一種詞匯短語(yǔ)組合形式,例如"200元上下"可以歸結(jié)為結(jié)構(gòu)C "數(shù)字+元+上下",可以該結(jié)構(gòu)提取出價(jià)格屬性,所述的q,^,'《"間取邏輯"或",所述的」雖,,,。,,^表示
屬性ai的屬性值的范圍由屬性計(jì)算函數(shù)raJ(^"確定;表示cA的所有屬性列表;cA.Z"rjYaJ. rahe表示d的屬性列表中屬性名為^的屬性值。
提取出的每一個(gè)屬性間是"與"的關(guān)系,而由每個(gè)屬性確定的知識(shí)節(jié)點(diǎn)或者概念等內(nèi)部的關(guān)系是"并"。
(3)所述概念分析針是指,針對(duì)用戶輸入的查詢語(yǔ)句,以概領(lǐng)域知識(shí)庫(kù)的簡(jiǎn)單概念單元中存儲(chǔ)的簡(jiǎn)單概念為分詞參考,采用概率方法、最大匹配原則或其他方法進(jìn)行分詞,在去掉停止詞后,找到每個(gè)基本詞匯對(duì)應(yīng)的概念,再?gòu)闹R(shí)樹(shù)中查找與這些概念存在語(yǔ)義關(guān)聯(lián)的知識(shí)主題節(jié)點(diǎn),最后綜合每個(gè)詞匯包含的概念和與之相關(guān)的知識(shí)樹(shù)的節(jié)點(diǎn)作為概念分析的結(jié)果,存儲(chǔ)到語(yǔ)義項(xiàng)列表中;
上述"與概念相關(guān)的知識(shí)樹(shù)的節(jié)點(diǎn)"指,知識(shí)樹(shù)中的節(jié)點(diǎn)通過(guò)基礎(chǔ)知識(shí)層中的概念形成語(yǔ)義關(guān)聯(lián),即知識(shí)節(jié)點(diǎn)直接與某個(gè)概念相關(guān),或者知識(shí)節(jié)點(diǎn)的語(yǔ)義組合成分與此概念相關(guān)。例如在"人類精神世界"這棵語(yǔ)義知識(shí)樹(shù)中有名稱為"宗教"和"原始宗教"兩個(gè)知識(shí)節(jié)點(diǎn)。"宗教"的意義是概念"宗教_1","原始宗教"的意義是一個(gè)語(yǔ)義約束,約束的核是"宗教一l",約束項(xiàng)是"原始」",這兩個(gè)節(jié)點(diǎn)由"宗教—1"形成語(yǔ)義關(guān)聯(lián)。
(4)概念分析的結(jié)果是一個(gè)語(yǔ)義項(xiàng)列表,該列表各項(xiàng)包含知識(shí)節(jié)點(diǎn)、概念、命名實(shí)體和字符串四種結(jié)構(gòu)。3、語(yǔ)義圖的生成
(1) 語(yǔ)義圖是一個(gè)以字符串、概念、命名實(shí)體和知識(shí)樹(shù)的節(jié)點(diǎn)作為根節(jié)點(diǎn)的,從知識(shí)樹(shù)的節(jié)點(diǎn)(節(jié)點(diǎn)的意義、屬性和屬性值)、概念(概念的屬性和屬性值)出發(fā),借助同義、父子、組成等語(yǔ)義關(guān)系,進(jìn)行語(yǔ)義擴(kuò)展的,表征語(yǔ)義距離的網(wǎng)絡(luò)結(jié)構(gòu)。
(2) 每個(gè)語(yǔ)義圖的初始頂點(diǎn)為由初步語(yǔ)義處理獲得的語(yǔ)義項(xiàng)列表中的各語(yǔ)義項(xiàng);語(yǔ)義圖的生成由初始頂點(diǎn)開(kāi)始,對(duì)于語(yǔ)義圖的每個(gè)頂點(diǎn),在領(lǐng)域知識(shí)庫(kù)內(nèi),在滿足領(lǐng)域知識(shí)庫(kù)的語(yǔ)義圖生成規(guī)則約束前提下,凡
16滿足r所表示關(guān)系的知識(shí)樹(shù)的節(jié)點(diǎn)、概念、命名實(shí)體均增加為該頂點(diǎn)的子頂點(diǎn),直到該頂點(diǎn)不再能增加新的子頂點(diǎn)為止。
所述語(yǔ)義圖,是在初步語(yǔ)義處理所獲得的結(jié)果的基礎(chǔ)上,形成具有權(quán)值和關(guān)聯(lián)性的以字符串、概念、命名實(shí)體和知識(shí)樹(shù)的節(jié)點(diǎn)為頂點(diǎn)的語(yǔ)
義有向圖,簡(jiǎn)稱語(yǔ)義圖,語(yǔ)義圖的形式用一個(gè)二元組SDG二(V,E)表示,其中,V表示語(yǔ)義圖頂點(diǎn),語(yǔ)義圖頂點(diǎn)內(nèi)容是字符串、知識(shí)樹(shù)的節(jié)點(diǎn)、概念和命名實(shí)體;E表示語(yǔ)義圖的邊,鏈接各個(gè)頂點(diǎn),鏈接頂點(diǎn)i和j的邊E,j表示為Ei產(chǎn)(Vi,Vj,w,rh Vi和Vj是Eij鏈接的兩個(gè)頂點(diǎn),w是邊的權(quán)重,權(quán)重的值域?yàn)閇O,l], r表示擴(kuò)展類型,即兩個(gè)頂點(diǎn)之間的關(guān)系包括上下位關(guān)系例如名山與五岳,五岳與名山,上位關(guān)系用@表示,下位關(guān)系用anti(S表示,知識(shí)樹(shù)的節(jié)點(diǎn)的整體與局部關(guān)系例如計(jì)算機(jī)與硬盤,硬盤與計(jì)算機(jī);整體到局部用%表示,局部到整體anti。/。表示;知識(shí)樹(shù)的節(jié)點(diǎn)的屬性與特征關(guān)系例如實(shí)例"泰山"與其屬性"特征風(fēng)景"的值"泰山日出"的關(guān)系,"泰山日出"是"泰山"的一個(gè)"特征風(fēng)景",屬性值到節(jié)點(diǎn)用#表示,節(jié)點(diǎn)到屬性值用antift;概念的相似關(guān)系例如"便宜"與"廉價(jià)",多指同義詞,用$表示;知識(shí)樹(shù)包含關(guān)系例如如
前文所提到的概念"宗教—1"在"人類精神世界"知識(shí)樹(shù)中有相關(guān)的知識(shí)節(jié)點(diǎn),包含于該知識(shí)樹(shù)中,用&表示。 一次語(yǔ)義擴(kuò)展計(jì)算生成一個(gè)以上的語(yǔ)義圖,語(yǔ)義圖的個(gè)數(shù)由初步語(yǔ)義處理獲得的語(yǔ)義項(xiàng)列表中包含的項(xiàng)數(shù)決定。
(3)語(yǔ)義圖中包含的上述各種關(guān)系都可以直接從領(lǐng)域知識(shí)樹(shù)、語(yǔ)義支撐分類樹(shù)和同義概念庫(kù)中獲得。
(4)根據(jù)語(yǔ)義相關(guān)關(guān)系擴(kuò)展形成語(yǔ)義圖的過(guò)程,與領(lǐng)域知識(shí)緊密相關(guān),同時(shí)還要受到語(yǔ)義圖生成規(guī)則的約束。如圖6是在有限領(lǐng)域知識(shí)條件下,由査詢?cè)~"迎客松"形成的語(yǔ)義圖示意圖,概念"迎客松_1"對(duì)應(yīng)于知識(shí)樹(shù)"旅游景色"中的知識(shí)節(jié)點(diǎn)"迎客松",而"迎客松"又是知識(shí)樹(shù)"旅游景觀"的兩個(gè)節(jié)點(diǎn)"黃山"和"泰山"的都有的屬性"特征風(fēng)景"的屬性值;"黃山"又可以依據(jù)其"特殊風(fēng)景"的另外一個(gè)屬性值蓮花峰得到擴(kuò)展;"黃山"的"地域"屬性的屬性值是"黃山區(qū)",而"黃山區(qū)"又因?yàn)槠湓?地域知識(shí)樹(shù)"中的上位節(jié)點(diǎn)是"黃山"而得到再一次擴(kuò)展;同理,節(jié)點(diǎn)"泰山"根據(jù)屬性"特殊事件"擴(kuò) 展到"封禪",通過(guò)上位節(jié)點(diǎn)擴(kuò)展到"五岳",而"五岳"節(jié)點(diǎn)在知識(shí) 樹(shù)"旅游景觀"中又擁有下位節(jié)點(diǎn)"華山",所以"華山"得到擴(kuò)展;
"泰山"因?yàn)橥x關(guān)系可以擴(kuò)展到"岱宗"。 4、新增查詢擴(kuò)展項(xiàng)的確定
在語(yǔ)義圖中,通過(guò)計(jì)算各節(jié)點(diǎn)與初始頂點(diǎn)間的語(yǔ)義距離,可以確定 該頂點(diǎn)是否可以擴(kuò)展成為新的查詢項(xiàng)。通過(guò)這樣的直接關(guān)聯(lián)的形式加以 擴(kuò)展,語(yǔ)義圖既可以通過(guò)知識(shí)樹(shù)的層級(jí)關(guān)系體現(xiàn)頂點(diǎn)間的語(yǔ)義相關(guān)性, 又可以通過(guò)屬性值的比較體現(xiàn)頂點(diǎn)間的語(yǔ)義相似度。本發(fā)明將語(yǔ)義相似 性和語(yǔ)義相似度用語(yǔ)義距離同一化處理。在語(yǔ)義圖中,每個(gè)頂點(diǎn)相對(duì)初 始頂點(diǎn)都形成一個(gè)語(yǔ)義距離,語(yǔ)義距離量化了各頂點(diǎn)被選中的可能性, 語(yǔ)義距離越小,可能性越大。
兩個(gè)頂點(diǎn)在語(yǔ)義圖中的距離越遠(yuǎn),語(yǔ)義距離越大,語(yǔ)義距離還與擴(kuò) 展計(jì)算的類型,即語(yǔ)義圖中的兩個(gè)節(jié)點(diǎn)之間的關(guān)系相關(guān)。
假設(shè)語(yǔ)義圖擴(kuò)展計(jì)算的一個(gè)中間頂點(diǎn)Vi,其中i)O, i表示當(dāng)前頂 點(diǎn)到語(yǔ)義圖起始頂點(diǎn)的最短擴(kuò)展步數(shù),則頂點(diǎn)Vj相對(duì)于初始頂點(diǎn)的語(yǔ)義 距離定義為S1:<formula>formula see original document page 18</formula>
其中,L表示從初始頂點(diǎn)擴(kuò)展到頂點(diǎn)Vi過(guò)程中第n步擴(kuò)展的類型的 影響因子,是可變參數(shù),Tn取值范圍[O,l],當(dāng)1=0時(shí),Tn=l; k和義分 別表示一個(gè)常數(shù),是一個(gè)可變參數(shù);m是加擴(kuò)展勢(shì)加速衰減因子,m為 不小于2的正整數(shù),為可變參數(shù);
語(yǔ)義圖中的任兩個(gè)頂點(diǎn)Vi、 Vj之間的語(yǔ)義距離用Sij表示
<formula>formula see original document page 18</formula>
i〉j, i和j均表示該頂點(diǎn)到初始頂點(diǎn)的最短擴(kuò)展步數(shù),t:表示從初 始頂點(diǎn)擴(kuò)展到頂點(diǎn)k過(guò)程中第/7步擴(kuò)展的擴(kuò)展類型的影響因子;7;表示 從初始頂點(diǎn)擴(kuò)展到頂點(diǎn)^過(guò)程中第"步擴(kuò)展的擴(kuò)展類型的影響因子。
針對(duì)由特定項(xiàng)形成的語(yǔ)義圖,可以根據(jù)語(yǔ)義圖中各個(gè)頂點(diǎn)與初始頂點(diǎn)之間的語(yǔ)義距離確定其擴(kuò)展的可能性;各頂點(diǎn)間不同的擴(kuò)展類型,具 有不同的擴(kuò)展影響因子,該影響因子針對(duì)不同領(lǐng)域通過(guò)實(shí)驗(yàn)獲得。最終 從每個(gè)語(yǔ)義圖中選擇的擴(kuò)展部分是圖中與頂點(diǎn)的語(yǔ)義距離小于某個(gè)特定 值^的所有頂點(diǎn)集合。5、所述的最后各擴(kuò)展項(xiàng)的邏輯歸各可擴(kuò)展項(xiàng),是指依據(jù)可擴(kuò)展項(xiàng)間的 邏輯關(guān)系,進(jìn)行邏輯運(yùn)算。其中,對(duì)于概念、命名實(shí)體和字符串邏輯與 表示完全相同的進(jìn)行保留,對(duì)于知識(shí)樹(shù)的節(jié)點(diǎn),邏輯與表示完全相同的 保留,如果邏輯運(yùn)算的兩項(xiàng)一項(xiàng)在另外一項(xiàng)的父節(jié)點(diǎn)路徑上,則保留該子接點(diǎn);邏輯或均表示參與邏輯運(yùn)算的兩項(xiàng)都可以保留。形式化表示為設(shè)用戶輸入的査詢語(yǔ)句為G經(jīng)過(guò)初步語(yǔ)義處理后,獲 得的語(yǔ)義項(xiàng)列表為對(duì)于每個(gè)語(yǔ)義項(xiàng)&Cb;7A.^Q^i"經(jīng)過(guò)生成語(yǔ)義圖和可擴(kuò)展項(xiàng)選擇后獲得的可擴(kuò)展項(xiàng)列表設(shè)為^^b77/^^^,^co/7/^j'"澗的邏輯關(guān)系同于^6b/7A之間的邏輯關(guān)系,即若^Kb"p,與i5Kb/7Py之間的關(guān)系是"與"的關(guān)系,那么^76b/^"W,與&6b/7p"S。之間的關(guān)系也是"與"的關(guān)系;其他邏輯情況相同。二、本發(fā)明的詳細(xì)的使用步驟本發(fā)明使用的步驟如下(如圖l所示)第一步驟對(duì)各領(lǐng)域進(jìn)行分析,構(gòu)建領(lǐng)域知識(shí)庫(kù);1.1人工或者自動(dòng)導(dǎo)入詞典,確定各詞所表示的概念,形成概念庫(kù),同時(shí)確定概念的屬性和屬性值;1.2根據(jù)各概念意義,確定各概念間的同義概念,形成同義概念庫(kù);1.3構(gòu)建領(lǐng)域命名實(shí)體庫(kù),人工搜集整理或機(jī)器自動(dòng)抽取識(shí)別該領(lǐng) 域的各命名實(shí)體,以構(gòu)成領(lǐng)域命名實(shí)體庫(kù);1.4分析該領(lǐng)域的知識(shí),提取能夠按照層次性表述的知識(shí),構(gòu)建領(lǐng) 域知識(shí)樹(shù),確定每個(gè)知識(shí)節(jié)點(diǎn)的屬性和屬性值;1.5對(duì)領(lǐng)域內(nèi)不便于用知識(shí)樹(shù)表示的層級(jí)知識(shí),構(gòu)建語(yǔ)義支撐分類樹(shù);1.6根據(jù)已經(jīng)構(gòu)建的領(lǐng)域知識(shí)樹(shù)和語(yǔ)義支撐分類樹(shù),考慮實(shí)際查詢 擴(kuò)展過(guò)程中的各知識(shí)樹(shù)和分類樹(shù)上下位的可擴(kuò)展關(guān)系,形成語(yǔ)義圖生成規(guī)則;
1.7對(duì)該領(lǐng)域的可能査詢短語(yǔ)進(jìn)行分析,結(jié)合知識(shí)樹(shù)知識(shí)節(jié)點(diǎn)和概
念的屬性,確定查詢這些屬性的某些特定的查詢語(yǔ)句結(jié)構(gòu),人工編寫(xiě)或
機(jī)器自動(dòng)學(xué)習(xí),形成特殊屬性提取的識(shí)別規(guī)則; 1.8根據(jù)實(shí)際使用情況,調(diào)用l.卜1.7的內(nèi)容。
第二步驟初步語(yǔ)義處理
2. l處理用戶查詢短語(yǔ)中用邏輯連接符連接的一個(gè)獨(dú)立項(xiàng),流程如
圖2:
2. 1. l屬性提取如圖2中所示S21,對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行掃 描,直到掃描結(jié)束;過(guò)程中如果發(fā)現(xiàn)滿足1.7中構(gòu)建的屬性提取規(guī)則的 結(jié)構(gòu),則運(yùn)用提取規(guī)則得到屬性目標(biāo)概念或知識(shí)節(jié)點(diǎn)放入語(yǔ)義項(xiàng)列表 中。運(yùn)用規(guī)則具體是指根據(jù)規(guī)則選擇屬性計(jì)算函數(shù),確定用戶査詢輸
入針對(duì)的屬性,并推理計(jì)算出該屬性的屬性值范圍s,查詢所有的知識(shí) 節(jié)點(diǎn)和概念,獲得具有該屬性且屬性值在s內(nèi)的知識(shí)節(jié)點(diǎn)和概念,作為
屬性提取的識(shí)別結(jié)果;同一個(gè)屬性對(duì)應(yīng)的多個(gè)概念或知識(shí)節(jié)點(diǎn)為邏輯 "或"的關(guān)系,各個(gè)屬性之間為邏輯"與"的關(guān)系;
2.1.2 :將2. 1.1中未能識(shí)別的查詢語(yǔ)句中屬性提取余下的語(yǔ)句, 進(jìn)行命名實(shí)體識(shí)別如圖2中的S22,將識(shí)別出來(lái)的命名實(shí)體作為識(shí)別結(jié)果 存入到語(yǔ)義項(xiàng)列表中,在用戶查詢短語(yǔ)中刪除識(shí)別出的命名實(shí)體;各命 名實(shí)體為邏輯"與"的關(guān)系;
2.1.3 :將2. 1.2未識(shí)別的用戶輸入查詢短語(yǔ)的部分即非命名實(shí)體 部分,進(jìn)行概念分析如圖2中的S23,以領(lǐng)域知識(shí)庫(kù)中的概念庫(kù)為基礎(chǔ), 采用多種分詞方法進(jìn)行分詞,在去掉停止詞后,掃描分詞結(jié)果序列直到 結(jié)束。如果分詞結(jié)果是基本詞匯并且對(duì)應(yīng)有相應(yīng)概念,則査找概念語(yǔ)義 相關(guān)的知識(shí)樹(shù)知識(shí)節(jié)點(diǎn),綜合分析過(guò)程概念和知識(shí)節(jié)點(diǎn)放入到語(yǔ)義列表 中;如果不是詞匯是字符串,則作為最終未識(shí)別的部分;各詞匯對(duì)應(yīng)的 概念以及與這些概念相關(guān)的知識(shí)節(jié)點(diǎn)是邏輯"或"的關(guān)系,各詞匯之間 對(duì)應(yīng)的各概念和知識(shí)節(jié)點(diǎn)為邏輯"與"的關(guān)系;
2.1.4最終未能識(shí)別的部分,作為字符串處理; 2.2循環(huán)處理各邏輯連接符連接的各部分;
202.3按照2. l中所述的各項(xiàng)的邏輯關(guān)系,結(jié)合用戶査詢短語(yǔ)中的邏 輯符號(hào),對(duì)識(shí)別各項(xiàng)進(jìn)行邏輯組合。 第三步驟生成語(yǔ)義圖3.0所述語(yǔ)義圖,是在初步語(yǔ)義處理所獲得的結(jié)果的基礎(chǔ)上,依靠 領(lǐng)域知識(shí)庫(kù),根據(jù)各項(xiàng)的語(yǔ)義關(guān)系,形成具有權(quán)值和關(guān)聯(lián)性的以字符 串、概念、命名實(shí)體和知識(shí)樹(shù)的節(jié)點(diǎn)為頂點(diǎn)的語(yǔ)義有向圖,其形式用一個(gè)二元組SDG二(V,E)表示,其中,V表示語(yǔ)義圖頂點(diǎn),內(nèi)容是字符串、知 識(shí)樹(shù)的節(jié)點(diǎn)、概念和命名實(shí)體;E表示語(yǔ)義圖的邊,鏈接各個(gè)頂點(diǎn),鏈接 頂點(diǎn)i和j的邊Eij表示為Ei產(chǎn)Wi,Vj,w,r), Vi和Vj是Eij鏈接的兩個(gè)頂點(diǎn),w 是邊的權(quán)重,值域?yàn)閇O,l], r表示擴(kuò)展類型,即兩個(gè)頂點(diǎn)之間的關(guān)系包 括上下位關(guān)系、整體與局部關(guān)系、屬性與特征關(guān)系、相似關(guān)系和知識(shí)樹(shù) 包含關(guān)系;3.1根據(jù)步驟二中識(shí)別的結(jié)果,按3.0中對(duì)語(yǔ)義圖的描述,對(duì)每一 個(gè)步驟二中識(shí)別的結(jié)果項(xiàng),按照上下位關(guān)系、整體與局部關(guān)系、屬性與 特征關(guān)系、相似關(guān)系和知識(shí)樹(shù)包含關(guān)系生成語(yǔ)義圖。第四步驟確定擴(kuò)展項(xiàng)4. 1根據(jù)第三步形成的語(yǔ)義圖,按照權(quán)利要求5,對(duì)語(yǔ)義圖中各頂點(diǎn) 計(jì)算其與初始頂點(diǎn)之間的語(yǔ)義距離,根據(jù)事先設(shè)定的閾值選擇擴(kuò)展項(xiàng); 4.2由同一個(gè)語(yǔ)義圖中擴(kuò)展出來(lái)的各項(xiàng)是邏輯"或"的關(guān)系 第五步驟依據(jù)邏輯關(guān)系歸并各可擴(kuò)展項(xiàng)5.1按照第二步中各項(xiàng)的邏輯歸并關(guān)系,結(jié)合4.2中形成的由語(yǔ)義 圖擴(kuò)展獲得的各項(xiàng)間邏輯關(guān)系,歸并各可擴(kuò)展項(xiàng),形成最終可擴(kuò)展項(xiàng)集 合,提交搜索引擎。第六步驟對(duì)語(yǔ)義圖中語(yǔ)義距離計(jì)算參數(shù)和領(lǐng)域知識(shí)的修改6.1根據(jù)第一步到第五步提交到搜索引擎得到的結(jié)果,修正語(yǔ)義圖 中語(yǔ)義計(jì)算的各參數(shù)值;6.2根據(jù)第一步到第五步提交到搜索引擎得到的結(jié)果,補(bǔ)充修改領(lǐng) 域知識(shí)庫(kù)中存儲(chǔ)的知識(shí)。三、 一個(gè)實(shí)現(xiàn)本發(fā)明具體實(shí)施例的應(yīng)用環(huán)境說(shuō)明為了更好的說(shuō)明本發(fā)明,特列舉一個(gè)實(shí)現(xiàn)本發(fā)明具體實(shí)施例的應(yīng)用系統(tǒng),應(yīng)該注意的是,本例子僅僅是為了更加充分的說(shuō)明本發(fā)明而不是 對(duì)本發(fā)明的限制。
如圖7所示,是本發(fā)明具體實(shí)施例的一個(gè)應(yīng)用環(huán)境。在計(jì)算機(jī)網(wǎng)絡(luò) 中,客戶系統(tǒng)110可以通過(guò)互聯(lián)網(wǎng)120或者其他通信網(wǎng)絡(luò)(例如通過(guò)任 意的LAN或者WAN連接)與多個(gè)服務(wù)器130—1到130_N以及檢索結(jié)果服 務(wù)器150進(jìn)行通訊。用戶通過(guò)用戶系統(tǒng)110輸入檢索語(yǔ)句通過(guò)互聯(lián)網(wǎng)120 或其他網(wǎng)絡(luò)提交查詢意圖,經(jīng)過(guò)本發(fā)明涉及的一種基于領(lǐng)域知識(shí)的語(yǔ)義 查詢擴(kuò)展方法141處理后,形成新的査詢語(yǔ)句提交給檢索結(jié)果服務(wù)器 150,由150計(jì)算獲得相關(guān)的網(wǎng)頁(yè)和網(wǎng)頁(yè)的相關(guān)連接;再由檢索結(jié)果服務(wù) 器150和服務(wù)器130—1至130_N提供數(shù)據(jù),通過(guò)互聯(lián)網(wǎng)120將結(jié)果返回 用戶單元110呈現(xiàn)給用戶;如前所述領(lǐng)域知識(shí)庫(kù)142為本發(fā)明涉及的一 種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法141提供支撐;領(lǐng)域知識(shí)獲取和編 輯系統(tǒng)143用于自動(dòng)或手動(dòng)獲取和編輯領(lǐng)域知識(shí)庫(kù)142中的領(lǐng)域知識(shí)。
其中圖7中所示的多個(gè)元件包含不必在這里詳細(xì)說(shuō)明的公知元件。 例如客戶系統(tǒng)110可以包括桌面電腦、手提電腦、工作站、PDA等任何 之間或間接能夠連接互聯(lián)網(wǎng)120的計(jì)算機(jī)裝置??蛻粝到y(tǒng)110通常運(yùn)行 著能夠允許用戶訪問(wèn)網(wǎng)站或網(wǎng)絡(luò)資源的瀏覽器,如微軟的Internet Explore 瀏覽器、Netscape Navigator 、 Mozilla、 Opera等??蛻粝?統(tǒng)通常還包括一個(gè)或多個(gè)鍵盤、顯示器等用于與用戶以及服務(wù)器130_1 至130一N或其他服務(wù)器提供的各種數(shù)據(jù)進(jìn)行交互的設(shè)備。
圖中涉及的互聯(lián)網(wǎng)120,應(yīng)該理解該單元也可以被其他網(wǎng)絡(luò)或者和 互聯(lián)網(wǎng)一起使用。
一個(gè)實(shí)施例中所述的本發(fā)明的一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方 法141由一個(gè)計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)。其可以集成在檢索結(jié)果服務(wù)器150中, 也可以單獨(dú)設(shè)立計(jì)算機(jī)進(jìn)行運(yùn)行。運(yùn)行在該系統(tǒng)上的程序可以使用多種 編程語(yǔ)言實(shí)現(xiàn)。如C、 C++、 Ctt和JAVA等。根據(jù)搜索系統(tǒng)的大小,承載 該部分的計(jì)算機(jī)設(shè)備可以是普通的PC機(jī),也可以是更高級(jí)的服務(wù)器。
根據(jù)一個(gè)實(shí)施例,檢索結(jié)果服務(wù)器150利用查詢擴(kuò)展141獲得的項(xiàng) 進(jìn)行查詢結(jié)合服務(wù)器130—1至13(LN通過(guò)互聯(lián)網(wǎng)120向用戶系統(tǒng)110提 供檢索結(jié)果;檢索結(jié)果服務(wù)器150至少包括一個(gè)或多個(gè)從互聯(lián)網(wǎng)獲得信息并將這些信息進(jìn)行所索引的工具。例如,至少包括一個(gè)或多個(gè)頁(yè)面連接和數(shù)據(jù)收集工具(如網(wǎng)絡(luò)爬蟲(chóng)web crawler),至少包括自動(dòng)或半自動(dòng) 對(duì)網(wǎng)頁(yè)進(jìn)行分類或排序的算法和界面(如使用GOOGLE的PageRank算法一個(gè)實(shí)施例中涉及的服務(wù)器130—1至130—N用于接受檢索結(jié)果服務(wù) 器150提供的結(jié)果網(wǎng)頁(yè)鏈接要求,為用戶系統(tǒng)110提供網(wǎng)頁(yè)連接。如上所述的服務(wù)器150和130_1等可以是一個(gè)系統(tǒng)也可以是多個(gè)系 統(tǒng),尤其是服務(wù)130系列,其可以是物理上近距離的,也可以是物理上 遠(yuǎn)距離的,可以是一個(gè)也可以是多個(gè)。其針對(duì)檢索系統(tǒng)的規(guī)??梢允瞧?通的服務(wù)器,也可以是更加高端的大型機(jī)。以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并 不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理 解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā) 明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1、一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法,其特征在于包括如下步驟步驟S1根據(jù)對(duì)領(lǐng)域知識(shí)和用戶查詢語(yǔ)句特征的分析,構(gòu)建領(lǐng)域知識(shí)庫(kù),形成描述領(lǐng)域知識(shí)的領(lǐng)域知識(shí)庫(kù);步驟S2利用領(lǐng)域知識(shí)庫(kù)內(nèi)容,對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行初步語(yǔ)義處理,獲得一個(gè)語(yǔ)義項(xiàng)列表;步驟S3利用語(yǔ)義項(xiàng)列表,結(jié)合領(lǐng)域知識(shí)庫(kù)內(nèi)容,對(duì)語(yǔ)義項(xiàng)列表中的每一語(yǔ)義項(xiàng)生成語(yǔ)義圖;步驟S4根據(jù)語(yǔ)義圖中頂點(diǎn)間的語(yǔ)義距離計(jì)算公式,計(jì)算每個(gè)語(yǔ)義圖中各頂點(diǎn)與初始頂點(diǎn)間的語(yǔ)義距離,通過(guò)設(shè)定的閾值,選擇可擴(kuò)展頂點(diǎn),作為查詢擴(kuò)展的可擴(kuò)展項(xiàng);步驟S5根據(jù)語(yǔ)義項(xiàng)列表中各語(yǔ)義項(xiàng)的邏輯關(guān)系,歸并由每個(gè)語(yǔ)義圖確定的可擴(kuò)展項(xiàng),將所獲得的可擴(kuò)展項(xiàng)提交搜索系統(tǒng)進(jìn)行查詢,并對(duì)搜索系統(tǒng)的查詢結(jié)果進(jìn)行分析;步驟S6參考搜索系統(tǒng)查詢結(jié)果的召回率和準(zhǔn)確率,調(diào)節(jié)語(yǔ)義圖中用于計(jì)算語(yǔ)義距離的各可變參數(shù),重新組織領(lǐng)域知識(shí)庫(kù)內(nèi)的知識(shí)。
2、 如權(quán)利要求1所述的基于領(lǐng)域知識(shí)的語(yǔ)義査詢擴(kuò)展方法,其特征 在于所述語(yǔ)義圖,是在初步語(yǔ)義處理獲得的語(yǔ)義項(xiàng)列表結(jié)果的基礎(chǔ) 上,形成具有權(quán)值和關(guān)聯(lián)性的以字符串、概念、命名實(shí)體和知識(shí)樹(shù)的節(jié) 點(diǎn)為頂點(diǎn)的語(yǔ)義有向圖,簡(jiǎn)稱語(yǔ)義圖,語(yǔ)義圖的形式用一個(gè)二元組 SDG^V,E)表示,鏈接頂點(diǎn)i和頂點(diǎn)j的邊Eij表示為E,尸Wi, Vj,w,r), 一次語(yǔ)義擴(kuò)展計(jì)算生成一個(gè)以上的語(yǔ)義圖,語(yǔ)義圖的個(gè)數(shù)由語(yǔ)義項(xiàng)列表 中包含的項(xiàng)數(shù)決定;每個(gè)語(yǔ)義圖的初始頂點(diǎn)為語(yǔ)義項(xiàng)列表中的各語(yǔ)義項(xiàng); 語(yǔ)義圖的生成由初始頂點(diǎn)開(kāi)始,對(duì)于語(yǔ)義圖的每個(gè)頂點(diǎn),在領(lǐng)域知識(shí)庫(kù) 內(nèi),在滿足領(lǐng)域知識(shí)庫(kù)的語(yǔ)義圖生成規(guī)則約束前提下,凡滿足r所表示 關(guān)系的知識(shí)樹(shù)的節(jié)點(diǎn)、概念、命名實(shí)體均增加為該頂點(diǎn)的子頂點(diǎn),直到 該頂點(diǎn)不再能增加新的子頂點(diǎn)為止,上述中,「表示語(yǔ)義圖頂點(diǎn),語(yǔ)義 圖頂點(diǎn)內(nèi)容是字符串、知識(shí)樹(shù)的節(jié)點(diǎn)、概念和命名實(shí)體;^表示語(yǔ)義圖的邊,鏈接各個(gè)頂點(diǎn),Vi和Vj是Eij鏈接的兩個(gè)頂點(diǎn),W是邊的權(quán)重,權(quán)重的值域?yàn)閇O,l], r表示擴(kuò)展類型,即兩個(gè)頂點(diǎn)之間的關(guān)系包括知識(shí)樹(shù) 的節(jié)點(diǎn)的上下位關(guān)系、知識(shí)樹(shù)的節(jié)點(diǎn)的整體與局部關(guān)系、知識(shí)樹(shù)的節(jié)點(diǎn) 的屬性與特征關(guān)系、概念的相似關(guān)系和知識(shí)樹(shù)包含關(guān)系。
3、 如權(quán)利要求2所述的基于領(lǐng)域知識(shí)的語(yǔ)義査詢擴(kuò)展方法,其特征 在于采用編輯或機(jī)器學(xué)習(xí)的手段從語(yǔ)料庫(kù)中獲得所述領(lǐng)域知識(shí)庫(kù)中的 知識(shí)樹(shù),用來(lái)描述領(lǐng)域知識(shí)的層次性和具體內(nèi)容,根據(jù)在語(yǔ)義距離計(jì)算 中發(fā)揮的作用,知識(shí)樹(shù)分為核心知識(shí)樹(shù)和支撐知識(shí)分類樹(shù);核心知識(shí)樹(shù) 用來(lái)描述領(lǐng)域內(nèi)主要知識(shí)點(diǎn)間的語(yǔ)義關(guān)系,語(yǔ)義支撐知識(shí)分類樹(shù)描述知 識(shí)節(jié)點(diǎn)的屬性名稱和屬性值的語(yǔ)義關(guān)系,所述知識(shí)樹(shù)的形式化表示為<知識(shí)樹(shù)〉=〈知識(shí)樹(shù)名稱〉〈頂層節(jié)點(diǎn)〉* 〈知識(shí)樹(shù)名稱〉=〈字符串〉 〈頂層節(jié)點(diǎn)〉二 〈節(jié)點(diǎn)>*<節(jié)點(diǎn)〉= <序列號(hào)><節(jié)點(diǎn)名稱〉<節(jié)點(diǎn)概念〉[〈父類節(jié)點(diǎn)>][與父節(jié) 點(diǎn)關(guān)系][<子類節(jié)點(diǎn)〉*][〈節(jié)點(diǎn)屬性〉] <序列號(hào)> ::二 <字符串> 〈節(jié)點(diǎn)名稱〉二 〈字符串〉 <節(jié)點(diǎn)概念> ::= <語(yǔ)義表達(dá)〉〈語(yǔ)義表達(dá)〉二 <概念〉1<語(yǔ)義約束〉|<語(yǔ)義狀態(tài)〉1<語(yǔ)義邏輯〉 <父類節(jié)點(diǎn)〉= <節(jié)點(diǎn)>〈與節(jié)點(diǎn)關(guān)系〉=〈上下位關(guān)系〉I 〈整體與局部關(guān)系〉 〈子類節(jié)點(diǎn)〉二 <節(jié)點(diǎn)> 〈節(jié)點(diǎn)屬性〉=〈屬性名稱〉〈屬性值〉 〈屬性名稱〉=〈概念〉l〈復(fù)合概念〉 〈屬性值> ::二 <符號(hào)〉〈符號(hào)> ::= <整數(shù)〉|〈字符串〉|〈浮點(diǎn)數(shù)〉|<日期〉|<語(yǔ)義表達(dá)> 其中*表示出現(xiàn)一次或者多次,l表示或,[]表示可選。
4、 如權(quán)利要求1所述的基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法,其特征 在于所述語(yǔ)義距離是對(duì)語(yǔ)義相似性和語(yǔ)義關(guān)聯(lián)性的同一化處理,假設(shè) 語(yǔ)義圖擴(kuò)展計(jì)算的一個(gè)中間頂點(diǎn)其中i》0, i表示當(dāng)前頂點(diǎn)到語(yǔ)義圖起始頂點(diǎn)的最短擴(kuò)展步數(shù),則頂點(diǎn)Vi相對(duì)于初始頂點(diǎn)的語(yǔ)義距離定義 Si為<formula>formula see original document page 4</formula>其中,Tn表示從初始頂點(diǎn)擴(kuò)展到頂點(diǎn)Vi過(guò)程中第n步擴(kuò)展的類型的 影響因子,是可變參數(shù),L取值范圍[O,l],當(dāng)i二O時(shí),Tn=l; k和^分 別表示一個(gè)常數(shù),是一個(gè)可變參數(shù);m是加擴(kuò)展勢(shì)加速衰減因子,m為 不小于2的正整數(shù),為可變參數(shù);語(yǔ)義圖中的任兩個(gè)頂點(diǎn)Vi、 Vj之間的語(yǔ)義距離用Sjj表示<formula>formula see original document page 4</formula>i〉j, i和j均表示該頂點(diǎn)到初始頂點(diǎn)的最短擴(kuò)展步數(shù),7:表示從初始頂點(diǎn)擴(kuò)展到頂點(diǎn)Vi過(guò)程中第/7步擴(kuò)展的擴(kuò)展類型的影響因子;7;表示從初始頂點(diǎn)擴(kuò)展到頂點(diǎn)Vj過(guò)程中第"步擴(kuò)展的擴(kuò)展類型的影響銀子。
5、根據(jù)權(quán)利要求1所述的語(yǔ)義查詢擴(kuò)展方法,其特征在于所述初步語(yǔ)義處理是依賴于領(lǐng)域知識(shí)庫(kù),對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行處理,處理步驟如下步驟S21:掃描査詢語(yǔ)句,通過(guò)字符結(jié)構(gòu)匹配尋找查詢語(yǔ)句與屬性提 取規(guī)則匹配的結(jié)構(gòu),提取得到查詢語(yǔ)句擁有該屬性的知識(shí)樹(shù)的節(jié)點(diǎn)和概 念,增加到語(yǔ)義項(xiàng)列表中;步驟S22:將査詢語(yǔ)句中經(jīng)過(guò)步驟S21屬性提取后,將剩余的未識(shí)別語(yǔ)句部分進(jìn)行命名實(shí)體識(shí)別,獲得的命名實(shí)體,將命名實(shí)體增加到語(yǔ) 義項(xiàng)列表中;步驟S23:將查詢語(yǔ)句中經(jīng)過(guò)步驟S22命名實(shí)體識(shí)別后,將剩余的 未識(shí)別語(yǔ)句部分進(jìn)行分詞,將每個(gè)分詞獲得的漢語(yǔ)詞匯對(duì)應(yīng)的概念增加 到語(yǔ)義項(xiàng)列表中;查找與這些概念相關(guān)的知識(shí)樹(shù)的節(jié)點(diǎn),獲得知識(shí)樹(shù)的 節(jié)點(diǎn),將獲得的知識(shí)樹(shù)的節(jié)點(diǎn)增加到語(yǔ)義項(xiàng)列表中;最后,沒(méi)有識(shí)別的 字符串作為一個(gè)整體增加到語(yǔ)義項(xiàng)列表中;最終獲得一個(gè)語(yǔ)義項(xiàng)列表, 其中每一項(xiàng)的類型是概念、知識(shí)樹(shù)的節(jié)點(diǎn)、命名實(shí)體、字符串四種中的 一種。
6、 如權(quán)利要求5所述的基于領(lǐng)域知識(shí)的語(yǔ)義査詢擴(kuò)展方法,其特征在于所述的屬性提取,是針對(duì)能夠由詞語(yǔ)的組合順序確定的屬性,根 據(jù)屬性提取規(guī)則,選擇屬性計(jì)算函數(shù),確定用戶輸入所針對(duì)屬性內(nèi)容中 屬性的名稱,并利用屬性計(jì)算函數(shù)計(jì)算出該屬性的屬性值的取值范圍; 其中,屬性提取規(guī)則的一般形式為/F(C', C2C3…C ) 血(《,ra/(",, x))Re to/V : C《-{cA e CX (cz, e d J"nZ/W and d^"/7'(a, ).va/we e v"/(a, , x)),上述屬性提取規(guī)則的意義是,當(dāng)用戶輸入滿足詞匯短語(yǔ)組合q,q,"("的形式時(shí),由屬性提取規(guī)則推理得到,其查詢的屬性是對(duì)應(yīng)的目標(biāo)概念或者知識(shí)節(jié)點(diǎn)為CK,其中CK均具有屬性&,且屬性s,的屬性值在屬性計(jì)算函數(shù)val (ai, x)確定的區(qū)間之內(nèi);其中,A滿足dt e {COiVC£P(guān)r 。/ /GWWWODES} , OWG57T表示概念,AM ^Vi9i^5"表示知識(shí)樹(shù)知識(shí)節(jié)點(diǎn),Ci是用戶查詢輸入短語(yǔ)中的一種詞匯短語(yǔ)組合形式,所 述的C',C2,…C"間取邏輯"或",所述的顛(a,,v。/(a,,x))表示屬性s;的屬性值的范圍由屬性計(jì)算函數(shù)M7&,"確定。
7、 如權(quán)利要求1所述的基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法,其特征 在于所述領(lǐng)域知識(shí)庫(kù)包括概念庫(kù),其具有復(fù)合概念單元和簡(jiǎn)單概念單 元;所述的復(fù)合概念單元,將所述簡(jiǎn)單概念單元存儲(chǔ)的簡(jiǎn)單概念經(jīng)過(guò)語(yǔ) 義復(fù)合運(yùn)算獲得復(fù)合概念并存儲(chǔ),從概念庫(kù)中抽取具有層次關(guān)系的簡(jiǎn)單 概念和復(fù)合概念,按照層次關(guān)系組成表達(dá)領(lǐng)域知識(shí)的知識(shí)樹(shù),從概念庫(kù) 中抽取同義概念形成同義概念庫(kù)。
8、 如權(quán)利要求7所述的基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法,其特征 在于所述簡(jiǎn)單概念,是通過(guò)編輯或語(yǔ)料庫(kù)機(jī)器學(xué)習(xí)獲得簡(jiǎn)單概念屬性 和屬性值,簡(jiǎn)單概念用{屬性,關(guān)系}二元組表示;屬性是由(屬性名, 屬性值}表示的二元組;屬性名稱的類型是簡(jiǎn)單概念或復(fù)合概念,屬性 值的類型是概念、數(shù)字、字符串、數(shù)組、時(shí)間或布爾值;關(guān)系包括父子 繼承關(guān)系和部分組成關(guān)系兩類。
全文摘要
本發(fā)明公開(kāi)了一種基于領(lǐng)域知識(shí)的語(yǔ)義查詢擴(kuò)展方法,包括以概念表達(dá)和知識(shí)樹(shù)體系為基礎(chǔ),構(gòu)建領(lǐng)域知識(shí);對(duì)用戶的查詢短語(yǔ)進(jìn)行初步語(yǔ)義分析,形成語(yǔ)義項(xiàng)列表;利用初步語(yǔ)義分析的結(jié)果,以領(lǐng)域知識(shí)為基礎(chǔ),構(gòu)建帶有擴(kuò)展類型和擴(kuò)展權(quán)重的語(yǔ)義圖;計(jì)算語(yǔ)義圖中每個(gè)頂點(diǎn)到初始頂點(diǎn)間的語(yǔ)義距離;根據(jù)語(yǔ)義距離,確定語(yǔ)義項(xiàng)列表中每一項(xiàng)的可擴(kuò)展項(xiàng);最后依靠“與”“或”邏輯關(guān)系合并所有可擴(kuò)展項(xiàng),得到表示用戶查詢意向的語(yǔ)義項(xiàng)集合,并提交搜索系統(tǒng)進(jìn)行搜索。本發(fā)明計(jì)算時(shí)間短,充分利用了領(lǐng)域知識(shí),新增加的擴(kuò)展語(yǔ)義項(xiàng)與原查詢短語(yǔ)之間具有明確的語(yǔ)義關(guān)系,能有效的提高搜索系統(tǒng)的查全率和查準(zhǔn)率。
文檔編號(hào)G06F17/30GK101630314SQ200810116729
公開(kāi)日2010年1月20日 申請(qǐng)日期2008年7月16日 優(yōu)先權(quán)日2008年7月16日
發(fā)明者禾 任, 朋 盧, 楊一平, 琳 陳, 馬良俊, 高一波 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所