專利名稱:自動構(gòu)建用于相關(guān)信息瀏覽的信息組織結(jié)構(gòu)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及信息組織,更具體而言,涉及用于自動構(gòu)建用于相關(guān)信息瀏覽
的信息組織結(jié)構(gòu)的方法和系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,市場上與數(shù)據(jù)挖掘相關(guān)的技術(shù)和工具越來越多, 從而用戶可能收集到大量其感興趣的信息,而這些收集到的信息可能與某些特殊實體(例 如查詢項目)相關(guān)。 面對收集到的信息集合,用戶可能存在兩種基本需求。 一是定位到他/她正在尋 找的信息,二是瀏覽整個信息集合所覆蓋的所有內(nèi)容并執(zhí)行更深入的分析。前者被稱為"信 息檢索需求",而后者被稱為"信息組織需求"。 某些搜索引擎可以被應(yīng)用到信息集合,并且可以作為一種合適的工具以用于滿足 信息檢索需求。然而,對于信息組織需求,由搜索引擎所提供的搜索結(jié)果列表通常無法有效 地滿足,這是因為閱讀整個列表和生成組織方法都需要人為參與,因此需要花費用戶大量 的時間和人力。為了幫助用戶瀏覽收集到的信息集合,首先應(yīng)該針對信息集合建立有效的 組織結(jié)構(gòu)。具有良好可讀性的信息組織結(jié)構(gòu)能夠幫助用戶更容易地理解信息對象并且更快 速地導(dǎo)航到其感興趣的信息,因此如何針對收集到的信息集合構(gòu)建優(yōu)質(zhì)的組織結(jié)構(gòu)已經(jīng)成 為本領(lǐng)域內(nèi)的一個普遍問題。 通常,建立信息組織結(jié)構(gòu)的傳統(tǒng)做法是自動提取出信息集合中的信息元素,并根 據(jù)信息集合中信息元素之間的關(guān)系來建立適當(dāng)?shù)慕Y(jié)構(gòu)。例如,2004年7月30日遞交的題為 "System and Method for CategoryOrganization"的美國專利申請US 2006/0026190A1提 出了一種從收集到的文檔集合中自動發(fā)現(xiàn)組織結(jié)構(gòu)的方法。該美國申請的全部內(nèi)容通過引 用被結(jié)合于此,以用于所有目的。根據(jù)該方法,用戶首先生成在文檔集合中最頻繁出現(xiàn)的前 N(例如N = 50)個詞項的列表。然后,針對該列表生成一位矢量矩陣(大小為NXM)。矩 陣中的每一行代表列表中的一個詞項,其構(gòu)成一長度為M的位矢量,其中M為文檔集合中文 檔的數(shù)目。該位矢量中的每一位可以基于該詞項在文檔中的狀態(tài)生成,如果該詞項存在于 文檔中則為l,如果不存在則為O。在生成位矢量矩陣之后,將基于該矩陣生成所有位矢量 之間的所有預(yù)測關(guān)系,并將得到的預(yù)測關(guān)系存儲在詞項預(yù)測矩陣中。所述詞項預(yù)測矩陣是 一個大小為NXN的矩陣。然后,基于該預(yù)測矩陣來確定肯定對列表和否定對列表,并通過 預(yù)定過程最終構(gòu)建出組織結(jié)構(gòu)。例如,圖l示出利用該方法所生成的信息組織結(jié)構(gòu)示例。
參考圖1所示示例,可以發(fā)現(xiàn),根據(jù)現(xiàn)有技術(shù)所提供的方法生成的信息組織結(jié)構(gòu) 不具有良好的可讀性。具體而言,在生成的信息組織結(jié)構(gòu)上的各個信息對象類別難以被 用戶所理解。例如,圖1所示結(jié)構(gòu)上的各個類別"not-battery-will-charge"、"screen"、 "screen-dim"等含義模糊,使得用戶難以理解。另外,在某些情況下,所生成的類別樹缺乏 合理性。例如,在圖1所示示例中總共生成兩個并列的根節(jié)點,即"main"和"main2",這為 用戶隨后進行的信息導(dǎo)航帶來困難。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題,研制了本發(fā)明。本發(fā)明提出一種針對實體相關(guān) 信息自動構(gòu)建信息組織結(jié)構(gòu)的方法和系統(tǒng),其相對于現(xiàn)有技術(shù),大大提高了所生成的信息 組織結(jié)構(gòu)的可讀性。 根據(jù)本發(fā)明第一方面,提出了一種用于自動構(gòu)建信息組織結(jié)構(gòu)的方法,該方法包 括輸入目標(biāo)實體;從信息對象集合中檢索出與所述目標(biāo)實體相關(guān)的信息對象;提取出與 所述目標(biāo)實體相關(guān)的多個主題;基于提取出的所述主題搜索現(xiàn)有結(jié)構(gòu)資源,以識別出與所 述目標(biāo)實體相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng)的實體;以及通過比較所述目標(biāo)實體和每個所述識別 出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中選擇匹配結(jié)構(gòu),用于組織所述檢索出的與所述目標(biāo) 實體相關(guān)的信息對象。 根據(jù)本發(fā)明第二方面,提出了一種用于自動構(gòu)建信息組織結(jié)構(gòu)的系統(tǒng),該系統(tǒng)包 括輸入裝置,用于輸入目標(biāo)實體;信息對象檢索裝置,用于從信息對象集合中檢索出與所 述目標(biāo)實體相關(guān)的信息對象;主題提取裝置,用于提取出與所述目標(biāo)實體相關(guān)的多個主題; 現(xiàn)有結(jié)構(gòu)識別裝置,用于基于提取出的所述主題搜索現(xiàn)有結(jié)構(gòu)資源,以識別出與目標(biāo)實體 相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng)的實體;以及匹配結(jié)構(gòu)獲取裝置,用于通過比較所述目標(biāo)實體和 每個所述識別出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中選擇匹配結(jié)構(gòu),用于組織檢索出的與 所述目標(biāo)實體相關(guān)的信息對象。 隨著網(wǎng)絡(luò)信息的不斷積累,已經(jīng)存在大量用于詳細描述特定實體的知識源(例 如wikipedia、 Baidu Baike等)以及相關(guān)網(wǎng)站。例如"中國杭白菊在線"http:〃www. chinahbj.com就是這樣一種介紹和詳細描述中國茶葉的網(wǎng)站。在這些知識源和網(wǎng)站中已經(jīng) 存在很多現(xiàn)有結(jié)構(gòu)能夠被更新和借鑒,以用于組織其他實體。利用本發(fā)明所提出的方法,通 過借鑒現(xiàn)有結(jié)構(gòu),所生成的信息組織結(jié)構(gòu)具有良好的可讀性。具體地講,可以主要體現(xiàn)在以 下兩個方面 首先,現(xiàn)有結(jié)構(gòu)的節(jié)點通常表現(xiàn)為簡單的短語或句型,因此其內(nèi)容容易被用戶 所理解。例如,"不配備可充電電池組"這樣的信息類別顯然比上述現(xiàn)有技術(shù)中所形成的 "not-batteryiill-charge"之類的類別更容易被用戶所接受。因此,根據(jù)本發(fā)明所形成的 信息組織結(jié)構(gòu)上的節(jié)點比從文檔自動生成的節(jié)點具有更好的可讀性。 其次,通過挖掘和分析盡可能多的相似結(jié)構(gòu)并且考慮到信息對象在結(jié)構(gòu)中的分 配,本發(fā)明所提出的系統(tǒng)能夠整合、調(diào)整并改進現(xiàn)有結(jié)構(gòu),進而針對給定實體建立更全面且 更合適的組織結(jié)構(gòu)。例如,假設(shè)在網(wǎng)絡(luò)上已經(jīng)存在若干關(guān)于不同種類中國茶葉(例如綠茶、 紅茶等等)的網(wǎng)站。從這些網(wǎng)站中可以提取出用于組織已知茶葉種類(即綠茶和紅茶)的 多個結(jié)構(gòu),這些結(jié)構(gòu)上的相關(guān)節(jié)點被稱為"信息類別(category)",用于詳細描述相關(guān)茶葉 種類的各個方面,例如常識、品種、精品、功效、鑒別等等。從所有這些已知方面來描述一種 新的茶葉種類(例如菊花茶) 一定是非常全面的。此外,通過刪除掉所含信息較少的類別 (例如,針對菊花茶,"鑒別"類別的信息可能較少)以及針對包含大量信息項目的類別創(chuàng) 建更多更詳細的子類別(例如,針對菊花茶,可以將"功效"類別進一步劃分成"保健"、"醫(yī) 療"、"營養(yǎng)價值"等子類別),則可以進一步調(diào)整和改進所生成的信息組織結(jié)構(gòu)。
從下面結(jié)合附圖的詳細描述中,可以更明確地看出本發(fā)明的以上及其他特征和優(yōu)點。注意,本發(fā)明并不局限于圖中所示的示例或者任何具體的實施例。
結(jié)合附圖,從下面對本發(fā)明優(yōu)選實施例的詳細描述,將更好地理解本發(fā)明,附圖中 類似的參考標(biāo)記指示類似的部分,其中 圖1是示出利用現(xiàn)有技術(shù)建立的信息組織結(jié)構(gòu)的示例的示意圖; 圖2是示出根據(jù)本發(fā)明第一實施例的信息組織結(jié)構(gòu)自動創(chuàng)建系統(tǒng)200的結(jié)構(gòu)框
圖; 圖3是示出根據(jù)本發(fā)明第二實施例的信息組織結(jié)構(gòu)自動創(chuàng)建系統(tǒng)300的結(jié)構(gòu)框 圖; 圖4是示出圖3所示系統(tǒng)300的工作過程的示例的流程圖;
圖5是用于舉例說明主題提取過程和現(xiàn)有結(jié)構(gòu)識別過程的示意圖;
圖6是用于舉例說明結(jié)構(gòu)集成過程的示意圖;以及
圖7是用于舉例說明信息對象分配過程和結(jié)構(gòu)調(diào)整過程的示意圖。
具體實施例方式
下面參考附圖描述根據(jù)本發(fā)明的示例性實施例。應(yīng)當(dāng)意識到,所描述的實施例僅 是用于舉例說明的目的,本發(fā)明并不限于所描述的具體實施例。 圖2以框圖形式示出根據(jù)本發(fā)明第一實施例的信息組織結(jié)構(gòu)自動創(chuàng)建系統(tǒng)200的 內(nèi)部結(jié)構(gòu)。如圖所示,該系統(tǒng)200主要包括輸入裝置201、信息對象檢索裝置202、主題提取 裝置203、現(xiàn)有結(jié)構(gòu)識別裝置204和匹配結(jié)構(gòu)獲取裝置205。另外,為了配合系統(tǒng)模塊的操 作,系統(tǒng)200還包括信息對象集合206、外部資源庫207和背景知識數(shù)據(jù)庫208。在圖2所 示系統(tǒng)中,用戶可以首先通過輸入裝置201輸入適當(dāng)?shù)哪繕?biāo)實體。所謂"實體",可以是用戶 感興趣的信息集合所討論的主題,也可以被擴展到用戶所輸入的查詢返回的結(jié)果所呈現(xiàn)的 主題。例如,在以下描述中,目標(biāo)實體可以是"菊花茶"、"軟件"等由用戶輸入的感興趣的項 目。 用戶通過輸入裝置201所輸入的目標(biāo)實體隨后被發(fā)送到信息對象檢索裝置202。 信息對象檢索裝置202可以利用目標(biāo)實體檢索信息對象集合206,以獲取與目標(biāo)實體相關(guān) 的信息對象的集合,并將其存儲到背景知識數(shù)據(jù)庫208中(即信息對象2081)。隨后,在外 部資源庫207中所存儲的外部資源的配合下,系統(tǒng)200通過相關(guān)主題提取、現(xiàn)有結(jié)構(gòu)識別、 匹配結(jié)構(gòu)選擇等過程生成適當(dāng)?shù)男畔⒔M織結(jié)構(gòu),以用于組織信息對象檢索裝置202檢索出 的與目標(biāo)實體相關(guān)的信息對象。關(guān)于系統(tǒng)200以及內(nèi)部組件的工作過程隨后將更詳細描 述。 圖3示出根據(jù)本發(fā)明第二實施例的信息組織結(jié)構(gòu)自動創(chuàng)建系統(tǒng)300的內(nèi)部結(jié)構(gòu)。 與圖2所示第一實施例的系統(tǒng)200相比,系統(tǒng)300的區(qū)別在于除了上述系統(tǒng)200所包含的 必要組件之外,系統(tǒng)300還包括結(jié)構(gòu)集成裝置209、信息對象分配裝置210和匹配結(jié)構(gòu)調(diào)整 裝置211。圖3中以虛線框的形式標(biāo)識出這些附加組件。另外,作為示例,圖3還示出匹配 結(jié)構(gòu)獲取裝置205的一種內(nèi)部結(jié)構(gòu)示例,其例如包括實體比較單元2051和匹配結(jié)構(gòu)選擇單 元2052。在根據(jù)本發(fā)明的系統(tǒng)通過操作生成多個匹配的信息組織結(jié)構(gòu)的情況下,結(jié)構(gòu)集成裝置209可被用于對生成的結(jié)構(gòu)進行集成,以得到最終的可被用于組織信息的結(jié)構(gòu)。信息 對象分配裝置210用于將檢索出的與目標(biāo)實體相關(guān)的信息對象分別分配到所生成的信息 組織結(jié)構(gòu)上的不同類別。匹配結(jié)構(gòu)調(diào)整裝置211被配置用于根據(jù)信息對象的分配結(jié)果對所 生成的信息組織結(jié)構(gòu)進行調(diào)整。關(guān)于系統(tǒng)300中附加組件的工作過程隨后將更詳細描述。
圖4是示出圖3所示系統(tǒng)300的工作過程的示例的流程圖,其中步驟401-405與 根據(jù)第一實施例的系統(tǒng)200的工作過程相對應(yīng),而以虛線框示出的步驟406-408示出系統(tǒng) 300中的附加組件結(jié)構(gòu)集成裝置209、信息對象分配裝置210和匹配結(jié)構(gòu)調(diào)整裝置211的操 作。參考圖4,首先,在步驟401中,用戶可以通過輸入裝置201輸入目標(biāo)實體E,該目標(biāo)實 體例如是"菊花茶"。然后,在步驟402中,信息對象檢索裝置202利用傳統(tǒng)方法從信息對象 集合206中檢索出與目標(biāo)實體E相關(guān)的信息對象的集合DS,并將其存儲到背景知識數(shù)據(jù)庫 208中(即信息對象2081)。例如,用戶可以將目標(biāo)實體"菊花茶"送到搜索引擎或者自有 的文檔數(shù)據(jù)庫,從而檢索出與"菊花茶"相關(guān)的文檔,作為信息對象存儲到背景知識數(shù)據(jù)庫 208中。在背景知識數(shù)據(jù)庫208中,可以采取任意簡單的數(shù)據(jù)結(jié)構(gòu)來存儲檢索出的信息對 象。例如,該數(shù)據(jù)結(jié)構(gòu)可以包含兩個字段,即信息對象ID和信息對象本身。在步驟403中, 主題提取裝置203可以從檢索出的信息對象的集合DS中直接提取出與目標(biāo)實體E相關(guān)的 多個主題TS,并將提取出的主題同樣存儲到背景知識數(shù)據(jù)庫208中,作為主題2082。例如, 主題提取裝置203從信息對象集合中提取主題的過程可以包括以下步驟a)通過詞語計數(shù) 技術(shù)或文本分析技術(shù)提取出相關(guān)短語,b)基于提取出的短語或它們之間的關(guān)系進行聚類。 顯然,上述步驟b)是可選的。在另一實施例中,主題提取裝置203也可以通過參考來自外 部資源庫207中的相關(guān)查詢歷史2071來提取出相關(guān)主題。所述相關(guān)查詢歷史2071可以是 來自某一搜索引擎,例如百度(www.baidu.com)的搜索歷史。例如,在圖5所示示例中,針 對輸入的目標(biāo)實體"菊花茶",可以從來自搜索引擎的搜索歷史中得到如標(biāo)號501所示的主 題列表,其中包含"菊花茶的功效"、"菊花茶的作用"等多個相關(guān)主題。由于相關(guān)查詢歷史 2071通常表現(xiàn)為短語或簡單句型的形式,因此更易于提取出與目標(biāo)實體相關(guān)的主題。這里, 可以應(yīng)用任意傳統(tǒng)方法來進行主題提取。 然后,在提取出與目標(biāo)實體相關(guān)的主題之后,在步驟404中,主題提取裝置203可 以基于提取出的主題從某些現(xiàn)有結(jié)構(gòu)資源中識別出與目標(biāo)實體相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng) 的實體,記作〈Er, S^〉(其中Er是相關(guān)實體,S&是其對應(yīng)的現(xiàn)有結(jié)構(gòu))。識別出的現(xiàn)有結(jié) 構(gòu)以及實體隨后也被存儲在背景知識數(shù)據(jù)庫208中,作為現(xiàn)有結(jié)構(gòu)&實體2083。根據(jù)本發(fā) 明的實施例,現(xiàn)有結(jié)構(gòu)資源可以是來自Web的網(wǎng)站集合,也可以是預(yù)先組織的信息對象庫。 例如,在圖3中,分別示出被存儲在外部資源庫207中的Web網(wǎng)站集合2072和預(yù)先組織的 信息對象庫2073,作為現(xiàn)有結(jié)構(gòu)資源的示例。 圖5示出以Web網(wǎng)站作為現(xiàn)有結(jié)構(gòu)資源的示例。如圖5所示,用戶可以首先基于 提取出的主題生成查詢。例如,對于圖5所示主題列表,可以建立一個簡單的查詢"菊花茶 功效藥用"。然后,該查詢可以被提交到搜索引擎,以從Web收集覆蓋部分主題的相關(guān)網(wǎng)站 的URL。通過分析收集到的網(wǎng)站,用戶可以確定該網(wǎng)站是否覆蓋了部分提取出的主題,并從 中識別出相關(guān)的現(xiàn)有結(jié)構(gòu)和實體。例如,如圖5所示,根據(jù)生成的查詢可以搜索到相關(guān)的網(wǎng) 站"中國杭白菊在線"http:〃w麗.chinahbj,com,并從中提取出相關(guān)的實體"杭白菊"以及 現(xiàn)有結(jié)構(gòu)502。
另外,如果在外部資源庫207中已經(jīng)存在預(yù)先組織的信息對象庫2073,用戶則也 可以從該信息對象庫中獲取覆蓋部分主題(或關(guān)鍵短語)的信息對象。例如,信息對象庫 可以存儲文檔集合,從中獲取的信息對象通常是特定文檔集合的索引頁面。因此,可以容易 地從信息對象中提取出相關(guān)現(xiàn)有結(jié)構(gòu)和實體。 接下來,在步驟405中,匹配結(jié)構(gòu)獲取裝置205從在步驟404中識別出的實體中選 擇與目標(biāo)實體相似度高的實體,并選擇與其對應(yīng)的現(xiàn)有結(jié)構(gòu)作為匹配結(jié)構(gòu),以用于組織與 目標(biāo)實體相關(guān)的信息對象。提取出的匹配結(jié)構(gòu)隨后可以被存儲到背景知識數(shù)據(jù)庫208中, 作為匹配結(jié)構(gòu)2084,以用于隨后的信息組織和分析。在圖3所示示例中,匹配結(jié)構(gòu)獲取裝置 205被示為包含實體比較單元2051和匹配結(jié)構(gòu)選擇單元2052。在某些示例中,實體比較單 元2051可以通過比較目標(biāo)實體和每個識別出的實體的名稱和/或名稱的語義相似度來識 別與目標(biāo)實體相似度高的實體。在此情況下,實體比較單元2051可以使用任意傳統(tǒng)的語義 相似性測量方法。根據(jù)實體比較單元2051計算出的目標(biāo)實體的名稱與每個識別出的實體 的名稱之間的相似性得分,匹配結(jié)構(gòu)選擇單元2052可以從中選擇相似性得分較高的那些 實體,并將相應(yīng)的現(xiàn)有結(jié)構(gòu)提取出來,作為匹配結(jié)構(gòu)。例如,針對目標(biāo)實體"菊花茶",如果背 景知識數(shù)據(jù)庫208中存儲有已經(jīng)識別出的實體"綠茶",由于實體"綠茶"與目標(biāo)實體"菊花 茶"在語義級別上非常相似,因此匹配結(jié)構(gòu)選擇單元2052則可以認為"綠茶"與"菊花茶" 相匹配,并將已經(jīng)獲取的與"綠茶"相關(guān)的現(xiàn)有結(jié)構(gòu)提取出來,作為匹配結(jié)構(gòu)。另外,在其他 示例中,匹配結(jié)構(gòu)獲取裝置205也可以通過計算目標(biāo)實體和每個識別出的實體所對應(yīng)的信 息對象所覆蓋的相似主題的數(shù)目來找到相似度最高的實體,并將其對應(yīng)的現(xiàn)有結(jié)構(gòu)作為匹 配結(jié)構(gòu)。 截止到步驟405為止,用戶已經(jīng)建立了與目標(biāo)實體相關(guān)的匹配結(jié)構(gòu),即圖2所示根 據(jù)本發(fā)明第一實施例的系統(tǒng)200的操作已經(jīng)完成。所生成的匹配結(jié)構(gòu)隨后可被用于組織與 目標(biāo)實體相關(guān)的信息對象。 作為對本發(fā)明的擴展,圖3所示系統(tǒng)300還可以包含附加組件結(jié)構(gòu)集成裝置 209、信息對象分配裝置210和匹配結(jié)構(gòu)調(diào)整裝置211。其中結(jié)構(gòu)集成裝置209可被配置用 于實現(xiàn)多個匹配結(jié)構(gòu)候選的集成,而信息對象分配裝置210和匹配結(jié)構(gòu)調(diào)整裝置211可被 配置用于實現(xiàn)對匹配結(jié)構(gòu)的調(diào)整。關(guān)于這些附加組件的操作隨后將通過參考圖4中的步驟 406-408來更詳細地描述。 如圖3所示,匹配結(jié)構(gòu)的集成與調(diào)整是兩個完全獨立的可擴展模塊。根據(jù)不同用 戶需求,其中任何一個模塊可以單獨存在,也可以聯(lián)合使用。
1.結(jié)構(gòu)集成過程 如果匹配結(jié)構(gòu)獲取裝置205從現(xiàn)有結(jié)構(gòu)中識別出的匹配結(jié)構(gòu)的數(shù)目大于l,則可 以利用結(jié)構(gòu)集成裝置209對這些結(jié)構(gòu)候選進行集成,以生成最終的匹配結(jié)構(gòu)(步驟406)。 圖6示出了結(jié)構(gòu)集成過程的一個示例。 在圖6所示示例中,例如輸入的目標(biāo)實體為"軟件"。通過主題提取以及現(xiàn)有Web 網(wǎng)站資源搜索,假設(shè)可以搜索到兩個相關(guān)網(wǎng)站,即圖6所示相關(guān)網(wǎng)站1和相關(guān)網(wǎng)站2。隨后, 匹配結(jié)構(gòu)獲取裝置205可以從相關(guān)網(wǎng)站1和相關(guān)網(wǎng)站2中分別識別出兩種匹配結(jié)構(gòu),即匹 配結(jié)構(gòu)候選1和匹配結(jié)構(gòu)候選2。這兩種匹配結(jié)構(gòu)都可以被用于組織與實體"軟件"相關(guān)的 信息對象。然后,結(jié)構(gòu)集成裝置209可以生成更全面的集成匹配結(jié)構(gòu)。如圖6所示,該集成匹配結(jié)構(gòu)不僅包含來自結(jié)構(gòu)2的信息類別"桌面工具",也包含來自結(jié)構(gòu)1的信息類別"D0S 工具"。 2.結(jié)構(gòu)調(diào)整過程 由匹配結(jié)構(gòu)獲取裝置205識別出的匹配結(jié)構(gòu)還可以被提供到信息對象分配裝置 210,以用于組織信息對象,并由匹配結(jié)構(gòu)調(diào)整裝置211根據(jù)信息對象分配結(jié)果對匹配結(jié)構(gòu) 進行調(diào)整。另外,在存在多個匹配結(jié)構(gòu)候選的情況下,可以首先由結(jié)構(gòu)集成裝置209對多個 結(jié)構(gòu)候選進行集成,然后再將集成后的最終匹配結(jié)構(gòu)提供到信息對象分配裝置210和匹配 結(jié)構(gòu)調(diào)整裝置211,以進行信息對象匹配和結(jié)構(gòu)調(diào)整。 繼續(xù)參考圖4,在步驟407中,信息對象分配裝置210可以將檢索出的與目標(biāo)實體 相關(guān)的信息對象分配到集成后的匹配結(jié)構(gòu)。圖7示出信息對象分配過程的一個示例。
在圖7所示示例中,假設(shè)存在總共50個與目標(biāo)實體"菊花茶"相關(guān)的信息對象,并 且所生成的匹配結(jié)構(gòu)如701所示。經(jīng)過對象分配,50個相關(guān)的信息對象被分配到所選匹配 結(jié)構(gòu)中的不同節(jié)點(即類別)。例如,如結(jié)構(gòu)702所示,被分配到類別"常識"的信息對象數(shù) 目為4,被分配到類別"品種"的信息對象數(shù)目為6,以此類推。 在將信息對象分配到所選匹配結(jié)構(gòu)之后,用戶可以利用匹配結(jié)構(gòu)調(diào)整裝置211來 根據(jù)信息對象的分配結(jié)果對所生成的信息組織結(jié)構(gòu)進行調(diào)整(步驟408)。圖7也示出結(jié)構(gòu) 調(diào)整過程的一個示例。 對于所選匹配結(jié)構(gòu)的調(diào)整例如可以包含兩個方面,一是對所含信息對象數(shù)目較少 的節(jié)點(類別)的刪除,二是對所含信息對象數(shù)目較多的節(jié)點的進一步細化。
在圖7所示示例中,由于節(jié)點"鑒別"中包含的信息對象數(shù)目較少(為0),因此將 該節(jié)點從所選結(jié)構(gòu)上刪除,從而得到結(jié)構(gòu)703。這是因為在信息對象集合中可能不存在關(guān)于 該主題"鑒別"的信息對象,因此該主題對于實體"菊花茶"就是沒有意義的。實際上,對于 用戶而言,鑒別"菊花茶"或許比鑒別"綠茶"要容易得多。 另一方面,類別"功效"則包含數(shù)目較多的信息對象(30個)。因此,有必要對該節(jié) 點中的信息對象進一步細化分類。即,用戶可以應(yīng)用某些現(xiàn)有的自動類別生成技術(shù)建立針 對該節(jié)點的子類別。例如,在圖7所示示例中,類別"功效"被進一步劃分為多個子類別"保 健"、"醫(yī)療"和"營養(yǎng)價值",并將其中的30個信息對象進一步劃分到適當(dāng)?shù)淖宇悇e。通過 生成子類別,可以幫助用戶更容易地瀏覽這30個信息對象。經(jīng)過匹配結(jié)構(gòu)調(diào)整裝置211的 調(diào)整操作,形成的最終信息組織結(jié)構(gòu)例如如圖7中的結(jié)構(gòu)704所示。 以上通過參考附圖詳細描述了根據(jù)本發(fā)明的信息組織結(jié)構(gòu)自動創(chuàng)建系統(tǒng)200以 及作為其擴展形式的系統(tǒng)300的結(jié)構(gòu)以及工作原理。根據(jù)以上描述可以看出,根據(jù)本發(fā)明 所創(chuàng)建的信息組織結(jié)構(gòu)相對于現(xiàn)有技術(shù)具有更好的用戶可讀性,可以更全面地進行信息對 象的組織。 雖然上面已經(jīng)參考附圖描述了根據(jù)本發(fā)明的具體實施例,但是本發(fā)明并不限于圖
中示出的特定配置和處理。在上述實施例中,描述和示出了若干具體的步驟作為示例。但
是,本發(fā)明的方法過程并不限于所描述和示出的具體步驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會
本發(fā)明的精神之后,作出各種改變、修改和添加,或者改變步驟之間的順序。 本發(fā)明的元素可以實現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的
系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質(zhì)中,或者通過載波中攜 帶的數(shù)據(jù)信號在傳輸介質(zhì)或者通信鏈路上傳送。"機器可讀介質(zhì)"可以包括能夠存儲或傳輸 信息的任何介質(zhì)。機器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲器設(shè)備、R0M、閃存、可擦 除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由 諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計算機網(wǎng)絡(luò)被下載。 本發(fā)明可以以其他的具體形式實現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實施 例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的 實施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非 上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在 本發(fā)明的范圍之中。
權(quán)利要求
一種用于自動構(gòu)建信息組織結(jié)構(gòu)的方法,包括輸入目標(biāo)實體;從信息對象集合中檢索出與所述目標(biāo)實體相關(guān)的信息對象;提取出與所述目標(biāo)實體相關(guān)的多個主題;基于提取出的所述主題搜索現(xiàn)有結(jié)構(gòu)資源,以識別出與所述目標(biāo)實體相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng)的實體;以及通過比較所述目標(biāo)實體和每個所述識別出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中選擇匹配結(jié)構(gòu),用于組織所述檢索出的與所述目標(biāo)實體相關(guān)的信息對象。
2. 如權(quán)利要求1所述的方法,其中與所述目標(biāo)實體相關(guān)的多個主題是從檢索出的所述信息對象的集合中提取出的。
3. 如權(quán)利要求1所述的方法,其中與所述目標(biāo)實體相關(guān)的多個主題是從來自搜索引擎的查詢?nèi)罩局刑崛〕龅摹?br>
4. 如權(quán)利要求1所述的方法,其中所述現(xiàn)有結(jié)構(gòu)資源是來自Web的網(wǎng)站集合,并且所述識別現(xiàn)有結(jié)構(gòu)的步驟包括基于提取出的所述主題生成查詢;將所述查詢提交到搜索引擎;從Web收集覆蓋一個或多個所述主題的相關(guān)網(wǎng)站的URL ;以及通過分析收集的相關(guān)網(wǎng)站而提取出所述相關(guān)的現(xiàn)有結(jié)構(gòu)。
5. 如權(quán)利要求1所述的方法,其中所述現(xiàn)有結(jié)構(gòu)資源是預(yù)先組織的信息對象庫,并且所述識別現(xiàn)有結(jié)構(gòu)的步驟包括基于提取出的所述主題搜索所述預(yù)先組織的信息對象庫;從所述預(yù)先組織的信息對象庫中獲取覆蓋一個或多個所述主題的信息對象;并且從獲取的所述信息對象中提取出所述相關(guān)的現(xiàn)有結(jié)構(gòu)。
6. 如權(quán)利要求1所述的方法,其中所述選擇匹配結(jié)構(gòu)的步驟包括比較所述目標(biāo)實體和每個所述識別出的實體之間的相似性;并且選擇與所述目標(biāo)實體具有最高相似性的實體所對應(yīng)的現(xiàn)有結(jié)構(gòu),作為所述匹配結(jié)構(gòu)。
7. 如權(quán)利要求6所述的方法,其中所述比較步驟包括計算所述目標(biāo)實體和所述識別出的實體的名稱的語義相似性得分。
8. 如權(quán)利要求6所述的方法,其中所述比較步驟包括計算所述目標(biāo)實體和所述識別出的實體所共享的相同或相似主題的數(shù)目。
9. 如權(quán)利要求1所述的方法,其中通過比較所述目標(biāo)實體和每個所述識別出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中找到多個匹配結(jié)構(gòu)候選,所述方法還包括集成所述多個匹配結(jié)構(gòu)候選,以獲得最終的匹配結(jié)構(gòu)。
10. 如權(quán)利要求1所述的方法,還包括將從所述信息對象集合中檢索出的所述信息對象分配到所述匹配結(jié)構(gòu)上的類別。
11. 如權(quán)利要求10所述的方法,還包括對所述匹配結(jié)構(gòu)上的每個類別中所分配的信息對象的數(shù)目進行計數(shù);以及根據(jù)計數(shù)結(jié)果調(diào)整所述匹配結(jié)構(gòu)。
12. 如權(quán)利要求11所述的方法,其中通過以下操作中的至少一個來調(diào)整所述匹配結(jié)構(gòu)刪除其中的信息對象的數(shù)目小于第一閾值的類別;以及對于其中的信息對象的數(shù)目大于第二閾值的類別,生成多個更詳細的子類別。
13. —種用于自動構(gòu)建信息組織結(jié)構(gòu)的系統(tǒng),包括輸入裝置,用于輸入目標(biāo)實體;信息對象檢索裝置,用于從信息對象集合中檢索出與所述目標(biāo)實體相關(guān)的信息對象;主題提取裝置,用于提取出與所述目標(biāo)實體相關(guān)的多個主題;現(xiàn)有結(jié)構(gòu)識別裝置,用于基于提取出的所述主題搜索現(xiàn)有結(jié)構(gòu)資源,以識別出與所述目標(biāo)實體相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng)的實體;以及匹配結(jié)構(gòu)獲取裝置,用于通過比較所述目標(biāo)實體和每個所述識別出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中選擇匹配結(jié)構(gòu),用于組織所述檢索出的與所述目標(biāo)實體相關(guān)的信息對象。
14. 如權(quán)利要求13所述的系統(tǒng),其中所述現(xiàn)有結(jié)構(gòu)資源是來自Web的網(wǎng)站集合,并且所述現(xiàn)有結(jié)構(gòu)識別裝置被配置用于基于提取出的所述主題生成查詢;將所述查詢提交到搜索引擎;從Web收集覆蓋一個或多個所述主題的相關(guān)網(wǎng)站的URL ;以及通過分析收集的相關(guān)網(wǎng)站而提取出所述相關(guān)的現(xiàn)有結(jié)構(gòu)。
15. 如權(quán)利要求13所述的系統(tǒng),其中所述現(xiàn)有結(jié)構(gòu)資源是預(yù)先組織的信息對象庫,并且所述現(xiàn)有結(jié)構(gòu)識別裝置被配置用于基于提取出的所述主題搜索所述預(yù)先組織的信息對象庫;從所述預(yù)先組織的信息對象庫中獲取覆蓋一個或多個所述主題的信息對象;并且從獲取的所述信息對象中提取出所述相關(guān)的現(xiàn)有結(jié)構(gòu)。
16. 如權(quán)利要求13所述的系統(tǒng),其中所述匹配結(jié)構(gòu)獲取裝置包括實體比較單元,用于比較所述目標(biāo)實體和每個所述識別出的實體之間的相似性;并且匹配結(jié)構(gòu)選擇單元,用于選擇與所述目標(biāo)實體具有最高相似性的實體所對應(yīng)的現(xiàn)有結(jié)構(gòu),作為所述匹配結(jié)構(gòu)。
17. 如權(quán)利要求16所述的系統(tǒng),其中所述實體比較單元被配置用于計算所述目標(biāo)實體和所述識別出的實體的名稱的語義相似性得分。
18. 如權(quán)利要求16所述的系統(tǒng),其中所述實體比較單元被配置用于計算所述目標(biāo)實體和所述識別出的實體所共享的相同或相似主題的數(shù)目。
19. 如權(quán)利要求13所述的系統(tǒng),其中所述匹配結(jié)構(gòu)獲取裝置通過比較所述目標(biāo)實體和每個所述識別出的實體,從所述識別出的現(xiàn)有結(jié)構(gòu)中找到多個匹配結(jié)構(gòu)候選,并且所述系統(tǒng)還包括結(jié)構(gòu)集成裝置,用于集成所述多個匹配結(jié)構(gòu)候選,以獲得最終的匹配結(jié)構(gòu)。
20. 如權(quán)利要求13所述的系統(tǒng),還包括信息對象分配裝置,用于將從所述信息對象集合中檢索出的所述信息對象分配到所述匹配結(jié)構(gòu)獲取裝置選擇的所述匹配結(jié)構(gòu)上的類別。
21. 如權(quán)利要求20所述的系統(tǒng),還包括匹配結(jié)構(gòu)調(diào)整裝置,用于對所述匹配結(jié)構(gòu)進行調(diào)整, 其中所述匹配結(jié)構(gòu)調(diào)整裝置進一步包括計數(shù)單元,用于對所述匹配結(jié)構(gòu)上的每個類別中所分配的信息對象的數(shù)目進行計數(shù); 調(diào)整單元,用于根據(jù)計數(shù)結(jié)果調(diào)整所述匹配結(jié)構(gòu)。
22.如權(quán)利要求21所述的系統(tǒng),其中所述調(diào)整單元執(zhí)行以下操作中的至少一個 刪除其中的信息對象的數(shù)目小于第一閾值的類別;以及對于其中的信息對象的數(shù)目大于第二閾值的類別,生成多個更詳細的子類別。
全文摘要
本發(fā)明提供了一種自動構(gòu)建用于相關(guān)信息瀏覽的信息組織結(jié)構(gòu)的方法和系統(tǒng)。所述方法包括輸入目標(biāo)實體;從信息對象集合中檢索出與目標(biāo)實體相關(guān)的信息對象;提取出與目標(biāo)實體相關(guān)的多個主題;基于提取出的主題搜索現(xiàn)有結(jié)構(gòu)資源,以識別出相關(guān)的現(xiàn)有結(jié)構(gòu)及其對應(yīng)的實體;以及通過比較目標(biāo)實體和每個識別出的實體,從識別出的現(xiàn)有結(jié)構(gòu)中選擇匹配結(jié)構(gòu),用于組織與目標(biāo)實體相關(guān)的信息對象。與現(xiàn)有技術(shù)相比,根據(jù)本發(fā)明所生成的信息組織結(jié)構(gòu)具有更好的用戶可讀性。
文檔編號G06F17/30GK101739407SQ200810177048
公開日2010年6月16日 申請日期2008年11月19日 優(yōu)先權(quán)日2008年11月19日
發(fā)明者胡長建, 趙凱, 趙岷, 邱立坤 申請人:日電(中國)有限公司