專利名稱:結(jié)構(gòu)化數(shù)據(jù)的搜索方法和實現(xiàn)該搜索方法的搜索引擎系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),尤其涉及一種結(jié)構(gòu)化數(shù)據(jù)的搜索方法和實現(xiàn)該搜索方 法的搜索引擎系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)的飛速發(fā)展為人們提供了一個全新的信息存儲、加工、傳遞和使用的載體, 網(wǎng)絡(luò)信息也迅速成為了人們獲取知識和信息的主要渠道之一。而如此規(guī)模的信息資源在將 人類占有的幾乎所有知識納入其中的同時,也給資源的使用者帶來了如何充分開發(fā)和利用 的問題。搜索引擎正是在這一需求下應(yīng)運而生,它協(xié)助網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上查找信息。具 體地,搜索引擎根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進 行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶。目前的搜索引擎在互聯(lián)網(wǎng)上搜集信息時主要是通過網(wǎng)頁之間的靜態(tài)鏈接關(guān)系來 收集數(shù)據(jù)。然而,互聯(lián)網(wǎng)上大部分內(nèi)容信息是存儲在網(wǎng)絡(luò)數(shù)據(jù)庫中的,也就是說,目前搜索 引難以通過網(wǎng)頁抓取的方式獲取其全部的信息內(nèi)容,所以,當(dāng)前的搜索引擎也不能索引到 或不能在返回的搜索結(jié)果中顯示這些內(nèi)容,因此對用戶來說這部分內(nèi)容是隱藏的。但是,這 部分隱藏的內(nèi)容對于用戶又是非常重要的,例如股票數(shù)據(jù)、人民幣匯率、天氣預(yù)報、電視節(jié) 目表等,可以看出,這些隱藏的內(nèi)容大部分都是結(jié)構(gòu)化的數(shù)據(jù)。所以,如何使搜索引擎能夠 搜索到互聯(lián)網(wǎng)上的各種信息,即包括結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息,是搜索引擎技術(shù)發(fā)展所 面臨的主要問題。此外,現(xiàn)有的通用搜索引擎在確定網(wǎng)頁和搜索需求的相關(guān)性時,主要是通過對網(wǎng) 頁進行分析,得到網(wǎng)頁的權(quán)威性,再結(jié)合網(wǎng)頁的一些因子綜合進行排序。這種排序或許能夠 滿足一般用戶的需求,然而對于一些特殊需求的用戶可能就沒有辦法滿足了。例如招聘搜 索、機票搜索、軟件搜索、商品搜索等,由于這類用戶需要的結(jié)果比較明確或者具有唯一性, 所以通用搜索引擎返回的大堆結(jié)果對于這類用戶而言可能就顯得并不相關(guān)或并不全面。當(dāng) 然,用戶可以通過相關(guān)領(lǐng)域的垂直搜索引擎來獲得較為準確和全面的搜索結(jié)果,但是,用戶 的搜索需求往往是多樣化的,如果每個搜索都需要通過相應(yīng)的垂直搜索引擎,顯然無法給 用戶帶來良好的使用體驗。有鑒于此,有必要對現(xiàn)有的搜索引擎予以改進,以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種結(jié)構(gòu)化數(shù)據(jù)的搜索方法,其能夠通過分析用戶的搜索 條件來確切地獲取用戶最想要的信息,并給用戶一個能夠滿足其需求的最適合的方式展 現(xiàn),從而使用戶得到良好的使用體驗。本發(fā)明的目的還在于提供一種實現(xiàn)上述搜索方法的搜索引擎系統(tǒng)。為實現(xiàn)上述發(fā)明目的之一,本發(fā)明的一種結(jié)構(gòu)化數(shù)據(jù)的搜索方法,所述結(jié)構(gòu)化數(shù) 據(jù)包括與若干屬性標(biāo)簽對應(yīng)的屬性值,其包括如下步驟
接收來自于客戶端的查詢詞表達式;根據(jù)所述查詢詞表達式確定相應(yīng)的語義模板,所述語義模板包括屬性標(biāo)簽;根據(jù)所述語義模板分析所述查詢詞表達式,以確定所要搜索的結(jié)構(gòu)化數(shù)據(jù);搜索并獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。作為本發(fā)明進一步改進,所述查詢詞表達式分析步驟包括分析出和語義模板中屬 性標(biāo)簽對應(yīng)的屬性值,從而確定包含有所述屬性值的數(shù)據(jù)為所要搜索的數(shù)據(jù)。作為本發(fā)明進一步改進,所述查詢詞表達式分析步驟還包括根據(jù)語義模板分析出 所要搜索的屬性標(biāo)簽;該方法還包括從所述獲取的數(shù)據(jù)中抽取與所述所要搜索的屬性標(biāo)簽 對應(yīng)的屬性值,并將所述屬性值返回給客戶端。作為本發(fā)明進一步改進,所述查詢詞表達式分析步驟包括根據(jù)語義模板確定和 語義模板中的屬性標(biāo)簽對應(yīng)的詞項,并給所述詞項標(biāo)注相應(yīng)的屬性標(biāo)簽。作為本發(fā)明進一步改進,該方法還包括在查詢詞表達式分析的步驟后還包括對 查詢詞表達式進行優(yōu)化的步驟。作為本發(fā)明進一步改進,所述查詢詞表達式優(yōu)化的步驟包括區(qū)間篩選操作、和/ 或語義擴展操作、和/或分詞操作。作為本發(fā)明進一步改進,該方法還包括根據(jù)數(shù)據(jù)的相關(guān)度權(quán)值來對搜索獲取的數(shù) 據(jù)進行排序。作為本發(fā)明進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān) 性來確定。作為本發(fā)明進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)的特定特征的重要性來 確定。作為本發(fā)明進一步改進,該方法還包括對排序后的數(shù)據(jù)進行打散操作。作為本發(fā)明進一步改進,該方法還包括根據(jù)所述查詢詞表達式搜索獲取與查詢詞 相關(guān)的網(wǎng)頁文檔,并將所述網(wǎng)頁文檔和所述搜索獲取的結(jié)構(gòu)化數(shù)據(jù)合成后返回給客戶端。作為本發(fā)明進一步改進,所述網(wǎng)頁文檔是通過訪問互聯(lián)網(wǎng)鏈接結(jié)構(gòu)而預(yù)先搜集到 的。作為本發(fā)明進一步改進,該方法還包括生成用戶查詢?nèi)罩?,并根?jù)用戶查詢?nèi)罩?獲得所述語義模板。為實現(xiàn)上述另一發(fā)明目的,本發(fā)明的一種搜索引擎系統(tǒng),其包括結(jié)構(gòu)化數(shù)據(jù)存儲庫,用于存儲結(jié)構(gòu)化數(shù)據(jù),所述結(jié)構(gòu)化數(shù)據(jù)包括與若干屬性標(biāo)簽 對應(yīng)的屬性值;該存儲庫內(nèi)還存儲有語義模板,所述語義模板包括有屬性標(biāo)簽;需求分析模塊,用于接收來自于客戶端的查詢詞表達式,根據(jù)所述查詢詞表達式 確定相應(yīng)的語義模板,并根據(jù)所述語義模板分析該查詢詞表達式,以確定所要搜索的結(jié)構(gòu) 化數(shù)據(jù);搜索組件,用于搜索結(jié)構(gòu)化數(shù)據(jù)存儲庫以獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。作為本發(fā)明進一步改進,所述需求分析模塊對查詢詞表達式的分析包括分析出 和語義模板中的屬性標(biāo)簽對應(yīng)的屬性值,從而確定包含有所述屬性值的數(shù)據(jù)為所要搜索的 數(shù)據(jù)。作為本發(fā)明進一步改進,所述需求分析模塊對查詢詞表達式的分析還包括根據(jù)語義模板分析出所要搜索的屬性標(biāo)簽;所述搜索組件還用于從所述獲取的數(shù)據(jù)中抽取與所述 所要搜索的屬性標(biāo)簽對應(yīng)的屬性值,并將所述屬性值返回給客戶端。作為本發(fā)明進一步改進,所述需求分析模塊對查詢詞表達式的分析包括根據(jù)語 義模板確定和語義模板中的屬性標(biāo)簽對應(yīng)的詞項,并給所述詞項標(biāo)注相應(yīng)的屬性標(biāo)簽。作為本發(fā)明進一步改進,所述需求分析模塊還用于對查詢詞表達式進行優(yōu)化。作為本發(fā)明進一步改進,所述需求分析模塊對查詢詞表達式的優(yōu)化包括區(qū)間篩選 操作、和/或語義擴展操作、和/或分詞操作。作為本發(fā)明進一步改進,所述搜索組件還用于根據(jù)數(shù)據(jù)的相關(guān)度權(quán)值來對搜索獲 取的數(shù)據(jù)進行排序。作為本發(fā)明進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān) 性來確定。作為本發(fā)明進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)的特定特征的重要性來 確定。作為本發(fā)明進一步改進,所述搜索組件還用于對排序后的數(shù)據(jù)進行打散操作。作為本發(fā)明進一步改進,該系統(tǒng)還包括網(wǎng)頁存儲庫,用于存儲通過訪問互聯(lián)網(wǎng)鏈 接結(jié)構(gòu)而抓取的網(wǎng)頁文檔;所述搜索組件還用于搜索網(wǎng)頁存儲庫以獲取與所述查詢詞表達 式相關(guān)的網(wǎng)頁文檔。作為本發(fā)明進一步改進,該系統(tǒng)還包括合成模塊,用于將獲取的網(wǎng)頁文檔和結(jié)構(gòu) 化數(shù)據(jù)合成后返回給客戶端。作為本發(fā)明進一步改進,該系統(tǒng)還包括用戶界面,用于記錄用戶查詢?nèi)罩?,所述語 義模板根據(jù)用戶查詢?nèi)罩径@得。作為本發(fā)明進一步改進,所述結(jié)構(gòu)化數(shù)據(jù)通過預(yù)定的數(shù)據(jù)交互協(xié)議從特定領(lǐng)域網(wǎng)
站獲取。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是本發(fā)明的搜索引擎系統(tǒng)通過語義模板來 分析用戶的搜索表達式,以確切地了解用戶最想要的需求,并給用戶一個能夠滿足其需求 的最適合的方式展現(xiàn),從而使用戶得到良好的使用體驗,提高搜索效率,節(jié)約網(wǎng)絡(luò)流量。
圖1是本發(fā)明的搜索引擎系統(tǒng)搜索結(jié)構(gòu)化數(shù)據(jù)的一具體實施方式
的工作原理框 圖;圖2是本發(fā)明的搜索引擎系統(tǒng)搜索通用網(wǎng)頁的一具體實施方式
的工作原理框圖;圖3是本發(fā)明的搜索引擎系統(tǒng)搜索結(jié)構(gòu)化數(shù)據(jù)和通用網(wǎng)頁的一具體實施方式
的 工作原理框圖;圖4是本發(fā)明的搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲庫中摘要式數(shù)據(jù)的一具體實施 方式;圖5是本發(fā)明的搜索引擎系統(tǒng)展現(xiàn)搜索結(jié)果的一具體實施方式
;圖6是圖1所示的搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入的工作流程圖;圖7是圖3所示的搜索引擎系統(tǒng)執(zhí)行搜索的工作流程圖;圖8是圖3所示的搜索引擎系統(tǒng)對查詢表達式進行分析的一具體實施方式
中的工作流程圖;圖9是圖3所示的搜索引擎系統(tǒng)對查詢表達式進行分析的另一具體實施方式
中的 工作流程圖;圖10是圖3所示的搜索引擎系統(tǒng)對搜索結(jié)果進行排序和展現(xiàn)的工作流程圖。
具體實施例方式以下將結(jié)合附圖所示的各實施方式對本發(fā)明進行詳細描述。但這些實施方式并不 限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實施方式所輕易做出的結(jié)構(gòu)、方法、或功能上 的變換均包含在本發(fā)明的保護范圍內(nèi)。圖1所示的是本發(fā)明的搜索引擎系統(tǒng)100在一具體實施方式
中搜集和檢索結(jié)構(gòu)化 數(shù)據(jù)的工作原理框圖。本實施方式中,網(wǎng)站站長將結(jié)構(gòu)化數(shù)據(jù)以規(guī)范的形式主動提交給搜 索引擎系統(tǒng)100,從而搜索引擎系統(tǒng)可響應(yīng)客戶端40的瀏覽器41請求而提供結(jié)構(gòu)化數(shù)據(jù)搜 索的服務(wù)。其中,搜索引擎系統(tǒng)100可以包括一個或多個用來存儲和管理結(jié)構(gòu)化數(shù)據(jù)、并響 應(yīng)搜索請求的網(wǎng)絡(luò)服務(wù)器實體??蛻舳?0可以包括一個或多個用戶終端設(shè)備,如個人計算 機、筆記本電腦、無線電話、個人數(shù)字處理(PDA)、或其它計算機裝置和通信裝置。這些服務(wù)器和終端設(shè)備在架構(gòu)上都包含一些基本組件,如總線、處理裝置、存儲裝 置、一個或多個輸入/輸出裝置、和通信接口等??偩€可以包括一個或多個導(dǎo)線,用來實現(xiàn) 服務(wù)器或終端設(shè)備各組件之間的通信。處理裝置包括各類型的用來執(zhí)行指令、處理進程或 線程的處理器或微處理器。存儲裝置可以包括存儲動態(tài)信息的隨機訪問存儲器(RAM)等動 態(tài)存儲器,和存儲靜態(tài)信息的只讀存儲器(ROM)等靜態(tài)存儲器,以及包括磁或光學(xué)記錄介 質(zhì)與相應(yīng)驅(qū)動的大容量存儲器。輸入裝置供用戶輸入信息到服務(wù)器或終端設(shè)備,如鍵盤、鼠 標(biāo)、手寫筆、聲音識別裝置、或生物測定裝置等。輸出裝置包括用來輸出信息的顯示器、打印 機、揚聲器等。通信接口用來使服務(wù)器或終端設(shè)備與其它系統(tǒng)或裝置進行通信。通信接口 之間可通過有線連接、無線連接、或光連接連接到網(wǎng)絡(luò)中,使搜索引擎系統(tǒng)100、客戶端40 間能夠通過網(wǎng)絡(luò)實現(xiàn)相互間的通信。網(wǎng)絡(luò)可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)絡(luò) 如公共交換電話網(wǎng)(PSTN)、企業(yè)內(nèi)部的互聯(lián)網(wǎng)、因特網(wǎng)、或上述這些網(wǎng)絡(luò)的結(jié)合等。服務(wù)器 和終端設(shè)備上均包含有用來管理系統(tǒng)資源、控制其它程序運行的操作系統(tǒng)軟件,以及用來 實現(xiàn)特定功能模塊的應(yīng)用軟件。如圖1所示,搜索引擎系統(tǒng)100整體上可分為離線部分和在線部分。在離線部分, 系統(tǒng)會事先搜集一批結(jié)構(gòu)化數(shù)據(jù),并以某種方式存放在系統(tǒng)中,系統(tǒng)包括結(jié)構(gòu)化數(shù)據(jù)推送 平臺15、對引入的結(jié)構(gòu)化數(shù)據(jù)進行分析的分析器16、記錄用戶查詢信息的用戶查詢?nèi)罩緮?shù) 據(jù)庫、對用戶查詢?nèi)罩具M行分析的日志分析器18、和結(jié)構(gòu)化數(shù)據(jù)存儲庫20。結(jié)構(gòu)化數(shù)據(jù)的 提供者可以為任何人,在本實施方式中,數(shù)據(jù)的提供者為一些行業(yè)網(wǎng)站的站長,站長通過結(jié) 構(gòu)化數(shù)據(jù)推送平臺15將結(jié)構(gòu)化數(shù)據(jù)包推送給搜索引擎系統(tǒng)100。這兒結(jié)構(gòu)化數(shù)據(jù)平臺15 是指站長和搜索引擎系統(tǒng)100之間可通過一份預(yù)定的數(shù)據(jù)交互協(xié)議來進行結(jié)構(gòu)化數(shù)據(jù)的 交互。本實施方式中,該協(xié)議為sitemap (站點地圖)協(xié)議。具體地,站長會按照sitemap 協(xié)議的規(guī)范將要提交的結(jié)構(gòu)化數(shù)據(jù)拼裝成一份xml (Extensible Markup Language,可擴展 置標(biāo)語言)格式的文件,放到自己的服務(wù)器硬盤上,然后將存放地址提交給搜索引擎系統(tǒng) 100。
?Mill \(、i..sioii “ [. 0" (、ii(、()(l iiiji-,η f. η" >
<111:1 躍 t>:
<uri>
<λ-;·>ΜΠμ: '.joiis. /ii^opliL、‘ ·恥!j:j.ii!:20], 9i)0j..m。:"4 丨 irj^0H300i9.HH!2oiirUi)(s0. h 舊</ .> <i-…;-so:/0Ki ΓΚ/:, .,」>
<·.):..:。?,、: -.5 >π;;ιs< '--.i ·-·ν.·;.· I i -· > <! = ;· ^ O; ^ κ . 'K. - ι . ·, !:. >
_Γ )ΛΤΑL城市銷售代表(溫州/寧波)」J></1i11 e> (’ \pira t ioiidci^o > 2 010- 07-2 5 < / e χ ρ i. r a t i οτι d a t. e >
<deSdipt:ion><a [CDATA[崗位職責(zé)分別負責(zé)東芝宏碁產(chǎn)品溫州及周邊和寧波及周邊g域銷售,包括該品 牌數(shù)碼港,4一6級指標(biāo)銷售。 崗位要求
1,本科以上,一年以上IT或快銷銷售經(jīng)驗,有渠道和區(qū)域銷售經(jīng)驗者優(yōu)先考慮; 2,本科以上,一年以上IT或快銷銷售經(jīng)驗,有渠道和區(qū)域銷售經(jīng)驗者優(yōu)先考慮]]X/description〉 <tyPe> 社會招聘 </type> <ci t.y〉寧波</ci tv>
<empioyer><! [CDATA[杭州神州數(shù)碼有限公司]]X/emp〗oyer>
<_.i 1X ! [Ci)ATA [] J X/etiiai 1 >
<jobr[rKK;lasls><! [CDATA[銷售業(yè)務(wù)]]></jd)_Hrsu
<jobsecondclass><! [CDATA[渠道/分銷專員]:[></jobsecosidc〗.ass>
<e ch ι c a t i on > 本禾斗 < ! e d u t a t. ion>
<e χ ρ e r i ο η c e > 1 - 3 < / e χ ρ e ι· ι. e n c e >
<startdate>2010 05 13</startda.te>
<enddate>2010-07-25</eoddate> 〈salary〉1000-50000 元/月〈/salary〉
CindmtryX丨[CDATA[計算機硬件及網(wǎng)絡(luò)設(shè)備,計算機軟件,IT服務(wù)(系統(tǒng)/數(shù)據(jù)/維護)/多潁域經(jīng)營s通訊 (設(shè)備/運營/增值服務(wù))]]></i.nduStry>
<e!i!r.>lov<·" .I ype>"α it</eiiipIoyertype> <£ ) π ” 卩聯(lián)招聘</sotu.ce>
<s Jiii ι · I ι iikX ! LCDATA [ht.tp://www. zliaopin. com/] ] X/'soiircel ink>;'i/.:</Mr]>以上為某一招聘網(wǎng)站按照sitemap協(xié)議規(guī)范提交的xml文件格式的樣例。可以 看出,文件除了包括所要提交的結(jié)構(gòu)化數(shù)據(jù)之外,通常還會包含url (Universal Resource Locator,統(tǒng)一資源定位符)鏈接地址、頁面最后修改時間、頁面抓取更新周期、以及相對于 其它頁面的優(yōu)先權(quán)等信息。搜索引擎系統(tǒng)100會根據(jù)站長提交的文件地址以及文件中包含 的抓取更新周期抓取該文件。抓取更新周期可以為一天、一個小時、或者是每天的指定時間 (如每天的400、1200、1900三個時間點)。在抓取時,會比較本次修改時間和上次修改 時間,如果時間一樣就會跳過,如果時間不一樣,分析器16就會分析這次數(shù)據(jù)和上次數(shù)據(jù) 的不同,并將更新后的數(shù)據(jù)存入結(jié)構(gòu)化數(shù)據(jù)存儲庫20中。分析器16用于對獲取的結(jié)構(gòu)化數(shù)據(jù)進行處理,然后將處理后的數(shù)據(jù)存入結(jié)構(gòu)化 數(shù)據(jù)存儲庫20中。分析器16對結(jié)構(gòu)化數(shù)據(jù)的處理包括摘要式處理,如果提交的數(shù)據(jù)本身 屬于摘要式結(jié)構(gòu)數(shù)據(jù)(如圖4所示),可作為搜索返回的摘要直接顯示,則可以將這種數(shù)據(jù)直接存儲到摘要庫中,同時會在網(wǎng)頁庫中進行備份。分析器16對結(jié)構(gòu)化數(shù)據(jù)的處理包括將 不同格式的數(shù)據(jù)統(tǒng)一成同一格式。如提交的日期數(shù)據(jù)格式為1970/05Λ6,分析器16將其 統(tǒng)一為月-日-年的格式,即05-26-1970。分析器16對結(jié)構(gòu)化數(shù)據(jù)的處理還包括對數(shù)據(jù) 進行分詞操作并建立索引庫。本領(lǐng)域普通技術(shù)人員所熟知的是,通過分詞操作可將文本拆 分成包含多個詞項的集合。分詞方法可以是基于字符串匹配的分詞方法,或者是基于統(tǒng)計 的分詞方法。以基于字符串匹配的分詞方法為例,分析器16可按一定的策略將待分詞的文 本與預(yù)置的詞典中的詞項進行匹配,若在詞典中找到某個字符串,則匹配成功,即將文本中 的該詞項分離出來。參考之前的xml文件樣例,文件中title是“城市銷售代表(溫州/寧 波)”,則分析器16首先會濾去該條文本中的標(biāo)點符號,然后通過分詞操作獲得“城市”、“銷 售”、“代表”、“溫州”、“寧波”等詞項的集合。當(dāng)然,對于同一文本,依據(jù)不同的分詞策略或詞 典被切分獲得的詞項可能會不同,如“銷售代表”也可以不被進一步切分。為便于搜索,分 析器16會為數(shù)據(jù)建立倒排索引,即建立索引詞項到網(wǎng)頁的映射,形成包含索引詞表和倒排 表的倒排索引文件,然后將該倒排索引文件存儲到結(jié)構(gòu)化數(shù)據(jù)存儲庫20中的索引庫中。分析器16還用于確定數(shù)據(jù)的相關(guān)度權(quán)值。分析器16可以根據(jù)數(shù)據(jù)文本的基礎(chǔ)知 識的相關(guān)性來確定相關(guān)度權(quán)值。例如,兩條商品的結(jié)構(gòu)化數(shù)據(jù)的索引詞項分別包括“手機” 和“手機配件”,而用戶在搜索“手機”時這兩條數(shù)據(jù)都會被召回,但根據(jù)文本的基礎(chǔ)知識理 解,“手機”的數(shù)據(jù)比“手機配件”的數(shù)據(jù)更相關(guān),應(yīng)該是在返回的結(jié)果列表中“手機”的數(shù) 據(jù)比“手機配件”的數(shù)據(jù)更靠前。因此,在確定數(shù)據(jù)的相關(guān)度權(quán)值時,會對“手機配件”的數(shù) 據(jù)作一定的降權(quán)處理,以確保相關(guān)的搜索結(jié)果盡量靠前。分析器16還可以根據(jù)數(shù)據(jù)的特定 特征的重要性來確定相關(guān)度權(quán)值。例如,對于明星的數(shù)據(jù),可以根據(jù)明星的知名度來確定相 關(guān)度權(quán)值;對于商品的數(shù)據(jù),可以根據(jù)商品的熱銷程度或不同類別下的網(wǎng)站權(quán)威度來確定 相關(guān)度權(quán)值;對于軟件的數(shù)據(jù),可以根據(jù)軟件的知名度、網(wǎng)站權(quán)威度、下載速度、最近下載量 等來確定相關(guān)度權(quán)值。對于不同行業(yè)的結(jié)構(gòu)化數(shù)據(jù),其特定特征不同,而對于這些特征的賦 權(quán),可以通過機器學(xué)習(xí)的方式而不斷優(yōu)化。結(jié)構(gòu)化數(shù)據(jù)存儲庫20中網(wǎng)頁庫除被用于存儲網(wǎng)頁和摘要式數(shù)據(jù)之外,還被用于 定期地全量更新索引庫,以優(yōu)化索引結(jié)構(gòu)、淘汰已經(jīng)失效的數(shù)據(jù)。如每天凌晨1點,系統(tǒng)會 觸發(fā)全量更新,對網(wǎng)頁庫中的數(shù)據(jù)進行分析,并更新索引庫。結(jié)構(gòu)化數(shù)據(jù)存儲庫20中還包 括語義模板。該語義模板是日志分析器18通過分析用戶查詢?nèi)罩緮?shù)據(jù)庫17后獲得的具有 一定結(jié)構(gòu)的查詢詞表達式模板。通常,一個語義模板代表一類相同或近似結(jié)構(gòu)的查詢詞表 達式。配合參照圖4所示的明星結(jié)構(gòu)化數(shù)據(jù)示例。其中第一行為屬性標(biāo)簽,如“姓名”、“性 別”、“生日”等,接下來每一行代表一條結(jié)構(gòu)化數(shù)據(jù)中與各屬性標(biāo)簽對應(yīng)的屬性值。語義模 板中包括有屬性標(biāo)簽,例如,查詢詞表達式為“劉德華身高”,則對應(yīng)的語義模板為“ [D 姓 名][D 身高]”,其中包括“姓名”和“身高”兩個屬性標(biāo)簽。關(guān)于如何根據(jù)語義模板來進行 搜索,后文將結(jié)合工作流程做詳細描述。搜索引擎系統(tǒng)100的在線部分主要包括搜索組件11和用戶界面13。其中用戶界 面13通過客戶端40的瀏覽器軟件41展現(xiàn),用于供用戶輸入查詢詞表達式,并按特定展現(xiàn) 方式顯示搜索結(jié)果列表;此外,在搜索結(jié)束后,還用于記錄用戶的查詢信息,如查詢詞表達 式、搜索時間等,并將其存入用戶查詢?nèi)罩緮?shù)據(jù)庫17中。搜索組件11用于響應(yīng)客戶端30的 搜索請求,將搜索結(jié)果返回給客戶端40。搜索組件11包括搜索模塊111和排序模塊112。搜索模塊111可以接收用戶的查詢請求,該查詢請求中包含有查詢詞表達式。搜索模塊111 根據(jù)將查詢詞表達式與語義模板匹配,以確定相應(yīng)的語義模板,并據(jù)此分析查詢詞表達式, 找到相應(yīng)的索引詞以及每個索引詞對應(yīng)的倒排表,從而獲得相關(guān)的數(shù)據(jù)集合。排序模塊112 根據(jù)預(yù)先確定的數(shù)據(jù)相關(guān)度權(quán)值頁序排列搜索到的數(shù)據(jù),而后獲得搜索結(jié)果列表。后文將 會對結(jié)構(gòu)化數(shù)據(jù)的搜索過程做詳細描述。圖2從概念上演示了搜索引擎系統(tǒng)100執(zhí)行通用搜索的功能組件框圖。所謂通用 搜索,即檢索通過互聯(lián)網(wǎng)鏈接結(jié)構(gòu)抓取的網(wǎng)頁文檔。搜索引擎系統(tǒng)100整體上同樣可分為 離線部分和在線部分。在離線部分,系統(tǒng)會事先搜集一批網(wǎng)頁,并以某種方式存放在系統(tǒng) 中,系統(tǒng)包括網(wǎng)頁抓取器191、索引器192、和網(wǎng)頁存儲庫30。網(wǎng)頁抓取器191是根據(jù)一定的策略通過網(wǎng)頁之間的超鏈接關(guān)系來一個個抓取網(wǎng) 頁的程序。具體的,網(wǎng)頁抓取器191從初始的URL庫中獲得輸入,解析URL中標(biāo)明的網(wǎng)絡(luò)服 務(wù)器地址,然后建立連接、發(fā)送請求、和接收數(shù)據(jù),將獲得的網(wǎng)頁數(shù)據(jù)儲存到網(wǎng)頁存儲庫30 的網(wǎng)頁庫中并建立本地文檔集合,然后從其中提取鏈接以進行下一步的抓取動作,如此循 環(huán)往復(fù)直到所有的URL抓取完為止。網(wǎng)頁抓取器191所依據(jù)的抓取策略包括廣度優(yōu)先策略 和深度優(yōu)先策略。索引器192用于對本地文檔集合進行分析并建立索引。例如通過分詞從 文檔的全文中抽取詞項,然后過濾除去高頻詞或低頻詞,以及對詞項進行同義詞轉(zhuǎn)換以獲 得索引詞集合,最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成包含索引詞 表和倒排表的倒排文件并存儲在網(wǎng)頁存儲庫30的索引庫中。本實施方式中,搜索引擎系統(tǒng)100的在線部分同樣包括搜索組件11用戶界面13。 與圖1所示的實施方式類似,用戶界面13用于供用戶輸入查詢詞表達式,并按特定展現(xiàn)方 式顯示搜索結(jié)果列表。搜索組件11同樣包括搜索模塊111和排列模塊112。搜索模塊111 可以接收用戶的查詢請求,該查詢請求中包含有查詢詞表達式。搜索模塊111生成查詢詞 表,然后與網(wǎng)頁存儲庫30中的索引詞表進行匹配,找到相應(yīng)的索引詞以及每個索引詞對應(yīng) 的倒排表,從而獲得與查詢詞相關(guān)的網(wǎng)頁文檔集合。排序模塊112根據(jù)預(yù)先確定的每個文 檔與查詢詞之間的相關(guān)度將搜索到的網(wǎng)頁文檔順序排列,然后將列表返回給客戶端。圖3是本發(fā)明的搜索引擎系統(tǒng)100對結(jié)構(gòu)化數(shù)據(jù)和普通網(wǎng)頁文檔進行綜合搜索的 一具體實施方式
的工作原理框圖。本實施方式中,系統(tǒng)100包括若干結(jié)構(gòu)化數(shù)據(jù)存儲庫,如 招聘數(shù)據(jù)存儲庫21、明星數(shù)據(jù)存儲庫22、和軟件數(shù)據(jù)存儲庫23。關(guān)于每一存儲庫中的結(jié)構(gòu) 化數(shù)據(jù)的引入,與圖1所示的實施方式相同,后文也會結(jié)合圖6所示的工作流程做進一步描 述。系統(tǒng)100還包括用于存儲通過訪問互聯(lián)網(wǎng)鏈接結(jié)構(gòu)抓取的網(wǎng)頁文檔的網(wǎng)頁存儲庫30。 關(guān)于網(wǎng)頁存儲庫30中的網(wǎng)頁文檔的抓取,與圖2所示的實施方式相同,此處不再予以贅述。 搜索引擎系統(tǒng)100的在線檢索部分10包括搜索組件11、需求分析模塊12、用戶界面13、和 合成模塊14。其中搜索組件11同樣包括搜索模塊和排序模塊,其對結(jié)構(gòu)化數(shù)據(jù)存儲庫21、 22,23的搜索與圖1所示的實施方式相同,對網(wǎng)頁存儲庫30的搜索與圖2所示的實施方式 相同。需求分析模塊12主要用于判斷查詢請求中是否包含結(jié)構(gòu)化數(shù)據(jù)的查詢需求,并當(dāng)存 在該需求時還用于對查詢詞表達式進行相應(yīng)處理,后文將會進行詳細的描述。用戶界面13 的功能與上述實施方式中相同,合成模塊14用于將結(jié)構(gòu)化數(shù)據(jù)的檢索結(jié)果和網(wǎng)頁文檔的 檢索結(jié)果合成后后通過用戶界面13展現(xiàn)給用戶。圖5揭示一種具體的形式。其中用戶界 面13包括查詢詞表達式輸入框131、查詢確認鍵132、搜索結(jié)果列表133、以及包含在搜索結(jié)果列表中的結(jié)構(gòu)化數(shù)據(jù)結(jié)果中間頁134。后文將會對合成顯示做詳細的描述。圖6是本發(fā)明的搜索引擎系統(tǒng)中結(jié)構(gòu)化數(shù)據(jù)引入的一具體實施方式
的工作流程 圖。如前所述,搜索引擎系統(tǒng)100可以通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取由行業(yè)網(wǎng)站提交的結(jié) 構(gòu)化數(shù)據(jù)(步驟511)。然后對獲取的數(shù)據(jù)進行處理(步驟512),包括摘要式處理、篩選式 處理、分詞和索引型處理。處理后的數(shù)據(jù)會存入摘要庫,并備份到網(wǎng)頁庫,索引文件存入索 引庫;系統(tǒng)100還可以定期利用網(wǎng)頁庫中的數(shù)據(jù)對索引庫進行全量更新(步驟51 ,以優(yōu) 化索引結(jié)構(gòu)。系統(tǒng)100還可以根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān)性、和數(shù)據(jù)的特定特征的重 要性來確定數(shù)據(jù)相關(guān)度的權(quán)值(步驟514)。此外,系統(tǒng)100還能夠通過分析用戶查詢?nèi)罩?來確定代表同一類查詢詞表達式的語義模板。圖7為本發(fā)明的搜索引擎系統(tǒng)執(zhí)行網(wǎng)頁文檔和結(jié)構(gòu)化數(shù)據(jù)綜合搜索的概要的工 作流程圖。系統(tǒng)100通過用戶界面13接收到包含查詢詞表達式的查詢請求(步驟521)。 需求識別模塊12判斷該查詢請求中是否包含潛在的結(jié)構(gòu)化數(shù)據(jù)的查詢需求(步驟522),即 分析查詢詞表達式中是否包含一些特定行業(yè)數(shù)據(jù)存儲庫的特征短語。具體地,需求分析模 塊12可以先對查詢詞表達式進行分詞以獲得若干詞項的集合,然后與數(shù)據(jù)庫匹配詞典匹 配,以確定該詞項的集合中是否包含相關(guān)數(shù)據(jù)存儲庫的特征短語。例如,對于招聘數(shù)據(jù)存儲 庫21,招聘動詞、職位名、或公司名可以作為相應(yīng)的特征短語;對于明星數(shù)據(jù)存儲庫22,明 星的姓名或星座可以作為相應(yīng)的特征短語;而對于軟件數(shù)據(jù)存儲庫23,軟件名、版本信息、 下載動詞等可以作為相應(yīng)的特征短語。如果能夠匹配特征短語,則表明有需要對相應(yīng)結(jié)構(gòu) 化數(shù)據(jù)存儲庫進行搜索;反之,則無。如果需要進行結(jié)構(gòu)化數(shù)據(jù)的查詢,則搜索組件11同時 搜索相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)存儲庫20和網(wǎng)頁存儲庫30,并將搜索到的結(jié)構(gòu)化數(shù)據(jù)集合和網(wǎng)頁 文檔集合分別排序;如果不需要進行結(jié)構(gòu)化數(shù)據(jù)的查詢,則搜索組件搜索網(wǎng)頁存儲庫30以 獲得相關(guān)的網(wǎng)頁文檔集合,并進行排序(步驟52 。合成模塊14將排序后的網(wǎng)頁文檔和結(jié) 構(gòu)化數(shù)據(jù)合成搜索結(jié)果列表,通過用戶界面13在客戶端40展現(xiàn)(步驟524)。當(dāng)然,如果不 需要執(zhí)行結(jié)構(gòu)化數(shù)據(jù)的搜索,合成模塊14直接將網(wǎng)頁文檔列表作為搜索結(jié)果列表返回給 客戶端40。在其它實施方式中,可能搜索到的結(jié)構(gòu)化數(shù)據(jù)是唯一的,則直接將該數(shù)據(jù)與網(wǎng)頁 文檔列表合成后返回給客戶端40。圖8所示的是搜索引擎系統(tǒng)執(zhí)行網(wǎng)頁文檔和結(jié)構(gòu)化數(shù)據(jù)綜合搜索的過程中,對已 確定的相應(yīng)結(jié)構(gòu)化數(shù)據(jù)庫進行搜索的一具體實施方式
中的工作流程圖。首先,需求分析模 塊12會判斷是否有與查詢表達式相匹配的語義模板(步驟531)。如果有,則輸出所匹配 的模板信息;如果無,則推出結(jié)構(gòu)化數(shù)據(jù)的搜索。當(dāng)語義模板確定后,需求分析模塊接下來 對查詢詞表達式進行分析(步驟532),該分析步驟包括根據(jù)查詢詞表達式分詞后的各詞項 所在的詞序確定相關(guān)語義模板中對應(yīng)的屬性標(biāo)簽,并進行標(biāo)注。例如,“最近北京司機招聘” 對應(yīng)的語義模板為“[D 時間][D 地點][D 職位][D 招聘詞];其中,“最近”對應(yīng)的屬性 標(biāo)簽為[D 時間],“北京”對應(yīng)的屬性標(biāo)簽為[D 地點],“司機”對應(yīng)的屬性標(biāo)簽為[D 職 位]。由于有些詞項尚不能符合搜索的要求,或為了獲得盡可能全的搜索結(jié)果,需求分析模 塊還會對查詢詞表達式進行優(yōu)化(步驟53 。該優(yōu)化的步驟包括區(qū)間篩選操作,如上述的 “近期”可以先將其轉(zhuǎn)換為“近一個月”,然后確定最近一個月的日期區(qū)間。查詢詞表達式優(yōu) 化的步驟還包括語義擴展操作。如查詢詞中包括“百度”,則會進一步擴展成英文“baidu”; 又如查詢詞中包括“招行”,則還會將該詞擴展為“招商銀行”。查詢詞表達式優(yōu)化的步驟還包括更細化的分詞操作,如將“高級工程師”進一步切分為“高級”和“工程師”。上述優(yōu)化 操作前及優(yōu)化操作后所確定的詞項,均會傳遞給搜索組件11來進行檢索。搜索組件11所 得到的查詢詞項為與相關(guān)屬性標(biāo)簽對應(yīng)的屬性值,而所要搜索的數(shù)據(jù)即包含這些屬性值的 數(shù)據(jù),從而根據(jù)這些屬性值可篩選出相關(guān)的數(shù)據(jù)集合(步驟534)。圖9所示的是對已確定的相應(yīng)結(jié)構(gòu)化數(shù)據(jù)庫進行搜索的另一具體實施方式
中的 工作流程圖。有些查詢請求的結(jié)果比較明確,在這種情況下,用戶最想獲得的最終的答案, 而不是包含查詢詞的一堆網(wǎng)頁。例如,查詢表達式是“劉德華身高”,其實用戶就想知道劉 德華身高的數(shù)據(jù),而現(xiàn)有的搜索引擎往往返回的搜索結(jié)果是包含“劉德華”和“身高”這兩 個詞項的網(wǎng)頁,而網(wǎng)頁中可能并不包含,劉德華身高的數(shù)據(jù),而且即使包含,用戶也需要點 擊瀏覽后才能得到其想要的答案。本實施方式可有效地解決上述問題。首先,需求分析模 塊12確定相關(guān)的語義模板(步驟Ml)。如“劉德華身高”對應(yīng)語義模板為“ [D 姓名][D 身高]”。然后,根據(jù)該語義模板分析查詢詞表達式(步驟,即分析出所要搜索的屬性 標(biāo)簽。如[D 姓名]=劉德華,該屬性標(biāo)簽已有對應(yīng)的屬性值,因此所要搜索的屬性標(biāo)簽為 [D 身高],而提交給搜索組件11進行搜索的索引詞項為“劉德華”。搜索組件11根據(jù)“劉 德華”查詢倒排表獲得相關(guān)的數(shù)據(jù)集合(步驟討幻,該集合包括如圖4所示的摘要性數(shù)據(jù), 也包括與這條數(shù)據(jù)關(guān)聯(lián)的url鏈接。本實施方式中,該數(shù)據(jù)集合僅包含一條數(shù)據(jù),當(dāng)然在其 它實施方式中,數(shù)據(jù)集合可能包含若干條數(shù)據(jù)。如查詢“白羊座的男明星”,則會獲得多個 男明星的數(shù)據(jù)。還是以“劉德華身高”為例,如圖4所示的摘要性數(shù)據(jù)信息,其中關(guān)于“劉德 華”的數(shù)據(jù)包括劉德華的身高、生日、星座等,但用戶最想知道的還是“身高”的信息,所以搜 索組件11會將對應(yīng)所要搜索的屬性標(biāo)簽的屬性值提取出來(步驟M4),并返回結(jié)果。如將 劉德華數(shù)據(jù)中[D 身高]對應(yīng)的屬性值174cm提取出來,然后通過合成模塊14返回給客戶 端40,從而展現(xiàn)給用戶最想要結(jié)果。圖10是搜索引擎系統(tǒng)對搜索結(jié)果進行排序和展現(xiàn)的一具體實施方式
的工作流程 圖。在獲得結(jié)果數(shù)據(jù)集合后,搜索組件11會根據(jù)各數(shù)據(jù)相關(guān)度的權(quán)值來進行相應(yīng)的排序 (步驟。如前所述,該權(quán)值可以根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān)性來確定,或根據(jù)數(shù)據(jù) 的特定特征的重要性來確定。由于獲得的結(jié)果數(shù)據(jù)可能來源于不同的網(wǎng)站,如搜索到的招 聘數(shù)據(jù)來源于不同的招聘網(wǎng)站,在相關(guān)度計算時,有可能會出現(xiàn)來源于某一家網(wǎng)站的數(shù)據(jù) 相關(guān)度較高,如此會導(dǎo)致搜索結(jié)果列表的前幾頁都有可能是同一家網(wǎng)站的數(shù)據(jù),顯然,這樣 無法使用戶全面了解所有相關(guān)的數(shù)據(jù),而且對于其它網(wǎng)站來講也不公平。為此,在排序后, 搜索組件11還會根據(jù)一定的策略對排序后的結(jié)果執(zhí)行打散操作(步驟陽2),即在搜索結(jié)果 的每一頁,均顯示來源不同的數(shù)據(jù)。具體地,可以將結(jié)果劃分為幾段,在每一段結(jié)果中可以 適當(dāng)改變數(shù)據(jù)的順序,從而確保每一頁都有來源不同的數(shù)據(jù)結(jié)果。本實施方式中,由于需要和網(wǎng)頁文檔的搜索結(jié)果合成顯示,在結(jié)構(gòu)化數(shù)據(jù)集合經(jīng) 排序、打散操作后,合成模塊14可以將首頁結(jié)果列表中最靠前的幾條數(shù)據(jù)(如5條)合為 一個中間結(jié)果(步驟陽3),并與網(wǎng)頁文檔的搜索結(jié)果合成后展現(xiàn)(步驟554)。關(guān)于該中間 結(jié)果在整個搜索結(jié)果中的位置,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)的排序算法確定,也可以根據(jù)網(wǎng)頁文 檔的排序算法來確定,當(dāng)然也可以根據(jù)除此之外的其它算法來確定。此外,中間結(jié)果在被點 擊后會展現(xiàn)成中間頁,該中間頁會顯示更多的結(jié)構(gòu)化數(shù)據(jù)結(jié)果,如20條。該中間頁還提供 結(jié)構(gòu)化數(shù)據(jù)的進一步查詢。
本發(fā)明的搜索引擎系統(tǒng)通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取結(jié)構(gòu)化數(shù)據(jù),方便了結(jié)構(gòu)化 數(shù)據(jù)的抓取和更新,并提高了搜索引器系統(tǒng)的資源覆蓋面。此外,用戶在使用通用搜索引擎 時,系統(tǒng)能夠識別潛在的結(jié)構(gòu)化數(shù)據(jù)搜索的需求,并對結(jié)構(gòu)化數(shù)據(jù)和普通網(wǎng)頁文檔進行綜 合搜索,從而為用戶提供全面、準確的搜索結(jié)果。本發(fā)明的搜索引擎系統(tǒng)通過語義模板來分析用戶的搜索表達式,以確切地了解用 戶最想要的需求,并給用戶一個能夠滿足其需求的最適合的方式展現(xiàn),從而使用戶得到良 好的使用體驗。應(yīng)當(dāng)理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一 個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說 明書作為一個整體,各實施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以 理解的其他實施方式。上文所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說 明,它們并非用以限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式 或變更均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種結(jié)構(gòu)化數(shù)據(jù)的搜索方法,所述結(jié)構(gòu)化數(shù)據(jù)包括與若干屬性標(biāo)簽對應(yīng)的屬性值, 其特征在于,該方法包括如下步驟接收來自于客戶端的查詢詞表達式;根據(jù)所述查詢詞表達式確定相應(yīng)的語義模板,所述語義模板包括屬性標(biāo)簽;根據(jù)所述語義模板分析所述查詢詞表達式,以確定所要搜索的結(jié)構(gòu)化數(shù)據(jù);搜索并獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,所述查詢詞表達式分析步驟包括分 析出和語義模板中屬性標(biāo)簽對應(yīng)的屬性值,從而確定包含有所述屬性值的數(shù)據(jù)為所要搜索 的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的搜索方法,其特征在于,所述查詢詞表達式分析步驟還包 括根據(jù)語義模板分析出所要搜索的屬性標(biāo)簽;該方法還包括從所述獲取的數(shù)據(jù)中抽取與所 述所要搜索的屬性標(biāo)簽對應(yīng)的屬性值,并將所述屬性值返回給客戶端。
4.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,所述查詢詞表達式分析步驟包括 根據(jù)語義模板確定和語義模板中的屬性標(biāo)簽對應(yīng)的詞項,并給所述詞項標(biāo)注相應(yīng)的屬性標(biāo) 簽。
5.根據(jù)權(quán)利要求1或4所述的搜索方法,其特征在于,該方法還包括在查詢詞表達式 分析的步驟后還包括對查詢詞表達式進行優(yōu)化的步驟。
6.根據(jù)權(quán)利要求5所述的搜索方法,其特征在于,所述查詢詞表達式優(yōu)化的步驟包括 區(qū)間篩選操作、和/或語義擴展操作、和/或分詞操作。
7.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,該方法還包括根據(jù)數(shù)據(jù)的相關(guān)度權(quán) 值來對搜索獲取的數(shù)據(jù)進行排序。
8.根據(jù)權(quán)利要求7所述的搜索方法,其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)文 本的基礎(chǔ)知識的相關(guān)性來確定。
9.根據(jù)權(quán)利要求7所述的搜索方法,其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)的 特定特征的重要性來確定。
10.根據(jù)權(quán)利要求7所述的搜索方法,其特征在于,該方法還包括對排序后的數(shù)據(jù)進行 打散操作。
11.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,該方法還包括根據(jù)所述查詢詞表達 式搜索獲取與查詢詞相關(guān)的網(wǎng)頁文檔,并將所述網(wǎng)頁文檔和所述搜索獲取的結(jié)構(gòu)化數(shù)據(jù)合 成后返回給客戶端。
12.根據(jù)權(quán)利要求11所述的搜索方法,其特征在于,所述網(wǎng)頁文檔是通過訪問互聯(lián)網(wǎng) 鏈接結(jié)構(gòu)而預(yù)先搜集到的。
13.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,該方法還包括生成用戶查詢?nèi)罩荆?并根據(jù)用戶查詢?nèi)罩精@得所述語義模板。
14.一種搜索引擎系統(tǒng),其特征在于,該搜索引擎系統(tǒng)包括結(jié)構(gòu)化數(shù)據(jù)存儲庫,用于存儲結(jié)構(gòu)化數(shù)據(jù),所述結(jié)構(gòu)化數(shù)據(jù)包括與若干屬性標(biāo)簽對應(yīng) 的屬性值;該存儲庫內(nèi)還存儲有語義模板,所述語義模板包括有屬性標(biāo)簽;需求分析模塊,用于接收來自于客戶端的查詢詞表達式,根據(jù)所述查詢詞表達式確定 相應(yīng)的語義模板,并根據(jù)所述語義模板分析該查詢詞表達式,以確定所要搜索的結(jié)構(gòu)化數(shù)據(jù);搜索組件,用于搜索結(jié)構(gòu)化數(shù)據(jù)存儲庫以獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析包括分析出和語義模板中的屬性標(biāo)簽對應(yīng)的屬性值,從而確定包含有所述 屬性值的數(shù)據(jù)為所要搜索的數(shù)據(jù)。
16.根據(jù)權(quán)利要求14或15的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析還包括根據(jù)語義模板分析出所要搜索的屬性標(biāo)簽;所述搜索組件還用于從所 述獲取的數(shù)據(jù)中抽取與所述所要搜索的屬性標(biāo)簽對應(yīng)的屬性值,并將所述屬性值返回給客 戶端。
17.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析包括根據(jù)語義模板確定和語義模板中的屬性標(biāo)簽對應(yīng)的詞項,并給所述詞 項標(biāo)注相應(yīng)的屬性標(biāo)簽。
18.根據(jù)權(quán)利要求14或17所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊還用 于對查詢詞表達式進行優(yōu)化。
19.根據(jù)權(quán)利要求18所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的優(yōu)化包括區(qū)間篩選操作、和/或語義擴展操作、和/或分詞操作。
20.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,所述搜索組件還用于根據(jù)數(shù) 據(jù)的相關(guān)度權(quán)值來對搜索獲取的數(shù)據(jù)進行排序。
21.根據(jù)權(quán)利要求20所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù) 數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān)性來確定。
22.根據(jù)權(quán)利要求20所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù) 數(shù)據(jù)的特定特征的重要性來確定。
23.根據(jù)權(quán)利要求20所述的搜索引擎系統(tǒng),其特征在于,所述搜索組件還用于對排序 后的數(shù)據(jù)進行打散操作。
24.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括網(wǎng)頁存儲庫,用 于存儲通過訪問互聯(lián)網(wǎng)鏈接結(jié)構(gòu)而抓取的網(wǎng)頁文檔;所述搜索組件還用于搜索網(wǎng)頁存儲庫 以獲取與所述查詢詞表達式相關(guān)的網(wǎng)頁文檔。
25.根據(jù)權(quán)利要求M所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括合成模塊,用于 將獲取的網(wǎng)頁文檔和結(jié)構(gòu)化數(shù)據(jù)合成后返回給客戶端。
26.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括用戶界面,用于 記錄用戶查詢?nèi)罩?,所述語義模板根據(jù)用戶查詢?nèi)罩径@得。
27.根據(jù)權(quán)利要求14所述的搜索引擎系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)通過預(yù)定的 數(shù)據(jù)交互協(xié)議從特定領(lǐng)域網(wǎng)站獲取。
全文摘要
本發(fā)明提供一種搜索引擎系統(tǒng),其包括結(jié)構(gòu)化數(shù)據(jù)存儲庫、需求分析模塊、和搜索組件。其中結(jié)構(gòu)化數(shù)據(jù)存儲庫用于存儲結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)包括與若干屬性標(biāo)簽對應(yīng)的屬性值;該存儲庫內(nèi)還存儲有語義模板,語義模板包括有屬性標(biāo)簽。需求分析模塊,用于接收來自于客戶端的查詢詞表達式,根據(jù)查詢詞表達式確定相應(yīng)的語。搜索組件用于搜索結(jié)構(gòu)化數(shù)據(jù)存儲庫以獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明的搜索引擎系統(tǒng)通過語義模板來分析用戶的搜索表達式,以確切地了解用戶最想要的需求,并給用戶一個能夠滿足其需求的最適合的方式展現(xiàn),從而使用戶得到良好的使用體驗,提高搜索效率,節(jié)約網(wǎng)絡(luò)流量。
文檔編號G06F17/30GK102073725SQ201110004810
公開日2011年5月25日 申請日期2011年1月11日 優(yōu)先權(quán)日2011年1月11日
發(fā)明者趙劍波 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司