專利名稱:一種用于元搜索引擎的搜索方法及其裝置的制作方法
一種用于元搜索引擎的搜索方法及其裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機軟件領(lǐng)域,尤其涉及一種用于元搜索引擎的搜索方法及其裝置。
背景技術(shù):
如何讓搜索引擎主動了解用戶意圖,掌握用戶個性化信息,提供個性化服務(wù)成為 了信息檢索領(lǐng)域中許多學(xué)者的研究熱點。在個性化信息服務(wù)中,有關(guān)用戶行為的分析,進而 建立用戶模型成為個性化服務(wù)研究的關(guān)鍵技術(shù)。在個性化元搜索引擎中,主要有三種用戶模型的表示方式主題表示法,以用戶 感興趣的主題表示用戶模型;關(guān)鍵詞表示法,以用戶感興趣的關(guān)鍵詞表示用戶模型,如Web Watcher ;基于空間向量模型的表示法,用關(guān)鍵詞向量空間中的向量來表示用戶模型的方 法,如ffeb Mate。現(xiàn)有技術(shù)的個性化搜索引擎中主要有三種用戶建模技術(shù)手工定制建模, 即由用戶自行輸入或選擇的建模方法。另外,成員搜索引擎的調(diào)度以及結(jié)果的融合也都是 個性化元搜索引擎的關(guān)鍵技術(shù)。手工定制建模是由用戶自行輸入或選擇的建模方法,因此該方法的缺點在于完全 依賴于用戶并且無法準確反映用戶興趣。而示例建模是由用戶提供與興趣相關(guān)或無關(guān)的示 例來建立模型,此方法的缺點在于需要用戶在瀏覽過程中標注頁面以得到示例,因此干擾 了用戶的正常瀏覽。對于自動建模而言,是根據(jù)用戶的瀏覽行為自動建立模型,改進了示例 建模技術(shù),不會造成對用戶的干擾,但是自動建模的程序?qū)崿F(xiàn)過程非常復(fù)雜,目前還很不完善。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是,提供一種用于元搜索引擎的搜索方法以及裝置, 具有簡單的算法和準確的搜索結(jié)果,且不影響用戶正常瀏覽。為了解決上述問題,本發(fā)明提供了一種用于元搜索引擎的搜索方法,包括如下步 驟根據(jù)用戶瀏覽過的頁面建立用戶興趣模型;根據(jù)用戶的查詢要求和用戶的興趣模型對 成員搜索引擎進行調(diào)度;根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對結(jié)果進行融合并排序。作為可選的技術(shù)方案,所述建立用戶興趣模型的步驟進一步包括對用戶瀏覽過 的頁面進行內(nèi)容分析;根據(jù)分析結(jié)果對頁面進行聚類,以形成興趣樹。作為可選的技術(shù)方案,所述對成員搜索引擎進行調(diào)度的步驟進一步包括將用戶 的查詢映射到用戶興趣分類;結(jié)合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶 查詢的相關(guān)度;選取一個或多個成員搜索引擎進行搜索。作為可選的技術(shù)方案,所述對結(jié)果進行融合的步驟進一步包括對查詢到的相似 網(wǎng)頁進行去重處理;根據(jù)成員搜索引擎與興趣的相關(guān)度、查詢結(jié)果在各個成員搜索引擎中 出現(xiàn)的位置和次數(shù)、以及用戶對成員搜索引擎的偏好程度,計算查詢結(jié)果在成員搜索引擎 中的評分;對查詢結(jié)果按照評分從高到低的順序進行排序。
本發(fā)明還提供了一種用于元搜索引擎的搜索裝置,包括如下單元建模單元,用于 根據(jù)用戶瀏覽過的頁面建立用戶興趣模型;調(diào)度單元,用于根據(jù)用戶的查詢要求和用戶的 興趣模型對成員搜索引擎進行調(diào)度;融合單元,用于根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對 結(jié)果進行融合并排序。作為可選的技術(shù)方案,所述建模單元進一步包括分析模塊,用于對用戶瀏覽過的 頁面進行內(nèi)容分析;聚類模塊,用于根據(jù)分析結(jié)果對頁面進行聚類,以形成興趣樹。作為可選的技術(shù)方案,所述調(diào)度單元進一步包括映射模塊,用于將用戶的查詢映 射到用戶興趣分類;計算模塊,用于結(jié)合用戶對搜索引擎的偏好程度,計算成員搜索引擎與 用戶查詢的相關(guān)度;搜索模塊,選取一個或多個成員搜索引擎進行搜索。作為可選的技術(shù)方案,所述排序單元進一步包括去重模塊,用于對查詢到的相似 網(wǎng)頁進行去重處理;評分模塊,用于根據(jù)成員搜索引擎與興趣的相關(guān)度、查詢結(jié)果在各個成 員搜索引擎中出現(xiàn)的位置和次數(shù)、以及用戶對成員搜索引擎的偏好程度,計算查詢結(jié)果在 成員搜索引擎中的評分;排序模塊,對查詢結(jié)果按照評分從高到低的順序進行排序。本發(fā)明的優(yōu)點在于,采用模糊均值算法對用戶的行為進行聚類,自動完成對用戶 興趣模型的建立。并且充分利用對用戶的行為的分析,結(jié)合用戶的興趣模型搜索引擎的偏 好來實現(xiàn)對成員搜索引擎的調(diào)度。因此本發(fā)明所述的技術(shù)方案是一種基于用戶興趣的查詢 結(jié)果融合的方案,通過考慮用戶的興趣以及成員搜索引擎與用戶興趣的相關(guān)度,在不影響 用戶正常瀏覽的前提下,提高了搜索引擎的準確度。
附圖1所示是本發(fā)明所述用于元搜索引擎的搜索方法的實施步驟示意圖;附圖2所示是本發(fā)明所述用于元搜索引擎的搜索裝置的裝置結(jié)構(gòu)示意圖。
具體實施方式下面結(jié)合附圖對本發(fā)明提供的用于元搜索引擎的搜索方法及其裝置的具體實施 方式做詳細說明。首先結(jié)合附圖敘述本發(fā)明所述用于元搜索引擎的搜索方法的具體實施方式
。附圖1所示是本方法的實施步驟示意圖,包括步驟S11,根據(jù)用戶瀏覽過的頁面 建立用戶興趣模型;步驟S12,根據(jù)用戶的查詢要求和用戶的興趣模型對成員搜索引擎進 行調(diào)度;步驟S13,根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對結(jié)果進行融合并排序。其中,步驟Sll進一步包括對用戶瀏覽過的頁面進行內(nèi)容分析;根據(jù)分析結(jié)果對 頁面進行聚類,以形成興趣樹。用戶往往有多個不同的興趣類別,為了區(qū)分各種不同興趣, 本發(fā)明采用分類層次結(jié)構(gòu)來表示用戶可能具有的興趣。具體地說,首先對用戶瀏覽過的頁面進行內(nèi)容分析,根據(jù)信息主題對頁面進行聚 類,以形成不同用戶的興趣樹。采用模糊C均值(FCM)算法,該算法能夠在數(shù)據(jù)集的聚類數(shù) 目已知的情況下,尋找最佳的數(shù)據(jù)劃分。由于用戶在不同的時期表現(xiàn)出的興趣不同,長期興 趣比較穩(wěn)定,短期興趣則能體現(xiàn)用戶最近的興趣。因此,本文采用一個三元組(keyi,Wi, f) 來表示每一個興趣節(jié)點,其中keyi表興趣節(jié)點的關(guān)鍵詞,Wi表示該關(guān)鍵詞的權(quán)重,f表示該 興趣的新鮮度。隨著用戶的行為增多,用戶的行為動機就越來越明確,即用戶的興趣類別越明確。步驟S12進一步包括將用戶的查詢映射到用戶興趣分類;結(jié)合用戶對搜索引擎 的偏好程度,計算成員搜索引擎與用戶查詢的相關(guān)度;選取前面的一個或多個成員搜索引 擎進行搜索。將用戶的查詢映射到用戶興趣分類,所述用戶興趣分類是采用步驟Sll中所述的 方法建立的。結(jié)合用戶對搜索引擎的偏好程度Prei,采用余弦法計算出用戶興趣與成員搜索 引擎的相關(guān)度re、。計算成員搜索引擎與用戶查詢的相關(guān)度有以下公式rel (s,q)= a^eli+l^prei,其中 a、b 為常數(shù)。根據(jù)計算出來的搜索引擎與用戶查詢的相關(guān)度rel (s,q),對各成員搜索引擎按照 相關(guān)度的降序排列,選取前面的幾個成員搜索引擎(例如5個)進行搜索。上述步驟中,還可以進一步利用并行處理來提高碰撞檢測的速度。是否能夠采用 并行處理的關(guān)鍵因素在于求解問題之間要滿足并行處理的條件1、求解問題可劃分為多個 子問題;2、子問題間具有低相關(guān)性。步驟S13進一步包括對查詢到的相似網(wǎng)頁進行去重處理;根據(jù)成員搜索引擎與 興趣的相關(guān)度、查詢結(jié)果在各個成員搜索引擎中出現(xiàn)的位置和次數(shù)、以及用戶對成員搜索 引擎的偏好程度,計算查詢結(jié)果在成員搜索引擎中的評分;對查詢結(jié)果按照評分從高到低 的順序進行排序。各成員搜索引擎返回的查詢結(jié)果可能會有交叉,為避免查詢到相似的網(wǎng)頁,造成 重復(fù)索引,本系統(tǒng)對查詢到的網(wǎng)頁進行了相似網(wǎng)頁去重處理。計算查詢結(jié)果與用戶興趣的相關(guān)度的步驟具體是分析查詢結(jié)果的標題和內(nèi)容摘 要并對照用戶的興趣樹,對查詢結(jié)果進行分類,并計算查詢結(jié)果與用戶興趣的相關(guān)度。利用所獲得相關(guān)度信息,并結(jié)合查詢結(jié)果在各個成員搜索引擎中出現(xiàn)的位置 和次數(shù)、以及用戶對成員搜索引擎的偏好程度,計算查詢結(jié)果在成員搜索引擎中的評分 rank(se)0具體地說,成員搜索引擎與用戶興趣的相關(guān)性越高,則評分越高;查詢結(jié)果 被越多的成員搜索引擎索引,則評分越高;查詢結(jié)果出現(xiàn)的位置越靠前,則評分越高;用 戶對成員搜索引擎的偏好程度越高,則評分越高。根據(jù)以上原則,我們得出如下公式
權(quán)利要求
1.一種用于元搜索引擎的搜索方法,其特征在于,包括如下步驟 根據(jù)用戶瀏覽過的頁面建立用戶興趣模型;根據(jù)用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調(diào)度; 根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對結(jié)果進行融合并排序。
2.根據(jù)權(quán)利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述建 立用戶興趣模型的步驟進一步包括對用戶瀏覽過的頁面進行內(nèi)容分析; 根據(jù)分析結(jié)果對頁面進行聚類,以形成興趣樹。
3.根據(jù)權(quán)利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述對成員搜索 引擎進行調(diào)度的步驟進一步包括將用戶的查詢映射到用戶興趣分類;結(jié)合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶查詢的相關(guān)度; 選取一個或多個成員搜索引擎進行搜索。
4.根據(jù)權(quán)利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述對結(jié)果進行 融合的步驟進一步包括對查詢到的相似網(wǎng)頁進行去重處理;根據(jù)成員搜索引擎與興趣的相關(guān)度、查詢結(jié)果在各個成員搜索引擎中出現(xiàn)的位置和次 數(shù)、以及用戶對成員搜索引擎的偏好程度,計算查詢結(jié)果在成員搜索引擎中的評分; 對查詢結(jié)果按照評分從高到低的順序進行排序。
5.一種用于元搜索引擎的搜索裝置,其特征在于,包括如下單元 建模單元,用于根據(jù)用戶瀏覽過的頁面建立用戶興趣模型;調(diào)度單元,用于根據(jù)用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調(diào)度; 融合單元,用于根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對結(jié)果進行融合并排序。
6.根據(jù)權(quán)利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述建模單元進 一步包括分析模塊,用于對用戶瀏覽過的頁面進行內(nèi)容分析; 聚類模塊,用于根據(jù)分析結(jié)果對頁面進行聚類,以形成興趣樹。
7.根據(jù)權(quán)利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述調(diào)度單元進 一步包括映射模塊,用于將用戶的查詢映射到用戶興趣分類;計算模塊,用于結(jié)合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶查詢的相 關(guān)度;搜索模塊,選取一個或多個成員搜索引擎進行搜索。
8.根據(jù)權(quán)利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述排序單元進 一步包括去重模塊,用于對查詢到的相似網(wǎng)頁進行去重處理;評分模塊,用于根據(jù)成員搜索引擎與興趣的相關(guān)度、查詢結(jié)果在各個成員搜索引擎中 出現(xiàn)的位置和次數(shù)、以及用戶對成員搜索引擎的偏好程度,計算查詢結(jié)果在成員搜索引擎 中的評分;排序模塊,對查詢結(jié)果按照評分從高到低的順序進行排序。
全文摘要
一種用于元搜索引擎的搜索方法,包括如下步驟根據(jù)用戶瀏覽過的頁面建立用戶興趣模型;根據(jù)用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調(diào)度;根據(jù)查詢結(jié)果與用戶興趣的相關(guān)度對結(jié)果進行融合并排序。本發(fā)明還進一步提供了一種用于元搜索引擎的搜索裝置。本發(fā)明所述的方法和裝置是一種基于用戶興趣的查詢結(jié)果融合方法,通過考慮用戶的興趣以及成員搜索引擎與用戶興趣的相關(guān)度,在不影響用戶正常瀏覽的前提下,提高了搜索引擎的準確度。
文檔編號G06F17/30GK102081604SQ20091019962
公開日2011年6月1日 申請日期2009年11月27日 優(yōu)先權(quán)日2009年11月27日
發(fā)明者劉泓漫, 寧建紅, 閆俊英 申請人:上海電機學(xué)院