專利名稱:一種用于垂直搜索引擎的聚焦相關度排序方法
技術領域:
本發(fā)明涉及計算機網(wǎng)絡搜索引擎的技術領域,特別是涉及一種用于垂直搜索引擎的聚焦相關度排序方法,即在搜索引擎搜索中基于網(wǎng)頁相關度技術的搜索方法。
背景技術:
隨著互聯(lián)網(wǎng)相關技術的日益成熟和蘊含信息量的快速增長,搜索引擎已經(jīng)成為人們檢索互聯(lián)網(wǎng)數(shù)據(jù)的主要手段。目前互聯(lián)網(wǎng)已經(jīng)擁有100億的靜態(tài)網(wǎng)頁,傳統(tǒng)的通用搜索引擎雖然具有全面的檢索能力,但其存在數(shù)據(jù)冗余量大、查詢精度低等缺陷,已不能滿足用戶對信息檢索的精確性要求。面向主題、專業(yè)化的垂直搜索引擎正逐步占據(jù)著市場,并引起了人們的廣泛關注。
垂直搜索引擎的目的是找到與主題密切相關的資源,這需要預測文檔的相關性,并按照其相關度對文檔進行排序。一般而言,相關度高的文檔排在搜索結(jié)果集的頂端。提高相關度排序的質(zhì)量,是垂直搜索引擎的核心問題之一。現(xiàn)在相關度排序技術主要有兩個方面基于鏈接結(jié)構的網(wǎng)頁排序和基于頁面內(nèi)容權重的網(wǎng)頁排序。
谷歌的PageRank算法是基于鏈接結(jié)構的網(wǎng)頁排序中最流行的算法,它利用網(wǎng)頁的超鏈接結(jié)構信息來估算網(wǎng)頁的重要性。斯坦福大學的博士研究生Sergey Brin和Lawrence提出了網(wǎng)絡鏈接分析的一個新算法PageRank,該算法是建立在隨機用戶行為上的。具體來說,假設用戶跟隨鏈接進行了若干步的瀏覽后轉(zhuǎn)向一個隨機的起點網(wǎng)頁又重新跟隨鏈接瀏覽,那么一個網(wǎng)頁的價值就由該網(wǎng)頁被這個隨機用戶所訪問的頻率所決定。
PageRank算法基本原理通過對網(wǎng)絡超鏈接結(jié)構和文獻引文機制的相似性進行研究,利用網(wǎng)絡本身的超鏈接結(jié)構給所有的網(wǎng)頁確定一個重要性的等級數(shù),當從網(wǎng)頁A鏈接到網(wǎng)頁B時,就認為網(wǎng)頁A投了網(wǎng)頁B一票,增加了網(wǎng)頁B的重要性。最后根據(jù)網(wǎng)頁的得票數(shù)評定其重要性,而這個重要性的量化指標就是PageRank值。在實際計算的時候,先給每個網(wǎng)頁一個初始的PageRank值,然后通過簡單的迭代算法計算出每個網(wǎng)頁p的PR(p)值。但由于其鏈接間平均傳遞PageRank值的做法,易產(chǎn)生主題漂移現(xiàn)象。
基于頁面權重的網(wǎng)頁排序,采用特征提取模型,其中向量模型和布爾模型運用最為廣泛,但由于它們的空間維度過高,使其受到一定的限制。因此,垂直搜索引擎中的相關度排序問題遇到了很大的挑戰(zhàn)。
由此可見,現(xiàn)在并沒有一種普適的并且高效的相關度排序方案,能在不增加存儲信息量的情況下,解決用戶查詢主題漂移的問題。同時,對這一問題的深入研究有助于垂直搜索引擎的發(fā)展。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是提供一種用于垂直搜索引擎的聚焦相關度排序方法,提高相關度排序的質(zhì)量,從而改善垂直搜索引擎的性能。
本發(fā)明解決其技術問題所采用的技術方案是提供一種用于垂直搜索引擎的聚焦相關度排序方法,包括以下步驟 (1)使用主題爬蟲抓取網(wǎng)頁,保存在其URL隊列中,抓取主題數(shù)據(jù),為搜索引擎做數(shù)據(jù)準備; (2)對抓取的網(wǎng)頁鏈接進行分析,通過對用戶點擊行為進行分析,建立用戶行為模型,推導出PageRank值傳遞公式; (3)頁面權重特征提取與評價,即對頁面進行權重評分,利用可分性判據(jù)計算頁面特征的類間距,推導出頁面權重的評價函數(shù),計算出頁面的重要性; (4)在搜索引擎接受查詢時,根據(jù)計算出的頁面重要性進行排序,返回給用戶結(jié)果集。
所述的用于垂直搜索引擎的聚焦相關度排序方法的步驟(1)中對主題爬蟲的爬取行為加入主題判別函數(shù),當主題樣本被第i級主題分類器判為假后,使用第i級的主題判別函數(shù)對其進行輔助判決,若輔助判決為真,則將已判決為拒絕的主題樣本輸入到第i+1級的主題分類中,反之,則拒絕該主題樣本,其中,i為正整數(shù);所述的第i級主題判別函數(shù)為其中,α是錨文本的相關度值,β是鏈接附近文本的值,F(xiàn)i(tc)表示第i級主題判別函數(shù)的值。
所述的用于垂直搜索引擎的聚焦相關度排序方法的步驟(2)中所述的用戶點擊行為分為四類 (a)該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注同一主題的動作記為Ms,其行為概率為 (b)該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注任一主題的動作記為Mj,其行為概率為 (c)該用戶從當前頁跟隨該頁面鏈接,并在關注同一主題的動作記為Jj,其行為概率為 (d)該用戶從當前頁跟隨該頁面鏈接,并在關注任一隨機主題的動作記為Js,其行為概率為 所述的用戶點擊行為的概率在用戶到達目標頁面j的主題q時可以做如下描述 其中,C(i)(i∈(0,n))是文本的內(nèi)容向量,out(i)是網(wǎng)頁的鏈出數(shù); 所述的概率模型用來計算用戶在頁面j中的聚焦主題q的概率 其中,N是爬取網(wǎng)頁的數(shù)量;W是爬取的網(wǎng)頁集;d是在所述的概率模型中的一個隨機跳轉(zhuǎn)的概率;i->j頁面i中的一個超鏈接指向j。
所述的用于垂直搜索引擎的聚焦相關度排序方法的步驟(3)中評價函數(shù)使所有類的類內(nèi)平均距離最小,類間平均距離最大,用J(·)表示采用所述的評價函數(shù)對頁面進行權重評分,從而確定頁面的重要性。
有益效果 由于采用了上述的技術方案,本發(fā)明與現(xiàn)有技術相比,具有以下的優(yōu)點和積極效果 (1)搜索引擎的數(shù)據(jù)準備過程中,針對主題爬蟲無法穿越“黑暗隧道”問題,使用在線學習的方法并利用輔助函數(shù),對主題爬蟲的主題爬行策略進行改進,使其能抓取到相關度更高的主題數(shù)據(jù)。
(2)研究了PageRank算法及其改進算法,通過對用戶點擊網(wǎng)頁行為進行建模,改進鏈接之間PageRank值的傳遞方式,從而提出改進算法。實驗證明,該算法能在不增加額外存儲空間的情況下,有效地避免主題漂移現(xiàn)象的發(fā)生。
(3)針對網(wǎng)頁權重特征提取模型維度過高的缺陷,提出網(wǎng)頁權重的自定義方法,定義出網(wǎng)頁權重的因素,并利用可分性判據(jù)來衡量頁面權重因素的權重,從而給出頁面權重的評價函數(shù),有效地降低網(wǎng)頁特征空間維度。
(4)融合以上三方面改進方案,提出聚焦相關度排序方案,并將其運用到搜索引擎的應用系統(tǒng)中,能夠提高相關度排序的質(zhì)量,從而改善垂直搜索引擎的性能,最終設計并實現(xiàn)了面向領域的垂直搜索引擎系統(tǒng)。
圖1是本發(fā)明用于垂直搜索引擎的聚焦相關度排序方法的流程圖; 圖2是主題爬蟲抓取網(wǎng)頁的主要流程圖; 圖3是本發(fā)明的主題爬蟲框架示意圖; 圖4是用戶行為模型結(jié)構圖; 圖5是本發(fā)明搜索引擎系統(tǒng)的總體架構示意圖。
具體實施例方式 下面結(jié)合具體實施例,進一步闡述本發(fā)明。應理解,這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。此外應理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本領域技術人員可以對本發(fā)明作各種改動或修改,這些等價形式同樣落于本申請所附權利要求書所限定的范圍。
本發(fā)明的實施方式涉及一種用于垂直搜索引擎的聚焦相關度排序方法,包括以下步驟(1)使用主題爬蟲抓取網(wǎng)頁,保存在其URL隊列中,抓取主題數(shù)據(jù),為搜索引擎做數(shù)據(jù)準備;(2)對抓取的網(wǎng)頁鏈接進行分析,通過對用戶點擊行為進行分析,建立用戶行為模型,推導出PageRank值傳遞公式;(3)頁面權重特征提取與評價,即對頁面進行權重評分,利用可分性判據(jù)計算頁面特征的類間距,推導出頁面權重的評價函數(shù),計算出頁面的重要性;(4)在搜索引擎接受查詢時,根據(jù)頁面重要性進行排序,返回給用戶結(jié)果集。
下面對本發(fā)明的實施方式進行具體地說明,如圖1所示。
1)主題爬蟲抓取數(shù)據(jù),為搜索引擎做數(shù)據(jù)準備。
按照圖2的步驟利用主題爬蟲抓取網(wǎng)頁,將抓取網(wǎng)頁的URL放入URL隊列中。
從圖2中可知主題爬行策略改進有兩點第一是借鑒了“在線學習(Online Learning)”的思想,利用網(wǎng)頁分類器對URL打分器進行在線“訓練”,從而不斷提高URL打分器的準確性。另一個更重要的改進是主題爬行的爬蟲利用了包括錨文本、鏈接附近文本和父頁面相關度信息三個方面的線索,設計一個輔助函數(shù),充分利用了超鏈接微觀環(huán)境中HTML代碼的樹形結(jié)構特征,對鏈接附近文本的精確挖掘。
改進的主題爬蟲框架如圖3所示,當樣本被某一級主題分類器判為假后,使用該級的主題判別函數(shù)對其進行輔助判決。若輔助判決為真,則將已判決為拒絕的主題樣本輸入到下一級的主題分類中,反之,則拒絕該主題樣本。本發(fā)明提出的新的主題爬蟲框架在每一級增加了相對應的主題判別函數(shù)。
第i級的主題判決函數(shù)為 其中,α是錨文本的相關度值,β是鏈接附近文本的值,F(xiàn)i(tc)表示第i級主題判別函數(shù)的值??梢园l(fā)現(xiàn)Fi(tc)值是隨α值遞增的,α值越大,F(xiàn)i(tc)越大,則主題爬蟲更傾向于使用本次判決的結(jié)果;α值越小,F(xiàn)i(tc)越小,則主題爬蟲越偏重于考慮歷史判決信息。
2)對抓取網(wǎng)頁進行鏈接分析,利用本發(fā)明提出的用戶行為模型對PageRank算法進行改進。
本發(fā)明在傳統(tǒng)的用戶行為建模的基礎上提出了一種新的用戶行為建模的思想通過分析用戶查詢行為來計算頁面跳轉(zhuǎn)的概率事件,從而來預測用戶可能感興趣的點擊行為。并結(jié)合用戶的點擊行為、點擊次序及操作形式來構建用戶行為模型。其模型的結(jié)構圖如圖4所示。
基本流程如下 (1)用戶進行關鍵詞查詢,并對該查詢進行識別,若用戶沒有后續(xù)點擊動作將識別結(jié)果存入用戶行為庫。
(2)若用戶查詢后還有對別的網(wǎng)頁進行點擊的動作,對點擊行為進行跟蹤,并將結(jié)果存入用戶行為庫。
(3)從行為庫中導出用戶行為,進行用戶行為分析。
其中,用戶行為分析基于上面的建模流程。定義用戶的點擊行為可以分為幾類,其定義如下 假設用戶正在瀏覽一個網(wǎng)頁的某個主題,下一步,該用戶可能在當前頁以概率1-d跳轉(zhuǎn)到一個出度鏈接,或者以概率d跳轉(zhuǎn)到任意隨機網(wǎng)頁。同理,如果一個用戶準備跳轉(zhuǎn)一個鏈接,該用戶可能以概率
停留在同一主題;或者以概率
跳轉(zhuǎn)到任意一個主題。
(a)定義一該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注同一主題的動作記為Ms。其行為概率為 (b)定義二該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注任一隨機主題的動作記為Mj。其行為概率為 (c)定義三該用戶從當前頁跟隨該頁面鏈接,并在關注同一主題的動作記為Jj。其行為概率為 (d)定義四該用戶從當前頁跟隨該頁面鏈接,并在關注任一隨機主題的動作記為Js。其行為概率為 改進PageRank值傳遞方式 上述行為的概率在用戶到達目標頁面j的主題q時可以做如下描述 其中,C(i)(i∈(0,n))是文本的內(nèi)容向量;out(i)是網(wǎng)頁的鏈出數(shù)。這個概率模型可以用來計算用戶在頁面j中的聚焦主題q的概率 其中,N是爬取網(wǎng)頁的數(shù)量;W是爬取的網(wǎng)頁集;d是在上述概率模型中的一個隨機跳轉(zhuǎn)的概率;i->j頁面i中的一個超鏈接指向j。
根據(jù)上述公式可以輕松的推導出基于用戶行為模型的PageRank算法計算PageRank的公式 從該公式中可以發(fā)現(xiàn) (1)若用戶查詢后并沒有后續(xù)點擊動作,PageRank值沒有進行迭代計算,為初始值。
(2)若用戶有后續(xù)點擊動作,PageRank值可以根據(jù)該公式進行迭代計算出來。
這樣就計算出了目標網(wǎng)頁的PageRank值,解決了PageRank算法中鏈接之間PageRank值平均傳遞的弊端,且該算法不需要去ODP中查詢主題分類,節(jié)省了大量的時間和空間,可以有效的減少主題漂移現(xiàn)象的發(fā)生。在對用戶行為跟蹤以后,把得到的結(jié)果更新到用戶行為興趣庫,以便下一次對用戶行為的跟蹤與分析。
3)頁面權重特征提取與評價 特征提取就是特征選擇,特征選擇是從一組特征中挑選出一些最有效的特征以降低特征空間維數(shù)的過程。實際工作中有兩種特征選擇的問題,一種是從原始特征集中選出固定數(shù)目的特征,使得分類器的錯誤率最小,這是一個無約束的組合優(yōu)化問題。另一種是對于給定的允許錯誤率,求維數(shù)最小的特征子集,這是一種有約束的最優(yōu)化問題。
可分性判據(jù)用于衡量一組對分類最有效的特征的一個定量判據(jù),可分性判據(jù)分為基于類內(nèi)類間距離的可分性判據(jù)、基于概率分布的可分性判據(jù)、基于熵函數(shù)的可分性判據(jù)。
基于類內(nèi)類間距離的可分性判據(jù)根據(jù)特征子集滿足類內(nèi)距離最小,類間距離最大的原則來度量可分性,基于概率分布的可分性判據(jù)根據(jù)類的概密函數(shù)的重疊程度來度量可分性,基于熵函數(shù)的可分性判據(jù)根據(jù)類的類后驗概率的差別來度量可分性?;诟怕史植嫉目煞中耘袚?jù)需要知道類的概密函數(shù),基于熵函數(shù)的可分性判據(jù)需要知道類的后驗概率,但是搜索引擎數(shù)據(jù)源的各類的概密函數(shù)和后驗概率都無法求得,所以選擇基于類內(nèi)類間距離的可分性判據(jù)作為頁面權重的評價函數(shù)。
Ci表示第i分類因素,xj(i)表示第i分類因素的第j特征向量,Ni表示第i分類因素的特征向量集合的大小,M表示類別數(shù),N表示所有特征向量集合的大小,Pi表示i分類因素的概率,F(xiàn)表示所有分類的互異特征集合,D表示F的大小,fij表示Ci的第j特征集合。
特征向量Ci的第j特征向量的第1列分量定義為 Ci的第j特征向量定義為 向量距離向量之間的距離采用Jaccard計算方法,向量之間的距離用δ(x,y)表示。
計算類距離類內(nèi)距離為Ci類與Cj類之間的兩兩特征向量的均方距離,用d2(Ci,Cj)表示。
評價函數(shù)特征選擇方法的評價函數(shù)使所有類的類內(nèi)平均距離最小,類間平均距離最大,用J(·)表示。
可以用該評價函數(shù)對頁面進行權重評分,從而確定頁面的重要性。
4)在搜索引擎接受查詢時,可通過頁面重要性進行排序,并將結(jié)果集返回給用戶。
圖5是對主題爬行、基于鏈接結(jié)構排序、基于頁面權重排序等方面提出了改進模型和算法,以提高相關度排序的質(zhì)量,從而改善垂直搜索引擎的性能,最終設計并實現(xiàn)了面向領域的垂直搜索引擎系統(tǒng)結(jié)構示意圖。
不難發(fā)現(xiàn),在搜索引擎的數(shù)據(jù)準備過程中,針對主題爬蟲無法穿越“黑暗隧道”問題,使用在線學習的方法并利用輔助函數(shù),對主題爬蟲的主題爬行策略進行改進,使其能抓取到相關度更高的主題數(shù)據(jù)。
研究了PageRank算法及其改進算法,通過對用戶點擊網(wǎng)頁行為進行建模,改進鏈接之間PageRank值的傳遞方式,從而提出改進算法。實驗證明,該算法能在不增加額外存儲空間的情況下,有效地避免主題漂移現(xiàn)象的發(fā)生。
針對網(wǎng)頁權重特征提取模型維度過高的缺陷,提出網(wǎng)頁權重的自定義方法,定義出網(wǎng)頁權重的因素,并利用可分性判據(jù)來衡量頁面權重因素的權重,從而給出頁面權重的評價函數(shù),有效地降低網(wǎng)頁特征空間維度。
權利要求
1.一種用于垂直搜索引擎的聚焦相關度排序方法,其特征在于,包括以下步驟
(1)使用主題爬蟲抓取網(wǎng)頁,保存在其URL隊列中,抓取主題數(shù)據(jù),為搜索引擎做數(shù)據(jù)準備;
(2)對抓取的網(wǎng)頁鏈接進行分析,通過對用戶點擊行為進行分析,建立用戶行為模型,推導出PageRank值傳遞公式;
(3)頁面權重特征提取與評價,即對頁面進行權重評分,利用可分性判據(jù)計算頁面特征的類間距,推導出頁面權重的評價函數(shù),計算出頁面的重要性;
(4)在搜索引擎接受查詢時,根據(jù)計算出的頁面重要性進行排序,返回給用戶結(jié)果集。
2.根據(jù)權利要求1所述的用于垂直搜索引擎的聚焦相關度排序方法,其特征在于,所述的步驟(1)中對主題爬蟲的爬取行為加入主題判別函數(shù),當主題樣本被第i級主題分類器判為假后,使用第i級的主題判別函數(shù)對其進行輔助判決,若輔助判決為真,則將已判決為拒絕的主題樣本輸入到第i+1級的主題分類中,反之,則拒絕該主題樣本,其中,i為正整數(shù);所述的第i級主題判別函數(shù)為其中,α是錨文本的相關度值,β是鏈接附近文本的值,F(xiàn)i(tc)表示第i級主題判別函數(shù)的值。
3.根據(jù)權利要求1所述的用于垂直搜索引擎的聚焦相關度排序方法,其特征在于,所述的步驟(2)中所述的用戶點擊行為分為四類
(a)該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注同一主題的動作記為Ms,其行為概率為
(b)該用戶從當前頁跳轉(zhuǎn)到一個隨機頁面,并在關注任一主題的動作記為Mj,其行為概率為
(c)該用戶從當前頁跟隨該頁面鏈接,并在關注同一主題的動作記為Jj,其行為概率為
(d)該用戶從當前頁跟隨該頁面鏈接,并在關注任一隨機主題的動作記為Js,其行為概率為
所述的用戶點擊行為的概率在用戶到達目標頁面j的主題q時可以做如下描述
其中,C(i)(i∈(0,n))是文本的內(nèi)容向量,out(i)是網(wǎng)頁的鏈出數(shù);
所述的概率模型用來計算用戶在頁面j中的聚焦主題q的概率
其中,N是爬取網(wǎng)頁的數(shù)量;W是爬取的網(wǎng)頁集;d是在所述的概率模型中的一個隨機跳轉(zhuǎn)的概率;i->j頁面i中的一個超鏈接指向j。
4.根據(jù)權利要求1所述的用于垂直搜索引擎的聚焦相關度排序方法,其特征在于,所述的步驟(3)中的評價函數(shù)使所有類的類內(nèi)平均距離最小,類間平均距離最大,用J(·)表示采用所述的評價函數(shù)對頁面進行權重評分,從而確定頁面的重要性。
全文摘要
本發(fā)明涉及一種用于垂直搜索引擎的聚焦相關度排序方法,針對主題爬蟲無法穿越“黑暗隧道”問題,使用在線學習的方法并利用輔助函數(shù),對主題爬蟲的主題爬行策略進行改進,使其能抓取到相關度更高的主題數(shù)據(jù)。研究了PageRank算法及其改進算法,通過對用戶點擊網(wǎng)頁行為進行建模,改進鏈接之間PageRank值的傳遞方式,從而提出改進算法。針對網(wǎng)頁權重特征提取模型維度過高的缺陷,提出網(wǎng)頁權重的自定義方法,定義出網(wǎng)頁權重的因素,并利用可分性判據(jù)來衡量頁面權重因素的權重,從而給出頁面權重的評價函數(shù),有效地降低網(wǎng)頁特征空間維度。通過本發(fā)明,用戶在使用主題資源搜索引擎系統(tǒng)時,能夠得到高質(zhì)量的搜索結(jié)果集。
文檔編號G06F17/30GK101770521SQ20101012236
公開日2010年7月7日 申請日期2010年3月11日 優(yōu)先權日2010年3月11日
發(fā)明者溫泉, 傅增明, 程裕強 申請人:東華大學