專利名稱:通過將歷史重要性計(jì)算在內(nèi)來計(jì)算文檔重要性的制作方法
通過將歷史重要性計(jì)算在內(nèi)來計(jì)算文檔重要性
背景
如Google和Overture等許多搜索引擎服務(wù)允許對(duì)能經(jīng)由因特網(wǎng)訪問的信 息進(jìn)行搜索。這些搜索引擎服務(wù)允許用戶搜索用戶可能感興趣的顯示頁面,如 網(wǎng)頁。在用戶提交包含搜索項(xiàng)的搜索請求(即,查詢)之后,搜索引擎服務(wù)標(biāo) 識(shí)可能與這些搜索項(xiàng)相關(guān)的網(wǎng)頁。為快速標(biāo)識(shí)相關(guān)的網(wǎng)頁,搜索引擎服務(wù)可維 護(hù)關(guān)鍵詞到網(wǎng)頁的映射。該映射可以通過"爬尋(crawl) "web (即,萬維網(wǎng)) 來標(biāo)識(shí)每一網(wǎng)頁的關(guān)鍵詞來生成。為爬尋web,搜索引擎服務(wù)可使用根網(wǎng)頁列 表來標(biāo)識(shí)能通過這些根網(wǎng)頁訪問的所有網(wǎng)頁。任何特定網(wǎng)頁的關(guān)鍵詞可使用各 種公知信息檢索技術(shù)來標(biāo)識(shí),如標(biāo)識(shí)標(biāo)題行的文字、在網(wǎng)頁的元數(shù)據(jù)中提供的 文字、突出顯示的文字等等。搜索引擎服務(wù)基于網(wǎng)頁的關(guān)鍵詞與查詢的文字匹 配得如何來標(biāo)識(shí)可能與搜索請求相關(guān)的網(wǎng)頁。搜索引擎服務(wù)隨后將到所標(biāo)識(shí)的 網(wǎng)頁的鏈接以基于可以按照其與査詢的相關(guān)度、流行度、重要性和/或某一其它 度量來確定的排名的順序顯示給用戶。
用于網(wǎng)頁排名的三種公知技術(shù)是PageRank (頁排名)、HITS ("引起超鏈 接的主題搜索")和DirectHIT (直接HIT) 。 PageRank基于網(wǎng)頁將具有到重要 網(wǎng)頁的鏈接(即,"引出鏈接")的原理。因而,網(wǎng)頁重要性基于鏈接到該網(wǎng)頁 (即,"引入鏈接")的其它網(wǎng)頁的數(shù)量與重要性。用簡單形式,網(wǎng)頁之間的鏈 接可以由鄰接矩陣^4表示,其中4表示從網(wǎng)頁,'到網(wǎng)頁7的引出鏈接的數(shù)量。 網(wǎng)頁./的重要性分?jǐn)?shù),可以如以下等式表示
該等式可以通過基于下面的等式的迭代計(jì)算來求解
y47 TV = w
其中w是網(wǎng)頁的重要性分?jǐn)?shù)的向量,并且是,的主本征向量。
HITS技術(shù)另外基于具有到其它重要網(wǎng)頁的許多鏈接的網(wǎng)頁本身可能是重 要的原理。因而,HITS將網(wǎng)頁的"重要性"分成兩個(gè)相關(guān)屬性"中心(hub)" 和"權(quán)威(authority)"。"中心"是由網(wǎng)頁所鏈接到的網(wǎng)頁的"權(quán)威"分?jǐn)?shù)
5來測量的,而"權(quán)威"是由鏈接到該網(wǎng)頁的網(wǎng)頁的"中心"分?jǐn)?shù)測量的。與獨(dú)
立于查詢來計(jì)算網(wǎng)頁重要性的PageRank相比,HITS基于結(jié)果的網(wǎng)頁和通過跟 隨引入和引出鏈接而與結(jié)果的網(wǎng)頁相關(guān)的網(wǎng)頁來計(jì)算重要性。HITS向搜索引 擎服務(wù)提交査詢并且使用結(jié)果的網(wǎng)頁作為初始網(wǎng)頁集。HITS向該集合添加作 為引入鏈接的目的地的那些網(wǎng)頁和作為結(jié)果的網(wǎng)頁的引出鏈接的源的那些網(wǎng) 頁。HITS隨后使用迭代算法計(jì)算每一網(wǎng)頁的權(quán)威和中心分?jǐn)?shù)。權(quán)威和中心分 數(shù)可以由以下等式來表示
咖)=z ,和^)=
其中a(p)表示網(wǎng)頁p的權(quán)威分?jǐn)?shù)而MW表示網(wǎng)頁P(yáng)的中心分?jǐn)?shù)。HITS使
用鄰接矩陣/l來表示這些鏈接。鄰接矩陣由以下等式表示 & =<[l如果頁/具有到頁面J'的鏈接,
"_io否則
向量a和/7分別對(duì)應(yīng)于該集合中所有網(wǎng)頁的權(quán)威和中心分?jǐn)?shù),并且可以用 以下等式表示
因而,a和/7是矩陣^J和A^'的本征向量。HITS還可被修改來將按訪
問數(shù)量測量的網(wǎng)頁的流行度計(jì)算在內(nèi)?;趯?duì)點(diǎn)進(jìn)數(shù)據(jù)的分析,每當(dāng)用戶 從網(wǎng)頁,'移動(dòng)至網(wǎng)頁/時(shí)就增加鄰接矩陣的 。
盡管這些用于基于對(duì)鏈接的分析來對(duì)網(wǎng)頁進(jìn)行排名的技術(shù)可能是非常有 用的,但它們易受到"鏈接作弊"的影響。"作弊" 一般指為不合理地增加網(wǎng) 頁或網(wǎng)站的流行度或重要性而采取的蓄意動(dòng)作。在鏈接作弊的情形中,作弊者 可以操縱鏈接以不合理地增加網(wǎng)頁的重要性。例如,作弊者可通過向作弊者的 網(wǎng)頁添加引出鏈接來增加網(wǎng)頁的中心分?jǐn)?shù)。 一種用于添加引出鏈接的常見技術(shù) 是創(chuàng)建現(xiàn)有鏈接目錄的副本以快速創(chuàng)建非常大的引出鏈接結(jié)構(gòu)。作為另一個(gè)示 例,作弊者可向有用信息的網(wǎng)頁提供到作弊網(wǎng)頁的隱藏鏈接。當(dāng)許多網(wǎng)頁指向 該有用信息時(shí),作弊網(wǎng)頁的重要性也間接增加了。作為另一個(gè)示例,諸如博客 和web目錄等許多網(wǎng)站允許訪問者公布鏈接。作弊者可以公布到其作弊網(wǎng)頁的 鏈接以直接或者間接地增加作弊網(wǎng)頁的重要性。作為另一個(gè)示例, 一組作弊者 可建立鏈接交換機(jī)制,其中它們的網(wǎng)站指向彼此以增加作弊者網(wǎng)站的網(wǎng)頁重要性。
web作弊,具體而言是是鏈接作弊,向依賴于web數(shù)據(jù)的各種技術(shù)提出了 問題。例如,部分地基于網(wǎng)頁的流行度或重要性對(duì)搜索結(jié)果迸行排序的搜索引 擎服務(wù)可能因?yàn)樽鞅锥缓侠淼貙⒆鞅拙W(wǎng)頁排得很高。搜索結(jié)果的網(wǎng)頁的正確 排名對(duì)于搜索引擎服務(wù)是非常重要的。如果無論出于什么原因(例如,鏈接作 弊)搜索引擎服務(wù)的用戶察覺到搜索結(jié)果的網(wǎng)頁排名與他們的重要性或相關(guān)性 概念不符,則用戶可能轉(zhuǎn)到不同的搜索引擎服務(wù)。因?yàn)樗阉饕娣?wù)的收入與 用戶數(shù)量緊密相關(guān),所以在搜索結(jié)果的網(wǎng)頁進(jìn)行排名方面的較差表現(xiàn)會(huì)導(dǎo)致搜 索引擎服務(wù)的收入損失。
概述
提供了一種基于對(duì)鏈接的時(shí)間分析來確定具有文檔之間的鏈接的文檔的 時(shí)間重要性的方法和系統(tǒng)。時(shí)間排名系統(tǒng)在各個(gè)快照時(shí)刻收集指示文檔之間的 鏈接的鏈接信息或快照。時(shí)間排名系統(tǒng)通過將從當(dāng)前快照(即,具有最近的快 照時(shí)間)中導(dǎo)出的文檔的當(dāng)前重要性和從過去的快照中導(dǎo)出的文檔的歷史重要 性計(jì)算在內(nèi)來計(jì)算文檔的當(dāng)前時(shí)間重要性。為了計(jì)算網(wǎng)頁的當(dāng)前時(shí)間重要性, 時(shí)間排名系統(tǒng)合計(jì)網(wǎng)頁對(duì)于每一個(gè)快照的重要性。時(shí)間排名系統(tǒng)可向搜索引擎 服務(wù)提供文檔的時(shí)間重要性,以使得該搜索引擎服務(wù)能夠至少可以部分地基于 文檔的時(shí)間重要性來對(duì)其進(jìn)行排名。
提供本概述是為了以簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的 一些概念。該概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不 旨在用于幫助確定所要求保護(hù)的主題的范圍。
附圖簡述
圖1是示出web圖的一部分的示圖。
圖2是示出一個(gè)實(shí)施例中的時(shí)間排名系統(tǒng)的組件的框圖,該系統(tǒng)基于隨時(shí) 間取得的web圖的快照來對(duì)網(wǎng)頁進(jìn)行排名。
圖3是示出某些實(shí)施例中的時(shí)間排名系統(tǒng)的計(jì)算時(shí)間重要性組件的高級(jí) 處理的流程圖。圖4是示出某些實(shí)施例中的時(shí)間排名系統(tǒng)的計(jì)算時(shí)間重要性組件的低級(jí) 處理的流程圖。
詳細(xì)描述
提供了一種基于對(duì)鏈接的時(shí)間分析來確定具有文檔之間的鏈接的文檔的 時(shí)間重要性的方法和系統(tǒng)。在某些實(shí)施例中,時(shí)間排名系統(tǒng)在各個(gè)快照時(shí)刻收 集指示文檔(或者更一般地,對(duì)象)之間的鏈接的鏈接信息或快照。例如,當(dāng)
文檔是網(wǎng)頁時(shí),web爬行器可爬尋web以標(biāo)識(shí)網(wǎng)頁和網(wǎng)頁之間的鏈接。爬行器 可將網(wǎng)頁和鏈接表示為具有頂點(diǎn)和邊的web圖。web圖對(duì)應(yīng)于web在被爬尋時(shí) 的快照,這個(gè)時(shí)間被稱為web的快照時(shí)刻。時(shí)間排名系統(tǒng)通過將從當(dāng)前快照 (即,具有最近的快照時(shí)刻)中導(dǎo)出的文檔的當(dāng)前重要性和從過去的快照中導(dǎo) 出的文檔的歷史重要性計(jì)算在內(nèi)來計(jì)算文檔的當(dāng)前時(shí)間重要性。例如,時(shí)間排 名系統(tǒng)可使用頁面排名算法來計(jì)算網(wǎng)頁對(duì)于每一個(gè)快照的重要性。術(shù)語"時(shí)間 重要性"指的是基于多個(gè)快照的重要性分?jǐn)?shù),而術(shù)語"重要性"指的是基于單 個(gè)快照的重要性分?jǐn)?shù)。為了計(jì)算網(wǎng)頁的當(dāng)前時(shí)間重要性,時(shí)間排名系統(tǒng)合計(jì)該 網(wǎng)頁對(duì)于每一個(gè)快照的重要性。因?yàn)闀r(shí)間排名系統(tǒng)基于當(dāng)前快照和一個(gè)或多個(gè) 過去的快照來計(jì)算文檔的當(dāng)前時(shí)間重要性,所以其當(dāng)前重要性通過在當(dāng)前快照 中引入的鏈接作弊來增加的文檔將由于其歷史上較低的總體重要性(基于過去 的快照)而具有較低的當(dāng)前時(shí)間重要性。
.在某些實(shí)施例中,時(shí)間排名系統(tǒng)提供加權(quán)因子,它可用于指定從當(dāng)前快照 中導(dǎo)出的當(dāng)前重要性和從過去的快照中導(dǎo)出的歷史重要性對(duì)當(dāng)前時(shí)間重要性 的相對(duì)貢獻(xiàn)。例如,可將加權(quán)因子設(shè)為零和一之間的值。值零指示當(dāng)前重要性 對(duì)當(dāng)前時(shí)間重要性沒有貢獻(xiàn)并且當(dāng)前時(shí)間重要性是歷史重要性。值二分之一指 示當(dāng)前重要性和歷史重要性對(duì)當(dāng)前時(shí)間重要性的貢獻(xiàn)相等。值一表指示歷史重 要性對(duì)當(dāng)前時(shí)間重要性沒有貢獻(xiàn)并且當(dāng)前時(shí)間重要性退化為當(dāng)前重要性。加權(quán) 因子可基于從當(dāng)前快照中導(dǎo)出的當(dāng)前重要性反映網(wǎng)頁的實(shí)際重要性的準(zhǔn)確程 度來設(shè)置。
在某些實(shí)施例中,時(shí)間排名系統(tǒng)提供衰減因子,它用于隨著時(shí)間減少快照 對(duì)網(wǎng)頁的當(dāng)前時(shí)間重要性的相對(duì)貢獻(xiàn)。當(dāng)應(yīng)用衰減因子時(shí),來自快照的貢獻(xiàn)隨著收集到其他快照而減少。例如,衰減因子可指示從一個(gè)快照時(shí)刻到下一個(gè)快
照時(shí)刻快照的貢獻(xiàn)減少50%。次新快照的貢獻(xiàn)可能是其重要性的50%,第三新 的快照的貢獻(xiàn)可能是其重要性的25%,第四新的快照的貢獻(xiàn)可能是其重要性的 12.5%,以此類推。
在某些實(shí)施例中,時(shí)間排名系統(tǒng)在為每一個(gè)快照確定適當(dāng)?shù)乃p因子時(shí)應(yīng) 用機(jī)械模型。通過使用機(jī)械模型,時(shí)間排名系統(tǒng)考慮當(dāng)前快照的當(dāng)前重要性以 具有動(dòng)力并考慮過去的快照的歷史重要性以具有阻力。從所有快照中導(dǎo)出的合 力是由增強(qiáng)因子調(diào)整的動(dòng)力減去由阻尼因子調(diào)整的阻力。機(jī)械模型類似于物理 運(yùn)動(dòng)的力學(xué),其中對(duì)其施加動(dòng)力的物體也可具有阻力。物體上的合力是動(dòng)力減 去阻力。根據(jù)有關(guān)物理運(yùn)動(dòng)的牛頓第二定律,物體的力是它的質(zhì)量乘以它的加 速度(例如,速度的導(dǎo)數(shù))。對(duì)時(shí)間重要性的計(jì)算應(yīng)用類似的定律,從所有過 去的快照中導(dǎo)出的合力是網(wǎng)頁的"質(zhì)量"乘以網(wǎng)頁的歷史重要性的"加速度"。 由此可以認(rèn)為歷史重要性是"速度"。網(wǎng)頁的"質(zhì)量"可表示網(wǎng)頁的固有質(zhì)量。 在某些實(shí)施例中,假設(shè)所有網(wǎng)頁具有相同的質(zhì)量。網(wǎng)頁的"加速度"是歷史重 要性的變化速率。如將在以下更詳細(xì)描述的,通過將網(wǎng)頁的合力(即,由增強(qiáng)
因-r調(diào)整的動(dòng)力和由阻尼因子調(diào)整的阻力)設(shè)為網(wǎng)頁的質(zhì)量乘以網(wǎng)頁的加速
度,可以獲得網(wǎng)頁的速度或時(shí)間重要性的解。該解提供一個(gè)公式,通過該公式
可以從增強(qiáng)因子和阻尼因子中導(dǎo)出加權(quán)因子和衰減因子。在概念上,阻尼因子
表示歷史重要性將對(duì)當(dāng)前時(shí)間重要性作出多少貢獻(xiàn),而增強(qiáng)因子是不影響網(wǎng)頁
的相對(duì)時(shí)間重要性的常量。阻尼因子(對(duì)于所有快照可以相同)可提供更直觀
的模型以理解控制時(shí)間排名系統(tǒng)的參數(shù)。
時(shí)間排名系統(tǒng)基于當(dāng)前web圖(即,快照)和先前web圖中所包含的歷
史重要性兩者來計(jì)算網(wǎng)頁的時(shí)間重要性分?jǐn)?shù)。時(shí)間排名系統(tǒng)通過以下等式來表
示網(wǎng)頁的當(dāng)前時(shí)間重要性
77 ^) = (1 +風(fēng)(/) (1)
其中/t表示web圖G的快照數(shù)量,7T "/)表示文檔/在快照時(shí)刻A的當(dāng)前時(shí)間重
要性分?jǐn)?shù),尸^(0表示從web圖C^中導(dǎo)出的文檔/在快照時(shí)刻A的當(dāng)前重要性
分?jǐn)?shù),//"/)表示從 61^圖<3|,(72,...,"—,中導(dǎo)出的文檔/的歷史重要性分?jǐn)?shù),/
表示快照時(shí)刻A的當(dāng)前重要性分?jǐn)?shù)的加權(quán)因子,而1-Z 表示快照時(shí)刻1至"l的歷史重要性分?jǐn)?shù)的加權(quán)因子。加權(quán)因子/ 可基于所感知到的當(dāng)前快照的可靠 性來設(shè)置。如果/ 等于1,則認(rèn)為當(dāng)前快照是完全可靠的并且忽略過去的快照。 時(shí)間排名系統(tǒng)如下表示歷史重要性分?jǐn)?shù)
(2)
其中y,表示衰減因子,其指示來自每個(gè)快照的重要性對(duì)歷史重要性分?jǐn)?shù)有 多少貢獻(xiàn)。 一般而言,快照越早,它應(yīng)當(dāng)對(duì)歷史重要性分?jǐn)?shù)作貢獻(xiàn)的重要性的 量就越少。時(shí)間排名系統(tǒng)可如下組合公式1和2:
w w=(i -w (o+w ('') (3)
時(shí)間排名系統(tǒng)可使用"機(jī)械模型"來導(dǎo)出用于控制衰減和加權(quán)因子的參數(shù)。
時(shí)間排名系統(tǒng)假設(shè)重要性對(duì)應(yīng)于物體的速度。如果頁面/獲得當(dāng)前快照G,的重 要性分?jǐn)?shù)尸《(0,則時(shí)間排名系統(tǒng)將向該頁面的虛力^(/)添加相應(yīng)的動(dòng)力。時(shí)
間排名系統(tǒng)假設(shè)時(shí)間重要性分?jǐn)?shù)n ,(/)的衰減是對(duì)虛力有負(fù)作用的阻力。時(shí)間
排名系統(tǒng)如下表示該模型
f; (/) = —;i77 , (/)+"Pi , (/) (4) 其中;;&〉o)表示動(dòng)力的增強(qiáng)常數(shù)而;i(;i^O表示衰減因子。時(shí)間排名系統(tǒng)如
下表示虛力
脊m(/)^^ (5)
其中《7(/)是網(wǎng)頁,'的固有質(zhì)量,它具有與質(zhì)量相似的意義。在概念上,虛力被
表示為質(zhì)量乘以加速度。時(shí)間排名系統(tǒng)將公式4和5組合為如下的一階常微分
公式
d77 , (/) ;i , 、 ?7 " "、 ~~^ + "4"^,(—"4r尸《(',) (6)
么、式6的通解如下:
<formula>formula see original document page 10</formula>(7)
其中C。是整數(shù)常數(shù)。如果假設(shè)所有網(wǎng)頁在開始(/ = 0)時(shí)具有相同的初始重要性 分?jǐn)?shù),則77 。(/卜丄,其中7V是web圖中的網(wǎng)頁數(shù)量。給出該假設(shè),則解可如
下表示<formula>formula see original document page 11</formula>
因?yàn)閣eb圖數(shù)據(jù)是相對(duì)于時(shí)間的離散快照,所以時(shí)間排名系統(tǒng)將公式8轉(zhuǎn)換成 其離散形式,如下
義
<formula>formula see original document page 11</formula>可重新制定公式9以將初始重要性分?jǐn)?shù)、歷史重要性分?jǐn)?shù)和當(dāng)前重要性分
數(shù)分開,如下
<formula>formula see original document page 11</formula>
公式10右側(cè)的第一項(xiàng)表示與網(wǎng)頁/相關(guān)的常數(shù)并且表示初始重要性分?jǐn)?shù); 第二項(xiàng)表示網(wǎng)頁/在由A(/)表示的過去的web圖中的重要性分?jǐn)?shù)的線性組合;
而第三項(xiàng)表示網(wǎng)頁/在當(dāng)前web圖中的當(dāng)前重要性分?jǐn)?shù)。如果忽略常數(shù),則衰
減和加權(quán)因子可以如下表示
^~7^^^(")和/ = 4^ (11)
加權(quán)因子義Q^))表示歷史重要性分?jǐn)?shù)對(duì)當(dāng)前時(shí)間重要性分?jǐn)?shù)作貢獻(xiàn)的 權(quán)重。因子m(/)是每個(gè)網(wǎng)頁的固有質(zhì)量。在一個(gè)實(shí)施例中,時(shí)間排名系統(tǒng)可將
m(/)設(shè)為對(duì)于所有網(wǎng)頁都相同。如果固定A和w(/),則增強(qiáng)常數(shù)/7不影響頁面 的排名。為確保加權(quán)因子在零和一之間,時(shí)間排名系統(tǒng)將;7設(shè)為大于零且小于 m的值。
圖1是示出web圖一部分的示圖。web圖通過爬尋web并且標(biāo)識(shí)所遇到 的網(wǎng)站的網(wǎng)頁上的引出鏈接來生成。在該示例中,web圖100的一部分包含表 示五個(gè)網(wǎng)站的頂點(diǎn)101-105和表示引出鏈接的頂點(diǎn)之間的邊。例如,頂點(diǎn)101 和103之間的邊表示由頂點(diǎn)101表示的網(wǎng)站到由頂點(diǎn)103表示的網(wǎng)站的引出鏈 接。因而,由頂點(diǎn)103表示的網(wǎng)站是由邊表示的引出鏈接的目標(biāo)。該同一邊還 是到由頂點(diǎn)103表示的網(wǎng)站的引入鏈接。因而,由頂點(diǎn)IOI表示的網(wǎng)站是由該 邊表示的引入鏈接的源。時(shí)間排名系統(tǒng)可使用每一個(gè)網(wǎng)站都被表示為矩陣的行 與列的鄰接矩陣來表示web圖。行和列中的非零項(xiàng)可指示由行表示的網(wǎng)站具有 到由列表示的網(wǎng)站的引出鏈接。時(shí)間排名系統(tǒng)可使用包括稀疏矩陣存儲(chǔ)技術(shù)在內(nèi)的各種技術(shù)來表示web圖。時(shí)間排名系統(tǒng)還可存儲(chǔ)從一個(gè)快照時(shí)刻到下一個(gè) 快照時(shí)刻的web圖之間的差異而不是多次存儲(chǔ)整個(gè)web圖。
由于頻繁地將新網(wǎng)頁添加到web且頻繁地從web中移除舊網(wǎng)頁,因此每 個(gè)快照將有可能具有不同數(shù)量的網(wǎng)頁。時(shí)間排名系統(tǒng)可通過維護(hù)所有快照中所 有網(wǎng)頁的聚集列表來解決不同快照中不同數(shù)量的網(wǎng)頁。在計(jì)算一個(gè)快照的網(wǎng)頁 的重要性分?jǐn)?shù)時(shí),時(shí)間排名系統(tǒng)為聚合列表中的那些不在快照中的網(wǎng)頁添加為 零的重要性分?jǐn)?shù)。以此方式,表示每一個(gè)快照的重要性分?jǐn)?shù)的向量將具有相同 的長度。
圖2是示出了一個(gè)實(shí)施例中的時(shí)間排名系統(tǒng)的組件的框圖,該系統(tǒng)基于隨 時(shí)間取得的web圖的快照來對(duì)網(wǎng)頁進(jìn)行排名。時(shí)間排名系統(tǒng)210經(jīng)由通信鏈路 240來連接至網(wǎng)站服務(wù)器220和用戶計(jì)算設(shè)備230。時(shí)間排名系統(tǒng)可包括web 爬行器21K創(chuàng)建web圖組件212、 web圖存儲(chǔ)213和搜索索引存儲(chǔ)214。 web 爬行器爬尋網(wǎng)站服務(wù)器的網(wǎng)頁以標(biāo)識(shí)網(wǎng)頁和網(wǎng)頁之間的鏈接。web爬行器可生 成關(guān)鍵詞到網(wǎng)頁的映射并且將該映射存儲(chǔ)在搜索索引存儲(chǔ)中。web爬行器還可 向創(chuàng)建web圖組件提供網(wǎng)頁和鏈接的指示,創(chuàng)建web圖組件生成對(duì)應(yīng)于web 快照的web圖的表示。創(chuàng)建web圖組件可通過存儲(chǔ)在web圖存儲(chǔ)中的鄰接矩 陣來表示web圖??烧{(diào)度web爬行器以周期性地或者在自組織(adhoc)的基 礎(chǔ)上爬尋網(wǎng)頁。在任一種情況下,web爬行器將快照時(shí)刻與每一個(gè)快照相關(guān)聯(lián)。 盡管時(shí)間排名系統(tǒng)在某些實(shí)施例中假設(shè)快照時(shí)刻是等間隔的,但本領(lǐng)域技術(shù)人 員將理解,快照時(shí)刻不必是等間隔的。在這種情況下,對(duì)快照的阻尼因子或者 衰減因子的計(jì)算可考慮其相對(duì)于當(dāng)前快照時(shí)刻的實(shí)際快照時(shí)刻。
時(shí)間排名系統(tǒng)包括計(jì)算時(shí)間重要性組件215、計(jì)算重要性組件216、時(shí)間 重要性存儲(chǔ)250和重要性存儲(chǔ)251。計(jì)算時(shí)間重要性組件基于從當(dāng)前快照中導(dǎo) 出的重要性分?jǐn)?shù)和從過去的快照中導(dǎo)出的歷史重要性來計(jì)算每一個(gè)網(wǎng)頁的當(dāng) 前時(shí)間重要性分?jǐn)?shù)。計(jì)算時(shí)間重要性組件調(diào)用計(jì)算重要性組件來基于單個(gè)快照 計(jì)算網(wǎng)頁的重要性分教。計(jì)算重要性組件可實(shí)現(xiàn)諸如頁面排名算法或者中心和
權(quán)威算法等常規(guī)算法并且將每一個(gè)快照的重要性分?jǐn)?shù)存儲(chǔ)在重要性存儲(chǔ)中。計(jì) 算時(shí)間重要性組件可將時(shí)間重要性分?jǐn)?shù)存儲(chǔ)在時(shí)間重要性存儲(chǔ)中以供在對(duì)網(wǎng) 頁進(jìn)行排名時(shí)使用。時(shí)間排名系統(tǒng)還可包括搜索引擎組件217、找出匹配網(wǎng)頁組件218和排列 結(jié)果組件219。用戶計(jì)算設(shè)備的用戶可向搜索引擎組件提交搜索請求。搜索引 擎組件調(diào)用找出匹配網(wǎng)頁組件來找出匹配搜索請求的網(wǎng)頁。找出匹配網(wǎng)頁組件 可使用搜索索引來標(biāo)識(shí)匹配的網(wǎng)頁。搜索引擎組件隨后調(diào)用排列結(jié)果組件來基 于搜索結(jié)果的網(wǎng)頁的時(shí)間重要性存儲(chǔ)中的時(shí)間重要性分?jǐn)?shù)來對(duì)網(wǎng)頁進(jìn)行排名。 例如,排列結(jié)果組件可將基于網(wǎng)頁與搜索請求的相關(guān)性的相關(guān)性分?jǐn)?shù)與由時(shí)間 排名系統(tǒng)生成的當(dāng)前時(shí)間重要性分?jǐn)?shù)組合以提供總排名分?jǐn)?shù)。搜索引擎組件隨 后可基于排名分?jǐn)?shù)來對(duì)搜索結(jié)果的網(wǎng)頁進(jìn)行排名。
在其上實(shí)現(xiàn)時(shí)間排名系統(tǒng)的計(jì)算設(shè)備可包括中央處理單元、存儲(chǔ)器、輸入 設(shè)備(例如,鍵盤和定點(diǎn)設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)和存儲(chǔ)設(shè)備(例 如,盤驅(qū)動(dòng)器)。存儲(chǔ)器和存儲(chǔ)設(shè)備是可以用實(shí)現(xiàn)該系統(tǒng)的計(jì)算機(jī)可執(zhí)行指令 來編碼的計(jì)算機(jī)可讀介質(zhì),這意味著包含該指令的計(jì)算機(jī)可讀介質(zhì)。此外,指 令、數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可被存儲(chǔ)或經(jīng)由諸如通信鏈路上的信號(hào)之類的數(shù)據(jù)傳 送介質(zhì)發(fā)送??墒褂酶鞣N通信鏈路,如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)、點(diǎn)對(duì)點(diǎn)撥號(hào) 連接、蜂窩電話網(wǎng)絡(luò)等。
時(shí)間排名系統(tǒng)的各實(shí)施例可在各種操作環(huán)境中實(shí)現(xiàn)或者結(jié)合這些操作環(huán) 境使用,這些操作環(huán)境包括個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、 多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電子產(chǎn)品、數(shù)字照相機(jī)、網(wǎng) 絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、蜂窩電話、個(gè)人數(shù)字助理、智能電話、個(gè) 人計(jì)算機(jī)、可編程消費(fèi)電子產(chǎn)品、包括任何上述系統(tǒng)或設(shè)備中的任一種的分布
式計(jì)算環(huán)境等等。
時(shí)間排名系統(tǒng)可以在諸如程序模塊等由一個(gè)或多個(gè)計(jì)算機(jī)或其他設(shè)備執(zhí) 行的計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。 一般而言,程序模塊包括執(zhí)行特 定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。 通常,程序模塊的功能可以在各個(gè)實(shí)施例中按需進(jìn)行組合或分布。例如, 一單 獨(dú)的計(jì)算系統(tǒng)可爬尋web并生成web圖。另一計(jì)算系統(tǒng)可提供使用時(shí)間重要 性分?jǐn)?shù)來排列搜索結(jié)果的搜索引擎。
圖3是示出某些實(shí)施例中的時(shí)間排名系統(tǒng)的計(jì)算對(duì)間重要性組件的高級(jí) 處理的流程圖。調(diào)用該組件來基于對(duì)多個(gè)web快照的分析來計(jì)算時(shí)間重要性分?jǐn)?shù)。在框301,該組件計(jì)算網(wǎng)頁對(duì)于每一個(gè)快照的重要性分?jǐn)?shù)。例如,該組件 可使用頁面排名算法或者中心和權(quán)威算法。如上所述,該組件可將每一個(gè)快照 的重要性分?jǐn)?shù)保存在重要性存儲(chǔ)中以避免在每次收集新快照時(shí)重新計(jì)算重要
性分?jǐn)?shù)。在框302-305,該組件循環(huán)地將過去重要性分?jǐn)?shù)的貢獻(xiàn)合計(jì)成每一個(gè) 網(wǎng)頁的歷史重要性分?jǐn)?shù)。在框302,該組件初始化用于跟蹤快照的變量。在框 303,該組件遞增該變量以選擇下一個(gè)快照。在判定框304,如果已經(jīng)選擇了所 有快照,則該組件在框306繼續(xù),否則該組件在框305繼續(xù)。在框305,該組 件基于加權(quán)因子來將網(wǎng)頁對(duì)于所選快照的重要性分?jǐn)?shù)累計(jì)成歷史重要性分?jǐn)?shù)。 該組件隨后循環(huán)到框303以選擇下一個(gè)快照。在框306,該組件為每一個(gè)網(wǎng)頁 生成作為網(wǎng)頁的歷史重要性分?jǐn)?shù)和網(wǎng)頁的當(dāng)前重要性分?jǐn)?shù)的加權(quán)組合的當(dāng)前 時(shí)間重要性分?jǐn)?shù)。該組件隨后完成。
圖4是示出某些實(shí)施例中的時(shí)間排名系統(tǒng)的計(jì)算時(shí)間重要性組件的低級(jí) 處理的流程圖。在框401,該組件計(jì)算網(wǎng)頁對(duì)于當(dāng)前快照的重要性分?jǐn)?shù)。在框 402,該組件根據(jù)等式IO的第一項(xiàng)來初始化每一個(gè)網(wǎng)頁的時(shí)間重要性分?jǐn)?shù)。在 框403-409,該組件根據(jù)等式10的第二項(xiàng)基于過去的快照來循環(huán)計(jì)算歷史重要 性分?jǐn)?shù)。在框403,該組件選擇從最老的快照開始的下一個(gè)快照。在判定框404, 如果己經(jīng)選擇了所有過去的快照,則該組件在框410繼續(xù),否則該組件在框405 繼續(xù)。在框405-409,該組件循環(huán)計(jì)算每一個(gè)網(wǎng)頁的歷史重要性分?jǐn)?shù)。在框405, 組件初始化網(wǎng)頁的索引。在框406,該組件選擇所選快照的下一個(gè)網(wǎng)頁。在判 定框407,如果已經(jīng)選擇了所有網(wǎng)頁,則該組件循環(huán)到框403以選擇下一個(gè)快 照,否則該組件在框408繼續(xù)。在框408,該組件計(jì)算根據(jù)所選網(wǎng)頁在所選快 照中的的重要性分?jǐn)?shù)來計(jì)算該網(wǎng)頁的加權(quán)重要性分?jǐn)?shù)。在框409,該組件將加 權(quán)的重要性分?jǐn)?shù)與最后一個(gè)快照的歷史重要性分?jǐn)?shù)組合以提供所選快照的所 選網(wǎng)頁的歷史重要性分?jǐn)?shù)。該組件隨后循環(huán)到框406以選擇所選快照的下一個(gè) 網(wǎng)頁。在框410-414,該組件循環(huán)計(jì)算當(dāng)前快照的每一個(gè)網(wǎng)頁的加權(quán)重要性分 數(shù)并且根據(jù)等式10的第三項(xiàng)將該加權(quán)重要性分?jǐn)?shù)加到網(wǎng)頁的歷史重要性分?jǐn)?shù)。 在框410,該組件初始化網(wǎng)頁的索引。在框411,該組件遞增索引以選擇下一 個(gè)網(wǎng)頁。在判定框412,如果已經(jīng)選擇了當(dāng)前快照的所有網(wǎng)頁,則該組件完成, 否則該組件在框413繼續(xù)。在框413,該組件基于如在框401中計(jì)算的所選網(wǎng)頁的重要性分?jǐn)?shù)來計(jì)算所選網(wǎng)頁的加權(quán)重要性分?jǐn)?shù)。在框414,該組件將如在
框409中計(jì)算出的所選網(wǎng)頁的歷史重要性分?jǐn)?shù)和加權(quán)重要性分?jǐn)?shù)組合成所選網(wǎng) 頁的當(dāng)前時(shí)間重要性分?jǐn)?shù)。該組件然后循環(huán)到框411以選擇當(dāng)前快照的下一個(gè) 網(wǎng)頁。
盡管用對(duì)結(jié)構(gòu)特征和/或方法動(dòng)作專用的語言描述了本主題,但可以理解, 所附權(quán)利要求書中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體 特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開的。本領(lǐng)域的技術(shù)人員將理解 解,時(shí)間重要性分?jǐn)?shù)可在使用文檔重要性的任何應(yīng)用中使用。例如,文檔可以 是專利而鏈接可以是對(duì)其它專利的引用,或者文檔可以是學(xué)術(shù)文章而鏈接可以 是對(duì)其它學(xué)術(shù)文章的引用。時(shí)間重要性分?jǐn)?shù)還可用于基于作者的作品的重要性
來評(píng)定作者。因此,本發(fā)明只由所附權(quán)利要求來限制。
權(quán)利要求
1.一種計(jì)算設(shè)備中的用于確定具有文檔之間的鏈接的文檔的時(shí)間重要性的方法,所述方法包括提供關(guān)于各個(gè)快照的鏈接信息(213),所述鏈接信息指示所述文檔之間的鏈接;對(duì)于每一個(gè)快照,基于所述快照的鏈接信息來計(jì)算所述文檔的重要性分?jǐn)?shù)(216);以及合計(jì)一文檔對(duì)于所述快照的所計(jì)算出的重要性分?jǐn)?shù)以提供該文檔的時(shí)間重要性分?jǐn)?shù)(215)。
2. 如權(quán)利要求1所述的方法,其特征在于,所計(jì)算出的重要性分?jǐn)?shù)的合計(jì) 對(duì)較新近的快照的重要性分?jǐn)?shù)的加權(quán)比較不新近的快照的重要性分?jǐn)?shù)更重。
3. 如權(quán)利要求1所述的方法,其特征在于,所述合計(jì)根據(jù)下式來執(zhí)行77 * (/) = (1 — O, )其中/t表示快照的數(shù)量,77 4(/)表示文檔/對(duì)于快照"勺時(shí)間重要性分?jǐn)?shù), 表示文檔/在快照時(shí)刻/的重要性分?jǐn)?shù),/ 表示快照A的當(dāng)前重要性分?jǐn)?shù)的加權(quán)因子,i-y 表示快照l至"i的過去重要性分?jǐn)?shù)的加權(quán)因子,而x表示過去重要性分?jǐn)?shù)的衰減因子。
4. 如權(quán)利要求1所述的方法,其特征在于,所述合計(jì)根據(jù)下式來執(zhí)行1/^丄丄v ",-、/4"一'),"""':)其中/t表示快照的數(shù)量,7^(0表示文檔/對(duì)于快照A的時(shí)間重要性分?jǐn)?shù), 表示文檔/對(duì)于快照時(shí)刻,的計(jì)算出的重要性分?jǐn)?shù),m(/)表示文檔/的固有質(zhì)量, W表示文檔的數(shù)量,而A和/7表示參數(shù)。
5. 如權(quán)利要求1所述的方法,其特征在于,所述文檔是網(wǎng)頁,所述鏈接是 文檔之間的超鏈接,而所述鏈接信息是web圖的表示。
6. 如權(quán)利要求5所述的方法,其特征在于,所述網(wǎng)絡(luò)圖由鄰接矩陣來表示。
7. 如權(quán)利要求1所述的方法,其特征在于,對(duì)重要性分?jǐn)?shù)的計(jì)算應(yīng)用頁面 排名算法。
8. 如權(quán)利要求1所述的方法,其特征在于,對(duì)重要性分?jǐn)?shù)的計(jì)算應(yīng)用中心和權(quán)威算法。
9. 如權(quán)利要求1所述的方法,其特征在于,包括接收搜索結(jié)果的文檔的指 示并基于所述文檔的時(shí)間重要性分?jǐn)?shù)來對(duì)所述搜索結(jié)果的文檔進(jìn)行排名。
10. —種用指令編碼的計(jì)算機(jī)可讀介質(zhì),所述指令用于控制計(jì)算設(shè)備通過 一種方法來對(duì)搜索結(jié)果的網(wǎng)頁進(jìn)行排名,所述方法包括收集指示網(wǎng)頁和所述網(wǎng)頁之間的鏈接的web快照(211);基于所述鏈接信息來計(jì)算所述快照的網(wǎng)頁的重要性分?jǐn)?shù)(216);合計(jì)所述網(wǎng)頁對(duì)于所述快照的重要性分?jǐn)?shù)以提供所述網(wǎng)頁的時(shí)間重要性 分?jǐn)?shù)(215);以及通過將所述網(wǎng)頁的時(shí)間重要性分?jǐn)?shù)計(jì)算在內(nèi)來生成搜索請求的搜索結(jié)果 的網(wǎng)頁的排名。
11. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述網(wǎng)頁的排名 的生成將所述網(wǎng)頁與所述搜索請求的相關(guān)性計(jì)算在內(nèi)。
12. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述重要性分?jǐn)?shù) 的合計(jì)應(yīng)用衰減因子。
13. 如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述合計(jì)根據(jù)下式來執(zhí)行<formula>formula see original document page 3</formula>其中A表示快照的數(shù)量,7^(!')表示文檔/對(duì)于快照A的時(shí)間重要性分?jǐn)?shù),Pi ,(/) 表示文檔i在快照時(shí)刻f的重要性分?jǐn)?shù),P表示快照A的當(dāng)前重要性分?jǐn)?shù)的加權(quán) 因子,1-/ 表示快照1至"l的過去重要性分?jǐn)?shù)的加權(quán)因子,而X表示過去重要性分?jǐn)?shù)的衰減因子。
14. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述合計(jì)根據(jù)下 式來執(zhí)行<formula>formula see original document page 3</formula>其中A表示快照的數(shù)量,7^(/:)表示文檔/對(duì)于快照A的時(shí)間重要性分?jǐn)?shù),尸/ ,(/;) 表示文檔/對(duì)于快照時(shí)刻,的計(jì)算出的重要性分?jǐn)?shù),m(/)表示文檔/的固有質(zhì)量, W表示文檔的數(shù)量,而A和t;表示參數(shù)。
15. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,快照表示所述網(wǎng)頁和鏈接的web圖。
16. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)重要性分?jǐn)?shù)的計(jì)算應(yīng)用頁面排名算法。
17. 如權(quán)利要求IO所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)重要性分?jǐn)?shù)的 計(jì)算應(yīng)用中心和權(quán)威算法。
18. —種用于基于對(duì)超鏈接的分析來確定網(wǎng)頁的時(shí)間重要性的計(jì)算系統(tǒng),包括快照存儲(chǔ)(213),其包括在各個(gè)快照時(shí)刻收集的表示網(wǎng)頁及其超鏈接的 鏈接信息的快照;基于快照的鏈接信息來計(jì)算網(wǎng)頁的重要性分?jǐn)?shù)的組件(216);以及 為網(wǎng)頁合計(jì)所述網(wǎng)頁對(duì)于不同快照的重要性分?jǐn)?shù)以提供所述網(wǎng)頁的時(shí)間 重要性分?jǐn)?shù)的組件(215)。
19. 如權(quán)利要求18所述的計(jì)算系統(tǒng),其特征在于,所計(jì)算出的重要性分?jǐn)?shù) 的合計(jì)對(duì)較新近的快照的重要性分?jǐn)?shù)的加權(quán)比較不新近的快照的重要性分?jǐn)?shù) 更重。
20. 如權(quán)利要求18所述的計(jì)算系統(tǒng),其特征在于,包括至少基于搜索結(jié)果 的網(wǎng)頁的時(shí)間重要性分?jǐn)?shù)來對(duì)所述網(wǎng)頁進(jìn)行排名的組件。
全文摘要
提供了一種基于對(duì)鏈接的時(shí)間分析來確定具有文檔之間的鏈接的文檔的時(shí)間重要性的方法和系統(tǒng)。時(shí)間排名系統(tǒng)在各個(gè)快照時(shí)刻收集指示文檔之間鏈接的鏈接信息或快照。時(shí)間排名系統(tǒng)通過將從當(dāng)前快照(即,具有最近的快照時(shí)刻)中導(dǎo)出的文檔的當(dāng)前重要性和從過去的快照中導(dǎo)出的文檔的歷史重要性計(jì)算在內(nèi)來計(jì)算文檔的當(dāng)前時(shí)間重要性。為了計(jì)算網(wǎng)頁的當(dāng)前時(shí)間重要性,時(shí)間排名系統(tǒng)合計(jì)網(wǎng)頁對(duì)于每一個(gè)快照的重要性。
文檔編號(hào)G06F17/18GK101652771SQ200880011413
公開日2010年2月17日 申請日期2008年4月11日 優(yōu)先權(quán)日2007年4月12日
發(fā)明者B·高, H·李, L·楊, L·齊, T-Y·劉 申請人:微軟公司