專利名稱:用于搜索、導(dǎo)航和排名個人網(wǎng)中的文檔的方法、系統(tǒng)和計算機(jī)程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
一種有助于在文件中進(jìn)行搜索和導(dǎo)航的方法、設(shè)備和計算機(jī)程序產(chǎn)品。該方法用于建立連接文檔的鏈接網(wǎng)絡(luò),并且至少適用于先前并不存在這樣的網(wǎng)絡(luò)的情形,如,單個用戶或小組共享文檔。
背景技術(shù):
對于個人計算機(jī)的任何用戶來說,當(dāng)前的形式是令人泄氣的。用戶習(xí)慣于基本上立即找到存在于網(wǎng)絡(luò)上的有關(guān)任何主題的幾乎任何感興趣的東西,這些是從數(shù)目已經(jīng)超過80億的一組網(wǎng)絡(luò)文檔中采集出來的,其結(jié)果排名如此之好,以至于通常點(diǎn)擊率最高的幾個正是用戶所尋找的。而且,對于已經(jīng)找到好的點(diǎn)擊的用戶來說,跟隨來自該點(diǎn)擊的超鏈接并因此發(fā)現(xiàn)相關(guān)的文檔很容易。
現(xiàn)在,同一用戶在他/她的PC中可能具有數(shù)千或數(shù)百萬的文件。這個用戶也需要搜索和導(dǎo)航這些文件。當(dāng)然,理由是文件的數(shù)量使得不可能記住它們都是什么、它們在分級文件系統(tǒng)中的什么地方以及它們包含什么。因此,用戶需要幫助a)以尋找特殊文件,及b)以尋找與主題或題目相關(guān)的文件。當(dāng)然,在網(wǎng)絡(luò)情況下,這個正好是人們從當(dāng)前的網(wǎng)絡(luò)搜索引擎所獲得的那種幫助。那么,沮喪的用戶會問“為什么在我自己的PC上找到些東西就這么困難?”本發(fā)明正是瞄準(zhǔn)這個需求。換句話說,這個發(fā)明提供用于在個人文件中進(jìn)行搜索和導(dǎo)航的方法。對于由組共享的文件來說,它也適合支持同樣的功能。
在幫助搜索和導(dǎo)航個人文件的技術(shù)中,當(dāng)前的技術(shù)發(fā)展水平是相當(dāng)有限的。如上所述,目前,在用戶對日益增長的個人內(nèi)容搜索的需求與滿足這個需求的當(dāng)前技術(shù)的能力之間,存在著清晰的缺口。最近,許多不同的公司已經(jīng)意識到這個缺口,并且正努力填平它—因為巨大的、未滿足的需求意味著巨大的商業(yè)機(jī)會。因此,在討論當(dāng)前的技術(shù)發(fā)展水平時,我們將包括今天可能購買和使用的有限技術(shù)解決方案,及那些在公眾媒體上通告或暗示的方案。出發(fā)點(diǎn)是該領(lǐng)域正處于快速增長和改變的狀態(tài)中。
現(xiàn)在,桌面搜索—意味著在用戶自己的PC上本地運(yùn)行搜索工具—的想法已經(jīng)存在了一段時間。1998年,最早的因特網(wǎng)搜索引擎之一,AltaVista,在1998年發(fā)布了用于個人PC搜索的免費(fèi)軟件,名為AltaVista Discovery。這里,我們看到一個現(xiàn)在被許多人理解的事實的早期認(rèn)識即使是單個用戶所必須涉及的數(shù)字文檔的純粹數(shù)量已經(jīng)增長了如此之多,以至于組織和導(dǎo)航文件的古老的分級方法是如此令人絕望的不適當(dāng)。
十幾年前,Microsoft就已經(jīng)認(rèn)識到PC用戶搜索計算機(jī)文件中的信息時所要面臨的問題。Microsoft在其Windows操作系統(tǒng)中的統(tǒng)一數(shù)據(jù)存儲的先見之明(Cairo,用OFS-對象文件系統(tǒng);想法至少回溯到1990年)已成為許多公告的來源。這些公告已經(jīng)繼續(xù)到現(xiàn)在,并被不斷修訂。(經(jīng)過幾次延期之后,當(dāng)前公告的代號為Longhorn的下一版本的Windows的發(fā)布日期為2006年)由Microsoft提供的解決方案是將其Windows操作系統(tǒng)的基礎(chǔ)配管替換為從其SQL服務(wù)器數(shù)據(jù)庫軟件借用而來的技術(shù)。當(dāng)前,文檔、網(wǎng)頁、e-mail文件、電子數(shù)據(jù)表以及其它信息是存儲在分開的且多為互不相容的軟件中。代號為WinFS的新技術(shù)承諾在嵌入Windows的單個數(shù)據(jù)庫中統(tǒng)一存儲,其更容易搜索、更可靠且可通過公司網(wǎng)和因特網(wǎng)來訪問。
2004年10月,Google發(fā)布了其Google Desktop Search引擎的測試第二版。與Microsoft的“全面檢查(total-overhaul)”策略形成對比的是,Google Desktop Search由相對較小且較易下載的一組軟件模塊組成,所述模塊掃描并索引用戶PC的內(nèi)容。接著,所述索引被用于支持快速搜索。被索引的文檔包括文本文件、Word文件、Powerpoint、excel、Outlook郵件文件和所瀏覽的網(wǎng)絡(luò)文檔。
隨后(2004年12月),Microsoft發(fā)布了其Microsoft Toolbar Suite的測試第二版,其包括桌面搜索和網(wǎng)絡(luò)搜索兩方面。Microsoft已經(jīng)事先購買了Lookout桌面搜索技術(shù);Lookout(正如其名字所表明的那樣)集中在對Outlook文件的搜索上。
還是在2004年12月,Ask Jeeves公布了可下載桌面搜索引擎的測試第二版。這個引擎很可能集成了Ask Jeeves從Tukaroo公司處購買獲得的技術(shù)。在同一個月,Yahoo宣布其將在2005的早期發(fā)布一個測試版本。Yahoo已經(jīng)購買了大量的較早的技術(shù),大部分明顯是Overture的,Overtur自身具有幾個購買的引擎,包括AllTheWeb。Yahoo正在與X1合作來發(fā)展其桌面搜索引擎。
許多其它公司也提供桌面搜索產(chǎn)品。上述簡短的總結(jié)必將在短期內(nèi)過時;因此我們在此并不試圖窮盡。關(guān)于桌面搜索公司和產(chǎn)品的綜述可以在http://www.goebelgroup.com/desktopmatrix.htm中找到。
一個重要的問題是“這些新的玩家使用的是什么技術(shù)?”這些公司在展示給公眾的公告中僅披露了很少的信息;并且找到關(guān)于使用的實際搜索技術(shù)的任何細(xì)節(jié)都是非常困難的。大多數(shù)這些公司看起來無疑提供的是基于關(guān)鍵字的搜索,使用的是各種文件類型上的索引;并且多數(shù)提供桌面和企業(yè)兩種搜索。然而,我們還沒有找到任何公司將其搜索結(jié)果的排名建立在鏈接分析的基礎(chǔ)上。實際上,一點(diǎn)也不清楚上述公司是否使用鏈接—或是用于排名或是用于導(dǎo)航。
表面上使用了某些鏈接的技術(shù)是Autonomy公司的。Autonomy最近已經(jīng)發(fā)行了IDOL Enterprise Desktop Search。Autonomy技術(shù)包括文檔之間的對稱“相似性鏈接(similarity links)”。該相似性量度是復(fù)雜的,它使用概念相似的概率量度。而且,在搜索過程中使用概念分析,來代替完全依靠關(guān)鍵字。然而,沒有跡象表明其使用了例如本發(fā)明中所提到的單向超鏈接,而且,沒有證據(jù)表明其使用了鏈接分析。實際上,Autonomy明確地反對使用任何類型的頁面排名技術(shù)。換句話說,正如在http://www.autonomy.com/content/Press/Archives/2004/1206.html處可見的新聞稿中所記錄的那樣“不使用頁面排名這種在鏈接自由企業(yè)中已經(jīng)被證明無效的嘗試,Automatic Query Guidance使用概念聚類......”。
因此,正如本發(fā)明人所發(fā)現(xiàn)的那樣,為了能夠建立用于各種各樣文檔的優(yōu)秀的搜索、排名和導(dǎo)航工具,優(yōu)選的是在本地文件系統(tǒng)上具有適當(dāng)?shù)逆溄咏Y(jié)構(gòu),該結(jié)構(gòu)可以在鏈接分析中使用。這種存在于萬維網(wǎng)上的鏈接結(jié)構(gòu)代表了人們了解信息的一種途徑,它遠(yuǎn)優(yōu)于傳統(tǒng)的分級文件系統(tǒng),在傳統(tǒng)的分級文件系統(tǒng)中,每個文檔被強(qiáng)制放在分級樹的單個位置中。如果這樣的鏈接結(jié)構(gòu)已經(jīng)存在于今天的PC上,那么用于本地硬盤的基于鏈接分析的搜索和排名設(shè)備將可能已經(jīng)存在。
到目前為止,提出的解決方案中沒有一個建立了必要的鏈接基礎(chǔ)結(jié)構(gòu),以使得能夠?qū)蝹€用戶或小組的文件進(jìn)行基于鏈接分析的排名以便搜索和導(dǎo)航。本發(fā)明通過提出用于產(chǎn)生本地鏈接結(jié)構(gòu)的途徑來補(bǔ)救這個問題。
如下面詳細(xì)解釋的那樣,超鏈接可以提供兩種類型的信息它們可以指明兩個文件(對稱的)之間的相似性,和/或它們可以暗含一個建議,即開始于文件A的觀眾可能發(fā)現(xiàn)文件B有趣(單向或非對稱)。而且,鏈接可以被用于兩個目的它們可以幫助搜索(經(jīng)由排名)和導(dǎo)航。
當(dāng)前用于非WWW文檔系統(tǒng)的技術(shù)不是完全缺少超鏈接—這樣就缺少排名和導(dǎo)航的好處—就是僅使用相似性(如Autonomy)。在后者的情形中,缺少使用人為判斷的自由,該判斷提供關(guān)于文件和關(guān)于文件之間關(guān)系的建議。沒有這樣的建議,搜索(排名)和導(dǎo)航兩者在質(zhì)量上都將遭受損害。
鏈接分析在Google Web搜索引擎的巨大成功中已經(jīng)扮演了至關(guān)重要的角色。在Google之前,對來自搜索的點(diǎn)擊進(jìn)行排名的主要嘗試是使用下列中的一個或多個文本關(guān)聯(lián)、“鏈接廣泛度”和人為判斷(Yahoo)。文本關(guān)聯(lián)總是重要的,但本質(zhì)上并不足以提供好的排名結(jié)果。鏈接廣泛度的特征在于對指向頁面的鏈接計數(shù)。鏈接廣泛度是鏈接分析的最粗略形式,并且極容易被假的鏈接所欺騙。最后,人為判斷雖然總是有用的,但對具有許多文檔和高更新率的分布式文檔系統(tǒng)來說,卻是過于緩慢和昂貴的。
Google是本發(fā)明人所知的通過公知的PageRank算法來使用非平凡鏈接分析的第一個網(wǎng)站搜索引擎。PageRank—連同其它形式的非平凡鏈接分析(例如在美國專利10/687,602和10/918,713中引用的那些)—的優(yōu)點(diǎn)是PageRank使用人為判斷的集體形式。即,連接數(shù)十億網(wǎng)頁的大量鏈接中的大多數(shù)是由數(shù)百萬人(網(wǎng)頁設(shè)計者)制定的。因此,為找到最佳網(wǎng)頁,非平凡鏈接分析是一個利用這些數(shù)百萬人的勞動的聰明辦法,該方法提取他們的集體判斷。
在極大程度上,當(dāng)網(wǎng)絡(luò)設(shè)計者制定了從他自己的頁面A至另一頁面B的鏈接時,(從該網(wǎng)絡(luò)設(shè)計者的觀點(diǎn))這意味著,對頁面A感興趣的讀者可能也對頁面B感興趣。即,這樣的鏈接可被解釋為暗示了下面兩個事情的某種混合(i)頁面B與頁面A相似;和/或(ii)對頁面A感興趣的人可能也對頁面B感興趣。
簡而言之,鏈接分析是有價值的,因為鏈接傳達(dá)了兩件事相似性和建議。
雖然這些嘗試已被應(yīng)用到網(wǎng)絡(luò)環(huán)境中,但客戶面臨著進(jìn)退兩難的局面—怎樣處理他們個人計算機(jī)中的數(shù)千或數(shù)百萬的文件。
正如本發(fā)明人認(rèn)識到的那樣,所希望的是開發(fā)鏈接的個人網(wǎng)絡(luò)(Personal Web)的工具,使得用戶能夠?qū)碜躁P(guān)鍵字搜索的點(diǎn)擊排名,并且導(dǎo)航這些文件。術(shù)語“個人網(wǎng)絡(luò)”是指由本發(fā)明建立的文檔之間的鏈接的網(wǎng)絡(luò)。個人網(wǎng)絡(luò)包括下列的組合(i)基于相似性的不定向的加權(quán)鏈接;(ii)定向的加權(quán)鏈接,其可能被或可能不被錨定于所指向的或被指示文檔上的文本,且代表建議;和(iii)分配給文檔自身的權(quán)重(重要性分?jǐn)?shù))—也代表建議。
在大量信息的世界里,排名和導(dǎo)航將總是重要的功能。所述個人網(wǎng)絡(luò)以獨(dú)特而有效的途徑支持這兩個功能—通過合并相似性和建議這兩個至關(guān)緊要的方面—如下面詳細(xì)討論的那樣。
首先我們處理相似性。本發(fā)明使用機(jī)器算法來評估文檔或文件之間的相似性。如上所述,至少一個其它的嘗試(Autonomy的那個)使用文檔之間的相似性分析來幫助用戶在這些文檔之間進(jìn)行尋找和導(dǎo)航。這個相似性的量度與Autonomy的那個不同。另一個不同點(diǎn)是使用加權(quán)的相似性鏈接,它由先前描述的相似性分析產(chǎn)生,作為整體鏈接分析嘗試的一個分量—其反過來支持對來自搜索的點(diǎn)擊進(jìn)行排名。而且,相似性鏈接在幫助導(dǎo)航時扮演著重要角色。
下面,我們來談?wù)劷ㄗh。建議通常人為完成最好。然而,單個用戶評估他/她自己的文件的情況與評估網(wǎng)絡(luò)上的文件的情況有著很大的不同。網(wǎng)絡(luò)上,數(shù)百萬的用戶對數(shù)十億的網(wǎng)頁貢獻(xiàn)了建議。在這個情形下,每個用戶僅僅對數(shù)目相對較少的其它文檔做出了建議。在一個用戶的情況下,對用戶來說,仔細(xì)檢查成千上萬的預(yù)先存在的文件并嘗試制定指向其它相關(guān)和/或感興趣的文件的鏈接通常是不現(xiàn)實和不可行的。即,個人不能簡單地僅通過嘗試制造一個就像萬維網(wǎng)那樣的個人網(wǎng)絡(luò)來創(chuàng)建“桌面上的網(wǎng)絡(luò)”,因為單個用戶所承擔(dān)的勞動負(fù)擔(dān)太大了。
與WWW的另一個區(qū)別也是相關(guān)的。即,事實上,單個用戶通常是有資格對他/她自己的文件的性質(zhì)和興趣進(jìn)行評估的唯一人—沒有其它人和其它機(jī)器可以做這件事。用戶已經(jīng)讀過—或至少有某種程度的了解—所有這些文件。相反地,在WWW上,任何個人都不可能評估網(wǎng)絡(luò)上的所有頁面。
總結(jié)這兩個區(qū)別在網(wǎng)絡(luò)上,許多個體進(jìn)行閱讀工作;并且許多個體經(jīng)由超鏈接進(jìn)行建議/評估工作。在單個用戶的情況下,一個個體可以被期望進(jìn)行(雖然當(dāng)然是不完美的)閱讀文件的工作;可是這個個體并不被期望樂于制定從每個文件到其它文件的鏈接。到目前為止,與萬維網(wǎng)不同,推薦人的能力與要被評論/推薦的文檔的數(shù)目之間的這個失配已經(jīng)妨礙了到文檔系統(tǒng)的超鏈接的任何系統(tǒng)應(yīng)用。
為了解決這個失配,本發(fā)明包括混合形式的建議。這個混合物向用戶提供了設(shè)置從任意文件到任意其它文件的超鏈接的選擇權(quán)。然而,這個混合物也提供用于建議的另一機(jī)制每個文件將被給定一個“文件質(zhì)量分?jǐn)?shù)”或FQS。每個文件將具有一個缺省值,就FQS的可能尺度來說,該缺省值相當(dāng)小。這個值可以基于文檔的量度(例如近期使用度和/或使用頻率)而被自動修改。而且,只要方便,用戶可以隨意增加(或減少)這個FQS—如,在打開/閱讀文件之后。FQS是用于將建議包括到文檔系統(tǒng)中的最小勞動密集型的可能方法。本發(fā)明通過還包括用戶選擇超鏈接的可能性而更加大了靈活性。在這點(diǎn)上講,該建議系統(tǒng)的一個實施例是混合物它包括有關(guān)圖(具有其FQS的文檔)的節(jié)點(diǎn)的權(quán)重和節(jié)點(diǎn)之間的定向鏈接(這樣從指示文檔建議被指示的文檔)。
發(fā)明內(nèi)容
一種包括個人網(wǎng)絡(luò)的用于個人搜索引擎的方法、裝置和計算機(jī)程序產(chǎn)品,其組成為相似性網(wǎng)絡(luò)、超鏈接(手動和自動產(chǎn)生)以及手動和自動更新的文件質(zhì)量分?jǐn)?shù)。組件包括分析器(從文檔中提取文字)、文本關(guān)聯(lián)性分析器、鏈接分析方法、相似性網(wǎng)絡(luò)、相似性分析器以及應(yīng)用于PC上的個人文件的超鏈接。其它組件包括導(dǎo)航窗口和FQS。所有上面這些的組合可以被合并到工作的個人搜索引擎中。
圖1說明在本發(fā)明中使用的文檔之間的兩種超鏈接。
圖2是根據(jù)本發(fā)明的一個實施例的用于搜索引擎的流程圖。
圖3是根據(jù)本發(fā)明的一個實施例的混合網(wǎng)絡(luò)的代表。
圖4是根據(jù)本發(fā)明的一個實施例的用于導(dǎo)航的流程圖。
圖5是根據(jù)本發(fā)明的一個實施例從單個用戶的觀點(diǎn)所見的單組結(jié)構(gòu)的說明。
圖6是根據(jù)本發(fā)明的一個實施例的在幾個組的情況下定義文件子集的兩個可能途徑的說明,所述文件子集用于建立子圖和執(zhí)行鏈接分析。
圖7是根據(jù)本發(fā)明的一個實施例的在幾個組的情況下用于鏈接分析的兩個可能子圖的說明。
圖8是在本發(fā)明的一個實施例中使用的計算機(jī)的方框圖。
具體實施例方式
本發(fā)明涉及文檔的“個人網(wǎng)絡(luò)”的建立,而這些文檔要么將具有很少的鏈接結(jié)構(gòu)或沒有鏈接結(jié)構(gòu)。個人網(wǎng)絡(luò)包括下列的組合(i)基于相似性的不定向的加權(quán)鏈接;(ii)定向的加權(quán)鏈接,其可能被或可能不被錨定于所指向的或被指示文檔上的文本,且代表建議;和(iii)分配給文檔自身的權(quán)重(重要性分?jǐn)?shù))—也代表建議。
我們也使用術(shù)語“混合網(wǎng)絡(luò)”來描述這個結(jié)構(gòu)。可從兩個方面來理解個人網(wǎng)絡(luò)是混合物。首先,它使用加權(quán)的對稱相似性鏈接與加權(quán)的定向建議鏈接的雜系混合。其次,建議的重要功能是通過使用定向鏈接與文件質(zhì)量分?jǐn)?shù)的雜系混合來實現(xiàn)的。
下面我們詳細(xì)說明本發(fā)明中使用的建議的混合形式。這個混合嘗試向用戶提供設(shè)置從任意文件到任意其它文件的超鏈接的選擇權(quán)。(如在下文中所見,這個超鏈接在任一端可能被或可能不被錨定于特殊文本。)在這個上下文中,我們提供術(shù)語“超鏈接”的精確定義,以避免模糊。邏輯上,超鏈接是從一個文件(稱為文件A)指向另一個文件(稱為文件B)的指針。除此之外,個人可以將這個指針與超鏈接權(quán)重(HLM)相關(guān)聯(lián)。無論何時當(dāng)我們使用術(shù)語超鏈接來描述本發(fā)明時,都暗含這個邏輯定義(指針加權(quán)重)。物理上來講,這樣的超鏈接典型地是以元數(shù)據(jù)的形式實現(xiàn)的,該元數(shù)據(jù)典型地包括在文件A(指向文件)的元數(shù)據(jù)中(與文件A的元數(shù)據(jù)存儲在一起)。而且,與超鏈接相關(guān)聯(lián)的任何權(quán)重也被存儲為元數(shù)據(jù)—典型地(再次)用于文件A。
除了超鏈接,混合建議嘗試提供另一個用于建議的機(jī)制每個文件將被給予一個文件質(zhì)量分?jǐn)?shù)或FQS。初始地,每個文件被給予一個缺省值用于其FQS,就FQS的可能尺度來說,該缺省值相當(dāng)小。接著,用戶可以隨意提高(或甚至降低)這個FQS。
而且,在本發(fā)明的一個實施例中,可以使用用于改變FQS的自動方法。例如,計算機(jī)自身可以將在一段時間內(nèi)文件被打開和/或編輯的次數(shù)記錄在日志內(nèi),并向被頻繁打開的文件給予較高的FQS分?jǐn)?shù)。而且,可以使用訪問的近期度作為重要性的量度。
這個混合系統(tǒng)的合理性在于下列原因。首先,不需要使人精疲力盡的工作。只有那些用戶樂意這樣做的文件才獲得建議。其次,選擇FQS比設(shè)置鏈接要容易—它多半是可能的建議的最低要求形式。但是,甚至是這里也僅需要最小的用戶努力。文件以缺省的FQS開始;這個反過來可能被某種機(jī)器可測量的重要性指示器修改。只有那些被用戶判斷為“值得麻煩”的文件才將獲得用戶修改(典型的是提高)的FQS值。
因此,出現(xiàn)下面的景象。用戶他/她毫不遲疑地首次用大量積壓的文件來使用“個人網(wǎng)絡(luò)搜索引擎”。引擎自身則進(jìn)行扒用戶的文件系統(tǒng)的工作,掃描文件的文本,建立倒排索引并建立放置每對文件之間的加權(quán)、對稱鏈接的“相似性網(wǎng)絡(luò)”。有關(guān)鏈接的權(quán)重是相似性量度。而且,引擎向每個文件分配一個低的缺省FQS,可以基于來自文件日志的信息來修改這個缺省值。
因此,根本沒有任何努力,用戶就獲得了連接所有文件的相似性網(wǎng)絡(luò)、每個文件的重要性分?jǐn)?shù)和倒排索引。這些特征已經(jīng)允許搜索和導(dǎo)航。用戶則可以通過儲備建議來補(bǔ)充這個起始景象。這么做的動機(jī)是它們是“自我的提醒者”。如果用戶設(shè)置了從文件A到文件B的超鏈接,則這是提醒者在說“一旦我打開了A,我可能會想要跳到B”。此外,這里所使用的超鏈接,如同網(wǎng)絡(luò)上的那些一樣,可以被嵌入文本中,使得它們從文件A中的文本中的特殊位置和/或指向文件B中的特殊位置。
文件的讀者/擁有者也可以使用FQS來儲備建議(給他或她自己)。例如,如果讀者選擇將文件C的FQS從其給定值提高,這是下面這個形式的提醒,“當(dāng)我對文件進(jìn)行搜索時,我想要文件C具有比平均高的出現(xiàn)機(jī)會”。同樣地,讀者可以希望降低被判斷為興趣很少的文件的FQS,即使它不應(yīng)被刪除。
最終的混合網(wǎng)絡(luò)將具有對稱(不定向)鏈接和單向或定向鏈接。數(shù)學(xué)上講,這樣的圖仍然是定向圖,并且因此可以被適合于定向圖的方法(例如那些在先前并入的美國專利中所描述的,所述美國專利為2003年10月29日提交的10/687,602和2004年8月25日提交的10/918,713)處理。
這里涉及一個調(diào)整參數(shù),涉及確定與對稱相似性鏈接的相似性權(quán)重相比,定向的用戶自寫的超鏈接應(yīng)該具有多大的權(quán)重。即本發(fā)明的一個實施例使用鏈接分析來排名文檔;并且,鏈接分析的輸入是由不定向相似性鏈接和定向超鏈接兩者組成的混合網(wǎng)絡(luò)。這兩個類型鏈接的相對權(quán)重將因此影響鏈接分析的結(jié)果。在本發(fā)明的優(yōu)選實施例中,相似性權(quán)重將落入0到1的范圍內(nèi)。因而,在本發(fā)明的一個實施例中,超鏈接被給定缺省權(quán)重1。可選地(保持相似性權(quán)重在同樣的0到1到范圍內(nèi)),可以給予超鏈接缺省的但可調(diào)的(即,可由用戶調(diào)整的)權(quán)重HLW。
FQS也給予用于每個文件的第三分?jǐn)?shù),除了來自鏈接分析和文本相關(guān)性分析的分?jǐn)?shù),也可使用該分?jǐn)?shù)。即,搜索后的點(diǎn)擊排名是基于下列的組合(i)文本相關(guān)性分?jǐn)?shù)、(ii)鏈接分析權(quán)重和(iii)FQS。此外,這里有兩個調(diào)整參數(shù),以用于確定給予這三個權(quán)重的相對強(qiáng)度。
隨后,我們談?wù)剬?dǎo)航。本發(fā)明的實施例合并了三個幫助導(dǎo)航的機(jī)制。
首先,存在被錨定在文本中的那些超鏈接。錨定的超鏈接以與用于在WWW上導(dǎo)航的超鏈接的使用相類似的方式為用戶工作文檔中的文本被突出,這樣傳達(dá)給用戶該文本被耦合到至另一文檔(或至同一文檔中的另一點(diǎn))的超鏈接。其次,該實施例允許用戶制定從文件A指向文件B的非錨定的超鏈接。第三,相似性網(wǎng)絡(luò)提供從文件A至每個其它文件的鏈接。
這里我們強(qiáng)調(diào)術(shù)語“超鏈接”一般被用于指代被突出的文本,該文本用于提供給用戶(在一個界面中)錨定的超鏈接。在這個文檔中,術(shù)語“超鏈接”是指如上所述的邏輯指針(具有權(quán)重)。因此,我們將使用術(shù)語“活動圖標(biāo)”用于任何被突出的文本(或其它符號),該文本在一個界面中呈現(xiàn)給用戶,使得用戶可以激活該圖標(biāo)并且因此打開被指向的文件。即,界面中的圖標(biāo)不是由我們所定義的超鏈接;更確切地,圖標(biāo)“后面”的邏輯(加權(quán))指針才是超鏈接。
如圖1中所示,錨定的超鏈接被錨定于指示文檔3中的文本,并且指向被指示文檔4。非錨定的超鏈接2從指示文檔3指向被指示文檔4。也可能具有被錨定于被指示文檔中的特殊文本的超鏈接。舉例說來,圖1中,錨定的超鏈接5從指示文檔3中的文本“text1”指向被指示文檔4中的文本“重要”。
為了支持導(dǎo)航,本發(fā)明允許打開文件O的用戶拉起顯示O所鏈接的文件的導(dǎo)航窗口。這個窗口將具有多達(dá)三個的排名列表。一個列表將為最高排名的相似性鏈接。這些鏈接將根據(jù)相似性權(quán)重、鏈接分析分?jǐn)?shù)和所鏈接的文件的FQS來排名。第二列表將具有來自O(shè)的超鏈接所指向的最高排名的文件—根據(jù)它們的FQS值、它們的鏈接分析分?jǐn)?shù)LA和它們的超鏈接權(quán)重而排名。第三列表則將具有指向O的最高排名的文件—也是根據(jù)它們的FQS、它們的LA分?jǐn)?shù)和超鏈接權(quán)重而進(jìn)行排名。
現(xiàn)在,我們參照圖2更詳細(xì)地說明本發(fā)明的上述組件,圖2以搜索引擎及其組件的形式描述了搜索過程和本發(fā)明。
用戶通過向搜索界面輸入關(guān)鍵字223來啟動搜索225。該關(guān)鍵字被送入點(diǎn)擊列表產(chǎn)生器235。點(diǎn)擊列表產(chǎn)生器使用關(guān)鍵字從倒排索引233中提取點(diǎn)擊列表237。
倒排索引是一個文件,該文件以一個關(guān)鍵字作為輸入,并接著給出包含那個關(guān)鍵字的文件列表作為輸出。這是本領(lǐng)域的從業(yè)者所熟知的標(biāo)準(zhǔn)技術(shù)和使用技術(shù)。對多關(guān)鍵字搜索來說,也需要從倒排索引拉出滿足關(guān)鍵字的某一布爾組合的所有文件的能力。這里,可以再次使用已知技術(shù)。這種布爾排序功能被包含在被稱作“倒排索引”的組件中。
為建立倒排索引,需要分析器(圖2中的221)。這個組件掃描文件201并識別那些文件中的文字。當(dāng)前,許多文件類型允許使用分析器—如,Word文件、pdf文件、文本文件、html文件以及Outlook郵件文件。該分析器的動作以及倒排索引的建立和更新發(fā)生在不是由搜索啟動的后臺處理中。
注意,這里個人文件典型地具有大量的非文本文件—特別地,音樂文件和數(shù)碼相片文件。本發(fā)明的一個實施例將能夠處理非文本文件,前提是它們具有可以被分析以產(chǎn)生文字的元數(shù)據(jù)。這個假設(shè)適合于許多類型的非文本文件,但不是全部。
在文本相關(guān)性計算機(jī)239中,本發(fā)明中還將使用文本相關(guān)性分析。這個模塊將關(guān)鍵字223與未被排名的點(diǎn)擊列表237一起作為其輸入,并且輸出相同點(diǎn)擊的列表伴隨它們的文本相關(guān)性分?jǐn)?shù)TR至相關(guān)性分?jǐn)?shù)DB 241。對于點(diǎn)擊列表上的每個文檔,計算文本相關(guān)性分?jǐn)?shù)TR,并且相對于給定的關(guān)鍵字來說,使用已知技術(shù)。
這里值得指出的是,對于網(wǎng)絡(luò)搜索來說,文本相關(guān)性分析的簡單形式并不可取,因為他們?nèi)菀妆弧胺撬饕畔ⅰ逼垓_—即,狡猾的網(wǎng)頁設(shè)計者在頁面中插入某些關(guān)鍵字的許多拷貝,該關(guān)鍵字由網(wǎng)上瀏覽器(Web crawler)檢測但對人類讀者來說仍是不可見的。然而對于個人內(nèi)容之上的個人搜索引擎來說,非索要信息很可能不是問題。用戶當(dāng)然不會向他或她自己兜售非索要信息。而且,任何包含非索要信息且找到自己進(jìn)入用戶收藏的途徑的文件都是由用戶處理的。因此,文本相關(guān)性分析的簡單形式可以十分適合于個人搜索引擎。然而,也可以使用更復(fù)雜的形式。
下面,我們說明相似性計算機(jī)205。這個過程也是在后臺運(yùn)行。相似性測量的問題與文本相關(guān)性問題非常接近。在前者中,給予個人一組關(guān)鍵字和文檔;并且,個人努力確定文檔與關(guān)鍵字所代表的概念有多么相關(guān)。計算相似性量度時,給予個人兩個文檔,并且個人必須確定在一個文檔中說明的概念與在另一個文檔中說明的概念的重疊程度。本發(fā)明的一個實施例使用分析器203在后臺進(jìn)程中成對地檢查文檔201。該分析器識別文檔對中的文字,并且將其結(jié)果送入相似性計算機(jī)205。
測量概念遠(yuǎn)比分析和計數(shù)關(guān)鍵字更有挑戰(zhàn)性。然而(再次),存在適合于個人搜索引擎的簡單方法。下面是一種用于相似性測量的簡單方法,該方法將被用在本發(fā)明的一個實施例中。
以“字典”開始,即,在倒排索引中使用的一組文字。這些是在文件中找到的有用的文字。(非有用的文字的例子是“填塞”文字,例如the、and、he、if等等。)那么對每個文字w和每個文件f,分析器計數(shù)文字w在文件f中出現(xiàn)的次數(shù)Nf(w)。接著將Nf(w)除以Nf—文件中的文字的總數(shù)—用nf(w)表示結(jié)果。術(shù)語nf(w)被稱為文件f的“文字輪廓”。
文件1與文件2之間的相似性S(1,2)是這樣定義的S(1,2)=KΣwn1(w)n2(w)]]>這里,常量K是另一個調(diào)整參數(shù),該參數(shù)設(shè)置相似性量度的尺度。在本發(fā)明的優(yōu)選實施例中,常量K為1.在這個情況下,相似性是0和1之間的正數(shù)。此外,K取為1時,兩個相同文件的相似性就是1。
如上所述,簡單性決不是個人文件系統(tǒng)上的搜索和導(dǎo)航中的缺點(diǎn)。在任何情況下,不希望文字頻率的非索要信息是一個問題。
系統(tǒng)201中的每個文件都將具有相對于每個其它文件的相似性權(quán)重。因此,可能希望完成由相似性鏈接構(gòu)成的圖。(對于一個完整的圖來說,每個節(jié)點(diǎn)(文檔)被鏈接至每個其它節(jié)點(diǎn)(文檔))。然而,可能會出現(xiàn)兩個文件的相似性權(quán)重剛好為0的情況(當(dāng)這兩個文件沒有共同的字典文字時)??梢韵M@種情況很少發(fā)生。然而,如果有任何權(quán)重為0的相似性鏈接,則該相似性圖不再是完整的。(保持非負(fù)—即,所有相似性鏈接具有正的權(quán)重或為0的權(quán)重)然而,圖的完整性并不是為所有節(jié)點(diǎn)獲得正的鏈接分析權(quán)重的必要條件。而是,必要條件是所述圖是“強(qiáng)連接的”。在強(qiáng)連接的圖中,對于任意兩個節(jié)點(diǎn)A和B,都至少有一個從A到B的路徑,且至少有一個從B到A的路徑(不必是同一路徑)。對稱的圖,例如相似性圖,只要它是連接的—即,只要圖不能被拆分為互不相連的之間沒有鏈接的段—那它定將是強(qiáng)連接的。
預(yù)期出現(xiàn)相似性量度為0的情形很少,以至于相似性圖將總是連接的,并且因此是強(qiáng)連接的。然而,作為備份量度,在本發(fā)明的一個實施例中,可以施加一個最小的相似性量度δ>0。即,當(dāng)KΣwn1(w)n2(w)<δ]]>時,可設(shè)S(1,2)=δ。這保證了相似性圖是完整的并因此是連接的。
相似性量度存儲在相似性數(shù)據(jù)庫207中?,F(xiàn)在,可以說明定向超鏈接的添加—它與相似性鏈接一起,形成用于鏈接分析213的基礎(chǔ)。(非定向)相似性鏈接連同定向超鏈接一起,形成連接文檔201的混合網(wǎng)絡(luò)。
本發(fā)明的一個實施例允許用戶217在任何時間使用超鏈接產(chǎn)生器209的手動界面來設(shè)置超鏈接。如圖1中所示,這些超鏈接可以被錨定于指示文檔中的文本中,和/或被指示文檔中。它們也可以是從文件A指向文件B的非錨定的超鏈接。所有這樣手動產(chǎn)生的超鏈接都存儲在超鏈接DB 211中。如上所述,這些超鏈接被給定權(quán)重HLW—它在本發(fā)明的一個實施例中為1。在本發(fā)明的其它實施例中,用戶可以選擇HLW的值。
超鏈接也由超鏈接產(chǎn)生器209自動產(chǎn)生,即,使用后臺運(yùn)行的至文件201的自動界面。換句話說,超鏈接產(chǎn)生器可以在某種程度上識別到文件A明確地參考文件B。例如,在本發(fā)明的一個實施例中,郵件文件MF2(另一個郵件文件MF1的回信或轉(zhuǎn)發(fā)信)將觸發(fā)超鏈接產(chǎn)生器設(shè)置從MF2指向MF1的超鏈接。自動產(chǎn)生的超鏈接也發(fā)送至超鏈接DB 211。
如上所述,關(guān)于由本發(fā)明中的混合網(wǎng)絡(luò)形成的圖的性質(zhì),相似性鏈接(當(dāng)δ>0時)形成了完整的圖,因為每個節(jié)點(diǎn)(文件)都連接至每個其它的節(jié)點(diǎn)(文件)。(當(dāng)δ=0時,仍可以期望該圖是強(qiáng)連接的)。此外,該圖是加權(quán)(具有非負(fù)的權(quán)重)且對稱的。當(dāng)單向超鏈接添加到這個圖中時,最終的混合圖缺少對稱的性質(zhì);但它仍是加權(quán)的、仍是非負(fù)的、且仍是強(qiáng)連接的。既然它是強(qiáng)連接的,它沒有匯點(diǎn)。(在定向圖中,匯點(diǎn)是只有進(jìn)路但沒有出路的一組節(jié)點(diǎn)。)對于鏈接分析算法來說,匯點(diǎn)是不受歡迎的,因為它們使得不可能為所有節(jié)點(diǎn)計算有用的鏈接分析權(quán)重。例如,PageRank算法插入許多額外的人為鏈接以使圖完整。而且,為2004年8月25日提交的美國專利申請10/918,713描述了其他種類的用于具有匯點(diǎn)的圖的“匯點(diǎn)補(bǔ)救(sinkremedies)”。
這里值得注意的是,混合圖具有兩個性質(zhì),該性質(zhì)足以將有意義的鏈接分析權(quán)重給予每個節(jié)點(diǎn)混合圖是強(qiáng)連接的,且其權(quán)重是非負(fù)的。因此,對于這個圖來說,并不期望需要“匯點(diǎn)補(bǔ)救”。不過,在需要這樣的補(bǔ)救的情況下,可使用如美國專利申請10/918,713中描述的那樣的匯點(diǎn)補(bǔ)救的應(yīng)用程序。
關(guān)于超鏈接,有兩個類型。
非錨定超鏈接。這些是從文件A到文件B的那些未附于指示文件A中的任何特殊文本的超鏈接。(見圖1中的例子條目2。)在個人文件系統(tǒng)中設(shè)置這樣的超鏈接沒有任何技術(shù)問題。該超鏈接成為用于文件A的一類元數(shù)據(jù)。該超鏈接的目標(biāo)(對應(yīng)于被指向網(wǎng)頁的URL)是被指向文件的路徑名稱。在文件系統(tǒng)中,路徑名稱是文件系統(tǒng)中的標(biāo)準(zhǔn)對象;它用于指定文件的唯一邏輯地址(其它實用程序則將路徑名稱翻譯成存儲文件的物理塊)錨定于指示文件中的超鏈接。這些超鏈接(圖1中的條目1)也可以被表示成用于指示文件A的元數(shù)據(jù)的形式。然而,為了有用,應(yīng)該在用戶所看到的文件A的圖形顯示中將錨定于指示文件A中的文本的超鏈接顯示給用戶。而且,該顯示應(yīng)該是交互式的—即,耦合到用戶輸入(典型地是鼠標(biāo)),以使用戶可以激活向被指向文件的跳轉(zhuǎn)。換句話說,通過我們上述的定義,錨文本成為一個“活動圖標(biāo)”。許多文件類型(例如,pdf、Word和PowerPoint文件)支持這個形式的超鏈接表達(dá)。
錨定于被指向文件中的超鏈接。某些文件類型,例如html,允許超鏈接錨定于被指向文件的文本中的位置。對于這樣的文件類型來說,直接允許從文件A到文件B的超鏈接指向文件B中的特殊位置(見圖1中的條目5)。
所有這些類型的超鏈接存儲在超鏈接數(shù)據(jù)庫211中。這個數(shù)據(jù)庫具有表格(A=>B;HLW)的表目,即,它列出所有的超鏈接和它們的權(quán)重,而不考慮它們是否被錨定。在本發(fā)明的一個可選的實施例中,指示文件和/或被指示文件中的錨文本(如果有的話)也被存儲在超鏈接DB中;這個信息可以與關(guān)鍵字一起在搜索中使用。
超鏈接加上相似性網(wǎng)絡(luò),形成混合網(wǎng)絡(luò)。圖3顯示了來自混合網(wǎng)絡(luò)的兩個文檔。文檔1(條目3)具有指向文檔2(條目4)的定向超鏈接5。而且,如同混合網(wǎng)絡(luò)中的所有文檔對一樣,這兩個文檔通過不定向相似性鏈接6相關(guān)。(一些相似性鏈接可能具有0權(quán)重。)這個混合網(wǎng)絡(luò)(圖,其節(jié)點(diǎn)=文檔)是鏈接分析(圖2中的213)的起始點(diǎn)。如上所述,混合網(wǎng)絡(luò)是一種形式的定向圖(因為它不是完全對稱的)。因此,這里可使用適合于定向圖的鏈接分析方法。
鏈接廣泛度不是適當(dāng)?shù)倪x擇。原因在于,組成大部分混合網(wǎng)絡(luò)的相似性網(wǎng)絡(luò)給予每個節(jié)點(diǎn)(文檔)許多鏈接;因此,將節(jié)點(diǎn)重要性(集中性)與鏈接的數(shù)目相關(guān)聯(lián)并不明智。
本發(fā)明的優(yōu)選實施例使用2003年10月29日提交的美國專利10/687,602中所描述的算法進(jìn)行鏈接分析。實際上,在這個專利申請中,有兩個截然不同的算法。測試中顯示,每個都給出了良好的結(jié)果;但是其結(jié)果卻顯著不同。
這兩個算法可以簡要地稱為“正向”和“反向”。當(dāng)圖被定向時,這兩個方法不同。因此,在用戶沒有設(shè)置超鏈接或設(shè)置很少超鏈接的極端情況下,圖是近似對稱的,并且這兩個方法將給出幾乎一樣的結(jié)果。
因此,本發(fā)明的一個仍能給出良好性能的實施例將使用正向操作符。本發(fā)明的另一個實施例為每個文檔計算兩個鏈接分析權(quán)重(使用兩種方法),并且接著提供給用戶選擇哪一個結(jié)果(或兩者都)是他/她希望在最終的排名結(jié)果中看到的。這個可選的實施例可能最適合于對有效搜索具有強(qiáng)烈而積極興趣的用戶。朝著找到最佳的可能搜索結(jié)果的目標(biāo),這樣的用戶可能會設(shè)置許多鏈接(給予兩種方法之間的有意義差別),并且也對嘗試不同算法感興趣。
最終,出現(xiàn)在另一個極端的用戶面前的是什么。換句話說,假設(shè)用戶對超鏈接不感興趣——他/她想要好的搜索和導(dǎo)航結(jié)果。沒有超鏈接,混合圖成為(對稱的)相似性圖,加上自動生成的超鏈接。后者這些鏈接可能在總數(shù)中占少數(shù)。因此,在這個情況下,正向和反向方法給出幾乎相同的結(jié)果,它們反過來與來自社會科學(xué)的被稱為“特征向量集中性”的方法大體相當(dāng)。特征向量集中性仍然給出有意義的重要性量度;因此,結(jié)果對這類用戶仍將有用。
鏈接分析模塊213也作為后臺進(jìn)程運(yùn)行,即它不依靠搜索的啟動。它將相似性DB 207和超鏈接DB 211作為輸入。它的輸出是一組鏈接分析分?jǐn)?shù)LA,每個文檔一個。這些LA分?jǐn)?shù)存儲在鏈接分析分?jǐn)?shù)DB215中。
每個文件的文件質(zhì)量分?jǐn)?shù)或FQS存儲在FQS DB 219中。FQS的尺度不由本發(fā)明固定;而任何方便于用戶的尺度(例如,從1到10)都是適當(dāng)?shù)模驗镕QS的相對權(quán)重、相似性和鏈接分析集中性將由調(diào)整參數(shù)來確定(見下面)。由用戶輸入217和來自Log組件240的信息兩者來確定FQS。在本發(fā)明的一個實施例中,每一次用戶關(guān)閉打開的文件時,都提示他/她選擇用于該文件的FQS。在另一個實施例中,機(jī)器可讀的量度,例如日期和訪問頻率可被用于從缺省值改變FQS值。在任何情況下,用戶都將具有覆蓋任何所選文件的FQS的選項。
返回至搜索進(jìn)程的描述,用一個或多個關(guān)鍵字223重新喚起用戶啟動搜索225。點(diǎn)擊產(chǎn)生器235則使用關(guān)鍵字223和倒排索引233來產(chǎn)生不排名的點(diǎn)擊列表237。這個不排名的點(diǎn)擊列表與關(guān)鍵字223一起被送至文本相關(guān)性計算機(jī)239。文本相關(guān)性計算機(jī)的輸出則是點(diǎn)擊列表上的每個文件的一組文本相關(guān)性分?jǐn)?shù)TR。這些分?jǐn)?shù)存儲在文本相關(guān)性分?jǐn)?shù)DB 241中。
現(xiàn)在,可以基于三個不同的分?jǐn)?shù),對點(diǎn)擊進(jìn)行排名。合并模塊229從相關(guān)性DB 241取得文本相關(guān)性分?jǐn)?shù),從鏈接分析DB 215取得鏈接分析分?jǐn)?shù)LA,并從FQS DB 219取得FQS值FQS。則每個點(diǎn)擊的凈合成權(quán)重W為W=a(TR)+b(LA)+c(FQS)這里看起來有三個調(diào)整參數(shù);但是,由于僅有相對權(quán)重與排名有關(guān)系,因此可以完全自由地選擇這三個中的一個;而只有另外兩個影響排名結(jié)果。在本發(fā)明的一個實施例中,用戶可選擇權(quán)重c—即,用戶可以決定他/她想要給他/她自己的文件評估多大的權(quán)重。
合并模塊根據(jù)上述公式來計算凈權(quán)重W。接著,為了降低凈權(quán)重W,它將點(diǎn)擊列表237重新排列為排名列表。最終的排名列表被刪節(jié)為搜索所給定的尺寸227,并且接著存儲在合并排名DB 231中。接著,可以用適當(dāng)?shù)母袷匠尸F(xiàn)這些搜索結(jié)果,(如同網(wǎng)絡(luò)搜索引擎一樣)將結(jié)果呈現(xiàn)為鏈接至相應(yīng)文件的活動圖標(biāo)。
本搜索過程允許細(xì)化搜索的簡單形式。即,可以獲得先前搜索的點(diǎn)擊列表,并建立包含所有這些點(diǎn)擊和它們之間的鏈接(相似性鏈接和超鏈接兩方面)的子圖。接著對于這個子圖的新搜索將給出新的結(jié)果—即使輸入的是同樣的關(guān)鍵字—因為鏈接分析將對子圖中的文檔彼此相對進(jìn)行打分??梢匀缦孪笳餍缘乇硎具@個改變對于每個文件,(基于整體圖)的鏈接分析分?jǐn)?shù)LA將由新的鏈接分析分?jǐn)?shù)LA(子)(來自對于點(diǎn)擊所定義的子圖執(zhí)行鏈接分析)來代替。在限制到點(diǎn)擊子圖的任何后續(xù)搜索中,新的點(diǎn)擊根據(jù)下式而被排名W=a(TR)+b(LA(sub))+c(FQS)。
對用戶來說,能夠以這個方式細(xì)化搜索可能是非常有用的。經(jīng)過最初的搜索,用戶可以將后續(xù)搜索限制到受限文檔范圍。這個受限文檔范圍由先前的點(diǎn)擊列表定義,并且因此集中于感興趣的主題。注意,最終這個嘗試可能是非常實用的,因為子圖不是過長以至于不能開始,或者可通過截斷(如,從開始點(diǎn)擊列表起,僅保留最高排名的文檔)由可處理的尺寸組成。因此,再次重申,在本發(fā)明中實際上可以實現(xiàn)實時鏈接分析所支持的細(xì)化搜索。
這完成了搜索進(jìn)程和所涉及的組件的描述(圖2)。圖4顯示了本發(fā)明如何幫助導(dǎo)航。假定用戶具有打開的文件O(圖4中的41),并且希望找到相關(guān)的文件。一個方法—上面已經(jīng)描述過的—是單擊出現(xiàn)在文件的顯示中的任何活動圖標(biāo)(代表被錨定的超鏈接)。然而,可以呈現(xiàn)可從打開的文件O向其跳轉(zhuǎn)的三個其它文件集(i)所有位于從O的出境超鏈接末端的文件;(ii)所有使用入境超鏈接指向O的文件;和(iii)經(jīng)由相似性鏈接連接至O的所有文件。可以在相應(yīng)窗口中呈現(xiàn)這些導(dǎo)航選項的每一個,通過調(diào)用“導(dǎo)航”按鈕而調(diào)出所述窗口。
可從超鏈接DB 47取得通過超鏈接(入或出)連接至O的所有文件。(這是與圖2中編號為211的相同的數(shù)據(jù)庫。)根據(jù)把這些文件連接至O的超鏈接的權(quán)重HLW、根據(jù)它們的FQS值、還根據(jù)它們的鏈接分析分?jǐn)?shù)LA,可以將這些文件進(jìn)行排名(用于導(dǎo)航目的)。從FQS DB 45(圖2中219)取得FQS分?jǐn)?shù),并從LA分?jǐn)?shù)DB 48(圖2中的215)取得LA分?jǐn)?shù)。那么,可以通過下式來定義用于導(dǎo)航的適當(dāng)排名參數(shù)HNW=d(HLW)+e(LA)+f(FQS),其中,‘HNW’代表‘超鏈接鄰居權(quán)重’,而d、e和f為調(diào)整參數(shù)。排名模塊495則執(zhí)行排名操作(基于權(quán)重HNW),并且發(fā)送結(jié)果至被鏈接文件的排名列表DB 497。可以經(jīng)由至用戶的界面,與其FQS值一起,作為活動圖標(biāo)來呈現(xiàn)最終的文件排名列表。因此,用戶可以找到并跳轉(zhuǎn)到指向打開的文件O或由打開的文件O指向的最重要文件。
總是有許多相似性鏈接。然而,它們將被排名,因為相似性分?jǐn)?shù)S(1,2)可能被期望在一個大的范圍上變動。此外,可以期望用戶再次—即在導(dǎo)航以及搜索的上下文中—對文件質(zhì)量以及相似性的量度—例如他/她自己對于這些文件的FQS分?jǐn)?shù)以及來自鏈接分析的分?jǐn)?shù)LA的量度感興趣。因此,可以根據(jù)所有這些分?jǐn)?shù),將相似性鏈接的文件排名。做這件事的簡單方法是,定義從O到文件B的相似性導(dǎo)航權(quán)重SNW為SNW(O,B)=g·S(O,B)+h·LA(B)+m·FQS(B)。
參數(shù)g、h和m也是調(diào)整參數(shù)。
這樣,導(dǎo)航相似性計算機(jī)491從相似性DB 43(圖2中的207)、FQS DB 45(圖2中的219)以及LA分?jǐn)?shù)DB 48(圖2中的215)獲得輸入,并生成用于每個文件B的相似性導(dǎo)航權(quán)重SNW。在本發(fā)明的一個實施例中,通過僅獲得至O的相似性大于某個閾值Smin的那些文件,從相似性DB取得的文件的數(shù)量是受限的。
最后,給定相似性導(dǎo)航權(quán)重SNW,導(dǎo)航相似性計算機(jī)491將相似文件B的最終列表進(jìn)行排名,并且將結(jié)果發(fā)送至相似文件的排名列表DB 493。這個列表再次可以與它們相應(yīng)FQS值一起作為活動圖標(biāo)經(jīng)由界面呈現(xiàn)給用戶。
注意,在本發(fā)明的一個實施例中,導(dǎo)航可被限制到文件的有限域內(nèi),就如搜索那樣。即,用戶可以輸入一個或多個關(guān)鍵字至導(dǎo)航界面。如同用于搜索的那樣,實時使用這些關(guān)鍵字來產(chǎn)生點(diǎn)擊列表。這個點(diǎn)擊列表則定義了主題集中的子圖的節(jié)點(diǎn)。
在細(xì)化的導(dǎo)航的一個實施例中,分?jǐn)?shù)SNW不從它們的完整圖的值改變—但在被排名的導(dǎo)航列表中顯示的文檔僅僅是從主題集中的子圖的節(jié)點(diǎn)獲得的,或者,換句話說,是從由關(guān)鍵字產(chǎn)生的點(diǎn)擊列表處獲得的。
在細(xì)化的導(dǎo)航的另一個實施例中,O的合格鄰居再次限于子圖中的那些文檔;但是對于每個這樣的合格鄰居來說,相對于主題集中的子圖,也獲得鏈接分析分?jǐn)?shù)LA(sub)。通過產(chǎn)生如下的新的鄰居權(quán)重,這些鏈接分析分?jǐn)?shù)則可用于對將呈現(xiàn)給用戶的鏈接文件進(jìn)行排名
對超鏈接鄰居HNW(sub)=d(HLW)+e(LA(sub))+f(FQS),而對相似性鏈接的鄰居SNW(sub)(O,B)=g·S(O,B)+h·LA(sub)(B)+m·FQS(B)。
除單個用戶以外的情景在所有上面描述中,本發(fā)明是用于某一情景的,該情景中單個用戶尋求幫助在個人文件中進(jìn)行搜索和導(dǎo)航。這個情景是普通的,并且具有巨大的未滿足的需要。然而,本發(fā)明也可以應(yīng)用于其他情景。下面在這里討論四個其它的情景,即(i)小的合作組、(ii)網(wǎng)絡(luò)存儲、(iii)企業(yè)搜索以及(iv)實體目標(biāo)。
(i)小組具有計算機(jī)文件的普通情形是這些文件“幾乎”是個人的—即,僅一小組人訪問給定文件集。這個小組中的人差不多總是彼此間多少具有某些關(guān)系—如,工作關(guān)系或家庭關(guān)系—并且因此,所分享的文件集與那個關(guān)系是相關(guān)的。
共享的訪問有兩種形式允許讀取和允許寫入。后者是比前者強(qiáng)的允許(因為具有寫入允許意味著具有讀取允許,但反之并不成立)。因此,對于給定小組來說,定義文件集的明智方法是選擇該小組具有共同讀取允許的集。既然搜索和導(dǎo)航都僅需要讀取允許,這個定義保證了每個組成員可以在共同文件集中搜索和導(dǎo)航。我們稱這個文件集為“組文件”。
當(dāng)然,可以有不止一個這樣的組,所有組都使用共同的文件系統(tǒng)(物理存儲和邏輯路徑名稱結(jié)構(gòu))。則可以有幾個可能相互重疊的組文件集。因此,可考慮一個組和幾個組共享一個共同文件系統(tǒng)這兩種情況。每個組必須具有某種形式的唯一組ID(名稱),我們稱之為其gid。
一個組首先可以考慮文件系統(tǒng)由單個組構(gòu)成的情形。由于組集是由共同的讀取允許定義的,本質(zhì)上可以如同單個用戶那樣實現(xiàn)任何僅涉及讀取文件的進(jìn)程。例如,那些不要求用戶輸入的進(jìn)程—特別地,文件的掃描和分析、倒排索引的建立、相似性分?jǐn)?shù)的產(chǎn)生、FQS的自動更新以及超鏈接的自動生成—均可以如同單個用戶那樣在整個文件集上完成。任何關(guān)鍵字搜索則可以使用整個倒排索引;以及所有文件將在一個公共排名方案中被排名。因此,搜索和導(dǎo)航可以在整個文件系統(tǒng)上自由地實現(xiàn)。
與單個用戶時的景象的差別出現(xiàn)在需要寫入允許的操作上。上述個人搜索引擎的一個實施例具有兩個這樣的操作(除了編輯文件的明顯一個)超鏈接的寫入以及FQS的分配。
超鏈接不是問題,因為它們在本質(zhì)上是不排它的。即,用戶寫入的超鏈接是建議。因此,允許所有具有文件F的寫入允許的用戶設(shè)置從F指向組集中的任意文件的超鏈接是合乎道理的。這與網(wǎng)絡(luò)的情形是一樣的允許建議不能寫入的文件,并且允許在可寫入的文件中設(shè)置指針。
排名算法要求單個FQS;但是可以假定每個具有寫入允許的用戶可以具有至FQS的輸入。許多解決方案可用于從幾個輸入中產(chǎn)生合成FQS。一個解決方案是對于每個文件,對每個具有寫入允許的用戶存儲一個FQS—對那些沒有給出輸入的用戶,存儲機(jī)器確定的值—并且接著對它們?nèi)∑骄?br>
圖5顯示了單個小組的景象。整個組51通過具有共同讀取允許來定義。在本發(fā)明的一個實施例中,讀取允許則限定在搜索或?qū)Ш秸埱笾袑ふ椅募脑试S和用超鏈接指向該文件的允許。每個用戶將還具有對于組文件51的某個子集53的寫入允許。對用戶具有寫入允許的那些文件,他/她可以設(shè)置從這些文件指向的超鏈接,并且也可以改變用于這些文件FQS值。
最后,在本發(fā)明的一個可選實施例中,具有讀取允許的所有用戶可以為一個給定文件提交FQS值。
總之,將上述個人網(wǎng)絡(luò)搜索引擎的實施例擴(kuò)展到具有少數(shù)用戶的組的情況沒有任何重大的問題。
幾個組現(xiàn)在,可以假定有幾個組共享單個文件系統(tǒng)??梢约俣ńM成員的列表如同組文件集那樣可以重疊。然而,在這個部分的主旨里,可以假定沒有非常多的組,用戶總數(shù)也不是非常多。
像前面一樣,可以為整個文件集完成倒排索引和相似性數(shù)據(jù)庫—用附加的存儲要求,對于每個文件來說,就是具有那個文件的讀取允許的組的gid的存儲要求。舉例說來,該倒排索引可具有表格的表目關(guān)鍵字 filel gidl,gid2,......
file2 gid5,gid7,......
而相似性數(shù)據(jù)庫可具有表格的表目filel gidl,gid2,...... file2 gid5,gid7,......simscore(1,2)。
(對單個組來說,可通過去除所有g(shù)id表目來描繪同樣的數(shù)據(jù)庫。)通過這個數(shù)據(jù)庫結(jié)構(gòu),關(guān)鍵字搜索總是可以包括暗含的要求,即,除了關(guān)鍵字,對于將要包括的文件,必須存在搜索者的至少一個gid。因此,用戶只可以搜索那些他/她具有讀取允許的文件(即,只從那些他/她具有讀取允許的文件看點(diǎn)擊)。
相似的聲明對導(dǎo)航也適用。尋求導(dǎo)航幫助的用戶將只看到至那些他/她具有讀取允許的文件的鏈接(超鏈接和相似性鏈接—作為活動圖標(biāo)呈現(xiàn))。
涉及寫入允許的操作本質(zhì)上與用于一個組的情形相像。換句話說,關(guān)于超鏈接的設(shè)置,允許建議可讀但不可寫的文件,并且允許在可讀的文件中設(shè)置指針。而且,可以用與用于一個組的情形一樣的方法來處理FQS。
最后,看看文件排名的問題。在一個用戶的情形下,使用文本相關(guān)性、鏈接分析和FQS,在彼此比較所有文件的基礎(chǔ)上進(jìn)行排名。無論是否有一個用戶或許多用戶和組,文本相關(guān)性都是一樣的;并且,先前的段落已討論了怎樣處理FQS。然而,對于鏈接分析來說,情形要更復(fù)雜。因為組可以重疊且用戶可以屬于不止一個的組,故對某些用戶來說,可能會出現(xiàn)從用戶U可讀的文件指向U不可讀的文件的超鏈接。類似地,相似性網(wǎng)絡(luò)跨越所有的組。簡而言之,不同組的不同子圖將通過鏈接相連。此外,鏈接分析給出依賴于整體圖的特性的結(jié)果。則問題是,相對于用戶U的搜索,選擇哪個‘整體圖’(即從整個圖中獲得的哪個子圖)作為鏈接分析的起始點(diǎn)。
改述該問題每個用戶U想要對文件排名。如果排名是基于附屬于每個文檔的單個FQS類分?jǐn)?shù),則文件A和文件B的相對排名將與什么其他文件被包括在排名列表中無關(guān)。然而,因為鏈接分析的本性,改變圖的拓?fù)洹缤ㄟ^改變存在的文件和鏈接—可以改變?nèi)魏蝺蓚€給定文件A和B的相對排名。因此,必定會問這樣的問題,對每個用戶U來說,哪個是將被用于產(chǎn)生鏈接分析權(quán)重LA的文件的‘參考集’?下面討論三個可能的答案1.使用整體圖,即,基于共同文件系統(tǒng)中的每個文件。
2.選擇被刪節(jié)的圖,該圖是根據(jù)單個組對其具有讀取允許的所有文件建立的。
3.選擇被刪節(jié)的圖,該圖是根據(jù)從用戶U是具有讀取允許的成員的所有組獲得的所有文件建立的。
圖6顯示了選擇2和3。在這個圖中,三個組(G1、G2和G3)共享文件;并且,用戶U是G1和G3的成員。圖6的左側(cè)面61顯示了選擇2子圖是根據(jù)組G1對其具有讀取允許的所有文件(陰影)建立的。在圖6的右側(cè)面63上,U對其具有讀取允許的所有文件(即,組G1和G3中的文件)被打上陰影;這些文件用于為用戶U產(chǎn)生子圖。
圖7中顯示了刪節(jié)圖的過程。假如希望僅從圖7的左側(cè)面71中的陰影節(jié)點(diǎn)建立子圖;則白色節(jié)點(diǎn)以及所有連接至白色節(jié)點(diǎn)的鏈接都必須被去除。圖7的右側(cè)面73中顯示了結(jié)果只有陰影節(jié)點(diǎn)以及連接它們的鏈接被保留在刪節(jié)的圖中。為了說明,可以想像選擇3正被使用—那么白色文件就是U不具有讀取允許的那些文件,而U對于陰影文件具有讀取允許。
選擇3看起來建議為每個用戶建立一個子圖。實際上是對于某用戶為其成員之一的組的每個組合建立一個子圖。通常,不止一個用戶將具有組的相同組合;同樣,通常也有許多代表沒有用戶的組的組合。因此,一般而言,由選擇3所限定的子圖的數(shù)目將小于用戶的總數(shù),或可能的組的組合的總數(shù)。
下面是對每個選擇的明顯優(yōu)點(diǎn)和缺點(diǎn)的討論。
選擇1的優(yōu)點(diǎn)是,每個節(jié)點(diǎn)具有單個唯一的鏈接分析權(quán)重LA,該權(quán)重是從整體圖的鏈接分析中獲得的。這減少了計算負(fù)擔(dān)和鏈接分析的數(shù)據(jù)存儲要求。此外,如上所述,可以實現(xiàn)“點(diǎn)擊濾波器”,以使由搜索和導(dǎo)航詢問產(chǎn)生的點(diǎn)擊列表僅顯示用戶U可能讀取的那些文件。
另一方面,如果用戶U僅僅具有相對于總數(shù)而言少量文件的讀取訪問,則這個用戶可能將獲得令人不滿意的排名結(jié)果—所有他/她可以看到的文件將接收相對于巨大的(對U)不可見文件集而計算的鏈接分析權(quán)重LA。因此,對這個情況來說—如果有非常多的大體相同尺寸的組(根據(jù)文件的數(shù)量),或者如果組的尺寸大不相同,則可能出現(xiàn)這種情況—選擇1似乎是不合需要的。前者的情形通過假設(shè)而被排除了—在這個部分,可以假設(shè)小的組數(shù)目。然而,即使組或用戶的數(shù)目很小,也可能出現(xiàn)一些用戶僅僅具有總文件集的一小部分的讀取訪問;并且,在這樣的情形下,選擇1對這樣的用戶來說可能是令人不滿意的。
選擇3要求幾個鏈接分析計算—一個用于代表某個用戶的組的每個組合。因此,選擇3的計算和存儲負(fù)擔(dān)大于選擇1。然而,選擇3和選擇1避免了計算用于對每個搜索進(jìn)行排名的鏈接分析的負(fù)擔(dān)。代替的是,無論何時在文件集中和/或相關(guān)子圖的鏈接中出現(xiàn)改變,都可以更新LA分?jǐn)?shù)。而且,如果沒有許多用戶,就沒有許多必須進(jìn)行鏈接分析計算的組的組合。
選擇3的優(yōu)點(diǎn)是每個用戶獲得一個排名,該排名考慮那個用戶所能看到的唯一和所有文件。對多數(shù)搜索來說,這可能是個希望要的特點(diǎn)。因此,只要有支持選擇3的足夠計算和存儲能力,選擇3很可能是個好選擇。
也可以想像選擇2具有優(yōu)勢的情形。例如,假設(shè)用戶U具有位于相同文件系統(tǒng)上的與家庭和工作都相關(guān)的文件和組;用戶可以想出的關(guān)鍵字給予在家庭組和一個或多個工作組中都可以找到的文件;以及U僅僅想要搜索與家庭相關(guān)的文件。在這個情形下,通過僅指定家庭組—即,通過使用選擇2來縮小搜索可能是容易和有效的。因此,可以看到(也見圖6),選擇2提供了集中搜索的新途徑。
(ii)網(wǎng)絡(luò)存儲現(xiàn)在可以考慮正被討論的個人文件沒有存儲在單個個人PC上的情形。而是它們由這種服務(wù)的商業(yè)提供商存儲?,F(xiàn)存的例子是門戶網(wǎng)站例如Yahoo,或搜索提供商例如Google。這些公司當(dāng)前僅僅提供郵件文件的存儲;但由此向提供所有種類個人文件的存儲僅是一小步。這個種類的存儲被稱為‘網(wǎng)絡(luò)存儲’。
網(wǎng)絡(luò)存儲的一個優(yōu)點(diǎn)是可靠的備份。另一個優(yōu)點(diǎn)是可以在世界上任何具有因特網(wǎng)連接的地方訪問這樣的文件。而且,使用網(wǎng)絡(luò)存儲容易創(chuàng)建幾種先前部分中所描述的小組共享。舉例說來,家庭可以存儲相簿,該相簿隨后對所定義的家庭組的任何成員來說都是可訪問的,無論他們是來自幾個家庭的哪一個,并且,該相簿對旅行中的家庭成員也是可訪問的。
因此,個人文件的網(wǎng)絡(luò)存儲允許較高的移動性—內(nèi)容不固定于單個硬盤—更確切地說,無論何時、無論何地,只要用戶具有網(wǎng)絡(luò)訪問,則這些用戶都可獲得所述內(nèi)容。在這點(diǎn)上講,文件的網(wǎng)絡(luò)存儲與移動電話類似(對內(nèi)容來說)連接與用戶在一起,不是與設(shè)備。并且,實際上,這啟發(fā)我們在對網(wǎng)絡(luò)上存儲的個人文件使用本發(fā)明時,本發(fā)明的有希望的用途對這些文件的訪問,包括對它們的搜索和導(dǎo)航服務(wù),可以使用適當(dāng)?shù)慕涌诮?jīng)由移動電話或裝備無線局域網(wǎng)的設(shè)備來實現(xiàn)。
網(wǎng)絡(luò)存儲的再一個優(yōu)點(diǎn)是,存儲提供商可以提供輔助服務(wù)—例如,本發(fā)明中所描述的搜索和導(dǎo)航服務(wù)給用戶。這將用戶從當(dāng)前他/她必須等待由Microsoft來引入期望特征的近乎壟斷的境遇中解脫出來。此外,用戶可以用無需費(fèi)力的方式來利用這樣的新服務(wù),而不必購買和學(xué)習(xí)全新的操作系統(tǒng)—并且,不會面臨新的壟斷。
下面說明使用本發(fā)明的思想,通過個人文件的網(wǎng)絡(luò)存儲來解決提供搜索和導(dǎo)航所涉及的技術(shù)考慮。這里,強(qiáng)調(diào)的主要點(diǎn)是,所有先前的技術(shù)考慮本質(zhì)上不依賴于文件被物理存儲的位置。因此,可以認(rèn)為,這個部分中迄今所描述的搜索和導(dǎo)航技術(shù)—單個用戶的情形和小組的情形—適用于網(wǎng)絡(luò)存儲以及單個PC上的存儲。
可以看到,對于搜索和導(dǎo)航來說,網(wǎng)絡(luò)存儲至少有一個技術(shù)優(yōu)點(diǎn)優(yōu)于個人PC存儲。即,在前者的情形中,可以期望實現(xiàn)規(guī)模經(jīng)濟(jì)。舉例說來,用于文本相關(guān)性分析、相似性計算以及鏈接分析的軟件不再需要在每個PC上存在。而且,對于單個PC來說,涉及的數(shù)據(jù)庫可以超乎想像的大;和/或在單個的集中安裝處可以有更有效的辦法來存儲許多這樣的個人數(shù)據(jù)庫。
圖像文件是網(wǎng)絡(luò)存儲的最有可能的應(yīng)用之一。圖像文件是巨大的;用戶對大量的圖像文件都具有強(qiáng)烈的愿望;并且,對于用于幫助用戶組織、尋找和導(dǎo)航這些文件的好的管理工具具有清晰的需求。因此,這里簡要地討論一下圖像文件。需要注意的是,多數(shù)下面的討論也適于其它種類的非文本文件,例如視頻或音樂文件;但是,為簡短起見,下面僅討論圖像。
先前所有的討論都針對文本或基于文本的文件。特別地,本發(fā)明中的搜索是由關(guān)鍵字和倒排索引來引導(dǎo)的。因此,只有當(dāng)圖像文件具有文本形式(或至少可以被分析器識別為文本)的元數(shù)據(jù)時,本發(fā)明才適用于這些圖像文件。這看起來像是現(xiàn)存的用于搜索圖像文件的系統(tǒng)所共有的限制。
未來的技術(shù)可能被期望提供下列進(jìn)步中的一個或兩個(i)用于為用戶改善寫入圖像文件的元數(shù)據(jù)的容易度的軟件;或(ii)用于通過圖像的機(jī)器分析來自動寫入元數(shù)據(jù)的軟件。第一個改善無疑正在進(jìn)行。與第二個相似的進(jìn)步最近也在進(jìn)行,StreamSage正使用機(jī)器聲音分析來從視頻文件中產(chǎn)生文本。圖像的機(jī)器分析是個更困難的問題,它被期望以較慢速度向前發(fā)展。
簡而言之,只要用戶以文字形式進(jìn)行輸入,圖像文件(以及其它種類的非本文文件,例如視頻和音樂文件)的搜索將依賴于元數(shù)據(jù)。本發(fā)明因此依賴于某組件—交互式界面,或更復(fù)雜的方法—來提供用于圖像的元數(shù)據(jù)。給定元數(shù)據(jù),則建立倒排索引和相似性網(wǎng)絡(luò)是水到渠成的。
本發(fā)明的兩個其它方面與所涉及的文件性質(zhì)無關(guān)。首先,F(xiàn)QS的使用與文件性質(zhì)無關(guān);因此,對圖像文件可以像對任何其它文件一樣來使用FQS。其次,用戶可以設(shè)置來自圖像文件和指向圖像文件的超鏈接。然而,當(dāng)只有文本是元數(shù)據(jù)時,打算將超鏈接錨定于相關(guān)文本可能是沒有用的。
總之,假定一個提供元數(shù)據(jù)的機(jī)制,圖像(及其它非文本)文件仍然可以與相似性鏈接、手動和/或自動超鏈接以及文件質(zhì)量分?jǐn)?shù)一起被合并到這里所描述的混合個人網(wǎng)絡(luò)中,以幫助搜索和導(dǎo)航。還要注意,不必為非文本文件建立一個單獨(dú)的網(wǎng)絡(luò)只要具有用于非文本文件的有意義的元數(shù)據(jù)—即使只是幾個文字—仍然可以在與所有其它相似性分?jǐn)?shù)相同的尺度上計算有用的相似性分?jǐn)?shù)。
(iii)企業(yè)搜索到目前為止,本發(fā)明已經(jīng)有關(guān)私人用戶或小組進(jìn)行了討論。然而,企業(yè)搜索與這些先前討論的情況有許多共同之處。因此,為方便起見,這里必須考慮在企業(yè)搜索的上下文中使用本發(fā)明的可能性。因此,如同上面討論的較小且較受限的組的情形一樣,可以集中于公司的所有成員都可讀的文檔集(大概很大)。
企業(yè)的搜索環(huán)境與網(wǎng)絡(luò)相似之處在于,(如果不是大部分則對于許多文件來說),有許多用戶具有讀取允許,但仍只有相對較少的用戶具有寫入允許。邏輯上則看起來,條件適合于用戶寫入(建議)的超鏈接的應(yīng)用;許多用戶,每個能夠評論(建議)許多文件。而且,如同網(wǎng)絡(luò)的情形一樣,不是所有的文件對所有用戶都可讀,但許多文件是可讀的。
看起來網(wǎng)絡(luò)搜索與企業(yè)搜索之間的主要區(qū)別是這些許多用戶的動機(jī)。即,網(wǎng)頁的撰寫者有設(shè)置超鏈接的動力,并且不僅僅是對他們自己的頁面;然而,對企業(yè)來說,不十分清楚文檔的撰寫者具有同樣的動力。然而,不給這些用戶自己設(shè)置超鏈接的機(jī)會就難以回答這個問題。
如果這個景象是正確的,那么本發(fā)明中所描述的混合網(wǎng)絡(luò)可以提供一個極好的途徑來溝通從非共享企業(yè)搜索到共享企業(yè)搜索的轉(zhuǎn)換。由相似性網(wǎng)絡(luò)、自動生成的超鏈接和用戶寫入的超鏈接引導(dǎo)的搜索和導(dǎo)航系統(tǒng)允許輕松啟動—因為相似性鏈接和自動超鏈接已經(jīng)在搜索(排名)和導(dǎo)航中提供了大量的幫助。使用這個系統(tǒng)的用戶也可以認(rèn)識到他們向自己覺得有價值的文件設(shè)置超鏈接是有益的。照這樣,令人信服地,可以逐漸建立起設(shè)置超鏈接的強(qiáng)烈參與意識,而相似性鏈接提供啟動進(jìn)程的基礎(chǔ)。
在這個景象中,F(xiàn)QS的使用看起來也像是不必要的。而且,在這個許多用戶、很少寫入但很多讀取的環(huán)境中,F(xiàn)QS具有缺點(diǎn)例如,誰開始對給定文件評分?以及怎樣避免支持其自身文件的“非索要信息”分?jǐn)?shù)?當(dāng)從邏輯上講不可能使用超鏈接來完全執(zhí)行建議功能時,F(xiàn)QS是有用和必要的。在企業(yè)搜索的情形下,該邏輯對超鏈接來說是正確的;為他們建立使用文化才真是個問題。超鏈接自身為用戶提供了分散的、民主的、共享的途徑來表達(dá)他們的建議—并且,超鏈接還具有強(qiáng)迫用戶在指示文件的上下文中放置建議的優(yōu)點(diǎn)。
(iv)實體目標(biāo)本發(fā)明的另一個應(yīng)用是支持對一組實體目標(biāo)進(jìn)行搜索和導(dǎo)航。
這個思想的基礎(chǔ)如下。諸如RFID(射頻識別)標(biāo)簽的技術(shù)允許大量的實體目標(biāo)被用電子可讀元數(shù)據(jù)加標(biāo)簽。讀取這樣的元數(shù)據(jù)給出實體目標(biāo)收集的數(shù)字表示。因此,可以將本發(fā)明應(yīng)用于在這個收集中進(jìn)行搜索,這在很大程度上與上文討論的非文本文件(例如圖像)的情形一樣??梢允褂没旌暇W(wǎng)絡(luò)的所有特點(diǎn)相似性網(wǎng)絡(luò)、代表建議的超鏈接以及每個目標(biāo)的質(zhì)量分?jǐn)?shù)。最終的混合網(wǎng)絡(luò)可以用于如上所述的搜索和導(dǎo)航。
作為一個說明的例子,考慮以零售方式出售葡萄酒的商店的情形。當(dāng)出現(xiàn)一個客戶請求—客戶正在面對不止一個可能葡萄酒時—商店職員可以使用這里描述的搜索引擎來調(diào)出與客戶標(biāo)準(zhǔn)相匹配的葡萄酒的排名列表。該排名可以基于“文本相關(guān)性”(與該客戶的要求相匹配的程度)、鏈接分析以及質(zhì)量分?jǐn)?shù)。鏈接分析可以合并兩種類型的鏈接相似性鏈接(使用元數(shù)據(jù)產(chǎn)生)和超鏈接。后者再次代表建議并且可以由學(xué)識淵博的人來設(shè)置,對這些人來說,給他們葡萄酒(或伴隨的碟子),就能夠建議其它的也可能同樣感興趣的葡萄酒。
最后,在這個上下文中,導(dǎo)航也是可能的。給定一個目標(biāo)(一類葡萄酒),個人可能對有關(guān)其它葡萄酒的信息感興趣,而那些葡萄酒正是通過相似性或建議與給定的葡萄酒有關(guān)。
圖8示出可以實現(xiàn)本發(fā)明實施例的計算機(jī)系統(tǒng)1201。在通過參考已經(jīng)全文并入本文的STALLINGS,W.,Computer Organization andArchitecture,4th ed.,Upper Saddle River,NJ,Prentice Hall,1996中,詳細(xì)討論了計算機(jī)設(shè)計。所述計算機(jī)系統(tǒng)1201包括總線1202或用于傳輸信息的其它通信機(jī)制、和與總線1202耦合以便處理信息的處理器1203。計算機(jī)系統(tǒng)1201還包括耦合至總線1202的主存儲器1204,例如隨機(jī)存取存儲器(RAM)或其它動態(tài)存儲設(shè)備(例如動態(tài)RAM(DRAM)、靜態(tài)RAM(SRAM)和同步DRAM(SDRAM)),用于存儲信息和將由處理器1203執(zhí)行的指令。此外,主存儲器1204可以用于在由處理器1203執(zhí)行指令期間存儲臨時變量或其它中間信息。計算機(jī)系統(tǒng)1201另外包括耦合至總線1202的只讀存儲器(ROM)1205或其它靜態(tài)存儲設(shè)備(例如可編程ROM(PROM)、可擦寫PROM(EPROM)和可電擦寫PROM(EEPROM)),用于存儲靜態(tài)信息和處理器1203的指令。
計算機(jī)系統(tǒng)1201還包括耦合至總線1202的盤控制器1206,以控制用于存儲信息和指令的一個或多個例如磁硬盤1207的存儲設(shè)備,和可拆卸介質(zhì)驅(qū)動1208(例如,軟盤驅(qū)動、只讀CD驅(qū)動、讀/寫CD驅(qū)動、CD自動電唱機(jī)、磁帶驅(qū)動和可拆卸磁-光驅(qū)動)。使用合適的設(shè)備接口(例如,小型計算機(jī)系統(tǒng)接口(SCSI)、集成設(shè)備電子器件(IDE)、增強(qiáng)型IDE(E-IDE)、直接存儲器存取(DMA)或超DMA),可以將存儲設(shè)備添加至計算機(jī)系統(tǒng)1201。
計算機(jī)系統(tǒng)1201還可以包括特殊目的邏輯設(shè)備(例如特殊應(yīng)用集成電路(ASIC))或可配置邏輯設(shè)備(例如簡單可編程邏輯設(shè)備(SPLD)、復(fù)雜可編程邏輯設(shè)備(CPLD)和現(xiàn)場可編程柵陣列(FPGA))。
計算機(jī)系統(tǒng)1201還可以包括耦合至總線1202的顯示控制器1209,以控制例如陰極射線管(CRT)、用于向計算機(jī)用戶顯示信息的顯示器1210。所述計算機(jī)系統(tǒng)包括輸入設(shè)備,例如鍵盤1211和指示設(shè)備1212,用于與計算機(jī)用戶交互并向處理器1203提供信息。所述指示設(shè)備1212可以是鼠標(biāo)、操縱桿或指示棒,用于向處理器1203傳輸方向信息和命令選擇,并用于控制顯示器1210上的光標(biāo)移動。此外,打印機(jī)可以提供計算機(jī)系統(tǒng)1201所存儲和/或生成的數(shù)據(jù)的打印列表。
計算機(jī)系統(tǒng)1201響應(yīng)于執(zhí)行包含在例如主存儲器1204的存儲器中的一個或多個指令的一個或多個序列的處理器1203,執(zhí)行本發(fā)明的部分或全部處理步驟??梢詫⑺鲋噶顝闹T如硬盤1207或可拆卸介質(zhì)驅(qū)動1208的另一計算機(jī)可讀介質(zhì)讀入主存儲器1204中。也可以采用多處理設(shè)置中的一個或多個處理器來執(zhí)行包含在主存儲器1204中的指令序列。在可替換的實施例中,可以使用硬布線電路來代替軟件指令或與軟件指令結(jié)合。因此,實施例不限于硬件電路和軟件的任何特殊組合。
如上所述,計算機(jī)系統(tǒng)1201包括至少一個計算機(jī)可讀介質(zhì)或存儲器,用于保存根據(jù)本發(fā)明的教導(dǎo)編程的指令,和用于包含數(shù)據(jù)結(jié)構(gòu)、表格、記錄或這里所述的其它數(shù)據(jù)。計算機(jī)可讀介質(zhì)的例子是CD、硬盤、軟盤、磁帶、磁-光盤、PROM(EPROM、EEPROM、閃EPROM)、DRAM、SRAM、SDRAIVI,或任何其它磁介質(zhì)、CD(例如CD-ROM),或任何其它光學(xué)介質(zhì)、穿孔卡片、紙帶,或其它具有孔圖案的物理介質(zhì)、載波(如下述),或任何其它計算機(jī)可以對其讀取的介質(zhì)。
存儲在計算機(jī)可讀介質(zhì)的任何一個或組合上,本發(fā)明包括軟件,用于控制計算機(jī)系統(tǒng)1201、用于驅(qū)動一個或多個設(shè)備以實現(xiàn)本發(fā)明和用于使計算機(jī)系統(tǒng)1201能夠與人類用戶(例如打印生成人員)進(jìn)行交互。所述軟件可以包括但不限于設(shè)備驅(qū)動器、操作系統(tǒng)、開發(fā)工具和應(yīng)用軟件。所述計算機(jī)可讀介質(zhì)還包括本發(fā)明的計算機(jī)程序產(chǎn)品,用于執(zhí)行實現(xiàn)本發(fā)明所執(zhí)行的所有和部分(如果處理被分配的話)處理。
本發(fā)明的計算機(jī)代碼設(shè)備可以是任何可譯或可執(zhí)行的代碼機(jī)制,包括但不限于腳本、可解釋程序、動態(tài)鏈接庫(DLL)、Java class和全部可執(zhí)行程序。此外,為了更好的性能、可靠性和/或更低的成本,可以對本發(fā)明處理的各部分進(jìn)行分配。
這里所用的術(shù)語“計算機(jī)可讀介質(zhì)”是指任何參與向處理器1203提供用于執(zhí)行的指令的介質(zhì)。計算機(jī)可讀介質(zhì)可以采取許多形式,包括但不限于非易失性介質(zhì)、易失性介質(zhì)和傳輸介質(zhì)。非易失性介質(zhì)包括例如光、磁盤和磁-光盤,例如硬盤1207或可拆卸介質(zhì)驅(qū)動1208。易失性介質(zhì)包括動態(tài)介質(zhì),例如主存儲器1204。傳輸介質(zhì)包括同軸電纜、銅線和光纖,包括構(gòu)成總線1202的線。傳輸介質(zhì)還可以采取聲波或光波的形式,例如那些在無線電波和紅外數(shù)據(jù)通信期間所生成的。
計算機(jī)可讀介質(zhì)的各種形式用于將一個或多個指令的一個或多個序列發(fā)送至處理器1203以供執(zhí)行。例如,可以最初將指令裝載在遠(yuǎn)程計算機(jī)的磁盤上。遠(yuǎn)程計算機(jī)可以將用于實現(xiàn)本發(fā)明的部分或全部的指令遠(yuǎn)程裝載入動態(tài)存儲器中并使用調(diào)制解調(diào)器在電話線上發(fā)送指令。計算機(jī)系統(tǒng)1201本地的調(diào)制解調(diào)器可以接收電話線上的數(shù)據(jù)并使用紅外發(fā)送器將數(shù)據(jù)轉(zhuǎn)換為紅外信號。耦合至總線1202的紅外檢測器可以接收在紅外信號中承載數(shù)據(jù)并將數(shù)據(jù)放在總線1202上。總線1202將數(shù)據(jù)裝載至主存儲器1204,處理器1203從該主存儲器1204檢索并執(zhí)行指令。在由處理器1203執(zhí)行之前或之后,可以有選擇地將由主存儲器1204接收的指令存儲在存儲設(shè)備1207或1208上。
計算機(jī)系統(tǒng)1201還包括耦合至總線1202的通信接口1213。通信接口1213提供耦合至網(wǎng)絡(luò)鏈接1214的雙向數(shù)據(jù)通信,網(wǎng)絡(luò)鏈接1214連接至例如局域網(wǎng)(LAN)1215或例如因特網(wǎng)的其它通信接口1213。例如,通信接口1213可以是網(wǎng)絡(luò)接口卡,以附于任何分組切換LAN。作為另一個例子,通信接口1213可以是非對稱數(shù)字用戶線路(ADSL)卡、集成服務(wù)數(shù)字網(wǎng)絡(luò)(ISDN)卡或調(diào)制解調(diào)器,以向相應(yīng)類型的通信線路提供數(shù)據(jù)通信連接。還可以實現(xiàn)無線鏈接。在任何一個這樣的實現(xiàn)中,通信接口1213發(fā)送和接收電、電磁或光信號,該信號載有表示各種類型信息的數(shù)字?jǐn)?shù)據(jù)流。
典型地,網(wǎng)絡(luò)鏈接1214通過一個或多個網(wǎng)絡(luò)向其它數(shù)據(jù)設(shè)備提供數(shù)據(jù)通信。例如,網(wǎng)絡(luò)鏈接1214可以通過本地網(wǎng)絡(luò)1215(例如LAN)或通過由通過通信網(wǎng)絡(luò)1216提供通信服務(wù)的服務(wù)提供者操作的設(shè)備來提供與另一臺計算機(jī)的連接。本地網(wǎng)絡(luò)1214和通信網(wǎng)絡(luò)1216使用例如載有數(shù)字?jǐn)?shù)據(jù)流的電、電磁或光信號和相關(guān)的物理層(例如CAT5電纜、同軸電纜、光纖等)。載有到和來自計算機(jī)系統(tǒng)1210的數(shù)字?jǐn)?shù)據(jù)的經(jīng)過各種網(wǎng)絡(luò)的信號和網(wǎng)絡(luò)鏈接1214上和經(jīng)過通信接口1213的信號可以以基帶信號或基于載波的信號來實現(xiàn)。所述基帶信號將數(shù)字?jǐn)?shù)據(jù)作為未調(diào)制的電脈沖傳送,其表示數(shù)字?jǐn)?shù)據(jù)比特流,其中術(shù)語“比特”廣義指符號,其中每個符號運(yùn)載至少一個或多個信息比特。數(shù)字?jǐn)?shù)據(jù)也可用于調(diào)制載波,例如利用幅度、相位和/或頻移鍵控信號,其在傳導(dǎo)介質(zhì)上傳播,或經(jīng)過傳播介質(zhì)作為電磁波傳輸。因此,可以經(jīng)過“有線”通信通道將數(shù)字?jǐn)?shù)據(jù)作為未調(diào)制基帶數(shù)據(jù)發(fā)送,和/或通過調(diào)制載波在不同于基帶的預(yù)定頻帶內(nèi)發(fā)送。計算機(jī)系統(tǒng)1201可以通過網(wǎng)絡(luò)1215和1216、網(wǎng)絡(luò)鏈接1214和通信接口1213傳輸和接收包括程序代碼的數(shù)據(jù)。而且,網(wǎng)絡(luò)鏈接1214可以經(jīng)過LAN 1215提供與例如個人數(shù)字助理(PDA)、膝上電腦或蜂窩電話的移動設(shè)備1217的連接。
在個人PC、存儲在網(wǎng)絡(luò)上的個人內(nèi)容或公司文檔系統(tǒng)上成功地實現(xiàn)本發(fā)明使得用戶以與在萬維網(wǎng)上進(jìn)行查找和導(dǎo)航可比的方式,更加有效地搜索相關(guān)文檔。在當(dāng)前缺少鏈接結(jié)構(gòu)的任何環(huán)境中,本發(fā)明將橋接建立塊表示為基于鏈接分析的排名的完全利用,以及基于鏈接的導(dǎo)航。
本發(fā)明還可應(yīng)用于個人內(nèi)容的分布式(網(wǎng)絡(luò))存儲。想象這樣一種網(wǎng)絡(luò)存儲器,用戶可以從任何類型終端對其進(jìn)行訪問,并且網(wǎng)絡(luò)操作者可以對其進(jìn)行管理和備份。用戶可以將他/她的所有內(nèi)容(照片、文檔、演示、視頻、MP3等)上載至該網(wǎng)絡(luò)存儲器。本發(fā)明表示了在實現(xiàn)使用基于鏈接分析的排名來搜索網(wǎng)絡(luò)存儲器中的用戶內(nèi)容的搜索和導(dǎo)航應(yīng)用中的關(guān)鍵因素。本發(fā)明還可以提供一種新的而且明顯更好的方法來進(jìn)行企業(yè)搜索。
根據(jù)上述教導(dǎo),本發(fā)明的各種修改和變化都是可能。因此,可以明了的是,在所附的權(quán)利要求的范圍內(nèi),除非有特殊說明否則可以實現(xiàn)本發(fā)明。
權(quán)利要求
1.一種用于搜索存儲在計算環(huán)境中的電子材料的方法,包括基于相似性,確定至少兩個文檔之間的不定向加權(quán)鏈接;確定所述至少兩個文檔之間的定向加權(quán)鏈接;以及計算所述至少兩個文檔的每一個的權(quán)重。
2.如權(quán)利要求1所述的方法,進(jìn)一步包括經(jīng)由鏈接分析、文本相關(guān)性分析和文件質(zhì)量分析中的至少一個,來計分所述至少兩個文檔的每一個。
3.如權(quán)利要求2所述的方法,其中,所述鏈接分析基于混合網(wǎng)絡(luò),所述混合網(wǎng)絡(luò)包括文檔之間的兩種鏈接,即,定向鏈接和不定向鏈接。
4.如權(quán)利要求3所述的方法,進(jìn)一步包括建立第一文檔和第二文檔之間的超鏈接,其中,所述建立超鏈接的步驟包括下列之一在所述第一文檔和第二文檔之一的文本內(nèi)錨定所述超鏈接,用未錨定的超鏈接來鏈接所述第一文檔和第二文檔,其中,所述建立超鏈接的步驟還包括下列之一經(jīng)由輸入終端輸入所述超鏈接,和自動建立所述超鏈接。
5.如權(quán)利要求4所述的方法,其中,所述定向加權(quán)鏈接可能被或可能不被錨定于指示文檔或被指示文檔上的文本。
6.如權(quán)利要求4所述的方法,進(jìn)一步包括在鏈接結(jié)構(gòu)數(shù)據(jù)庫中存儲超鏈接信息(指向文件、被指向文件、超鏈接權(quán)重和錨定文本)。
7.如權(quán)利要求3所述的方法,進(jìn)一步包括執(zhí)行前進(jìn)和反向鏈接分析中的至少一個。
8.如權(quán)利要求3所述的方法,進(jìn)一步包括扒一個文件系統(tǒng);掃描所述文件系統(tǒng)內(nèi)的文件的文本;和建立倒排索引。
9.如權(quán)利要求8所述的方法,進(jìn)一步包括成對地比較文檔;和獲得相似性分?jǐn)?shù)。
10.如權(quán)利要求9所述的方法,進(jìn)一步包括在相似性分?jǐn)?shù)數(shù)據(jù)庫中存儲所述相似性分?jǐn)?shù)。
11.如權(quán)利要求9所述的方法,其中,所述成對地比較文檔的步驟包括計數(shù)文字w在文件f中出現(xiàn)的次數(shù)Nf(w);以及Nf(w)除以文檔中的文字總數(shù)Nf以獲得文檔f的輪廓nf(w)。
12.如權(quán)利要求11所述的方法,其中,所述獲得相似性分?jǐn)?shù)的步驟包括如下計算第一文檔和第二文檔之間的相似性S(1,2)S(1,2)=KΣwn1(w)n2(w)]]>其中,K是一個調(diào)整參數(shù)。
13.如權(quán)利要求12所述的方法,進(jìn)一步包括建立最小相似性量度δ>0,使得當(dāng)KΣwn1(w)n2(w)<δ]]>時,S(1,2)=δ。
14.如權(quán)利要求2所述的方法,其中,所述文本分析包括基于與一組關(guān)鍵字的相關(guān)性來計分文檔。
15.如權(quán)利要求2所述的方法,其中,所述文件質(zhì)量分析包括給文件質(zhì)量分?jǐn)?shù)分配缺省值。
16.如權(quán)利要求15所述的方法,進(jìn)一步包括自動地或手動地調(diào)整所述文件質(zhì)量分?jǐn)?shù)。
17.如權(quán)利要求16所述的方法,其中,所述調(diào)整步驟包括確定文件被最后打開或編輯的時間;和向最近被打開或編輯的文件分配較高的文件質(zhì)量分?jǐn)?shù)。
18.如權(quán)利要求16所述的方法,其中,所述調(diào)整步驟進(jìn)一步包括將在一段時間內(nèi)文件被打開或編輯的次數(shù)記錄在日志內(nèi);和向被頻繁打開或編輯的文件分配較高的文件質(zhì)量分?jǐn)?shù)。
19.如權(quán)利要求2所述的方法,進(jìn)一步包括將關(guān)鍵字輸入搜索界面中;把所述關(guān)鍵字送入點(diǎn)擊列表產(chǎn)生器;以及輸出相同點(diǎn)擊的點(diǎn)擊列表,伴隨有文本相關(guān)性分?jǐn)?shù)的相應(yīng)列表。
20.如權(quán)利要求19所述的方法,進(jìn)一步包括扒一個文件系統(tǒng);掃描所述文件系統(tǒng)內(nèi)的文件的文本;以及建立倒排索引。
21.如權(quán)利要求20所述的方法,其中,所述輸出相同點(diǎn)擊的點(diǎn)擊列表的步驟包括使用關(guān)鍵字從所述倒排索引中提取所述點(diǎn)擊列表。
22.如權(quán)利要求20所述的方法,其中,所述倒排索引包括從非文本文件的元數(shù)據(jù)中提取的文本。
23.如權(quán)利要求21所述的方法,進(jìn)一步包括為每個文檔計算一個權(quán)重W,其中W=a(TR)+b(LA)+c(FQS),TR=來自文本分析的文本相關(guān)性分?jǐn)?shù),LA=鏈接分析分?jǐn)?shù),F(xiàn)QS=文件質(zhì)量分?jǐn)?shù),以及a、b和c是調(diào)整參數(shù)。
24.如權(quán)利要求23所述的方法,進(jìn)一步包括調(diào)整任一權(quán)重a、b或c。
25.如權(quán)利要求24所述的方法,進(jìn)一步包括將所述點(diǎn)擊列表重新排列為被排名列表。
26.如權(quán)利要求25所述的方法,進(jìn)一步包括刪節(jié)所述被排名列表。
27.如權(quán)利要求26所述的方法,進(jìn)一步包括顯示所述被排名列表。
28.如權(quán)利要求21所述的方法,進(jìn)一步包括將第二關(guān)鍵字輸入搜索界面;把所述第二關(guān)鍵字送入點(diǎn)擊列表產(chǎn)生器;以及輸出相同點(diǎn)擊的第二點(diǎn)擊列表,伴隨有文本相關(guān)性分?jǐn)?shù)的相應(yīng)第二列表。
29.如權(quán)利要求28所述的方法,其中,所述輸出相同點(diǎn)擊的點(diǎn)擊列表的步驟包括使用第二關(guān)鍵字從所述倒排索引中提取所述第二點(diǎn)擊列表。
30.如權(quán)利要求29所述的方法,進(jìn)一步包括從所述第二點(diǎn)擊列表和所述第二點(diǎn)擊列表中的文檔間的所有鏈接形成子圖,通過對所述子圖執(zhí)行鏈接分析,為所述第二點(diǎn)擊列表中的每個所述文檔獲得受限的鏈接分析分?jǐn)?shù)LA(sub),以及為每個文檔計算第二權(quán)重W,其中W=a(TR)+b(LA(sub))+c(FQS),TR=來自文本分析的文本相關(guān)性分?jǐn)?shù),LA(sub)=子圖的鏈接分析分?jǐn)?shù),F(xiàn)QS=文件質(zhì)量分?jǐn)?shù),以及a、b和c是調(diào)整參數(shù)。
31.如權(quán)利要求30所述的方法,進(jìn)一步包括調(diào)整任一權(quán)重a、b或c。
32.如權(quán)利要求31所述的方法,進(jìn)一步包括將所述第二點(diǎn)擊列表重新排列為第二被排名列表。
33.如權(quán)利要求32所述的方法,進(jìn)一步包括刪節(jié)所述第二被排名列表。
34.如權(quán)利要求33所述的方法,進(jìn)一步包括顯示所述第二被排名列表。
35.如權(quán)利要求2所述的方法,進(jìn)一步包括在所述計分步驟中計分的文檔之間進(jìn)行導(dǎo)航。
36.如權(quán)利要求2所述的方法,其中,所述導(dǎo)航步驟包括在起始文件O處開始,所述起始文件O是初始文件或當(dāng)前打開的文件中的一個。
37.如權(quán)利要求36所述的方法,其中,所述導(dǎo)航步驟進(jìn)一步包括識別起始文件O的鄰居B,所述鄰居B具有相對于文件O的相似性分?jǐn)?shù)S(O,B),該分?jǐn)?shù)大于閾值Smin。
38.如權(quán)利要求37所述的方法,其中,所述相似性分?jǐn)?shù)S(O,B)非零。
39.如權(quán)利要求36所述的方法,其中,所述識別鄰居B的步驟包括識別起始文件O的鄰居,所述鄰居B至少具有下列中的至少一個從B指向O的定向鏈接,和從O指向B的定向鏈接。
40.如權(quán)利要求37所述的方法,其中,所述導(dǎo)航步驟進(jìn)一步包括成對地比較文檔;和獲得相似性分?jǐn)?shù)。
41.如權(quán)利要求40所述的方法,其中,所述成對地比較文檔的步驟包括計算文字w在文件f中出現(xiàn)的次數(shù)Nf(w),和Nf(w)除以文檔中的文字總數(shù)Nf以獲得文檔f的輪廓nf(w)。
42.如權(quán)利要求41所述的方法,其中,所述獲得相似性分?jǐn)?shù)的步驟包括計算第一文檔和第二文檔之間的相似性S(1,2)如下S(1,2)=KΣwn1(w)n2(w).]]>
43.如權(quán)利要求42所述的方法,進(jìn)一步包括建立最小相似性量度δ>0,使得當(dāng)KΣwn1(w)n2(w)<δ]]>時,S(1,2)=δ。
44.如權(quán)利要求40所述的方法,進(jìn)一步包括在相似性分?jǐn)?shù)數(shù)據(jù)庫中存儲所述相似性分?jǐn)?shù)。
45.如權(quán)利要求44所述的方法,進(jìn)一步包括計算相似性導(dǎo)航權(quán)重SNW(O,B),其中SNW(O,B)=g·S(O,B)+h·LA(B)+m·FQS(B),LA(B)是B的鏈接分析分?jǐn)?shù),F(xiàn)QS(B)是B的文件質(zhì)量分?jǐn)?shù),g、h和m是調(diào)整參數(shù)。
46.如權(quán)利要求45所述的方法,進(jìn)一步包括對相似性鏈接的文件進(jìn)行排名以提供被排名的相似性鏈接的文件。
47.如權(quán)利要求46所述的方法,進(jìn)一步包括刪節(jié)所述被排名的相似性鏈接的文件。
48.如權(quán)利要求47所述的方法,進(jìn)一步包括顯示所述被排名的相似性鏈接的文件。
49.如權(quán)利要求48所述的方法,進(jìn)一步包括跳轉(zhuǎn)至相似性鏈接的文件。
50.如權(quán)利要求37所述的方法,進(jìn)一步包括輸入關(guān)鍵字,獲得所述關(guān)鍵字的點(diǎn)擊列表,以及將要顯示的鄰居限制為那些在點(diǎn)擊列表上找到的鄰居。
51.如權(quán)利要求50所述的方法,進(jìn)一步包括從所述點(diǎn)擊列表和所述點(diǎn)擊列表中的文檔間的所有鏈接,形成子圖,通過對所述子圖執(zhí)行鏈接分析,為每個所述文檔獲得受限的鏈接分析分?jǐn)?shù)LA(sub),以及根據(jù)子圖的相似性鄰居權(quán)重SNW(sub)(O,B)=g·S(O,B)+h·LA(sub)(B)+m·FQS(B),對鄰居進(jìn)行排名。
52.如權(quán)利要求51所述的方法,進(jìn)一步包括對相似性鏈接的文件進(jìn)行排名,以提供被排名的相似性鏈接的文件。
53.如權(quán)利要求52所述的方法,進(jìn)一步包括刪節(jié)所述被排名的相似性鏈接的文件。
54.如權(quán)利要求53所述的方法,進(jìn)一步包括顯示所述被排名的相似性鏈接的文件。
55.如權(quán)利要求54所述的方法,進(jìn)一步包括跳轉(zhuǎn)至相似性鏈接的文件。
56.如權(quán)利要求39所述的方法,進(jìn)一步包括建立第一文檔和第二文檔之間的超鏈接,其中,所述建立超鏈接的步驟包括下列步驟之一在所述第一文檔和第二文檔之一的文本中錨定所述超鏈接以及通過未錨定的超鏈接來鏈接所述第一文檔和第二文檔,其中,所述建立超鏈接的步驟還包括下列之一經(jīng)由輸入終端輸入所述超鏈接,和自動建立所述超鏈接。
57.如權(quán)利要求56所述的方法,其中,所述定向的加權(quán)鏈接可能被或可能不被錨定于指示文檔或被指示文檔上的文本。
58.如權(quán)利要求56所述的方法,進(jìn)一步包括在鏈接結(jié)構(gòu)數(shù)據(jù)庫中存儲超鏈接信息(指向文件、被指向文件、超鏈接權(quán)重和錨定文本)。
59.如權(quán)利要求58所述的方法,進(jìn)一步包括識別起始文件O的超鏈接鄰居,所述超鏈接鄰居由下列中的至少一個組成具有指向O的定向鏈接的所有文件B,和被O指向的所有文件B。
60.如權(quán)利要求59所述的方法,其中,根據(jù)下列公式為所述超鏈接鄰居中的每個文件計算超鏈接鄰居權(quán)重(HNW)HNW=d(HLW)+e(LA)+f(FQS),其中,HLW=超鏈接權(quán)重,LA是鄰居的鏈接分析分?jǐn)?shù),F(xiàn)QS等于鄰居的文件質(zhì)量分?jǐn)?shù),而d、e和f為調(diào)整參數(shù)。
61.如權(quán)利要求60所述的方法,進(jìn)一步包括根據(jù)相應(yīng)的超鏈接鄰居權(quán)重,對所述超鏈接鄰居進(jìn)行排名。
62.如權(quán)利要求61所述的方法,進(jìn)一步包括刪節(jié)所述超鏈接鄰居。
63.如權(quán)利要求62所述的方法,進(jìn)一步包括顯示所述超鏈接鄰居。
64.如權(quán)利要求63所述的方法,進(jìn)一步包括跳轉(zhuǎn)至在所述超鏈接鄰居內(nèi)的文件。
65.如權(quán)利要求59所述的方法,進(jìn)一步包括輸入關(guān)鍵字,獲得所述關(guān)鍵字的點(diǎn)擊列表,以及將要顯示的鄰居限制為那些在點(diǎn)擊列表上找到的鄰居。
66.如權(quán)利要求65所述的方法,進(jìn)一步包括扒一個文件系統(tǒng);掃描所述文件系統(tǒng)內(nèi)的文件的文本;以及建立倒排索引。
67.如權(quán)利要求66所述的方法,其中,所述獲得點(diǎn)擊列表的步驟包括使用關(guān)鍵字從所述倒排索引中提取所述點(diǎn)擊列表。
68.如權(quán)利要求66所述的方法,其中,所述倒排索引包括從非文本文件的元數(shù)據(jù)中提取的文本。
69.如權(quán)利要求67所述的方法,進(jìn)一步包括從所述第二點(diǎn)擊列表和所述第二點(diǎn)擊列表中的文檔間的所有鏈接,形成一個子圖,通過對所述子圖執(zhí)行鏈接分析,為在所述第二點(diǎn)擊列表中的每個所述文檔獲得受限的鏈接分析分?jǐn)?shù)LA(sub),以及根據(jù)子圖的超鏈接鄰居權(quán)重HNW(sub)=d(HLW)+e(LA(sub))+f(FQS),對鄰居進(jìn)行排名。
70.如權(quán)利要求69所述的方法,進(jìn)一步包括根據(jù)相應(yīng)的子圖的超鏈接鄰居權(quán)重,對所述超鏈接鄰居進(jìn)行排名。
71.如權(quán)利要求70所述的方法,進(jìn)一步包括刪節(jié)所述超鏈接鄰居。
72.如權(quán)利要求71所述的方法,進(jìn)一步包括顯示所述超鏈接鄰居。
73.如權(quán)利要求72所述的方法,進(jìn)一步包括跳轉(zhuǎn)至所述超鏈接鄰居內(nèi)的文件。
74.如權(quán)利要求19所述的方法,進(jìn)一步包括搜索共同位于一個公共環(huán)境中的一個或多個被定義組的共享訪問文件;搜索存儲在網(wǎng)絡(luò)上的文件;搜索企業(yè)文件;以及搜索實體目標(biāo)。
75.如權(quán)利要求35所述的方法,其中,所述導(dǎo)航的步驟包括在共同位于一個公共環(huán)境中的一個或多個被定義組的共享訪問文件中進(jìn)行導(dǎo)航;在存儲在網(wǎng)絡(luò)上的文件中進(jìn)行導(dǎo)航;在企業(yè)文件中進(jìn)行導(dǎo)航;以及在實體目標(biāo)中進(jìn)行導(dǎo)航。
76.如權(quán)利要求74或75所述的方法,其中,所述在一個或多個被定義組的共享訪問文件中搜索或?qū)Ш降牟襟E包括將所述一個或多個被定義組的第一子圖與所述一個或多個被定義組的第二子圖連接。
77.如權(quán)利要求76所述的方法,進(jìn)一步包括建立從所選文件指出的超鏈接;以及修改所選文件的文件質(zhì)量分?jǐn)?shù),其中所述建立和修改步驟限于對所選文件具有寫入允許的用戶。
78.如權(quán)利要求77所述的方法,其中,所述修改文件質(zhì)量分?jǐn)?shù)的步驟包括對多個文件質(zhì)量分?jǐn)?shù)取平均。
79.如權(quán)利要求77所述的方法,進(jìn)一步包括由任何具有文件讀取允許的用戶修改所述文件質(zhì)量分?jǐn)?shù)。
80.如權(quán)利要求77所述的方法,其中,所述用戶是至少兩個組的成員,每個組具有不同的讀取和寫入特權(quán)。
81.如權(quán)利要求80所述的方法,進(jìn)一步包括執(zhí)行包括所述至少兩個組可獲得的所有文件的圖的鏈接分析。
82.如權(quán)利要求80所述的方法,進(jìn)一步包括執(zhí)行包括在相應(yīng)的第一讀取許可下所述至少兩個組的第一個可獲得的所有文件的子圖的鏈接分析;以及執(zhí)行包括在相應(yīng)的第二讀取許可下所述至少兩個組的第二個可獲得的所有文件的子圖的鏈接分析。
83.如權(quán)利要求80所述的方法,進(jìn)一步包括執(zhí)行包括用戶可獲得的所有文檔的子圖的鏈接分析。
84.一種包括計算機(jī)可讀介質(zhì)的計算機(jī)程序產(chǎn)品,該計算機(jī)可讀介質(zhì)包含用于搜索存儲在計算環(huán)境中的電子材料的指令,所述指令包括用于下列的指令基于相似性,確定至少兩個文檔之間的不定向加權(quán)鏈接;確定所述至少兩個文檔之間的定向加權(quán)鏈接;以及計算所述至少兩個文檔的每一個的權(quán)重。
85.如權(quán)利要求84所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括經(jīng)由鏈接分析、文本相關(guān)性分析和文件質(zhì)量分析中的至少一個,對所述至少兩個文檔中的每一個計分。
86.如權(quán)利要求85所述的計算機(jī)程序產(chǎn)品,其中,所述鏈接分析基于混合網(wǎng)絡(luò),所述混合網(wǎng)絡(luò)包括文檔之間的兩種鏈接,即,定向鏈接和不定向鏈接。
87.如權(quán)利要求85所述的計算機(jī)程序產(chǎn)品,其中,所述文本分析包括基于與一組關(guān)鍵字的相關(guān)性來計分文檔。
88.如權(quán)利要求85所述的計算機(jī)程序產(chǎn)品,其中,所述文件質(zhì)量分析包括向文件質(zhì)量分?jǐn)?shù)分配一個缺省值。
89.如權(quán)利要求85所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括用于下列的指令將關(guān)鍵字輸入搜索界面;把所述關(guān)鍵字送入點(diǎn)擊列表產(chǎn)生器;以及輸出相同點(diǎn)擊的點(diǎn)擊列表,伴隨有文本相關(guān)性分?jǐn)?shù)的相應(yīng)列表。
90.如權(quán)利要求85所述的計算機(jī)程序產(chǎn)品,進(jìn)一步包括用于下列的指令在所述計分步驟中被計分的文檔之間進(jìn)行導(dǎo)航。
91.一種配置用于搜索存儲在計算環(huán)境中的電子材料的搜索裝置,包括基于相似性而確定至少兩個文檔之間的不定向加權(quán)鏈接的部件;確定所述至少兩個文檔之間的定向加權(quán)鏈接的部件;以及計算所述至少兩個文檔的每一個的權(quán)重的部件。
92.如權(quán)利要求91所述的搜索裝置,進(jìn)一步包括用于下列的指令經(jīng)由鏈接分析、文本相關(guān)性分析和文件質(zhì)量分析中的至少一個,計分所述至少兩個文檔中的每一個的部件。
93.如權(quán)利要求92所述的搜索裝置,其中,所述鏈接分析基于混合網(wǎng)絡(luò),所述混合網(wǎng)絡(luò)包括文檔之間的兩種鏈接,即,定向鏈接和不定向鏈接。
94.如權(quán)利要求92所述的搜索裝置,其中,所述文本分析包括基于與一組關(guān)鍵字的相關(guān)性來計分文檔的部件。
95.如權(quán)利要求92所述的搜索裝置,其中,所述文件質(zhì)量分析包括向文件質(zhì)量分?jǐn)?shù)分配一個缺省值。
96.如權(quán)利要求92所述的搜索裝置,進(jìn)一步包括將關(guān)鍵字輸入搜索界面的部件;把所述關(guān)鍵字送入點(diǎn)擊列表產(chǎn)生器的部件;以及輸出相同點(diǎn)擊的點(diǎn)擊列表,伴隨有文本相關(guān)性分?jǐn)?shù)的相應(yīng)列表的部件。
97.如權(quán)利要求92所述的搜索裝置,進(jìn)一步包括在所述計分步驟中被計分的文檔之間進(jìn)行導(dǎo)航的部件。
全文摘要
一種用于包括混合網(wǎng)絡(luò)的個人搜索引擎的方法、裝置和計算機(jī)程序產(chǎn)品,混合網(wǎng)絡(luò)由相似性網(wǎng)絡(luò)和定向超鏈接組成。組件包括分析器(從文檔中提取字);文本相關(guān)性分析器;鏈接分析方法;相似性網(wǎng)絡(luò);相似性分析器和超鏈接。其它組件包括導(dǎo)航窗口和FQS。上面所有這些的組合可被并入工作的個人搜索引擎中。
文檔編號G06F17/30GK101044481SQ200580035492
公開日2007年9月26日 申請日期2005年8月25日 優(yōu)先權(quán)日2004年9月16日
發(fā)明者杰弗里·坎瑞特, 肯特·恩格-蒙森 申請人:特里諾爾公司