專利名稱::一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法一種輕量級(jí)個(gè)性化搜索弓I擎及其搜索方法(一)
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種網(wǎng)絡(luò)技術(shù),尤其是搜索引擎技術(shù)。(二)
背景技術(shù):
.如今的因特網(wǎng)對(duì)多數(shù)人己不再陌生,網(wǎng)絡(luò)搜索引擎成了人們獲取信息的一個(gè)重要途徑,人們?cè)谙M阉饕婺軌蛱峁┤娴男畔①Y源的同時(shí),也對(duì)搜索引擎的服務(wù)提出了更高的要求,這是搜索引擎設(shè)計(jì)的一種挑戰(zhàn),也是未來(lái)搜索引擎的發(fā)展趨勢(shì)??v觀目前因特網(wǎng)上流行的搜索引擎,普遍是基于關(guān)鍵字的查詢,用戶的每次搜索都是相互獨(dú)立的,不能根據(jù)用戶的興趣給出適應(yīng)用戶需求的查詢結(jié)果。而如今社會(huì)分工的細(xì)化與個(gè)人興趣的不同,決定了不同領(lǐng)域的用戶,不同社會(huì)群體對(duì)信息需求的不同。于是現(xiàn)在的搜索引擎應(yīng)該能夠根據(jù)用戶的不同需求來(lái)對(duì)查詢結(jié)果進(jìn)行排序,也就是針對(duì)不同用戶的個(gè)性化定制,使搜索結(jié)果根據(jù)用戶需求收斂,使搜索引擎趨向于反映用戶的偏好。為了適應(yīng)這種需求,人們提出了個(gè)性化的搜索引擎的設(shè)計(jì)思想,通過(guò)增加用戶行為數(shù)據(jù)庫(kù)來(lái)跟蹤用戶的興趣或需求。但是,這需要在服務(wù)器端建立龐大的用戶信息庫(kù)與用戶行為庫(kù),同時(shí)要定期對(duì)這些數(shù)據(jù)進(jìn)行維護(hù),在如今面向因特網(wǎng)的搜索來(lái)說(shuō),這種在服務(wù)器端的巨大開(kāi)銷限制了這種方法的可行性,此外通過(guò)用戶登錄搜索的方式,對(duì)于公共搜索引擎的用戶來(lái)說(shuō),也不是一種方便的信息查詢方式。專利申請(qǐng)?zhí)枮?00510050198.5,名稱為"基于鏈接分析的個(gè)性化搜索引擎方法"中公開(kāi)的技術(shù)方案,是通過(guò)建立知識(shí)網(wǎng)絡(luò)模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點(diǎn)之間鏈接的不同類別,進(jìn)而在此基礎(chǔ)上展開(kāi)鏈接分析得到搜索結(jié)果。(三)
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種在搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷,符合用戶興趣的個(gè)性化搜索引擎的一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明的搜索引擎由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成,其中信息抓取模塊由抓取程序和索引程序組成,因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊,信息抓取模塊的輸出連接用戶個(gè)性分析模塊,用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊,信息檢索模塊與用戶個(gè)性分析模塊,信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。本發(fā)明的搜索引擎的搜索方法為(1)信息抓取模塊從配置了需要抓取的URL的Web庫(kù)中獲取抓取列表,提交給抓取程序,通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序,同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容;(2)信息檢索模塊獲取用戶的査詢請(qǐng)求,提取用戶客戶端的興趣記錄,同時(shí)把査詢結(jié)果返回給用戶,信息檢索模塊將用戶興趣記錄與査詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊;用戶個(gè)性分析模塊生成用戶特征向量提交給索引器/查詢分析器;索引器/查詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到查詢結(jié)果;最后通過(guò)信息檢索模塊返回給用戶。本發(fā)明的搜索方法還可以包括1.所述的用戶興趣記錄的獲取方法為搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果的行為,對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄,用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的訪問(wèn)并記錄我的興趣鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站,并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。2.所述的用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。3.所述的用戶個(gè)性分析模塊生成用戶特征向量是將用戶興趣記錄抽象成一個(gè)向量,同時(shí)根據(jù)用戶興趣記錄與信息源文本集、即抓取模塊所維護(hù)的信息庫(kù)的相似性特征。4.所述的用戶個(gè)性分析模塊生成用戶特征向量還包括進(jìn)一步抽象成基于關(guān)鍵字權(quán)重的向量。本發(fā)明基于現(xiàn)今個(gè)性搜索的不足,提出了一種輕量級(jí)的個(gè)性化搜索引擎的設(shè)計(jì)思想與實(shí)現(xiàn)方法。所謂輕量級(jí)是指在搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷,充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索。通過(guò)客戶端的存儲(chǔ)與服務(wù)器端的用戶行為跟蹤引擎的結(jié)合,本發(fā)明給出了針對(duì)用戶不同需求,符合用戶興趣的個(gè)性化搜索引擎的解決方案。整個(gè)系統(tǒng)由"信息抓取模塊","信息檢索模塊"和"用戶個(gè)性分析模塊"三部分。其中"信息抓取模塊"由"抓取程序"和"索引程序"組成;"信息檢索模塊"與"用戶個(gè)性分析模塊"結(jié)合提供個(gè)性化檢索服務(wù)。整體結(jié)構(gòu)圖如圖1所示,可以看出虛線左側(cè)負(fù)責(zé)搜索引擎數(shù)據(jù)的抓取,虛線右側(cè)負(fù)責(zé)搜索引擎的搜索。本發(fā)明的主要特點(diǎn)體現(xiàn)在(1)搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷,充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索;(2)根據(jù)用戶的不同需求來(lái)對(duì)査詢結(jié)果進(jìn)行排序,也就是針對(duì)不同用戶的個(gè)性化定制;(3)基于向量空間的個(gè)性化檢索模型。(四)附圖是本發(fā)明的框圖。具體實(shí)施方式本發(fā)明的搜索引擎由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成,其中信息抓取模塊由抓取程序和索引程序組成,因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊,信息抓取模塊的輸出連接用戶個(gè)性分析模塊,用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊,信息檢索模塊與用戶個(gè)性分析模塊,信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。結(jié)合圖l,虛線左側(cè)負(fù)責(zé)搜索引擎數(shù)據(jù)的抓取,虛線右側(cè)負(fù)責(zé)搜索引擎的搜索。(1)信息抓取模塊從Web庫(kù)(配置了需要抓取的URL)中獲取抓取列表,提交給抓取程序,通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序,同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容。(2)信息檢索模塊是用戶與搜索引擎的一個(gè)接口,它可以獲取用戶的査詢請(qǐng)求,提取用戶客戶端的興趣記錄,同時(shí)可以把査詢結(jié)果返回給用戶。信息檢索模塊將用戶興趣記錄與查詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊;用戶個(gè)性分析模塊生成用戶特征向量提交給索引器;索引器/查詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到査詢結(jié)果;最后通過(guò)信息檢索模塊(搜索接口)返回給用戶。1.用戶興趣記錄的獲取用戶搜索關(guān)鍵字和點(diǎn)擊的搜索結(jié)果鏈接網(wǎng)址在一定程度上能反映出用戶的訪問(wèn)偏好,相比之下,搜索結(jié)果網(wǎng)址鏈接比搜索關(guān)鍵字更能體現(xiàn)用戶實(shí)際的興趣,因?yàn)橛脩艨赡車L試性地輸入某關(guān)鍵字后發(fā)現(xiàn)無(wú)感興趣的內(nèi)容時(shí),往往不會(huì)去點(diǎn)擊搜索結(jié)果中的鏈接。同時(shí)對(duì)于是否獲取用戶訪問(wèn)記錄也涉及到用戶隱私問(wèn)題,需要由用戶自由決定是否讓搜索引擎記錄用戶興趣。搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果事性的行為(連同搜索的關(guān)鍵字),對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄,因?yàn)楹笳呦鄬?duì)于前者來(lái)說(shuō)意思不是太大。關(guān)于用戶隱私與自主性,用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的"訪問(wèn)并記錄我的興趣"鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站,并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。2.用戶興趣記錄的存儲(chǔ)搜索引擎需要根據(jù)用戶的興趣來(lái)返回搜索結(jié)果,但是在服務(wù)器端的搜索引擎如何獲取這些用戶興趣是一個(gè)需要解決的問(wèn)題,同時(shí)在獲取這些用戶興趣記錄的同時(shí)還要保證盡量小的額外開(kāi)銷。記錄用戶興趣的方式一般方法是在搜索引擎服務(wù)器端建立用戶注冊(cè)信息表,為每一個(gè)搜索的用戶維護(hù)用戶注冊(cè)信息,同時(shí)記錄每個(gè)用戶的訪問(wèn)行為。但是這有兩個(gè)缺點(diǎn),一是在服務(wù)器端需要額外的龐大的存儲(chǔ)開(kāi)銷,二是每次用戶訪問(wèn)時(shí)都要更新用戶行為表中的記錄,就算采用session延遲寫入數(shù)據(jù)庫(kù)的方式來(lái)記錄用戶訪問(wèn)行為,也會(huì)因?yàn)榉?wù)器端需要?jiǎng)?chuàng)建大量的session會(huì)話而消耗服務(wù)器內(nèi)存資源,對(duì)于面向全網(wǎng)的搜索引擎來(lái)說(shuō),其開(kāi)銷更是不可想象。輕量級(jí)個(gè)性化搜索引擎用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。Cookie是服務(wù)器發(fā)送給瀏覽器的體積很小的純文本信息,用戶以后訪問(wèn)同一個(gè)Web服務(wù)器時(shí)瀏覽器會(huì)把它們?cè)瓨影l(fā)送給服務(wù)器。通過(guò)讓服務(wù)器讀取它原先保存到客戶端的信息,網(wǎng)站能夠?yàn)闉g覽者提供一系列的方便。同時(shí),由于瀏覽器一般只允許存放300個(gè)Cookie,每個(gè)站點(diǎn)最多存放20個(gè)Cookie,每個(gè)Cookie的大小限制為4KB,因此Cookie不會(huì)占用搜索引擎用戶的客戶機(jī)太多資源,更不會(huì)被用作"拒絕服務(wù)"攻擊手段,也避免了一些采用登錄搜索方式中維護(hù)大量用戶注冊(cè)信息與行為信息的開(kāi)銷。另外還可以利用cookie的存儲(chǔ)來(lái)實(shí)現(xiàn)用戶的訪問(wèn)歷史搜索記錄。3.基于向量空間的個(gè)性化檢索模型在獲取用戶興趣記錄并在用戶客戶機(jī)存儲(chǔ)用戶訪問(wèn)行為之后,如何根據(jù)用戶興趣記錄來(lái)對(duì)搜索結(jié)果重新排序,并返回針對(duì)用戶偏好的不同的搜索結(jié)果是搜索引擎需要解決的另一個(gè)重要問(wèn)題。這需要在算法上實(shí)現(xiàn)個(gè)性化査詢,個(gè)性化査詢應(yīng)該在普通査詢的基礎(chǔ)上,根據(jù)用戶興趣記錄來(lái)對(duì)普通查詢結(jié)果進(jìn)行過(guò)濾和非序,使查詢結(jié)果趨向于反映用戶的個(gè)人需要。普通搜索引擎的査詢遵循了向量空間模型,"抓取模塊"所得到的信息源頁(yè)面是以基于關(guān)鍵字權(quán)值的向量的形式存在于索引庫(kù)中,搜索關(guān)鍵字與信息源頁(yè)面存在一種相關(guān)性??紤]到用戶興趣記錄中的搜索關(guān)鍵字和訪問(wèn)網(wǎng)站信息與普通搜索時(shí)的關(guān)鍵字之間的相似性,本方法可以基于此引入用戶特征向量的概念,將用戶興趣記錄抽象成一個(gè)向量,同時(shí)根據(jù)用戶興趣記錄與信息源文本集(抓取模塊所維護(hù)的信息庫(kù))的相似性特征,用戶模型也可以進(jìn)一步抽象成基于關(guān)鍵字權(quán)重的向量。下面是本發(fā)明的一個(gè)具體實(shí)例-1用戶興趣的獲取用戶的行為可以通過(guò)其訪問(wèn)的網(wǎng)站信息來(lái)反映,所以可以將在一定時(shí)期內(nèi)一定數(shù)量的網(wǎng)站信息來(lái)作為記錄用戶興趣的模型InterestWeb。模型的各屬性如下:<table>tableseeoriginaldocumentpage8</column></row><table>用戶輸入關(guān)鍵字搜索后,在搜索結(jié)果列表中,若點(diǎn)擊"訪問(wèn)并記住我的興趣"鏈接后,系統(tǒng)將首先調(diào)用搜索引擎的用戶興趣記錄獲取程序,將用戶所點(diǎn)擊列表項(xiàng)對(duì)應(yīng)的網(wǎng)站的標(biāo)題、網(wǎng)址、快照地址和摘要組裝成interestWeb對(duì)象同時(shí)傳遞給用戶興趣記錄存儲(chǔ)程序,并利用3.2的方案來(lái)實(shí)現(xiàn)用戶興趣記錄的存儲(chǔ)。注意,如果用戶輸入關(guān)鍵字搜索后,未點(diǎn)"訪問(wèn)并記住我的興趣"鏈接,系統(tǒng)將不會(huì)在用戶客戶機(jī)上記錄訪問(wèn)信息,同時(shí)在下次搜索時(shí)也不會(huì)為該訪問(wèn)記錄重新排序。這也在一定程度上體現(xiàn)了個(gè)性化搜索引擎的用戶自主性。2用戶興趣記錄的存儲(chǔ)搜索引擎可以為用戶創(chuàng)建M(0〈M<10)個(gè)cookie。在cookie個(gè)數(shù)未超過(guò)上限時(shí),用戶每搜索一個(gè)關(guān)鍵字并點(diǎn)擊"興趣訪問(wèn)"鏈接時(shí),cookie將增加一條cookie記錄,cookie由cookie名禾卩cookie值組成,cookie名預(yù)置成"key01,key02,…,keyM",每條cookie值的記錄格式如下標(biāo)題"用戶關(guān)鍵字槲網(wǎng)站l標(biāo)題ll網(wǎng)站l網(wǎng)址ll網(wǎng)站l快照l(shuí)1網(wǎng)站1摘要$$網(wǎng)站2標(biāo)題|l網(wǎng)站2網(wǎng)址ll網(wǎng)站2快照l(shuí)|網(wǎng)站2摘要$$......SS網(wǎng)站N標(biāo)題Il網(wǎng)站N網(wǎng)址Il網(wǎng)站N快照l(shuí)l網(wǎng)站N摘要"(0<N〈6)字符編碼采用UTF-8格式,另外cookie的名和值不能包含cookie的名字和值不能包含空格和[]()=,〃/@:;字符,所以在原字符串轉(zhuǎn)換成UTF-8存儲(chǔ)之前需要進(jìn)行字符串轉(zhuǎn)換,如titleStr二R印lace(titleStr,〃&equal〃,〃=〃)將字符串的轉(zhuǎn)換成&equal,字符串的替換由自定義方法toCookieStr(String)來(lái)實(shí)現(xiàn)。存儲(chǔ)算法如下(其中M為搜索引擎為每個(gè)用戶保存興趣關(guān)鍵字cookie項(xiàng)的上限值,N為搜索引擎為每個(gè)用戶某關(guān)鍵字存儲(chǔ)歷史訪問(wèn)記錄的上限值)1)接收interestWeb對(duì)象;2)取出對(duì)象中的已經(jīng)過(guò)UTF-8編碼的各屬性關(guān)鍵字(key)、網(wǎng)站標(biāo)題(title)、網(wǎng)址(url)快照地址(cachedUrl)和摘要(summary);并將各字符串通過(guò)toCookieStr(String)方法轉(zhuǎn)換成適應(yīng)cookie存儲(chǔ)的格式;3)根據(jù)關(guān)鍵字key,設(shè)置計(jì)數(shù)器i,在i小于M的情況下遍歷cookie中的cookie項(xiàng),査找cookie中貼前的字符串Str01dPre與關(guān)鍵字key匹配的cookie項(xiàng),若找到匹配的項(xiàng)則退出循環(huán)。根據(jù)計(jì)數(shù)器最終的結(jié)果i,若i小于M說(shuō)明找到匹配轉(zhuǎn)4),否則轉(zhuǎn)5);4)得到cookie名"key"+i;5)拼接待存儲(chǔ)串StrNew,title+”II”,,+url+,,II,,+cachedUrl+,,||,,十s醒a(bǔ)ry;6)取出cookie項(xiàng)中鼎后的字符串Str01dSuc,用split("\\$\\$")方法將該字符串分隔成字符數(shù)組,判斷數(shù)組長(zhǎng)度是否超過(guò)N,若數(shù)組長(zhǎng)度不超過(guò)N則轉(zhuǎn)7),否則轉(zhuǎn)8);7)修改新cookie項(xiàng)為原cookie串##前字符串Str01dPre+"##"+待存儲(chǔ)串StrNew+"$$"+原cookie串##后字符串Str01dSuc,將新串存入cookie,替換原cookie項(xiàng),轉(zhuǎn)13);8)去除原串最后一個(gè)"$$"符后面的字符串(連同"$$"符)得到字符串Str01dSucTemp;修改新cookie項(xiàng)為原cookie串###前符串+"##"+待存儲(chǔ)串+"$$"+Str01ldSucTemp,將新串存入cookie,替換原cookie項(xiàng),轉(zhuǎn)13);9)根據(jù)i生成cookie名"key"+(i+l);10)拼接待存儲(chǔ)串StrNew,key+"抑"+title+"||"+url+,,II,,+cachedUrl+,,||,,+summary;11)設(shè)置cookie項(xiàng)目生命周期;12)將新cookie項(xiàng)存入cookie中;結(jié)束。3基于向量空間的個(gè)性化檢索模型1)在用戶提交搜索時(shí),搜索引擎將同時(shí)獲取用戶搜索關(guān)鍵字和用戶興趣記錄,如果未能獲取用戶興趣記錄或用戶興趣記錄為空,則搜索引擎進(jìn)行普通查詢并返回結(jié)果。如果獲取了用戶興趣記錄,則搜索引擎將用戶興趣交由"用戶個(gè)性分析模塊"處理,處理過(guò)程算法如下2)搜索引擎讀取cookie,將每一個(gè)cookie項(xiàng)中用"$$"分隔的字符串轉(zhuǎn)換成interestWeb對(duì)象,將key01-keyM的所有cookie項(xiàng)轉(zhuǎn)換成用戶興趣訪問(wèn)列表interestWebList;3)遍歷interestWebList,抽取各關(guān)鍵字,存入用戶興趣關(guān)鍵字向量interestKeyVector;4)抽取各網(wǎng)站標(biāo)題interestWeb.getTitle(),對(duì)網(wǎng)站標(biāo)題進(jìn)行分詞處理,得到多個(gè)次關(guān)鍵字,將這些次關(guān)鍵字附加到用戶興趣關(guān)鍵字向量interestKeyVector中;5)建立用戶興趣關(guān)鍵字權(quán)值向量interestWeightVector,目前認(rèn)定這些用戶興趣關(guān)鍵字權(quán)值是相同的,將interestWeightVector中各值初始化成1。其中,分詞也是搜索引擎需要解決的重要問(wèn)題,中文分詞不同于英文分詞,因?yàn)橛⑽膯卧~之間的空格足以區(qū)分不同的査詢關(guān)鍵字,而中文固有的特征決定了需要采取更有效的方式來(lái)實(shí)現(xiàn)分詞。一般的分詞方式有三種1)單字切分中文搜索詞一個(gè)一個(gè)單字分開(kāi)來(lái)。這種方式的優(yōu)點(diǎn)是分詞算法簡(jiǎn)單,最大的缺點(diǎn)是會(huì)極大增加索引,相應(yīng)地,索引條目的內(nèi)容也會(huì)增多,嚴(yán)重影響搜索效率。2)二分法對(duì)中文搜索詞中每?jī)蓚€(gè)字進(jìn)行次切分,比如,對(duì)搜索詞"計(jì)算機(jī)學(xué)院"進(jìn)行二分法切分后得到的關(guān)鍵字將會(huì)是"計(jì)算/算機(jī)/機(jī)學(xué)/學(xué)院"。這種分詞方式只是機(jī)械地對(duì)搜索詞進(jìn)行切分,不考慮詞義與詞法,所以會(huì)產(chǎn)生大量的無(wú)用關(guān)鍵字,同時(shí)增加了無(wú)用的索引開(kāi)銷。3)詞庫(kù)分詞這是目前最理想的中文分詞方式,方式是根據(jù)已經(jīng)建立好的詞的集合,即詞庫(kù)來(lái)匹配搜索詞的子串。比如,詞庫(kù)中已經(jīng)存在"計(jì)算機(jī)"、"學(xué)院"和"計(jì)算機(jī)學(xué)院"三個(gè)詞,則"計(jì)算機(jī)學(xué)院"便可以切分成這三個(gè)關(guān)鍵字。假設(shè)搜索引擎中"抓取模塊"獲取的索引庫(kù)中,每個(gè)URL包含的關(guān)鍵字身量為尺=(n…人)其中n…人該URL中的關(guān)鍵字每個(gè)關(guān)鍵字的權(quán)值向量為'F=(Vl,V2,""v)其中v"v"…,v"是每個(gè)關(guān)鍵字對(duì)應(yīng)的權(quán)值用戶興趣模型中用戶特征向量為[/=(Ml,"2,"")其中"""2"'"""是用戶興趣關(guān)鍵字(包括分詞后的次關(guān)鍵字),用戶興趣模型中每個(gè)關(guān)鍵字的權(quán)值都設(shè)置為默認(rèn)值l。接下去的任務(wù)是建立用戶興趣模型與信息源文本集之間的相關(guān)性,相關(guān)性的算法如下1)搜索引擎通過(guò)普通査詢得到初始査詢結(jié)果;2)對(duì)于1)中査詢結(jié)果中給出的各URL,篩選符合條件《門U^0的URL,其中0為空集,若不存在這些URL轉(zhuǎn)5),否則轉(zhuǎn)3);3)為滿足條件的URL計(jì)算與用戶興趣模型之間的相關(guān)性S-J^(1"'《"),其中K的計(jì)算方法為若Ae《,且^=、J化=v尸否則K=04)排除相關(guān)性為零的頁(yè)面,按相關(guān)性S從大到小對(duì)搜索結(jié)果進(jìn)行排序,最后將結(jié)果返回給用戶,轉(zhuǎn)6);5)將普通査詢結(jié)果返回給用戶;6)結(jié)束。權(quán)利要求1、一種輕量級(jí)個(gè)性化搜索引擎,由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成,其特征是其中信息抓取模塊由抓取程序和索引程序組成,因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊,信息抓取模塊的輸出連接用戶個(gè)性分析模塊,用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊,信息檢索模塊與用戶個(gè)性分析模塊,信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。2、一種輕量級(jí)個(gè)性化搜索引擎的搜索方法,其特征是(1)信息抓取模塊從配置了需要抓取的URL的Web庫(kù)中獲取抓取列表,提交給抓取程序,通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序,同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容;(2)信息檢索模塊獲取用戶的査詢請(qǐng)求,提取用戶客戶端的興趣記錄,同時(shí)把査詢結(jié)果返回給用戶,信息檢索模塊將用戶興趣記錄與査詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊;用戶個(gè)性分析模塊生成用戶特征向量提交給索引器/査詢分析器索引器/査詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到査詢結(jié)果;最后通過(guò)信息檢索模塊返回給用戶。3、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法,其特征是所述的用戶興趣記錄的獲取方法為搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果的行為,對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄,用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的"訪問(wèn)并記錄我的興趣"鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站,并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。4、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法,其特征是所述的用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。5、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法,其特征是所述的用戶個(gè)性分析模塊生成用戶特征向量是將用戶興趣記錄抽象成一個(gè)向量,同時(shí)根據(jù)用戶興趣記錄與信息源文本集、即抓取模塊所維護(hù)的信息庫(kù)的相似性特征。6、根據(jù)權(quán)利要求5所述的一種輕M:級(jí)個(gè)性化搜索引擎的搜索方法,其特征是所述的用戶個(gè)性分析模塊生成用戶特征向量還包括進(jìn)一歩抽象成基于關(guān)鍵字權(quán)重的向量。全文摘要本發(fā)明提供的是一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法。由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成,其中信息抓取模塊由抓取程序和索引程序組成,因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊,信息抓取模塊的輸出連接用戶個(gè)性分析模塊,用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊,信息檢索模塊與用戶個(gè)性分析模塊,信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。本發(fā)明的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷,充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索。通過(guò)客戶端的存儲(chǔ)與服務(wù)器端的用戶行為跟蹤引擎的結(jié)合,本發(fā)明給出了針對(duì)用戶不同需求,符合用戶興趣的個(gè)性化搜索引擎的解決方案。文檔編號(hào)G06F17/30GK101127043SQ200710072608公開(kāi)日2008年2月20日申請(qǐng)日期2007年8月3日優(yōu)先權(quán)日2007年8月3日發(fā)明者研初,寒吳,張健沛,張澤寶,潑徐,磊徐,李泓波,李連江,靜楊,董喜雙申請(qǐng)人:哈爾濱工程大學(xué)