一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法

文檔序號(hào)：6573610閱讀：235來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法一種輕量級(jí)個(gè)性化搜索弓I擎及其搜索方法(一)
技術(shù)領(lǐng)域：
本發(fā)明涉及的是一種網(wǎng)絡(luò)技術(shù)，尤其是搜索引擎技術(shù)。(二)
背景技術(shù)：
.如今的因特網(wǎng)對(duì)多數(shù)人己不再陌生，網(wǎng)絡(luò)搜索引擎成了人們獲取信息的一個(gè)重要途徑，人們?cè)谙Ｍ阉饕婺軌蛱峁┤娴男畔①Y源的同時(shí)，也對(duì)搜索引擎的服務(wù)提出了更高的要求，這是搜索引擎設(shè)計(jì)的一種挑戰(zhàn)，也是未來(lái)搜索引擎的發(fā)展趨勢(shì)?？v觀目前因特網(wǎng)上流行的搜索引擎，普遍是基于關(guān)鍵字的查詢，用戶的每次搜索都是相互獨(dú)立的，不能根據(jù)用戶的興趣給出適應(yīng)用戶需求的查詢結(jié)果。而如今社會(huì)分工的細(xì)化與個(gè)人興趣的不同，決定了不同領(lǐng)域的用戶，不同社會(huì)群體對(duì)信息需求的不同。于是現(xiàn)在的搜索引擎應(yīng)該能夠根據(jù)用戶的不同需求來(lái)對(duì)查詢結(jié)果進(jìn)行排序，也就是針對(duì)不同用戶的個(gè)性化定制，使搜索結(jié)果根據(jù)用戶需求收斂，使搜索引擎趨向于反映用戶的偏好。為了適應(yīng)這種需求，人們提出了個(gè)性化的搜索引擎的設(shè)計(jì)思想，通過(guò)增加用戶行為數(shù)據(jù)庫(kù)來(lái)跟蹤用戶的興趣或需求。但是，這需要在服務(wù)器端建立龐大的用戶信息庫(kù)與用戶行為庫(kù)，同時(shí)要定期對(duì)這些數(shù)據(jù)進(jìn)行維護(hù)，在如今面向因特網(wǎng)的搜索來(lái)說(shuō)，這種在服務(wù)器端的巨大開(kāi)銷限制了這種方法的可行性，此外通過(guò)用戶登錄搜索的方式，對(duì)于公共搜索引擎的用戶來(lái)說(shuō)，也不是一種方便的信息查詢方式。專利申請(qǐng)?zhí)枮?00510050198.5，名稱為"基于鏈接分析的個(gè)性化搜索引擎方法"中公開(kāi)的技術(shù)方案，是通過(guò)建立知識(shí)網(wǎng)絡(luò)模型描述用戶興趣，建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點(diǎn)之間鏈接的不同類別，進(jìn)而在此基礎(chǔ)上展開(kāi)鏈接分析得到搜索結(jié)果。(三)
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種在搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷，符合用戶興趣的個(gè)性化搜索引擎的一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明的搜索引擎由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成，其中信息抓取模塊由抓取程序和索引程序組成，因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊，信息抓取模塊的輸出連接用戶個(gè)性分析模塊，用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊，信息檢索模塊與用戶個(gè)性分析模塊，信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。本發(fā)明的搜索引擎的搜索方法為(1)信息抓取模塊從配置了需要抓取的URL的Web庫(kù)中獲取抓取列表，提交給抓取程序，通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序，同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容；(2)信息檢索模塊獲取用戶的査詢請(qǐng)求，提取用戶客戶端的興趣記錄，同時(shí)把査詢結(jié)果返回給用戶，信息檢索模塊將用戶興趣記錄與査詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊；用戶個(gè)性分析模塊生成用戶特征向量提交給索引器/查詢分析器；索引器/查詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到查詢結(jié)果；最后通過(guò)信息檢索模塊返回給用戶。本發(fā)明的搜索方法還可以包括1.所述的用戶興趣記錄的獲取方法為搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果的行為，對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄，用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的訪問(wèn)并記錄我的興趣鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站，并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。2.所述的用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。3.所述的用戶個(gè)性分析模塊生成用戶特征向量是將用戶興趣記錄抽象成一個(gè)向量，同時(shí)根據(jù)用戶興趣記錄與信息源文本集、即抓取模塊所維護(hù)的信息庫(kù)的相似性特征。4.所述的用戶個(gè)性分析模塊生成用戶特征向量還包括進(jìn)一步抽象成基于關(guān)鍵字權(quán)重的向量。本發(fā)明基于現(xiàn)今個(gè)性搜索的不足，提出了一種輕量級(jí)的個(gè)性化搜索引擎的設(shè)計(jì)思想與實(shí)現(xiàn)方法。所謂輕量級(jí)是指在搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷，充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索。通過(guò)客戶端的存儲(chǔ)與服務(wù)器端的用戶行為跟蹤引擎的結(jié)合，本發(fā)明給出了針對(duì)用戶不同需求，符合用戶興趣的個(gè)性化搜索引擎的解決方案。整個(gè)系統(tǒng)由"信息抓取模塊"，"信息檢索模塊"和"用戶個(gè)性分析模塊"三部分。其中"信息抓取模塊"由"抓取程序"和"索引程序"組成；"信息檢索模塊"與"用戶個(gè)性分析模塊"結(jié)合提供個(gè)性化檢索服務(wù)。整體結(jié)構(gòu)圖如圖1所示，可以看出虛線左側(cè)負(fù)責(zé)搜索引擎數(shù)據(jù)的抓取，虛線右側(cè)負(fù)責(zé)搜索引擎的搜索。本發(fā)明的主要特點(diǎn)體現(xiàn)在(1)搜索引擎的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷，充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索；(2)根據(jù)用戶的不同需求來(lái)對(duì)査詢結(jié)果進(jìn)行排序，也就是針對(duì)不同用戶的個(gè)性化定制；(3)基于向量空間的個(gè)性化檢索模型。(四)附圖是本發(fā)明的框圖。具體實(shí)施方式本發(fā)明的搜索引擎由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成，其中信息抓取模塊由抓取程序和索引程序組成，因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊，信息抓取模塊的輸出連接用戶個(gè)性分析模塊，用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊，信息檢索模塊與用戶個(gè)性分析模塊，信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。結(jié)合圖l，虛線左側(cè)負(fù)責(zé)搜索引擎數(shù)據(jù)的抓取，虛線右側(cè)負(fù)責(zé)搜索引擎的搜索。(1)信息抓取模塊從Web庫(kù)(配置了需要抓取的URL)中獲取抓取列表，提交給抓取程序，通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序，同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容。(2)信息檢索模塊是用戶與搜索引擎的一個(gè)接口，它可以獲取用戶的査詢請(qǐng)求，提取用戶客戶端的興趣記錄，同時(shí)可以把査詢結(jié)果返回給用戶。信息檢索模塊將用戶興趣記錄與查詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊；用戶個(gè)性分析模塊生成用戶特征向量提交給索引器；索引器/查詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到査詢結(jié)果；最后通過(guò)信息檢索模塊(搜索接口)返回給用戶。1.用戶興趣記錄的獲取用戶搜索關(guān)鍵字和點(diǎn)擊的搜索結(jié)果鏈接網(wǎng)址在一定程度上能反映出用戶的訪問(wèn)偏好，相比之下，搜索結(jié)果網(wǎng)址鏈接比搜索關(guān)鍵字更能體現(xiàn)用戶實(shí)際的興趣，因?yàn)橛脩艨赡車L試性地輸入某關(guān)鍵字后發(fā)現(xiàn)無(wú)感興趣的內(nèi)容時(shí)，往往不會(huì)去點(diǎn)擊搜索結(jié)果中的鏈接。同時(shí)對(duì)于是否獲取用戶訪問(wèn)記錄也涉及到用戶隱私問(wèn)題，需要由用戶自由決定是否讓搜索引擎記錄用戶興趣。搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果事性的行為(連同搜索的關(guān)鍵字)，對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄，因?yàn)楹笳呦鄬?duì)于前者來(lái)說(shuō)意思不是太大。關(guān)于用戶隱私與自主性，用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的"訪問(wèn)并記錄我的興趣"鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站，并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。2.用戶興趣記錄的存儲(chǔ)搜索引擎需要根據(jù)用戶的興趣來(lái)返回搜索結(jié)果，但是在服務(wù)器端的搜索引擎如何獲取這些用戶興趣是一個(gè)需要解決的問(wèn)題，同時(shí)在獲取這些用戶興趣記錄的同時(shí)還要保證盡量小的額外開(kāi)銷。記錄用戶興趣的方式一般方法是在搜索引擎服務(wù)器端建立用戶注冊(cè)信息表，為每一個(gè)搜索的用戶維護(hù)用戶注冊(cè)信息，同時(shí)記錄每個(gè)用戶的訪問(wèn)行為。但是這有兩個(gè)缺點(diǎn)，一是在服務(wù)器端需要額外的龐大的存儲(chǔ)開(kāi)銷，二是每次用戶訪問(wèn)時(shí)都要更新用戶行為表中的記錄，就算采用session延遲寫入數(shù)據(jù)庫(kù)的方式來(lái)記錄用戶訪問(wèn)行為，也會(huì)因?yàn)榉?wù)器端需要?jiǎng)?chuàng)建大量的session會(huì)話而消耗服務(wù)器內(nèi)存資源，對(duì)于面向全網(wǎng)的搜索引擎來(lái)說(shuō)，其開(kāi)銷更是不可想象。輕量級(jí)個(gè)性化搜索引擎用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。Cookie是服務(wù)器發(fā)送給瀏覽器的體積很小的純文本信息，用戶以后訪問(wèn)同一個(gè)Web服務(wù)器時(shí)瀏覽器會(huì)把它們?cè)瓨影l(fā)送給服務(wù)器。通過(guò)讓服務(wù)器讀取它原先保存到客戶端的信息，網(wǎng)站能夠?yàn)闉g覽者提供一系列的方便。同時(shí)，由于瀏覽器一般只允許存放300個(gè)Cookie,每個(gè)站點(diǎn)最多存放20個(gè)Cookie,每個(gè)Cookie的大小限制為4KB，因此Cookie不會(huì)占用搜索引擎用戶的客戶機(jī)太多資源，更不會(huì)被用作"拒絕服務(wù)"攻擊手段，也避免了一些采用登錄搜索方式中維護(hù)大量用戶注冊(cè)信息與行為信息的開(kāi)銷。另外還可以利用cookie的存儲(chǔ)來(lái)實(shí)現(xiàn)用戶的訪問(wèn)歷史搜索記錄。3.基于向量空間的個(gè)性化檢索模型在獲取用戶興趣記錄并在用戶客戶機(jī)存儲(chǔ)用戶訪問(wèn)行為之后，如何根據(jù)用戶興趣記錄來(lái)對(duì)搜索結(jié)果重新排序，并返回針對(duì)用戶偏好的不同的搜索結(jié)果是搜索引擎需要解決的另一個(gè)重要問(wèn)題。這需要在算法上實(shí)現(xiàn)個(gè)性化査詢，個(gè)性化査詢應(yīng)該在普通査詢的基礎(chǔ)上，根據(jù)用戶興趣記錄來(lái)對(duì)普通查詢結(jié)果進(jìn)行過(guò)濾和非序，使查詢結(jié)果趨向于反映用戶的個(gè)人需要。普通搜索引擎的査詢遵循了向量空間模型，"抓取模塊"所得到的信息源頁(yè)面是以基于關(guān)鍵字權(quán)值的向量的形式存在于索引庫(kù)中，搜索關(guān)鍵字與信息源頁(yè)面存在一種相關(guān)性?？紤]到用戶興趣記錄中的搜索關(guān)鍵字和訪問(wèn)網(wǎng)站信息與普通搜索時(shí)的關(guān)鍵字之間的相似性，本方法可以基于此引入用戶特征向量的概念，將用戶興趣記錄抽象成一個(gè)向量，同時(shí)根據(jù)用戶興趣記錄與信息源文本集(抓取模塊所維護(hù)的信息庫(kù))的相似性特征，用戶模型也可以進(jìn)一步抽象成基于關(guān)鍵字權(quán)重的向量。下面是本發(fā)明的一個(gè)具體實(shí)例-1用戶興趣的獲取用戶的行為可以通過(guò)其訪問(wèn)的網(wǎng)站信息來(lái)反映，所以可以將在一定時(shí)期內(nèi)一定數(shù)量的網(wǎng)站信息來(lái)作為記錄用戶興趣的模型InterestWeb。模型的各屬性如下:<table>tableseeoriginaldocumentpage8</column></row><table>用戶輸入關(guān)鍵字搜索后，在搜索結(jié)果列表中，若點(diǎn)擊"訪問(wèn)并記住我的興趣"鏈接后，系統(tǒng)將首先調(diào)用搜索引擎的用戶興趣記錄獲取程序，將用戶所點(diǎn)擊列表項(xiàng)對(duì)應(yīng)的網(wǎng)站的標(biāo)題、網(wǎng)址、快照地址和摘要組裝成interestWeb對(duì)象同時(shí)傳遞給用戶興趣記錄存儲(chǔ)程序，并利用3.2的方案來(lái)實(shí)現(xiàn)用戶興趣記錄的存儲(chǔ)。注意，如果用戶輸入關(guān)鍵字搜索后，未點(diǎn)"訪問(wèn)并記住我的興趣"鏈接，系統(tǒng)將不會(huì)在用戶客戶機(jī)上記錄訪問(wèn)信息，同時(shí)在下次搜索時(shí)也不會(huì)為該訪問(wèn)記錄重新排序。這也在一定程度上體現(xiàn)了個(gè)性化搜索引擎的用戶自主性。2用戶興趣記錄的存儲(chǔ)搜索引擎可以為用戶創(chuàng)建M(0〈M<10)個(gè)cookie。在cookie個(gè)數(shù)未超過(guò)上限時(shí)，用戶每搜索一個(gè)關(guān)鍵字并點(diǎn)擊"興趣訪問(wèn)"鏈接時(shí)，cookie將增加一條cookie記錄，cookie由cookie名禾卩cookie值組成，cookie名預(yù)置成"key01,key02，…，keyM"，每條cookie值的記錄格式如下標(biāo)題"用戶關(guān)鍵字槲網(wǎng)站l標(biāo)題ll網(wǎng)站l網(wǎng)址ll網(wǎng)站l快照l(shuí)1網(wǎng)站1摘要$$網(wǎng)站2標(biāo)題|l網(wǎng)站2網(wǎng)址ll網(wǎng)站2快照l(shuí)|網(wǎng)站2摘要$$......SS網(wǎng)站N標(biāo)題Il網(wǎng)站N網(wǎng)址Il網(wǎng)站N快照l(shuí)l網(wǎng)站N摘要"(0<N〈6)字符編碼采用UTF-8格式，另外cookie的名和值不能包含cookie的名字和值不能包含空格和[]()=,〃/@:;字符，所以在原字符串轉(zhuǎn)換成UTF-8存儲(chǔ)之前需要進(jìn)行字符串轉(zhuǎn)換，如titleStr二R印lace(titleStr，〃&equal〃,〃=〃)將字符串的轉(zhuǎn)換成&equal，字符串的替換由自定義方法toCookieStr(String)來(lái)實(shí)現(xiàn)。存儲(chǔ)算法如下(其中M為搜索引擎為每個(gè)用戶保存興趣關(guān)鍵字cookie項(xiàng)的上限值，N為搜索引擎為每個(gè)用戶某關(guān)鍵字存儲(chǔ)歷史訪問(wèn)記錄的上限值)1)接收interestWeb對(duì)象；2)取出對(duì)象中的已經(jīng)過(guò)UTF-8編碼的各屬性關(guān)鍵字(key)、網(wǎng)站標(biāo)題(title)、網(wǎng)址(url)快照地址(cachedUrl)和摘要(summary);并將各字符串通過(guò)toCookieStr(String)方法轉(zhuǎn)換成適應(yīng)cookie存儲(chǔ)的格式；3)根據(jù)關(guān)鍵字key，設(shè)置計(jì)數(shù)器i，在i小于M的情況下遍歷cookie中的cookie項(xiàng)，査找cookie中貼前的字符串Str01dPre與關(guān)鍵字key匹配的cookie項(xiàng)，若找到匹配的項(xiàng)則退出循環(huán)。根據(jù)計(jì)數(shù)器最終的結(jié)果i，若i小于M說(shuō)明找到匹配轉(zhuǎn)4)，否則轉(zhuǎn)5);4)得到cookie名"key"+i;5)拼接待存儲(chǔ)串StrNew，title+”II”，，+url+,，II，，+cachedUrl+，，||，，十s醒a(bǔ)ry;6)取出cookie項(xiàng)中鼎后的字符串Str01dSuc，用split("\\$\\$")方法將該字符串分隔成字符數(shù)組，判斷數(shù)組長(zhǎng)度是否超過(guò)N，若數(shù)組長(zhǎng)度不超過(guò)N則轉(zhuǎn)7),否則轉(zhuǎn)8);7)修改新cookie項(xiàng)為原cookie串##前字符串Str01dPre+"##"+待存儲(chǔ)串StrNew+"$$"+原cookie串##后字符串Str01dSuc，將新串存入cookie,替換原cookie項(xiàng)，轉(zhuǎn)13);8)去除原串最后一個(gè)"$$"符后面的字符串(連同"$$"符)得到字符串Str01dSucTemp;修改新cookie項(xiàng)為原cookie串###前符串+"##"+待存儲(chǔ)串+"$$"+Str01ldSucTemp，將新串存入cookie,替換原cookie項(xiàng)，轉(zhuǎn)13);9)根據(jù)i生成cookie名"key"+(i+l);10)拼接待存儲(chǔ)串StrNew，key+"抑"+title+"||"+url+，，II，，+cachedUrl+，，||，，+summary;11)設(shè)置cookie項(xiàng)目生命周期；12)將新cookie項(xiàng)存入cookie中；結(jié)束。3基于向量空間的個(gè)性化檢索模型1)在用戶提交搜索時(shí)，搜索引擎將同時(shí)獲取用戶搜索關(guān)鍵字和用戶興趣記錄，如果未能獲取用戶興趣記錄或用戶興趣記錄為空，則搜索引擎進(jìn)行普通查詢并返回結(jié)果。如果獲取了用戶興趣記錄，則搜索引擎將用戶興趣交由"用戶個(gè)性分析模塊"處理，處理過(guò)程算法如下2)搜索引擎讀取cookie,將每一個(gè)cookie項(xiàng)中用"$$"分隔的字符串轉(zhuǎn)換成interestWeb對(duì)象，將key01-keyM的所有cookie項(xiàng)轉(zhuǎn)換成用戶興趣訪問(wèn)列表interestWebList;3)遍歷interestWebList，抽取各關(guān)鍵字，存入用戶興趣關(guān)鍵字向量interestKeyVector;4)抽取各網(wǎng)站標(biāo)題interestWeb.getTitle()，對(duì)網(wǎng)站標(biāo)題進(jìn)行分詞處理，得到多個(gè)次關(guān)鍵字，將這些次關(guān)鍵字附加到用戶興趣關(guān)鍵字向量interestKeyVector中；5)建立用戶興趣關(guān)鍵字權(quán)值向量interestWeightVector，目前認(rèn)定這些用戶興趣關(guān)鍵字權(quán)值是相同的，將interestWeightVector中各值初始化成1。其中，分詞也是搜索引擎需要解決的重要問(wèn)題，中文分詞不同于英文分詞，因?yàn)橛⑽膯卧~之間的空格足以區(qū)分不同的査詢關(guān)鍵字，而中文固有的特征決定了需要采取更有效的方式來(lái)實(shí)現(xiàn)分詞。一般的分詞方式有三種1)單字切分中文搜索詞一個(gè)一個(gè)單字分開(kāi)來(lái)。這種方式的優(yōu)點(diǎn)是分詞算法簡(jiǎn)單，最大的缺點(diǎn)是會(huì)極大增加索引，相應(yīng)地，索引條目的內(nèi)容也會(huì)增多，嚴(yán)重影響搜索效率。2)二分法對(duì)中文搜索詞中每?jī)蓚€(gè)字進(jìn)行次切分，比如，對(duì)搜索詞"計(jì)算機(jī)學(xué)院"進(jìn)行二分法切分后得到的關(guān)鍵字將會(huì)是"計(jì)算/算機(jī)/機(jī)學(xué)/學(xué)院"。這種分詞方式只是機(jī)械地對(duì)搜索詞進(jìn)行切分，不考慮詞義與詞法，所以會(huì)產(chǎn)生大量的無(wú)用關(guān)鍵字，同時(shí)增加了無(wú)用的索引開(kāi)銷。3)詞庫(kù)分詞這是目前最理想的中文分詞方式，方式是根據(jù)已經(jīng)建立好的詞的集合，即詞庫(kù)來(lái)匹配搜索詞的子串。比如，詞庫(kù)中已經(jīng)存在"計(jì)算機(jī)"、"學(xué)院"和"計(jì)算機(jī)學(xué)院"三個(gè)詞，則"計(jì)算機(jī)學(xué)院"便可以切分成這三個(gè)關(guān)鍵字。假設(shè)搜索引擎中"抓取模塊"獲取的索引庫(kù)中，每個(gè)URL包含的關(guān)鍵字身量為尺=(n…人)其中n…人該URL中的關(guān)鍵字每個(gè)關(guān)鍵字的權(quán)值向量為'F=(Vl，V2，""v)其中v"v"…，v"是每個(gè)關(guān)鍵字對(duì)應(yīng)的權(quán)值用戶興趣模型中用戶特征向量為[/=(Ml，"2，"")其中"""2"'"""是用戶興趣關(guān)鍵字(包括分詞后的次關(guān)鍵字)，用戶興趣模型中每個(gè)關(guān)鍵字的權(quán)值都設(shè)置為默認(rèn)值l。接下去的任務(wù)是建立用戶興趣模型與信息源文本集之間的相關(guān)性，相關(guān)性的算法如下1)搜索引擎通過(guò)普通査詢得到初始査詢結(jié)果；2)對(duì)于1)中査詢結(jié)果中給出的各URL，篩選符合條件《門U^0的URL，其中0為空集，若不存在這些URL轉(zhuǎn)5)，否則轉(zhuǎn)3);3)為滿足條件的URL計(jì)算與用戶興趣模型之間的相關(guān)性S-J^(1"'《")，其中K的計(jì)算方法為若Ae《，且^=、J化=v尸否則K=04)排除相關(guān)性為零的頁(yè)面，按相關(guān)性S從大到小對(duì)搜索結(jié)果進(jìn)行排序，最后將結(jié)果返回給用戶，轉(zhuǎn)6);5)將普通査詢結(jié)果返回給用戶；6)結(jié)束。權(quán)利要求1、一種輕量級(jí)個(gè)性化搜索引擎，由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成，其特征是其中信息抓取模塊由抓取程序和索引程序組成，因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊，信息抓取模塊的輸出連接用戶個(gè)性分析模塊，用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊，信息檢索模塊與用戶個(gè)性分析模塊，信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。2、一種輕量級(jí)個(gè)性化搜索引擎的搜索方法，其特征是(1)信息抓取模塊從配置了需要抓取的URL的Web庫(kù)中獲取抓取列表，提交給抓取程序，通過(guò)抓取程序抓取因特網(wǎng)信息資源提交給索引程序，同時(shí)根據(jù)需要更新Web庫(kù)內(nèi)容；(2)信息檢索模塊獲取用戶的査詢請(qǐng)求，提取用戶客戶端的興趣記錄，同時(shí)把査詢結(jié)果返回給用戶，信息檢索模塊將用戶興趣記錄與査詢關(guān)鍵字同時(shí)提交給用戶個(gè)性分析模塊；用戶個(gè)性分析模塊生成用戶特征向量提交給索引器/査詢分析器索引器/査詢分析器根據(jù)索引庫(kù)中的信息與用戶特征向量結(jié)合得到査詢結(jié)果；最后通過(guò)信息檢索模塊返回給用戶。3、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法，其特征是所述的用戶興趣記錄的獲取方法為搜索引擎記錄用戶的點(diǎn)擊搜索結(jié)果的行為，對(duì)于只點(diǎn)搜索表單按鈕而未訪問(wèn)搜索結(jié)果的行為不予記錄，用戶可以通過(guò)點(diǎn)擊搜索結(jié)果中的"訪問(wèn)并記錄我的興趣"鏈接來(lái)訪問(wèn)搜索結(jié)果列表中感興趣的網(wǎng)站，并讓搜索引擎存儲(chǔ)訪問(wèn)記錄。4、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法，其特征是所述的用戶興趣記錄采用cookie形式存儲(chǔ)在用戶的客戶機(jī)中。5、根據(jù)權(quán)利要求2所述的一種輕量級(jí)個(gè)性化搜索引擎的搜索方法，其特征是所述的用戶個(gè)性分析模塊生成用戶特征向量是將用戶興趣記錄抽象成一個(gè)向量，同時(shí)根據(jù)用戶興趣記錄與信息源文本集、即抓取模塊所維護(hù)的信息庫(kù)的相似性特征。6、根據(jù)權(quán)利要求5所述的一種輕M:級(jí)個(gè)性化搜索引擎的搜索方法，其特征是所述的用戶個(gè)性分析模塊生成用戶特征向量還包括進(jìn)一歩抽象成基于關(guān)鍵字權(quán)重的向量。全文摘要本發(fā)明提供的是一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法。由信息抓取模塊、信息檢索模塊和用戶個(gè)性分析模塊三部分連接組成，其中信息抓取模塊由抓取程序和索引程序組成，因特網(wǎng)信息資源和Web庫(kù)接入信息抓取模塊，信息抓取模塊的輸出連接用戶個(gè)性分析模塊，用戶興趣記錄與查詢關(guān)鍵字輸入信息檢索模塊，信息檢索模塊與用戶個(gè)性分析模塊，信息檢索模塊與用戶個(gè)性分析模塊結(jié)合提供個(gè)性化檢索服務(wù)。本發(fā)明的服務(wù)器端不需要增加存儲(chǔ)開(kāi)銷，充分利用客戶端的資源來(lái)實(shí)現(xiàn)個(gè)性化的搜索。通過(guò)客戶端的存儲(chǔ)與服務(wù)器端的用戶行為跟蹤引擎的結(jié)合，本發(fā)明給出了針對(duì)用戶不同需求，符合用戶興趣的個(gè)性化搜索引擎的解決方案。文檔編號(hào)G06F17/30GK101127043SQ200710072608公開(kāi)日2008年2月20日申請(qǐng)日期2007年8月3日優(yōu)先權(quán)日2007年8月3日發(fā)明者研初,寒吳,張健沛,張澤寶,潑徐,磊徐,李泓波,李連江,靜楊,董喜雙申請(qǐng)人:哈爾濱工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張健沛;楊靜;徐潑;初研;張澤寶;李泓波;徐磊;李連江;董喜雙;吳寒
技術(shù)所有人：哈爾濱工程大學(xué)
我是此專利的發(fā)明人

上一篇：引領(lǐng)web2.0網(wǎng)絡(luò)互動(dòng)商業(yè)運(yùn)作方法
上一篇：一種通用的自主數(shù)據(jù)采集方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

個(gè)性化搜索引擎相關(guān)技術(shù)

seo搜索引擎優(yōu)化方法相關(guān)技術(shù)

搜索引擎優(yōu)化方法相關(guān)技術(shù)

搜索引擎推廣方法相關(guān)技術(shù)

搜索引擎優(yōu)化的方法相關(guān)技術(shù)

方法搜索引擎排名優(yōu)化相關(guān)技術(shù)

搜索引擎的使用方法相關(guān)技術(shù)

搜索引擎使用方法相關(guān)技術(shù)

沈陽(yáng)搜索引擎推廣方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種輕量級(jí)個(gè)性化搜索引擎及其搜索方法