專利名稱:基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計(jì)算機(jī)技術(shù)的內(nèi)容管理系統(tǒng)及其實(shí)現(xiàn)方法,特別是涉及一種在反饋 式搜索引擎框架下實(shí)現(xiàn)網(wǎng)頁內(nèi)容相關(guān)性挖掘的方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展,搜索引擎已成為WEB用戶獲取網(wǎng)絡(luò)資源的最主要途徑。目 前主流的搜索引擎主要根據(jù)用戶輸入的査詢?cè)~在網(wǎng)頁中的出現(xiàn)頻率,同時(shí)輔以網(wǎng)頁權(quán)威 性等信息,從而生成相關(guān)聯(lián)的査詢結(jié)果。但由于WEB用戶提交的關(guān)鍵字一般很簡短,且 可能有歧義,導(dǎo)致搜索引擎無法確定用戶所需要的網(wǎng)頁,降低了搜索結(jié)果的準(zhǔn)確性,也 影響了檢索信息的中肯度(包括査全和查準(zhǔn)兩方面的綜合評(píng)價(jià))?,F(xiàn)有的搜索引擎所常用的個(gè)性化搜索的方法有以下四種不同的設(shè)計(jì)技巧1、 類別搜索方法對(duì)網(wǎng)頁數(shù)據(jù)庫進(jìn)行信息預(yù)分類,然后設(shè)法確定用戶需要哪一類的網(wǎng)頁,如果用戶單擊其中一個(gè)類別,然后再使用搜索引擎,將可以選擇搜索整個(gè)Internet還是搜索當(dāng)前 類別。此類目錄式搜索引擎,目前最有代表性的分類目錄式搜索引擎如雅虎。但是,它 存在以下問題 一方面,為了提交給用戶一組最中肯的搜索結(jié)果,往往需要借助很細(xì)的 類別劃分粒度來進(jìn)行預(yù)分類處理,但是細(xì)類別劃分粒度下往往導(dǎo)致大量的分類交叉。另 一方面,單純根據(jù)用戶給出的關(guān)鍵詞,往往無法精確定位到用戶想要搜索的類別。2、 利用用戶個(gè)性配置與關(guān)鍵詞結(jié)合的搜索方法將系統(tǒng)記錄的用戶個(gè)性信息與用戶輸入的關(guān)鍵字一起構(gòu)成査詢條件,為用戶提供符 合個(gè)人需要的査詢結(jié)果。這種方法除了需要對(duì)網(wǎng)頁分類,還需長期跟蹤用戶行為,這就必須假定用戶行為是平穩(wěn)的。web用戶集體行為具有一定的自相似特征,即持續(xù)的突發(fā) 性。因此單用戶行為的時(shí)域平穩(wěn)性假定須謹(jǐn)慎對(duì)待。直觀地說,在此類搜索設(shè)計(jì)方法中, 并不能根據(jù)用戶行為的歷史統(tǒng)計(jì)特征并推測出該用戶經(jīng)??赡馨l(fā)生的具有一定持續(xù)性 的未來行為,原因是事實(shí)中存在用戶的興趣轉(zhuǎn)移。持續(xù)性的興趣轉(zhuǎn)移效應(yīng)對(duì)用戶行為造 成的影響不應(yīng)被簡單忽略。因此,該方法在設(shè)計(jì)上存在難度,使用中存在不可預(yù)期的風(fēng) 險(xiǎn)。3、 基于點(diǎn)擊量(click popularity)與粘性參數(shù)(stickiness)排序結(jié)果的搜索方法該方法通過分析用戶的行為信息決定搜索結(jié)果鏈接的排列位置。具體做法如DirectHit排序系統(tǒng)目前被Lycos、 Hotbot、 MSN及很多其它搜索引擎所使用。其中, 點(diǎn)擊量是對(duì)搜索引擎結(jié)果頁面上的鏈接被用戶點(diǎn)擊的次數(shù)的統(tǒng)計(jì),粘性是對(duì)用戶在某個(gè) 網(wǎng)站上停留的時(shí)間長度的統(tǒng)計(jì)。該方法的缺點(diǎn)是對(duì)于通用搜索引擎,當(dāng)遇到多義性的 査詢關(guān)鍵詞時(shí);該方法由于忽視"一詞多義"的問題,使得鏈接與査詢語句的相關(guān)度更 多的取決于關(guān)注這個(gè)鏈接的人數(shù),這樣的搜索結(jié)果會(huì)有缺失。 4、超鏈接分析的搜索方法基于互聯(lián)網(wǎng)的超鏈接結(jié)構(gòu)評(píng)價(jià)網(wǎng)頁的權(quán)威性,這種方法專注于評(píng)價(jià)網(wǎng)頁本身的質(zhì)量 而不是查詢?cè)~和網(wǎng)頁之間的相關(guān)度。其出發(fā)點(diǎn) 一個(gè)網(wǎng)頁有較高的關(guān)注度則說明它是被 很多用戶推薦的,由此說明這個(gè)網(wǎng)頁是一個(gè)高質(zhì)量的網(wǎng)頁。但是,在我們看來,網(wǎng)頁在 搜索引擎結(jié)果中的排列位置不僅與網(wǎng)頁本身的質(zhì)量相關(guān),更重要的是網(wǎng)頁與查詢?cè)~以及 用戶興趣的相關(guān)度,這兩者之間并不存在本質(zhì)上的沖突。而通過分析網(wǎng)頁的關(guān)注度來評(píng) 價(jià)網(wǎng)頁的質(zhì)量則無助于計(jì)算網(wǎng)頁與查詢語句的相關(guān)度。一些現(xiàn)有技術(shù)也試圖利用海量clickthrough數(shù)據(jù)改進(jìn)檢索結(jié)果的中肯性。這類技 術(shù)大致可歸入兩個(gè)方向。第一個(gè)方向是通過分析clickthrough數(shù)據(jù)來優(yōu)化搜索引擎中 的ranking函數(shù);第二個(gè)方向是通過分析clickthrough數(shù)據(jù)來抽取用戶偏好的信息。 近來,將ranking SVM擴(kuò)展到一種co-training框架以解決部分clickthrough數(shù)據(jù)未 標(biāo)定的問題,利用spy naive bayes方法學(xué)習(xí)基于特定用戶偏好的ranking函數(shù)。但是, 無論所希望學(xué)習(xí)的ranking函數(shù)是否基于特定用戶偏好,ranking的系統(tǒng)都有查詢依賴 性(query d印endent)的,有必要考慮使用二元ranking函數(shù)r(qi,dj)。這里qi是 第i個(gè)査詢,dj是第j個(gè)文本。由于可能查詢潛在的無限性,使得ranking函數(shù)難以 在實(shí)際搜索引擎的大規(guī)模開放環(huán)境中被有效學(xué)習(xí)。因此,如何克服上述各現(xiàn)有方法的缺陷,從而提高搜索引擎中用戶所關(guān)心的搜索 結(jié)果的中肯度,是本發(fā)明中要解決的問題。發(fā)明內(nèi)容為了提供給用戶更為準(zhǔn)確和個(gè)性化的信息,本發(fā)明提出一種基于內(nèi)容相關(guān)性挖掘的 反饋式搜索引擎系統(tǒng)(FSE)及其數(shù)據(jù)相關(guān)方法,能夠根據(jù)用戶反饋提供擴(kuò)展查詢,即 對(duì)于一次查詢事件,首先生成一組初始査詢結(jié)果;在當(dāng)前用戶點(diǎn)擊了初始査詢結(jié)果中的 某個(gè)網(wǎng)頁(稱為目標(biāo)網(wǎng)頁)后,再從系統(tǒng)網(wǎng)頁庫中選擇一組與目標(biāo)網(wǎng)頁內(nèi)容相關(guān)性較高 的網(wǎng)頁作為擴(kuò)展查詢結(jié)果提交給用戶,這樣一來,所提供的擴(kuò)展查詢結(jié)果將與查詢?cè)~和 反映當(dāng)前用戶需求的目標(biāo)網(wǎng)頁都具有較高的相關(guān)性,能夠更有效滿足用戶的查詢需求。本發(fā)明提出了一種基于內(nèi)容相關(guān)性的反饋式搜索方法,該方法包括以下步驟-當(dāng)收到一個(gè)查詢請(qǐng)求時(shí),利用主流搜索引擎生成初始査詢結(jié)果集; 當(dāng)前用戶査看査詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后,獲取該目標(biāo)網(wǎng)頁的ID,并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性;將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的査詢結(jié)果提交給用戶; 其中,網(wǎng)頁相關(guān)性矩陣K的建立,包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣^x";由e"x"確定一個(gè)有向圖^c,求解Gc上各結(jié)點(diǎn)之間的概率可達(dá)性,基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,。所述網(wǎng)頁相關(guān)性矩陣K的建立,該步驟還包括對(duì)概率可達(dá)性矩陣M,進(jìn)行降維,獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、 所述對(duì)概率可達(dá)性矩陣M國進(jìn)行降維,該步驟還包括令M:[x"^,…,x";T, x'eR",選出矩陣M中方差最大的k個(gè)列,這k個(gè)列組成的矩陣為Mw,將其嵌入所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該步驟還包括給定一個(gè)有向圖G =< F,£, ^ > ,其中每條邊 < "' > 有一個(gè)可靠度~ ,且Q < ~ ^1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積,即"(尸)=n &,所有路中可靠度最大的路作為最大可靠路;對(duì)于V〈/,y、eE,令、=_1^/7'';,求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有 點(diǎn)對(duì)間關(guān)于w的最短路;網(wǎng)頁z'到的概率可達(dá)性M"計(jì)算公式為M,,y = ," , /w是點(diǎn)i禾P j之間的最大可 靠路長度。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,,該步驟還包括 依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn),重復(fù)執(zhí)行以下仿真過程,依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)Z分配的細(xì)胞,數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走,即處于源結(jié)點(diǎn)z'的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)y的概率為^";依此類推,在每個(gè)批次的隨機(jī)行走結(jié)束后,記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù),記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《;在Cx個(gè)批次的隨機(jī)行走結(jié)束后,定義M,max^;"'""々"/"cr,其中^=6。本發(fā)明還提出一種直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法,建立網(wǎng)頁相關(guān)性矩陣K,該方法包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣e"^ ;由e"x"確定一個(gè)有向圖^c,求解^c上各結(jié)點(diǎn)之間的概率可達(dá)性,基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,。所述網(wǎng)頁相關(guān)性矩陣K的建立,該步驟還包括對(duì)概率可達(dá)性矩陣M"x"進(jìn)行降維,獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、所述對(duì)概率可達(dá)性矩陣M,進(jìn)行降維,該步驟還包括令M:[x"、,…,x"f ,xieRn,選出矩陣M中方差最大的k個(gè)列,這k個(gè)列組成的矩陣為Mw,將其嵌入IIMwt ("。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該步驟還包括 給定一個(gè)有向圖G =< F,£, ^ > ,其中每條邊< A ■/ >有一個(gè)可靠度& ,且Q < P"《1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積,即w)= n i<w>"w ,所有路中可靠度最大的路作為最大可靠路;對(duì)于V < 〉e £ ,令、=-k)g;^ ,求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有 點(diǎn)對(duì)間關(guān)于w的最短路;網(wǎng)頁z'到7'的概率可達(dá)性M"計(jì)算公式為M,》=e—'",、是點(diǎn)i和j之間的最大可 靠路長度。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,,該步驟還包括 依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn),重復(fù)執(zhí)行以下仿真過程,依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)z'分配的細(xì)胞,數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走,即處于源結(jié)點(diǎn)z'的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^";依此類推,在每個(gè)批次的隨機(jī)行走結(jié)束后,記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù),記第t步 隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《;在Cx個(gè)批次的隨機(jī)行走結(jié)束后,定義M^max—),…,"個(gè)^:其中^=6。與已有技術(shù)相比,本發(fā)明避免了學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性, 具有與通用搜索引擎相適應(yīng)的時(shí)空效率。與基于網(wǎng)頁分類的方法相比,本查詢擴(kuò)展系統(tǒng) 通過取消類別的概念,代以網(wǎng)頁級(jí)的相關(guān)性分析,可解決類別劃分的粒度一歸屬難題; 與基于用戶個(gè)性配置文件跟蹤的方法相比,F(xiàn)SE利用具有統(tǒng)計(jì)平穩(wěn)性的網(wǎng)頁內(nèi)容相關(guān)性 信息,不需長期跟蹤特定用戶的行為,即可為該用戶提供統(tǒng)計(jì)意義上的優(yōu)化服務(wù);與基 于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相比,F(xiàn)SE可有效解決一義多詞和一詞多義問題。
圖1為本發(fā)明的基于內(nèi)容相關(guān)性的反饋式搜索方法的整體流程圖。圖2為本發(fā)明的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法的網(wǎng)頁相關(guān)性矩陣K的建立流程圖。
具體實(shí)施方式
反饋式搜索引擎系統(tǒng)(FSE)的查詢擴(kuò)展機(jī)制依賴于對(duì)網(wǎng)頁內(nèi)容相關(guān)性的定義。本 發(fā)明根據(jù)任意兩個(gè)網(wǎng)頁被同時(shí)(指在同一次査詢事件中)打開的次數(shù)來定義其間的內(nèi)容相關(guān)性,即同時(shí)打開的次數(shù)越多,兩個(gè)網(wǎng)頁間的內(nèi)容相關(guān)性越大。在實(shí)際應(yīng)用中,即使 采用稀疏表示,nXn網(wǎng)頁相關(guān)性矩陣的規(guī)模也可能很大,故需使用高效維數(shù)約簡方法 (如直接隨機(jī)映像方法,DRP)方法對(duì)其進(jìn)行壓縮。通常搜索引擎的用戶不會(huì)隨機(jī)的點(diǎn)擊搜索結(jié)果列表上的鏈接,而是作出某種有目的 性的判斷和選擇,用戶更加趨向于點(diǎn)擊那些與他們的需求相吻合的鏈接。因此,點(diǎn)擊數(shù) 據(jù)是一種包含豐富信息的隱性反饋。如果搜索引擎可以提供動(dòng)態(tài)的査詢結(jié)果,使査詢結(jié) 果既與關(guān)鍵詞相關(guān),又與用戶點(diǎn)擊的特定目標(biāo)網(wǎng)頁相關(guān),則可提高搜索結(jié)果對(duì)用戶的可 用性。據(jù)此提出基于點(diǎn)擊數(shù)據(jù)的FSE系統(tǒng)的框架模型如下FSE維護(hù)一個(gè)nXn的網(wǎng)頁相關(guān)性矩陣K,,其第i行j列元素K"代表網(wǎng)頁z'和網(wǎng) 頁7'的內(nèi)容相關(guān)性。Kw的值越大,則表明網(wǎng)頁z'和網(wǎng)頁7'相關(guān)性越強(qiáng)。對(duì)于通用搜索引 擎,即使考慮到數(shù)據(jù)稀疏性,K的存儲(chǔ)和處理開銷也可能非常大。故我們利用先進(jìn)的維數(shù)約簡方法,以獲得K低擾動(dòng)、高壓縮比的約簡表示。因此,在FSE框架中的核心數(shù)據(jù)結(jié)構(gòu)是網(wǎng)頁相關(guān)性矩陣K。下面給出由
時(shí)段的 用戶點(diǎn)擊數(shù)據(jù)建立網(wǎng)頁相關(guān)性矩陣的方法。網(wǎng)頁相關(guān)性矩陣K的建立方法-步驟一由[O,t]時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣e x"。其中e"表示網(wǎng)頁z'和網(wǎng)頁/被同時(shí)點(diǎn)擊(指在同一次査詢事件中被同時(shí)點(diǎn)擊)的次數(shù);步驟二由e,確定一個(gè)有向圖^c, ^c的每個(gè)結(jié)點(diǎn)代表一個(gè)網(wǎng)頁。求解^c上各結(jié) 點(diǎn)之間的概率可達(dá)性,獲得概率可達(dá)性矩陣M,,其第i行j列元素^"表示從網(wǎng)頁z'到網(wǎng)頁y的概率可達(dá)性;步驟三對(duì)M進(jìn)行降維,獲得M的低維壓縮表示矩陣K"";步驟四將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、其第i行j列元素Kw表示網(wǎng) 頁z'和網(wǎng)頁7'的內(nèi)容相關(guān)性。實(shí)際使用中,可以不顯示求出K,而只是在使用K"時(shí)計(jì) 算R中對(duì)應(yīng)行列的內(nèi)積;一個(gè)自然的直覺是,若C"〉G且e^〉G (即網(wǎng)頁z'和y被同時(shí)點(diǎn)擊過,且網(wǎng)頁7'和A:被同時(shí)點(diǎn)擊過),則可能Z和^之間也具有一定的內(nèi)容相關(guān)性。但難以期望實(shí)際的用戶點(diǎn)擊數(shù)據(jù)矩陣C直接滿足此種概率意義上的傳遞性。有兩個(gè)原因1)由主流搜索引擎獲得的用戶點(diǎn)擊數(shù)據(jù),因其固有的ranking機(jī)制,使得網(wǎng)頁對(duì)之間的Co-click關(guān)系存在 顯著的系統(tǒng)偏差。 一個(gè)典型的例子是網(wǎng)頁P(yáng)i與Pj之間具有顯著的內(nèi)容相關(guān)性,但Pj的ranking較低,因而在多數(shù)査詢下難以被用戶點(diǎn)擊,則由矩陣C所反映的Pi與Pj之間的內(nèi)容相關(guān)性必然不合理地低;2)考慮到通用搜索引擎的網(wǎng)頁庫規(guī)模和網(wǎng)頁數(shù)量 的動(dòng)態(tài)增加,在某一具體的時(shí)段內(nèi),用戶點(diǎn)擊數(shù)據(jù)可能很不完備。為了補(bǔ)償上述ranking系統(tǒng)給矩陣C引入的系統(tǒng)偏差和數(shù)據(jù)不充分所導(dǎo)致的問題,我們基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M ,期望M可在一定程度 上反映任意網(wǎng)頁對(duì)之間內(nèi)容相關(guān)性的傳遞性。求出矩陣M之后, 一個(gè)直接的做法是定義網(wǎng)頁相關(guān)性矩陣K^MM、但這樣做時(shí)空開銷太大,所以我們對(duì)矩陣M進(jìn)行降維,獲得其低維表示矩陣R,并定義K為歸 一化的RR、這里所用的降維方法要符合兩個(gè)條件1)降維過程要保持內(nèi)積,即可以用RRT近似MM、 2)降維方法對(duì)于大規(guī)模數(shù)據(jù)集具有現(xiàn)實(shí)的時(shí)空開銷。我們提出的DRP方法較好地滿足了上述兩個(gè)要求。本發(fā)明介紹了兩種計(jì)算概率可達(dá)性的方法,它們分別有不同的應(yīng)用場合。定義有向圖Gc^〈^&^〉,其中「是結(jié)點(diǎn)集合,^是有向邊集合,^是邊權(quán)集合,Vve7代表一個(gè)網(wǎng)頁, / )=1 ,任意邊〈"J〉e五iff P" ^U 。顯然,如此定義的^決定了一個(gè)Markov矩陣,^"表示網(wǎng)頁z'到達(dá)網(wǎng)頁7'的轉(zhuǎn)移概率。下面分別給出求解概率可達(dá)性的兩種方法。 1)基于最大可靠路的概率可達(dá)性方法基于最大可靠路求解概率可達(dá)性的方法是一種精確方法,但其時(shí)間復(fù)雜性較高,只 可用于中小規(guī)模的問題。下面先給出最大可靠路模型 最大可靠路給定一個(gè)有向圖G《「,&P〉, G中每條邊"》、有一個(gè)可靠度7^, 0</^"。n &G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積,即 <">"(/>)。G的所有路中可靠度最大的路稱為最大可靠路。對(duì)于V〈/,y〉eE,令^^-k)g;7w。則求G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于求所有點(diǎn)對(duì)間關(guān)于w的最短路,而后者可由Di jkstra算法求解,其復(fù)雜度為G(l F f lGg I F I)。若圖G中有較多的連通分支,可先確定G的各連通分支,再對(duì)各連通分支分別使用Di jkstra算法,以降低時(shí)間開銷。上面給出了最大可靠路模型及其解法,將求解概率到達(dá)性的問題轉(zhuǎn)化為求解最大可靠路問題。據(jù)此,網(wǎng)頁Z到7'的概率可達(dá)性Mw可由為圖^c中對(duì)應(yīng)點(diǎn)間的最大可靠路獲得,M"計(jì)算公式為M^=e-'", L是點(diǎn)i和j之間的最大可靠路長度。另外,根據(jù)不同的應(yīng)用場合,本發(fā)明還提出了一種基于Markov chain Monte Carlo '(MCMC)的概率可達(dá)性方法。2)基于MCMC的概率可達(dá)性方法。依次選取ec中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn),重復(fù)以下仿真過程,依次求解各源結(jié)點(diǎn)到其 它結(jié)點(diǎn)的概率可達(dá)性首先為當(dāng)前的源結(jié)點(diǎn)(不失一般性,記為當(dāng)前源結(jié)點(diǎn)為O分配 一定數(shù)量(記為"c)的細(xì)胞,然后讓所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走,即處于結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)y的概率為^w,依此類推;在每個(gè)批次(一 個(gè)批次指所有細(xì)胞均隨機(jī)行走一步)的隨機(jī)行走結(jié)束后,記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù),記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《;在,皿個(gè)批次的隨機(jī)行走結(jié)束后,定義M,max—"…,"々^/"、這里規(guī)定^ =6,這是考慮了所謂的6度分離效應(yīng)[20]。上述方法的時(shí)間復(fù)雜度為O(nXncXlogd).其中,d為圖^c中的各頂點(diǎn)最大的出 度。可以證明,當(dāng)細(xì)胞數(shù)量趨近無窮時(shí),上述過程獲得的解收斂于精確方法的解。上面提到的直接隨機(jī)映像(DRP),它作為一種概率可達(dá)性矩陣M的壓縮方法。在本發(fā)明中的具體實(shí)現(xiàn)方法如下M的預(yù)期規(guī)模使基于特征值計(jì)算的維數(shù)約簡方法(如SVD)難以有效工作,為此采用隨機(jī)映像方法族。當(dāng)前的主要隨機(jī)映像方法需要通過矩 陣乘法獲得數(shù)據(jù)點(diǎn)的投影,其時(shí)間復(fù)雜性為O(kdn)。我而本發(fā)明則給出一個(gè)復(fù)雜性為 O(dn)的新穎隨機(jī)映像方法(直接隨機(jī)映像,DRP)。 DRP除了具有的加速比k (對(duì)于典型 的文本應(yīng)用,k經(jīng)常在100-1000之間),還可以有效保持原數(shù)據(jù)矩陣的稀疏性,相對(duì)于其他RP方法具有更高的空間效率。DRP方法令M-[x"X2,"',x"f , x'e R",選出矩陣M中方差最大的k個(gè)列,記這IIM,k個(gè)列組成的矩陣為"i(",則嵌入 _ DRP的有效性和可用性可由下列定理和分析導(dǎo)出定理i給定"個(gè)隨機(jī)變量《,A,…,A,其中v',《口 WO"'"2), v',r《獨(dú)立于義% = {^&,''',"是這"個(gè)隨機(jī)變量的一個(gè)中大規(guī)模的樣本(例如">100),每X'=[X"X2"'"^f都是隨機(jī)變量A,^,…,A的一個(gè)采樣,則存在線性約簡映射 /:R"—R^1口 A:<J),使得1| )||2-||;-"5其中 ,=5州=max{(l-(*)exp(|(l —"+ln仰 0</ <d/ifcL 0定理2給定"個(gè)隨機(jī)變量義i,^,…,A,其中V,,《口 W(a,CT2), Vw,A獨(dú)立于 A。義Hx"、,…,:O是這j個(gè)隨機(jī)變量的一個(gè)中大規(guī)模的樣本(例如""00),每一個(gè)x'-^,^,…'"^都是隨機(jī)變量《,A,…,A的一個(gè)采樣,則給定任意小的失敗概率 的隨機(jī)時(shí)間內(nèi),發(fā)現(xiàn)一個(gè)滿足由定理l給出的期望擾動(dòng)邊界O(log3^,可以在 的DRP。定理1和2的前提假設(shè)是V',《□ WC"',"2),即各個(gè)隨機(jī)變量《的方差是相同的。對(duì)于方差不同的隨機(jī)變量,如方法1所述,應(yīng)選擇那些方差最大的列作為嵌入。下面說 明這樣做的理由。令各隨機(jī)變量A。w^',^,則可把各隨機(jī)變量中心化,得到V',《'D iV(0,c7'2)。 顯然中心化不影響樣本點(diǎn)之間距離的分布。同時(shí),可定義一組相互獨(dú)立的單元隨機(jī)變量, 這些單元隨機(jī)變量服從W",^),使得V',《可被看作是a個(gè)獨(dú)立的單元隨機(jī)變量的和,即一^A"2,這里A是正整數(shù)。可以看出,選擇變量《'就可以看作是選擇了A個(gè)單元隨機(jī)變量。根據(jù)定理1,期望誤差(指嵌入誤差的期望)的界隨著k的增加而單調(diào) 遞減。所以,為了得到較理想的期望擾動(dòng),應(yīng)選用方差最大的那些列作為嵌入。另一個(gè)值得注意的是縮放因子。當(dāng)各個(gè)隨機(jī)變量的方差不一樣時(shí),其縮放因子應(yīng)該是總的單元變量個(gè)數(shù)與所選的單元變量個(gè)數(shù)之比的開方,即(Z"^Z"A"。實(shí)際計(jì)算中利用11 xIIf z 11 x(" IIf作為A zZ'-iA)"2的估計(jì),這里矩陣x("由X中方差最大的k個(gè)列組成。以上說明了DRP對(duì)于距離的保持。利用類似的思路及Hoeffding不 等式,可證明DRP的內(nèi)積保持性質(zhì)。以上建立好網(wǎng)頁相關(guān)性矩陣的FSE搜索方法,包括以下步驟-步驟一當(dāng)收到一個(gè)查詢請(qǐng)求時(shí),首先利用主流搜索引擎生成一個(gè)初始査詢結(jié)果集 (初始結(jié)果集中的網(wǎng)頁應(yīng)與查詢?cè)~相關(guān)。)作為初始查詢結(jié)果集,在系統(tǒng)開銷許可的前 提下,應(yīng)盡可能具有一定的多樣性,特別是作為第一頁返回的結(jié)果。步驟二當(dāng)前用戶査看查詢結(jié)果并點(diǎn)擊了某個(gè)目標(biāo)網(wǎng)頁后,F(xiàn)SE獲取該目標(biāo)網(wǎng)頁的ID,并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性,然后將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶。本發(fā)明的最佳實(shí)施效果依賴于網(wǎng)頁內(nèi)容相關(guān)性矩陣的有效性分析,因此,給出一最佳實(shí)施例來說明分析網(wǎng)頁內(nèi)容相關(guān)性矩陣K (即MM"的有效性?;舅悸肥且匀斯?biāo)注的網(wǎng)頁相關(guān)性作為標(biāo)準(zhǔn),比較由矩陣K和由向量空間模型(VSM)所分別導(dǎo)出的網(wǎng) 頁相關(guān)性序關(guān)系的中肯性,即哪個(gè)序關(guān)系與人工標(biāo)注之間具有更強(qiáng)的相似性。具體方法 描述如下,例如1) 從5000個(gè)網(wǎng)頁中選出50個(gè)網(wǎng)頁。選擇的標(biāo)準(zhǔn)是盡量使這50個(gè)網(wǎng)頁間具有較大 的主觀差異性,以便于人工標(biāo)注;2) 從矩陣K中選出這50個(gè)網(wǎng)頁對(duì)應(yīng)的50X50子矩陣,記為L;3) 計(jì)算這50個(gè)網(wǎng)頁的基于VSM的相關(guān)性矩陣S;4) 找出矩陣L.和S的所有逆序?qū)/,,yt,)為一個(gè)逆序?qū)?,?dāng)且僅當(dāng)(Lw_La)(Sw-Sa)<0,其中e {1,…,50},且yV/,A:W;5) 從第4步中得到的逆序?qū)χ腥斯みx擇出可做明顯主觀判斷的y^逆序?qū)Γ?) 以人工判斷作為評(píng)判依據(jù),找出矩陣L和S在m個(gè)逆序?qū)χ械腻e(cuò)誤數(shù),分別記為ew(L)和e廳(S);以及矩陣L和S在m個(gè)逆序?qū)χ械腻e(cuò)誤率,即KL) = ctt(L)/aw和r(S) = ^r(S)/w 。易知KL) + KS) = 17)由第6步的結(jié)果和Chernoff不等式,估計(jì)L的錯(cuò)誤數(shù)小于S的錯(cuò)誤數(shù)的概率。 具體實(shí)驗(yàn)中,我們選擇人工可做明顯的主觀判斷的m二529個(gè)逆序?qū)?,求得e^(L)= 235, m<S)=294。 KL)=04442。 KS) =05558。利用Chemoff不等式估計(jì)獲得的尾邊 界為0.0372,即L的錯(cuò)誤數(shù)小于S的錯(cuò)誤數(shù)的概率為1-0.0372=0.9628?;邳c(diǎn)擊數(shù)據(jù)的FSE維護(hù)由大量用戶點(diǎn)擊樣本獲得的網(wǎng)頁內(nèi)容相關(guān)性,對(duì)于每個(gè)查 詢請(qǐng)求,經(jīng)由用戶交互和網(wǎng)頁內(nèi)容相關(guān)性信息辨識(shí)查詢主題和查詢意圖。該方法避免了 學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性,具有與通用搜索引擎相適應(yīng)的時(shí)空效 率。與基于網(wǎng)頁分類的方法相比,本査詢擴(kuò)展系統(tǒng)通過取消類別的概念,代以網(wǎng)頁級(jí)的 相關(guān)性分析,可解決類別劃分的粒度一歸屬難題;與基于用戶個(gè)性配置文件跟蹤的方法 相比,F(xiàn)SE利用具有統(tǒng)計(jì)平穩(wěn)性的網(wǎng)頁內(nèi)容相關(guān)性信息,不需長期跟足fW定用戶的行為, 即可為該用戶提供統(tǒng)計(jì)意義上的優(yōu)化服務(wù);與基于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相 比,F(xiàn)SE可有效解決一義多詞和一詞多義問題。
權(quán)利要求
1.一種基于內(nèi)容相關(guān)性的反饋式搜索方法,該方法包括以下步驟當(dāng)收到一個(gè)查詢請(qǐng)求時(shí),利用主流搜索引擎生成初始查詢結(jié)果集;當(dāng)前用戶查看查詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后,獲取該目標(biāo)網(wǎng)頁的ID,并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性;將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶;其中,網(wǎng)頁相關(guān)性矩陣K的建立,包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)n×n的網(wǎng)頁間的Co-Click矩陣Cn×n;由Cn×n確定一個(gè)有向圖GC,求解GC上各結(jié)點(diǎn)之間的概率可達(dá)性,基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣Mn×n。
2. 如權(quán)利要求l所述的基于內(nèi)容相關(guān)性的反饋式搜索方法,其特征在于,所述網(wǎng) 頁相關(guān)性矩陣K的建立,該步驟還包括對(duì)概率可達(dá)性矩陣M,進(jìn)行降維,獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR7 。
3.如權(quán)利要求2所述的基于內(nèi)容相關(guān)性的反饋式搜索方法,其特征在于,所述對(duì) 概率可達(dá)性矩陣M"x"進(jìn)行降維,該步驟還包括令M^[Xp、,…,x";T, x'eR",選出矩陣M中方差最大的k個(gè)列,這k個(gè)列組成的矩陣為Mw ,將其嵌入 11 M(" ^ 。
4.如權(quán)利要求l所述的基于內(nèi)容相關(guān)性的反饋式搜索方法,其特征在于,所述基于 矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該步驟還包括給定一個(gè)有向圖G =< F,£,戶〉,其中每條邊< "J' >有一個(gè)可靠度P",且0 < ^1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積,即n &<'々"(/>),所有路中可靠度最大的路作為最大可靠路;對(duì)于V〈/,y〉e^,令^=-logp'"求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有 點(diǎn)對(duì)間關(guān)于w的最短路;網(wǎng)頁z'到7'的概率可達(dá)性M"計(jì)算公式為M,》=e-'", L是點(diǎn)i和j之間的最大可 靠路長度。
5.如權(quán)利要求1所述的基于內(nèi)容相關(guān)性的反饋式搜索方法,其特征在于,所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,,該步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn),重復(fù)執(zhí)行以下仿真過程,依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M,:首先為當(dāng)前的源結(jié)點(diǎn)i'分配的細(xì)胞,數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走,即處于源結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^w;依此類推,在每個(gè)批次的隨機(jī)行走結(jié)束后,記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù),記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《;在^ax個(gè)批次的隨機(jī)行走結(jié)束后,定義氣=max{—"..,"々}/" 其中^^6。
6. —種直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法,建立網(wǎng)頁相關(guān)性矩陣K,該方法包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣^>< ;由e,確定一個(gè)有向圖ec,求解^c上各結(jié)點(diǎn)之間的概率可達(dá)性,基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M""。
7.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法, 其特征在于,所述網(wǎng)頁相關(guān)性矩陣K的建立,該步驟還包括對(duì)概率可達(dá)性矩陣M自進(jìn)行降維,獲得M"x"的低維壓縮表示矩陣K""; 將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、
8.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法,其特征在于,所述對(duì)概率可達(dá)性矩陣M,進(jìn)行降維,該步驟還包括令 M=[Xl,x2'''',X :T, x'eRn,選出矩陣M中方差最大的k個(gè)列,這k個(gè)列組成的矩陣R_闕F M為M氣將其嵌入U(xiǎn) A ("。
9.如權(quán)利要求1所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法,其特征在于,所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該步驟還包括給定一個(gè)有向圖G =< F,£, p > ,其中每條邊<"y 〉有一個(gè)可靠度& ,且0《1;G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積,即,所有路中可靠度最大的路作為最大可靠路;對(duì)于V〈/,y、e^,令^^-log;^,求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有 點(diǎn)對(duì)間關(guān)于w的最短路;網(wǎng)頁z'到^的概率可達(dá)性M"計(jì)算公式為M,,;=e—'", /"是點(diǎn)i和j之間的最大可 靠路長度。
10.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法,其特征在于,所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該 步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn),重復(fù)執(zhí)行以下仿真過程,依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)z'分配的細(xì)胞,數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走,即處于源結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^";依此類推,在每個(gè)批次的隨機(jī)行走結(jié)束后,記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù),記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《;在,脆個(gè)批次的隨機(jī)行走結(jié)束后,定義M,max("c;,…,"c;l/"c,其中^=全文摘要
本發(fā)明公開了一種基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法,該方法包括以下步驟當(dāng)收到一個(gè)查詢請(qǐng)求時(shí),利用主流搜索引擎生成初始查詢結(jié)果集;當(dāng)前用戶查看查詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后,獲取該目標(biāo)網(wǎng)頁的ID,并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性;將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶。與已有技術(shù)相比,本發(fā)明避免了學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性取消搜索類別的概念,代以網(wǎng)頁級(jí)的相關(guān)性分析,可解決類別劃分的粒度-歸屬難題;與基于用戶個(gè)性配置文件跟蹤的方法相比,不需長期跟蹤特定用戶的行為;與基于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相比,可有效解決一義多詞和一詞多義問題。
文檔編號(hào)G06F17/30GK101256573SQ200810052580
公開日2008年9月3日 申請(qǐng)日期2008年4月1日 優(yōu)先權(quán)日2008年4月1日
發(fā)明者侯越先 申請(qǐng)人:天津大學(xué)