基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法

文檔序號(hào)：6460020閱讀：220來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及利用計(jì)算機(jī)技術(shù)的內(nèi)容管理系統(tǒng)及其實(shí)現(xiàn)方法，特別是涉及一種在反饋式搜索引擎框架下實(shí)現(xiàn)網(wǎng)頁內(nèi)容相關(guān)性挖掘的方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)的迅速發(fā)展，搜索引擎已成為WEB用戶獲取網(wǎng)絡(luò)資源的最主要途徑。目前主流的搜索引擎主要根據(jù)用戶輸入的査詢?cè)~在網(wǎng)頁中的出現(xiàn)頻率，同時(shí)輔以網(wǎng)頁權(quán)威性等信息，從而生成相關(guān)聯(lián)的査詢結(jié)果。但由于WEB用戶提交的關(guān)鍵字一般很簡短，且可能有歧義，導(dǎo)致搜索引擎無法確定用戶所需要的網(wǎng)頁，降低了搜索結(jié)果的準(zhǔn)確性，也影響了檢索信息的中肯度(包括査全和查準(zhǔn)兩方面的綜合評(píng)價(jià))?，F(xiàn)有的搜索引擎所常用的個(gè)性化搜索的方法有以下四種不同的設(shè)計(jì)技巧1、類別搜索方法對(duì)網(wǎng)頁數(shù)據(jù)庫進(jìn)行信息預(yù)分類，然后設(shè)法確定用戶需要哪一類的網(wǎng)頁，如果用戶單擊其中一個(gè)類別，然后再使用搜索引擎，將可以選擇搜索整個(gè)Internet還是搜索當(dāng)前類別。此類目錄式搜索引擎，目前最有代表性的分類目錄式搜索引擎如雅虎。但是，它存在以下問題一方面，為了提交給用戶一組最中肯的搜索結(jié)果，往往需要借助很細(xì)的類別劃分粒度來進(jìn)行預(yù)分類處理，但是細(xì)類別劃分粒度下往往導(dǎo)致大量的分類交叉。另一方面，單純根據(jù)用戶給出的關(guān)鍵詞，往往無法精確定位到用戶想要搜索的類別。2、利用用戶個(gè)性配置與關(guān)鍵詞結(jié)合的搜索方法將系統(tǒng)記錄的用戶個(gè)性信息與用戶輸入的關(guān)鍵字一起構(gòu)成査詢條件，為用戶提供符合個(gè)人需要的査詢結(jié)果。這種方法除了需要對(duì)網(wǎng)頁分類，還需長期跟蹤用戶行為，這就必須假定用戶行為是平穩(wěn)的。web用戶集體行為具有一定的自相似特征，即持續(xù)的突發(fā) 性。因此單用戶行為的時(shí)域平穩(wěn)性假定須謹(jǐn)慎對(duì)待。直觀地說，在此類搜索設(shè)計(jì)方法中，并不能根據(jù)用戶行為的歷史統(tǒng)計(jì)特征并推測出該用戶經(jīng)?？赡馨l(fā)生的具有一定持續(xù)性的未來行為，原因是事實(shí)中存在用戶的興趣轉(zhuǎn)移。持續(xù)性的興趣轉(zhuǎn)移效應(yīng)對(duì)用戶行為造成的影響不應(yīng)被簡單忽略。因此，該方法在設(shè)計(jì)上存在難度，使用中存在不可預(yù)期的風(fēng) 險(xiǎn)。3、基于點(diǎn)擊量(click popularity)與粘性參數(shù)(stickiness)排序結(jié)果的搜索方法該方法通過分析用戶的行為信息決定搜索結(jié)果鏈接的排列位置。具體做法如DirectHit排序系統(tǒng)目前被Lycos、 Hotbot、 MSN及很多其它搜索引擎所使用。其中，點(diǎn)擊量是對(duì)搜索引擎結(jié)果頁面上的鏈接被用戶點(diǎn)擊的次數(shù)的統(tǒng)計(jì)，粘性是對(duì)用戶在某個(gè) 網(wǎng)站上停留的時(shí)間長度的統(tǒng)計(jì)。該方法的缺點(diǎn)是對(duì)于通用搜索引擎，當(dāng)遇到多義性的査詢關(guān)鍵詞時(shí)；該方法由于忽視"一詞多義"的問題，使得鏈接與査詢語句的相關(guān)度更多的取決于關(guān)注這個(gè)鏈接的人數(shù)，這樣的搜索結(jié)果會(huì)有缺失。 4、超鏈接分析的搜索方法基于互聯(lián)網(wǎng)的超鏈接結(jié)構(gòu)評(píng)價(jià)網(wǎng)頁的權(quán)威性，這種方法專注于評(píng)價(jià)網(wǎng)頁本身的質(zhì)量而不是查詢?cè)~和網(wǎng)頁之間的相關(guān)度。其出發(fā)點(diǎn) 一個(gè)網(wǎng)頁有較高的關(guān)注度則說明它是被很多用戶推薦的，由此說明這個(gè)網(wǎng)頁是一個(gè)高質(zhì)量的網(wǎng)頁。但是，在我們看來，網(wǎng)頁在搜索引擎結(jié)果中的排列位置不僅與網(wǎng)頁本身的質(zhì)量相關(guān)，更重要的是網(wǎng)頁與查詢?cè)~以及用戶興趣的相關(guān)度，這兩者之間并不存在本質(zhì)上的沖突。而通過分析網(wǎng)頁的關(guān)注度來評(píng) 價(jià)網(wǎng)頁的質(zhì)量則無助于計(jì)算網(wǎng)頁與查詢語句的相關(guān)度。一些現(xiàn)有技術(shù)也試圖利用海量clickthrough數(shù)據(jù)改進(jìn)檢索結(jié)果的中肯性。這類技術(shù)大致可歸入兩個(gè)方向。第一個(gè)方向是通過分析clickthrough數(shù)據(jù)來優(yōu)化搜索引擎中的ranking函數(shù)；第二個(gè)方向是通過分析clickthrough數(shù)據(jù)來抽取用戶偏好的信息。近來，將ranking SVM擴(kuò)展到一種co-training框架以解決部分clickthrough數(shù)據(jù)未標(biāo)定的問題，利用spy naive bayes方法學(xué)習(xí)基于特定用戶偏好的ranking函數(shù)。但是，無論所希望學(xué)習(xí)的ranking函數(shù)是否基于特定用戶偏好，ranking的系統(tǒng)都有查詢依賴性(query d印endent)的，有必要考慮使用二元ranking函數(shù)r(qi，dj)。這里qi是第i個(gè)査詢，dj是第j個(gè)文本。由于可能查詢潛在的無限性，使得ranking函數(shù)難以在實(shí)際搜索引擎的大規(guī)模開放環(huán)境中被有效學(xué)習(xí)。因此，如何克服上述各現(xiàn)有方法的缺陷，從而提高搜索引擎中用戶所關(guān)心的搜索結(jié)果的中肯度，是本發(fā)明中要解決的問題。發(fā)明內(nèi)容為了提供給用戶更為準(zhǔn)確和個(gè)性化的信息，本發(fā)明提出一種基于內(nèi)容相關(guān)性挖掘的反饋式搜索引擎系統(tǒng)(FSE)及其數(shù)據(jù)相關(guān)方法，能夠根據(jù)用戶反饋提供擴(kuò)展查詢，即對(duì)于一次查詢事件，首先生成一組初始査詢結(jié)果；在當(dāng)前用戶點(diǎn)擊了初始査詢結(jié)果中的某個(gè)網(wǎng)頁(稱為目標(biāo)網(wǎng)頁)后，再從系統(tǒng)網(wǎng)頁庫中選擇一組與目標(biāo)網(wǎng)頁內(nèi)容相關(guān)性較高的網(wǎng)頁作為擴(kuò)展查詢結(jié)果提交給用戶，這樣一來，所提供的擴(kuò)展查詢結(jié)果將與查詢?cè)~和反映當(dāng)前用戶需求的目標(biāo)網(wǎng)頁都具有較高的相關(guān)性，能夠更有效滿足用戶的查詢需求。本發(fā)明提出了一種基于內(nèi)容相關(guān)性的反饋式搜索方法，該方法包括以下步驟-當(dāng)收到一個(gè)查詢請(qǐng)求時(shí)，利用主流搜索引擎生成初始査詢結(jié)果集；當(dāng)前用戶査看査詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后，獲取該目標(biāo)網(wǎng)頁的ID，并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性；將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的査詢結(jié)果提交給用戶；其中，網(wǎng)頁相關(guān)性矩陣K的建立，包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣^x";由e"x"確定一個(gè)有向圖^c，求解Gc上各結(jié)點(diǎn)之間的概率可達(dá)性，基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,。所述網(wǎng)頁相關(guān)性矩陣K的建立，該步驟還包括對(duì)概率可達(dá)性矩陣M,進(jìn)行降維，獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、所述對(duì)概率可達(dá)性矩陣M國進(jìn)行降維，該步驟還包括令M:[x"^，…，x";T， x'eR"，選出矩陣M中方差最大的k個(gè)列，這k個(gè)列組成的矩陣為Mw，將其嵌入所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x"，該步驟還包括給定一個(gè)有向圖G =< F，￡， ^ > ，其中每條邊 < "' > 有一個(gè)可靠度~ ，且Q < ~ ^1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積，即"(尸)=n &，所有路中可靠度最大的路作為最大可靠路；對(duì)于V〈/，y、eE，令、=_1^/7'';，求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有點(diǎn)對(duì)間關(guān)于w的最短路；網(wǎng)頁z'到的概率可達(dá)性M"計(jì)算公式為M,,y = ," ， /w是點(diǎn)i禾P j之間的最大可靠路長度。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,，該步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn)，重復(fù)執(zhí)行以下仿真過程，依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)Z分配的細(xì)胞，數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走，即處于源結(jié)點(diǎn)z'的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)y的概率為^";依此類推，在每個(gè)批次的隨機(jī)行走結(jié)束后，記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù)，記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《；在Cx個(gè)批次的隨機(jī)行走結(jié)束后，定義M,max^;"'""々"/"cr，其中^=6。本發(fā)明還提出一種直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，建立網(wǎng)頁相關(guān)性矩陣K，該方法包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣e"^ ;由e"x"確定一個(gè)有向圖^c，求解^c上各結(jié)點(diǎn)之間的概率可達(dá)性，基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,。所述網(wǎng)頁相關(guān)性矩陣K的建立，該步驟還包括對(duì)概率可達(dá)性矩陣M"x"進(jìn)行降維，獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、所述對(duì)概率可達(dá)性矩陣M,進(jìn)行降維，該步驟還包括令M:[x"、，…，x"f ，xieRn，選出矩陣M中方差最大的k個(gè)列，這k個(gè)列組成的矩陣為Mw，將其嵌入IIMwt ("。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x"，該步驟還包括給定一個(gè)有向圖G =< F，￡， ^ > ，其中每條邊< A ■/ >有一個(gè)可靠度& ，且Q < P"《1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積，即w)= n i<w>"w ，所有路中可靠度最大的路作為最大可靠路；對(duì)于V < 〉e ￡ ,令、=-k)g;^ ，求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有點(diǎn)對(duì)間關(guān)于w的最短路；網(wǎng)頁z'到7'的概率可達(dá)性M"計(jì)算公式為M,》=e—'"，、是點(diǎn)i和j之間的最大可靠路長度。所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,，該步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn)，重復(fù)執(zhí)行以下仿真過程，依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)z'分配的細(xì)胞，數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走，即處于源結(jié)點(diǎn)z'的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^";依此類推，在每個(gè)批次的隨機(jī)行走結(jié)束后，記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù)，記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《；在Cx個(gè)批次的隨機(jī)行走結(jié)束后，定義M^max—)，…，"個(gè)^:其中^=6。與已有技術(shù)相比，本發(fā)明避免了學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性，具有與通用搜索引擎相適應(yīng)的時(shí)空效率。與基于網(wǎng)頁分類的方法相比，本查詢擴(kuò)展系統(tǒng) 通過取消類別的概念，代以網(wǎng)頁級(jí)的相關(guān)性分析，可解決類別劃分的粒度一歸屬難題；與基于用戶個(gè)性配置文件跟蹤的方法相比，F(xiàn)SE利用具有統(tǒng)計(jì)平穩(wěn)性的網(wǎng)頁內(nèi)容相關(guān)性信息，不需長期跟蹤特定用戶的行為，即可為該用戶提供統(tǒng)計(jì)意義上的優(yōu)化服務(wù)；與基于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相比，F(xiàn)SE可有效解決一義多詞和一詞多義問題。

圖1為本發(fā)明的基于內(nèi)容相關(guān)性的反饋式搜索方法的整體流程圖。圖2為本發(fā)明的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法的網(wǎng)頁相關(guān)性矩陣K的建立流程圖。
具體實(shí)施方式
反饋式搜索引擎系統(tǒng)(FSE)的查詢擴(kuò)展機(jī)制依賴于對(duì)網(wǎng)頁內(nèi)容相關(guān)性的定義。本發(fā)明根據(jù)任意兩個(gè)網(wǎng)頁被同時(shí)(指在同一次査詢事件中)打開的次數(shù)來定義其間的內(nèi)容相關(guān)性，即同時(shí)打開的次數(shù)越多，兩個(gè)網(wǎng)頁間的內(nèi)容相關(guān)性越大。在實(shí)際應(yīng)用中，即使采用稀疏表示，nXn網(wǎng)頁相關(guān)性矩陣的規(guī)模也可能很大，故需使用高效維數(shù)約簡方法 (如直接隨機(jī)映像方法，DRP)方法對(duì)其進(jìn)行壓縮。通常搜索引擎的用戶不會(huì)隨機(jī)的點(diǎn)擊搜索結(jié)果列表上的鏈接，而是作出某種有目的性的判斷和選擇，用戶更加趨向于點(diǎn)擊那些與他們的需求相吻合的鏈接。因此，點(diǎn)擊數(shù) 據(jù)是一種包含豐富信息的隱性反饋。如果搜索引擎可以提供動(dòng)態(tài)的査詢結(jié)果，使査詢結(jié) 果既與關(guān)鍵詞相關(guān)，又與用戶點(diǎn)擊的特定目標(biāo)網(wǎng)頁相關(guān)，則可提高搜索結(jié)果對(duì)用戶的可用性。據(jù)此提出基于點(diǎn)擊數(shù)據(jù)的FSE系統(tǒng)的框架模型如下FSE維護(hù)一個(gè)nXn的網(wǎng)頁相關(guān)性矩陣K,，其第i行j列元素K"代表網(wǎng)頁z'和網(wǎng) 頁7'的內(nèi)容相關(guān)性。Kw的值越大，則表明網(wǎng)頁z'和網(wǎng)頁7'相關(guān)性越強(qiáng)。對(duì)于通用搜索引擎，即使考慮到數(shù)據(jù)稀疏性，K的存儲(chǔ)和處理開銷也可能非常大。故我們利用先進(jìn)的維數(shù)約簡方法，以獲得K低擾動(dòng)、高壓縮比的約簡表示。因此，在FSE框架中的核心數(shù)據(jù)結(jié)構(gòu)是網(wǎng)頁相關(guān)性矩陣K。下面給出由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)建立網(wǎng)頁相關(guān)性矩陣的方法。網(wǎng)頁相關(guān)性矩陣K的建立方法-步驟一由[O，t]時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣e x"。其中e"表示網(wǎng)頁z'和網(wǎng)頁/被同時(shí)點(diǎn)擊(指在同一次査詢事件中被同時(shí)點(diǎn)擊)的次數(shù)；步驟二由e,確定一個(gè)有向圖^c， ^c的每個(gè)結(jié)點(diǎn)代表一個(gè)網(wǎng)頁。求解^c上各結(jié) 點(diǎn)之間的概率可達(dá)性，獲得概率可達(dá)性矩陣M,，其第i行j列元素^"表示從網(wǎng)頁z'到網(wǎng)頁y的概率可達(dá)性；步驟三對(duì)M進(jìn)行降維，獲得M的低維壓縮表示矩陣K"";步驟四將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、其第i行j列元素Kw表示網(wǎng) 頁z'和網(wǎng)頁7'的內(nèi)容相關(guān)性。實(shí)際使用中，可以不顯示求出K，而只是在使用K"時(shí)計(jì) 算R中對(duì)應(yīng)行列的內(nèi)積；一個(gè)自然的直覺是，若C"〉G且e^〉G (即網(wǎng)頁z'和y被同時(shí)點(diǎn)擊過，且網(wǎng)頁7'和A:被同時(shí)點(diǎn)擊過)，則可能Z和^之間也具有一定的內(nèi)容相關(guān)性。但難以期望實(shí)際的用戶點(diǎn)擊數(shù)據(jù)矩陣C直接滿足此種概率意義上的傳遞性。有兩個(gè)原因1)由主流搜索引擎獲得的用戶點(diǎn)擊數(shù)據(jù)，因其固有的ranking機(jī)制，使得網(wǎng)頁對(duì)之間的Co-click關(guān)系存在顯著的系統(tǒng)偏差。一個(gè)典型的例子是網(wǎng)頁P(yáng)i與Pj之間具有顯著的內(nèi)容相關(guān)性，但Pj的ranking較低，因而在多數(shù)査詢下難以被用戶點(diǎn)擊，則由矩陣C所反映的Pi與Pj之間的內(nèi)容相關(guān)性必然不合理地低；2)考慮到通用搜索引擎的網(wǎng)頁庫規(guī)模和網(wǎng)頁數(shù)量的動(dòng)態(tài)增加，在某一具體的時(shí)段內(nèi)，用戶點(diǎn)擊數(shù)據(jù)可能很不完備。為了補(bǔ)償上述ranking系統(tǒng)給矩陣C引入的系統(tǒng)偏差和數(shù)據(jù)不充分所導(dǎo)致的問題，我們基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M ，期望M可在一定程度上反映任意網(wǎng)頁對(duì)之間內(nèi)容相關(guān)性的傳遞性。求出矩陣M之后，一個(gè)直接的做法是定義網(wǎng)頁相關(guān)性矩陣K^MM、但這樣做時(shí)空開銷太大，所以我們對(duì)矩陣M進(jìn)行降維，獲得其低維表示矩陣R，并定義K為歸一化的RR、這里所用的降維方法要符合兩個(gè)條件1)降維過程要保持內(nèi)積，即可以用RRT近似MM、 2)降維方法對(duì)于大規(guī)模數(shù)據(jù)集具有現(xiàn)實(shí)的時(shí)空開銷。我們提出的DRP方法較好地滿足了上述兩個(gè)要求。本發(fā)明介紹了兩種計(jì)算概率可達(dá)性的方法，它們分別有不同的應(yīng)用場合。定義有向圖Gc^〈^&^〉，其中「是結(jié)點(diǎn)集合，^是有向邊集合，^是邊權(quán)集合，Vve7代表一個(gè)網(wǎng)頁， / )=1 ，任意邊〈"J〉e五iff P" ^U 。顯然，如此定義的^決定了一個(gè)Markov矩陣，^"表示網(wǎng)頁z'到達(dá)網(wǎng)頁7'的轉(zhuǎn)移概率。下面分別給出求解概率可達(dá)性的兩種方法。 1)基于最大可靠路的概率可達(dá)性方法基于最大可靠路求解概率可達(dá)性的方法是一種精確方法，但其時(shí)間復(fù)雜性較高，只可用于中小規(guī)模的問題。下面先給出最大可靠路模型最大可靠路給定一個(gè)有向圖G《「，&P〉， G中每條邊"》、有一個(gè)可靠度7^， 0</^"。n &G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積，即 <">"(/>)。G的所有路中可靠度最大的路稱為最大可靠路。對(duì)于V〈/，y〉eE，令^^-k)g;7w。則求G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于求所有點(diǎn)對(duì)間關(guān)于w的最短路，而后者可由Di jkstra算法求解，其復(fù)雜度為G(l F f lGg I F I)。若圖G中有較多的連通分支，可先確定G的各連通分支，再對(duì)各連通分支分別使用Di jkstra算法，以降低時(shí)間開銷。上面給出了最大可靠路模型及其解法，將求解概率到達(dá)性的問題轉(zhuǎn)化為求解最大可靠路問題。據(jù)此，網(wǎng)頁Z到7'的概率可達(dá)性Mw可由為圖^c中對(duì)應(yīng)點(diǎn)間的最大可靠路獲得，M"計(jì)算公式為M^=e-'"， L是點(diǎn)i和j之間的最大可靠路長度。另外，根據(jù)不同的應(yīng)用場合，本發(fā)明還提出了一種基于Markov chain Monte Carlo '(MCMC)的概率可達(dá)性方法。2)基于MCMC的概率可達(dá)性方法。依次選取ec中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn)，重復(fù)以下仿真過程，依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性首先為當(dāng)前的源結(jié)點(diǎn)(不失一般性，記為當(dāng)前源結(jié)點(diǎn)為O分配一定數(shù)量(記為"c)的細(xì)胞，然后讓所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走，即處于結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)y的概率為^w，依此類推；在每個(gè)批次(一個(gè)批次指所有細(xì)胞均隨機(jī)行走一步)的隨機(jī)行走結(jié)束后，記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù)，記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《；在,皿個(gè)批次的隨機(jī)行走結(jié)束后，定義M,max—"…，"々^/"、這里規(guī)定^ =6，這是考慮了所謂的6度分離效應(yīng)[20]。上述方法的時(shí)間復(fù)雜度為O(nXncXlogd).其中，d為圖^c中的各頂點(diǎn)最大的出度。可以證明，當(dāng)細(xì)胞數(shù)量趨近無窮時(shí)，上述過程獲得的解收斂于精確方法的解。上面提到的直接隨機(jī)映像(DRP)，它作為一種概率可達(dá)性矩陣M的壓縮方法。在本發(fā)明中的具體實(shí)現(xiàn)方法如下M的預(yù)期規(guī)模使基于特征值計(jì)算的維數(shù)約簡方法(如SVD)難以有效工作，為此采用隨機(jī)映像方法族。當(dāng)前的主要隨機(jī)映像方法需要通過矩陣乘法獲得數(shù)據(jù)點(diǎn)的投影，其時(shí)間復(fù)雜性為O(kdn)。我而本發(fā)明則給出一個(gè)復(fù)雜性為 O(dn)的新穎隨機(jī)映像方法(直接隨機(jī)映像，DRP)。 DRP除了具有的加速比k (對(duì)于典型的文本應(yīng)用，k經(jīng)常在100-1000之間)，還可以有效保持原數(shù)據(jù)矩陣的稀疏性，相對(duì)于其他RP方法具有更高的空間效率。DRP方法令M-[x"X2，"'，x"f ， x'e R"，選出矩陣M中方差最大的k個(gè)列，記這IIM,k個(gè)列組成的矩陣為"i("，則嵌入 _ DRP的有效性和可用性可由下列定理和分析導(dǎo)出定理i給定"個(gè)隨機(jī)變量《，A，…，A，其中v'，《口 WO"'"2), v',r《獨(dú)立于義% = {^&，'''，"是這"個(gè)隨機(jī)變量的一個(gè)中大規(guī)模的樣本(例如">100)，每X'=[X"X2"'"^f都是隨機(jī)變量A，^，…，A的一個(gè)采樣，則存在線性約簡映射 /:R"—R^1口 A:<J)，使得1| )||2-||;-"5其中，=5州=max{(l-(*)exp(|(l —"+ln仰 0</ <d/ifcL 0定理2給定"個(gè)隨機(jī)變量義i，^，…，A，其中V,，《口 W(a，CT2)， Vw，A獨(dú)立于 A。義Hx"、，…，:O是這j個(gè)隨機(jī)變量的一個(gè)中大規(guī)模的樣本(例如""00)，每一個(gè)x'-^，^，…'"^都是隨機(jī)變量《，A，…，A的一個(gè)采樣，則給定任意小的失敗概率的隨機(jī)時(shí)間內(nèi)，發(fā)現(xiàn)一個(gè)滿足由定理l給出的期望擾動(dòng)邊界O(log3^，可以在的DRP。定理1和2的前提假設(shè)是V'，《□ WC"'，"2)，即各個(gè)隨機(jī)變量《的方差是相同的。對(duì)于方差不同的隨機(jī)變量，如方法1所述，應(yīng)選擇那些方差最大的列作為嵌入。下面說明這樣做的理由。令各隨機(jī)變量A。w^'，^，則可把各隨機(jī)變量中心化，得到V'，《'D iV(0，c7'2)。顯然中心化不影響樣本點(diǎn)之間距離的分布。同時(shí)，可定義一組相互獨(dú)立的單元隨機(jī)變量，這些單元隨機(jī)變量服從W"，^)，使得V'，《可被看作是a個(gè)獨(dú)立的單元隨機(jī)變量的和，即一^A"2，這里A是正整數(shù)。可以看出，選擇變量《'就可以看作是選擇了A個(gè)單元隨機(jī)變量。根據(jù)定理1，期望誤差(指嵌入誤差的期望)的界隨著k的增加而單調(diào) 遞減。所以，為了得到較理想的期望擾動(dòng)，應(yīng)選用方差最大的那些列作為嵌入。另一個(gè)值得注意的是縮放因子。當(dāng)各個(gè)隨機(jī)變量的方差不一樣時(shí)，其縮放因子應(yīng)該是總的單元變量個(gè)數(shù)與所選的單元變量個(gè)數(shù)之比的開方，即(Z"^Z"A"。實(shí)際計(jì)算中利用11 xIIf z 11 x(" IIf作為A zZ'-iA)"2的估計(jì)，這里矩陣x("由X中方差最大的k個(gè)列組成。以上說明了DRP對(duì)于距離的保持。利用類似的思路及Hoeffding不等式，可證明DRP的內(nèi)積保持性質(zhì)。以上建立好網(wǎng)頁相關(guān)性矩陣的FSE搜索方法，包括以下步驟-步驟一當(dāng)收到一個(gè)查詢請(qǐng)求時(shí)，首先利用主流搜索引擎生成一個(gè)初始査詢結(jié)果集 (初始結(jié)果集中的網(wǎng)頁應(yīng)與查詢?cè)~相關(guān)。)作為初始查詢結(jié)果集，在系統(tǒng)開銷許可的前提下，應(yīng)盡可能具有一定的多樣性，特別是作為第一頁返回的結(jié)果。步驟二當(dāng)前用戶査看查詢結(jié)果并點(diǎn)擊了某個(gè)目標(biāo)網(wǎng)頁后，F(xiàn)SE獲取該目標(biāo)網(wǎng)頁的ID，并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性，然后將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶。本發(fā)明的最佳實(shí)施效果依賴于網(wǎng)頁內(nèi)容相關(guān)性矩陣的有效性分析，因此，給出一最佳實(shí)施例來說明分析網(wǎng)頁內(nèi)容相關(guān)性矩陣K (即MM"的有效性?；舅悸肥且匀斯?biāo)注的網(wǎng)頁相關(guān)性作為標(biāo)準(zhǔn)，比較由矩陣K和由向量空間模型(VSM)所分別導(dǎo)出的網(wǎng) 頁相關(guān)性序關(guān)系的中肯性，即哪個(gè)序關(guān)系與人工標(biāo)注之間具有更強(qiáng)的相似性。具體方法描述如下，例如1) 從5000個(gè)網(wǎng)頁中選出50個(gè)網(wǎng)頁。選擇的標(biāo)準(zhǔn)是盡量使這50個(gè)網(wǎng)頁間具有較大的主觀差異性，以便于人工標(biāo)注；2) 從矩陣K中選出這50個(gè)網(wǎng)頁對(duì)應(yīng)的50X50子矩陣，記為L;3) 計(jì)算這50個(gè)網(wǎng)頁的基于VSM的相關(guān)性矩陣S;4) 找出矩陣L.和S的所有逆序?qū)/,，yt,)為一個(gè)逆序?qū)?，?dāng)且僅當(dāng)(Lw_La)(Sw-Sa)<0，其中e {1,…,50}，且yV/，A:W;5) 從第4步中得到的逆序?qū)χ腥斯みx擇出可做明顯主觀判斷的y^逆序?qū)Γ?) 以人工判斷作為評(píng)判依據(jù)，找出矩陣L和S在m個(gè)逆序?qū)χ械腻e(cuò)誤數(shù)，分別記為ew(L)和e廳(S);以及矩陣L和S在m個(gè)逆序?qū)χ械腻e(cuò)誤率，即KL) = ctt(L)/aw和r(S) = ^r(S)/w 。易知KL) + KS) = 17)由第6步的結(jié)果和Chernoff不等式，估計(jì)L的錯(cuò)誤數(shù)小于S的錯(cuò)誤數(shù)的概率。具體實(shí)驗(yàn)中，我們選擇人工可做明顯的主觀判斷的m二529個(gè)逆序?qū)?，求得e^(L)= 235， m<S)=294。 KL)=04442。 KS) =05558。利用Chemoff不等式估計(jì)獲得的尾邊界為0.0372，即L的錯(cuò)誤數(shù)小于S的錯(cuò)誤數(shù)的概率為1-0.0372=0.9628?；邳c(diǎn)擊數(shù)據(jù)的FSE維護(hù)由大量用戶點(diǎn)擊樣本獲得的網(wǎng)頁內(nèi)容相關(guān)性，對(duì)于每個(gè)查詢請(qǐng)求，經(jīng)由用戶交互和網(wǎng)頁內(nèi)容相關(guān)性信息辨識(shí)查詢主題和查詢意圖。該方法避免了學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性，具有與通用搜索引擎相適應(yīng)的時(shí)空效率。與基于網(wǎng)頁分類的方法相比，本査詢擴(kuò)展系統(tǒng)通過取消類別的概念，代以網(wǎng)頁級(jí)的相關(guān)性分析，可解決類別劃分的粒度一歸屬難題；與基于用戶個(gè)性配置文件跟蹤的方法相比，F(xiàn)SE利用具有統(tǒng)計(jì)平穩(wěn)性的網(wǎng)頁內(nèi)容相關(guān)性信息，不需長期跟足fW定用戶的行為，即可為該用戶提供統(tǒng)計(jì)意義上的優(yōu)化服務(wù)；與基于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相比，F(xiàn)SE可有效解決一義多詞和一詞多義問題。
權(quán)利要求
1.一種基于內(nèi)容相關(guān)性的反饋式搜索方法，該方法包括以下步驟當(dāng)收到一個(gè)查詢請(qǐng)求時(shí)，利用主流搜索引擎生成初始查詢結(jié)果集；當(dāng)前用戶查看查詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后，獲取該目標(biāo)網(wǎng)頁的ID，并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性；將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶；其中，網(wǎng)頁相關(guān)性矩陣K的建立，包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)n×n的網(wǎng)頁間的Co-Click矩陣Cn×n；由Cn×n確定一個(gè)有向圖GC，求解GC上各結(jié)點(diǎn)之間的概率可達(dá)性，基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣Mn×n。
2. 如權(quán)利要求l所述的基于內(nèi)容相關(guān)性的反饋式搜索方法，其特征在于，所述網(wǎng) 頁相關(guān)性矩陣K的建立，該步驟還包括對(duì)概率可達(dá)性矩陣M,進(jìn)行降維，獲得M"x"的低維壓縮表示矩陣K"";將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR7 。
3.如權(quán)利要求2所述的基于內(nèi)容相關(guān)性的反饋式搜索方法，其特征在于，所述對(duì) 概率可達(dá)性矩陣M"x"進(jìn)行降維，該步驟還包括令M^[Xp、，…，x";T， x'eR"，選出矩陣M中方差最大的k個(gè)列，這k個(gè)列組成的矩陣為Mw ，將其嵌入 11 M(" ^ 。
4.如權(quán)利要求l所述的基于內(nèi)容相關(guān)性的反饋式搜索方法，其特征在于，所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x"，該步驟還包括給定一個(gè)有向圖G =< F，￡，戶〉，其中每條邊< "J' >有一個(gè)可靠度P"，且0 < ^1; G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積，即n &<'々"(/>)，所有路中可靠度最大的路作為最大可靠路；對(duì)于V〈/，y〉e^，令^=-logp'"求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有點(diǎn)對(duì)間關(guān)于w的最短路；網(wǎng)頁z'到7'的概率可達(dá)性M"計(jì)算公式為M,》=e-'"， L是點(diǎn)i和j之間的最大可靠路長度。
5.如權(quán)利要求1所述的基于內(nèi)容相關(guān)性的反饋式搜索方法，其特征在于，所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M,，該步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn)，重復(fù)執(zhí)行以下仿真過程，依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M,:首先為當(dāng)前的源結(jié)點(diǎn)i'分配的細(xì)胞，數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走，即處于源結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^w;依此類推，在每個(gè)批次的隨機(jī)行走結(jié)束后，記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù)，記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《；在^ax個(gè)批次的隨機(jī)行走結(jié)束后，定義氣=max{—"..，"々}/" 其中^^6。
6. —種直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，建立網(wǎng)頁相關(guān)性矩陣K，該方法包括以下步驟由
時(shí)段的用戶點(diǎn)擊數(shù)據(jù)獲得一個(gè)nXn的網(wǎng)頁間的Co-Click矩陣^>< ;由e,確定一個(gè)有向圖ec，求解^c上各結(jié)點(diǎn)之間的概率可達(dá)性，基于矩陣c求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M""。
7.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，其特征在于，所述網(wǎng)頁相關(guān)性矩陣K的建立，該步驟還包括對(duì)概率可達(dá)性矩陣M自進(jìn)行降維，獲得M"x"的低維壓縮表示矩陣K""; 將網(wǎng)頁相關(guān)性矩陣K定義為歸一化的RR、
8.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，其特征在于，所述對(duì)概率可達(dá)性矩陣M,進(jìn)行降維，該步驟還包括令 M=[Xl，x2''''，X :T， x'eRn，選出矩陣M中方差最大的k個(gè)列，這k個(gè)列組成的矩陣R_闕F M為M氣將其嵌入U(xiǎn) A ("。
9.如權(quán)利要求1所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，其特征在于，所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x",該步驟還包括給定一個(gè)有向圖G =< F，￡， p > ，其中每條邊<"y 〉有一個(gè)可靠度& ，且0《1;G中任意一條路P的可靠度定義為P上所有邊的可靠度的乘積，即，所有路中可靠度最大的路作為最大可靠路；對(duì)于V〈/，y、e^，令^^-log;^，求出G中所有點(diǎn)對(duì)間的最大可靠路等價(jià)于所有點(diǎn)對(duì)間關(guān)于w的最短路；網(wǎng)頁z'到^的概率可達(dá)性M"計(jì)算公式為M,，；=e—'"， /"是點(diǎn)i和j之間的最大可靠路長度。
10.如權(quán)利要求6所述的直接應(yīng)用于基于內(nèi)容相關(guān)性的反饋式搜索的內(nèi)容相關(guān)方法，其特征在于，所述基于矩陣C求解任意兩個(gè)網(wǎng)頁實(shí)體間的概率可達(dá)性矩陣M"x"，該步驟還包括依次選取有向圖G中每個(gè)結(jié)點(diǎn)作為源結(jié)點(diǎn)，重復(fù)執(zhí)行以下仿真過程，依次求解各源結(jié)點(diǎn)到其它結(jié)點(diǎn)的概率可達(dá)性矩陣M"x":首先為當(dāng)前的源結(jié)點(diǎn)z'分配的細(xì)胞，數(shù)量記為"c;所有細(xì)胞依^所決定的轉(zhuǎn)移概率隨機(jī)行走，即處于源結(jié)點(diǎn)Z的任意細(xì)胞在下一隨機(jī)步行走到結(jié)點(diǎn)7'的概率為^";依此類推，在每個(gè)批次的隨機(jī)行走結(jié)束后，記錄各結(jié)點(diǎn)中包含的細(xì)胞數(shù)，記第t步隨機(jī)行走結(jié)束后結(jié)點(diǎn)j中包含的細(xì)胞數(shù)為"《；在,脆個(gè)批次的隨機(jī)行走結(jié)束后，定義M,max("c;,…,"c;l/"c，其中^=全文摘要
本發(fā)明公開了一種基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法，該方法包括以下步驟當(dāng)收到一個(gè)查詢請(qǐng)求時(shí)，利用主流搜索引擎生成初始查詢結(jié)果集；當(dāng)前用戶查看查詢結(jié)果并點(diǎn)擊目標(biāo)網(wǎng)頁后，獲取該目標(biāo)網(wǎng)頁的ID，并從網(wǎng)頁相關(guān)性矩陣K中查詢出初始結(jié)果集中所有網(wǎng)頁與目標(biāo)網(wǎng)頁的相關(guān)性；將與目標(biāo)網(wǎng)頁相關(guān)性最大的網(wǎng)頁作為新的查詢結(jié)果提交給用戶。與已有技術(shù)相比，本發(fā)明避免了學(xué)習(xí)query-sensitive的ranking函數(shù)的復(fù)雜性取消搜索類別的概念，代以網(wǎng)頁級(jí)的相關(guān)性分析，可解決類別劃分的粒度-歸屬難題；與基于用戶個(gè)性配置文件跟蹤的方法相比，不需長期跟蹤特定用戶的行為；與基于點(diǎn)擊數(shù)據(jù)直接優(yōu)化搜索結(jié)果的方法相比，可有效解決一義多詞和一詞多義問題。
文檔編號(hào)G06F17/30GK101256573SQ200810052580
公開日2008年9月3日申請(qǐng)日期2008年4月1日優(yōu)先權(quán)日2008年4月1日
發(fā)明者侯越先申請(qǐng)人:天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯越先
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：激光衍射測量周期極化晶體參數(shù)的方法
上一篇：翻譯輸入法及字庫的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

相關(guān)性分析相關(guān)技術(shù)

spss相關(guān)性分析相關(guān)技術(shù)

相關(guān)性相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于內(nèi)容相關(guān)性的反饋式搜索方法及內(nèi)容相關(guān)方法