本發(fā)明涉及查詢推薦技術(shù)領(lǐng)域,特別是指一種個性化多樣化查詢推薦方法及系統(tǒng)。
背景技術(shù):
查詢推薦可幫助用戶在輸入查詢后對其進(jìn)行優(yōu)化初始查詢。以前的工作主要集中在基于相似性和基于上下文的查詢推薦方法,也有模型專注于適應(yīng)特定用戶(個性化)或者多樣化查詢主題以便最大化用戶滿意的概率(多樣化)。
查詢推薦在幫助提高用戶對查詢結(jié)果的滿意度上有重要的意義。現(xiàn)有相關(guān)的查詢推薦的工作主要基于查詢之間的相關(guān)性和相似度,但是這種方法對一些不確定主題的用戶查詢來說,效果不好。對于多樣化來說,查詢推薦旨在使推薦列表包含更多的查詢主題;對于個性化來說,則是希望推薦的查詢更能滿足用戶感興趣中的某個主題。這兩個概念直觀上看起來是背道而馳的,現(xiàn)有技術(shù)中并沒有將查詢推薦的多樣化和個性化這兩個概念被同時應(yīng)用到現(xiàn)有的查詢推薦系統(tǒng)當(dāng)中。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提出一種結(jié)合多樣化和個性化并提高查詢效果的個性化多樣化查詢推薦方法及系統(tǒng)。
基于上述目的本發(fā)明提供的一種個性化多樣化查詢推薦方法,包括:
構(gòu)建多樣化查詢模型:通過將用戶的查詢上下文,采用查詢之間的共現(xiàn)度和語義相似度,生成多樣化的查詢推薦列表;
通過將用戶的長期查詢記錄加入多樣化查詢模型中,結(jié)合貝葉斯準(zhǔn)則,得到個性化多樣化查詢模型,通過獲取每個查詢的點擊文檔url的主題分布,然后根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布,生成多樣化個性化的查詢推薦列表。
進(jìn)一步的,所述構(gòu)建多樣化查詢模型包括:
設(shè)定貪婪選擇的規(guī)則:
其中,q*表示選擇的滿足條件的最優(yōu)查詢推薦,ri表示查詢推薦的初始列表,rs表示已選的查詢推薦列表,p(qc|q0,a,sc)表示查詢在給定查詢上下文sc,用戶輸入查詢q0的條件下,查詢推薦qc滿足用戶查詢主題a的概率;p(qs|q0,a,sc),表示在列表rs中的查詢在用戶輸入q0,查詢上下文為sc的情況下,滿足主題a的概率;
將p(qc|q0,a,sc)表示為三部分組成,包括:查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù),查詢推薦qc和輸入查詢q0的語義相似度,查詢推薦qc和查詢上下文sc的相關(guān)度;即
其中,λ1表示控制權(quán)重的自由參數(shù),取值在0~1之間;
查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù)表示為:
其中,fq表示包含查詢q的會話個數(shù),
查詢推薦qc和輸入查詢q0的語義相似度,通過計算向量之間的余弦值得到查詢之間的語義相似度:
其中,w=|q0|·|qc|,|q|指查詢中的單詞數(shù)量;
查詢推薦qc和查詢上下文sc的相關(guān)度表示為p(qc|a,qt),表示查詢推薦qc和在查詢上下文中的qt在主題a上的距離:
其中,
p(qs|q0,a,sc)表示為:
進(jìn)一步的,所述構(gòu)建個性化多樣化查詢模型包括:
通過引入用戶長期的查詢歷史,將所述貪婪選擇的規(guī)則修改為:
其中,u表示一個特定的用戶;
根據(jù)貝葉斯準(zhǔn)則可以得到p(qc|q0,a,sc,u):
進(jìn)一步的,p(q0,a,sc,u|qc)←λ2p(q0,a,sc|qc)+(1-λ2)p(u,q0,sc|qc)
p(q0,a,sc,u|qc)表示多樣化和個性化策略的結(jié)合,由折中系數(shù)λ2來控制各部分的權(quán)重;
根據(jù)貝葉斯定理,p(a,q0,sc|qc)和p(u,q0,sc|qc)表示為:
其中,p(qc|u,q0,sc),設(shè)定輸入的查詢q0條件下,u,q0,sc之間相互獨立,即:
得出p(qc|u):
q(u)表示在用戶u查詢記錄中的查詢,n表示用戶u查詢記錄中的查詢個數(shù),s(qc,q)返回兩個查詢之間的語義相似度。
進(jìn)一步的,所述構(gòu)建個性化多樣化查詢模型還包括:
通過收集每個查詢的點擊文檔,提取每個點擊文檔在odp中的描述文字,輸入lda主題模型中進(jìn)行訓(xùn)練,得到每個url的主題分布;
根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
進(jìn)一步的,所述根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布包括:
通過如下公式產(chǎn)生查詢的主題分布,
其中,d(q)是用戶在輸入查詢q以后點擊的一系列文檔,vd是文檔d的向量表示,即查詢主題在文檔d上的分布,f(q,d)是用戶在輸入查詢q以后點擊文檔d的次數(shù);
當(dāng)無法獲取點擊信息時根據(jù)下式找到待分配的有主題分布的查詢qlabel:
計算所有得到主題分布的查詢與qunlabel的語義相似度,然后找到相似度最大的qlabel,將其主題分布賦給qunlabel。
另一方面,本發(fā)明還提供一種個性化多樣化查詢推薦系統(tǒng),包括:
構(gòu)建多樣化查詢模型單元,用于將用戶的查詢上下文,包括查詢和點擊行為,采用查詢之間的共現(xiàn)度和語義相似度,產(chǎn)生多樣化的查詢推薦列表;
構(gòu)建個性化多樣化查詢模型單元,通過將用戶的長期查詢記錄加入多樣化查詢模型中,結(jié)合貝葉斯準(zhǔn)則,得到個性化多樣化查詢模型,通過獲取每個查詢的點擊文檔url的主題分布,然后根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
所述構(gòu)建個性化多樣化查詢模型單元,進(jìn)一步用于:
設(shè)定貪婪選擇的規(guī)則:
其中,,q*表示選擇的滿足條件的最優(yōu)查詢推薦,ri表示查詢推薦的初始列表,rs表示已選的查詢推薦列表,p(qc|q0,a,sc)表示查詢在給定查詢上下文sc,用戶輸入查詢q0的條件下,查詢推薦qc滿足用戶查詢主題a的概率;p(qs|q0,a,sc),表示在列表rs中的查詢在用戶輸入q0,查詢上下文為sc的情況下,滿足主題a的概率;
用于,將p(qc|q0,a,sc)表示為三部分組成,包括:查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù),查詢推薦qc和輸入查詢q0的語義相似度,查詢推薦qc和查詢上下文sc的相關(guān)度;即
其中,λ1表示控制權(quán)重的自由參數(shù),取值在0~1之間;
查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù)表示為:
其中,fq表示包含查詢q的會話個數(shù),
查詢推薦qc和輸入查詢q0的語義相似度,通過計算向量之間的余弦值得到查詢之間的語義相似度:
其中,w=|q0|·|qc|,|q|指查詢中的單詞數(shù)量;
查詢推薦qc和查詢上下文sc的相關(guān)度表示為p(qc|a,qt),表示查詢推薦qc和在查詢上下文中的qt在主題a上的距離:
其中,
進(jìn)一步用于將p(qs|q0,a,sc)表示為:
所述構(gòu)建個性化多樣化查詢模型單元進(jìn)一步用于:
通過引入用戶長期的查詢歷史,將所述貪婪選擇的規(guī)則修改為:
其中,u表示一個特定的用戶;
根據(jù)貝葉斯準(zhǔn)則可以得到p(qc|q0,a,sc,u):
進(jìn)一步的,p(q0,a,sc,u|qc)←λ2p(q0,a,sc|qc)+(1-λ2)p(u,q0,sc|qc)
p(q0,a,sc,u|qc)表示多樣化和個性化策略的結(jié)合,由折中系數(shù)λ2來控制各部分的權(quán)重;
根據(jù)貝葉斯定理,p(a,q0,sc|qc)和p(u,q0,sc|qc)表示為:
其中,p(qc|u,q0,sc),設(shè)定輸入的查詢q0條件下,u,q0,sc之間相互獨立,即:
得出p(qc|u):
q(u)表示在用戶u查詢記錄中的查詢,n表示用戶u查詢記錄中的查詢個數(shù),s(qc,q)返回兩個查詢之間的語義相似度。
進(jìn)一步的,所述構(gòu)建個性化多樣化查詢模型單元還用于獲取查詢主題的分布,包括:
獲取url的主題分布模塊,用于通過收集每個查詢的點擊文檔,提取每個點擊文檔在odp中的描述文字,輸入lda主題模型中進(jìn)行訓(xùn)練,得到每個url的主題分布;
獲取查詢主題分布模塊,用于根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
進(jìn)一步的,獲取查詢主題分布模塊,進(jìn)一步用于:
通過如下公式產(chǎn)生查詢的主題分布,
其中,d(q)是用戶在輸入查詢q以后點擊的一系列文檔,vd是文檔d的向量表示,即查詢主題在文檔d上的分布,f(q,d)是用戶在輸入查詢q以后點擊文檔d的次數(shù);
以及用于,當(dāng)無法獲取點擊信息時根據(jù)下式找到待分配的有主題分布的查詢qlabel:
計算所有得到主題分布的查詢與qunlabel的語義相似度,然后找到相似度最大的qlabel,將其主題分布賦給qunlabel。
從上面所述可以看出,本發(fā)明提供的多樣化個性化查詢模型結(jié)合了多樣化和個性化的查詢推薦任務(wù),在基本的貪婪查詢推薦多樣化模型中考慮用戶的當(dāng)前搜索上下文會話,然后加入用戶的長期搜索行為,查詢的主題通過對其點擊文檔的odp分類來確定主題;通過實驗表明,多樣化個性化查詢模型比現(xiàn)有的模型效果要好,尤其是當(dāng)采用點擊的查詢作為查詢上下文比采用所有的查詢效果要好,實驗結(jié)果證明多樣化個性化模型在查詢推薦的排序和多樣性指標(biāo)上有顯著提高。
附圖說明
圖1為本發(fā)明提供的個性化多樣化查詢推薦方法實施例示意圖;
圖2為本發(fā)明提供的個性化多樣化查詢推薦系統(tǒng)實施例示意圖;
圖3為本發(fā)明提供的個性化多樣化查詢推薦方法的實驗數(shù)據(jù)表一;
圖4為本發(fā)明提供的個性化多樣化查詢推薦方法的實驗數(shù)據(jù)表二;
圖5為本發(fā)明提供的個性化多樣化查詢推薦方法的實驗結(jié)果表一;
圖6為本發(fā)明提供的個性化多樣化查詢推薦方法的實驗結(jié)果表二。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
需要說明的是,本發(fā)明實施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個相同名稱非相同的實體或者非相同的參量,可見“第一”“第二”僅為了表述的方便,不應(yīng)理解為對本發(fā)明實施例的限定,后續(xù)實施例對此不再一一說明。
本發(fā)明提供的一種個性化多樣化查詢推薦方法,包括:
步驟101,構(gòu)建多樣化查詢模型,可稱為g-qsd模型:通過將用戶的查詢上下文,包括查詢和點擊行為在內(nèi)的,采用查詢之間的共現(xiàn)度和語義相似度,生成多樣化的查詢推薦列表;
步驟102,通過將用戶的長期查詢記錄加入g-qsd模型中,結(jié)合貝葉斯準(zhǔn)則,得到個性化多樣化查詢模型,可稱為pqsd模型,通過獲取每個查詢的點擊文檔url的主題分布,然后根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布,生成多樣化個性化的查詢推薦列表。
進(jìn)一步的,本發(fā)明提供的個性化多樣化查詢推薦方法,步驟101所述構(gòu)建g-qsd模型包括:
設(shè)定貪婪選擇的規(guī)則:
其中,q*表示選擇的滿足條件的最優(yōu)查詢推薦,ri表示查詢推薦的初始列表,rs表示已選的查詢推薦列表,p(qc|q0,a,sc)表示查詢在給定查詢上下文sc,用戶輸入查詢q0的條件下,查詢推薦qc滿足用戶查詢主題a的概率;p(qs|q0,a,sc),表示在列表rs中的查詢在用戶輸入q0,查詢上下文為sc的情況下,滿足主題a的概率;
將p(qc|q0,a,sc)表示為三部分組成,包括:查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù),查詢推薦qc和輸入查詢q0的語義相似度,查詢推薦qc和查詢上下文sc的相關(guān)度;即
其中,λ1表示控制權(quán)重的自由參數(shù),取值在0~1之間;
查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù)表示為:
其中,fq表示包含查詢q的會話個數(shù),
查詢推薦qc和輸入查詢q0的語義相似度,通過計算向量之間的余弦值得到查詢之間的語義相似度:
其中,w=|q0|·|qc|,|q|指查詢中的單詞數(shù)量;
查詢推薦qc和查詢上下文sc的相關(guān)度表示為p(qc|a,qt),表示查詢推薦qc和在查詢上下文中的qt在主題a上的距離:
其中,
步驟101c,p(qs|q0,a,sc)表示為:
進(jìn)一步的,步驟102,構(gòu)建pqsd模型包括:
通過引入用戶長期的查詢歷史,將所述貪婪選擇的規(guī)則修改為:
其中,u表示一個特定的用戶;
根據(jù)貝葉斯準(zhǔn)則可以得到p(qc|q0,a,sc,u):
進(jìn)一步的,p(q0,a,sc,u|qc)←λ2p(q0,a,sc|qc)+(1-λ2)p(u,q0,sc|qc)
p(q0,a,sc,u|qc)表示多樣化和個性化策略的結(jié)合,由折中系數(shù)λ2來控制各部分的權(quán)重;
根據(jù)貝葉斯定理,p(a,q0,sc|qc)和p(u,q0,sc|qc)表示為:
其中,p(qc|u,q0,sc),設(shè)定輸入的查詢q0條件下,u,q0,sc之間相互獨立,即:
得出p(qc|u):
q(u)表示在用戶u查詢記錄中的查詢,n表示用戶u查詢記錄中的查詢個數(shù),s(qc,q)返回兩個查詢之間的語義相似度。
對于pqsd模型中的p(qs|q0,a,sc,u)部分,和p(qc|q0,a,sc,u)相似,同樣利用查詢獨立性假設(shè)和貝葉斯原理,可以得到其多樣化和個性化的兩部分:
進(jìn)一步的,所述構(gòu)建pqsd模型還包括獲取查詢主題的分布,具體包括:
通過收集每個查詢的點擊文檔,提取每個點擊文檔在odp中的描述文字,輸入lda主題模型中進(jìn)行訓(xùn)練,得到每個url的主題分布;根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
lda是一種高效無監(jiān)督學(xué)習(xí)的主題模型,用來尋找每個文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題(分布)出來后,便可以根據(jù)主題(分布)進(jìn)行主題聚類或文本分類等等工作。同時,他也可以返回每個主題下包含的主題詞。
采用lda主題模型之前,我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,將每個url的描述文檔轉(zhuǎn)化成詞向量作為lda的輸入,主要有以下幾步:
1)分詞,根據(jù)空格,或者“\”等;
2)去除停頓詞,如“a”“an”“the”等;
3)原型化,將文檔中的詞轉(zhuǎn)化為基本原型的形式。
通過lda主題模型的訓(xùn)練,我們可以得到點擊文檔url對應(yīng)的主題分布,根據(jù)我們上面的描述,查詢的主題分布和其點擊的url的主題分布是直接相關(guān)的,而且直觀來看,當(dāng)一個查詢點擊某個url的次數(shù)越多,他們的主題分布相關(guān)性就越高。
進(jìn)一步的,所述根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布包括:
通過如下公式產(chǎn)生查詢的主題分布,
其中,d(q)是用戶在輸入查詢q以后點擊的一系列文檔,vd是文檔d的向量表示,即查詢主題在文檔d上的分布,f(q,d)是用戶在輸入查詢q以后點擊文檔d的次數(shù);
當(dāng)無法獲取點擊信息時根據(jù)下式找到待分配的有主題分布的查詢qlabel:
計算所有得到主題分布的查詢與qunlabel的語義相似度,然后找到相似度最大的qlabel,將其主題分布賦給qunlabel。
從上面所述可以看出,本發(fā)明提供的pqsd模型結(jié)合了多樣化和個性化的查詢推薦任務(wù),在基本的貪婪查詢推薦多樣化模型(g-qsd)中考慮用戶的當(dāng)前搜索上下文會話,然后加入用戶的長期搜索行為,查詢的主題通過對其點擊文檔的odp分類來確定主題;通過實驗表明,pqsd模型比現(xiàn)有的模型效果要好,尤其是當(dāng)采用點擊的查詢作為查詢上下文比采用所有的查詢效果要好。
另一方面,本發(fā)明還提供一種個性化多樣化查詢推薦系統(tǒng)包括:
構(gòu)建g-qsd模型單元201,用于將用戶的查詢上下文,包括查詢和點擊行為,采用查詢之間的共現(xiàn)度和語義相似度,產(chǎn)生多樣化的查詢推薦列表;
構(gòu)建pqsd模型單元202,用于通過將用戶的長期查詢記錄加入g-qsd模型中,結(jié)合貝葉斯準(zhǔn)則,得到pqsd模型,通過獲取每個查詢的點擊文檔url的主題分布,然后根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
其中,構(gòu)建g-qsd模型單元201進(jìn)一步用于:
設(shè)定貪婪選擇的規(guī)則:
其中,q*表示選擇的滿足條件的最優(yōu)查詢推薦,ri表示查詢推薦的初始列表,rs表示已選的查詢推薦列表,p(qc|q0,a,sc)表示查詢在給定查詢上下文sc,用戶輸入查詢q0的條件下,查詢推薦qc滿足用戶查詢主題a的概率;p(qs|q0,a,sc),表示在列表rs中的查詢在用戶輸入q0,查詢上下文為sc的情況下,滿足主題a的概率;
用于,將p(qc|q0,a,sc)表示為三部分組成,包括:查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù),查詢推薦qc和輸入查詢q0的語義相似度,查詢推薦qc和查詢上下文sc的相關(guān)度;即
其中,λ1表示控制權(quán)重的自由參數(shù),取值在0~1之間;
查詢推薦qc和輸入查詢q0的共現(xiàn)次數(shù)表示為:
其中,fq表示包含查詢q的會話個數(shù),
查詢推薦qc和輸入查詢q0的語義相似度,通過計算向量之間的余弦值得到查詢之間的語義相似度:
其中,w=|q0|·|qc|,|q|指查詢中的單詞數(shù)量;
查詢推薦qc和查詢上下文sc的相關(guān)度表示為p(qc|a,qt),表示查詢推薦qc和在查詢上下文中的qt在主題a上的距離:
其中,
進(jìn)一步用于將p(qs|q0,a,sc)表示為:
其中,構(gòu)建pqsd模型單元202,進(jìn)一步用于:
通過引入用戶長期的查詢歷史,將所述貪婪選擇的規(guī)則修改為:
其中,u表示一個特定的用戶;
根據(jù)貝葉斯準(zhǔn)則可以得到p(qc|q0,a,sc,u):
進(jìn)一步的,p(q0,a,sc,u|qc)←λ2p(q0,a,sc|qc)+(1-λ2)p(u,q0,sc|qc)
p(q0,a,sc,u|qc)表示多樣化和個性化策略的結(jié)合,由折中系數(shù)λ2來控制各部分的權(quán)重;
根據(jù)貝葉斯定理,p(a,q0,sc|qc)和p(u,q0,sc|qc)表示為:
其中,p(qc|u,q0,sc),設(shè)定輸入的查詢q0條件下,u,q0,sc之間相互獨立,即:
得出p(qc|u):
q(u)表示在用戶u查詢記錄中的查詢,n表示用戶u查詢記錄中的查詢個數(shù),s(qc,q)返回兩個查詢之間的語義相似度。
構(gòu)建pqsd模型單元202還用于獲取查詢主題的分布,包括:
獲取url的主題分布模塊,用于通過收集每個查詢的點擊文檔,提取每個點擊文檔在odp中的描述文字,輸入lda主題模型中進(jìn)行訓(xùn)練,得到每個url的主題分布;
獲取查詢主題分布模塊,用于根據(jù)每個查詢和url之間的點擊信息,得到每個查詢的主題分布。
其中,獲取查詢主題分布模塊,進(jìn)一步用于:
通過如下公式產(chǎn)生查詢的主題分布,
其中,d(q)是用戶在輸入查詢q以后點擊的一系列文檔,vd是文檔d的向量表示,即查詢主題在文檔d上的分布,f(q,d)是用戶在輸入查詢q以后點擊文檔d的次數(shù);
以及用于,當(dāng)無法獲取點擊信息時根據(jù)下式找到待分配的有主題分布的查詢qlabel:
計算所有得到主題分布的查詢與qunlabel的語義相似度,然后找到相似度最大的qlabel,將其主題分布賦給qunlabel。
可見本發(fā)明提供的個性化多樣化查詢推薦方法及系統(tǒng),提出了個性化的查詢推薦多樣化模型,結(jié)合了用戶的查詢上下文和長期搜索歷史來探測用戶的查詢意圖。
通過實驗進(jìn)一步驗證pqsd模型優(yōu)點:就多樣性和準(zhǔn)確性指標(biāo)上,pqsd模型比其他方法進(jìn)行查詢推薦的效果要好。
實驗設(shè)計:aol數(shù)據(jù)集上進(jìn)行了實驗,有近500000個用戶查詢片段。在數(shù)據(jù)預(yù)處理階段,采用現(xiàn)有技術(shù)中的方法清洗數(shù)據(jù),按照30分鐘為標(biāo)準(zhǔn)劃分查詢片段,而且僅保留包含超過兩個查詢的片段。為了測試不同的策略對pqsd模型的影響,移除了沒有點擊信息的查詢片段。如圖3所示,圖表一給出了數(shù)據(jù)集狀態(tài):
在實驗中,對于大部分的實例來說,λ1的推薦取值為0.5,在實驗中均選取這個數(shù)值。對于λ2,本文主要研究個性化策略和多樣化策略相結(jié)合對查詢推薦的影響,因此在pqsd模型里將這兩個策略的權(quán)重值取一樣,即為0.5.在lda主題模型中,設(shè)置t=100,α=0.5,β=0.1根據(jù)文獻(xiàn)[1]。至于推薦的數(shù)量,大部分的查詢推薦研究中軍艦推薦數(shù)量設(shè)置為10,因此取n=10。
為了產(chǎn)生實驗的真實結(jié)果來檢驗?zāi)P托Ч?,例如要產(chǎn)生查詢和主題的相關(guān)性,根據(jù)文獻(xiàn)[6],將相關(guān)性劃分為5個等級(很好=4,好=3,中等=2,差=1,很差=0),即:
采用mrr和α-ndcg指標(biāo)來衡量查詢推薦的排序和多樣化效果。
實驗結(jié)果:有關(guān)pqsd模型效果
檢驗pqsd模型和基準(zhǔn)模型的查詢推薦模型的效果,其中,pqsd模型綜合了用戶對于用戶個性化的搜索方式。如圖4所示,圖表二所示的為比較的結(jié)果。
在各方面,dqs模型的效果優(yōu)于mmr模型。因此,在后面的比較試驗中,采用dqs模型作為基準(zhǔn)模型。dqs模型較mmr模型在方面有近1%的改進(jìn),在α-ndcg@10方面有近1.9%的改善。反觀pqsd模型,在所有搜索上下文策略下,與基準(zhǔn)模型相比都實現(xiàn)了很大的改善,即在mrr@10方面實現(xiàn)了從0.8%到2.0%的提高,在α-ndcg@10方面實現(xiàn)了從4.3%到8.9%的提高。在ndgc方面的改善較mrr方面的改善更明顯,其原因有多個:在某些情況下,冗余的查詢推薦在查詢列表中的排序比最終提交的查詢排序低,將這些冗余查詢?nèi)コ院蟛⒉粫岣卟樵兺扑]準(zhǔn)確性,但可以提高查詢推薦列表的多樣化。
在圖表二中可以看出pqsdcl+cs模型的效果最佳。與基準(zhǔn)模型相比,除了pqsdal+as模型,其余pqsd模型在各個指標(biāo)上的提升均是顯著的(α=.01)。pqsdal+as在α=.05是提升是顯著的。圖表二中所有模型的實驗結(jié)果,最好的基準(zhǔn)模型結(jié)果又下劃線,最好的模型結(jié)果加粗。
采用會話中所有的查詢或者點擊的查詢作為查詢上下文,以及采用用戶所有查詢或者僅僅是點擊的查詢作為用戶的長期搜索歷史來研究不同的個性化策略對pqsd模型的影響。事實上,當(dāng)采用所有點擊的查詢作為用戶查詢上下文和搜索歷史時,pqsd模型的效果最好。例如,pqsdcl+as效果比pqsdal+as要好,同樣pqsdcl+cs比pqsdal+cs效果要好,因此點擊查詢能更精確地表達(dá)用戶的查詢意圖,有助于提高查詢推薦個性化的效果,所有的查詢作為搜索上下文在推測用戶查詢意圖時會帶來噪音。
在不同的查詢位置上比較這幾種模型的查詢推薦效果。如圖5所示為本發(fā)明的查詢推薦效果,隨著查詢上下文的豐富,查詢推薦在mrr指標(biāo)上也在提高,例如,在查詢位置大于4時,pqsdcl+cs比查詢位置為2時的mrr指標(biāo)要高。除此以外,當(dāng)查詢位置為1時,即查詢會話中不存在查詢上下文時,pqsdal+as和pqsdal+cs的查詢推薦效果比基準(zhǔn)模型有少量的提升。
如圖6所示為本發(fā)明的查詢推薦效果,就查詢推薦多樣化而言,pqsd模型在α-ndcg指標(biāo)上比基準(zhǔn)模型的提高要比mrr指標(biāo)更明顯。同樣的是,使用點擊行為的查詢在查詢上下文和用戶長期搜索歷史中,會提高pqsd模型的查詢推薦準(zhǔn)確性和多樣性。
可見本發(fā)明提供的查詢推薦方法及系統(tǒng),通過aol數(shù)據(jù)集上進(jìn)行實驗,對比了本發(fā)明的pqsd模型和現(xiàn)有方法的查詢推薦效果,實驗結(jié)果證明pqsd模型在查詢推薦的排序和多樣性指標(biāo)上有顯著提高,具體來說,pqsd模型在mrr指標(biāo)上比現(xiàn)有基準(zhǔn)模型高出1.35%,在α-ndcg指標(biāo)上高出6.29%。
所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權(quán)利要求)被限于這些例子;在本發(fā)明的思路下,以上實施例或者不同實施例中的技術(shù)特征之間也可以進(jìn)行組合,步驟可以以任意順序?qū)崿F(xiàn),并存在如上所述的本發(fā)明的不同方面的許多其它變化,為了簡明它們沒有在細(xì)節(jié)中提供。
另外,為簡化說明和討論,并且為了不會使本發(fā)明難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(ic)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本發(fā)明難以理解,并且這也考慮了以下事實,即關(guān)于這些框圖裝置的實施方式的細(xì)節(jié)是高度取決于將要實施本發(fā)明的平臺的(即,這些細(xì)節(jié)應(yīng)當(dāng)完全處于本領(lǐng)域技術(shù)人員的理解范圍內(nèi))。在闡述了具體細(xì)節(jié)(例如,電路)以描述本發(fā)明的示例性實施例的情況下,對本領(lǐng)域技術(shù)人員來說顯而易見的是,可以在沒有這些具體細(xì)節(jié)的情況下或者這些具體細(xì)節(jié)有變化的情況下實施本發(fā)明。因此,這些描述應(yīng)被認(rèn)為是說明性的而不是限制性的。
盡管已經(jīng)結(jié)合了本發(fā)明的具體實施例對本發(fā)明進(jìn)行了描述,但是根據(jù)前面的描述,這些實施例的很多替換、修改和變型對本領(lǐng)域普通技術(shù)人員來說將是顯而易見的。例如,其它存儲器架構(gòu)(例如,動態(tài)ram(dram))可以使用所討論的實施例。
本發(fā)明的實施例旨在涵蓋落入所附權(quán)利要求的寬泛范圍之內(nèi)的所有這樣的替換、修改和變型。因此,凡在本發(fā)明的精神和原則之內(nèi),所做的任何省略、修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。