一種基于多層次的微博查詢擴(kuò)展方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息搜索技術(shù)領(lǐng)域,尤其是一種基于多層次的微博查詢擴(kuò)展方 法。
【背景技術(shù)】
[0002] 隨著社交網(wǎng)絡(luò)的興起,微博已成為人們分享實(shí)時(shí)信息的一個(gè)重要平臺(tái)。面對(duì)每天 發(fā)布涉及各個(gè)方面的海量微博,用戶要想找到自己感興趣的內(nèi)容,通常采用檢索的方式。然 而,一方面由于用戶輸入的查詢?cè)~較少,且不夠準(zhǔn)確,另一方面由于微博本身有字?jǐn)?shù)限制, 文本較短,常常導(dǎo)致查詢結(jié)果不符合用戶真實(shí)的信息需求。為了解決這一問題,通常在檢索 過程中會(huì)對(duì)用戶查詢進(jìn)行擴(kuò)展,用戶查詢的擴(kuò)展主要分為基于查詢語料庫(kù)本身的擴(kuò)展和基 于外部源的擴(kuò)展兩大類。最常用的基于查詢語料庫(kù)本身的擴(kuò)展方法是偽相關(guān)反饋(pseudo relevance feedback),其主要思想是初步檢索后排在前面k個(gè)的文檔中含有一些與查詢相 關(guān)的詞,可以提取出來加入到原始的查詢中,用于下一次查詢。這樣反復(fù)迭代多次,得到最 終的查詢結(jié)果?;谕獠吭吹臄U(kuò)展主要利用相關(guān)的一些外部資源來擴(kuò)充原始的查詢,如web 搜索結(jié)果和wikipedia語料庫(kù)。由于人們經(jīng)常在web中搜索微博上的一些實(shí)時(shí)熱點(diǎn)以便進(jìn) 一步了解事件的發(fā)展,所以web檢索結(jié)果常被用來作微博檢索的查詢擴(kuò)展。
[0003] 然而,現(xiàn)有技術(shù)的查詢擴(kuò)展帶來了大量與原始查詢無關(guān)的詞,不僅降低檢索效率, 也會(huì)造成查詢漂移,有損檢索結(jié)果的準(zhǔn)確性,尤其如何將上述兩種查詢擴(kuò)展方法產(chǎn)生的擴(kuò) 展詞進(jìn)行有效的整合,以達(dá)到最優(yōu)的擴(kuò)展效果,使查詢結(jié)果能符合用戶真實(shí)的信息需求。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足而設(shè)計(jì)的一種基于多層次的微博查詢擴(kuò)展 方法,分別從PRF層和web層提取關(guān)鍵詞作為候選查詢擴(kuò)展詞,并利用Labeled LDA對(duì)原始 微博查詢和所有候選查詢擴(kuò)展詞進(jìn)行統(tǒng)一語義建模,將它們映射到統(tǒng)一的語義層,對(duì)候選 查詢擴(kuò)展詞進(jìn)行篩選過濾,使得查詢更精煉準(zhǔn)確,查詢漂移少,檢索效率高,不依賴于傳統(tǒng) 的特征工程和有監(jiān)督的分類,操作更簡(jiǎn)單易行,在Microblog Track 2011-2014中的檢索結(jié) 果比傳統(tǒng)的查詢擴(kuò)展更為準(zhǔn)確有效,尤其將擴(kuò)展詞進(jìn)行有效的整合,以達(dá)到最優(yōu)的擴(kuò)展效 果,使查詢結(jié)果能符合用戶真實(shí)的信息需求。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種基于多層次的微博查詢擴(kuò)展方法,其特點(diǎn)是將 原微博查詢?cè)~在其對(duì)應(yīng)的語料庫(kù)PRF層和外部源的web層中提取關(guān)鍵詞作為候選查詢擴(kuò)展 詞,以候選查詢擴(kuò)展詞與原微博查詢?cè)~為標(biāo)簽集對(duì)PRF層中的文檔進(jìn)行標(biāo)注,利用Labeled LDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模,然后將來自不同源的候選查詢擴(kuò)展詞和原微博查詢 詞映射到統(tǒng)一的語義層,挖掘出它們潛在的語義,并根據(jù)它們之間的語義相似度,過濾掉與 原微博查詢?cè)~語義無關(guān)的候選擴(kuò)展詞,作為查詢擴(kuò)展詞添加到原微博查詢?cè)~中組成新微博 查詢?cè)~,使用擴(kuò)展后的新微博查詢?cè)~進(jìn)行查詢,其查詢結(jié)果更能符合用戶的真實(shí)信息需求, 微博查詢的具體擴(kuò)展按下述步驟進(jìn)行: (一)、基于PRF層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在其對(duì)應(yīng)的語料庫(kù)中進(jìn)行初步檢索,并將前1個(gè)檢索結(jié)果作為PRF文 檔,利用TFIDF在PRF文檔中提取關(guān)鍵詞為候選查詢擴(kuò)展詞,其中A1 =10~20。
[0006] (二)、基于web層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在外部源的web層中進(jìn)行檢索,保存前K2個(gè)包括標(biāo)題和片段的檢索結(jié) 果,從標(biāo)題和片段中提取TF較高的關(guān)鍵詞為候選查詢擴(kuò)展詞,其中:K2 =10~20。
[0007] (三)、統(tǒng)一語義層建模 將PRF層和web層檢索得到的候選查詢擴(kuò)展詞與原微博查詢?cè)~合并為標(biāo)簽集對(duì)PRF文 檔進(jìn)行標(biāo)注,并利用Labeled LDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模得到標(biāo)簽-詞分布,然后 根據(jù)標(biāo)簽與候選查詢擴(kuò)展詞和原微博查詢?cè)~之間的一一對(duì)應(yīng)關(guān)系以及標(biāo)簽-詞分布,得到 原微博查詢?cè)~和候選查詢擴(kuò)展詞關(guān)于所有詞的分布表示,從中選取權(quán)重最高的η個(gè)詞來表 示其潛在的語義;其中m=10~20。
[0008] (四)、候選查詢擴(kuò)展詞的篩選 根據(jù)上述潛在語義的表示采用余弦相似度計(jì)算每個(gè)候選查詢擴(kuò)展詞與原微博查詢?cè)~ 的語義相似度,并設(shè)定一個(gè)閾值,對(duì)候選查詢擴(kuò)展詞進(jìn)行過濾,將語義相似度大于閾值的候 選查詢擴(kuò)展詞作為查詢擴(kuò)展詞添加到原微博查詢?cè)~中組成新微博查詢?cè)~,使用擴(kuò)展后的新 微博查詢?cè)~進(jìn)行查詢,其查詢結(jié)果更能符合用戶的真實(shí)信息需求。
[0009] 本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點(diǎn): (1)、全面性:查詢擴(kuò)展詞來自語料庫(kù)的PRF層和外部源的web層,分別從語料庫(kù)的PRF 文檔和web搜索的標(biāo)題及片段中提取關(guān)鍵詞用作查詢擴(kuò)展,更全面地捕獲了用戶的查詢企 圖,有助于更好地理解用戶查詢,緩解短文檔和短查詢之間的不匹配問題。
[0010] 〇?)、精煉性:傳統(tǒng)的查詢擴(kuò)展依賴于大量的擴(kuò)展詞來提高最終的檢索性能,事實(shí) 上其中真正有效的擴(kuò)展詞只占少數(shù),通過將原始查詢及來自PRF層和web層的所有擴(kuò)展詞 映射到統(tǒng)一的語義層,并根據(jù)擴(kuò)展詞和原始查詢之間的語義相似度,過濾掉語義無關(guān)的擴(kuò) 展詞,進(jìn)一步精化了查詢擴(kuò)展,減少了因擴(kuò)展太多造成的查詢漂移。
[0011] (3)、簡(jiǎn)單性:采用無監(jiān)督方式進(jìn)行查詢擴(kuò)展詞篩選,即將查詢?cè)~(原始的和擴(kuò)展 的)映射到統(tǒng)一語義層,再自動(dòng)過濾掉語義無關(guān)的詞,更簡(jiǎn)單易行,不像傳統(tǒng)方法需要依賴 標(biāo)注好的訓(xùn)練集,通過特征工程找出查詢擴(kuò)展詞的特征,再進(jìn)行有監(jiān)督的分類。
[0012] (4)、有效性:在Microblog Track 2011-2014的數(shù)據(jù)集上都被證明是有效的,查詢 經(jīng)多層次擴(kuò)展后,檢索的MP值超過了最新的一些查詢擴(kuò)展方法。
【附圖說明】
[0013] 圖1為本發(fā)明操作流程示意圖。
【具體實(shí)施方式】
[0014] 參閱附圖1,本發(fā)明將原微博查詢?cè)~在其對(duì)應(yīng)的語料庫(kù)PRF層和外部源的web層中 提取關(guān)鍵詞作為候選查詢擴(kuò)展詞,以候選查詢擴(kuò)展詞與原微博查詢?cè)~為標(biāo)簽集對(duì)PRF層中 的文檔進(jìn)行標(biāo)注,利用Labeled LDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模,然后將來自不同源的 候選查詢擴(kuò)展詞和原微博查詢?cè)~映射到統(tǒng)一的語義層,挖掘出它們潛在的語義,并根據(jù)它 們之間的語義相似度,過濾掉與原微博查詢?cè)~語義無關(guān)的候選擴(kuò)展詞,作為查詢擴(kuò)展詞添 加到原微博查詢?cè)~中組成新微博查詢?cè)~,使用擴(kuò)展后的新微博查詢?cè)~進(jìn)行查詢,其查詢結(jié) 果更能符合用戶的真實(shí)信息需求,微博查詢的具體擴(kuò)展按下述步驟進(jìn)行: (一)、基于PRF層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在其對(duì)應(yīng)的語料庫(kù)中進(jìn)行初步檢索,并將前1個(gè)檢索結(jié)果作為PRF文 檔,利用TFIDF在PRF文檔中提取關(guān)鍵詞為候選查詢擴(kuò)展詞,其中A1 =10~20。
[0015] (二)、基于web層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在外部源的web層中進(jìn)行檢索,保存前K2個(gè)包括標(biāo)題和片段的檢索結(jié) 果,從標(biāo)題和片段中提取TF較高的關(guān)鍵詞為候選查詢擴(kuò)展詞,其中:K2 =10~20。
[0016] (三)、統(tǒng)一語義層建模 將PRF層和web層檢索得到的候選查詢擴(kuò)展詞與原微博查詢?cè)~合并為標(biāo)簽集對(duì)PRF文 檔進(jìn)行標(biāo)注,并利用Labeled LDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模得到標(biāo)簽-詞分布,然后 根據(jù)標(biāo)簽與候選查詢擴(kuò)展詞和原微博查詢?cè)~之間的一一對(duì)應(yīng)關(guān)系以及標(biāo)簽-詞分布,得到 原微博查詢?cè)~和候選查詢擴(kuò)展詞關(guān)于所有詞的分布表示,從中選取權(quán)重最高的η個(gè)詞來表 示其潛在的語義;其中m=10~20。
[0017] (四)、候選查詢擴(kuò)展詞的篩選 根據(jù)上述潛在語義的表示采用余弦相似度計(jì)算每個(gè)候選查詢擴(kuò)展詞與原微博查詢?cè)~ 的語義相似度,并設(shè)定一個(gè)閾值,對(duì)候選查詢擴(kuò)展詞進(jìn)行過濾,將語義相似度大于閾值的候 選查詢擴(kuò)展詞作為查詢擴(kuò)展詞添加到原微博查詢?cè)~中組成新微博查詢?cè)~,使用擴(kuò)展后的新 微博查詢?cè)~進(jìn)行查詢,其查詢結(jié)果更能符合和滿足用戶的真實(shí)信息需求。
[0018] 以上只是對(duì)本發(fā)明作進(jìn)一步的說明,并非用以限制本專利,凡為本發(fā)明等效實(shí)施, 均應(yīng)包含于本專利的權(quán)利要求范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于多層次的微博查詢擴(kuò)展方法,其特征在于將原微博查詢?cè)~在其對(duì)應(yīng)的語料 庫(kù)PRF層和外部源的web層中提取關(guān)鍵詞作為候選查詢擴(kuò)展詞,以候選查詢擴(kuò)展詞與原微 博查詢?cè)~為標(biāo)簽集對(duì)PRF層中的文檔進(jìn)行標(biāo)注,利用LabeIedLDA對(duì)標(biāo)注的PRF文檔進(jìn)行 語義建模,然后將來自不同源的候選查詢擴(kuò)展詞和原微博查詢?cè)~映射到統(tǒng)一的語義層,挖 掘出它們潛在的語義,并根據(jù)它們之間的語義相似度,過濾掉與原微博查詢?cè)~語義無關(guān)的 候選擴(kuò)展詞,作為查詢擴(kuò)展詞添加到原微博查詢?cè)~中組成新微博查詢?cè)~,使用擴(kuò)展后的新 微博查詢?cè)~進(jìn)行查詢,其查詢結(jié)果更能符合用戶的真實(shí)信息需求,微博查詢的具體擴(kuò)展按 下述步驟進(jìn)行: (一) 、基于PRF層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在其對(duì)應(yīng)的語料庫(kù)中進(jìn)行初步檢索,并將前1個(gè)檢索結(jié)果作為PRF文 檔,利用TFIDF在PRF文檔中提取關(guān)鍵詞為候選查詢擴(kuò)展詞,其中A1 =10~20 ; (二)、基于web層的候選擴(kuò)展詞提取 將原微博查詢?cè)~在外部源的web層中進(jìn)行檢索,保存前K2個(gè)包括標(biāo)題和片段的檢索結(jié) 果,從標(biāo)題和片段中提取TF較高的關(guān)鍵詞為候選查詢擴(kuò)展詞,其中:K2 =10~20 ; (三) 、統(tǒng)一語義層建模 將PRF層和web層檢索得到的候選查詢擴(kuò)展詞與原微博查詢?cè)~合并為標(biāo)簽集對(duì)PRF文 檔進(jìn)行標(biāo)注,并利用LabeledLDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模得到標(biāo)簽-詞分布,然后 根據(jù)標(biāo)簽與候選查詢擴(kuò)展詞和原微博查詢?cè)~之間的一一對(duì)應(yīng)關(guān)系以及標(biāo)簽-詞分布,得到 原微博查詢?cè)~和候選查詢擴(kuò)展詞關(guān)于所有詞的分布表示,從中選取權(quán)重最高的n個(gè)詞來表 示其潛在的語義;其中:n=10~20 ; (四)、候選查詢擴(kuò)展詞的篩選 根據(jù)上述潛在語義的表示采用余弦相似度計(jì)算每個(gè)候選查詢擴(kuò)展詞與原微博查詢?cè)~ 的語義相似度,并設(shè)定一個(gè)閾值,對(duì)候選查詢擴(kuò)展詞進(jìn)行過濾,將語義相似度大于閾值的候 選查詢擴(kuò)展詞作為查詢擴(kuò)展詞添加到原微博查詢?cè)~中組成新微博查詢?cè)~,使用擴(kuò)展后的新 微博查詢?cè)~進(jìn)行查詢,其查詢結(jié)果更能符合用戶的真實(shí)信息需求。
【專利摘要】本發(fā)明公開了一種基于多層次的微博查詢擴(kuò)展方法,其特點(diǎn)是將原微博查詢?cè)~對(duì)應(yīng)的語料庫(kù)PRF層和外部源的web層中提取關(guān)鍵詞作為候選查詢擴(kuò)展詞,將候選查詢擴(kuò)展詞與原始微博查詢語句合并作為標(biāo)簽集對(duì)PRF層中的文檔進(jìn)行標(biāo)注,并利用Labeled LDA對(duì)標(biāo)注的PRF文檔進(jìn)行語義建模,然后將來自不同源的候選查詢擴(kuò)展詞和微博查詢?cè)~映射到統(tǒng)一的語義層,挖掘出它們潛在的語義,并根據(jù)它們之間的語義相似度,過濾掉與微博查詢?cè)~語義無關(guān)的候選擴(kuò)展詞,組成新的微博查詢?cè)~進(jìn)行更為精準(zhǔn)的查詢和檢索。本發(fā)明與現(xiàn)有技術(shù)相比具有查詢漂移少,檢索效率高,準(zhǔn)確性好,尤其將擴(kuò)展詞進(jìn)行有效的整合,以達(dá)到最優(yōu)的擴(kuò)展效果,使查詢結(jié)果能符合用戶真實(shí)的信息需求。
【IPC分類】G06F17/27, G06F17/30
【公開號(hào)】CN104915405
【申請(qǐng)?zhí)枴緾N201510294437
【發(fā)明人】胡琴敏, 陳琴, 賀樑
【申請(qǐng)人】華東師范大學(xué)
【公開日】2015年9月16日
【申請(qǐng)日】2015年6月2日