一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域,尤其是一種基于詞分組排序算法的生 物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,隨著生物醫(yī)學(xué)(Biomedicine)領(lǐng)域的快速發(fā)展,生物醫(yī)學(xué)相關(guān)研宄取得 了較多有價值的成果,這些成果不僅促成了一些曾經(jīng)看似難以解決的疾病的治療,從更深 遠(yuǎn)的角度看,也推動了人類對于自身認(rèn)識的發(fā)展和深入。
[0003] 但是隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的飛速增加,相關(guān)信息的數(shù)量也在呈指數(shù)性增加,海 量的文獻(xiàn)和信息為生物醫(yī)學(xué)研宄者和相關(guān)從業(yè)人員的信息獲取帶來了難題,而傳統(tǒng)的手工 信息獲取方式已經(jīng)逐漸變得不再適用,因此,需要借助于信息檢索的技術(shù)和方法,協(xié)助相關(guān) 人員獲取所需的信息。
[0004] 傳統(tǒng)的信息檢索技術(shù)能夠根據(jù)用戶提交的查詢,對文檔或者網(wǎng)頁進(jìn)行相關(guān)性排 序,并將排序結(jié)果返回給用戶。而直接將傳統(tǒng)的信息檢索方法應(yīng)用于生物醫(yī)學(xué)文獻(xiàn)的檢索 任務(wù)中,很難取得較好的檢索性能。其原因在于未能充分的考慮生物醫(yī)學(xué)領(lǐng)域的固有特點(diǎn), 比如生物醫(yī)學(xué)領(lǐng)域具有較多的專業(yè)詞匯,而這些專業(yè)詞匯往往同時存在很多同義詞和縮寫 詞的情況。如果能在傳統(tǒng)的信息檢索方法中充分的考慮生物醫(yī)學(xué)領(lǐng)域的特點(diǎn),將會進(jìn)一步 提高生物醫(yī)學(xué)信息檢索的性能。
[0005] 查詢擴(kuò)展技術(shù)是傳統(tǒng)信息檢索領(lǐng)域的關(guān)鍵技術(shù)之一。它能夠在用戶提交的原始查 詢的基礎(chǔ)上,根據(jù)用戶的檢索意圖,對查詢進(jìn)行補(bǔ)充和完善,從而得到更符合用戶檢索意圖 的查詢,提高檢索的性能?,F(xiàn)有的查詢擴(kuò)展方法可以分為兩大類:一類是基于文檔集合的查 詢擴(kuò)展方法,這類方法以全部數(shù)據(jù)文檔集合或者部分?jǐn)?shù)據(jù)文檔集合為研宄對象,從中提取 與查詢相關(guān)的內(nèi)容,完善原始查詢;另一類是基于外部擴(kuò)展資源的查詢擴(kuò)展技術(shù),外部資源 主要包括有詞典資源、檢索系統(tǒng)查詢?nèi)罩?,錨文本和維基百科等,很多研宄表明利用外部擴(kuò) 展資源完善原始查詢,可以更好的完成查詢擴(kuò)展任務(wù),進(jìn)而提升檢索的性能。
[0006] 由于生物醫(yī)學(xué)領(lǐng)域存在較多詞典等領(lǐng)域資源,如果能在信息檢索的過程中,充分 利用這些資源對用戶提交的查詢進(jìn)行補(bǔ)充和完善,檢索的性能將有很大可能性得到提升。
[0007] 要建立針對于生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)檢索,首先應(yīng)該了解該領(lǐng)域的特點(diǎn)和資源。 在生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)中存在著大量的專業(yè)詞匯,而這些詞匯又包含了很多同義詞和 縮寫詞等復(fù)雜情況,這為檢索系統(tǒng)的建立帶來了巨大的挑戰(zhàn),例如對于藥物撲熱息痛, 它的英文名字叫做paracetamol,而在國際標(biāo)準(zhǔn)藥物分類中,它的名稱是對乙酰氨基酷 (acetaminophen),在藥物化學(xué)領(lǐng)域它的學(xué)名是C8H9N02或者N02BE01,針對于以上多種名 稱的情況,如果在檢索中只查詢其中的一個名字,很難檢索到所有相關(guān)的文獻(xiàn)。值得慶幸的 是,在生物醫(yī)學(xué)領(lǐng)域還存在著許多固有的知識庫和資源,例如醫(yī)學(xué)主題詞表(MeSH :Medical SubjectHeadings)和基因本體(G0:Gene Ontology)等,如果能在檢索的過程中充分的利 用這些資源,將會對生物醫(yī)學(xué)文獻(xiàn)檢索的性能帶來巨大的提升。
[0008] 排序?qū)W習(xí)(learning to rank)算法是一系列用于信息檢索中對文檔排序的監(jiān)督 學(xué)習(xí)算法的總稱,它的主要特點(diǎn)在于應(yīng)用機(jī)器學(xué)習(xí)的技術(shù)來解決信息檢索中的排序問題, 并獲得了較好的檢索排序性能。其中排序問題也可以看作是一個最優(yōu)項(xiàng)的選擇問題,因此, 近年來排序?qū)W習(xí)算法被應(yīng)用于多個其他的任務(wù),例如在推薦系統(tǒng)中根據(jù)用戶和物品的歷史 信息為用戶推薦相應(yīng)的物品等。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的是提供一種能為用戶提供更為準(zhǔn)確的生物醫(yī)學(xué)文獻(xiàn),更為有效地滿 足用戶的信息需求,有效的補(bǔ)充和完善用戶查詢的基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢 索方法及系統(tǒng)。
[0010] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案:一種基于詞分組排序算法的生物醫(yī) 學(xué)文獻(xiàn)檢索方法,包括以下離線訓(xùn)練階段和在線查詢階段,其中,離線訓(xùn)練階段包括以下步 驟:
[0011] S1、搜索引擎查詢提取步驟:根據(jù)搜索引擎的歷史查詢記錄,提取多組查詢以及每 個查詢中獲得的前N條查詢結(jié)果文檔;并將查詢及查詢結(jié)果文檔收集到一個查詢池中,其 中N為自然數(shù);
[0012] S2、候選擴(kuò)展詞匯提取步驟:根據(jù)生物醫(yī)學(xué)資源對查詢池中每個查詢的前N條查 詢結(jié)果文檔中的專業(yè)詞匯進(jìn)行提取,并統(tǒng)計獲得每個專業(yè)詞匯在所述查詢結(jié)果文檔中出現(xiàn) 的次數(shù)或者出現(xiàn)次數(shù)的加權(quán)和;按照每個專業(yè)詞匯在查詢結(jié)果文檔中出現(xiàn)的次數(shù)或者次數(shù) 的加權(quán)和降序排列,選擇出現(xiàn)次數(shù)最高或次數(shù)的加權(quán)和最高的M個專業(yè)詞匯作為候選擴(kuò)展 詞匯,其中M為自然數(shù);
[0013] S3、候選擴(kuò)展詞匯的特征提取及標(biāo)注步驟:
[0014] 候選擴(kuò)展詞匯的特征提取及標(biāo)注同時進(jìn)行;其中,對候選擴(kuò)展詞匯的相關(guān)性標(biāo)注 通過對比原始查詢的檢索性能和將該候選擴(kuò)展詞匯加入到原始查詢中時的檢索性能的高 低來標(biāo)注;檢索性能高低的評價指標(biāo)包括:準(zhǔn)確率,平均準(zhǔn)確率,NDCG值和MRR值;相關(guān)性 標(biāo)注的具體方式如下:
[0015]
【主權(quán)項(xiàng)】
1. 一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征在于,包括以下離線訓(xùn) 練階段和在線查詢階段,其中,離線訓(xùn)練階段包括以下步驟: 51、 搜索引擎查詢提取步驟:根據(jù)搜索引擎的歷史查詢記錄,提取多組查詢以及每個查 詢中獲得的前N條查詢結(jié)果文檔;并將查詢及查詢結(jié)果文檔收集到一個查詢池中,其中N為 自然數(shù); 52、 候選擴(kuò)展詞匯提取步驟:根據(jù)生物醫(yī)學(xué)資源對查詢池中每個查詢的前N條查詢結(jié) 果文檔中的專業(yè)詞匯進(jìn)行提取,并統(tǒng)計獲得每個專業(yè)詞匯在所述查詢結(jié)果文檔中出現(xiàn)的次 數(shù)或者出現(xiàn)次數(shù)的加權(quán)和;按照每個專業(yè)詞匯在查詢結(jié)果文檔中出現(xiàn)的次數(shù)或者次數(shù)的 加權(quán)和降序排列,選擇出現(xiàn)次數(shù)最高或次數(shù)的加權(quán)和最高的M個專業(yè)詞匯作為候選擴(kuò)展詞 匯,其中M為自然數(shù); 53、 候選擴(kuò)展詞匯的特征提取及標(biāo)注步驟: 候選擴(kuò)展詞匯的特征提取及標(biāo)注同時進(jìn)行;其中,對候選擴(kuò)展詞匯的相關(guān)性標(biāo)注通過 對比原始查詢的檢索性能和將該候選擴(kuò)展詞匯加入到原始查詢中時的檢索性能的高低來 標(biāo)注;檢索性能高低的評價指標(biāo)包括:準(zhǔn)確率,平均準(zhǔn)確率,NDCG值和MRR值;相關(guān)性標(biāo)注 的具體方式如下:
其中,eval()為用于評價檢索性能高低的評價指標(biāo)函數(shù),eval(query+term)為評價指 標(biāo)函數(shù)eval ()在評價將候選擴(kuò)展詞匯term加入到查詢query時的得分,eval (query)為評 價指標(biāo)函數(shù)在評價查詢query時的得分;label標(biāo)注為1表示該候選擴(kuò)展詞匯與查詢query 是相關(guān)的;label標(biāo)注為0表示該候選擴(kuò)展詞匯與查詢query不相關(guān)的; 候選擴(kuò)展詞匯的特征提取,是從生物醫(yī)學(xué)資源和查詢池中的查詢所返回的前N條查詢 結(jié)果文檔中提取候選擴(kuò)展詞匯的分布信息、候選詞匯在生物醫(yī)學(xué)資源中的分布信息以及候 選擴(kuò)展詞匯和原始查詢的相關(guān)性信息等為訓(xùn)練排序模型做準(zhǔn)備,并在提取同一候選擴(kuò)展詞 匯的多種特征后,對所有特征值進(jìn)行歸一化處理,以將所有特征值控制在[〇,1]區(qū)間上,歸 一化的過程如下所示:
其中,minValue和maxValue分別為某一特征的最小值和最大值; 54、 候選擴(kuò)展詞匯排序模型訓(xùn)練步驟:根據(jù)