一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)的制作方法

文檔序號：8430850閱讀：268來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域，尤其是一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來，隨著生物醫(yī)學(xué)（Biomedicine)領(lǐng)域的快速發(fā)展，生物醫(yī)學(xué)相關(guān)研宄取得了較多有價值的成果，這些成果不僅促成了一些曾經(jīng)看似難以解決的疾病的治療，從更深遠(yuǎn)的角度看，也推動了人類對于自身認(rèn)識的發(fā)展和深入。
[0003] 但是隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的飛速增加，相關(guān)信息的數(shù)量也在呈指數(shù)性增加，海量的文獻(xiàn)和信息為生物醫(yī)學(xué)研宄者和相關(guān)從業(yè)人員的信息獲取帶來了難題，而傳統(tǒng)的手工信息獲取方式已經(jīng)逐漸變得不再適用，因此，需要借助于信息檢索的技術(shù)和方法，協(xié)助相關(guān) 人員獲取所需的信息。
[0004] 傳統(tǒng)的信息檢索技術(shù)能夠根據(jù)用戶提交的查詢，對文檔或者網(wǎng)頁進(jìn)行相關(guān)性排序，并將排序結(jié)果返回給用戶。而直接將傳統(tǒng)的信息檢索方法應(yīng)用于生物醫(yī)學(xué)文獻(xiàn)的檢索任務(wù)中，很難取得較好的檢索性能。其原因在于未能充分的考慮生物醫(yī)學(xué)領(lǐng)域的固有特點(diǎn)，比如生物醫(yī)學(xué)領(lǐng)域具有較多的專業(yè)詞匯，而這些專業(yè)詞匯往往同時存在很多同義詞和縮寫詞的情況。如果能在傳統(tǒng)的信息檢索方法中充分的考慮生物醫(yī)學(xué)領(lǐng)域的特點(diǎn)，將會進(jìn)一步提高生物醫(yī)學(xué)信息檢索的性能。
[0005] 查詢擴(kuò)展技術(shù)是傳統(tǒng)信息檢索領(lǐng)域的關(guān)鍵技術(shù)之一。它能夠在用戶提交的原始查詢的基礎(chǔ)上，根據(jù)用戶的檢索意圖，對查詢進(jìn)行補(bǔ)充和完善，從而得到更符合用戶檢索意圖的查詢，提高檢索的性能?，F(xiàn)有的查詢擴(kuò)展方法可以分為兩大類：一類是基于文檔集合的查詢擴(kuò)展方法，這類方法以全部數(shù)據(jù)文檔集合或者部分?jǐn)?shù)據(jù)文檔集合為研宄對象，從中提取與查詢相關(guān)的內(nèi)容，完善原始查詢；另一類是基于外部擴(kuò)展資源的查詢擴(kuò)展技術(shù)，外部資源主要包括有詞典資源、檢索系統(tǒng)查詢?nèi)罩?，錨文本和維基百科等，很多研宄表明利用外部擴(kuò) 展資源完善原始查詢，可以更好的完成查詢擴(kuò)展任務(wù)，進(jìn)而提升檢索的性能。
[0006] 由于生物醫(yī)學(xué)領(lǐng)域存在較多詞典等領(lǐng)域資源，如果能在信息檢索的過程中，充分利用這些資源對用戶提交的查詢進(jìn)行補(bǔ)充和完善，檢索的性能將有很大可能性得到提升。
[0007] 要建立針對于生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)檢索，首先應(yīng)該了解該領(lǐng)域的特點(diǎn)和資源。在生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)中存在著大量的專業(yè)詞匯，而這些詞匯又包含了很多同義詞和縮寫詞等復(fù)雜情況，這為檢索系統(tǒng)的建立帶來了巨大的挑戰(zhàn)，例如對于藥物撲熱息痛，它的英文名字叫做paracetamol，而在國際標(biāo)準(zhǔn)藥物分類中，它的名稱是對乙酰氨基酷 (acetaminophen)，在藥物化學(xué)領(lǐng)域它的學(xué)名是C8H9N02或者N02BE01，針對于以上多種名稱的情況，如果在檢索中只查詢其中的一個名字，很難檢索到所有相關(guān)的文獻(xiàn)。值得慶幸的是，在生物醫(yī)學(xué)領(lǐng)域還存在著許多固有的知識庫和資源，例如醫(yī)學(xué)主題詞表(MeSH :Medical SubjectHeadings)和基因本體（G0:Gene Ontology)等，如果能在檢索的過程中充分的利用這些資源，將會對生物醫(yī)學(xué)文獻(xiàn)檢索的性能帶來巨大的提升。
[0008] 排序?qū)W習(xí)（learning to rank)算法是一系列用于信息檢索中對文檔排序的監(jiān)督學(xué)習(xí)算法的總稱，它的主要特點(diǎn)在于應(yīng)用機(jī)器學(xué)習(xí)的技術(shù)來解決信息檢索中的排序問題，并獲得了較好的檢索排序性能。其中排序問題也可以看作是一個最優(yōu)項(xiàng)的選擇問題，因此，近年來排序?qū)W習(xí)算法被應(yīng)用于多個其他的任務(wù)，例如在推薦系統(tǒng)中根據(jù)用戶和物品的歷史信息為用戶推薦相應(yīng)的物品等。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的是提供一種能為用戶提供更為準(zhǔn)確的生物醫(yī)學(xué)文獻(xiàn)，更為有效地滿足用戶的信息需求，有效的補(bǔ)充和完善用戶查詢的基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)。
[0010] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案：一種基于詞分組排序算法的生物醫(yī) 學(xué)文獻(xiàn)檢索方法，包括以下離線訓(xùn)練階段和在線查詢階段，其中，離線訓(xùn)練階段包括以下步驟：
[0011] S1、搜索引擎查詢提取步驟：根據(jù)搜索引擎的歷史查詢記錄，提取多組查詢以及每個查詢中獲得的前N條查詢結(jié)果文檔；并將查詢及查詢結(jié)果文檔收集到一個查詢池中，其中N為自然數(shù)；
[0012] S2、候選擴(kuò)展詞匯提取步驟：根據(jù)生物醫(yī)學(xué)資源對查詢池中每個查詢的前N條查詢結(jié)果文檔中的專業(yè)詞匯進(jìn)行提取，并統(tǒng)計獲得每個專業(yè)詞匯在所述查詢結(jié)果文檔中出現(xiàn) 的次數(shù)或者出現(xiàn)次數(shù)的加權(quán)和；按照每個專業(yè)詞匯在查詢結(jié)果文檔中出現(xiàn)的次數(shù)或者次數(shù) 的加權(quán)和降序排列，選擇出現(xiàn)次數(shù)最高或次數(shù)的加權(quán)和最高的M個專業(yè)詞匯作為候選擴(kuò)展詞匯，其中M為自然數(shù)；
[0013] S3、候選擴(kuò)展詞匯的特征提取及標(biāo)注步驟：
[0014] 候選擴(kuò)展詞匯的特征提取及標(biāo)注同時進(jìn)行；其中，對候選擴(kuò)展詞匯的相關(guān)性標(biāo)注通過對比原始查詢的檢索性能和將該候選擴(kuò)展詞匯加入到原始查詢中時的檢索性能的高低來標(biāo)注；檢索性能高低的評價指標(biāo)包括：準(zhǔn)確率，平均準(zhǔn)確率，NDCG值和MRR值；相關(guān)性標(biāo)注的具體方式如下：
[0015]
【主權(quán)項(xiàng)】
1. 一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法，其特征在于，包括以下離線訓(xùn) 練階段和在線查詢階段，其中，離線訓(xùn)練階段包括以下步驟： 51、搜索引擎查詢提取步驟：根據(jù)搜索引擎的歷史查詢記錄，提取多組查詢以及每個查詢中獲得的前N條查詢結(jié)果文檔；并將查詢及查詢結(jié)果文檔收集到一個查詢池中，其中N為自然數(shù)； 52、候選擴(kuò)展詞匯提取步驟：根據(jù)生物醫(yī)學(xué)資源對查詢池中每個查詢的前N條查詢結(jié) 果文檔中的專業(yè)詞匯進(jìn)行提取，并統(tǒng)計獲得每個專業(yè)詞匯在所述查詢結(jié)果文檔中出現(xiàn)的次數(shù)或者出現(xiàn)次數(shù)的加權(quán)和；按照每個專業(yè)詞匯在查詢結(jié)果文檔中出現(xiàn)的次數(shù)或者次數(shù)的加權(quán)和降序排列，選擇出現(xiàn)次數(shù)最高或次數(shù)的加權(quán)和最高的M個專業(yè)詞匯作為候選擴(kuò)展詞匯，其中M為自然數(shù)； 53、候選擴(kuò)展詞匯的特征提取及標(biāo)注步驟：候選擴(kuò)展詞匯的特征提取及標(biāo)注同時進(jìn)行；其中，對候選擴(kuò)展詞匯的相關(guān)性標(biāo)注通過對比原始查詢的檢索性能和將該候選擴(kuò)展詞匯加入到原始查詢中時的檢索性能的高低來標(biāo)注；檢索性能高低的評價指標(biāo)包括：準(zhǔn)確率，平均準(zhǔn)確率，NDCG值和MRR值；相關(guān)性標(biāo)注的具體方式如下：
其中，eval()為用于評價檢索性能高低的評價指標(biāo)函數(shù)，eval(query+term)為評價指標(biāo)函數(shù)eval ()在評價將候選擴(kuò)展詞匯term加入到查詢query時的得分，eval (query)為評價指標(biāo)函數(shù)在評價查詢query時的得分；label標(biāo)注為1表示該候選擴(kuò)展詞匯與查詢query 是相關(guān)的；label標(biāo)注為0表示該候選擴(kuò)展詞匯與查詢query不相關(guān)的；候選擴(kuò)展詞匯的特征提取，是從生物醫(yī)學(xué)資源和查詢池中的查詢所返回的前N條查詢結(jié)果文檔中提取候選擴(kuò)展詞匯的分布信息、候選詞匯在生物醫(yī)學(xué)資源中的分布信息以及候選擴(kuò)展詞匯和原始查詢的相關(guān)性信息等為訓(xùn)練排序模型做準(zhǔn)備，并在提取同一候選擴(kuò)展詞匯的多種特征后，對所有特征值進(jìn)行歸一化處理，以將所有特征值控制在[〇，1]區(qū)間上，歸一化的過程如下所示：
其中，minValue和maxValue分別為某一特征的最小值和最大值； 54、候選擴(kuò)展詞匯排序模型訓(xùn)練步驟：根據(jù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐博;林鴻飛;
技術(shù)所有人：大連理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

排序算法相關(guān)技術(shù)

快速排序算法相關(guān)技術(shù)

冒泡排序算法相關(guān)技術(shù)

排序算法時間復(fù)雜度相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)的制作方法