国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng)的制作方法_2

      文檔序號(hào):8430850閱讀:來(lái)源:國(guó)知局
      候選擴(kuò)展詞匯的相關(guān)程度標(biāo)注和多種特征, 利用詞分組排序算法訓(xùn)練得到每種特征的權(quán)重值,具體步驟為:選擇一個(gè)步驟S3中被標(biāo)注 為相關(guān)的候選擴(kuò)展詞匯和若干被標(biāo)記為不相關(guān)的候選擴(kuò)展詞匯組成一個(gè)詞分組,選擇若干 這樣的詞分組作為訓(xùn)練樣本;隨機(jī)為其中每一個(gè)候選擴(kuò)展詞的特征賦予初始權(quán)重,通過(guò)特 征加權(quán)得分對(duì)每個(gè)詞分組內(nèi)的相關(guān)候選擴(kuò)展詞匯進(jìn)行排序;根據(jù)每個(gè)詞分組的排序結(jié)果, 計(jì)算總體排序損失,根據(jù)損失函數(shù)的梯度值動(dòng)態(tài)調(diào)整每一維特征的權(quán)重,其中排序損失為:
      ,其中NumSample為詞分組中候選擴(kuò)展詞匯分組的數(shù)量,Ioss i為每個(gè) 詞分組的損失值,該損失值通過(guò)計(jì)算相關(guān)擴(kuò)展詞匯的排序位置得到,排序位置越靠前對(duì)應(yīng) 的損失值越小;通過(guò)循環(huán)迭代上一過(guò)程,直到總體損失值小于某一閾值或達(dá)到指定的迭代 次數(shù)訓(xùn)練完成,將最終選擇的特征值作為訓(xùn)練完成的排序模型; 在線查詢階段包括以下步驟: 55、 在線搜索引擎查詢與提取步驟:對(duì)于用戶在線提交的新查詢,檢索得到前Nl條查 詢結(jié)果;根據(jù)生物醫(yī)學(xué)資源對(duì)前Nl條檢索結(jié)果中的專業(yè)詞匯及其多種特征進(jìn)行提取,其中 Nl為自然數(shù);; 56、 在線候選擴(kuò)展詞匯提取及其特征提取及打分步驟:根據(jù)生物醫(yī)學(xué)資源對(duì)新查詢利 用離線階段S2-S3的候選擴(kuò)展詞匯提取方法及候選擴(kuò)展詞匯的特征提取方法對(duì)前Nl條檢 索結(jié)果中的在線查詢階段專業(yè)詞匯及其多種特征進(jìn)行提取,得到在線查詢階段候選擴(kuò)展詞 匯,提取的特征用于衡量候選擴(kuò)展詞匯在擴(kuò)展查詢中的重要性;根據(jù)步驟S4訓(xùn)練得到的特 征權(quán)重,為在線查詢階段候選擴(kuò)展詞匯進(jìn)行打分,并選擇分?jǐn)?shù)靠前的Kl個(gè)候選擴(kuò)展詞匯加 入到在線提交的新查詢中作為擴(kuò)展查詢,其中Kl為自然數(shù); 對(duì)于利用生物醫(yī)學(xué)資源標(biāo)注并提取的某一個(gè)在線查詢階段候選擴(kuò)展詞匯,它的得分為
      其中FeatureNum是特征的總數(shù),ai是排序模型中 第i個(gè)特征的權(quán)重值,F(xiàn)eaturei (term)是在線查詢階段候選擴(kuò)展詞匯term所對(duì)應(yīng)的第i個(gè) 特征的特征值; 根據(jù)在線查詢階段候選擴(kuò)展詞匯得分對(duì)其進(jìn)行排序,并選擇排序靠前 的Kl個(gè)在線查詢階段候選擴(kuò)展詞匯作為擴(kuò)展詞匯加入到在線提交的新查詢 中時(shí),所加入的在線查詢階段候選擴(kuò)展詞匯在擴(kuò)展查詢中的權(quán)重可以表示為
      ^其中sign為符號(hào)函數(shù),當(dāng)該在線查詢階 段候選擴(kuò)展詞匯出現(xiàn)在在線提交的新查詢中時(shí)sign = 1,否則sign = 0,weightOTiginal為在 線提交的新查詢?cè)跀U(kuò)展查詢中的權(quán)重值; 57、 查詢結(jié)果返回步驟:根據(jù)擴(kuò)展查詢進(jìn)行檢索,將檢索結(jié)果返回給用戶。
      2. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方 法,其特征在于,步驟S2中,專業(yè)詞匯在所述查詢結(jié)果文檔中出現(xiàn)次數(shù)的加權(quán)和為
      其中Counti為該詞匯在第i篇文檔中出現(xiàn)的次數(shù),d(i) 為第i篇文檔的衰減因子。
      3. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征 在于,在步驟S3中,評(píng)價(jià)指標(biāo)函數(shù)eval〇為平均準(zhǔn)確率函數(shù),即:
      其中,RelDocquel7為給定的查詢query的相關(guān)文檔的個(gè)數(shù),rank(i)表示在文檔結(jié)果排 序列表中的第i篇相關(guān)文檔的位置。
      4. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征 在于,在步驟Sl中,當(dāng)無(wú)歷史查詢記錄的情況時(shí),通過(guò)構(gòu)造生物醫(yī)學(xué)查詢和檢索方法的方 式,人工獲得查詢及其結(jié)果的記錄;所述檢索方法采用向量空間模型、BM25檢索模型或基 于不同平滑方法的語(yǔ)言模型。
      5. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征 在于,步驟S4中損失值為
      1其中rant為相關(guān)的候選擴(kuò)展詞在詞分組列表 中排序的位置。
      6. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征 在于,生物醫(yī)學(xué)資源是指包含生物醫(yī)學(xué)專業(yè)詞匯的詞典或者知識(shí)庫(kù)。
      7. 根據(jù)權(quán)利要求1所述的一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法,其特征 在于,所述候選擴(kuò)展詞匯的特征包括候選擴(kuò)展詞匯在結(jié)果文檔中出現(xiàn)的頻率TF、候選擴(kuò)展 詞匯的TF-IDF值、候選擴(kuò)展詞匯與原始查詢共同出現(xiàn)的文檔個(gè)數(shù)、候選擴(kuò)展詞匯與原始查 詢?cè)谕晃谋敬翱谥泄餐霈F(xiàn)的次數(shù)、在生物醫(yī)學(xué)資源中候選擴(kuò)展詞匯出現(xiàn)的次數(shù)、在生 物醫(yī)學(xué)資源中,包含該候選擴(kuò)展詞匯的術(shù)語(yǔ)概念的個(gè)數(shù)以及在生物醫(yī)學(xué)專業(yè)術(shù)語(yǔ)概念之間 的包含關(guān)系。
      8. -種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng),其特征在于,包括離線訓(xùn)練部 分和在線檢索部分;所述離線訓(xùn)練部分包括以下部分: 搜索引擎查詢提取模塊:用于根據(jù)搜索引擎的歷史查詢記錄,提取多組查詢以及每個(gè) 查詢中獲得的前N條查詢結(jié)果文檔;并將查詢及查詢結(jié)果文檔收集到一個(gè)查詢池中,其中N 為自然數(shù); 候選擴(kuò)展詞匯提取模塊:用于在給定用戶查詢時(shí),利用生物醫(yī)學(xué)領(lǐng)域固有的資源,在搜 索引擎查詢提取模塊得到的前N個(gè)查詢結(jié)果文檔中,提取得到專業(yè)詞匯,并對(duì)該專業(yè)詞匯 在查詢結(jié)果文檔中出現(xiàn)的頻率或者出現(xiàn)次數(shù)的加權(quán)和進(jìn)行記錄;按照每個(gè)專業(yè)詞匯在查詢 結(jié)果文檔中出現(xiàn)的次數(shù)或者出現(xiàn)次數(shù)的加權(quán)和降序排列,選擇出現(xiàn)次數(shù)最高的M個(gè)專業(yè)詞 匯作為候選擴(kuò)展詞匯,其中M為自然數(shù); 候選擴(kuò)展詞匯的特征提取及標(biāo)注模塊:用于在候選擴(kuò)展詞提取模塊中所得到的候選擴(kuò) 展詞匯中提取與之相關(guān)的特征,并根據(jù)候選擴(kuò)展詞匯對(duì)于檢索性能的影響,標(biāo)注候選擴(kuò)展 詞匯的相關(guān)程度; 候選擴(kuò)展詞匯排序模型訓(xùn)練模塊:用于利用詞分組排序算法,在提取候選擴(kuò)展詞匯特 征和標(biāo)注候選擴(kuò)展詞匯相關(guān)程度后,訓(xùn)練詞匯排序模型獲得候選擴(kuò)展詞匯的每一特征的權(quán) 重值; 所述在線檢索部分包括: 查詢重構(gòu)模塊:用于新查詢中的專業(yè)詞匯提取和候選擴(kuò)展詞匯打分;包括在線搜索引 擎查詢提取模塊、在線候選擴(kuò)展詞匯提取及其特征提取及打分模塊,其中,在線搜索引擎查 詢提取模塊用于對(duì)用戶在線提交的新查詢,檢索得到前Nl條查詢結(jié)果;根據(jù)生物醫(yī)學(xué)資源 對(duì)前Nl條檢索結(jié)果中的專業(yè)詞匯及其多種特征進(jìn)行提取,其中Nl為自然數(shù)。在線候選擴(kuò) 展詞匯提取及其特征提取及打分模塊利用詞匯排序模型輸出的候選擴(kuò)展詞匯權(quán)重值得分 計(jì)算相應(yīng)的權(quán)重,并將其加入到原始查詢中,得到擴(kuò)展查詢; 查詢結(jié)果返回模塊:用于將擴(kuò)展查詢檢索得到的結(jié)果文檔,返回給用戶。
      【專利摘要】一種基于詞分組排序算法的生物醫(yī)學(xué)文獻(xiàn)檢索方法及系統(tǒng),檢索方法包括S1、搜索引擎查詢提取步驟;S2、候選擴(kuò)展詞匯提取步驟;S3、候選擴(kuò)展詞匯的特征提取及標(biāo)注步驟;S4、候選擴(kuò)展詞匯排序模型訓(xùn)練步驟;S5、在線搜索引擎查詢與提取步驟;S6、在線候選擴(kuò)展詞匯提取及其特征提取及打分步驟;S7、查詢結(jié)果返回步驟。檢索系統(tǒng)包括搜索引擎查詢提取模塊、候選擴(kuò)展詞匯提取模塊、候選擴(kuò)展詞匯的特征提取及標(biāo)注模塊、候選擴(kuò)展詞匯排序模型訓(xùn)練模塊、 查詢重構(gòu)模塊、查詢結(jié)果返回模塊。本發(fā)明從查詢擴(kuò)展角度出發(fā),通過(guò)在查詢擴(kuò)展中利用詞分組排序算法和生物醫(yī)學(xué)領(lǐng)域固有詞典資源選擇最能表達(dá)用戶信息需求的專業(yè)詞匯,完成檢索任務(wù),改善檢索的性能。
      【IPC分類】G06F17-27, G06F17-30
      【公開號(hào)】CN104750819
      【申請(qǐng)?zhí)枴緾N201510147696
      【發(fā)明人】徐博, 林鴻飛
      【申請(qǐng)人】大連理工大學(xué)
      【公開日】2015年7月1日
      【申請(qǐng)日】2015年3月31日
      當(dāng)前第2頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1