国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種檢索結(jié)果相似條目的合并方法及其系統(tǒng)的制作方法

      文檔序號:6381090閱讀:253來源:國知局
      專利名稱:一種檢索結(jié)果相似條目的合并方法及其系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息搜索技術(shù),尤其涉及一種檢索結(jié)果相似條目的合并方法及其系統(tǒng)。
      背景技術(shù)
      隨著計算機(jī)及信息技術(shù)的快速發(fā)展,由計算機(jī)自動或輔助用戶生成的信息越來越多,如何在海量信息中檢索特定信息由此變得十分重要。為了解決此類問題,各種計算機(jī)信息檢索技術(shù)應(yīng)運而生,包括計算機(jī)文件檢索系統(tǒng)、網(wǎng)絡(luò)搜索引擎、在線數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng)等。計算機(jī)用戶利用這些系統(tǒng)通過鍵入關(guān)鍵詞而查找所需信息,此類系統(tǒng)在很大程度上解決了用戶檢索信息的難題,但是它們還缺乏精確檢索的能力以及良好的用戶體驗。例如,用戶在使用大多數(shù)網(wǎng)絡(luò)搜索引擎使用關(guān)鍵詞檢索信息時,經(jīng)常會得到來自于不同來源的內(nèi)容雷同的條目。當(dāng)此類條目數(shù)量顯著時,用戶會收到大量重復(fù)信息對其的干擾,不利于用戶迅 速準(zhǔn)確的獲取所需信息。同時,經(jīng)過多年發(fā)展,計算機(jī)文件相似度檢測技術(shù)也逐漸成熟。例如,使用散列算法可以檢測文件內(nèi)容是否相同,通過計算兩個文件的Jaccard指數(shù)或者其它類似的SimHashing算法可得到兩個文件的相似度。此類技術(shù)和技術(shù)已被廣泛的用于檢索文本文件的相似度。隨著用戶搜索需求的增長,通常單一的搜索引擎難以滿足用戶搜索的需要,因此出現(xiàn)了一種利用多個搜索引擎資源,通過集成檢索結(jié)果為用戶提供最終結(jié)果的元搜索技術(shù)。但由于此類技術(shù)涉及到整合多個搜索服務(wù)提供方資源、不可避免的觸及不同搜索廠商的利益,容易引發(fā)商業(yè)爭斗和政治問題,所以元搜索技術(shù)至今仍術(shù)被廣泛應(yīng)用。

      發(fā)明內(nèi)容
      本發(fā)明提出了一種檢索結(jié)果相似條目的合并方法,包括如下步驟步驟一獲取包含至少一項條目的檢索結(jié)果;步驟二 對所述檢索結(jié)果中的條目進(jìn)行相似度對比,獲得所述條目之間的相似度對比值;步驟三將所述相似度對比值與所述相似度閾值比較,根據(jù)比較結(jié)果,合并相似條目;步驟四顯示相似條目合并后的檢索結(jié)果。其中,所述步驟一中的檢索結(jié)果的生成步驟包括步驟Al :獲取關(guān)鍵詞,對所述關(guān)鍵詞進(jìn)行預(yù)處理;步驟A2 :判斷所述預(yù)處理后的關(guān)鍵詞是否符合要求;若符合要求的,則根據(jù)所述關(guān)鍵詞進(jìn)行檢索生成檢索結(jié)果;若不符合要求的,則重新執(zhí)行所述步驟Al、A2,直至生成檢索結(jié)果。其中,所述步驟一中進(jìn)一步包括根據(jù)權(quán)值將所述條目由高到低排序。
      其中,進(jìn)一步包括權(quán)值相同的所述條目根據(jù)所述條目被引用次數(shù)由高到低排序。其中,所述步驟三中,所述相似度閾值采用默認(rèn)值或用戶設(shè)定值。其中,所述步驟三中,所述合并相似條目包括步驟BI :判斷已處理條目集合是否為空;若所述已處理條目集合為空,則初始化所述已處理條目集合,將所述檢索結(jié)果中的未處理條目集合中的任意一個條目作為起始條目,并將該起始條目存入所述已處理條目集合中,執(zhí)行步驟B2 ;若所述已處理條目集合不為空,則執(zhí)行步驟B2 ;步驟B2 :將所述未處理條目集合的一個條目與已處理條目集合中的所有條目依次計算相似度對比值,并將所述相似度對比值與相似度閾值比較,若大于等于相似度閾值則將該當(dāng)前兩條目進(jìn)行合并生成合并條目,將所述條目以所述合并條目的子條目的方式存入所述已處理條目集合;若小于相似度閾值,則將所述條目以所述已處理條目集合的子集的方式存入所述已處理條目集合; 步驟B3 :重復(fù)執(zhí)行所述步驟B2,直至所述術(shù)處理條目集合為空時為止。其中,進(jìn)一步包括當(dāng)重新設(shè)定相似度閾值時,重新執(zhí)行所述步驟二至步驟四。其中,在所述步驟B2中,以所述已合并條目中的權(quán)值最高的子條目作為代表項。本發(fā)明還提出了一種檢索結(jié)果相似條目的合并系統(tǒng),包括條目處理裝置,其處理檢索結(jié)果中的各條目;相似度對比裝置,其與所述條目處理裝置連接,對所述檢索結(jié)果中的條目進(jìn)行相似度對比,生成所述相似度對比值;閾值設(shè)定裝置,其與所述條目處理裝置連接,實現(xiàn)設(shè)定所述相似度閾值;顯示裝置,其與所述條目處理裝置連接,向用戶顯示所述相似條目合并后的檢索結(jié)果。其中,進(jìn)一步包括數(shù)據(jù)庫,其存儲有海量信息;檢索裝置,其與所述數(shù)據(jù)庫及所述條目處理裝置連接,用于根據(jù)關(guān)鍵詞檢索所述海量信息生成所述檢索結(jié)果,并生成所述檢索結(jié)果中各條目與所述關(guān)鍵詞的匹配度的權(quán)值。本發(fā)明減少重復(fù)信息對用戶的干擾,并改進(jìn)計算機(jī)檢索系統(tǒng)的用戶體驗,使用戶更迅速的檢索查詢到其所需信息,為用戶提供精確的檢索服務(wù)。本發(fā)明在對用戶提供的關(guān)鍵詞進(jìn)行檢索并返回最終檢索結(jié)果之前,先對檢索結(jié)果進(jìn)行過濾,將結(jié)果中內(nèi)容相似的條目進(jìn)行合并,最后將結(jié)果返回給用戶。用戶亦可以展開合并過的條目以獲取更詳盡的信息。本發(fā)明還為用戶提供了設(shè)置合并條目的相似度閾值的功能,方便用戶根據(jù)實際需要動態(tài)調(diào)整信息的粒度和合并相似條目的強度。


      圖I表示本發(fā)明檢索結(jié)果相似條目的合并方法的流程示意圖。圖2表示本發(fā)明檢索結(jié)果相似條目的合并方法的詳細(xì)流程圖。圖3表示閾值設(shè)定裝置的閾值設(shè)定的流程圖。
      圖4表示合并相似條目的具體實施結(jié)果的示意圖。圖5表示條目合并的詳細(xì)流程圖。圖6表示本發(fā)明檢索結(jié)果相似條目的合并系統(tǒng)的結(jié)構(gòu)圖。圖7表示較佳實施例處理過程中檢索結(jié)果的示意圖。圖8表不較佳實施例處理過程中檢索結(jié)果的不意圖。圖9表示較佳實施例處理過程中檢索結(jié)果的示意圖。
      具體實施方式

      結(jié)合以下具體實施例和附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。實施本發(fā)明的過程、條件、實驗方法等,除以下專門提及的內(nèi)容之外,均為本領(lǐng)域的普遍知識和公知常識,本發(fā)明沒有特別限制內(nèi)容。如圖I至圖9中,I-數(shù)據(jù)庫,2-檢索裝置,3-條目處理裝置,4-相似度對比裝置,5-閾值設(shè)定裝置,6-顯示裝置。如圖I與圖2所示,本發(fā)明檢索結(jié)果相似條目的合并方法的具體實施步驟包括,步驟一獲取包含至少一項條目的檢索結(jié)果。檢索結(jié)果由檢索裝置2根據(jù)關(guān)鍵詞檢索數(shù)據(jù)庫I的海量信息后獲得。檢索裝置2獲取用戶輸入的關(guān)鍵詞,并將關(guān)鍵詞進(jìn)行預(yù)處理。這些預(yù)處理包括對關(guān)鍵詞的修剪、拆分以及合成等操作。預(yù)處理完畢之后檢索裝置2判斷該關(guān)鍵詞是否符合系統(tǒng)要求,包括關(guān)鍵詞的長度要求、敏感信息審查要求等系統(tǒng)要求。如果此關(guān)鍵詞不符合系統(tǒng)要求,檢索裝置2會提示用戶重新輸入關(guān)鍵詞直到關(guān)鍵詞符合系統(tǒng)要求或用戶退出系統(tǒng)為止。如果此關(guān)鍵詞符合系統(tǒng)要求,檢索裝置2則使用此關(guān)鍵詞在數(shù)據(jù)庫I中進(jìn)行檢索生成檢索結(jié)果。條目處理裝置3獲取該檢索結(jié)果。優(yōu)選地,檢索結(jié)果中根據(jù)關(guān)鍵詞與各條目的匹配度(即權(quán)值)由高至低對各條目進(jìn)行排序,當(dāng)出現(xiàn)有相同匹配度的若干條目時,再根據(jù)這些條目被引用的次數(shù)由高至低再次排序。步驟二 對檢索結(jié)果中的條目進(jìn)行相似度對比,獲得條目之間的相似度對比值。本實施例中,條目處理裝置3通過相似度對比裝置4對條目之間進(jìn)行相似度對比,獲取條目之間的相似度對比值。步驟三將相似度對比值與相似度閾值比較,根據(jù)比較結(jié)果合并相似條目。本實施例中,如果條目之間的相似度對比值高于或等于設(shè)定的相似度閾值,則認(rèn)定上述條目為相似條目,條目處理裝置3將相似條目合并為一個已合并條目。每個已合并條目采用其中的權(quán)值最高的子條目作為代表項。已合并條目在顯示時只顯示代表項的條目的摘要、內(nèi)容等信息,以及標(biāo)注該代表項的條目為已合并條目。如果相似度對比值低于相似度閾值,則認(rèn)定上述條目不是相似條目,條目處理裝置3則不合并上述條目。步驟四顯示相似條目合并后的檢索結(jié)果。顯示裝置6將檢索結(jié)果展示給用戶。如果單次顯示的條目數(shù)量太多,不適合顯示裝置6展示,則條目處理裝置3采取分部的方式展示所有條目。其中,用戶在瀏覽檢索結(jié)果的過程中可動態(tài)修改了閾值設(shè)定裝置5的相似度閾值.當(dāng)用戶改變相似度閾值后,閾值設(shè)定裝置5將采用用戶設(shè)定的相似度閾值,條目處理裝置3按照用戶設(shè)定的相似度閾值重新對條目進(jìn)行處理,合并條目后并由顯示裝置6再次進(jìn)行展示。圖3顯示的是閾值設(shè)定裝置5的閾值設(shè)定過程。本實施例中,閾值設(shè)定裝置5保存了一個相似度閾值(記為SimilarityThreshold),如果用戶術(shù)自定義相似度閾值,則相似度閾值為系統(tǒng)默認(rèn)值(記為DefaultThreshold),此時SimilarityThreshold等于DefaultThreshold ;否則該閾值為用戶自定義的相似度閾值(記為UserDefinedThreshold)。本發(fā)明較佳實施例中,本發(fā)明的閾值設(shè)定裝置5結(jié)合軟件實現(xiàn)上述功能,具體采用以下的方式實現(xiàn)SimilarityThreshold = DefaultThreshold// 讀入系統(tǒng)默認(rèn)條目合并相似度閾值IF用戶定義了條目合并相似度閾值THEN讀入用戶定義的閾值到UserDefinedThresholdSimilarityThreshold = UserDefinedThreshold// 使用用戶定義的閾值 END IF本發(fā)明的步驟三中合并相似條目的具體實施結(jié)果如圖4所示。條目處理裝置3將條目存入未處理條目集合中,其中包括條目A、條目B等。條目處理裝置3判斷已處理條目集合為空,將條目A作為起始條目存入已處理條目集合中。此時條目處理裝置3將未處理條目集合中的待處理條目B通過相似度對比裝置4與條目A進(jìn)行相似度對比,得出條目B與條目A的相似度對比值為90%,高于閾值設(shè)定裝置5的默認(rèn)閾值70%。條目處理裝置3根據(jù)該結(jié)果,將條目B與條目A合并為一個已合并條目,條目B以該已合并條目的子條目存入已處理條目集合中,其中條目A作為該已合并條目的代表項,該已合并條目記為A’。已合并條目的子條目指已合并條目中被合并的條目,例如,已合并條目A’與條目B為上述已合并條目中的兩個子條目。合并完成后,條目處理裝置3從未處理條目集合中選取待處理條目C與已處理條目集合中僅有的已合并條目A’進(jìn)行相似度對比,得到相似度對比值為65%。由于低于默認(rèn)相似度閾值,條目處理裝置3將條目C作為已處理條目集合的子集存入已處理條目集合中,與已合并條目A’并列展示。同樣地,條目處理裝置3將未處理條目集合中的待處理條目D與已處理條目集合中的已合并條目A’和條目C分別進(jìn)行相似度對比,由于相似度對比值均小于相似度閾值,條目處理裝置3將條目D作為已處理條目集合的子集存入已處理條目集合中,與已合并條目A’、條目C并列展示。條目處理裝置3重復(fù)執(zhí)行上述步驟,直到處理完未處理條目集合中的所有條目為止。已處理條目集合的子集是指已處理條目集合中并列展示的項目,已處理條目集合的子集可以是單獨的條目或者已合并的條目。例如,已合并條目A’、條目C與條目D為該已處理條目集合的子集。其中,作為子集的已合并條目A’中還包含子條目(條目A與條目B)。圖5顯示的是條目合并過程,其中描述了該條目處理裝置3對檢索條目的處理流程。當(dāng)條目處理裝置3從檢索裝置2獲取檢索結(jié)果之后,條目處理裝置3取得閾值設(shè)定裝置5的相似度閾值,該閾值可以是默認(rèn)的相似度閾值,亦可以是用戶自定義的。然后,條目處理裝置3將一個未處理的條目作為起始條目存入已處理條目集合中,條目處理裝置3判斷是否仍存在未處理的條目,若存在,則取出當(dāng)前術(shù)處理的條目中的首個條目作為待處理條目,并將其與已處理的條目中的每個條目進(jìn)行相似度對比;如果該條目與已處理的某個條目的相似度高于或者等于條目處理裝置3讀取的相似度閾值,則表示已處理條目集合中存在與·該待處理條目相似的其它條目,條目處理裝置3將這些條目自動合并,并更新已處理條目集合并重新判斷未處理條目集合是否為空。條目處理裝置3重復(fù)執(zhí)行上述過程,直到處理完全部的條目,不存在未處理的條目時為止。本發(fā)明較佳實施例中,本發(fā)明的相似度對比裝置3結(jié)合軟件實現(xiàn)上述功能,具體釆用以下的方式實現(xiàn)
      權(quán)利要求
      1.一種檢索結(jié)果相似條目的合并方法,其特征在于,包括如下步驟步驟一獲取包含至少一項條目的檢索結(jié)果;步驟二 對所述檢索結(jié)果中的條目進(jìn)行相似度對比,獲得所述條目之間的相似度對比值;步驟三將所述相似度對比值與所述相似度閾值比較,根據(jù)比較結(jié)果,合并相似條目; 步驟四顯示相似條目合并后的檢索結(jié)果。
      2.如權(quán)利要求I所述檢索結(jié)果相似條目的合并方法,其特征在于,所述步驟一中的檢索結(jié)果的生成步驟包括步驟Al :獲取關(guān)鍵詞,對所述關(guān)鍵詞進(jìn)行預(yù)處理;步驟A2 :判斷所述預(yù)處理后的關(guān)鍵詞是否符合要求;若符合要求的,則根據(jù)所述關(guān)鍵詞進(jìn)行檢索生成檢索結(jié)果;若不符合要求的,則重新執(zhí)行所述步驟Al、A2,直至生成檢索結(jié)果O
      3.如權(quán)利要求I所述檢索結(jié)果相似條目的合并方法,其特征在于,所述步驟一中進(jìn)一步包括根據(jù)權(quán)值將所述條目由高到低排序。
      4.如權(quán)利要求3所述檢索結(jié)果相似條目的合并方法,其特征在于,進(jìn)一步包括權(quán)值相同的所述條目根據(jù)所述條目被引用次數(shù)由高到低排序。
      5.如權(quán)利要求I所述檢索結(jié)果相似條目的合并方法,其特征在于,所述步驟三中,所述相似度閾值采用默認(rèn)值或用戶設(shè)定值。
      6.如權(quán)利要求I所述檢索結(jié)果相似條目的合并方法,其特征在于,所述步驟三中,所述合并相似條目包括步驟BI :判斷已處理條目集合是否為空;若所述已處理條目集合為空,則初始化所述已處理條目集合,將所述檢索結(jié)果中的未處理條目集合中的任意一個條目作為起始條目, 并將該起始條目存入所述已處理條目集合中,執(zhí)行步驟B2 ;若所述已處理條目集合不為空,則執(zhí)行步驟B2 ;步驟B2 :將所述未處理條目集合的一個條目與已處理條目集合中的所有條目依次計算相似度對比值,并將所述相似度對比值與相似度閾值比較,若大于等于相似度閾值則將該當(dāng)前兩條目進(jìn)行合并生成已合并條目,將所述條目以所述已合并條目的子條目的方式存入所述已處理條目集合;若小于相似度閾值,則將所述條目以所述已處理條目集合的子集的方式存入所述已處理條目集合;步驟B3 :重復(fù)執(zhí)行所述步驟B2,直至所述未處理條目集合為空時為止。
      7.如權(quán)利要求I所述檢索結(jié)果相似條目的合并方法,其特征在于,進(jìn)一步包括當(dāng)重新設(shè)定相似度閾值時,重新執(zhí)行所述步驟二至步驟四。
      8.如權(quán)利要求6所述檢索結(jié)果相似條目的合并方法,其特征在于,在所述步驟B2中,以所述已合并條目中的權(quán)值最高的子條目作為代表項。
      9.一種檢索結(jié)果相似條目的合并系統(tǒng),其特征在于,包括條目處理裝置(3),其處理檢索結(jié)果中的各條目;相似度對比裝置(4),其與所述條目處理裝置(3)連接,對所述檢索結(jié)果中的條目進(jìn)行相似度對比,生成所述相似度對比值;閾值設(shè)定裝置(5),其與所述條目處理裝置(3)連接,實現(xiàn)設(shè)定所述相似度閾值;顯示裝置(6),其與所述條目處理裝置(3)連接,向用戶顯示所述相似條目合并后的檢索結(jié)果。
      10.如權(quán)利要求9所述的檢索結(jié)果相似條目的合并系統(tǒng),其特征在于,進(jìn)一步包括 數(shù)據(jù)庫(I),其存儲有海量信息;檢索裝置(2),其與所述數(shù)據(jù)庫(I)及所述條目處理裝置(3)連接,用于根據(jù)關(guān)鍵詞檢索所述海量信息生成所述檢索結(jié)果,并生成所述檢索結(jié)果中各條目與所述關(guān)鍵詞的匹配度的權(quán)值。
      全文摘要
      本發(fā)明公開了一種檢索結(jié)果相似條目的合并方法,包括獲取包含至少一項條目的檢索結(jié)果;對檢索結(jié)果中的條目進(jìn)行相似度對比,獲得條目之間的相似度對比值;將相似度對比值與相似度閾值比較,根據(jù)比較結(jié)果,合并相似條目;顯示相似條目合并后的檢索結(jié)果。本發(fā)明減少雷同條目對用戶的干擾,減少系統(tǒng)最終返回給用戶的條目數(shù),極大程度地改進(jìn)用戶的檢索體驗。本發(fā)明還公開了一種檢索結(jié)果相似條目的合并系統(tǒng)。
      文檔編號G06F17/30GK102930038SQ20121045165
      公開日2013年2月13日 申請日期2012年11月12日 優(yōu)先權(quán)日2012年11月12日
      發(fā)明者李道遠(yuǎn), 程鑫, 高俊, 顧鑫 申請人:江蘇外博資訊有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1