国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聚類方法及裝置的制作方法

      文檔序號(hào):6363851閱讀:299來(lái)源:國(guó)知局
      專利名稱:聚類方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種聚類方法及裝置。
      背景技術(shù)
      檢索結(jié)果聚類,是指將搜索引擎搜索到的檢索結(jié)果中類似的搜索結(jié)果聚集成簇的 過(guò)程,其中,簇是一組彼此相似的檢索結(jié)果的集合,相同簇中的檢索結(jié)果彼此相似,而不同 簇中的檢索結(jié)果則往往彼此相異。檢索結(jié)果聚類能夠幫助用戶更好的使用搜索引擎,比如, 能夠幫助用戶更加快速的定位到需要的信息,或者能夠幫助用戶獲取更加全面的信息等。在現(xiàn)有技術(shù)中,已有的檢索結(jié)果聚類方法主要分為兩類一類被稱為基于文檔 (Documents-Based)的方法;而另一類被稱為基于標(biāo)簽(Label-Based)的方法。所謂基于 文檔的方法是指首先通過(guò)傳統(tǒng)的文檔聚類方法,把文檔聚集成多個(gè)類別,然后再?gòu)母黝悇e 中分別抽取出合適的聚類標(biāo)簽來(lái)標(biāo)注各個(gè)類別,由于采用基于文檔的方法往往不能生成可 讀性較好的聚類標(biāo)簽,不同聚類標(biāo)簽之間區(qū)分性較小,從而用戶難以從區(qū)分性較小的各聚 類標(biāo)簽中找到符合自己需求的檢索結(jié)果,因此這一類方法只是在早期的檢索結(jié)果聚類工作 中使用較多;而基于標(biāo)簽的方法則是指首先從文檔中抽取一些有代表性的詞語(yǔ),然后對(duì)抽 取的詞語(yǔ)進(jìn)行合理的評(píng)價(jià)與篩選,并將經(jīng)過(guò)評(píng)價(jià)和篩選處理后得到的不同詞語(yǔ)作為對(duì)應(yīng)于 不同類別文檔的聚類標(biāo)簽,從而后續(xù)可以以該不同類別的聚類標(biāo)簽為基礎(chǔ),進(jìn)一步實(shí)現(xiàn)對(duì) 文檔的分類,在這類方法中,聚類標(biāo)簽的選取很關(guān)鍵,但按照現(xiàn)有技術(shù)中提供的聚類標(biāo)簽選 取方式,同樣很難得到可讀性較好的聚類標(biāo)簽。由上述可知,現(xiàn)有技術(shù)采用的各類檢索結(jié)果聚類方法都存在著難以生成可讀性較 好的聚類標(biāo)簽,從而使得用戶難以按照聚類標(biāo)簽找到符合自己需求的檢索結(jié)果的缺陷。

      發(fā)明內(nèi)容
      本發(fā)明實(shí)施例提供一種聚類方法及裝置,用以解決按照現(xiàn)有技術(shù)提供的檢索結(jié)果 聚類方法難以生成可讀性較好的聚類標(biāo)簽的缺陷。為此,本發(fā)明實(shí)施例采用以下技術(shù)方案—種聚類方法,包括根據(jù)預(yù)設(shè)的選取策略,從待聚類的各個(gè)文檔中選取第一候選 字串集合;針對(duì)所述第一候選字串集合中的各字串,根據(jù)與該字串相關(guān)的參數(shù),從所述第一 候選字串集合中選取第二候選字串,所述與該字串相關(guān)的參數(shù)為該字串出現(xiàn)在所述待聚類 的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù)以及 所述待聚類的文檔中包含該各字串的文檔個(gè)數(shù)中的至少一個(gè)參數(shù);將所述第二候選字串確 定為對(duì)所述待聚類的各個(gè)文檔進(jìn)行聚類的聚類標(biāo)簽,并將所述待聚類的各個(gè)文檔分別歸類 到與所述聚類標(biāo)簽對(duì)應(yīng)的簇中。較佳地,針對(duì)所述第一候選字串集合中的各字串,根據(jù)與該字串相關(guān)的參數(shù),從所 述第一候選字串集合中選取第二候選字串具體包括針對(duì)所述第一候選字串集合中的各字 串,根據(jù)該字串出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù)以及所述待聚類的文檔中包含該各字串的文檔個(gè)數(shù),采用下 述公式計(jì)算該字串的重要度Score Sco
      權(quán)利要求
      一種聚類方法,其特征在于,包括根據(jù)預(yù)設(shè)的選取策略,從待聚類的各個(gè)文檔中選取第一候選字串集合;針對(duì)所述第一候選字串集合中的各字串,根據(jù)與該字串相關(guān)的參數(shù),從所述第一候選字串集合中選取第二候選字串,所述與該字串相關(guān)的參數(shù)為該字串出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù)以及所述待聚類的文檔中包含該各字串的文檔個(gè)數(shù)中的至少一個(gè)參數(shù);將所述第二候選字串確定為對(duì)所述待聚類的各個(gè)文檔進(jìn)行聚類的聚類標(biāo)簽,并將所述待聚類的各個(gè)文檔分別歸類到與所述聚類標(biāo)簽對(duì)應(yīng)的簇中。
      2.如權(quán)利要求1所述的方法,其特征在于,針對(duì)所述第一候選字串集合中的各字串,根 據(jù)與該字串相關(guān)的參數(shù),從所述第一候選字串集合中選取第二候選字串具體包括針對(duì)所述第一候選字串集合中的各字串,根據(jù)該字串出現(xiàn)在所述待聚類的所有文檔中 的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù)以及所述待聚類的 文檔中包含該各字串的文檔個(gè)數(shù),采用下述公式計(jì)算該字串的重要度Score Score = ~wor(^-tf_ * word,df * \og(word length) wordnormtf其中,word, tf為該字串出現(xiàn)在所述待聚類的各個(gè)文檔中的總次數(shù),word, normtf為該 字串出現(xiàn)在所述指定文檔中的總次數(shù),word, df為包含該字串的所述待聚類的文檔個(gè)數(shù), word, length為該字串包含的字符個(gè)數(shù);在計(jì)算出所述第一候選字串集合中各字串的重要度Score后,根據(jù)所述重要度Score, 從所述第一候選字串集合中選取第二候選字串。
      3.如權(quán)利要求2所述的方法,其特征在于,還包括按照所述確定的聚類標(biāo)簽的重要度Score由大至小的順序,對(duì)所述確定的聚類標(biāo)簽進(jìn) 行對(duì)應(yīng)排列。
      4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)預(yù)設(shè)的選取策略,從待聚類的各個(gè)文檔 中選取第一候選字串集合具體包括從待聚類的各個(gè)文檔所包含的字串中,選取字串包含的字符個(gè)數(shù)與預(yù)設(shè)的第一字符個(gè) 數(shù)閾值一致的字串;從所述選取的字串中選取符合預(yù)設(shè)規(guī)則的第一候選字串集合,所述預(yù)設(shè)規(guī)則為以下規(guī) 則中的任意一種或?yàn)橐韵乱?guī)則的任意組合針對(duì)所述第一候選字串集合中的各字串,包含該字串的所述待聚類的文檔的個(gè)數(shù)不小 于預(yù)設(shè)的第一閾值;針對(duì)所述第一候選字串集合中的各字串,在所述待聚類的各個(gè)文檔中,與該字串相鄰、 位于該字串之前、且包含的字符數(shù)目與預(yù)設(shè)的第二字符個(gè)數(shù)閾值一致的不同字串的個(gè)數(shù)不 小于預(yù)設(shè)的第二閾值;針對(duì)所述第一候選字串集合中的各字串,在所述待聚類的各個(gè)文檔中,與該字串相鄰、 位于該字串之后、且包含的字符數(shù)目與預(yù)設(shè)的第二字符個(gè)數(shù)閾值一致的不同字串的個(gè)數(shù)不 小于預(yù)設(shè)的第三閾值;針對(duì)所述第一候選字串集合中的各字串,該字串出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)除以該字串包含的各字符出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)所得的數(shù)值不小于預(yù)設(shè)的第四閾值。
      5.如權(quán)利要求1、2或4所述的方法,其特征在于,采用多模式匹配的方法,將所述待聚 類的各個(gè)文檔分別歸類到與所述聚類標(biāo)簽對(duì)應(yīng)的簇中。
      6.如權(quán)利要求1、2或4所述的方法,其特征在于,還包括針對(duì)所述確定的聚類標(biāo)簽中的各聚類標(biāo)簽,確定該聚類標(biāo)簽出現(xiàn)在所述待聚類的所有 文檔中的總次數(shù),并按照各個(gè)所述確定的總次數(shù)由多至少的順序,對(duì)所述確定的聚類標(biāo)簽 進(jìn)行對(duì)應(yīng)排列;或針對(duì)所述確定的聚類標(biāo)簽中的各聚類標(biāo)簽,確定包含有該聚類標(biāo)簽的所述待聚類的文 檔個(gè)數(shù),并按照各個(gè)所述確定的文檔個(gè)數(shù)由多至少的順序,對(duì)所述確定的聚類標(biāo)簽進(jìn)行對(duì) 應(yīng)排列;或按照所述確定的聚類標(biāo)簽分別被用作搜索引擎所使用的查詢?cè)~的頻率由高至低的順 序,對(duì)所述確定的聚類標(biāo)簽進(jìn)行對(duì)應(yīng)排列,其中,所述待聚類的文檔為通過(guò)搜索引擎搜索到 的搜索結(jié)果。
      7.一種聚類裝置,其特征在于,包括第一選取單元,用于根據(jù)預(yù)設(shè)的選取策略,從待聚類的各個(gè)文檔中選取第一候選字串 集合;第二選取單元,用于針對(duì)第一選取單元選取的第一候選字串集合中的各字串,根據(jù)與 該字串相關(guān)的參數(shù),從所述第一候選字串集合中選取第二候選字串,所述與該字串相關(guān)的 參數(shù)為該字串出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次 數(shù)、該字串包含的字符個(gè)數(shù)以及所述待聚類的文檔中包含該各字串的文檔個(gè)數(shù)中的至少一 個(gè)參數(shù);標(biāo)簽確定單元,用于將第二選取單元選取的第二候選字串確定為對(duì)所述待聚類的各個(gè) 文檔進(jìn)行聚類的聚類標(biāo)簽;歸類單元,用于將所述待聚類的各個(gè)文檔分別歸類到與所述標(biāo)簽確定單元確定的聚類 標(biāo)簽對(duì)應(yīng)的簇中。
      8.如權(quán)利要求7所述的裝置,其特征在于,所述第二選取單元具體包括計(jì)算模塊,用于針對(duì)所述第一候選字串集合中的各字串,根據(jù)該字串出現(xiàn)在所述待 聚類的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù) 以及所述待聚類的文檔中包含該各字串的文檔個(gè)數(shù),采用下述公式計(jì)算該字串的重要度 Score
      9.如權(quán)利要求7所述的裝置,其特征在于,所述第一選取單元具體包括第一選取模塊,用于從所述待聚類的各個(gè)文檔所包含的字串中,選取字串包含的字符個(gè)數(shù)與預(yù)設(shè)的第一字符個(gè)數(shù)閾值一致的字串;第二選取模塊,用于從第一選取模塊選取的字串中選取符合預(yù)設(shè)規(guī)則的第一候選字串 集合,所述預(yù)設(shè)規(guī)則為以下規(guī)則中的任意一種或?yàn)橐韵乱?guī)則的任意組合針對(duì)所述第一候選字串集合中的各字串,包含該字串的所述待聚類的文檔的個(gè)數(shù)不小 于預(yù)設(shè)的第一閾值;針對(duì)所述第一候選字串集合中的各字串,在所述待聚類的各個(gè)文檔中,與該字串相鄰、 位于該字串之前、且包含的字符數(shù)目與預(yù)設(shè)的第二字符個(gè)數(shù)閾值一致的不同字串的個(gè)數(shù)不 小于預(yù)設(shè)的第二閾值;針對(duì)所述第一候選字串集合中的各字串,在所述待聚類的各個(gè)文檔中,與該字串相鄰、 位于該字串之后、且包含的字符數(shù)目與預(yù)設(shè)的第二字符個(gè)數(shù)閾值一致的不同字串的個(gè)數(shù)不 小于預(yù)設(shè)的第三閾值;針對(duì)所述第一候選字串集合中的各字串,該字串出現(xiàn)在所述待聚類的所有文檔中的總 次數(shù)除以該字串包含的各字符出現(xiàn)在所述待聚類的所有文檔中的總次數(shù)所得的數(shù)值不小 于預(yù)設(shè)的第四閾值。
      10.如7 9任一權(quán)利要求所述的裝置,其特征在于,還包括 次數(shù)確定單元,用于分別針對(duì)標(biāo)簽確定單元確定的聚類標(biāo)簽中的各聚類標(biāo)簽,確定該 聚類標(biāo)簽出現(xiàn)在所述待聚類的所有文檔中的總次數(shù);標(biāo)簽排列單元,用于按照次數(shù)確定單元分別確定的各個(gè)總次數(shù)由多至少的順序,對(duì)所 述確定的聚類標(biāo)簽進(jìn)行對(duì)應(yīng)排列;或者還包括文檔個(gè)數(shù)確定單元,用于針對(duì)標(biāo)簽確定單元確定的聚類標(biāo)簽中的各聚類標(biāo)簽, 確定包含有該聚類標(biāo)簽的所述待聚類的文檔個(gè)數(shù);標(biāo)簽排列單元,用于按照文檔個(gè)數(shù)確定單元確定的各個(gè)文檔個(gè)數(shù)由多至少的順序,對(duì) 所述確定的聚類標(biāo)簽進(jìn)行對(duì)應(yīng)排列;或者還包括標(biāo)簽排列單元,用于按照標(biāo)簽確定單元確定的聚類標(biāo)簽分別被用作搜索引擎 所使用的查詢?cè)~的頻率由高至低的順序,對(duì)所述確定的聚類標(biāo)簽進(jìn)行對(duì)應(yīng)排列,其中,所述 待聚類的文檔為通過(guò)搜索引擎搜索到的搜索結(jié)果。
      全文摘要
      本發(fā)明公開(kāi)了一種聚類方法,用以解決現(xiàn)有技術(shù)提供的檢索結(jié)果聚類方法難以生成可讀性較好的聚類標(biāo)簽的缺陷,該方法包括根據(jù)預(yù)設(shè)的選取策略,從待聚類的各個(gè)文檔中選取第一候選字串集合;針對(duì)第一候選字串集合中的各字串,根據(jù)與該字串相關(guān)的參數(shù),從第一候選字串集合中選取第二候選字串,所述與該字串相關(guān)的參數(shù)為該字串出現(xiàn)在待聚類的所有文檔中的總次數(shù)、該字串出現(xiàn)在指定文檔中的總次數(shù)、該字串包含的字符個(gè)數(shù)以及待聚類的文檔中包含該各字串的文檔個(gè)數(shù)中的至少一個(gè)參數(shù);將第二候選字串確定為對(duì)所述待聚類的各個(gè)文檔進(jìn)行聚類的聚類標(biāo)簽,并將待聚類的各個(gè)文檔分別歸類到與所述聚類標(biāo)簽對(duì)應(yīng)的簇中。本發(fā)明還公開(kāi)了一種聚類裝置。
      文檔編號(hào)G06F17/30GK101989281SQ20091008917
      公開(kāi)日2011年3月23日 申請(qǐng)日期2009年8月3日 優(yōu)先權(quán)日2009年8月3日
      發(fā)明者孫宏偉, 羅治國(guó), 胡珉 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1