国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      關(guān)鍵詞的聚類方法和裝置制造方法

      文檔序號(hào):6502094閱讀:231來(lái)源:國(guó)知局
      關(guān)鍵詞的聚類方法和裝置制造方法
      【專利摘要】本發(fā)明涉及一種關(guān)鍵詞的聚類方法及實(shí)現(xiàn)該方法的裝置。所述方法包括:建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵詞以及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān);分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇;以及隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟,該第二聚類處理步驟包括:在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一聚類簇、并將所查找到的其他第一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇。本發(fā)明實(shí)施例提出的關(guān)鍵詞的聚類方法可以實(shí)現(xiàn)更多潛在關(guān)系的挖掘,提高搜索效率。
      【專利說(shuō)明】關(guān)鍵詞的聚類方法和裝置

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及網(wǎng)絡(luò)搜索技術(shù)中的關(guān)鍵詞的聚類方法 和裝置。

      【背景技術(shù)】
      [0002] 在網(wǎng)絡(luò)搜索技術(shù)中,用戶一般都是通過(guò)檢索串(query,搜索引擎中用戶提交的搜 索關(guān)鍵詞)搜索到相應(yīng)的結(jié)果。競(jìng)價(jià)搜索廣告(sponsored search advertising)系統(tǒng),是 一種基于搜索引擎的廣告搜索系統(tǒng),引擎平臺(tái)使用用戶的檢索串匹配廣告商或代理商提交 的關(guān)鍵詞(也可稱為購(gòu)買(mǎi)詞(bidterm)),將廣告推送給目標(biāo)用戶。
      [0003] 在競(jìng)價(jià)搜索廣告系統(tǒng)中,為了提高廣告的搜索效率,提出了對(duì)競(jìng)價(jià)搜索廣告系統(tǒng) 中由廣告商提供的關(guān)鍵詞進(jìn)行聚類的方法。
      [0004] 目前,現(xiàn)有最常用的聚類方法為:針對(duì)一廣告商提供的關(guān)鍵詞,從目前已存在的所 有廣告商提供的關(guān)鍵詞中找到字面上相似度較大的關(guān)鍵詞,將該廣告商提供的關(guān)鍵詞和匹 配出的關(guān)鍵詞聚類在一起。這樣一來(lái),當(dāng)用戶通過(guò)檢索串檢索相應(yīng)的廣告時(shí),將與該檢索 串匹配的關(guān)鍵詞對(duì)應(yīng)的廣告,以及與該關(guān)鍵詞聚類在一起的關(guān)鍵詞對(duì)應(yīng)的廣告展示給該用 戶。
      [0005] 但是,上述方法關(guān)鍵詞聚類關(guān)系挖掘的不夠充分,影響了廣告的搜索效率。


      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明實(shí)施例的目的在于,提供一種能夠?qū)崿F(xiàn)更多潛在關(guān)系挖掘,提高搜索效率 的關(guān)鍵詞的聚類方法和裝置。
      [0007] 本發(fā)明實(shí)施例提供一種關(guān)鍵詞的聚類方法,所述方法包括:建立關(guān)鍵詞集合步驟, 建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵詞以及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān) 鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān);第一聚類處理步驟,分別計(jì)算每個(gè)第一關(guān)鍵詞和與其 相關(guān)的各第二關(guān)鍵詞之間的相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第 一關(guān)鍵詞分別對(duì)應(yīng)一個(gè)該第一聚類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞 之間的相似度值大于或等于第一閾值的第二關(guān)鍵詞;以及隨機(jī)選取一個(gè)第一聚類簇作為起 始聚類簇進(jìn)行第二聚類處理步驟,該第二聚類處理步驟包括:在其他第一聚類簇中,查找與 該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一聚類簇、并將所查找到的其他第一聚類簇與該 起始聚類簇聚合在一起形成第二聚類簇,該等價(jià)聚類關(guān)系包括該起始聚類簇中的第二關(guān)鍵 詞之一與該其他第一聚類簇中的第一關(guān)鍵詞相同且該起始聚類簇的第一關(guān)鍵詞也為該其 他第一聚類簇的第二關(guān)鍵詞之一。
      [0008] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明實(shí)施例提出的關(guān)鍵詞的聚類方法可以實(shí)現(xiàn)更多潛在關(guān)系 的挖掘,提高搜索效率。
      [0009] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說(shuō)明如下。

      【專利附圖】

      【附圖說(shuō)明】
      [0010] 圖1是本發(fā)明第一實(shí)施例提供的關(guān)鍵詞的聚類方法的流程圖。
      [0011] 圖2是圖1中步驟S12的具體流程圖。
      [0012] 圖3是本發(fā)明第二實(shí)施例提供的關(guān)鍵詞的聚類方法的流程圖。
      [0013] 圖4是圖3中步驟S233的具體流程圖。
      [0014] 圖5是圖4所示方法的另一種實(shí)施方式。
      [0015] 圖6是本發(fā)明第二實(shí)施例中的一個(gè)初始拓?fù)鋱D。
      [0016] 圖7a是圖6中初始拓?fù)鋱D的互可達(dá)關(guān)系不意圖。
      [0017] 圖7b是圖7a經(jīng)過(guò)一次路由后的互可達(dá)關(guān)系不意圖。
      [0018] 圖8是開(kāi)始新一輪路由后的互可達(dá)關(guān)系不意圖。
      [0019] 圖9是本發(fā)明第三實(shí)施例提供的關(guān)鍵詞的聚類方法的流程圖。
      [0020] 圖10是兩個(gè)節(jié)點(diǎn)之間的信息傳遞示意圖。
      [0021] 圖11是本發(fā)明第三實(shí)施例中的一個(gè)拓?fù)浣Y(jié)構(gòu)示意圖。
      [0022] 圖12是本發(fā)明第三實(shí)施例中的聚類收斂效果圖。
      [0023] 圖13是本發(fā)明第四實(shí)施例提供的關(guān)鍵詞的聚類方法的流程圖。
      [0024] 圖14是本發(fā)明第四實(shí)施例中的一個(gè)拓?fù)浣Y(jié)構(gòu)示意圖。
      [0025] 圖15是本發(fā)明第四實(shí)施例中的一個(gè)簇結(jié)果圖。
      [0026] 圖16是本發(fā)明第五實(shí)施例提供的關(guān)鍵詞的聚類方法的流程圖。
      [0027] 圖17a是本發(fā)明第五實(shí)施例中的一個(gè)增量拓?fù)浣Y(jié)構(gòu)示意圖。
      [0028] 圖17b是圖17a中的增量節(jié)點(diǎn)與原有聚類關(guān)系的增補(bǔ)關(guān)系示意圖。
      [0029] 圖18是本發(fā)明第六實(shí)施例中的關(guān)鍵詞的聚類裝置的結(jié)構(gòu)示意圖。
      [0030] 圖19是圖18中第一聚類處理模塊的結(jié)構(gòu)示意圖。
      [0031] 圖20是本發(fā)明第七實(shí)施例中的關(guān)鍵詞的聚類裝置的結(jié)構(gòu)示意圖。
      [0032] 圖21是本發(fā)明第八實(shí)施例中的關(guān)鍵詞的聚類裝置的結(jié)構(gòu)示意圖。
      [0033] 圖22是本發(fā)明第九實(shí)施例中的關(guān)鍵詞的聚類裝置的結(jié)構(gòu)示意圖。
      [0034] 圖23是本發(fā)明第十實(shí)施例中的關(guān)鍵詞的聚類裝置的結(jié)構(gòu)示意圖。

      【具體實(shí)施方式】
      [0035] 為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié) 合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的技術(shù)方案的【具體實(shí)施方式】、方法、步驟、結(jié)構(gòu)、特 征及其功效,詳細(xì)說(shuō)明如下。
      [0036] 有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點(diǎn)及功效,在以下配合參考圖式的較佳實(shí) 施例的詳細(xì)說(shuō)明中將可清楚呈現(xiàn)。通過(guò)【具體實(shí)施方式】的說(shuō)明,當(dāng)可對(duì)本發(fā)明為達(dá)成預(yù)定目 的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖式僅是提供參考與說(shuō) 明之用,并非用來(lái)對(duì)本發(fā)明加以限制。
      [0037] 第一實(shí)施例
      [0038] 圖1為本發(fā)明第一實(shí)施例中的關(guān)鍵詞的聚類方法的流程示意圖。請(qǐng)參照?qǐng)D1,本實(shí) 施例中的關(guān)鍵詞的聚類方法具體可以包括:
      [0039] S11 :建立關(guān)鍵詞集合步驟,建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵 詞以及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān)。
      [0040] 于此步驟中,第一關(guān)鍵詞可以為由廣告商提供的關(guān)鍵詞(bidterm)。第二關(guān)鍵詞可 以包括:與該第一關(guān)鍵詞匹配的關(guān)鍵詞,或者以第一關(guān)鍵詞為檢索串搜索到的關(guān)鍵詞。
      [0041] 其中,與該第一關(guān)鍵詞匹配的關(guān)鍵詞可以為通過(guò)對(duì)該第一關(guān)鍵詞進(jìn)行簡(jiǎn)單的字符 串變換處理得到的關(guān)鍵詞,或者根據(jù)實(shí)際經(jīng)驗(yàn)確定出的與該第一關(guān)鍵詞經(jīng)常在一起使用的 關(guān)鍵詞。比如,第一關(guān)鍵詞為咖啡壺,根據(jù)經(jīng)驗(yàn)可以知道咖啡壺與咖啡杯等經(jīng)常一起使用, 基于此,可確定與咖啡壺匹配的關(guān)鍵詞可以為咖啡杯等。
      [0042] 其中,以第一關(guān)鍵詞為檢索串搜索到的關(guān)鍵詞,具體可以為借用用戶檢索串與廣 告購(gòu)買(mǎi)詞映射整合系統(tǒng)(query bidterm mapping,簡(jiǎn)稱QBM)中詞到詞的映射方式,以第一 關(guān)鍵詞作為QBM的輸入,得到關(guān)鍵詞與關(guān)鍵詞之間的關(guān)系。其中,具體實(shí)現(xiàn)時(shí)可為:以第一 關(guān)鍵詞(bidterm)作為輸入進(jìn)行搜索,從搜索到的搜索結(jié)果中獲取關(guān)鍵詞,將該獲取的關(guān) 鍵詞作為與該第一關(guān)鍵詞(bidterm)相關(guān)的第二關(guān)鍵詞(bidterm)。
      [0043] 與第一關(guān)鍵詞匹配的關(guān)鍵詞或者以第一關(guān)鍵詞為檢索串搜索到的關(guān)鍵詞,都與對(duì) 應(yīng)的第一關(guān)鍵詞相關(guān),因此,該關(guān)鍵詞集合中的每個(gè)第二關(guān)鍵詞都與至少一個(gè)該第一關(guān)鍵 詞相關(guān)。
      [0044] S12 :第一聚類處理步驟,分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之 間的相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè) 該第一聚類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞之間的相似度值大于或 等于第一閾值的第二關(guān)鍵詞。
      [0045] 具體的,可以根據(jù)第一關(guān)鍵詞的文本特征或語(yǔ)義特征分別計(jì)算每個(gè)第一關(guān)鍵詞與 其相關(guān)的各第二關(guān)鍵詞之間的相似度值,將第一關(guān)鍵詞和與該第一關(guān)鍵詞具有較高相似度 值的第二關(guān)鍵詞聚類在一起。具體的,請(qǐng)參照?qǐng)D2, S12可以包括以下步驟:
      [0046] S121,根據(jù)每個(gè)第一關(guān)鍵詞的文本特征或語(yǔ)義特征,分別計(jì)算每個(gè)第一關(guān)鍵詞和 與該第一關(guān)鍵詞相關(guān)的各個(gè)第二關(guān)鍵詞之間的相似度值。
      [0047] S122,將與該第一關(guān)鍵詞之間的相似度值大于或等于該第一閾值的第二關(guān)鍵詞加 入至與該第一關(guān)鍵詞對(duì)應(yīng)的該第一聚類簇中。
      [0048] 通過(guò)S122,能夠?qū)⒌谝粋€(gè)關(guān)鍵詞和與該第一關(guān)鍵詞相關(guān)的、且與該第一關(guān)鍵詞 之間的相似度值大于或等于第一閾值的第二關(guān)鍵詞聚類在一起,實(shí)現(xiàn)了基本聚類。優(yōu)選 的,S12中的相似度可以按照類似現(xiàn)有的機(jī)器學(xué)習(xí)模型來(lái)計(jì)算,例如采用SAS(Semantic analysis service, -種使用機(jī)器學(xué)習(xí)模型衡量短文本之間相似度的算法服務(wù)),本發(fā)明的

      【具體實(shí)施方式】并不以此為限。
      [0049] 為了保證更加完整的聚類關(guān)系,本發(fā)明實(shí)施例還提供了潛在聚類關(guān)系的挖掘流 程,具體包括:
      [0050] S13:隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟,該第二聚 類處理步驟包括:在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第 一聚類簇、并將所查找到的其他第一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇, 該等價(jià)聚類關(guān)系包括該起始聚類簇中的第二關(guān)鍵詞之一與該其他第一聚類簇中的第一關(guān) 鍵詞相同且該起始聚類簇的第一關(guān)鍵詞也為該其他第一聚類簇的第二關(guān)鍵詞之一。
      [0051] 按照S13,通過(guò)遍歷所有的第一聚類簇,可以發(fā)現(xiàn)與每個(gè)第一聚類簇具有等價(jià)聚類 關(guān)系的其他第一聚類簇,并將這些具有等價(jià)聚類關(guān)系的第一聚類簇聚類在一起形成第二聚 類簇,所有的第二聚類簇合并在一起就形成了本發(fā)明實(shí)施例的全量聚類結(jié)果,從而可以實(shí) 現(xiàn)更多潛在關(guān)系的挖掘,提高搜索效率。例如,在競(jìng)價(jià)搜索廣告系統(tǒng)的使用過(guò)程中,當(dāng)用戶 通過(guò)檢索串檢索相應(yīng)的廣告時(shí),系統(tǒng)可以將與該檢索串匹配的關(guān)鍵詞對(duì)應(yīng)的廣告,以及與 該關(guān)鍵詞一起聚類在第二聚類簇中的關(guān)鍵詞對(duì)應(yīng)的廣告展示給該用戶,由于第二聚類簇中 的關(guān)鍵詞比第一聚類簇中的關(guān)鍵詞數(shù)量更多,且同樣具有較高的相似度,因此,可以提高廣 告的搜索效率。
      [0052] 第二實(shí)施例
      [0053] 圖3為本發(fā)明第二實(shí)施例中的關(guān)鍵詞的聚類方法的流程示意圖。請(qǐng)參照?qǐng)D3,本實(shí) 施例中的關(guān)鍵詞的聚類方法具體可以包括:
      [0054] S21 :建立關(guān)鍵詞集合步驟,建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵 詞以及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān)。
      [0055] S22 :第一聚類處理步驟,分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之 間的相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè) 該第一聚類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞之間的相似度值大于或 等于第一閾值的第二關(guān)鍵詞。
      [0056] S23:隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟,該第二聚 類處理步驟包括:在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第 一聚類簇并將所查找到的其他第一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇,該 等價(jià)聚類關(guān)系包括該起始聚類簇中的第二關(guān)鍵詞之一與該其他第一聚類簇中的第一關(guān)鍵 詞相同且該起始聚類簇的第一關(guān)鍵詞也為該其他第一聚類簇的第二關(guān)鍵詞之一。
      [0057] S21至S22可以參考第一實(shí)施例中的對(duì)應(yīng)步驟,這里不再贅述。于本實(shí)施例中,為 了避免不必要的重復(fù),提高聚類方法的效率,引入了第一列表,第一列表用于記錄已經(jīng)被作 為起始聚類簇的第一聚類簇,被記錄的第一聚類簇將不會(huì)再被作為起始聚類簇進(jìn)行聚類。
      [0058] 具體的,請(qǐng)參照?qǐng)D3,于本實(shí)施例中,步驟S23可以包括:
      [0059] S231 :隨機(jī)選取一個(gè)第一聚類簇;
      [0060] S232 :判斷所選取的該第一聚類簇是否已被加入至該第一列表中;如果是,則返 回步驟S231,重新選取一個(gè)第一聚類簇;否則,執(zhí)行S233 :以該第一聚類簇作為起始聚類簇 進(jìn)行第二聚類處理步驟。
      [0061] 也就是說(shuō),本實(shí)施例將已經(jīng)完成第二聚類處理步驟的該起始聚類簇加入至第一列 表中,在之后選取第一聚類簇作為起始聚類簇時(shí),首先判斷被選取的第一聚類簇是否已被 加入第一列表中,如果是,則重新選取一個(gè)新的第一聚類簇作為起始聚類簇,這樣可以避免 將同一個(gè)第一聚類簇作為起始聚類簇進(jìn)行不必要的重復(fù)。
      [0062] 請(qǐng)參照?qǐng)D4,進(jìn)一步的,于本實(shí)施例中,步驟S233可以包括:
      [0063] S2330,將該起始聚類簇加入至第一列表中;
      [0064] S2331,待聚類簇選取步驟,隨機(jī)選取一個(gè)除該起始聚類簇外的第一聚類簇作為待 聚類簇;
      [0065] S2332,聚類步驟,將與該起始聚類簇具有等價(jià)聚類關(guān)系的待聚類簇與該起始聚類 簇聚類在一起;以及
      [0066] 重復(fù)S2321和S2322直到所有除該起始聚類簇外的所有第一聚類簇有且僅有一次 被作為待聚類簇,S2333 :將該起始聚類簇以及所有與該起始聚類簇聚類在一起的第一聚類 簇形成該第二聚類簇。
      [0067] 進(jìn)一步的,于本發(fā)明的其他實(shí)施方式中,為了獲取更多潛在的聚類關(guān)系,還可以設(shè) 置第二列表以及遺忘參數(shù)K,第二列表用于記錄暫時(shí)需要避開(kāi)的關(guān)鍵詞,遺忘參數(shù)表示遍歷 完K次路由后,被歸入在第二列表中的關(guān)鍵詞將會(huì)被重新釋放出來(lái),從而可以獲得更多的 聚類關(guān)系。
      [0068] 具體的,請(qǐng)參照?qǐng)D5,在S233P或S2332'中,進(jìn)一步可以包括將該待聚類簇加入 至第二列表中的步驟。在進(jìn)行S2331'之前(例如在步驟S2330'中),可以設(shè)定循環(huán)次數(shù) A以及遺忘參數(shù)K,其中A的初始值可以為0,K可以為自然數(shù)(K>=1),每執(zhí)行一次S233P 以及S2332 7,Α的次數(shù)累加一次,也就是Α=Α+1,當(dāng)Α=Κ時(shí),清除第二列表中的所有關(guān)鍵詞, 也就是將第二列表中的所有關(guān)鍵詞重新釋放出來(lái)。
      [0069] 相應(yīng)的,S2331 '可以包括:隨機(jī)選取一個(gè)除該起始聚類簇外的第一聚類簇,判斷 選取的該第一聚類簇是否已被加入至該第二列表中,如果是,則重新選取一個(gè)除該起始聚 類簇外的第一聚類簇,否則,以該第一聚類簇為待聚類簇。
      [0070] 為使本實(shí)施例中的流程更加清楚,下面通過(guò)一個(gè)具體的例子對(duì)本實(shí)施例提供的流 程進(jìn)行更形象的說(shuō)明。
      [0071] 例如第一關(guān)鍵詞分別為L(zhǎng)1、L2、"·υ,其中,通過(guò)執(zhí)行S21,例如可以得到與L1相 關(guān)的第二關(guān)鍵詞 1?1、1?2、1?3、1?4、1?5、...,與1^2相關(guān)的第二關(guān)鍵詞為1?6、1?7、1?8、1?9、1?10、...。 將上述關(guān)鍵詞之間的關(guān)系抽象為拓?fù)鋱D結(jié)構(gòu)表示,一個(gè)第一聚類簇可以抽象為一個(gè)初始拓 撲圖。請(qǐng)參照?qǐng)D6,圖6為本發(fā)明第二實(shí)施例中一個(gè)具體示例的關(guān)鍵詞之間的初始拓?fù)鋱D 結(jié)構(gòu)示意圖。為了更簡(jiǎn)單清楚的進(jìn)行描述,圖6中僅示出了包括第一關(guān)鍵詞L1的第一聚類 簇I所對(duì)應(yīng)的初始拓?fù)鋱DI以及包括第一關(guān)鍵詞L2的第一聚類簇II所對(duì)應(yīng)的初始拓?fù)鋱D II,對(duì)其他的第一聚類簇對(duì)應(yīng)的初始拓?fù)鋱D進(jìn)行了省略。下面將具體介紹圖6中兩個(gè)初始 拓?fù)鋱D的結(jié)構(gòu)。
      [0072] 將每個(gè)關(guān)鍵詞(包括第一關(guān)鍵詞Li及第二關(guān)鍵詞Rj)作為節(jié)點(diǎn),節(jié)點(diǎn)Li對(duì)應(yīng)第 一關(guān)鍵詞Li,節(jié)點(diǎn)Rj對(duì)應(yīng)第二關(guān)鍵詞Rj。節(jié)點(diǎn)Li與節(jié)點(diǎn)Rj之間由有向邊連接在一起,從 節(jié)點(diǎn)Li至節(jié)點(diǎn)Rj的有向邊由Li指向Rj,表示由Li可擴(kuò)展出Rj,也就是說(shuō)Li的相關(guān)關(guān)鍵 詞為Rj。從圖6中可以看出,圖6中示出的拓?fù)鋱D是有向無(wú)環(huán)圖,也就是說(shuō)第一關(guān)鍵詞Li 與第二關(guān)鍵詞Rj之間并不保證是雙向的擴(kuò)展關(guān)系,具體為,從第一關(guān)鍵詞Li可以擴(kuò)展出與 Li相關(guān)的第二關(guān)鍵詞Rj,但是從第二關(guān)鍵詞Rj并非一定擴(kuò)展出第一關(guān)鍵詞Li。
      [0073] 基于上述步驟S221,根據(jù)L1的文本特征或語(yǔ)義特征計(jì)算L1與R1之間的相似度值 W1;1、L1與R2之間的相似度值\2、L1與R3之間的相似度值\3、L1與R4之間的相似度值 \ 4、L1與R5之間的相似度值、以及L1與其他與其相關(guān)的Rj之間的相似度值根 據(jù)L2的文本特征或語(yǔ)義特征計(jì)算L2與R6之間的相似度值W 2,6、L2與R7之間的相似度值 W2,7、L2與R8之間的相似度值W2,8、L2與R9之間的相似度值W 2,9、L2與R10之間的相似度值 W2,1(|、以及L2與其他與其相關(guān)的Rj之間的相似度值W2,
      [0074] 基于上述步驟S222,將與第一關(guān)鍵詞L1之間的相似度值大于或等于第一閾值Wt 的第二關(guān)鍵詞加入至與第一關(guān)鍵詞L1對(duì)應(yīng)的第一聚類簇I中,將與第一關(guān)鍵詞L2之間的 相似度值大于或等于第一閾值Wt的第二關(guān)鍵詞加入至與第一關(guān)鍵詞L2對(duì)應(yīng)的第一聚類簇 II中。
      [0075] 假設(shè)\1、\2、\3、\4、\5、1 2,6、12,7、12,8、1 2,9、12,1。均大于機(jī),就可以得到如圖6 所示的包括第一關(guān)鍵詞L1的第一聚類簇I所對(duì)應(yīng)的初始拓?fù)鋱DI以及包括第一關(guān)鍵詞L2 的第一聚類簇Π 所對(duì)應(yīng)的初始拓?fù)鋱DII。圖6中每?jī)蓚€(gè)節(jié)點(diǎn)之間的有向邊上的權(quán)重值Wi;j 表示的是對(duì)應(yīng)兩個(gè)節(jié)點(diǎn)之間的相似度值。
      [0076] 之后,執(zhí)行上述步驟S23,執(zhí)行步驟S23的過(guò)程實(shí)質(zhì)上就是基于多個(gè)初始拓?fù)鋱D的 拓?fù)浣Y(jié)構(gòu)、按照一定的路由策略進(jìn)行路由的過(guò)程?;谕?fù)浣Y(jié)構(gòu)的路由是指:通過(guò)相互連接 的節(jié)點(diǎn)把信息從源節(jié)點(diǎn)傳遞到目標(biāo)節(jié)點(diǎn)的活動(dòng)。一般來(lái)說(shuō),在路由過(guò)程中,信息至少會(huì)經(jīng)過(guò) 一個(gè)或多個(gè)中間節(jié)點(diǎn)。如果從一個(gè)節(jié)點(diǎn)v到另一個(gè)節(jié)點(diǎn)w之間有一個(gè)有向邊,且有向邊由 節(jié)點(diǎn)V指向節(jié)點(diǎn)W,則稱為節(jié)點(diǎn)V到節(jié)點(diǎn)W節(jié)點(diǎn)可達(dá),節(jié)點(diǎn)W到節(jié)點(diǎn)V節(jié)點(diǎn)不可達(dá)。如果節(jié) 點(diǎn)V到節(jié)點(diǎn)W是可達(dá)的,節(jié)點(diǎn)W到節(jié)點(diǎn)V也是可達(dá)的,則稱為節(jié)點(diǎn)V和節(jié)點(diǎn)W為互可達(dá)節(jié)點(diǎn)。 在兩個(gè)拓?fù)鋱D之間,如果存在至少一對(duì)互可達(dá)節(jié)點(diǎn),則可以定義這兩個(gè)拓?fù)鋱D為互可達(dá)圖。
      [0077] 于本實(shí)施例的一種實(shí)施方式中,采用了禁忌路由(Tabu Search,簡(jiǎn)稱TS)策略來(lái) 避免不必要的重復(fù)。禁忌是對(duì)于找到的一部分局部最優(yōu)解,有意識(shí)地避開(kāi)它(但不是完全 隔絕),從而獲得更多的相關(guān)關(guān)鍵詞。具體的,引入了兩個(gè)禁忌路由列表,也就是上述的第一 列表以及第二列表,另外,還引入了遺忘參數(shù)K。
      [0078] 圖7a為圖6中初始拓?fù)鋱D的互可達(dá)關(guān)系示意圖,如圖7所示,于本具體示例中,假 設(shè)初始拓?fù)鋱DI對(duì)應(yīng)的第一聚類簇I為按照步驟S231隨機(jī)選取的一個(gè)第一聚類簇,按照步 驟S232,首先要判斷第一聚類簇I是否已被加入至第一列表中,如果是,則返回步驟S231, 重新選取一個(gè)第一聚類簇;否則,以第一聚類簇I作為起始聚類簇。于本發(fā)明實(shí)施例中,第 一列表,也可以稱為永久禁忌表,用于記錄全局最優(yōu)解,被記錄的節(jié)點(diǎn)(也可以稱為永久禁 忌節(jié)點(diǎn)),在之后的路由過(guò)程中,將會(huì)避開(kāi)該節(jié)點(diǎn)不予路由。
      [0079] 具體的,判斷第一聚類簇I是否已被加入至第一列表中,可以通過(guò)判斷第一聚類 簇I中的第一關(guān)鍵詞L1所對(duì)應(yīng)的節(jié)點(diǎn)L1是否已被記錄在第一列表來(lái)實(shí)現(xiàn)。假設(shè)節(jié)點(diǎn)L1 還沒(méi)有被記錄在第一列表中,那么第一聚類簇I就可以作為起始聚類簇I進(jìn)行第二聚類處 理步驟。相應(yīng)的,起始聚類簇I對(duì)應(yīng)的初始拓?fù)鋱DI可以作為起始拓?fù)鋱D,節(jié)點(diǎn)L1可以作 為路由的啟發(fā)節(jié)點(diǎn)(啟發(fā)節(jié)點(diǎn)在圖7a中用倒三角形來(lái)表示)。
      [0080] 之后執(zhí)行步驟S233,假設(shè)第一聚類簇II為隨機(jī)選取的除第一聚類簇I外的第一聚 類簇,首先要判斷第一聚類簇Π 是否已被加入至第二列表中,如果是,則重新選取一個(gè)其 他第一聚類簇,否則,以第一聚類簇II作為待聚類簇。
      [0081] 于本發(fā)明實(shí)施例中,第二列表也可以稱為遺忘禁忌表,用于記錄暫時(shí)需要避開(kāi)不 予路由的節(jié)點(diǎn)(也可以稱為短期記憶節(jié)點(diǎn)),直到Α=κ時(shí),第一次遍歷完成的初始拓?fù)鋱D中 進(jìn)入到第二列表的節(jié)點(diǎn),將會(huì)被釋放出來(lái)。具體的,判斷第一聚類簇II是否已被加入至第 二列表中,可以通過(guò)判斷第一聚類簇II對(duì)應(yīng)的初始拓?fù)鋱DII中的節(jié)點(diǎn)L2、R6、R7、R7、R9、 R10是否已被記錄在第二列表來(lái)實(shí)現(xiàn)。
      [0082] 具體的,假設(shè)節(jié)點(diǎn)L1到節(jié)點(diǎn)R3節(jié)點(diǎn)可達(dá),節(jié)點(diǎn)L2到節(jié)點(diǎn)R10節(jié)點(diǎn)可達(dá),而節(jié)點(diǎn) L1對(duì)應(yīng)的第一關(guān)鍵詞與節(jié)點(diǎn)R10對(duì)應(yīng)的第二關(guān)鍵詞相同,節(jié)點(diǎn)L2對(duì)應(yīng)的第一關(guān)鍵詞與節(jié) 點(diǎn)R3對(duì)應(yīng)的第二關(guān)鍵詞相同,也就是說(shuō)節(jié)點(diǎn)L1與節(jié)點(diǎn)L2為互可達(dá)節(jié)點(diǎn),初始拓?fù)鋱DI與 初始拓?fù)鋱DΠ 為互可達(dá)圖。按照S2332 7,初始拓?fù)鋱DI對(duì)應(yīng)的第一聚類簇I與初始拓?fù)?圖II對(duì)應(yīng)第二聚類簇II具有等價(jià)聚類關(guān)系,將被聚類在一起。相應(yīng)的,L1將被歸入第一 列表中,L2、Rl、R2、R4、R5、R6、R7、R7、R9、R10將被歸入到第二列表中(圖7a中用涂黑的 圓形表示),需要說(shuō)明的是,由啟發(fā)節(jié)點(diǎn)L1開(kāi)始的路由是一種層次遍歷,不會(huì)只沿著一條路 徑進(jìn)行,而是以啟發(fā)節(jié)點(diǎn)L1為中心向外擴(kuò)散進(jìn)行層次遍歷,所以與啟發(fā)節(jié)點(diǎn)L1連接的所有 Rl、R2、R4、R5都會(huì)被遍歷到,放入到第二列表中。
      [0083] 當(dāng)路由到圖邊界后,停止路由。假設(shè)當(dāng)前路由到節(jié)點(diǎn)Rj,如果沒(méi)有以節(jié)點(diǎn)Rj為起 點(diǎn)以Lj為終點(diǎn)的有向邊存在,則可以判定節(jié)點(diǎn)Rj為圖的一個(gè)邊界點(diǎn),當(dāng)一次路由到的節(jié)點(diǎn) 都為圖邊界點(diǎn)時(shí),可以認(rèn)為路由到圖邊界,結(jié)束該次路由。假設(shè)于本示例中,K=l,經(jīng)過(guò)一次 路由后,釋放第二列表中的所有節(jié)點(diǎn)(如圖7b所示,圖7b中用方形表示被釋放出來(lái)的節(jié) 點(diǎn))。接著,遍歷初始拓?fù)鋱D中任意未遍歷節(jié)點(diǎn)。
      [0084] 進(jìn)行完上述步驟后,重新選擇一個(gè)第一聚類簇作為起始聚類簇,如圖8所示,假設(shè) 以S2為重新選擇的起始聚類簇對(duì)應(yīng)的初始拓?fù)鋱D中的啟發(fā)節(jié)點(diǎn)開(kāi)始新一輪的路由,由于 存在互可達(dá)節(jié)點(diǎn)<S2, T2>、〈L3, Tl>,故以S2為啟發(fā)節(jié)點(diǎn)的初始拓?fù)鋱D將路由到包含節(jié)點(diǎn)L2 的初始拓?fù)鋱D,并構(gòu)造成另一個(gè)第二聚類簇。以此類推,當(dāng)所有的第一聚類簇對(duì)應(yīng)的初始拓 撲圖都被作為起始拓?fù)鋱D遍歷一次后,可以得到多個(gè)第二聚類簇。也就是通過(guò)路由所有的 初始拓?fù)鋱D,發(fā)現(xiàn)兩個(gè)第一聚類簇對(duì)應(yīng)的初始拓?fù)鋱D的互可達(dá)圖關(guān)系,進(jìn)而發(fā)現(xiàn)一系列更 多的互可達(dá)圖關(guān)系,并將這些互可達(dá)圖關(guān)系合并在一起,作為本發(fā)明實(shí)施例的全量聚類結(jié) 果。
      [0085] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的關(guān)鍵詞的聚類方法,可以實(shí)現(xiàn)更多潛在關(guān) 系的挖掘,提高搜索效率。
      [0086] 第三實(shí)施例
      [0087] 圖9為本發(fā)明第三實(shí)施例中的關(guān)鍵詞的聚類方法的流程示意圖。請(qǐng)參照?qǐng)D9,本實(shí) 施例中的關(guān)鍵詞的聚類方法具體可以包括:
      [0088] S31 :建立關(guān)鍵詞集合步驟,建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵 詞以及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān)。
      [0089] S32 :第一聚類處理步驟,分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之 間的相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè) 該第一聚類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞之間的相似度值大于或 等于第一閾值的第二關(guān)鍵詞。
      [0090] S33:隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟,該第二聚 類處理步驟包括:在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第 一聚類簇并將所查找到的其他第一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇,該 等價(jià)聚類關(guān)系包括該起始聚類簇中的第二關(guān)鍵詞之一與該其他第一聚類簇中的第一關(guān)鍵 詞相同且該起始聚類簇的第一關(guān)鍵詞也為該其他第一聚類簇的第二關(guān)鍵詞之一。
      [0091] 于本實(shí)施例中,進(jìn)一步包括:
      [0092] S34:根據(jù)每個(gè)第一聚類簇中的第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的相 似度值計(jì)算該第一關(guān)鍵詞與各第二關(guān)鍵詞之間的語(yǔ)義相似度傳遞概率;
      [0093] S35:根據(jù)該語(yǔ)義相似度傳遞概率計(jì)算語(yǔ)義相似度由該第一關(guān)鍵詞傳遞至對(duì)應(yīng)第 二關(guān)鍵詞后剩余的語(yǔ)義相似度;
      [0094] S36 :判斷該剩余的語(yǔ)義相似度是否小于剩余相似度閾值,如果是,則停止在其他 第一聚類簇中查找與該第二關(guān)鍵詞相同的關(guān)鍵詞。
      [0095] 其中,步驟S34至S36與步驟S33同時(shí)進(jìn)行,以達(dá)到在路由的同時(shí)進(jìn)行收斂的目 的,這樣可以避免在路由的過(guò)程中,語(yǔ)義相似度(信息)無(wú)止境的降低。
      [0096] 由第二實(shí)施例中的具體示例可以看出,利用禁忌路由策略,可以大量補(bǔ)充潛在的 聚類關(guān)系,但是,在相似度等計(jì)算資源有限的情況下,需要進(jìn)一步控制規(guī)模。因此,在路由新 節(jié)點(diǎn)關(guān)系時(shí),需要一定的收斂策略。本實(shí)施例進(jìn)一步引入模擬退火和馬爾科夫鏈作為收斂 策略。
      [0097] 請(qǐng)參照?qǐng)D10,圖10為兩個(gè)節(jié)點(diǎn)之間的信息傳遞示意圖。參照熱力學(xué)公式的原理, 拓?fù)浣Y(jié)構(gòu)中的馬爾科夫鏈的傳遞概率可以定義為:
      [0098] Wu :表示節(jié)點(diǎn)i與節(jié)點(diǎn)j的相似度值;
      [0099] PTu :表示信息由節(jié)點(diǎn)i傳遞至節(jié)點(diǎn)j的傳遞概率;
      [0100] ti+1 :表示信息由節(jié)點(diǎn)i傳遞至節(jié)點(diǎn)i+Ι的傳遞能量;
      [0101] Ti+1 :表示信息由節(jié)點(diǎn)i傳遞至節(jié)點(diǎn)i+Ι后的剩余能量。
      [0102] 信息傳遞公式可以表達(dá)為:

      【權(quán)利要求】
      1. 一種關(guān)鍵詞的聚類方法,其特征在于,所述方法包括: 建立關(guān)鍵詞集合步驟,建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵詞以及多 個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān); 第一聚類處理步驟,分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的相似 度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè)該第一聚 類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞之間的相似度值大于或等于第一 閾值的第二關(guān)鍵詞;以及 隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟,該第二聚類處理步 驟包括:在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一聚類簇、 并將所查找到的其他第一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇,該等價(jià)聚類 關(guān)系包括該起始聚類簇中的第二關(guān)鍵詞之一與該其他第一聚類簇中的第一關(guān)鍵詞相同且 該起始聚類簇的第一關(guān)鍵詞也為該其他第一聚類簇的第二關(guān)鍵詞之一。
      2. 如權(quán)利要求1所述的方法,其特征在于,該第一聚類處理步驟,包括: 根據(jù)每個(gè)第一關(guān)鍵詞的文本特征或語(yǔ)義特征,分別計(jì)算每個(gè)第一關(guān)鍵詞和與該第一關(guān) 鍵詞相關(guān)的各個(gè)第二關(guān)鍵詞之間的相似度值;以及 將與該第一關(guān)鍵詞之間的相似度值大于或等于該第一閾值的第二關(guān)鍵詞加入至與該 第一關(guān)鍵詞對(duì)應(yīng)的該第一聚類簇中。
      3. 如權(quán)利要求1所述的方法,其特征在于,該隨機(jī)選取一個(gè)第一聚類簇作為起始聚類 簇進(jìn)行第二聚類處理步驟的步驟,包括: 隨機(jī)選取一個(gè)第一聚類簇; 判斷所選取的該第一聚類簇是否已被加入至第一列表中;如果是,則重新選取一個(gè)第 一聚類簇; 否則,以該第一聚類簇作為起始聚類簇進(jìn)行第二聚類處理步驟。
      4. 如權(quán)利要求3所述的方法,其特征在于,所述以該第一聚類簇作為起始聚類簇進(jìn)行 第二聚類處理步驟的步驟,包括: 將該起始聚類簇加入至該第一列表中; 待聚類簇選取步驟,隨機(jī)選取一個(gè)除該起始聚類簇外的第一聚類簇作為待聚類簇; 聚類步驟,將與該起始聚類簇具有等價(jià)聚類關(guān)系的待聚類簇與該起始聚類簇聚類在一 起;以及 重復(fù)所述待聚類簇選取步驟以及聚類步驟,直到所有除該起始聚類簇外的所有第一聚 類簇有且僅有一次被作為待聚類簇,將該起始聚類簇以及所有與該起始聚類簇聚類在一起 的第一聚類簇形成該第二聚類簇。
      5. 如權(quán)利要求4所述的方法,其特征在于,于所述待聚類簇選取步驟之前,進(jìn)一步包括: 設(shè)定循環(huán)次數(shù)A以及遺忘參數(shù)K,其中A的初始值為0, K為自然數(shù)。
      6. 如權(quán)利要求5所述的方法,其特征在于,該待聚類簇選取步驟包括: 隨機(jī)選取一個(gè)除該起始聚類簇外的第一聚類簇,判斷選取的該第一聚類簇是否已被加 入至第二列表中,如果是,則重新選取一個(gè)除該起始聚類簇外的第一聚類簇,否則,以該第 一聚類簇為待聚類簇。
      7. 如權(quán)利要求6所述的方法,其特征在于,該聚類步驟,包括: 將與該起始聚類簇具有等價(jià)聚類關(guān)系的待聚類簇與該起始聚類簇聚類在一起; 將該待聚類簇加入至該第二列表中;以及 將循環(huán)次數(shù)A累加一次,如果A等于K,則清除該第二列表中的所有關(guān)鍵詞。
      8. 如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括: 根據(jù)每個(gè)第一聚類簇中的第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的相似度值計(jì) 算該第一關(guān)鍵詞與各第二關(guān)鍵詞之間的語(yǔ)義相似度傳遞概率; 根據(jù)該語(yǔ)義相似度傳遞概率計(jì)算語(yǔ)義相似度由該第一關(guān)鍵詞傳遞至對(duì)應(yīng)第二關(guān)鍵詞 后剩余的語(yǔ)義相似度;以及 判斷該剩余的語(yǔ)義相似度是否小于剩余相似度閾值,如果是,則停止在其他第一聚類 簇中查找與該第二關(guān)鍵詞相同的關(guān)鍵詞。
      9. 如權(quán)利要求1所述的方法,其特征在于,該隨機(jī)選取一個(gè)第一聚類簇作為起始聚類 簇進(jìn)行第二聚類處理步驟的步驟,包括: 隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇; 查找步驟,在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一 聚類簇; 根據(jù)該起始聚類簇中的第一關(guān)鍵詞與第二關(guān)鍵詞之間的相似度值、該其他第一聚類簇 中的第一關(guān)鍵詞與第二關(guān)鍵詞之間的相似度值、以及該起始聚類簇中的第一關(guān)鍵詞與該其 他第一聚類簇中的第一關(guān)鍵詞之間的相似度值,計(jì)算該起始聚類簇中的第一關(guān)鍵詞與該其 他第一聚類簇中的第一關(guān)鍵詞之間的連接度值以及鄰近性; 根據(jù)該連接度值以及鄰近度值,計(jì)算該起始聚類簇中的第一關(guān)鍵詞與該其他第一聚類 簇中的第一關(guān)鍵詞之間的區(qū)域相似性值;以及 判斷該區(qū)域相似性值是否大于或等于預(yù)定的區(qū)域相似性閾值,如果是,則將該其他第 一聚類簇與該起始聚類簇聚類在一起形成第二聚類簇,否則,返回所述查找步驟,直到遍歷 完所有其他第一聚類簇。
      10. 如權(quán)利要求1所述的方法,其特征在于,第一聚類處理步驟,包括: 監(jiān)測(cè)是否出現(xiàn)新的第一關(guān)鍵詞,如果監(jiān)測(cè)到多個(gè)新的第一關(guān)鍵詞,將該些新的第一關(guān) 鍵詞加入至新的關(guān)鍵詞集合中,確定與該些新的第一關(guān)鍵詞分別相關(guān)的第二關(guān)鍵詞,將與 該些新的第一關(guān)鍵詞分別相關(guān)的第二關(guān)鍵詞加入至該新的關(guān)鍵詞集合中; 分別計(jì)算每個(gè)新的第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的相似度值,根據(jù)所述 相似度值建立多個(gè)新的第一聚類簇,每個(gè)該新的第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè)該新的第一聚類 簇,每個(gè)該新的第一聚類簇中還包括與該對(duì)應(yīng)的新的第一關(guān)鍵詞之間的相似度值大于或等 于第一閾值的第二關(guān)鍵詞; 隨機(jī)選取一個(gè)該新的第一聚類簇作為起始聚類簇進(jìn)行該第二聚類處理步驟,如果在其 他新的第一聚類簇中查找到與該起始聚類簇具有等價(jià)聚類關(guān)系,則將該其他新的第一聚類 簇與該新的第一聚類簇聚類在一起形成新的第二聚類簇;以及 將與該第二聚類簇具有相同關(guān)鍵詞的該新的第二聚類簇與該第二聚類簇合并。
      11. 一種關(guān)鍵詞的聚類裝置,其特征在于,所述裝置包括: 建立關(guān)鍵詞集合模塊,用于建立關(guān)鍵詞集合,該關(guān)鍵詞集合中包括多個(gè)第一關(guān)鍵詞以 及多個(gè)第二關(guān)鍵詞,每個(gè)第二關(guān)鍵詞與至少一個(gè)該第一關(guān)鍵詞相關(guān); 第一聚類處理模塊,用于分別計(jì)算每個(gè)第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵詞之間的 相似度值,根據(jù)所述相似度值建立多個(gè)第一聚類簇,每個(gè)該第一關(guān)鍵詞分別對(duì)應(yīng)一個(gè)該第 一聚類簇,每個(gè)該第一聚類簇中還包括與該對(duì)應(yīng)的第一關(guān)鍵詞之間的相似度值大于或等于 第一閾值的第二關(guān)鍵詞;以及 第二聚類處理模塊,用于隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇,在其他第一聚類 簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一聚類簇、并將所查找到的其他第 一聚類簇與該起始聚類簇聚合在一起形成第二聚類簇,該等價(jià)聚類關(guān)系包括該起始聚類簇 中的第二關(guān)鍵詞之一與該其他第一聚類簇中的第一關(guān)鍵詞相同且該起始聚類簇的第一關(guān) 鍵詞也為該其他第一聚類簇的第二關(guān)鍵詞之一。
      12. 如權(quán)利要求11所述的裝置,其特征在于,該第一聚類處理模塊,包括: 相似度值計(jì)算單元,用于根據(jù)每個(gè)第一關(guān)鍵詞的文本特征或語(yǔ)義特征,分別計(jì)算每個(gè) 第一關(guān)鍵詞和與該第一關(guān)鍵詞相關(guān)的各個(gè)第二關(guān)鍵詞之間的相似度值;以及 第一聚類簇形成單元,用于將與該第一關(guān)鍵詞之間的相似度值大于或等于該第一閾值 的第二關(guān)鍵詞加入至與該第一關(guān)鍵詞對(duì)應(yīng)的該第一聚類簇中。
      13. 如權(quán)利要求11所述的裝置,其特征在于,該第二聚類處理模塊包括起始聚類簇選 取單元以及聚類處理單元,該起始聚類簇選取單元包括: 選取子單元,用于隨機(jī)選取一個(gè)第一聚類簇; 判斷子單元,用于判斷所選取的該第一聚類簇是否已被加入至第一列表中;如果是,該 選取子單元重新選取一個(gè)第一聚類簇; 否則,該聚類處理單元將該第一聚類簇作為起始聚類簇,在其他第一聚類簇中,查找與 該起始聚類簇具有等價(jià)聚類關(guān)系的其他第一聚類簇、并將所查找到的其他第一聚類簇與該 起始聚類簇聚合在一起形成第二聚類簇。
      14. 如權(quán)利要求13所述的裝置,其特征在于,該聚類處理單元,包括: 記錄子單元,用于將該起始聚類簇加入至該第一列表中; 待聚類簇選取子單元,用于隨機(jī)選取一個(gè)除該起始聚類簇外的第一聚類簇作為待聚類 簇;以及 聚類子單元,用于將與該起始聚類簇具有等價(jià)聚類關(guān)系的待聚類簇與該起始聚類簇聚 類在一起,直到所有除該起始聚類簇外的所有第一聚類簇有且僅有一次被作為待聚類簇, 將該起始聚類簇以及所有與該起始聚類簇聚類在一起的第一聚類簇形成該第二聚類簇。
      15. 如權(quán)利要求14所述的裝置,其特征在于,該聚類處理單元進(jìn)一步包括: 設(shè)定子單元,用于設(shè)定循環(huán)次數(shù)A以及遺忘參數(shù)K,其中A的初始值為0, K為自然數(shù)。
      16. 如權(quán)利要求15所述的裝置,其特征在于,該待聚類簇選取子單元用于隨機(jī)選取一 個(gè)除該起始聚類簇外的第一聚類簇,判斷選取的該第一聚類簇是否已被加入至第二列表 中,如果是,則重新選取一個(gè)除該起始聚類簇外的第一聚類簇,否則,以該第一聚類簇為待 聚類簇。
      17. 如權(quán)利要求16所述的裝置,其特征在于,該聚類子單元,包括: 第一子單元,用于將與該起始聚類簇具有等價(jià)聚類關(guān)系的待聚類簇與該起始聚類簇聚 類在一起; 第二子單元,用于將該待聚類簇加入至該第二列表中;以及 第三子單元,用于將循環(huán)次數(shù)A累加一次,如果A等于K,則清除該第二列表中的所有關(guān) 鍵詞。
      18. 如權(quán)利要求11所述的裝置,其特征在于,所述裝置進(jìn)一步包括:收斂模塊,該收斂 模塊包括: 傳遞概率計(jì)算單元,用于根據(jù)每個(gè)第一聚類簇中的第一關(guān)鍵詞和與其相關(guān)的各第二關(guān) 鍵詞之間的相似度值計(jì)算該第一關(guān)鍵詞與各第二關(guān)鍵詞之間的語(yǔ)義相似度傳遞概率; 剩余相似度計(jì)算單元,用于根據(jù)該語(yǔ)義相似度傳遞概率計(jì)算語(yǔ)義相似度由該第一關(guān)鍵 詞傳遞至對(duì)應(yīng)第二關(guān)鍵詞后剩余的語(yǔ)義相似度;以及 判斷處理單元,用于判斷該剩余的語(yǔ)義相似度是否小于剩余相似度閾值,如果是,則停 止在其他第一聚類簇中查找與該第二關(guān)鍵詞相同的關(guān)鍵詞。
      19. 如權(quán)利要求11所述的裝置,其特征在于,該第二聚類處理模塊,包括: 起始聚類簇選取單元,用于隨機(jī)選取一個(gè)第一聚類簇作為起始聚類簇; 聚類處理單元,用于在其他第一聚類簇中,查找與該起始聚類簇具有等價(jià)聚類關(guān)系的 其他第一聚類簇; 連接度值以及鄰近性計(jì)算單元,用于根據(jù)該起始聚類簇中的第一關(guān)鍵詞與第二關(guān)鍵詞 之間的相似度值、該其他第一聚類簇中的第一關(guān)鍵詞與第二關(guān)鍵詞之間的相似度值、以及 該起始聚類簇中的第一關(guān)鍵詞與該其他第一聚類簇中的第一關(guān)鍵詞之間的相似度值,計(jì)算 該起始聚類簇中的第一關(guān)鍵詞與該其他第一聚類簇中的第一關(guān)鍵詞之間的連接度值以及 鄰近性; 區(qū)域相似性值計(jì)算單元,用于根據(jù)該連接度值以及鄰近度值,計(jì)算該起始聚類簇中的 第一關(guān)鍵詞與該其他第一聚類簇中的第一關(guān)鍵詞之間的區(qū)域相似性值;以及 判斷處理單元,用于判斷該區(qū)域相似性值是否大于或等于預(yù)定的區(qū)域相似性閾值,如 果是,則將該其他第一聚類簇與該起始聚類簇聚類在一起形成第二聚類簇,否則,返回所述 聚類處理單元,直到遍歷完所有其他第一聚類簇。
      20. 如權(quán)利要求11所述的裝置,其特征在于,所述裝置進(jìn)一步包括: 新增關(guān)鍵詞集合建立模塊,用于監(jiān)測(cè)是否出現(xiàn)新的第一關(guān)鍵詞,如果監(jiān)測(cè)到多個(gè)新的 第一關(guān)鍵詞,將該些新的第一關(guān)鍵詞加入至新的關(guān)鍵詞集合中,確定與該些新的第一關(guān)鍵 詞分別相關(guān)的第二關(guān)鍵詞,將與該些新的第一關(guān)鍵詞分別相關(guān)的第二關(guān)鍵詞加入至該新的 關(guān)鍵詞集合中;以及 新增第一聚類處理模塊,用于分別計(jì)算每個(gè)新的第一關(guān)鍵詞和與其相關(guān)的各第二關(guān)鍵 詞之間的相似度值,根據(jù)所述相似度值建立多個(gè)新的第一聚類簇,每個(gè)該新的第一關(guān)鍵詞 分別對(duì)應(yīng)一個(gè)該新的第一聚類簇,每個(gè)該新的第一聚類簇中還包括與該對(duì)應(yīng)的新的第一關(guān) 鍵詞之間的相似度值大于或等于第一閾值的第二關(guān)鍵詞; 新增第二聚類處理模塊,用于隨機(jī)選取一個(gè)該新的第一聚類簇作為起始聚類簇進(jìn)行該 第二聚類處理步驟,如果在其他新的第一聚類簇中查找到與該起始聚類簇具有等價(jià)聚類關(guān) 系,則將該其他新的第一聚類簇與該新的第一聚類簇聚類在一起形成新的第二聚類簇;以 及 合并模塊,用于將與該第二聚類簇具有相同關(guān)鍵詞的該新的第二聚類簇與該第二聚類 簇合并。
      【文檔編號(hào)】G06F17/30GK104123279SQ201310144019
      【公開(kāi)日】2014年10月29日 申請(qǐng)日期:2013年4月24日 優(yōu)先權(quán)日:2013年4月24日
      【發(fā)明者】張博, 赫南, 姚伶伶 申請(qǐng)人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1