国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對(duì)包含多個(gè)文檔的源數(shù)據(jù)進(jìn)行聚類的裝置和方法_2

      文檔序號(hào):9810533閱讀:來源:國知局
      并且可以將數(shù)目最多的更新聚類數(shù)確定為最佳 聚類數(shù)。
      [0036] 下面,將結(jié)合附圖進(jìn)一步詳細(xì)描述根據(jù)本公開的實(shí)施例的文本聚類裝置300。設(shè)置 單元310可以設(shè)置聚類數(shù)的集合。例如,如圖2所示,設(shè)置單元310可以將聚類數(shù)k設(shè)置為 包括2、3、4、5等的集合。圖2所示的聚類數(shù)k的集合僅僅是一個(gè)例子,本公開對(duì)此并沒有 特殊限制。如上所述,通過將聚類數(shù)k設(shè)置為不同的值,可以得到多個(gè)不同的聚類結(jié)果。
      [0037] 接下來,針對(duì)設(shè)置單元310設(shè)置的集合中的每一個(gè)聚類數(shù),聚類單元320可以使用 文檔中的詞作為特征對(duì)源數(shù)據(jù)進(jìn)行初始聚類,以將源數(shù)據(jù)聚類成數(shù)目等于聚類數(shù)的簇。
      [0038] 由此,通過聚類單元320可以獲得初始聚類結(jié)果(即當(dāng)k = 2、k = 3、k = 4、k = 5等時(shí)的聚類結(jié)果),其中源數(shù)據(jù)被聚類成數(shù)目等于聚類數(shù)k的簇。例如,聚類單元320可 以利用k-means聚類算法進(jìn)行初始聚類。假設(shè)取2 < k < 10,則會(huì)得到9個(gè)初始聚類結(jié)果, k = η表示文檔聚成了 η個(gè)簇。當(dāng)然,初始聚類也可以采用其它聚類算法,本公開對(duì)此并沒 有特殊限制。
      [0039] 在初始聚類之后,對(duì)于每一個(gè)初始聚類結(jié)果中的簇,如果該簇的聚類質(zhì)量較理想, 則可以將其保留。如果該簇的聚類質(zhì)量不理想,則可以對(duì)其進(jìn)一步進(jìn)行劃分。尤其是在k 值比實(shí)際簇的數(shù)目小的情況下,多個(gè)不同的簇可能被劃分到一起。因此,可以對(duì)這樣的簇進(jìn) 一步進(jìn)行劃分。
      [0040] 具體地,劃分單元330可以針對(duì)聚類單元320初始聚類的每一個(gè)簇,使用文檔中的 主題作為特征對(duì)簇執(zhí)行劃分過程,其中,可以使用例如三層貝葉斯概率模型(LDA)主題模 型對(duì)簇進(jìn)行主題詞提取。當(dāng)然,也可以使用其它方式對(duì)主題詞進(jìn)行提取。相比單純的用詞 作為文檔的特征,主題詞可以更好的反映文章的內(nèi)容,因此更適合作為文檔的特征。
      [0041] 在劃分過程中,簇可以被分成兩個(gè)部分進(jìn)行比較。具體地,如果這兩個(gè)部分的相似 度小于第一預(yù)定閾值,則可以將簇劃分成兩個(gè)子簇。為了滿足界定聚類質(zhì)量要求,有必要為 這兩個(gè)部分之間設(shè)置第一預(yù)定閾值,該第一預(yù)定閾值可以通過經(jīng)驗(yàn)值來確定。然而,比較這 兩個(gè)部分可能產(chǎn)生具有不同聚類效果的結(jié)果。例如,在設(shè)定主題個(gè)數(shù)為2的情況下,如圖4 表示的包含關(guān)鍵字"波斯貓"的簇的結(jié)果,其中通過LDA主題模型生成的兩個(gè)主題的主題詞 向量差別比較小,則可以認(rèn)定該簇的聚類質(zhì)量較高,因此可以將該簇保留;而如圖5表示的 包含關(guān)鍵字"先知"的簇的結(jié)果,兩個(gè)主題詞向量之間差別很大(這是因?yàn)樵摯匕黄?有"春江水暖鴨先知"詩句的文檔,而其它文檔是關(guān)于游戲的),則可以認(rèn)定該簇的聚類質(zhì)量 較低,因此可以將該簇進(jìn)一步劃分成兩個(gè)子簇。
      [0042] 經(jīng)過上述劃分之后,該簇的k值發(fā)生了變化,如圖6所示,以k = 3為例,經(jīng)過基于 如LDA進(jìn)行劃分之后,k值變?yōu)榱?5。在劃分之后,簇的粒度變小,通過這種方法可以對(duì)有可 能發(fā)生聚類錯(cuò)的簇進(jìn)行重新劃分,從而降低了聚類錯(cuò)誤。
      [0043] 以圖6為例,經(jīng)初始聚類后的3個(gè)子簇1、2和3在基于如LDA進(jìn)行劃分之后,可能 產(chǎn)生5個(gè)新的子簇1、2、3、4和5。但在這些新的子簇之間有可能具有一定相似度,因此可以 對(duì)這些具有一定相似度的子簇進(jìn)行再次聚類。
      [0044] 接下來,合并單元340可以對(duì)劃分單元330劃分后的簇執(zhí)行再次聚類。在再次聚 類過程中,可以計(jì)算簇和子簇任意兩個(gè)之間的相似度。具體地,如果簇和子簇中的任意兩個(gè) 之間的相似度大于或等于第二預(yù)定閾值,則可以將其合并為一個(gè)簇。為了滿足界定聚類質(zhì) 量要求,有必要為簇或子簇任意兩個(gè)之間設(shè)置第二預(yù)定閾值,該第二預(yù)定閾值可以通過經(jīng) 驗(yàn)值來確定。
      [0045] 在再次聚類之后,k值又可能發(fā)生變化而產(chǎn)生新的k'值。接下來,計(jì)數(shù)單元350 可以對(duì)合并單元340合并后的簇進(jìn)行計(jì)數(shù),以獲得更新的k'值。雖然更新的k'值與k值 不同,但是更新的k'值會(huì)趨向一個(gè)穩(wěn)定的值,如圖2的示例所示,更新的k'值趨向等于4。
      [0046] 然后,聚類數(shù)確定單元360可以對(duì)計(jì)數(shù)單元350獲得的相同的更新的k'進(jìn)行計(jì) 數(shù),并且可以將數(shù)目最多的更新的k'確定為最佳聚類數(shù)。
      [0047] 在最佳聚類數(shù)確定后,可以針對(duì)該最佳聚類數(shù)從多個(gè)再次聚類結(jié)果中選擇一個(gè)作 為最終的聚類結(jié)果,這是因?yàn)殡m然不同聚類結(jié)果的k值相同,但是不同聚類結(jié)果的簇或子 簇很可能不同,因此可以選擇聚類質(zhì)量最好的作為最終結(jié)果。
      [0048] 為了衡量聚類結(jié)果的質(zhì)量來進(jìn)行最終結(jié)果的選擇,提供了根據(jù)本公開的另一個(gè)實(shí) 施例的文本聚類裝置700。圖7示出了根據(jù)本公開的另一個(gè)實(shí)施例的文本聚類裝置700。除 了第一計(jì)算單元710、獲取單元720和聚類確定單元730之外,如圖7所示的文本聚類裝置 700的其它組成部分與如圖3所示的文本聚類裝置300相同,本公開對(duì)此不再重復(fù)。
      [0049] 具體地,第一計(jì)算單元710可以針對(duì)聚類數(shù)確定單元360確定的最佳V的更新 的k'相對(duì)應(yīng)的源數(shù)據(jù)聚類中的每一種聚類,計(jì)算每個(gè)簇的內(nèi)部相似度IS。然后,獲取單元 720可以基于第一計(jì)算單元710計(jì)算的每個(gè)簇的內(nèi)部相似度IS來獲取每一種聚類的聚類相 似度IS。最后,聚類確定單元730可以將通過獲取單元720獲取的具有最高聚類相似度IS 的聚類確定為最佳源數(shù)據(jù)聚類。
      [0050] 根據(jù)本公開的又一實(shí)施例,在初始聚類過程中,聚類單元320可以將文檔分詞以 及去除停用詞,并且計(jì)算文檔中詞的權(quán)重(如計(jì)算詞的TF-IDF值作為詞的權(quán)重),從而得到 文檔的詞向量表示。
      [0051] 根據(jù)本公開的又一實(shí)施例,在劃分單元330執(zhí)行劃分過程中為了更好地比較簇的 兩個(gè)部分,劃分單元330還可以包括第二簇主題化單元3301和第二計(jì)算單元3302,如圖9 所示。第二簇主題化單元3301可以針對(duì)簇運(yùn)行主題模型,以獲取兩個(gè)主題詞向量,接下來 第二計(jì)算單元3302可以計(jì)算這兩個(gè)主題詞向量之間的相似度,其中,如果這兩個(gè)主題詞向 量之間的相似度較大,則表明簇的質(zhì)量較好,反之主題詞向量之間的相似度較小,則表明簇 的質(zhì)量較差。主題詞向量之間的相似度可以通過下面的余弦夾角公式(1)進(jìn)行計(jì)算:
      [0052]
      [0053] 其中,A和B所代表的主題詞向量用詞和權(quán)重共同來表示。例如,圖3中"貓科" 為詞,0. 040924為權(quán)重;以及η代表選取前η個(gè)詞作為主題詞向量,本領(lǐng)域技術(shù)人員可以通 過經(jīng)驗(yàn)來選取η值。具體地,如果兩個(gè)主題詞向量之間的相似度小于預(yù)定閾值,則劃分單元 330將該簇劃分成兩個(gè)子簇。另一方面,如果兩個(gè)主題詞向量之間的相似度大于或等于預(yù)定 閾值,則保留該簇。在比較過程中,為了滿足界定聚類質(zhì)量要求,有必要為簇的兩個(gè)部分設(shè) 置預(yù)定閾值,該預(yù)定閾值可以通過經(jīng)驗(yàn)值來確定。
      [0054] 另外,在需要對(duì)簇進(jìn)行進(jìn)一步劃分的情況下(如圖5所示的簇),劃分單元330還 可以進(jìn)一步包括主題獲取單元、第二文檔主題化單元以及第三計(jì)算單元。針對(duì)待劃分的簇, 主題獲取單元可以獲取該待劃分的簇的兩個(gè)主題詞向量vl和ν2 ;第二文檔主題化單元可 以針對(duì)該待劃分的簇中的每一篇文檔,利用文檔中的詞(去除停用詞)作為特征、詞的頻次 作為特征權(quán)重來組成文檔詞向量d ;然后,第三計(jì)算單元可以再通過余弦夾角公式(1)分別 計(jì)算文檔詞向量d分別與主題詞向量vl和主題詞向量v2的余弦相似度,接下來,劃分單元 330可以再通過比較它們的相似度將待劃分的簇劃分為第一子簇或者第二子簇。
      [0055] 根據(jù)本公開的又一實(shí)施例,合并單元340可以對(duì)劃分單元330劃分后的簇執(zhí)行再 次聚類。在再次聚類過程中,可以利用如LDA模型生成主題詞向量,其中主題個(gè)數(shù)設(shè)置為1, 并可以通過利用余弦夾角公式(1)來計(jì)算簇和子簇任意兩個(gè)的主題詞向量之間的相似度。 具體地,如果簇和子簇中的任意兩個(gè)之間的相似度大于或等于第二預(yù)定閾值,則將其合并 為一個(gè)簇,同時(shí)將主題詞向量合并。同樣,主題詞向量可以用詞和權(quán)重共同來表示。另外, 為了滿足界定聚類質(zhì)量要求,有必要為簇或子簇任意兩個(gè)之間設(shè)置第二預(yù)定閾值,該第二 預(yù)定閾值可以通過經(jīng)驗(yàn)值來確定。
      [0056] 可選地,合并單元340可以重復(fù)執(zhí)行上述再次聚類過程,直到簇和子簇中的任意 兩個(gè)之間的相似度都小于第二預(yù)定閾值為止。
      [0057] 根據(jù)本公開的又一實(shí)施例,如圖8所示,第一計(jì)算單元710還可以包括第一簇主題 化單元7101和文檔主題化單元7102,例如,針對(duì)一個(gè)聚類結(jié)果:
      [0058] 第一簇主題化單元7101可以對(duì)該聚類結(jié)果中的一個(gè)子簇,使用如LDA模型,以獲 得其主題詞向量V,其中主題數(shù)設(shè)為1 ;以及
      [0059] 文檔主題化單元7102可以對(duì)該子簇中的每一篇文檔,使用如LDA模型,以獲得文 檔的主題詞向量V d,
      [0060] 其中,可以通過下面的公式(2)來計(jì)算該子簇的內(nèi)部相似度ISsub值:
      [0062] 其中i表示該子簇中的第i篇文檔;η表示該子簇中的文檔總數(shù);sim(Vdl,V)是通 過余弦夾角公式(1)計(jì)算的向量v dl和V之間的相似度,并且向量Vdl和V同樣可以用詞與 權(quán)重共同來表示。
      [0063] 接下來,該聚類結(jié)果的內(nèi)部相似度IS值可以通過下面的公式(3)來
      [0064] 計(jì)算:
      [0066] 其中,K值為子簇的數(shù)量。
      [0067] 最后,可以選擇IS值最高的聚類結(jié)果作為最終的聚類結(jié)果。
      [0068] 下面結(jié)合圖10來描述根據(jù)本公開的實(shí)施例的文本聚類方法。如圖10所示,根據(jù) 本公開的實(shí)施例的文本聚類方法開始于步驟S1010。在步驟S1010中,可以設(shè)置聚類數(shù)的集 合。
      [0069] 接下來,在步驟S1020中,可以針對(duì)每一個(gè)聚類數(shù),使用文檔中的詞作為特征對(duì)源 數(shù)據(jù)進(jìn)行聚類。
      [0070] 接下來,在步驟S1030中,可以針對(duì)每一個(gè)聚類數(shù)和每一個(gè)簇,使用文檔中的主
      當(dāng)前第2頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1