国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

      文檔序號(hào):40394200發(fā)布日期:2024-12-20 12:17閱讀:9來(lái)源:國(guó)知局
      文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

      本發(fā)明涉及自然語(yǔ)言處理,尤其涉及一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。


      背景技術(shù):

      1、文本聚類(lèi)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要任務(wù),其主要目的是將相似的文本歸類(lèi)到同一類(lèi)中,以便于信息組織、管理和檢索。而且在一些特定領(lǐng)域內(nèi),需要根據(jù)文本字面相似性進(jìn)行文本聚類(lèi)。

      2、現(xiàn)有的文本聚類(lèi)方法主要是通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類(lèi)等方法進(jìn)行聚類(lèi)。然而向量表示在捕捉語(yǔ)義相似性方面效果顯著,但對(duì)于字面相似性的判斷卻不夠準(zhǔn)確;傳統(tǒng)的聚類(lèi)方法在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿(mǎn)足實(shí)時(shí)性要求。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中通過(guò)將文本轉(zhuǎn)換成向量表示,再結(jié)合k-means,層次聚類(lèi)等方法進(jìn)行聚類(lèi),對(duì)于字面相似性的判斷不夠準(zhǔn)確,在處理大規(guī)模文本數(shù)據(jù)時(shí),計(jì)算成本高,效率低,難以滿(mǎn)足實(shí)時(shí)性要求的缺陷。

      2、第一方面,本發(fā)明提供一種文本聚類(lèi)方法,包括:

      3、獲取待聚類(lèi)的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;

      4、利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;

      5、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;

      6、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;

      7、采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。

      8、在一些實(shí)施例中,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:

      9、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離;

      10、基于所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離,以及所述每一文本的長(zhǎng)度,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的歸一化的文本差異度。

      11、在一些實(shí)施例中,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括

      12、判斷所述每一文本對(duì)應(yīng)的每一相似文本與所述每一文本的文本差異度是否小于預(yù)設(shè)文本差異度閾值,若是,則將所述每一文本對(duì)應(yīng)的每一相似文本添加至所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集中。

      13、在一些實(shí)施例中,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:

      14、采用圖模型算法遍歷所述圖模型;

      15、從所述圖模型中找出多個(gè)極大聯(lián)通子圖。

      16、在一些實(shí)施例中,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:

      17、將所述圖模型中未加入任一極大聯(lián)通子圖的節(jié)點(diǎn)劃分為一個(gè)聚類(lèi)簇。

      18、在一些實(shí)施例中,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:

      19、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,得到多個(gè)相似文本對(duì),創(chuàng)建對(duì)應(yīng)的邊連接每一相似文本對(duì)對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn),構(gòu)建圖模型;

      20、根據(jù)所述每一相似文本對(duì)的文本差異度,確定所述每一相似文本對(duì)對(duì)應(yīng)的邊的權(quán)重。

      21、在一些實(shí)施例中,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:

      22、利用哈希函數(shù)計(jì)算所述文本數(shù)據(jù)集的每一文本的哈希值;

      23、基于所述每一文本的哈希值,生成對(duì)應(yīng)的哈希表;

      24、基于所述哈希表,構(gòu)建所述lsh索引。

      25、第二方面,本發(fā)明還提供一種文本聚類(lèi)裝置,包括:

      26、第一構(gòu)建單元,用于獲取待聚類(lèi)的文本數(shù)據(jù)集,構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引;

      27、檢索單元,用于利用所述lsh索引,在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本,得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本;

      28、篩選單元,用于計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;

      29、第二構(gòu)建單元,以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;

      30、第一聚類(lèi)單元,用于采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。

      31、第三方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類(lèi)方法。

      32、第四方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類(lèi)方法。

      33、本發(fā)明提供的文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),通過(guò)構(gòu)建文本數(shù)據(jù)集的lsh索引,利用lsh索引,在文本數(shù)據(jù)集中檢索,得到每一文本對(duì)應(yīng)的多個(gè)相似文本,基于文本差異度對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集,以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇,能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類(lèi),適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類(lèi),降低了計(jì)算成本,提高了聚類(lèi)的效率和實(shí)時(shí)性。



      技術(shù)特征:

      1.一種文本聚類(lèi)方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法,其特征在于,所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度,包括:

      3.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法,其特征在于,所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,包括

      4.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法,其特征在于,采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖,包括:

      5.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后,還包括:

      6.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法,其特征在于,所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型,包括:

      7.根據(jù)權(quán)利要求2-6任一項(xiàng)所述的文本聚類(lèi)方法,其特征在于,所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引,包括:

      8.一種文本聚類(lèi)裝置,其特征在于,包括:

      9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類(lèi)方法。

      10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類(lèi)方法。


      技術(shù)總結(jié)
      本發(fā)明提供一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),其中方法包括:獲取待聚類(lèi)的文本數(shù)據(jù)集,構(gòu)建文本數(shù)據(jù)集的LSH索引;利用LSH索引,在文本數(shù)據(jù)集中檢索,得到每一文本對(duì)應(yīng)的多個(gè)相似文本;計(jì)算文本差異度,對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選,得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集;以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn),根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊,連接對(duì)應(yīng)的節(jié)點(diǎn),構(gòu)建圖模型;采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖,將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。本發(fā)明能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類(lèi),適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類(lèi),降低了計(jì)算成本,提高了聚類(lèi)的效率和實(shí)時(shí)性。

      技術(shù)研發(fā)人員:鄧喬波
      受保護(hù)的技術(shù)使用者:語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1