文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40394200發(fā)布日期：2024-12-20 12:17閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及自然語(yǔ)言處理，尤其涉及一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、文本聚類(lèi)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要任務(wù)，其主要目的是將相似的文本歸類(lèi)到同一類(lèi)中，以便于信息組織、管理和檢索。而且在一些特定領(lǐng)域內(nèi)，需要根據(jù)文本字面相似性進(jìn)行文本聚類(lèi)。

2、現(xiàn)有的文本聚類(lèi)方法主要是通過(guò)將文本轉(zhuǎn)換成向量表示，再結(jié)合k-means，層次聚類(lèi)等方法進(jìn)行聚類(lèi)。然而向量表示在捕捉語(yǔ)義相似性方面效果顯著，但對(duì)于字面相似性的判斷卻不夠準(zhǔn)確；傳統(tǒng)的聚類(lèi)方法在處理大規(guī)模文本數(shù)據(jù)時(shí)，計(jì)算成本高，效率低，難以滿(mǎn)足實(shí)時(shí)性要求。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，用以解決現(xiàn)有技術(shù)中通過(guò)將文本轉(zhuǎn)換成向量表示，再結(jié)合k-means，層次聚類(lèi)等方法進(jìn)行聚類(lèi)，對(duì)于字面相似性的判斷不夠準(zhǔn)確，在處理大規(guī)模文本數(shù)據(jù)時(shí)，計(jì)算成本高，效率低，難以滿(mǎn)足實(shí)時(shí)性要求的缺陷。

2、第一方面，本發(fā)明提供一種文本聚類(lèi)方法，包括：

3、獲取待聚類(lèi)的文本數(shù)據(jù)集，構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引；

4、利用所述lsh索引，在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本，得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本；

5、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度，對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集；

6、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型；

7、采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖，將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。

8、在一些實(shí)施例中，所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度，包括：

9、計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離；

10、基于所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的編輯距離，以及所述每一文本的長(zhǎng)度，得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的歸一化的文本差異度。

11、在一些實(shí)施例中，所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，包括

12、判斷所述每一文本對(duì)應(yīng)的每一相似文本與所述每一文本的文本差異度是否小于預(yù)設(shè)文本差異度閾值，若是，則將所述每一文本對(duì)應(yīng)的每一相似文本添加至所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集中。

13、在一些實(shí)施例中，采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖，包括：

14、采用圖模型算法遍歷所述圖模型；

15、從所述圖模型中找出多個(gè)極大聯(lián)通子圖。

16、在一些實(shí)施例中，所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后，還包括：

17、將所述圖模型中未加入任一極大聯(lián)通子圖的節(jié)點(diǎn)劃分為一個(gè)聚類(lèi)簇。

18、在一些實(shí)施例中，所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型，包括：

19、以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集，得到多個(gè)相似文本對(duì)，創(chuàng)建對(duì)應(yīng)的邊連接每一相似文本對(duì)對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn)，構(gòu)建圖模型；

20、根據(jù)所述每一相似文本對(duì)的文本差異度，確定所述每一相似文本對(duì)對(duì)應(yīng)的邊的權(quán)重。

21、在一些實(shí)施例中，所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引，包括：

22、利用哈希函數(shù)計(jì)算所述文本數(shù)據(jù)集的每一文本的哈希值；

23、基于所述每一文本的哈希值，生成對(duì)應(yīng)的哈希表；

24、基于所述哈希表，構(gòu)建所述lsh索引。

25、第二方面，本發(fā)明還提供一種文本聚類(lèi)裝置，包括：

26、第一構(gòu)建單元，用于獲取待聚類(lèi)的文本數(shù)據(jù)集，構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引；

27、檢索單元，用于利用所述lsh索引，在所述文本數(shù)據(jù)集中檢索與所述文本數(shù)據(jù)集的每一文本相似的文本，得到所述每一文本對(duì)應(yīng)的多個(gè)相似文本；

28、篩選單元，用于計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度，對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，得到所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集；

29、第二構(gòu)建單元，以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型；

30、第一聚類(lèi)單元，用于采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖，將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。

31、第三方面，本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類(lèi)方法。

32、第四方面，本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述文本聚類(lèi)方法。

33、本發(fā)明提供的文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，通過(guò)構(gòu)建文本數(shù)據(jù)集的lsh索引，利用lsh索引，在文本數(shù)據(jù)集中檢索，得到每一文本對(duì)應(yīng)的多個(gè)相似文本，基于文本差異度對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集，以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型，采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖，將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇，能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類(lèi)，適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類(lèi)，降低了計(jì)算成本，提高了聚類(lèi)的效率和實(shí)時(shí)性。

技術(shù)特征：

1.一種文本聚類(lèi)方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法，其特征在于，所述計(jì)算所述每一文本對(duì)應(yīng)的多個(gè)相似文本與所述每一文本的文本差異度，包括：

3.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法，其特征在于，所述對(duì)所述每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，包括

4.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法，其特征在于，采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖，包括：

5.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法，其特征在于，所述采用圖模型算法從所述圖模型中確定多個(gè)極大聯(lián)通子圖之后，還包括：

6.根據(jù)權(quán)利要求1所述的文本聚類(lèi)方法，其特征在于，所述以所述候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)所述每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型，包括：

7.根據(jù)權(quán)利要求2-6任一項(xiàng)所述的文本聚類(lèi)方法，其特征在于，所述構(gòu)建所述文本數(shù)據(jù)集的局部敏感哈希lsh索引，包括：

8.一種文本聚類(lèi)裝置，其特征在于，包括：

9.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類(lèi)方法。

10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述文本聚類(lèi)方法。

技術(shù)總結(jié)
本發(fā)明提供一種文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，其中方法包括：獲取待聚類(lèi)的文本數(shù)據(jù)集，構(gòu)建文本數(shù)據(jù)集的LSH索引；利用LSH索引，在文本數(shù)據(jù)集中檢索，得到每一文本對(duì)應(yīng)的多個(gè)相似文本；計(jì)算文本差異度，對(duì)每一文本對(duì)應(yīng)的多個(gè)相似文本進(jìn)行篩選，得到每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集；以候選文本數(shù)據(jù)集中的各文本為節(jié)點(diǎn)，根據(jù)每一文本對(duì)應(yīng)的候選文本數(shù)據(jù)集創(chuàng)建邊，連接對(duì)應(yīng)的節(jié)點(diǎn)，構(gòu)建圖模型；采用圖模型算法從圖模型中確定多個(gè)極大聯(lián)通子圖，將每一極大聯(lián)通子圖中的節(jié)點(diǎn)集合劃分為一個(gè)聚類(lèi)簇。本發(fā)明能夠準(zhǔn)確地對(duì)字面相似性高的文本進(jìn)行聚類(lèi)，適用于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行聚類(lèi)，降低了計(jì)算成本，提高了聚類(lèi)的效率和實(shí)時(shí)性。

技術(shù)研發(fā)人員：鄧喬波
受保護(hù)的技術(shù)使用者：語(yǔ)聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄧喬波
技術(shù)所有人：語(yǔ)聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：支持無(wú)線(xiàn)充電的支架型桌面智能音箱的制作方法
上一篇：一種新型氨水配置裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程

文本聚類(lèi)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)與流程