基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法及其系統(tǒng)

文檔序號：40388413發(fā)布日期：2024-12-20 12:11閱讀：9來源：國知局

本公開涉及數(shù)據(jù)分級分類，尤其涉及一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法及其系統(tǒng)。

背景技術：

1、目前，隨著大數(shù)據(jù)時代的發(fā)展，數(shù)據(jù)的數(shù)量與復雜性不斷的增加，數(shù)據(jù)分類和管理的問題也一直是學術界和商業(yè)數(shù)據(jù)集團的重點問題。現(xiàn)代大數(shù)據(jù)有著大容量、多類別、多關聯(lián)、形式多樣化等特性，此類大數(shù)據(jù)多是結構化數(shù)據(jù)，但是又包含著部分極長、描述極其復雜的非結構化數(shù)據(jù)信息。目前的常見的文本分類方法可以分為基于規(guī)則的方法、基于樸素貝葉斯分類器的方法、基于支持向量機分類器的方法、基于深度學習分類器的方法等。

2、文本分詞（word?segmentation）是將連續(xù)的文本流切分成有意義的單詞。在許多語言中，單詞之間通常沒有顯式的分隔符，因此分詞是必要的預處理步驟，對于后續(xù)的語言處理任務如詞性標注、語法分析、信息提取等都是至關重要的。常見的文本分詞的技術有：基于詞典的方法、基于規(guī)則的方法、基于統(tǒng)計的方法、基于機器學習的方法和基于深度學習的方法。

3、大數(shù)據(jù)分類中由于其數(shù)據(jù)特有性質，詞頻信息極為重要，目前已有的文本表示方法對于此類信息并不能直接使用，同時，在此類大數(shù)據(jù)中，數(shù)據(jù)長度差異大，極為重要的相對位置信息也不能充分使用或易在訓練過程中丟失位置信息。如何有效獲取大數(shù)據(jù)的稀疏特征的同時兼顧復雜數(shù)據(jù)特征的提取，準確的識別出數(shù)據(jù)所屬類別是目前面臨的重要問題。

技術實現(xiàn)思路

1、為解決傳統(tǒng)數(shù)據(jù)分類研究方法在數(shù)據(jù)特征稀疏、數(shù)據(jù)極度不均衡和數(shù)據(jù)類型復雜的情況下，數(shù)據(jù)分級分類不準確、精度低，且無法保障數(shù)據(jù)安全等問題。本公開提出了一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法以解決以上問題。

2、根據(jù)本公開的一方面，提供了一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法，包括：

3、s10、獲取原始文本數(shù)據(jù)，對所述原始文本數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)增強操作得到輸入數(shù)據(jù)；

4、s20、根據(jù)所述輸入數(shù)據(jù)構建基于概率分布的主題模型，通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關系，將主題-詞匯關系與詞嵌入模型進行特征融合，得到新的詞嵌入模型；

5、s30、根據(jù)新的詞嵌入模型，利用改進transformer網(wǎng)絡模型和卷積神經網(wǎng)絡構建深度學習網(wǎng)絡模型；

6、s40、對所述深度學習網(wǎng)絡模型進行訓練與參數(shù)優(yōu)化，得到訓練好的深度學習網(wǎng)絡模型；

7、s50、將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型中，得到分級分類結果。

8、優(yōu)選地，通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關系，表示為：

9、，

10、式中，表示抽樣主題，表示單詞，為抽樣主題中單詞對應的權重。

11、優(yōu)選地，將主題-詞匯關系與詞嵌入模型進行特征融合，得到新的詞嵌入模型，表示為：

12、，

13、式中，為每個詞匯融合后的詞向量，為每個單詞對應的詞向量， k表示主題數(shù)量。

14、優(yōu)選地，所述深度學習網(wǎng)絡模型包括融合相對位置的可學習位置編碼層和基于注意力卷積模塊的改進編碼器層。

15、優(yōu)選地，融合相對位置的可學習位置編碼層，包括引入相對位置編碼與可學習位置編碼矩陣，將輸入數(shù)據(jù)的位置信息加入數(shù)據(jù)特征中，表示為：

16、，

17、式中， lrpe表示加權平均后的結果， pe表示相對位置編碼結果， l為一個可學習的位置編碼矩陣。

18、優(yōu)選地，基于注意力卷積模塊的改進編碼器層，包括將輸入數(shù)據(jù)的位置信息加入注意力卷積模塊中，通過卷積核放大輸入數(shù)據(jù)的特征后進行函數(shù)激活，表示為：

19、，

20、新的注意力計算公式表示為：

21、，

22、式中， q、k、v為注意力機制的輸入，為詞嵌入的維度。

23、優(yōu)選地，將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型中，包括：待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型后依次進行字段預測、表預測、庫預測。

24、根據(jù)本公開的一方面，提供一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類系統(tǒng)，包括：

25、輸入數(shù)據(jù)獲取模塊，獲取原始文本數(shù)據(jù)，對所述原始文本數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)增強操作得到輸入數(shù)據(jù)；

26、詞嵌入特征融合模塊，根據(jù)所述輸入數(shù)據(jù)構建基于概率分布的主題模型，通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關系，將主題-詞匯關系與詞嵌入模型進行特征融合，得到新的詞嵌入模型；

27、模型構建模塊，根據(jù)新的詞嵌入模型，利用改進transformer網(wǎng)絡模型和卷積神經網(wǎng)絡構建深度學習網(wǎng)絡模型；

28、模型訓練模塊，對所述深度學習網(wǎng)絡模型進行訓練與參數(shù)優(yōu)化，得到訓練好的深度學習網(wǎng)絡模型；

29、數(shù)據(jù)分級分類模塊，將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型中，得到分級分類結果。

30、根據(jù)本公開的一方面，提供了一種電子設備，包括：處理器；用于存儲處理器可執(zhí)行指令的存儲器；其中，所述處理器被配置為：執(zhí)行上述基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。

31、根據(jù)本公開的一方面，提供了一種計算機可讀存儲介質，其上存儲有計算機程序指令，所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。

32、相對于現(xiàn)有技術，本公開的有益效果為：

33、1）本公開提出了一種基于詞頻概率的詞嵌入特征融合方式，通過對文檔進行主題-詞匯關系提取并與詞嵌入進行特征融合，為詞嵌入數(shù)據(jù)中添加了詞頻概率信息，提高了專用領域的分類精度。

34、2）本公開提出了一種改進的可學習的相對位置編碼，通過引入相對位置編碼與可學習位置編碼矩陣，將位置信息加入數(shù)據(jù)特征中，解決了傳統(tǒng)位置編碼相對位置信息不足且泛化能力不足的缺點。

35、3）本公開提出了一種注意力卷積模塊ac模塊，通過將位置信息加入注意力操作中，并通過1*1的卷積核放大特征后進行relu函數(shù)激活，使得位置信息能更好的被注意力機制捕捉與使用，避免了深層網(wǎng)絡位置信息的丟失問題。

36、4）提出了一種基于transformer模塊與cnn模塊的級聯(lián)模型，通過在全局、局部上分別進行特征提取強化數(shù)據(jù)特征，并通過改進的位置信息的添加，使得其在面對數(shù)據(jù)長度極度不均衡，數(shù)據(jù)種類極度繁雜的數(shù)據(jù)分類情況下依舊可以保持良好、準確的效果。

37、應當理解的是，以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的，而非限制本公開。

38、根據(jù)下面參考附圖對示例性實施例的詳細說明，本公開的其它特征及方面將變得清楚。

技術特征：

1.基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法，其特征在于，包括如下步驟：

2.根據(jù)權利要求1所述的方法，其特征在于，通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關系，表示為：

3.根據(jù)權利要求2所述的方法，其特征在于，將主題-詞匯關系與詞嵌入模型進行特征融合，得到新的詞嵌入模型，表示為：

4.根據(jù)權利要求1所述的方法，其特征在于，所述深度學習網(wǎng)絡模型包括融合相對位置的可學習位置編碼層和基于注意力卷積模塊的改進編碼器層。

5.根據(jù)權利要求4所述的方法，其特征在于，融合相對位置的可學習位置編碼層，包括引入相對位置編碼與可學習位置編碼矩陣，將輸入數(shù)據(jù)的位置信息加入數(shù)據(jù)特征中，表示為：

6.根據(jù)權利要求5所述的方法，其特征在于，基于注意力卷積模塊的改進編碼器層，包括將輸入數(shù)據(jù)的位置信息加入注意力卷積模塊中，通過卷積核放大輸入數(shù)據(jù)的特征后進行函數(shù)激活，表示為：

7.根據(jù)權利要求1所述的方法，其特征在于，將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型中，包括：待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型后依次進行字段預測、表預測、庫預測。

8.基于詞頻概率融合的文本大數(shù)據(jù)分級分類系統(tǒng)，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至7任一項所述的基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述程序被處理器執(zhí)行時實現(xiàn)權利要求1至7任一項所述的基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。

技術總結
本公開涉及基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法及其系統(tǒng)，包括：獲取原始文本數(shù)據(jù)，對原始文本數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)增強操作得到輸入數(shù)據(jù)；根據(jù)所述輸入數(shù)據(jù)構建基于概率分布的主題模型，通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題?詞匯關系，將主題?詞匯關系與詞嵌入模型進行特征融合，得到新的詞嵌入模型；根據(jù)新的詞嵌入模型，利用改進Transformer網(wǎng)絡模型和卷積神經網(wǎng)絡構建深度學習網(wǎng)絡模型；對深度學習網(wǎng)絡模型進行訓練與參數(shù)優(yōu)化，得到訓練好的深度學習網(wǎng)絡模型；將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡模型中，得到分級分類結果。本公開方法可實現(xiàn)數(shù)據(jù)精準穩(wěn)定的分類。

技術研發(fā)人員：譚德坤,陳遠明,趙嘉,趙興艷,李楨楨,付雪峰,辛奕澎,夏金程,王世琛
受保護的技術使用者：南昌工程學院
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：譚德坤,陳遠明,趙嘉,趙興艷,李楨楨,付雪峰,辛奕澎,夏金程,王世琛
技術所有人：南昌工程學院
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法及其系統(tǒng)