本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種網(wǎng)絡(luò)數(shù)據(jù)分類方法、系統(tǒng)及設(shè)備。
背景技術(shù):
1、在當(dāng)今數(shù)字化浪潮中,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分,其蘊(yùn)含的價(jià)值隨著云計(jì)算、大數(shù)據(jù)、自然語言處理(nlp)、人工智能(ai)及區(qū)塊鏈等技術(shù)的飛速發(fā)展而不斷被挖掘和放大;然而,數(shù)據(jù)價(jià)值的最大化實(shí)現(xiàn)依賴于有效的數(shù)據(jù)分類與管理機(jī)制,面對(duì)海量、異構(gòu)、快速變化的數(shù)據(jù),傳統(tǒng)的管理方式已難以滿足企業(yè)對(duì)數(shù)據(jù)深度洞察和高效利用的需求。
2、數(shù)據(jù)分類作為數(shù)據(jù)治理的核心環(huán)節(jié),通過科學(xué)的方法將數(shù)據(jù)劃分為不同的類別或?qū)蛹?jí),不僅有助于提升數(shù)據(jù)的可理解性和可用性,還為企業(yè)提供了精準(zhǔn)的數(shù)據(jù)分析工具,助力其挖掘數(shù)據(jù)背后的商業(yè)價(jià)值,優(yōu)化運(yùn)營(yíng)策略,推動(dòng)產(chǎn)品和服務(wù)創(chuàng)新。同時(shí),在數(shù)據(jù)合規(guī)與隱私保護(hù)日益重要的今天,有效的數(shù)據(jù)分類機(jī)制也是確保企業(yè)合法合規(guī)運(yùn)營(yíng)、降低風(fēng)險(xiǎn)的關(guān)鍵所在。
3、現(xiàn)有技術(shù)中普遍采用的數(shù)據(jù)分類方法多依賴于關(guān)鍵詞匹配與規(guī)則匹配技術(shù),該方法通過預(yù)設(shè)的關(guān)鍵詞庫或規(guī)則集,在數(shù)據(jù)處理過程中進(jìn)行模式識(shí)別,以判斷數(shù)據(jù)的敏感級(jí)別或內(nèi)容屬性,但是隨著數(shù)據(jù)量的增長(zhǎng),該方法難以保證分類規(guī)則的時(shí)效性和準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述問題,提出了一種網(wǎng)絡(luò)數(shù)據(jù)分類方法。
2、一種網(wǎng)絡(luò)數(shù)據(jù)分類方法,所述方法包括下列步驟:
3、采集目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,確定第一信息數(shù)據(jù);
4、建立數(shù)據(jù)分類規(guī)則庫,根據(jù)所述數(shù)據(jù)分類規(guī)則庫確定所述第一信息數(shù)據(jù)對(duì)應(yīng)的第一分類結(jié)果;
5、建立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用第一樣本數(shù)據(jù)對(duì)所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果;
6、建立qwen自然語言處理模型,利用第二樣本數(shù)據(jù)對(duì)所述qwen自然語言處理模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的qwen自然語言處理模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第三分類結(jié)果;
7、根據(jù)所述第一分類結(jié)果、所述第二分類結(jié)果、所述第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果。
8、上述方案中,所述采集目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,確定第一信息數(shù)據(jù),具體包括:
9、對(duì)目標(biāo)網(wǎng)絡(luò)環(huán)境進(jìn)行監(jiān)測(cè),獲取目標(biāo)網(wǎng)絡(luò)數(shù)據(jù);
10、對(duì)所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行清洗和格式化處理,獲取第一目標(biāo)網(wǎng)絡(luò)數(shù)據(jù);
11、對(duì)所述第一目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行缺失值處理、異常值處理,獲取第一信息數(shù)據(jù)。
12、上述方案中,所述建立數(shù)據(jù)分類規(guī)則庫,根據(jù)所述數(shù)據(jù)分類規(guī)則庫確定所述第一信息數(shù)據(jù)對(duì)應(yīng)的第一分類結(jié)果,具體包括:
13、所述數(shù)據(jù)分類規(guī)則庫包含若干種規(guī)則匹配方法,包括:正則表達(dá)式匹配方法、關(guān)鍵詞組匹配方法和常用標(biāo)識(shí)匹配方法;
14、獲取所述第一信息數(shù)據(jù),并對(duì)其進(jìn)行分析,確定對(duì)應(yīng)的規(guī)則匹配方法;
15、根據(jù)與所述第一信息數(shù)據(jù)對(duì)應(yīng)的規(guī)則匹配方法對(duì)所述第一信息數(shù)據(jù)進(jìn)行處理,獲取第一分類結(jié)果。
16、上述方案中,對(duì)所述若干種規(guī)則匹配方法預(yù)設(shè)不同的權(quán)重比例,當(dāng)所述第一信息數(shù)據(jù)對(duì)應(yīng)多個(gè)行業(yè)且所述多個(gè)行業(yè)存在不同的分類規(guī)則時(shí),根據(jù)所述權(quán)重比例的大小排序,利用規(guī)則匹配方法對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第一分類結(jié)果;
17、當(dāng)所述第一分類結(jié)果符合預(yù)設(shè)規(guī)則時(shí),對(duì)所述第一分類結(jié)果進(jìn)行標(biāo)記并輸出。
18、上述方案中,所述建立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用第一樣本數(shù)據(jù)對(duì)所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果,具體包括:
19、采集原始網(wǎng)絡(luò)數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理;
20、將預(yù)處理后的原始網(wǎng)絡(luò)數(shù)據(jù)按照對(duì)應(yīng)的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,所述訓(xùn)練集包含第一樣本數(shù)據(jù);
21、構(gòu)建循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)反向傳播算法更新所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型的模型參數(shù);
22、預(yù)設(shè)迭代次數(shù)閾值,根據(jù)第一樣本數(shù)據(jù)對(duì)模型參數(shù)更新后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,當(dāng)該模型的迭代次數(shù)達(dá)到迭代次數(shù)閾值時(shí),所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練完成;
23、根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果。
24、上述方案中,所述根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果,還包括:
25、根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述驗(yàn)證集進(jìn)行預(yù)測(cè),利用softmax函數(shù)將第二分類結(jié)果轉(zhuǎn)換為每個(gè)類別的預(yù)測(cè)概率,確定對(duì)應(yīng)的概率分布;
26、預(yù)設(shè)對(duì)應(yīng)的預(yù)測(cè)閾值范圍,判斷所述每個(gè)類別的預(yù)測(cè)概率是否有效;
27、若所述每個(gè)類別的預(yù)測(cè)概率有效,則輸出預(yù)測(cè)概率最高的類別作為第二分類結(jié)果。
28、上述方案中,所述根據(jù)所述第一分類結(jié)果、所述第二分類結(jié)果、所述第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果,具體包括:
29、預(yù)設(shè)所述若干種規(guī)則匹配方法的分類結(jié)果集合為r1={r11,r12,…,r1n},其中r1i為第i個(gè)規(guī)則的分類結(jié)果,所述規(guī)則分類結(jié)果對(duì)應(yīng)的權(quán)重集合為w1={w11,w12,…,w1n},其中w1i為若干種規(guī)則匹配方法對(duì)應(yīng)的權(quán)重;
30、根據(jù)下列公式確定第一分類結(jié)果:
31、
32、其中,n為規(guī)則庫分類結(jié)果的數(shù)量;
33、預(yù)設(shè)所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型的分類結(jié)果集合為r2={r21,r22,…,r2n},其中r2i為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的第i個(gè)分類結(jié)果,預(yù)設(shè)與所述分類結(jié)果對(duì)應(yīng)的權(quán)重集合為w2={w21,w22,…,w2n},其中w2i為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的第i個(gè)分類結(jié)果對(duì)應(yīng)的權(quán)重;
34、根據(jù)下列公式確定第二分類結(jié)果:
35、
36、其中,m為循環(huán)神經(jīng)網(wǎng)絡(luò)模型分類結(jié)果的數(shù)量;
37、預(yù)設(shè)所述qwen自然語言處理模型的分類結(jié)果集合為r3={r31,r32,…,r3n},其中r3i為qwen自然語言處理模型的第i個(gè)分類結(jié)果,預(yù)設(shè)與所述分類結(jié)果對(duì)應(yīng)的權(quán)重集合為w3={w31,w32,…,w3n},其中w3i為qwen自然語言處理模型的第i個(gè)分類結(jié)果對(duì)應(yīng)的權(quán)重;
38、根據(jù)下列公式確定第三分類結(jié)果:
39、
40、其中,p為qwen自然語言處理模型分類結(jié)果的數(shù)量。
41、上述方案中,所述根據(jù)所述第一分類結(jié)果、所述第二分類結(jié)果、所述第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果,具體包括:
42、
43、其中,r(rule)、r(dl)和r(nlp)分別為第一分類結(jié)果、第二分類結(jié)果、第三分類結(jié)果,w(rule)、w(dl)和w(nlp)分別為與第一分類結(jié)果、第二分類結(jié)果、第三分類結(jié)果對(duì)應(yīng)權(quán)重值,final_result為最優(yōu)分類結(jié)果。
44、本技術(shù)還提出了一種網(wǎng)絡(luò)數(shù)據(jù)分類系統(tǒng),所述系統(tǒng)包括:數(shù)據(jù)獲取單元、數(shù)據(jù)分類單元和最優(yōu)分類結(jié)果確定單元;
45、所述數(shù)據(jù)獲取單元,用于采集目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,確定第一信息數(shù)據(jù);
46、所述數(shù)據(jù)分類單元,用于建立數(shù)據(jù)分類規(guī)則庫,并將所述第一信息數(shù)據(jù)輸入所述數(shù)據(jù)分類規(guī)則庫,確定所述第一信息數(shù)據(jù)對(duì)應(yīng)的第一分類結(jié)果;建立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用第一樣本數(shù)據(jù)對(duì)所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果;建立qwen自然語言處理模型,利用第二樣本數(shù)據(jù)對(duì)所述qwen自然語言處理模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的qwen自然語言處理模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第三分類結(jié)果;
47、所述最優(yōu)分類結(jié)果確定單元,用于根據(jù)所述第一分類結(jié)果、所述第二分類結(jié)果、所述第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果。
48、本技術(shù)還提出了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行下列步驟:
49、采集目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,確定第一信息數(shù)據(jù);
50、建立數(shù)據(jù)分類規(guī)則庫,根據(jù)所述數(shù)據(jù)分類規(guī)則庫確定所述第一信息數(shù)據(jù)對(duì)應(yīng)的第一分類結(jié)果;
51、建立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用第一樣本數(shù)據(jù)對(duì)所述循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果;
52、建立qwen自然語言處理模型,利用第二樣本數(shù)據(jù)對(duì)所述qwen自然語言處理模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的qwen自然語言處理模型對(duì)所述第一信息數(shù)據(jù)進(jìn)行分類,獲取第三分類結(jié)果;
53、根據(jù)所述第一分類結(jié)果、所述第二分類結(jié)果、所述第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定所述目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果。
54、采用本發(fā)明實(shí)施例,具有如下有益效果:先采集目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,確定第一信息數(shù)據(jù);建立數(shù)據(jù)分類規(guī)則庫,根據(jù)數(shù)據(jù)分類規(guī)則庫確定所述第一信息數(shù)據(jù)對(duì)應(yīng)的第一分類結(jié)果;建立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用第一樣本數(shù)據(jù)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)第一信息數(shù)據(jù)進(jìn)行分類,獲取第二分類結(jié)果;建立qwen自然語言處理模型,利用第二樣本數(shù)據(jù)對(duì)所述qwen自然語言處理模型進(jìn)行訓(xùn)練,直至訓(xùn)練完成,根據(jù)訓(xùn)練完成后的qwen自然語言處理模型對(duì)第一信息數(shù)據(jù)進(jìn)行分類,獲取第三分類結(jié)果;根據(jù)第一分類結(jié)果、第二分類結(jié)果、第三分類結(jié)果和對(duì)應(yīng)的權(quán)重確定目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)的最優(yōu)分類結(jié)果。該方法通過綜合運(yùn)用數(shù)據(jù)采集與預(yù)處理、規(guī)則庫、循環(huán)神經(jīng)網(wǎng)絡(luò)模型和自然語言處理模型,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)數(shù)據(jù)的全面、準(zhǔn)確和高效的分類,具有更高的智能化和自動(dòng)化水平,能夠應(yīng)對(duì)復(fù)雜多變的網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)類型。