本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種數(shù)據(jù)清洗系統(tǒng)。
背景技術(shù):
1、隨著人們生活的便捷化,人們之間的交流越來越密切,進而催生出大量的短信數(shù)據(jù),這些短信數(shù)據(jù)來自各類網(wǎng)絡(luò)、企業(yè)等,蘊含數(shù)據(jù)生產(chǎn)者的真實意圖和喜好,故亟需對這些短信數(shù)據(jù)進行我們現(xiàn)有大量的短信數(shù)據(jù),需要從這些數(shù)據(jù)中進行數(shù)據(jù)挖掘,清洗出對我們有用的信息,形成用戶畫像,便于后期營銷的時候結(jié)合用戶畫像進行精準營銷,以提升營銷成功率。
2、現(xiàn)有技術(shù)如公開號為cn110009416a的發(fā)明公開了一種基于大數(shù)據(jù)清洗和ai精準營銷的系統(tǒng),其僅通過去除其中的臟、假、偽、廢等數(shù)據(jù)獲取清洗后的數(shù)據(jù),再進行進一步的數(shù)據(jù)分析匹配和數(shù)據(jù)挖掘等多步驟操作,以獲取用戶畫像進行精準營銷,通過上述操作可以獲取準確的用戶畫像或群體標簽,且處理后的數(shù)據(jù)精度高,使得后期的營銷服務(wù)更為個性化和人性化。但是其數(shù)據(jù)處理的步驟冗長且繁瑣,導致數(shù)據(jù)處理消耗較多的時間,不利于營銷效率的提升。
3、為了解決上述問題,本發(fā)明提出一種數(shù)據(jù)清洗系統(tǒng)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提出一種數(shù)據(jù)清洗系統(tǒng)以解決背景技術(shù)中所提出的問題:
2、現(xiàn)有技術(shù)中數(shù)據(jù)處理的步驟冗長且繁瑣,導致數(shù)據(jù)處理消耗較多的時間,不利于營銷效率和成功率的提升。
3、為了實現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
4、一種數(shù)據(jù)清洗系統(tǒng),包括:
5、標簽劃分模塊:用于將短信數(shù)據(jù)按照不同層級進行劃分;
6、模板建立模塊:用于建立用來匹配短信內(nèi)容的短信模板;
7、數(shù)據(jù)收集模塊:用于按照時間劃分區(qū)間收集各用戶的短信數(shù)據(jù);
8、清洗入庫模塊:用于對短信數(shù)據(jù)進行清洗,并將短信數(shù)據(jù)與短信模板進行匹配和入庫處理;
9、定時維護模塊:用于定時更新維護用戶的時間區(qū)間標簽。
10、優(yōu)選地,所述標簽劃分模塊將短信數(shù)據(jù)劃分為行業(yè)級標簽、平臺級標簽和事件級標簽。
11、優(yōu)選地,所述行業(yè)級標簽對應(yīng)的數(shù)據(jù)保存在主表中,所述平臺級標簽對應(yīng)的數(shù)據(jù)保存在行業(yè)字表中。
12、優(yōu)選地,所述清洗入庫模塊包括數(shù)據(jù)清洗模塊、數(shù)據(jù)匹配模塊和數(shù)據(jù)入庫模塊;
13、所述數(shù)據(jù)清洗模塊用于對短信數(shù)據(jù)進行清洗;
14、所述數(shù)據(jù)匹配模塊用于對清洗后的短信數(shù)據(jù)與短信模板進行匹配,并將短信對應(yīng)的用戶添加對應(yīng)的事件標簽;
15、所述數(shù)據(jù)入庫模塊用于根據(jù)所述數(shù)據(jù)匹配模塊的匹配結(jié)果進行數(shù)據(jù)入庫處理。
16、優(yōu)選地,所述數(shù)據(jù)清洗模塊包括第一清洗模塊、第二清洗模塊和第三清洗模塊;
17、所述第一清洗模塊用于對采集的短信數(shù)據(jù)進行重復值去除和缺失值填充的初步清洗處理;
18、所述第二清洗模塊用于對初步清洗處理結(jié)果進行進一步的異常數(shù)據(jù)處理;
19、所述第三清洗模塊用于基于數(shù)據(jù)挖掘算法對所述第二清洗模塊的清洗結(jié)果進行短信數(shù)據(jù)的挖掘清洗。
20、優(yōu)選地,所述第三清洗模塊的數(shù)據(jù)挖掘算法具體如下:
21、設(shè)定條件集合:
22、p={p1,p2,…,pp}
23、其中,p表示數(shù)據(jù)挖掘過程中的條件集合;p1,p2,…,pp表示數(shù)據(jù)挖掘過程中設(shè)定的第一個、第二個、...、第p個條件;|p|表示數(shù)據(jù)挖掘過程中設(shè)定的全部條件;
24、根據(jù)數(shù)據(jù)挖掘的條件集合,進一步設(shè)定為此次挖掘提供準確結(jié)果的挖掘方案集合如下:
25、f={f1,f2,…,ff}
26、其中,f表示數(shù)據(jù)挖掘過程中的方案集合;f1,f2,…,ff表示數(shù)據(jù)挖掘過程中設(shè)定的第一個、第二個、...、第f|個方案;|f|表示數(shù)據(jù)挖掘過程中設(shè)定的全部方案;
27、根據(jù)條件集合和方案集合計算出挖掘過程中的判斷矩陣如下:
28、
29、其中,w表示數(shù)據(jù)挖掘過程中的方案集合;表示判斷矩陣中根據(jù)第|p|個條件和第|f|個方案形成的判斷依據(jù);
30、判斷依據(jù)的權(quán)重條件滿足:
31、
32、其中,wa表示第a個權(quán)重系數(shù),|q為權(quán)重系數(shù)的個數(shù);
33、各判斷依據(jù)的權(quán)重基于改進粒子群算法進行尋優(yōu)獲?。?/p>
34、vij(t)=ωvij(t)+c1r1(pij(t)-xij(t))+c2r2(gij(t)-xij(t))
35、xij(t+1)=xij(t)+vij(t+1)
36、其中,i=1,2,…,n表示粒子的個數(shù);j=1,2,…,m表示搜索空間的維數(shù);t表示迭代次數(shù);vij表示粒子i第j維的速度;xij表示粒子i第j維的位置;ω表示慣性權(quán)重,為常數(shù);c1、c2表示學習因子;r1、r2表示[0,1]之間的隨機數(shù);pij表示粒子i第j維的最佳位置;gij表示整個群體中所有粒子i第j維的最佳位置;
37、基于遺傳操作對粒子i和粒子k的速度和位置分布進行交叉操作如下:
38、
39、其中,α、β表示[0,1]之間的隨機值;vkj(t)表示粒子k第j維的速度;xkj(t)表示粒子k第j維的位置;
40、更新個體極值與群體全局極值并進行重復迭代直至得到最佳權(quán)重參數(shù);
41、基于尋優(yōu)獲取的判斷矩陣進行歸一化處理和從大到小的排序處理,基于排序結(jié)果選取排序信息獲得清洗后的數(shù)據(jù)。
42、優(yōu)選地,所述數(shù)據(jù)匹配模塊還基于改進粒子群算法進行短信數(shù)據(jù)與各層級標簽的尋優(yōu)匹配。
43、與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種數(shù)據(jù)清洗系統(tǒng),具備以下有益效果:
44、本發(fā)明基于多步驟的數(shù)據(jù)清洗操作獲取精準的短信數(shù)據(jù),并通過對應(yīng)標簽的條件進行數(shù)據(jù)的進一步清洗,精準獲取對應(yīng)的有用信息,快速形成用戶畫像,提升后期結(jié)合用戶畫像進行營銷的精準度和速度,以提升營銷成功率。
1.一種數(shù)據(jù)清洗系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述標簽劃分模塊(100)將短信數(shù)據(jù)劃分為行業(yè)級標簽、平臺級標簽和事件級標簽。
3.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述行業(yè)級標簽對應(yīng)的數(shù)據(jù)保存在主表中,所述平臺級標簽對應(yīng)的數(shù)據(jù)保存在行業(yè)字表中。
4.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述清洗入庫模塊(400)包括數(shù)據(jù)清洗模塊(410)、數(shù)據(jù)匹配模塊(420)和數(shù)據(jù)入庫模塊(430);
5.根據(jù)權(quán)利要求4所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述數(shù)據(jù)清洗模塊(410)包括第一清洗模塊(411)、第二清洗模塊(412)和第三清洗模塊(413);
6.根據(jù)權(quán)利要求5所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述第三清洗模塊(413)的數(shù)據(jù)挖掘算法具體如下:
7.根據(jù)權(quán)利要求6所述的一種數(shù)據(jù)清洗系統(tǒng),其特征在于,所述數(shù)據(jù)匹配模塊(420)還基于改進粒子群算法進行短信數(shù)據(jù)與各層級標簽的尋優(yōu)匹配。