基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)查詢統(tǒng)計(jì)領(lǐng)域,特別是一種基于頻繁項(xiàng)集挖掘進(jìn)行各種歷史字段出現(xiàn)的頻率的獲取方法。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展以及公安業(yè)務(wù)的發(fā)展,傳統(tǒng)對(duì)數(shù)據(jù)查詢統(tǒng)計(jì)功能不再符合公安業(yè)務(wù)的需求,為了獲取歷史數(shù)據(jù)中頻繁出現(xiàn)的可獲得的知識(shí)和價(jià)值,當(dāng)前處理的方式是通過(guò)查詢各種歷史字段出現(xiàn)的頻率。人工統(tǒng)計(jì)查詢出各種條件出現(xiàn)的頻率等。
[0003]現(xiàn)有的歷史數(shù)據(jù)頻繁模式查詢都是基于人工模式,單一查詢或者聯(lián)合指定幾個(gè)字段得到查詢結(jié)果,且無(wú)法針對(duì)時(shí)間序列數(shù)據(jù)獲取頻繁項(xiàng)目查詢結(jié)果。
【發(fā)明內(nèi)容】
[0004]為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,包括以下步驟:
[0005]獲取多項(xiàng)歷史數(shù)據(jù)表,在所述各歷史數(shù)據(jù)表中提取出具有價(jià)值字段的數(shù)據(jù)表;
[0006]在所述具有價(jià)值字段的數(shù)據(jù)表中獲取時(shí)間序列數(shù)據(jù)表與非時(shí)間序列數(shù)據(jù)表;
[0007]根據(jù)預(yù)設(shè)的時(shí)間分割單位以及所述時(shí)間序列數(shù)據(jù)的時(shí)間范圍對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理得到初始購(gòu)物籃數(shù)據(jù);
[0008]對(duì)獲取的初始購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并,得到合并后的購(gòu)物籃數(shù)據(jù);對(duì)所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)分別進(jìn)行頻繁項(xiàng)集挖掘,得到所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)的指定支持度的所有頻繁項(xiàng)集結(jié)果。
[0009]較佳地,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理過(guò)程包括:
[0010]去除所述具有價(jià)值字段的數(shù)據(jù)表中的無(wú)效數(shù)據(jù),所述無(wú)效數(shù)據(jù)包括錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)。
[0011]較佳地,對(duì)購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并方式為:
[0012]對(duì)所述購(gòu)物籃數(shù)據(jù)中中擁有相同字段的數(shù)據(jù)表進(jìn)行合并。
[0013]較佳地,所述購(gòu)物籃數(shù)據(jù)格式如下:
[0014]IDl, ITEM11, ITME12,…
[0015]ID2, ITEM21, ITEM22,…
[0016]其中,ID表示數(shù)據(jù)表的唯一標(biāo)志,ITEM表示字段值;
[0017]對(duì)所述購(gòu)物籃數(shù)據(jù)中擁有相同字段的數(shù)據(jù)表進(jìn)行合并的方式為:對(duì)具有相同ID字段的數(shù)據(jù)表進(jìn)行連接操作。
[0018]較佳地,對(duì)所述時(shí)間序列數(shù)據(jù)按照其時(shí)間范圍與時(shí)間分割單位進(jìn)行分割的步驟包括:
[0019]獲取所述時(shí)間序列數(shù)據(jù)的時(shí)間范圍,將所述時(shí)間范圍按照預(yù)設(shè)的時(shí)間分割單位進(jìn)行分割得到分割后的時(shí)間序列數(shù)據(jù)。
[0020]較佳地,對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割的過(guò)程包括:
[0021]獲取所述時(shí)間序列數(shù)據(jù)表的時(shí)間范圍,將所述時(shí)間范圍按照預(yù)設(shè)的時(shí)間分割單位進(jìn)行分割得到分割后的時(shí)間序列數(shù)據(jù)。
[0022]較佳地,通過(guò)使用頻繁項(xiàng)集發(fā)現(xiàn)算法挖掘指定支持度的頻繁項(xiàng)集。
[0023]本發(fā)明具有以下有益效果:
[0024]本發(fā)明提供的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法利用數(shù)據(jù)挖掘算法通過(guò)頻繁項(xiàng)集發(fā)現(xiàn)算法對(duì)歷史數(shù)據(jù)進(jìn)行頻繁項(xiàng)集挖掘,得到各個(gè)歷史數(shù)據(jù)表的頻繁項(xiàng)集支持度,避免人工操作查詢排序歷史數(shù)據(jù),避免人工查詢比較共同出現(xiàn)的頻繁項(xiàng)集;可以查詢出任意維度的頻繁數(shù)據(jù),方便分析人員對(duì)數(shù)據(jù)的獲取。同時(shí)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分割,方便分析人員根據(jù)時(shí)間標(biāo)簽查詢相關(guān)數(shù)據(jù)。
[0025]當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0026]為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0027]圖1為本發(fā)明實(shí)施例提供的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法流程示意圖。
【具體實(shí)施方式】
[0028]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]如圖1所示,本發(fā)明實(shí)施例提供了一種基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其包括以下步驟:
[0030]獲取多項(xiàng)歷史數(shù)據(jù)表,在所述各歷史數(shù)據(jù)表中提取出具有價(jià)值字段的數(shù)據(jù)表;
[0031]在所述具有價(jià)值字段的數(shù)據(jù)表中獲取時(shí)間序列數(shù)據(jù)表與非時(shí)間序列數(shù)據(jù)表;
[0032]根據(jù)預(yù)設(shè)的時(shí)間分割單位以及所述時(shí)間序列數(shù)據(jù)的時(shí)間范圍對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理得到初始購(gòu)物籃數(shù)據(jù);
[0033]對(duì)獲取的初始購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并,得到合并后的購(gòu)物籃數(shù)據(jù);對(duì)所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)分別進(jìn)行頻繁項(xiàng)集挖掘,得到所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)的指定支持度的所有頻繁項(xiàng)集結(jié)果。
[0034]其中,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理過(guò)程包括:
[0035]去除所述具有價(jià)值字段的數(shù)據(jù)表中的無(wú)效數(shù)據(jù),所述無(wú)效數(shù)據(jù)包括錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)。對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割的過(guò)程包括:
[0036]獲取所述時(shí)間序列數(shù)據(jù)表的時(shí)間范圍,將所述時(shí)間范圍按照預(yù)設(shè)的時(shí)間分割單位進(jìn)行分割得到分割后的時(shí)間序列數(shù)據(jù)。
[0037]本實(shí)施例中,對(duì)多個(gè)購(gòu)物籃數(shù)據(jù)中的數(shù)據(jù)表進(jìn)行合并過(guò)程包括:
[0038]對(duì)所述購(gòu)物籃數(shù)據(jù)中擁有相同字段的數(shù)據(jù)表進(jìn)行合并;其中所述購(gòu)物籃數(shù)據(jù)格式如下:
[0039]IDl, ITEMl 1,ITME12,…
[0040]ID2, ITEM21, ITEM22,…
[0041]其中,ID表示數(shù)據(jù)表的唯一標(biāo)志,ITEM表示字段值;
[0042]對(duì)所述購(gòu)物籃數(shù)據(jù)中擁有相同字段的數(shù)據(jù)表進(jìn)行合并的方式為:對(duì)購(gòu)物籃數(shù)據(jù)中具有相同ID字段的數(shù)據(jù)表進(jìn)行連接操作。本實(shí)施例提供了重點(diǎn)人員與駕駛員信息兩個(gè)數(shù)據(jù)表的操作,本實(shí)施例可以單獨(dú)選擇重點(diǎn)人員的數(shù)據(jù)表,選擇關(guān)聯(lián)分析,即可通過(guò)本發(fā)明提供的頻繁項(xiàng)集挖掘算法得到重點(diǎn)人員最頻繁出現(xiàn)的特征,可以是重點(diǎn)人員的籍貫、重點(diǎn)標(biāo)記原因以及籍貫與重點(diǎn)標(biāo)記原因等共同頻繁出現(xiàn)的特征。同時(shí),用戶也可同時(shí)選擇分析重點(diǎn)人員信息數(shù)據(jù)表和駕駛員信息兩個(gè)數(shù)據(jù)表,挖掘重點(diǎn)人員和駕駛員合并后的頻繁項(xiàng)集,如重點(diǎn)人員標(biāo)記類別與其駕駛證件類型共同頻繁出現(xiàn)的結(jié)果、累計(jì)積分和重點(diǎn)人員共同頻繁出現(xiàn)的記錄等。
[0043]本實(shí)施例中,頻繁項(xiàng)集是指在所有記錄中頻繁出現(xiàn)的字段結(jié)果及字段聯(lián)合的結(jié)果,每條頻繁項(xiàng)集都有一個(gè)支持度以區(qū)別其頻繁出現(xiàn)的程度,如在歷史犯罪嫌疑人中,男性和漢族共同出現(xiàn)的比例超過(guò)1%,如果我們的支持度設(shè)置為1%,那么“男,漢族”這就是頻繁2項(xiàng)集,這就是本實(shí)施例需要的頻繁項(xiàng)集結(jié)果。最終的頻繁項(xiàng)集包括從頻繁I項(xiàng)集,頻繁2項(xiàng)集到所有可能出現(xiàn)的符合支持度的結(jié)果。本發(fā)明實(shí)施例通過(guò)使用頻繁項(xiàng)集發(fā)現(xiàn)算法挖掘出超過(guò)指定支持度的所有頻繁項(xiàng)集。
[0044]本發(fā)明還進(jìn)行以下操作:
[0045]獲取所述具有價(jià)值字段的數(shù)據(jù)表中包含時(shí)間標(biāo)簽的序列數(shù)據(jù);
[0046]根據(jù)設(shè)定的時(shí)間范圍、時(shí)間分割單位生成時(shí)間序列,按照時(shí)間分割單位和時(shí)間范圍在所述含時(shí)間標(biāo)簽的對(duì)象數(shù)據(jù)中查詢時(shí)間序列結(jié)果,并將結(jié)果向所述時(shí)間序列中填充,得到時(shí)間序列的對(duì)象數(shù)據(jù)。
[0047]本發(fā)明提供的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法利用數(shù)據(jù)挖掘算法通過(guò)頻繁項(xiàng)集發(fā)現(xiàn)算法對(duì)歷史數(shù)據(jù)進(jìn)行頻繁項(xiàng)集挖掘,得到各個(gè)歷史數(shù)據(jù)表的頻繁項(xiàng)集支持度,避免人工操作查詢排序歷史數(shù)據(jù),避免人工查詢比較共同出現(xiàn)的頻繁項(xiàng)集;可以查詢出任意維度的頻繁數(shù)據(jù),方便分析人員對(duì)數(shù)據(jù)的獲取。同時(shí)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分割,方便分析人員根據(jù)時(shí)間標(biāo)簽查詢相關(guān)數(shù)據(jù)。
[0048]以上公開的本發(fā)明優(yōu)選實(shí)施例只是用于幫助闡述本發(fā)明。優(yōu)選實(shí)施例并沒(méi)有詳盡敘述所有的細(xì)節(jié),也不限制該發(fā)明僅為所述的【具體實(shí)施方式】。顯然,根據(jù)本說(shuō)明書的內(nèi)容,可作很多的修改和變化。本說(shuō)明書選取并具體描述這些實(shí)施例,是為了更好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書及其全部范圍和等效物的限制。
【主權(quán)項(xiàng)】
1.一種基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,包括以下步驟: 獲取多項(xiàng)歷史數(shù)據(jù)表,在所述各歷史數(shù)據(jù)表中提取出具有價(jià)值字段的數(shù)據(jù)表; 在所述具有價(jià)值字段的數(shù)據(jù)表中獲取時(shí)間序列數(shù)據(jù)表與非時(shí)間序列數(shù)據(jù)表; 根據(jù)預(yù)設(shè)的時(shí)間分割單位以及所述時(shí)間序列數(shù)據(jù)的時(shí)間范圍對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理得到初始購(gòu)物籃數(shù)據(jù); 對(duì)獲取的初始購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并,得到合并后的購(gòu)物籃數(shù)據(jù);對(duì)所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)分別進(jìn)行頻繁項(xiàng)集挖掘,得到所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)的指定支持度的所有頻繁項(xiàng)集結(jié)果。2.如權(quán)利要求1所述的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,對(duì)所述非時(shí)間序列數(shù)據(jù)表進(jìn)行清理過(guò)程包括: 去除所述具有價(jià)值字段的數(shù)據(jù)表中的無(wú)效數(shù)據(jù),所述無(wú)效數(shù)據(jù)包括錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)。3.如權(quán)利要求1所述的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,對(duì)購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并方式為: 對(duì)所述購(gòu)物籃數(shù)據(jù)中中擁有相同字段的數(shù)據(jù)表進(jìn)行合并。4.如權(quán)利要求3所述的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,所述購(gòu)物籃數(shù)據(jù)格式如下:IDl, ITEMlI, ITME12,…ID2, ITEM21, ITEM22,… 其中,ID表示數(shù)據(jù)表的唯一標(biāo)志,ITEM表示字段值; 對(duì)所述購(gòu)物籃數(shù)據(jù)中擁有相同字段的數(shù)據(jù)表進(jìn)行合并的方式為:對(duì)具有相同ID字段的數(shù)據(jù)表進(jìn)行連接操作。5.如權(quán)利要求1所述的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,對(duì)所述時(shí)間序列數(shù)據(jù)表進(jìn)行分割的過(guò)程包括: 獲取所述時(shí)間序列數(shù)據(jù)表的時(shí)間范圍,將所述時(shí)間范圍按照預(yù)設(shè)的時(shí)間分割單位進(jìn)行分割得到分割后的時(shí)間序列數(shù)據(jù)。6.如權(quán)利要求1所述的基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,其特征在于,通過(guò)使用頻繁項(xiàng)集發(fā)現(xiàn)算法挖掘指定支持度的頻繁項(xiàng)集。
【專利摘要】本發(fā)明提供了一種基于頻繁項(xiàng)集挖掘的數(shù)據(jù)處理方法,包括以下步驟:獲取多項(xiàng)歷史數(shù)據(jù)表,提取出具有價(jià)值字段的數(shù)據(jù)表;在所述具有價(jià)值字段的數(shù)據(jù)表中獲取時(shí)間序列數(shù)據(jù)表與非時(shí)間序列數(shù)據(jù)表;對(duì)時(shí)間序列數(shù)據(jù)表進(jìn)行分割,對(duì)非時(shí)間序列數(shù)據(jù)表進(jìn)行清理得到初始購(gòu)物籃數(shù)據(jù);對(duì)初始購(gòu)物籃數(shù)據(jù)中的多個(gè)數(shù)據(jù)表進(jìn)行合并,得到合并后的購(gòu)物籃數(shù)據(jù);對(duì)所述初始購(gòu)物籃數(shù)據(jù)、合并后的購(gòu)物籃數(shù)據(jù)分別進(jìn)行頻繁項(xiàng)集挖掘,得到指定支持度的頻繁項(xiàng)結(jié)果。本發(fā)明通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行頻繁項(xiàng)集挖掘,得到各個(gè)歷史數(shù)據(jù)表的頻繁項(xiàng)集支持度,可以查詢出任意維度的頻繁數(shù)據(jù),方便分析人員對(duì)數(shù)據(jù)的獲取;同時(shí)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分割,方便分析人員根據(jù)時(shí)間標(biāo)簽查詢相關(guān)數(shù)據(jù)。
【IPC分類】G06F17/30
【公開號(hào)】CN105159952
【申請(qǐng)?zhí)枴緾N201510502478
【發(fā)明人】任新華, 劉業(yè)政, 杜飛, 崔春, 向士庭
【申請(qǐng)人】安徽新華博信息技術(shù)股份有限公司
【公開日】2015年12月16日
【申請(qǐng)日】2015年8月14日