本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種更新地理信息數(shù)據(jù)增量的方法及裝置。
背景技術(shù):
::關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域,用于發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)性,在各個(gè)領(lǐng)域發(fā)揮著不可替代的作用。目前,隨著信息技術(shù)的進(jìn)一步發(fā)展,在國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域積累的數(shù)據(jù)量越來(lái)越大,我們迎來(lái)了大數(shù)據(jù)的時(shí)代。在大數(shù)據(jù)的實(shí)際應(yīng)用中,關(guān)聯(lián)規(guī)則挖掘的對(duì)象往往是一個(gè)龐大的集中式或分布式的數(shù)據(jù)源。如果采用單機(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,存儲(chǔ)能力和挖掘效率勢(shì)必成為挖掘過(guò)程中的瓶頸,從而不能滿足大數(shù)據(jù)挖掘的需求。另一方面,在很多實(shí)際的數(shù)據(jù)挖掘應(yīng)用中,往往還存在增量更新的問(wèn)題。很多應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)都處在不斷更新中,從而導(dǎo)致原有挖掘出來(lái)的模式失去作用或產(chǎn)生新的模式。針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種更新地理信息數(shù)據(jù)增量的方法及裝置,以至少解決相關(guān)技術(shù)中地理信息的數(shù)據(jù)更新效率低的技術(shù)問(wèn)題。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種更新地理信息數(shù)據(jù)增量的方法,包括:獲取地理信息的候選項(xiàng)集,上述候選項(xiàng)集包括上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集;從上述候選項(xiàng)集中提取上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集;對(duì)提取的上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量。進(jìn)一步地,獲取地理信息的候選項(xiàng)集包括:掃描地理信息數(shù)據(jù)庫(kù);根據(jù)掃描結(jié)果生成上述地理信息的上述候選項(xiàng)集。進(jìn)一步地,對(duì)提取的上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果包括:將上述原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將上述新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;計(jì)算上述原始頻繁項(xiàng)集與上述新增頻繁項(xiàng)集的并集,得到第一并集;計(jì)算上述原始頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第二并集;計(jì)算上述原始非頻繁項(xiàng)集與上述新增頻繁項(xiàng)集,得到第三并集;計(jì)算上述原始非頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第四并集;將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計(jì)算結(jié)果。進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:將上述第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至上述新增數(shù)據(jù)集中;將上述第四并集中的項(xiàng)集從上述原始數(shù)據(jù)集中刪除。進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:判斷上述第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;若是,則將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從上述原始數(shù)據(jù)集中刪除;和/或判斷上述第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;若是,則將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到上述新增數(shù)據(jù)集中。根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種更新地理信息數(shù)據(jù)增量的裝置,包括:獲取單元,用于獲取地理信息候選項(xiàng)集,上述候選項(xiàng)集包括上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集;提取單元,用于從上述候選項(xiàng)集中提取上述原始數(shù)據(jù)集和新增數(shù)據(jù)集;計(jì)算單元,用于對(duì)提取的上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;更新單元,用于根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量。進(jìn)一步地,上述獲取單元包括:掃描模塊,用于掃描地理信息數(shù)據(jù)庫(kù);生成模塊,用于根據(jù)掃描結(jié)果生成上述地理信息的候選項(xiàng)集。進(jìn)一步地,上述計(jì)算單元包括:劃分模塊,用于將上述原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將上述新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;第一計(jì)算模塊,用于計(jì)算上述原始頻繁項(xiàng)集與上述新增頻繁項(xiàng)集的并集,得到第一并集;第二計(jì)算模塊,用于計(jì)算上述原始頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第二并集;第三計(jì)算模塊,用于第一計(jì)算模塊,用于計(jì)算上述原始非頻繁項(xiàng)集與上述新增頻繁項(xiàng)集,得到第三并集;第四計(jì)算模塊,用于計(jì)算上述原始非頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第四并集;確定模塊,用于將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計(jì)算結(jié)果。進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:第一添加模塊,用于將上述第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至上述新增數(shù)據(jù)集中;第一刪除模塊,用于將上述第四并集中的項(xiàng)集從上述原始數(shù)據(jù)集中刪除。進(jìn)一步地,上述更新單元包括:第一判斷模塊,用于判斷上述第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;第二刪除模塊,用于在上述第二并集中的項(xiàng)集是非頻繁項(xiàng)集時(shí),將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從上述原始數(shù)據(jù)集中刪除;和/或第二判斷模塊,用于判斷上述第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;第二添加模塊,用于上述第三并集中的項(xiàng)集是頻繁項(xiàng)集時(shí),將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到上述新增數(shù)據(jù)集中。在本發(fā)明實(shí)施例中,采用根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,通過(guò)獲取地理信息的候選項(xiàng)集,候選項(xiàng)集包括原始數(shù)據(jù)集和新增數(shù)據(jù)集;從候選項(xiàng)集中提取原始數(shù)據(jù)集和新增數(shù)據(jù)集;對(duì)提取的原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量,達(dá)到了快速、高效更新新增地理信息數(shù)據(jù)的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中地理信息的數(shù)據(jù)更新效率低的技術(shù)問(wèn)題。附圖說(shuō)明此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的方法的流程圖;圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的裝置的示意圖。具體實(shí)施方式為了使本
技術(shù)領(lǐng)域:
:的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。需要說(shuō)明的是,本發(fā)明的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。實(shí)施例1根據(jù)本發(fā)明實(shí)施例,提供了一種更新地理信息數(shù)據(jù)增量的方法的實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的方法的流程圖,如圖1所示,該方法包括如下步驟:步驟S102,獲取地理信息的候選項(xiàng)集,候選項(xiàng)集包括原始數(shù)據(jù)集和新增數(shù)據(jù)集;步驟S104,從候選項(xiàng)集中提取原始數(shù)據(jù)集和新增數(shù)據(jù)集;步驟S106,對(duì)提取的原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;步驟S108,根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量。很多應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)都處在不斷更新中,使用本發(fā)明提供的技術(shù)方案,可以在原有模式的基礎(chǔ)上,結(jié)合新增數(shù)據(jù)集進(jìn)行再次挖掘,即進(jìn)行增量關(guān)聯(lián)規(guī)則挖掘處理。這樣,即使數(shù)據(jù)挖掘應(yīng)用中存在增量更新的問(wèn)題,也不會(huì)導(dǎo)致原有挖掘出來(lái)的模式失去作用或產(chǎn)生新的模式。通過(guò)上述步驟,在對(duì)海量數(shù)據(jù)挖掘時(shí),不僅能夠滿足海量數(shù)據(jù)挖掘的需求,還能極大地提高挖掘效率??蛇x地,獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集包括:S2,掃描地理信息數(shù)據(jù)庫(kù);S4,根據(jù)掃描結(jié)果生成地理信息的候選項(xiàng)集。其中,地理信息數(shù)據(jù)庫(kù)可以是多系統(tǒng)的分布式數(shù)據(jù)庫(kù)。原始數(shù)據(jù)集包括原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集。其中,在原始數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于原始數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為原始頻繁項(xiàng)集,支持度計(jì)數(shù)小于原始數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為原始非頻繁項(xiàng)集。同理,新增數(shù)據(jù)集包括新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集。其中,在新增數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于新增數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為新增頻繁項(xiàng)集,支持度計(jì)數(shù)小于新增數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為新增非頻繁項(xiàng)集。通過(guò)上述步驟,可以得到全面、準(zhǔn)確的原始數(shù)據(jù)集和新增數(shù)據(jù)集??蛇x地,對(duì)提取的原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果包括:S6,將原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;S8,計(jì)算原始頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集,得到第一并集;S10,計(jì)算原始頻繁項(xiàng)集與新增非頻繁項(xiàng)集,得到第二并集;S12,計(jì)算原始非頻繁項(xiàng)集與新增頻繁項(xiàng)集,得到第三并集;S14,計(jì)算原始非頻繁項(xiàng)集與新增非頻繁項(xiàng)集,得到第四并集;S16,將第一并集、第二并集、第三并集和第四并集作為增量計(jì)算結(jié)果。通過(guò)本發(fā)明實(shí)施例,可以根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,達(dá)到提高更新效率的目的。可選地,根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量包括:S18,將第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至新增數(shù)據(jù)集中;S20,將第四并集中的項(xiàng)集從原始數(shù)據(jù)集中刪除。由于原始頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集必然是頻繁項(xiàng)集,因此可以直接將其添加至新增數(shù)據(jù)集;并且原始非頻繁項(xiàng)集與新增非頻繁項(xiàng)集的并集必然是非頻繁項(xiàng)集,因此可以直接將其從原始數(shù)據(jù)集中刪除。通過(guò)本發(fā)明實(shí)施例,將不同類型的項(xiàng)集分類計(jì)算,可以實(shí)現(xiàn)快速更新計(jì)算結(jié)果的目的,達(dá)到提高更新效率的技術(shù)效果??蛇x地,根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量包括:S22,判斷第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;S24,若是,則將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從原始數(shù)據(jù)集中刪除;和/或S26,判斷第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;S28,若是,則將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到新增數(shù)據(jù)集中。也即,在求原始頻繁項(xiàng)集與新增非頻繁項(xiàng)集的并集時(shí),若原始頻繁項(xiàng)集變化為非頻繁項(xiàng)集,則需要將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從原始數(shù)據(jù)集中刪除;和/或,在求原始非頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集時(shí),若原始非頻繁項(xiàng)集變化為頻繁項(xiàng)集,則需要將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到新增數(shù)據(jù)集中。通過(guò)本發(fā)明實(shí)施例,可以根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,達(dá)到提高更新效率的目的。下面以一個(gè)具體實(shí)施例詳細(xì)闡述本發(fā)明:在本發(fā)明實(shí)施例中,可以使用FUFP-tree算法進(jìn)行基于關(guān)聯(lián)規(guī)則的增量挖掘。具體地,針對(duì)原始事務(wù)數(shù)據(jù)庫(kù)增量更新后,頻繁項(xiàng)集發(fā)生變化的問(wèn)題,可以把增量更新后的所有項(xiàng)集分為4種類別C1,C2,C3,C4。其中,對(duì)于類別C1,在D(即原始數(shù)據(jù)集)和d(即新增數(shù)據(jù)集)中都為頻繁項(xiàng)集,此類在更新后的事務(wù)數(shù)據(jù)庫(kù)D∪d中肯定也是頻繁項(xiàng)集;而對(duì)于類別C4,在D和d中都非頻繁項(xiàng)集,在更新后的事務(wù)數(shù)據(jù)庫(kù)D∪d中肯定也是非頻繁項(xiàng)集;對(duì)于類別C2,在D中為頻繁項(xiàng)集,在d中為非頻繁項(xiàng)集,那么在D∪d中頻繁性不確定,若變?yōu)榉穷l繁項(xiàng),則需要把它從原始頻繁項(xiàng)集中刪除;對(duì)于類別C3,在D中為非頻繁項(xiàng)集,在d中為頻繁項(xiàng)集,那么在D∪d中頻繁性也不確定,若變?yōu)轭l繁項(xiàng)集,則需要把它添加到頻繁項(xiàng)集中。FUFP-tree算法是在最小支持度不變的情況下,利用已獲得的原始頻繁項(xiàng)集和更新后的數(shù)據(jù)庫(kù),采用FUP算法的思想,依據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)地更新FUFP-tree數(shù)據(jù)結(jié)構(gòu),從而最小程度地去掃描原始事務(wù)數(shù)據(jù)庫(kù)。在FUFP-tree構(gòu)建過(guò)程中,通常會(huì)把初次掃描原始數(shù)據(jù)庫(kù)后發(fā)現(xiàn)的一階頻繁項(xiàng)集保存在名為Header-table的頭表中,與FUFP-tree中的節(jié)點(diǎn)對(duì)應(yīng)。與FP-tree結(jié)構(gòu)不同之處是,把FP-tree結(jié)構(gòu)中父節(jié)點(diǎn)和孩子節(jié)點(diǎn)間的單向連接關(guān)系改為雙向連接,從而在數(shù)據(jù)庫(kù)增量更新時(shí),可以根據(jù)上述4種類別來(lái)更新Headertable頭表以及增加或刪除樹中節(jié)點(diǎn),從而使其可以正確地快速更新FUFP-tree。在FUFP-tree更新時(shí),顯然類別C4不予考慮,首先考慮類別C2,掃描新增事務(wù)數(shù)據(jù)庫(kù),將由頻繁變?yōu)榉穷l繁的項(xiàng)集從原有的頭表Header-table和FUFP-tree中刪除。然后再考慮類別C1和C3,這2個(gè)類別只存在往頭表Header-table和FUFP-tree添加項(xiàng)集的情況,但有不同之處。對(duì)于C1,只需添加屬于C1的新增事務(wù)數(shù)據(jù)集,而對(duì)于C3,需要重新掃描原始的事務(wù)數(shù)據(jù)庫(kù),找出屬于C3的項(xiàng)集并計(jì)算支持度,然后再同C3中的新增事務(wù)數(shù)據(jù)集進(jìn)行支持度計(jì)算,把計(jì)算后為頻繁項(xiàng)集的事務(wù)記錄添加進(jìn)去。通過(guò)對(duì)C1,C2,C33種情況進(jìn)行更新可以得到新的事務(wù)數(shù)據(jù)庫(kù)D∪d的FUFP-tree。FUFP-tree算法有效地結(jié)合了FUP和FP-tree算法,通過(guò)低復(fù)雜度的更新頻繁模式樹和唯一的一次掃描原始事務(wù)數(shù)據(jù)庫(kù),即可完成原始事務(wù)數(shù)據(jù)庫(kù)的增量更新數(shù)據(jù)挖掘。實(shí)施例2根據(jù)本發(fā)明實(shí)施例,提供了一種更新地理信息數(shù)據(jù)增量的裝置的實(shí)施例。圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的裝置的示意圖,如圖2所示,該裝置包括:獲取單元202,用于獲取地理信息候選項(xiàng)集,所述候選項(xiàng)集包括所述原始數(shù)據(jù)集和所述新增數(shù)據(jù)集;提取單元204,用于從候選項(xiàng)集中提取原始數(shù)據(jù)集和新增數(shù)據(jù)集;計(jì)算單元206,用于對(duì)提取的原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;更新單元208,用于根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量。很多應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)都處在不斷更新中,使用本發(fā)明提供的技術(shù)方案,可以在原有模式的基礎(chǔ)上,結(jié)合新增數(shù)據(jù)集進(jìn)行再次挖掘,即進(jìn)行增量關(guān)聯(lián)規(guī)則挖掘處理。這樣,即使數(shù)據(jù)挖掘應(yīng)用中存在增量更新的問(wèn)題,也不會(huì)導(dǎo)致原有挖掘出來(lái)的模式失去作用或產(chǎn)生新的模式。通過(guò)上述步驟,在對(duì)海量數(shù)據(jù)挖掘時(shí),不僅能夠滿足海量數(shù)據(jù)挖掘的需求,還能極大地提高挖掘效率??蛇x地,獲取單元包括:掃描模塊,用于掃描地理信息數(shù)據(jù)庫(kù);生成模塊,用于根據(jù)掃描結(jié)果生成地理信息的候選項(xiàng)集,候選項(xiàng)集包括原始數(shù)據(jù)集和新增數(shù)據(jù)集。其中,地理信息數(shù)據(jù)庫(kù)可以是多系統(tǒng)的分布式數(shù)據(jù)庫(kù)。原始數(shù)據(jù)集包括原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集。其中,在原始數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于原始數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為原始頻繁項(xiàng)集,支持度計(jì)數(shù)小于原始數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為原始非頻繁項(xiàng)集。同理,新增數(shù)據(jù)集包括新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集。其中,在新增數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于新增數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為新增頻繁項(xiàng)集,支持度計(jì)數(shù)小于新增數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為新增非頻繁項(xiàng)集。通過(guò)上述步驟,可以得到全面、準(zhǔn)確的原始數(shù)據(jù)集和新增數(shù)據(jù)集??蛇x地,計(jì)算單元包括:劃分模塊,用于將原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;第一計(jì)算模塊,用于計(jì)算原始頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集,得到第一并集;第二計(jì)算模塊,用于計(jì)算原始頻繁項(xiàng)集與新增非頻繁項(xiàng)集,得到第二并集;第三計(jì)算模塊,用于第一計(jì)算模塊,用于計(jì)算原始非頻繁項(xiàng)集與新增頻繁項(xiàng)集,得到第三并集;第四計(jì)算模塊,用于計(jì)算原始非頻繁項(xiàng)集與新增非頻繁項(xiàng)集,得到第四并集;確定模塊,用于將第一并集、第二并集、第三并集和第四并集作為增量計(jì)算結(jié)果。通過(guò)本發(fā)明實(shí)施例,可以根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,達(dá)到提高更新效率的目的??蛇x地,根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量包括:第一添加模塊,用于將第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至新增數(shù)據(jù)集中;第一刪除模塊,用于將第四并集中的項(xiàng)集從原始數(shù)據(jù)集中刪除。由于原始頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集必然是頻繁項(xiàng)集,因此可以直接將其添加至新增數(shù)據(jù)集;并且原始非頻繁項(xiàng)集與新增非頻繁項(xiàng)集的并集必然是非頻繁項(xiàng)集,因此可以直接將其從原始數(shù)據(jù)集中刪除。通過(guò)本發(fā)明實(shí)施例,將不同類型的項(xiàng)集分類計(jì)算,可以實(shí)現(xiàn)快速更新計(jì)算結(jié)果的目的,達(dá)到提高更新效率的技術(shù)效果??蛇x地,更新單元包括:第一判斷模塊,用于判斷第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;第二刪除模塊,用于在第二并集中的項(xiàng)集是非頻繁項(xiàng)集時(shí),將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從原始數(shù)據(jù)集中刪除;和/或第二判斷模塊,用于判斷第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;第二添加模塊,用于第三并集中的項(xiàng)集是頻繁項(xiàng)集時(shí),將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到新增數(shù)據(jù)集中。也即,在求原始頻繁項(xiàng)集與新增非頻繁項(xiàng)集的并集時(shí),若原始頻繁項(xiàng)集變化為非頻繁項(xiàng)集,則需要將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從原始數(shù)據(jù)集中刪除;和/或,在求原始非頻繁項(xiàng)集與新增頻繁項(xiàng)集的并集時(shí),若原始非頻繁項(xiàng)集變化為頻繁項(xiàng)集,則需要將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到新增數(shù)據(jù)集中。通過(guò)本發(fā)明實(shí)施例,可以根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,達(dá)到提高更新效率的目的。上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過(guò)其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
:的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3