1.一種離群點(diǎn)的挖掘方法,其特征在于,包括:
將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元,并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元;
根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù),確定所述多個(gè)網(wǎng)格單元中的邊界單元;
基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。
2.根據(jù)權(quán)利要求1所述的離群點(diǎn)的挖掘方法,其特征在于,所述將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元的步驟具體包括:
根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離,計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值;
基于所述每一維數(shù)據(jù)集的劃分間隔值將所述多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元。
3.根據(jù)權(quán)利要求2所述的離群點(diǎn)的挖掘方法,其特征在于,根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離,計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值的步驟具體包括:
將所述每一維數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行排序,以確定所述每一維數(shù)據(jù)集的值域;
計(jì)算所述每一維數(shù)據(jù)集中相鄰數(shù)據(jù)點(diǎn)之間的間隔值,并統(tǒng)計(jì)每個(gè)間隔值的個(gè)數(shù);
根據(jù)以下公式計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值:
4.根據(jù)權(quán)利要求1所述的離群點(diǎn)的挖掘方法,其特征在于,確定所述多個(gè)網(wǎng)格單元中的邊界單元的步驟具體包括:
通過(guò)哈希表存儲(chǔ)所述多個(gè)網(wǎng)格單元中的非空網(wǎng)格單元的信息;
根據(jù)所述非空網(wǎng)格單元的相鄰單元內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量,確定所述多個(gè)網(wǎng)格單元中的邊界單元。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的離群點(diǎn)的挖掘方法,其特征在于,基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘的步驟具體包括:
基于所述LOF算法計(jì)算所述邊界單元中的每個(gè)數(shù)據(jù)點(diǎn)的LOF值;
按照LOF值從大到小的順序,取出所述邊界單元中預(yù)定個(gè)數(shù)的數(shù)據(jù)點(diǎn)作為挖掘出的所述離群點(diǎn)。
6.一種離群點(diǎn)的挖掘裝置,其特征在于,包括:
劃分單元,用于將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元,并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元;
確定單元,用于根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù),確定所述多個(gè)網(wǎng)格單元中的邊界單元;
處理單元,用于基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。
7.根據(jù)權(quán)利要求6所述的離群點(diǎn)的挖掘裝置,其特征在于,所述劃分單元包括:
第一計(jì)算單元,用于根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離,計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值;
執(zhí)行單元,用于基于所述每一維數(shù)據(jù)集的劃分間隔值將所述多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元。
8.根據(jù)權(quán)利要求7所述的離群點(diǎn)的挖掘裝置,其特征在于,所述第一計(jì)算單元具體用于:
將所述每一維數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行排序,以確定所述每一維數(shù)據(jù)集的值域;
計(jì)算所述每一維數(shù)據(jù)集中相鄰數(shù)據(jù)點(diǎn)之間的間隔值,并統(tǒng)計(jì)每個(gè)間隔值的個(gè)數(shù);
根據(jù)以下公式計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值:
9.根據(jù)權(quán)利要求6所述的離群點(diǎn)的挖掘裝置,其特征在于,所述確定單元具體用于:
通過(guò)哈希表存儲(chǔ)所述多個(gè)網(wǎng)格單元中的非空網(wǎng)格單元的信息,并根據(jù)所述非空網(wǎng)格單元的相鄰單元內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量,確定所述多個(gè)網(wǎng)格單元中的邊界單元。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的離群點(diǎn)的挖掘裝置,其特征在于,所述處理單元包括:
第二計(jì)算單元,用于基于所述LOF算法計(jì)算所述邊界單元中的每個(gè)數(shù)據(jù)點(diǎn)的LOF值;
選取單元,用于按照LOF值從大到小的順序,取出所述邊界單元中預(yù)定個(gè)數(shù)的數(shù)據(jù)點(diǎn)作為挖掘出的所述離群點(diǎn)。