基于模糊理論的大數(shù)據(jù)信息挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及大數(shù)據(jù)領(lǐng)域,更具體而言,設(shè)及一種基于模糊理論的大數(shù)據(jù)信息挖掘 方法。
【背景技術(shù)】
[0002] 隨著社會(huì)工業(yè)化、信息化水平的不斷提高,如今數(shù)據(jù)已取代計(jì)算成為信息計(jì)算的 中屯、,云計(jì)算、大數(shù)據(jù)正在成為一種趨勢(shì)和潮流。包括存儲(chǔ)容量、可用性、I/O性能、數(shù)據(jù) 安全性、可擴(kuò)展性等諸多方面。大數(shù)據(jù)是規(guī)模非常巨大和復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)有4V: Volume(大量),數(shù)據(jù)量持續(xù)快速增加;Velocity(高速),數(shù)據(jù)I/O速度更快;Variety(多 樣),數(shù)據(jù)類型和來(lái)源多樣化;Value(價(jià)值),其存在各方面的可用價(jià)值。與此同時(shí),大數(shù)據(jù) 信息挖掘技術(shù)中有很多分支和方向,對(duì)它進(jìn)行深入研究有著重要的應(yīng)用價(jià)值。關(guān)聯(lián)規(guī)則數(shù) 據(jù)挖掘于1993年由Agrawal等人提出,它最初是W分析事務(wù)數(shù)據(jù)庫(kù)中項(xiàng)與項(xiàng)之間聯(lián)系為目 標(biāo),后來(lái)的技術(shù)人員對(duì)問(wèn)題原型進(jìn)行多方面的改進(jìn)和擴(kuò)充。目前,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被 應(yīng)用到商業(yè)、電信、金融、農(nóng)業(yè)、醫(yī)療等領(lǐng)域,并取得了良好的效果。關(guān)聯(lián)規(guī)則挖掘算法是關(guān) 聯(lián)規(guī)則數(shù)據(jù)挖掘研究中的主要內(nèi)容之一,迄今為止已提出了多種關(guān)聯(lián)規(guī)則挖掘算法,其中 最著名的是Agrawal提出的Apriori算法。傳統(tǒng)的Apriori算法及其改進(jìn)算法都是集中在 給定的,確定的,精確的概念上完成數(shù)據(jù)的挖掘,難W對(duì)非精確的或者說(shuō)模糊的概念進(jìn)行挖 掘。
[0003] 另外,在現(xiàn)有技術(shù)中,還存在諸多應(yīng)用,例如;用模糊集理論對(duì)關(guān)聯(lián)規(guī)則挖掘算法 拓展,引入模糊關(guān)聯(lián)規(guī)則的概念,用模糊概念表示數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,拓寬關(guān)聯(lián)規(guī)則的表 示和應(yīng)用范圍。并將概念分層應(yīng)用到關(guān)聯(lián)規(guī)則的挖掘中,引入多層次模糊關(guān)聯(lián)規(guī)則挖掘算 法,將其應(yīng)用到商品交易中,用其解決模糊概念的關(guān)聯(lián)規(guī)則挖掘的問(wèn)題,有利于指導(dǎo)決策的 審IJ定。再例如甫技術(shù)采用挖掘數(shù)量關(guān)聯(lián)規(guī)則,將種類屬性的值映射到一組連續(xù)的整數(shù),然 后分為小間隔,并且鄰近間隔組合成大的間隔;并將獲得新間隔映射到連續(xù)整數(shù)上。然而如 上所述,現(xiàn)有技術(shù)中的模糊集和對(duì)應(yīng)關(guān)系是事先給定的,并且對(duì)大數(shù)據(jù)信息挖掘方法的速 度不夠快,效率不夠高,準(zhǔn)確性有待改進(jìn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的之一是提供一種基于模糊理論的大數(shù)據(jù)信息挖掘方法,能夠基于聚 類算法確定模糊集,確定關(guān)系函數(shù)并確定關(guān)注的模糊關(guān)聯(lián)規(guī)則,從而為大數(shù)據(jù)信息挖掘提 供快速、高效和高準(zhǔn)確性的手段。
[0005] 本發(fā)明為解決上述技術(shù)問(wèn)題而采取的技術(shù)方案為:一種基于模糊理論的大數(shù)據(jù)信 息挖掘方法,其特征在于;在步驟S1中,通過(guò)聚類算法,獲得模糊集;在步驟S2中,確定關(guān) 系函數(shù);在步驟S3中,確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,該方法還包括;輸入的數(shù)據(jù)集S包括n維空間中的M值, M是數(shù)據(jù)庫(kù)中值的數(shù)量,n是參數(shù)的總數(shù)量;其中n、M、K的數(shù)值均為正整數(shù);獲得聚類K的 期望數(shù)量;用單獨(dú)的值開(kāi)始,作為單獨(dú)的聚類,在每個(gè)階段上,合并最鄰近的聚類的對(duì),形成 新的聚類;執(zhí)行W上操作,直到只剩下K個(gè)聚類。
[0007] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;首先確定第i個(gè)參數(shù)的模糊集,其范圍 為I(i)到A(i),其中前者表示該參數(shù)的最小值,后者表示該參數(shù)的最大值;其次確定第i個(gè)參數(shù)的模糊集的最中屯、的點(diǎn)的集化……fik),其中k是正整數(shù)。
[000引根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;確定該參數(shù)具有的附加的兩個(gè)模 糊集,間隔分別為[I(i),f。]和[fik,A(i)];進(jìn)而確定總的k+2個(gè)模糊集具有的范圍 [I(i),fu],……化(k-i),A(i)]和[fik,A(i)];獲得每個(gè)參數(shù)的模糊集,為步驟S2的生成奠 定基礎(chǔ)。
[0009] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;步驟S2的具體實(shí)現(xiàn)方式為;在W上獲 得第i個(gè)參數(shù)的模糊集后,可確定關(guān)系函數(shù),其范圍為I(i)到A(i),其中前者表示該參數(shù)的 最小值,后者表示該參數(shù)的最大值。
[0010] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù);S21 ;對(duì)于具有范圍從I(i)到fii的模糊集而言,如果某個(gè)值U不 大于f。,則關(guān)系函數(shù)F(u)為(u-f。)和(I(i)-f。)的商;否則如果某個(gè)值U小于f。,則關(guān) 系函數(shù)F(u)為0。
[0011] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù);S22 ;對(duì)于具有最中屯、的點(diǎn)fu的每個(gè)模糊集而言,j不小于1但不 大于k;如果某個(gè)值U不小于fiu_l>但不大于fU,則此時(shí)關(guān)系函數(shù)Fu(u)為和 (fu-fi(j-i))的商;如果某個(gè)值U不小于f。'但不大于f化1),貝1J關(guān)系函數(shù)F(u)為(u-f"州) 和成j-fi(州)的商。
[0012] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù);S23 ;對(duì)于范圍從fik到A(i)的每個(gè)模糊集,如果某個(gè)值U不大于 fik,則關(guān)系函數(shù)Fw(U)為0 ;如果某個(gè)值U大于fik但不大于A(i),則關(guān)系函數(shù)FW(U)為 (u-fik)和(A(i)-fn)的商。
[0013] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;確定關(guān)注的模糊關(guān)聯(lián)規(guī)則具體為S31 ; 確定事件數(shù)據(jù)庫(kù)中的DB(ei,e2,……e。),其中n是正整數(shù);確定參數(shù)P的集合,確定P中數(shù) 值參數(shù)有關(guān)的模糊集。
[0014] 根據(jù)本發(fā)明的另一個(gè)方面,該方法還包括;確定關(guān)注的模糊關(guān)聯(lián)規(guī)則還進(jìn)一 步包括S32 ;確定模糊關(guān)聯(lián)規(guī)則,具體通過(guò)W下公式獲得;Rule=P1/P2,其中P1為 玄,e地口和K的商,而P2為Se,eDB口。,e/W和K的商,其中i是不大于N的正整 數(shù);其中各參數(shù)的含義如先前步驟中所述,F(xiàn)(U)的選擇和確定方式根據(jù)S2步驟確定。
【附圖說(shuō)明】
[0015] 在附圖中通過(guò)實(shí)例的方式而不是通過(guò)限制的方式來(lái)示出本發(fā)明的實(shí)施例,其中相 同的附圖標(biāo)記表示相同的元件,其中:
[0016] 根據(jù)本發(fā)明的實(shí)施例,圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。
【具體實(shí)施方式】
[0017] 在下面的描述中,參考附圖并W圖示的方式示出幾個(gè)具體的實(shí)施例。將理解的是: 可設(shè)想并且可做出其他實(shí)施例而不脫離本公開(kāi)的范圍或精神。因此,W下詳細(xì)描述不應(yīng)被 認(rèn)為具有限制意義。
[0018] 根據(jù)本發(fā)明的實(shí)施例,圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。 首先,在步驟S1中,通過(guò)聚類算法,獲得模糊集;其次,在步驟S2中,確定關(guān)系函數(shù);再次, 在步驟S3中,確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0019] 在步驟S1中,首先從給定參數(shù)的值中確定模糊集,具體為;輸入的數(shù)據(jù)集S包括n 維空間中的M值,M是數(shù)據(jù)庫(kù)中值的數(shù)量,n是參數(shù)的總數(shù)量;其中n、M、K的數(shù)值均為正整 數(shù)。獲得聚類K的期望數(shù)量;用單獨(dú)的值開(kāi)始,作為單獨(dú)的聚類,在每個(gè)階段上,合并最鄰近 的聚類的對(duì),形成新的聚類;執(zhí)行W上操作,直到只剩下K個(gè)聚類。
[0020] 優(yōu)選地,W上步驟可用W下方法實(shí)現(xiàn);首先確定第i個(gè)參數(shù)的模糊集,其范圍為 I(i)到A(i),其中前者表示該參數(shù)的最小值,后者表示該參數(shù)的最大值。其次確定第i個(gè) 參數(shù)的模糊集的最中屯、的點(diǎn)的集(f。,fc,fu,……fik),其中k是正整數(shù)。該步驟進(jìn)一步 包括;確定該參數(shù)具有的附加的兩個(gè)模糊集,間隔分別為[I(i),fii]和[fik,A(i)];進(jìn)而確 定總的k+2個(gè)模糊集具有的范圍[I(i),fii],……化(k-i),A(i)]和[fik,A(i)];獲得每個(gè) 參數(shù)的模糊集,為步驟S2的生成奠定基礎(chǔ)。