基于模糊理論的大數(shù)據(jù)信息挖掘方法

文檔序號(hào)：8543826閱讀：592來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于模糊理論的大數(shù)據(jù)信息挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及大數(shù)據(jù)領(lǐng)域，更具體而言，設(shè)及一種基于模糊理論的大數(shù)據(jù)信息挖掘方法。
【背景技術(shù)】
[0002] 隨著社會(huì)工業(yè)化、信息化水平的不斷提高，如今數(shù)據(jù)已取代計(jì)算成為信息計(jì)算的中屯、，云計(jì)算、大數(shù)據(jù)正在成為一種趨勢(shì)和潮流。包括存儲(chǔ)容量、可用性、I/O性能、數(shù)據(jù) 安全性、可擴(kuò)展性等諸多方面。大數(shù)據(jù)是規(guī)模非常巨大和復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)有4V: Volume(大量），數(shù)據(jù)量持續(xù)快速增加；Velocity(高速），數(shù)據(jù)I/O速度更快；Variety(多樣），數(shù)據(jù)類型和來(lái)源多樣化；Value(價(jià)值），其存在各方面的可用價(jià)值。與此同時(shí)，大數(shù)據(jù) 信息挖掘技術(shù)中有很多分支和方向，對(duì)它進(jìn)行深入研究有著重要的應(yīng)用價(jià)值。關(guān)聯(lián)規(guī)則數(shù) 據(jù)挖掘于1993年由Agrawal等人提出，它最初是W分析事務(wù)數(shù)據(jù)庫(kù)中項(xiàng)與項(xiàng)之間聯(lián)系為目標(biāo)，后來(lái)的技術(shù)人員對(duì)問(wèn)題原型進(jìn)行多方面的改進(jìn)和擴(kuò)充。目前，關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被應(yīng)用到商業(yè)、電信、金融、農(nóng)業(yè)、醫(yī)療等領(lǐng)域，并取得了良好的效果。關(guān)聯(lián)規(guī)則挖掘算法是關(guān) 聯(lián)規(guī)則數(shù)據(jù)挖掘研究中的主要內(nèi)容之一，迄今為止已提出了多種關(guān)聯(lián)規(guī)則挖掘算法，其中最著名的是Agrawal提出的Apriori算法。傳統(tǒng)的Apriori算法及其改進(jìn)算法都是集中在給定的，確定的，精確的概念上完成數(shù)據(jù)的挖掘，難W對(duì)非精確的或者說(shuō)模糊的概念進(jìn)行挖掘。
[0003] 另外，在現(xiàn)有技術(shù)中，還存在諸多應(yīng)用，例如；用模糊集理論對(duì)關(guān)聯(lián)規(guī)則挖掘算法拓展，引入模糊關(guān)聯(lián)規(guī)則的概念，用模糊概念表示數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，拓寬關(guān)聯(lián)規(guī)則的表示和應(yīng)用范圍。并將概念分層應(yīng)用到關(guān)聯(lián)規(guī)則的挖掘中，引入多層次模糊關(guān)聯(lián)規(guī)則挖掘算法，將其應(yīng)用到商品交易中，用其解決模糊概念的關(guān)聯(lián)規(guī)則挖掘的問(wèn)題，有利于指導(dǎo)決策的審IJ定。再例如甫技術(shù)采用挖掘數(shù)量關(guān)聯(lián)規(guī)則，將種類屬性的值映射到一組連續(xù)的整數(shù)，然后分為小間隔，并且鄰近間隔組合成大的間隔；并將獲得新間隔映射到連續(xù)整數(shù)上。然而如上所述，現(xiàn)有技術(shù)中的模糊集和對(duì)應(yīng)關(guān)系是事先給定的，并且對(duì)大數(shù)據(jù)信息挖掘方法的速度不夠快，效率不夠高，準(zhǔn)確性有待改進(jìn)。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的之一是提供一種基于模糊理論的大數(shù)據(jù)信息挖掘方法，能夠基于聚類算法確定模糊集，確定關(guān)系函數(shù)并確定關(guān)注的模糊關(guān)聯(lián)規(guī)則，從而為大數(shù)據(jù)信息挖掘提供快速、高效和高準(zhǔn)確性的手段。
[0005] 本發(fā)明為解決上述技術(shù)問(wèn)題而采取的技術(shù)方案為：一種基于模糊理論的大數(shù)據(jù)信息挖掘方法，其特征在于；在步驟S1中，通過(guò)聚類算法，獲得模糊集；在步驟S2中，確定關(guān) 系函數(shù)；在步驟S3中，確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0006] 根據(jù)本發(fā)明的一個(gè)方面，該方法還包括；輸入的數(shù)據(jù)集S包括n維空間中的M值， M是數(shù)據(jù)庫(kù)中值的數(shù)量，n是參數(shù)的總數(shù)量；其中n、M、K的數(shù)值均為正整數(shù)；獲得聚類K的期望數(shù)量；用單獨(dú)的值開(kāi)始，作為單獨(dú)的聚類，在每個(gè)階段上，合并最鄰近的聚類的對(duì)，形成新的聚類；執(zhí)行W上操作，直到只剩下K個(gè)聚類。
[0007] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；首先確定第i個(gè)參數(shù)的模糊集，其范圍為I(i)到A(i)，其中前者表示該參數(shù)的最小值，后者表示該參數(shù)的最大值；其次確定第i個(gè)參數(shù)的模糊集的最中屯、的點(diǎn)的集化……fik)，其中k是正整數(shù)。
[000引根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；確定該參數(shù)具有的附加的兩個(gè)模糊集，間隔分別為[I(i)，f。]和[fik，A(i)];進(jìn)而確定總的k+2個(gè)模糊集具有的范圍 [I(i)，fu]，……化(k-i)，A(i)]和[fik，A(i)];獲得每個(gè)參數(shù)的模糊集，為步驟S2的生成奠定基礎(chǔ)。
[0009] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；步驟S2的具體實(shí)現(xiàn)方式為；在W上獲得第i個(gè)參數(shù)的模糊集后，可確定關(guān)系函數(shù)，其范圍為I(i)到A(i)，其中前者表示該參數(shù)的最小值，后者表示該參數(shù)的最大值。
[0010] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù)；S21 ;對(duì)于具有范圍從I(i)到fii的模糊集而言，如果某個(gè)值U不大于f。，則關(guān)系函數(shù)F(u)為（u-f。）和（I(i)-f。）的商；否則如果某個(gè)值U小于f。，則關(guān) 系函數(shù)F(u)為0。
[0011] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù)；S22 ;對(duì)于具有最中屯、的點(diǎn)fu的每個(gè)模糊集而言，j不小于1但不大于k;如果某個(gè)值U不小于fiu_l>但不大于fU，則此時(shí)關(guān)系函數(shù)Fu(u)為和 (fu-fi(j-i))的商；如果某個(gè)值U不小于f。'但不大于f化1)，貝1J關(guān)系函數(shù)F(u)為（u-f"州）和成j-fi(州）的商。
[0012] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；步驟S2具體實(shí)現(xiàn)方式進(jìn)一步包括使用 W下步驟確定關(guān)系函數(shù)；S23 ;對(duì)于范圍從fik到A(i)的每個(gè)模糊集，如果某個(gè)值U不大于 fik，則關(guān)系函數(shù)Fw(U)為0 ;如果某個(gè)值U大于fik但不大于A(i)，則關(guān)系函數(shù)FW(U)為 (u-fik)和（A(i)-fn)的商。
[0013] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；確定關(guān)注的模糊關(guān)聯(lián)規(guī)則具體為S31 ; 確定事件數(shù)據(jù)庫(kù)中的DB(ei，e2,……e。)，其中n是正整數(shù)；確定參數(shù)P的集合，確定P中數(shù) 值參數(shù)有關(guān)的模糊集。
[0014] 根據(jù)本發(fā)明的另一個(gè)方面，該方法還包括；確定關(guān)注的模糊關(guān)聯(lián)規(guī)則還進(jìn)一步包括S32 ;確定模糊關(guān)聯(lián)規(guī)則，具體通過(guò)W下公式獲得；Rule=P1/P2,其中P1為玄,e地口和K的商，而P2為Se,eDB口。,e/W和K的商，其中i是不大于N的正整數(shù)；其中各參數(shù)的含義如先前步驟中所述，F(xiàn)(U)的選擇和確定方式根據(jù)S2步驟確定。
【附圖說(shuō)明】
[0015] 在附圖中通過(guò)實(shí)例的方式而不是通過(guò)限制的方式來(lái)示出本發(fā)明的實(shí)施例，其中相同的附圖標(biāo)記表示相同的元件，其中：
[0016] 根據(jù)本發(fā)明的實(shí)施例，圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。
【具體實(shí)施方式】
[0017] 在下面的描述中，參考附圖并W圖示的方式示出幾個(gè)具體的實(shí)施例。將理解的是：可設(shè)想并且可做出其他實(shí)施例而不脫離本公開(kāi)的范圍或精神。因此，W下詳細(xì)描述不應(yīng)被認(rèn)為具有限制意義。
[0018] 根據(jù)本發(fā)明的實(shí)施例，圖1圖示基于模糊理論的大數(shù)據(jù)信息挖掘方法的流程圖。首先，在步驟S1中，通過(guò)聚類算法，獲得模糊集；其次，在步驟S2中，確定關(guān)系函數(shù)；再次，在步驟S3中，確定關(guān)注的模糊關(guān)聯(lián)規(guī)則。
[0019] 在步驟S1中，首先從給定參數(shù)的值中確定模糊集，具體為；輸入的數(shù)據(jù)集S包括n 維空間中的M值，M是數(shù)據(jù)庫(kù)中值的數(shù)量，n是參數(shù)的總數(shù)量；其中n、M、K的數(shù)值均為正整數(shù)。獲得聚類K的期望數(shù)量；用單獨(dú)的值開(kāi)始，作為單獨(dú)的聚類，在每個(gè)階段上，合并最鄰近的聚類的對(duì)，形成新的聚類；執(zhí)行W上操作，直到只剩下K個(gè)聚類。
[0020] 優(yōu)選地，W上步驟可用W下方法實(shí)現(xiàn)；首先確定第i個(gè)參數(shù)的模糊集，其范圍為 I(i)到A(i)，其中前者表示該參數(shù)的最小值，后者表示該參數(shù)的最大值。其次確定第i個(gè) 參數(shù)的模糊集的最中屯、的點(diǎn)的集（f。，fc，fu，……fik)，其中k是正整數(shù)。該步驟進(jìn)一步包括；確定該參數(shù)具有的附加的兩個(gè)模糊集，間隔分別為[I(i)，fii]和[fik，A(i)];進(jìn)而確定總的k+2個(gè)模糊集具有的范圍[I(i)，fii]，……化(k-i)，A(i)]和[fik，A(i)];獲得每個(gè) 參數(shù)的模糊集，為步驟S2的生成奠定基礎(chǔ)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高爽;
技術(shù)所有人：成都博元科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

信息檢索與數(shù)據(jù)挖掘相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于模糊理論的大數(shù)據(jù)信息挖掘方法