專(zhuān)利名稱(chēng):基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及信息數(shù)據(jù)處理系統(tǒng),具體為基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘 機(jī)群系統(tǒng)。
背景技術(shù):
近年來(lái),隨著科學(xué)技術(shù)的發(fā)展,各個(gè)領(lǐng)域的數(shù)據(jù)量迅猛增長(zhǎng),例如超級(jí)市
場(chǎng)上的POS系統(tǒng)每天都要存儲(chǔ)上萬(wàn)筆的顧客購(gòu)買(mǎi)數(shù)據(jù),各種同步衛(wèi)星每天傳回 地球的遙感圖像數(shù)據(jù)已經(jīng)達(dá)到50TB。面對(duì)這些以指數(shù)級(jí)速度增長(zhǎng)的數(shù)據(jù),人們 感到困惑和迷茫,要在數(shù)據(jù)海洋中尋求有價(jià)值的信息如同大海撈針。如何才能 不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢 要 想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和 戰(zhàn)略發(fā)展服務(wù)。否則,大量的數(shù)據(jù)只能成為包袱,甚至成為垃圾。因此,面對(duì) "人們被數(shù)據(jù)信息淹沒(méi),卻饑餓于知識(shí)"的兩難境遇,急需一種自動(dòng)的數(shù)據(jù)驅(qū) 動(dòng)技術(shù)來(lái)提取有用的知識(shí)。
各項(xiàng)技術(shù)的進(jìn)步產(chǎn)生了海量有價(jià)值的科學(xué)數(shù)據(jù),其產(chǎn)生的速度之快己遠(yuǎn)遠(yuǎn) 超出人工分析這些數(shù)據(jù)的能力。例如,運(yùn)行于高性能計(jì)算機(jī)上的計(jì)算模擬程序 數(shù)小時(shí)內(nèi)可以產(chǎn)生數(shù)以千兆字節(jié)的數(shù)據(jù),而人工分析這些數(shù)據(jù)要花費(fèi)幾周甚至 更長(zhǎng)的時(shí)間才能從中提取有用的信息。數(shù)據(jù)挖掘技術(shù)在自動(dòng)分析這些模擬程序 所產(chǎn)生的數(shù)據(jù)方面將大有作為。但是要處理的數(shù)據(jù)規(guī)模太大,使得數(shù)據(jù)挖掘的 串行算法與普通的處理機(jī)對(duì)數(shù)據(jù)的處理能力顯得力不從心。而并行計(jì)算利用多個(gè)處理機(jī)并行地處理數(shù)據(jù),是進(jìn)行大規(guī)模計(jì)算的有效方法。于是在很大程度上 與高性能并行計(jì)算結(jié)合的并行數(shù)據(jù)挖掘技術(shù)成為解決串行算法處理能力受限問(wèn) 題的有效手段,是今后數(shù)據(jù)挖掘技術(shù)發(fā)展的一個(gè)趨勢(shì)。
發(fā)明內(nèi)容
本實(shí)用新型的目的在于針對(duì)以上技術(shù)問(wèn)題,提供一種利用現(xiàn)有設(shè)備,高效 發(fā)掘信息數(shù)據(jù)的基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng)。
本實(shí)用新型的具體技術(shù)方案如下-
基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),由計(jì)算結(jié)點(diǎn)機(jī)l、交換機(jī)2、數(shù)字 儲(chǔ)存通道3、共享存儲(chǔ)器4組成,其特征在于計(jì)算結(jié)點(diǎn)機(jī)1通過(guò)交換機(jī)2與數(shù) 字儲(chǔ)存通道3、共享存儲(chǔ)器4相連接。
計(jì)算結(jié)點(diǎn)機(jī)1之間并聯(lián)。
計(jì)算結(jié)點(diǎn)機(jī)1之間通過(guò)PVM協(xié)議或MPI協(xié)議通訊。
機(jī)群系統(tǒng)是利用高速通用網(wǎng)絡(luò)將一組高性能工作站或高檔PC機(jī),按某種結(jié) 構(gòu)連接起來(lái),在并行程序設(shè)計(jì)以及可視化人機(jī)交互集成開(kāi)發(fā)環(huán)境支持下,統(tǒng)一 調(diào)度,協(xié)調(diào)處理,實(shí)現(xiàn)高效并行處理的系統(tǒng)。從結(jié)構(gòu)和結(jié)點(diǎn)間的通信方式來(lái)看, 它屬于分布存儲(chǔ)系統(tǒng),主要利用消息傳遞方式實(shí)現(xiàn)各主機(jī)之間的通信,由建立 在一般操作系統(tǒng)之上的并行編程環(huán)境完成系統(tǒng)的資源管理及相互協(xié)作,同時(shí)也 屏蔽工作站及網(wǎng)絡(luò)的異構(gòu)性。
本實(shí)用新型的優(yōu)勢(shì)在于移植性好、功能強(qiáng)大、效率高;相對(duì)于巨型機(jī)來(lái) 說(shuō)成本極其低廉。
圖l為實(shí)用新型的結(jié)構(gòu)示意圖。
其中,1——計(jì)算結(jié)點(diǎn)機(jī)、2——交換機(jī)、3——數(shù)字儲(chǔ)存通道、4——共享存儲(chǔ) 器。
具體實(shí)施方式
下面結(jié)合具體實(shí)施方式
對(duì)本實(shí)用新型作進(jìn)一步說(shuō)明本實(shí)用新型。 基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),由計(jì)算結(jié)點(diǎn)機(jī)l、交換機(jī)2、數(shù)字 儲(chǔ)存通道3、共享存儲(chǔ)器4組成,計(jì)算結(jié)點(diǎn)機(jī)1通過(guò)交換機(jī)2與數(shù)字儲(chǔ)存通道3、 共享存儲(chǔ)器4相連接。10臺(tái)單核32位處理器作為計(jì)算結(jié)點(diǎn)機(jī)1,千兆銅纜連接 以太網(wǎng),每個(gè)結(jié)點(diǎn)計(jì)算結(jié)點(diǎn)機(jī)1安裝的操作系統(tǒng)為Redhat企業(yè)版Linux9.0。 機(jī)群的搭建過(guò)程中,安裝和配置Linux系統(tǒng),配置中要注意三個(gè)方面(l)把SSH 選為信賴(lài)的服務(wù)(2)IP地址的配置(3)將所有結(jié)點(diǎn)名字及其IP地址填入每臺(tái)機(jī)器 的/etc/hosts文件。
修改7. bash_profile文件,設(shè)置MPICH的安裝目錄;配置用戶(hù)使用SSH公 鑰認(rèn)證;這一步對(duì)MPI程序是必須的,它讓用戶(hù)可以不需要密碼登錄到其他結(jié) 點(diǎn);安裝MPICH。
計(jì)算結(jié)點(diǎn)機(jī)l之間并聯(lián)。
計(jì)算結(jié)點(diǎn)機(jī)1之間通過(guò)MPI協(xié)議通訊。
權(quán)利要求1、基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),由計(jì)算結(jié)點(diǎn)機(jī)(1)、交換機(jī)(2)、數(shù)字儲(chǔ)存通道(3)、共享存儲(chǔ)器(4)組成,其特征在于計(jì)算結(jié)點(diǎn)機(jī)(1)通過(guò)交換機(jī)(2)與數(shù)字儲(chǔ)存通道(3)、共享存儲(chǔ)器(4)相連接。
2、 根據(jù)權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),其特征在 于所述的計(jì)算結(jié)點(diǎn)機(jī)(1)之間并聯(lián)。
3、 根據(jù)權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),其特征在 于所述的計(jì)算結(jié)點(diǎn)機(jī)(1)之間通過(guò)PVM協(xié)議或MPI協(xié)議進(jìn)行通訊。
專(zhuān)利摘要本實(shí)用新型涉及信息數(shù)據(jù)處理系統(tǒng),具體為基于關(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng)?;陉P(guān)聯(lián)規(guī)則的并行數(shù)據(jù)挖掘機(jī)群系統(tǒng),由計(jì)算結(jié)點(diǎn)機(jī)1、交換機(jī)2、數(shù)字儲(chǔ)存通道3、共享存儲(chǔ)器4組成,其特征在于計(jì)算結(jié)點(diǎn)機(jī)1通過(guò)交換機(jī)2與數(shù)字儲(chǔ)存通道3、共享存儲(chǔ)器4相連接。本實(shí)用新型利用現(xiàn)有設(shè)備,高效發(fā)掘信息數(shù)據(jù)。
文檔編號(hào)H04L29/08GK201274503SQ20082014049
公開(kāi)日2009年7月15日 申請(qǐng)日期2008年9月25日 優(yōu)先權(quán)日2008年9月25日
發(fā)明者爽 呂, 安俊秀, 鵬 王, 王春圃, 王永麗, 陳高云 申請(qǐng)人:陳高云