一種數(shù)據(jù)交互方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種數(shù)據(jù)交互方法及裝置,該方法包括:數(shù)據(jù)挖掘裝置確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息;所述數(shù)據(jù)挖掘裝置接收所述數(shù)據(jù)集成裝置發(fā)送的所述第一元數(shù)據(jù)信息;根據(jù)接收到的所述第一元數(shù)據(jù)信息,所述數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元數(shù)據(jù)信息的配置。本發(fā)明實(shí)施例能夠縮短數(shù)據(jù)挖掘系統(tǒng)中第二元數(shù)據(jù)信息的配置時(shí)間,提高數(shù)據(jù)挖掘系統(tǒng)的工作效率。
【專利說明】一種數(shù)據(jù)交互方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,尤其涉及一種數(shù)據(jù)交互方法及裝置。
【背景技術(shù)】
[0002] 數(shù)據(jù)提取、轉(zhuǎn)換、裝載(ETL,Extract Transform Load)系統(tǒng)是一種數(shù)據(jù)集成系統(tǒng), ETL系統(tǒng)負(fù)責(zé)從各種源系統(tǒng)的數(shù)據(jù)庫或文件系統(tǒng)中獲取數(shù)據(jù),經(jīng)過轉(zhuǎn)換、清洗等邏輯處理, 可以將邏輯處理得到的數(shù)據(jù)根據(jù)業(yè)務(wù)訴求裝載到相應(yīng)的目標(biāo)系統(tǒng)中。
[0003] 智能挖掘(SmartMiner)系統(tǒng)是一種數(shù)據(jù)挖掘系統(tǒng),智能挖掘系統(tǒng)負(fù)責(zé)從大量數(shù)據(jù) 中提取或者挖掘知識(shí),通俗一點(diǎn)就是從大量的數(shù)據(jù)中獲取有價(jià)值的信息,以支撐后續(xù)的業(yè) 務(wù)推廣和應(yīng)用等。
[0004] 數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)是兩套獨(dú)立的系統(tǒng),各自有各自的流程定義和元數(shù) 據(jù)定義,兩者之間唯一存在的聯(lián)系是數(shù)據(jù)挖掘系統(tǒng)所使用的源數(shù)據(jù)一般都是數(shù)據(jù)集成系統(tǒng) 進(jìn)行數(shù)據(jù)處理后的輸出數(shù)據(jù)。例如圖1A所示,為ETL系統(tǒng)和SmartMiner系統(tǒng)聯(lián)合工作的總 體架構(gòu)圖。其中,ETL系統(tǒng)110從源系統(tǒng)120中獲取數(shù)據(jù),對(duì)獲取到的數(shù)據(jù)進(jìn)行一系列的邏 輯處理后得到滿足SmartMiner系統(tǒng)要求的寬表數(shù)據(jù),將所述寬表數(shù)據(jù)裝載到目標(biāo)系統(tǒng)130 中;SmartMiner系統(tǒng)140從目標(biāo)系統(tǒng)130中獲取ETL系統(tǒng)裝載的所述寬表數(shù)據(jù),進(jìn)行數(shù)據(jù) 挖掘后將挖掘結(jié)果裝載到目標(biāo)系統(tǒng)130中。
[0005] 發(fā)明人發(fā)現(xiàn),由于寬表中字段數(shù)量較多,可能達(dá)到幾十甚至上百個(gè)字段,數(shù)據(jù)集成 系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)中寬表的字段等元數(shù)據(jù)信息需求很大,而現(xiàn)有技術(shù)中一般人為配置, 配置時(shí)間長,配置過程需要占用數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)大量的時(shí)間和資源以實(shí)現(xiàn)系 統(tǒng)中寬表元數(shù)據(jù)信息的配置,影響了數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)的工作效率。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例中提供了一種數(shù)據(jù)交互方法及裝置,能夠縮短數(shù)據(jù)挖掘系統(tǒng)中寬表 元數(shù)據(jù)信息的配置時(shí)間,提高數(shù)據(jù)挖掘系統(tǒng)的工作效率。
[0007] 第一方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)交互方法,包括:
[0008] 數(shù)據(jù)挖掘裝置確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成裝置中 的第一兀數(shù)據(jù)信息;
[0009] 所述數(shù)據(jù)挖掘裝置接收所述數(shù)據(jù)集成裝置發(fā)送的所述第一元數(shù)據(jù)信息;
[0010] 根據(jù)接收到的所述第一元數(shù)據(jù)信息,所述數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元數(shù)據(jù)信 息的配置。
[0011] 結(jié)合上述第一方面,在第一方面第一種可能的實(shí)現(xiàn)方式中,所述第一元數(shù)據(jù)信息 包括:第一數(shù)據(jù)的字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝 置生成的數(shù)據(jù);
[0012] 所述根據(jù)接收到的所述第一元數(shù)據(jù)信息,數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元數(shù)據(jù)信 息的配置,具體包括:
[0013] 所述數(shù)據(jù)挖掘裝置將所述第一數(shù)據(jù)的字段定義信息作為第二數(shù)據(jù)的字段定義信 息;
[0014] 所述數(shù)據(jù)挖掘裝置將所述第一數(shù)據(jù)的存儲(chǔ)位置信息確定為所述第二數(shù)據(jù)的地址 獲取信息,其中所述第二數(shù)據(jù)是所述數(shù)據(jù)挖掘裝置的源數(shù)據(jù)。
[0015] 結(jié)合上述第一方面第一種可能的實(shí)現(xiàn)方式,在第一方面第二種可能的實(shí)現(xiàn)方式 中,還包括:
[0016] 所述數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘時(shí),根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信 息獲取第二數(shù)據(jù);
[0017] 所述數(shù)據(jù)挖掘裝置根據(jù)獲取到的第二數(shù)據(jù)以及所述第二數(shù)據(jù)的字段定義信息進(jìn) 行數(shù)據(jù)挖掘處理。
[0018] 結(jié)合上述第一方面第二種可能的實(shí)現(xiàn)方式,在第一方面第三種可能的實(shí)現(xiàn)方式 中,所述第二數(shù)據(jù)的地址獲取信息中包含變量信息,所述數(shù)據(jù)挖掘裝置根據(jù)確定的所述第 二數(shù)據(jù)的地址獲取信息獲取第二數(shù)據(jù),具體包括:所述數(shù)據(jù)挖掘裝置從所述數(shù)據(jù)集成裝置 獲取所述變量信息的具體取值,得到所述第二數(shù)據(jù)的具體地址獲取信息;所述數(shù)據(jù)挖掘裝 置從所述第二數(shù)據(jù)的具體地址獲取信息指示的地址獲取第二數(shù)據(jù);
[0019] 或者,所述第二數(shù)據(jù)的地址獲取信息中每一信息均設(shè)置為固定值,所述數(shù)據(jù)挖掘 裝置根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息獲取第二數(shù)據(jù),具體包括:所述數(shù)據(jù)挖掘裝 置從所述第二數(shù)據(jù)的地址獲取信息指示的地址獲取第二數(shù)據(jù)。
[0020] 結(jié)合上述第一方面第二種可能的實(shí)現(xiàn)方式,和/或第一方面第三種可能的實(shí)現(xiàn)方 式,在第一方面第四種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘包括:
[0021] 所述數(shù)據(jù)挖掘裝置確定到達(dá)預(yù)設(shè)挖掘時(shí)間時(shí),確定進(jìn)行數(shù)據(jù)挖掘;
[0022] 或者,所述數(shù)據(jù)挖掘裝置接收到所述數(shù)據(jù)集成裝置發(fā)送的挖掘流程觸發(fā)消息時(shí), 確定進(jìn)行數(shù)據(jù)挖掘,所述挖掘流程觸發(fā)消息在數(shù)據(jù)集成裝置完成第一數(shù)據(jù)的裝載后發(fā)送。
[0023] 第二方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)交互方法,包括:
[0024] 數(shù)據(jù)集成裝置接收數(shù)據(jù)挖掘裝置對(duì)于所述數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息的 請(qǐng)求;
[0025] 所述數(shù)據(jù)集成裝置向所述數(shù)據(jù)挖掘裝置發(fā)送所述第一元數(shù)據(jù)信息,以便所述數(shù)據(jù) 挖掘裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中第二元數(shù)據(jù)信息的配置。
[0026] 結(jié)合上述第二方面,在第二方面第一種可能的實(shí)現(xiàn)方式中,所述第一元數(shù)據(jù)信息 包括:第一數(shù)據(jù)的字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝 置生成的數(shù)據(jù);且所述第一數(shù)據(jù)的存儲(chǔ)位置信息中包含變量信息;該方法還包括:
[0027] 所述數(shù)據(jù)集成裝置將第一數(shù)據(jù)加載后確定的所述存儲(chǔ)位置信息中變量信息的具 體取值發(fā)送給數(shù)據(jù)挖掘裝置。
[0028] 第三方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)挖掘裝置,包括:
[0029] 第一發(fā)送單元,用于確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成 裝置中的第一元數(shù)據(jù)信息;
[0030] 第一接收單元,用于接收所述數(shù)據(jù)集成裝置基于第一發(fā)送單元的請(qǐng)求發(fā)送的所述 第一兀數(shù)據(jù)信息;
[0031] 配置單元,用于根據(jù)第一接收單元接收到的所述第一元數(shù)據(jù)信息,進(jìn)行本地第二 元數(shù)據(jù)信息的配置。
[0032] 結(jié)合上述第三方面,在第三方面第一種可能的實(shí)現(xiàn)方式中,所述第一元數(shù)據(jù)信息 包括:第一數(shù)據(jù)的字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝 置生成的數(shù)據(jù);所述配置單元具體用于:將所述第一數(shù)據(jù)的字段定義信息確定為第二數(shù)據(jù) 的字段定義信息;將所述第一數(shù)據(jù)的存儲(chǔ)位置信息確定為所述第二數(shù)據(jù)的地址獲取信息; 所述第二數(shù)據(jù)是所述數(shù)據(jù)挖掘裝置的源數(shù)據(jù)。
[0033] 結(jié)合上述第三方面第一種可能的實(shí)現(xiàn)方式,在第三方面第二種可能的實(shí)現(xiàn)方式 中,還包括:
[0034] 獲取單元,用于確定進(jìn)行數(shù)據(jù)挖掘時(shí),根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息 獲取第二數(shù)據(jù);
[0035] 挖掘單元,用于根據(jù)獲取單元獲取到的第二數(shù)據(jù)以及所述第二數(shù)據(jù)的字段定義信 息進(jìn)行數(shù)據(jù)挖掘處理。
[0036] 結(jié)合上述第三方面第二種可能的實(shí)現(xiàn)方式,在第三方面第三種可能的實(shí)現(xiàn)方式 中,所述第二數(shù)據(jù)的地址獲取信息中包含變量信息,獲取單元具體用于:從數(shù)據(jù)集成裝置獲 取所述變量信息的具體取值,得到第二數(shù)據(jù)的具體地址獲取信息;從所述第二數(shù)據(jù)的具體 地址獲取信息指示的地址獲取第二數(shù)據(jù);
[0037] 或者,所述第二數(shù)據(jù)的地址獲取信息中每一信息均設(shè)置為固定值,獲取單元具體 用于:從所述第二數(shù)據(jù)的地址獲取信息指示的地址獲取第二數(shù)據(jù)。
[0038] 結(jié)合上述第三方面第二種可能的實(shí)現(xiàn)方式,和/或第三方面第三種可能的實(shí)現(xiàn)方 式,在第三方面第四種可能的實(shí)現(xiàn)方式中,還包括:
[0039] 確定單元,用于確定到達(dá)預(yù)設(shè)挖掘時(shí)間時(shí),確定進(jìn)行數(shù)據(jù)挖掘;或者,接收到數(shù)據(jù) 集成裝置發(fā)送的挖掘流程觸發(fā)消息時(shí),確定進(jìn)行數(shù)據(jù)挖掘,所述挖掘流程觸發(fā)消息在數(shù)據(jù) 集成裝置完成第一數(shù)據(jù)的裝載后發(fā)送。
[0040] 第四方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)集成裝置,包括:
[0041] 第二接收單元,用于接收數(shù)據(jù)挖掘裝置對(duì)于數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息的 請(qǐng)求;
[0042] 第二發(fā)送單元,用于向所述數(shù)據(jù)挖掘裝置發(fā)送第二接收單元接收到的請(qǐng)求所對(duì)應(yīng) 的所述第一元數(shù)據(jù)信息,以便數(shù)據(jù)挖掘裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中 的第二元數(shù)據(jù)信息的配置。
[0043] 結(jié)合上述第四方面,在第四方面第一種可能的實(shí)現(xiàn)方式中,所述第一元數(shù)據(jù)信息 包括:第一數(shù)據(jù)的字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝 置生成的數(shù)據(jù);且所述第一數(shù)據(jù)的存儲(chǔ)位置信息中包含變量信息;所述第二發(fā)送單元還用 于:將第一數(shù)據(jù)加載后確定的所述存儲(chǔ)位置信息中變量信息的具體取值發(fā)送給數(shù)據(jù)挖掘裝 置。
[0044] 本實(shí)施例中,數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成 裝置中的第一元數(shù)據(jù)信息;數(shù)據(jù)挖掘裝置接收所述數(shù)據(jù)集成裝置發(fā)送的所述第一元數(shù)據(jù)信 息;數(shù)據(jù)挖掘裝置根據(jù)接收到的所述第一元數(shù)據(jù)信息進(jìn)行本地第二元數(shù)據(jù)信息的配置;從 而使得數(shù)據(jù)挖掘裝置中大部分第二元數(shù)據(jù)信息的配置可以直接基于接收到的所述第一元 數(shù)據(jù)信息,無需人工手動(dòng)配置,減少了數(shù)據(jù)挖掘裝置中元數(shù)據(jù)配置的工作量和配置時(shí)長,提 高了數(shù)據(jù)挖掘裝置的工作效率。
【專利附圖】
【附圖說明】
[0045] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
[0046] 圖1A為系統(tǒng)間關(guān)系不意圖;
[0047] 圖1B為數(shù)據(jù)集成系統(tǒng)字段配置示意圖;
[0048] 圖1C為數(shù)據(jù)集成系統(tǒng)存儲(chǔ)位置信息配置示意圖;
[0049] 圖2為本發(fā)明應(yīng)用場(chǎng)景示例圖;
[0050] 圖3為本發(fā)明數(shù)據(jù)交互方法第一實(shí)施例示意圖;
[0051] 圖4為本發(fā)明數(shù)據(jù)交互方法第二實(shí)施例示意圖;
[0052] 圖5為本發(fā)明數(shù)據(jù)交互方法第三實(shí)施例示意圖;
[0053] 圖6為本發(fā)明實(shí)施例數(shù)據(jù)挖掘裝置結(jié)構(gòu)示意圖;
[0054] 圖7為本發(fā)明實(shí)施例數(shù)據(jù)集成裝置結(jié)構(gòu)示意圖;
[0055] 圖8為本發(fā)明實(shí)施例數(shù)據(jù)挖掘裝置結(jié)構(gòu)示意圖;
[0056] 圖9為本發(fā)明實(shí)施例數(shù)據(jù)集成裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0057] 數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)是兩個(gè)獨(dú)立的系統(tǒng),因此需要分別進(jìn)行各自系統(tǒng)中 元數(shù)據(jù)的配置。但是基于【背景技術(shù)】的說明可知,數(shù)據(jù)集成系統(tǒng)處理得到的數(shù)據(jù)是數(shù)據(jù)挖掘 系統(tǒng)的源數(shù)據(jù),如果兩個(gè)系統(tǒng)分別各自配置元數(shù)據(jù),則元數(shù)據(jù)的配置顯然是重復(fù)的,例如兩 個(gè)系統(tǒng)中對(duì)于寬表中字段的配置,顯然就是重復(fù)的,尤其是寬表中字段數(shù)量很大,達(dá)到幾十 甚至上百個(gè)字段時(shí),元數(shù)據(jù)的配置工作量將非常巨大,配置過程需要占用數(shù)據(jù)集成系統(tǒng)和 數(shù)據(jù)挖掘系統(tǒng)大量的時(shí)間和資源以實(shí)現(xiàn)系統(tǒng)中寬表元數(shù)據(jù)信息的配置,影響了數(shù)據(jù)集成系 統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)的工作效率。
[0058] 例如圖1B中所示,為數(shù)據(jù)集成系統(tǒng)中所需配置的寬表字段的部分截圖,其中,需 要配置每一個(gè)字段的輸入名稱、輸出名稱、數(shù)據(jù)類型、格式、描述等字段的各種定義信息;數(shù) 據(jù)挖掘系統(tǒng)中寬表字段的定義信息的配置方式與此相同,區(qū)別僅在于具體的字段定義信息 可能不同;但是,兩個(gè)系統(tǒng)中寬表字段的定義信息的配置是完全獨(dú)立配置的,互不關(guān)聯(lián);
[0059] 如圖1C中所示,為當(dāng)目標(biāo)系統(tǒng)為普通文件系統(tǒng)時(shí),數(shù)據(jù)集成系統(tǒng)中所需配置的寬 表的存儲(chǔ)位置信息,數(shù)據(jù)集成系統(tǒng)將生成的寬表數(shù)據(jù)加載至目標(biāo)系統(tǒng)中該存儲(chǔ)位置信息指 示的存儲(chǔ)位置,所述存儲(chǔ)位置信息可以包括文件名、文件路徑、文件編碼、壓縮類型、文件類 型等信息;數(shù)據(jù)挖掘系統(tǒng)中寬表數(shù)據(jù)的存儲(chǔ)位置信息的配置方式與此相同,區(qū)別僅在于具 體的存儲(chǔ)位置信息可能不同,數(shù)據(jù)挖掘系統(tǒng)可以去目標(biāo)系統(tǒng)中該存儲(chǔ)位置信息指示的存儲(chǔ) 位置獲取寬表數(shù)據(jù);兩個(gè)系統(tǒng)之間設(shè)置所述存儲(chǔ)位置信息是完全獨(dú)立的,互不關(guān)聯(lián);如果 目標(biāo)裝置是運(yùn)行數(shù)據(jù)庫的裝置,則寬表數(shù)據(jù)可以以數(shù)據(jù)表的方式實(shí)現(xiàn),則該寬表數(shù)據(jù)的存 儲(chǔ)位置信息可以包括:基于java的連接數(shù)據(jù)庫(JavaDataBaseConnectivity,JDBC)的API 連接信息、用戶名、密碼、數(shù)據(jù)表名、數(shù)據(jù)表中的分區(qū)名等。
[0060] 本發(fā)明實(shí)施例中提供了一種數(shù)據(jù)交互方法及裝置,能夠縮短數(shù)據(jù)挖掘系統(tǒng)中元數(shù) 據(jù)信息的配置時(shí)間,提高數(shù)據(jù)挖掘系統(tǒng)的工作效率。
[0061] 首先,對(duì)本發(fā)明數(shù)據(jù)交互方法及裝置的應(yīng)用場(chǎng)景進(jìn)行舉例說明。如圖2所示,包 括:數(shù)據(jù)集成裝置210、目標(biāo)裝置220以及數(shù)據(jù)挖掘裝置230 ;其中,所述數(shù)據(jù)集成系統(tǒng)可以 運(yùn)行于數(shù)據(jù)集成裝置210中,所述目標(biāo)系統(tǒng)可以運(yùn)行于所述目標(biāo)裝置220中,數(shù)據(jù)挖掘系統(tǒng) 可以運(yùn)行于數(shù)據(jù)挖掘裝置230中,其中,數(shù)據(jù)集成裝置210、目標(biāo)裝置220以及數(shù)據(jù)挖掘裝置 230可以設(shè)置于相同的物理設(shè)備中,也可以設(shè)置于不同的物理設(shè)備中,只要三個(gè)裝置之間可 以進(jìn)行數(shù)據(jù)交互即可。
[0062] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有付出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0063] 參見圖3,為本發(fā)明數(shù)據(jù)交互方法第一實(shí)施例示意圖,該方法包括:
[0064] 步驟301 :數(shù)據(jù)挖掘裝置確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù) 集成裝置中的第一元數(shù)據(jù)信息;
[0065] 步驟302 :數(shù)據(jù)挖掘裝置接收所述數(shù)據(jù)集成裝置發(fā)送的所述第一元數(shù)據(jù)信息; [0066] 步驟303 :根據(jù)接收到的所述第一元數(shù)據(jù)信息,數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元 數(shù)據(jù)信息的配置。
[0067] 本實(shí)施例中,數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成 裝置中的第一元數(shù)據(jù)信息,根據(jù)從數(shù)據(jù)集成裝置接收到的第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝 置中第二元數(shù)據(jù)信息的配置,從而使得數(shù)據(jù)挖掘裝置中大部分第二元數(shù)據(jù)信息的配置可以 直接基于接收到的所述第一元數(shù)據(jù)信息,無需人工手動(dòng)配置,減少了數(shù)據(jù)挖掘裝置中第二 元數(shù)據(jù)信息配置的工作量和配置時(shí)長,提高了數(shù)據(jù)挖掘裝置的工作效率。
[0068] 參見圖4,為本發(fā)明數(shù)據(jù)交互方法第二實(shí)施例示意圖,該方法包括:
[0069] 步驟401 :數(shù)據(jù)集成裝置接收數(shù)據(jù)挖掘裝置對(duì)于數(shù)據(jù)集成裝置中第一元數(shù)據(jù)信息 的請(qǐng)求;
[0070] 步驟402 :所述數(shù)據(jù)集成裝置向所述數(shù)據(jù)挖掘裝置發(fā)送所述第一元數(shù)據(jù)信息,以 便數(shù)據(jù)挖掘裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中第二元數(shù)據(jù)信息的配置。
[0071] 本實(shí)施例中,數(shù)據(jù)集成裝置接收數(shù)據(jù)挖掘裝置對(duì)于數(shù)據(jù)集成裝置中第一元數(shù)據(jù)信 息的請(qǐng)求;所述數(shù)據(jù)集成裝置向所述數(shù)據(jù)挖掘裝置發(fā)送所述第一元數(shù)據(jù)信息,以便數(shù)據(jù)挖 掘裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中的第二元數(shù)據(jù)信息的配置,從而使得 數(shù)據(jù)挖掘裝置中大部分第二元數(shù)據(jù)信息的配置可以直接基于接收到的所述第一元數(shù)據(jù)信 息,無需人工手動(dòng)配置,減少了數(shù)據(jù)挖掘裝置中第二元數(shù)據(jù)信息配置的工作量和配置時(shí)長, 提高了數(shù)據(jù)挖掘裝置的工作效率。
[0072] 參見圖5,為本發(fā)明數(shù)據(jù)交互方法第三實(shí)施例示意圖,該方法包括:
[0073] 步驟501 :數(shù)據(jù)集成裝置獲取自身的第一元數(shù)據(jù)信息;
[0074] 其中,可以由數(shù)據(jù)集成裝置為信息配置人員提供配置界面,例如圖1B和圖1C所 示,由信息配置人員在配置界面中對(duì)應(yīng)輸入各種元數(shù)據(jù)信息,當(dāng)各種元數(shù)據(jù)信息配置完成 后,數(shù)據(jù)集成裝置可以從所述配置界面中相應(yīng)獲取所述第一元數(shù)據(jù)信息。
[0075] 其中第一元數(shù)據(jù)信息可以包括:第一數(shù)據(jù)的字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置 信息等。其中,第一數(shù)據(jù)是指數(shù)據(jù)集成裝置生成的數(shù)據(jù)。
[0076] 第一數(shù)據(jù)的字段定義信息可以包括:字段的輸入名稱、輸出名稱、數(shù)據(jù)類型、格式、 描述等;例如,圖1B中第一個(gè)字段的字段定義信息包括:輸入名稱和輸出名稱均為USER_ ID,數(shù)據(jù)類型為string ;格式和描述空缺。
[0077] 第一數(shù)據(jù)的存儲(chǔ)位置信息可以是數(shù)據(jù)集成裝置將自身生成的第一數(shù)據(jù)加載至目 標(biāo)裝置時(shí),第一數(shù)據(jù)在所述目標(biāo)裝置中的存儲(chǔ)位置的信息。
[0078] 其中,目標(biāo)裝置不同時(shí),數(shù)據(jù)集成裝置所生成的寬表數(shù)據(jù)的實(shí)現(xiàn)方式不同。例如如 果目標(biāo)裝置是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)或運(yùn)行普 通文件系統(tǒng)的裝置,則寬表數(shù)據(jù)可以以文本文件的方式實(shí)現(xiàn),則該寬表數(shù)據(jù)的存儲(chǔ)位置信 息可以包括:文本的格式信息、路徑信息、文件名等;如果目標(biāo)裝置是運(yùn)行數(shù)據(jù)庫的裝置, 則寬表數(shù)據(jù)可以以數(shù)據(jù)表的方式實(shí)現(xiàn),則該寬表數(shù)據(jù)的存儲(chǔ)位置信息可以包括:基于JDBC 的API連接信息、用戶名、密碼、數(shù)據(jù)表名、數(shù)據(jù)表中的分區(qū)名等。其中,所述數(shù)據(jù)表名用于 指示數(shù)據(jù)所在的數(shù)據(jù)表;所述用戶名、密碼用于訪問該數(shù)據(jù)表;所述數(shù)據(jù)表中的分區(qū)名用 于指示數(shù)據(jù)在數(shù)據(jù)表中的具體分區(qū)。
[0079] 例如圖1C所示,當(dāng)目標(biāo)裝置為運(yùn)行普通文件系統(tǒng)的裝置時(shí),所述第一數(shù)據(jù)的存儲(chǔ) 位置信息可以包括:文件名、文件路徑、文件編碼、壓縮類型、文件類型、單一文件記錄上限、 文件名開始序號(hào)等信息。
[0080] 其中,所配置的第一數(shù)據(jù)的存儲(chǔ)位置信息中的各種信息可以是固定值,例如圖1C 中所示,文件名為TW_SC_USER_L0ST. dat,文件路徑為/output/test08,文件編碼為UTF-8, 壓縮類型為未壓縮,文件類型為列分隔符文件等等;或者,所配置的第一數(shù)據(jù)的存儲(chǔ)位置信 息中也可以包括變量信息,例如當(dāng)目標(biāo)裝置為運(yùn)行普通文件系統(tǒng)的裝置,則所述文件路徑、 文件名等即可以設(shè)置為變量信息;當(dāng)目標(biāo)裝置為運(yùn)行數(shù)據(jù)庫的裝置,則所述數(shù)據(jù)表名、用戶 名、密碼、數(shù)據(jù)表中的分區(qū)名等可以設(shè)置為變量。這里的變量信息的具體取值可以在數(shù)據(jù)集 成裝置將所述第一數(shù)據(jù)加載至目標(biāo)裝置時(shí)確定,可以由人為設(shè)置具體的變量信息,也可以 由目標(biāo)裝置為第一數(shù)據(jù)分配具體的存儲(chǔ)位置,根據(jù)該存儲(chǔ)位置確定所述變量信息。
[0081] 當(dāng)數(shù)據(jù)集成裝置生成的第一數(shù)據(jù)用于作為數(shù)據(jù)挖掘裝置所需處理的源數(shù)據(jù)時(shí),第 一數(shù)據(jù)可以具體為寬表數(shù)據(jù)。這里的寬表是指數(shù)據(jù)挖掘裝置所需處理的文件,一般的,一個(gè) 寬表中所包含的字段較多,甚至可以達(dá)到幾十甚至上百個(gè)字段。
[0082] 步驟502 :數(shù)據(jù)挖掘裝置確定進(jìn)行第二元數(shù)據(jù)信息的配置時(shí),向數(shù)據(jù)集成裝置請(qǐng) 求數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息。
[0083] 其中,數(shù)據(jù)挖掘裝置確定進(jìn)行第二元數(shù)據(jù)信息的配置可以包括:數(shù)據(jù)挖掘裝置接 收到信息配置人員對(duì)于第二元數(shù)據(jù)信息配置的觸發(fā)消息。其中,可以由數(shù)據(jù)挖掘裝置在系 統(tǒng)界面上提供關(guān)于第二元數(shù)據(jù)信息的配置按鈕,當(dāng)數(shù)據(jù)挖掘裝置檢測(cè)到信息配置人員單擊 或者雙擊等選中該配置按鈕的操作時(shí),表明數(shù)據(jù)挖掘裝置接收到所述觸發(fā)消息。
[0084] 步驟503 :數(shù)據(jù)集成裝置將本地的第一元數(shù)據(jù)信息發(fā)送給數(shù)據(jù)挖掘裝置,數(shù)據(jù)挖 掘裝置接收數(shù)據(jù)集成裝置發(fā)送的第一元數(shù)據(jù)信息。
[0085] 其中,第一元數(shù)據(jù)信息也可以設(shè)置版本,為不同的版本設(shè)置不同的版本號(hào)或者按 照不同版本所生成的文件設(shè)置不同的文件名稱,則數(shù)據(jù)挖掘裝置可以在請(qǐng)求第一元數(shù)據(jù)信 息時(shí)攜帶第一元數(shù)據(jù)信息的版本號(hào)或者對(duì)應(yīng)的文件名稱,以便數(shù)據(jù)集成裝置按照版本號(hào)或 者文件名稱確定數(shù)據(jù)挖掘裝置所請(qǐng)求的第一元數(shù)據(jù)信息。
[0086] 例如,假設(shè)版本1的第一元數(shù)據(jù)信息存儲(chǔ)為文件1,版本2的第一元數(shù)據(jù)信息存儲(chǔ) 為文件2,則數(shù)據(jù)挖掘裝置可以在請(qǐng)求第一元數(shù)據(jù)信息時(shí)攜帶版本2對(duì)應(yīng)的文件名稱一文 件2來指示數(shù)據(jù)挖掘裝置所請(qǐng)求的第一元數(shù)據(jù)信息。
[0087] 步驟504 :數(shù)據(jù)挖掘裝置根據(jù)接收到的第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置本地第 二元數(shù)據(jù)信息的配置。
[0088] 具體的:數(shù)據(jù)挖掘裝置根據(jù)第一數(shù)據(jù)的字段定義信息確定第二數(shù)據(jù)的字段定義信 息;數(shù)據(jù)挖掘裝置將第一數(shù)據(jù)的存儲(chǔ)位置信息確定為第二數(shù)據(jù)的地址獲取信息;其中,所 述第二數(shù)據(jù)是所述數(shù)據(jù)挖掘裝置的源數(shù)據(jù)。如果第一數(shù)據(jù)的存儲(chǔ)位置信息中每一信息均設(shè) 置為固定值,則第二數(shù)據(jù)的地址獲取信息中每一信息也為固定值;如果第一數(shù)據(jù)的存儲(chǔ)位 置信息中包括變量信息時(shí),則第二數(shù)據(jù)的地址獲取信息中也包括變量信息。
[0089] 其中,數(shù)據(jù)挖掘裝置根據(jù)所述第一數(shù)據(jù)的字段定義信息確定第二數(shù)據(jù)的字段定義 信息的實(shí)現(xiàn)這里不限定。例如,可以直接將所述第一數(shù)據(jù)的字段定義信息確定為第二數(shù)據(jù) 的字段定義信息;或者,數(shù)據(jù)挖掘裝置也可以將確定第一數(shù)據(jù)的字段定義信息顯示給信息 配置人員,由信息配置人員對(duì)所述第一數(shù)據(jù)的字段定義信息進(jìn)行調(diào)整后,將信息配置人員 調(diào)整后的字段定義信息作為第二數(shù)據(jù)的字段定義信息。例如,假設(shè)第一數(shù)據(jù)的字段定義信 息如表1所示,則如果直接將所述第一數(shù)據(jù)的字段定義信息確定為第二數(shù)據(jù)的字段定義信 息,則第二數(shù)據(jù)的字段定義信息也如表1所示;而如果信息配置人員刪除了關(guān)于格式的字 段定義信息,則第二數(shù)據(jù)的字段定義信息如表2所示。
[0090] 表 1
[0091]
[0092] 表 2
【權(quán)利要求】
1. 一種數(shù)據(jù)交互方法,其特征在于,包括: 數(shù)據(jù)挖掘裝置確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成裝置中的第 一兀數(shù)據(jù)信息; 所述數(shù)據(jù)挖掘裝置接收所述數(shù)據(jù)集成裝置發(fā)送的所述第一元數(shù)據(jù)信息; 根據(jù)接收到的所述第一元數(shù)據(jù)信息,所述數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元數(shù)據(jù)信息的 配置。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一元數(shù)據(jù)信息包括:第一數(shù)據(jù)的字 段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝置生成的數(shù)據(jù); 所述根據(jù)接收到的所述第一元數(shù)據(jù)信息,數(shù)據(jù)挖掘裝置進(jìn)行本地的第二元數(shù)據(jù)信息的 配置,具體包括: 所述數(shù)據(jù)挖掘裝置將所述第一數(shù)據(jù)的字段定義信息作為第二數(shù)據(jù)的字段定義信息; 所述數(shù)據(jù)挖掘裝置將所述第一數(shù)據(jù)的存儲(chǔ)位置信息確定為所述第二數(shù)據(jù)的地址獲取 信息,其中所述第二數(shù)據(jù)是所述數(shù)據(jù)挖掘裝置的源數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 所述數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘時(shí),根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息獲 取第二數(shù)據(jù); 所述數(shù)據(jù)挖掘裝置根據(jù)獲取到的第二數(shù)據(jù)以及所述第二數(shù)據(jù)的字段定義信息進(jìn)行數(shù) 據(jù)挖掘處理。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第二數(shù)據(jù)的地址獲取信息中包含變 量信息,所述數(shù)據(jù)挖掘裝置根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息獲取第二數(shù)據(jù),具體 包括:所述數(shù)據(jù)挖掘裝置從所述數(shù)據(jù)集成裝置獲取所述變量信息的具體取值,得到所述第 二數(shù)據(jù)的具體地址獲取信息;所述數(shù)據(jù)挖掘裝置從所述第二數(shù)據(jù)的具體地址獲取信息指示 的地址獲取第二數(shù)據(jù); 或者,所述第二數(shù)據(jù)的地址獲取信息中每一信息均設(shè)置為固定值,所述數(shù)據(jù)挖掘裝置 根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息獲取第二數(shù)據(jù),具體包括:所述數(shù)據(jù)挖掘裝置從 所述第二數(shù)據(jù)的地址獲取信息指示的地址獲取第二數(shù)據(jù)。
5. 根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述數(shù)據(jù)挖掘裝置確定進(jìn)行數(shù)據(jù)挖掘 包括: 所述數(shù)據(jù)挖掘裝置確定到達(dá)預(yù)設(shè)挖掘時(shí)間時(shí),確定進(jìn)行數(shù)據(jù)挖掘; 或者,所述數(shù)據(jù)挖掘裝置接收到所述數(shù)據(jù)集成裝置發(fā)送的挖掘流程觸發(fā)消息時(shí),確定 進(jìn)行數(shù)據(jù)挖掘,所述挖掘流程觸發(fā)消息在數(shù)據(jù)集成裝置完成第一數(shù)據(jù)的裝載后發(fā)送。
6. -種數(shù)據(jù)交互方法,其特征在于,包括: 數(shù)據(jù)集成裝置接收數(shù)據(jù)挖掘裝置對(duì)于所述數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息的請(qǐng) 求; 所述數(shù)據(jù)集成裝置向所述數(shù)據(jù)挖掘裝置發(fā)送所述第一元數(shù)據(jù)信息,以便所述數(shù)據(jù)挖掘 裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中第二元數(shù)據(jù)信息的配置。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述第一元數(shù)據(jù)信息包括:第一數(shù)據(jù)的字 段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝置生成的數(shù)據(jù);且所 述第一數(shù)據(jù)的存儲(chǔ)位置信息中包含變量信息;該方法還包括: 所述數(shù)據(jù)集成裝置將第一數(shù)據(jù)加載后確定的所述存儲(chǔ)位置信息中變量信息的具體取 值發(fā)送給數(shù)據(jù)挖掘裝置。
8. -種數(shù)據(jù)挖掘裝置,其特征在于,包括: 第一發(fā)送單元,用于確定進(jìn)行元數(shù)據(jù)信息配置時(shí),向數(shù)據(jù)集成裝置請(qǐng)求數(shù)據(jù)集成裝置 中的第一元數(shù)據(jù)信息; 第一接收單元,用于接收所述數(shù)據(jù)集成裝置基于第一發(fā)送單元的請(qǐng)求發(fā)送的所述第一 元數(shù)據(jù)信息; 配置單元,用于根據(jù)第一接收單元接收到的所述第一元數(shù)據(jù)信息,進(jìn)行本地第二元數(shù) 據(jù)信息的配置。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一元數(shù)據(jù)信息包括:第一數(shù)據(jù)的字 段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝置生成的數(shù)據(jù);所述 配置單元具體用于:將所述第一數(shù)據(jù)的字段定義信息確定為第二數(shù)據(jù)的字段定義信息;將 所述第一數(shù)據(jù)的存儲(chǔ)位置信息確定為所述第二數(shù)據(jù)的地址獲取信息;所述第二數(shù)據(jù)是所述 數(shù)據(jù)挖掘裝置的源數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 獲取單元,用于確定進(jìn)行數(shù)據(jù)挖掘時(shí),根據(jù)確定的所述第二數(shù)據(jù)的地址獲取信息獲取 第二數(shù)據(jù); 挖掘單元,用于根據(jù)獲取單元獲取到的第二數(shù)據(jù)以及所述第二數(shù)據(jù)的字段定義信息進(jìn) 行數(shù)據(jù)挖掘處理。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第二數(shù)據(jù)的地址獲取信息中包含 變量信息,獲取單元具體用于:從數(shù)據(jù)集成裝置獲取所述變量信息的具體取值,得到第二數(shù) 據(jù)的具體地址獲取信息;從所述第二數(shù)據(jù)的具體地址獲取信息指示的地址獲取第二數(shù)據(jù); 或者,所述第二數(shù)據(jù)的地址獲取信息中每一信息均設(shè)置為固定值,獲取單元具體用于: 從所述第二數(shù)據(jù)的地址獲取信息指示的地址獲取第二數(shù)據(jù)。
12. 根據(jù)權(quán)利要求10或11所述的裝置,其特征在于,還包括: 確定單元,用于確定到達(dá)預(yù)設(shè)挖掘時(shí)間時(shí),確定進(jìn)行數(shù)據(jù)挖掘;或者,接收到數(shù)據(jù)集成 裝置發(fā)送的挖掘流程觸發(fā)消息時(shí),確定進(jìn)行數(shù)據(jù)挖掘,所述挖掘流程觸發(fā)消息在數(shù)據(jù)集成 裝置完成第一數(shù)據(jù)的裝載后發(fā)送。
13. -種數(shù)據(jù)集成裝置,其特征在于,包括: 第二接收單元,用于接收數(shù)據(jù)挖掘裝置對(duì)于數(shù)據(jù)集成裝置中的第一元數(shù)據(jù)信息的請(qǐng) 求; 第二發(fā)送單元,用于向所述數(shù)據(jù)挖掘裝置發(fā)送第二接收單元接收到的請(qǐng)求所對(duì)應(yīng)的所 述第一元數(shù)據(jù)信息,以便數(shù)據(jù)挖掘裝置根據(jù)所述第一元數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘裝置中的第 二元數(shù)據(jù)信息的配置。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第一元數(shù)據(jù)信息包括:第一數(shù)據(jù)的 字段定義信息、第一數(shù)據(jù)的存儲(chǔ)位置信息;所述第一數(shù)據(jù)是數(shù)據(jù)集成裝置生成的數(shù)據(jù);且 所述第一數(shù)據(jù)的存儲(chǔ)位置信息中包含變量信息;所述第二發(fā)送單元還用于:將第一數(shù)據(jù)加 載后確定的所述存儲(chǔ)位置信息中變量信息的具體取值發(fā)送給數(shù)據(jù)挖掘裝置。
【文檔編號(hào)】G06F17/30GK104253847SQ201310270030
【公開日】2014年12月31日 申請(qǐng)日期:2013年6月28日 優(yōu)先權(quán)日:2013年6月28日
【發(fā)明者】黃紅莉, 劉詩凱 申請(qǐng)人:華為技術(shù)有限公司