專利名稱:在數(shù)據(jù)管理系統(tǒng)中映射數(shù)據(jù)集的實(shí)例的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在數(shù)據(jù)管理系統(tǒng)中映射數(shù)據(jù)集的實(shí)例。
背景技術(shù):
現(xiàn)代數(shù)據(jù)管理系統(tǒng)可以包括代表該系統(tǒng)的不同方面的眾多組件。不那么復(fù)雜的系統(tǒng)常常允許數(shù)據(jù)被直接查看,而無需用于精確視覺化目的的另外的處理。較為復(fù)雜的系統(tǒng)會(huì)要求另外的機(jī)制用于有目的地查看數(shù)據(jù)。由許多組件組成的復(fù)雜的數(shù)據(jù)管理系統(tǒng)可以按許多不同的形式存儲(chǔ)數(shù)據(jù)并且按許多不同的方式處理數(shù)據(jù)。這些存儲(chǔ)和處理的形式多數(shù)可以按不顯然的方式而彼此相關(guān),而沒有一種分析該關(guān)系的辦法。
發(fā)明內(nèi)容
在一個(gè)大體的方面,一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)以由計(jì)算機(jī)系統(tǒng)使用的方法包括通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;提供用戶接口以接收在給定集合的至少兩個(gè)數(shù)據(jù)集之間的映射;以及與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。在另一個(gè)大體的方面,一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的系統(tǒng)包括 數(shù)據(jù)存儲(chǔ)系統(tǒng),通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,存儲(chǔ)包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;映射器,其識(shí)別與數(shù)據(jù)流圖表關(guān)聯(lián)的一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;用戶接口,其接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射; 以及與數(shù)據(jù)流圖表關(guān)聯(lián)來在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)該映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。在另一個(gè)大體的方面,一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的系統(tǒng)包括 一部件,用于通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;用于識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合的部件,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;用于提供用戶接口以接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射的部件;和用于與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射的部件,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。在另一個(gè)大體的方面,一種存儲(chǔ)用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)程序包括指令,用于促使計(jì)算機(jī)來通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;提供用戶接口以接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射;以及與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。各個(gè)方面能夠包括以下特征的一個(gè)或多個(gè)。在用戶接口上呈現(xiàn)該集合。在用戶接口上呈現(xiàn)根據(jù)對(duì)一個(gè)或多個(gè)準(zhǔn)則的匹配的數(shù)量而排序(order)的可能的映射的列表??赡艿挠成涞牧斜戆ê芸赡苁窃诹斜碇信判蜉^高的給定數(shù)據(jù)集的實(shí)例的候選
者ο準(zhǔn)則之一內(nèi)置于映射器中,該映射器識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合。準(zhǔn)則之一是從用戶接口接收的。至少一個(gè)可能的映射指示表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件,并且至少一個(gè)可能的映射指示不表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件。包括多個(gè)組件的數(shù)據(jù)流圖表的子圖表表示數(shù)據(jù)集。該子圖表包括數(shù)據(jù)組件。該子圖表包括可執(zhí)行組件。識(shí)別數(shù)據(jù)集的一個(gè)或多個(gè)集合包括使用試探法以確定在給定集合中的數(shù)據(jù)集是否具有與另一數(shù)據(jù)集共同的一個(gè)或多個(gè)特征。該特征包括在數(shù)據(jù)集的表示中字節(jié)和記錄的數(shù)量。該特征包括數(shù)據(jù)集的表示的名稱。該特征包括數(shù)據(jù)集的表示的創(chuàng)建的日期。該特征包括數(shù)據(jù)集的表示的數(shù)據(jù)格式。該映射的至少一個(gè)數(shù)據(jù)集屬于對(duì)數(shù)據(jù)管理系統(tǒng)已知的數(shù)據(jù)集的組。在給定集合中的數(shù)據(jù)集之間提供格式映射。該映射包括標(biāo)識(shí)符,其指向保持?jǐn)?shù)據(jù)集的蹤跡的數(shù)據(jù)管理系統(tǒng)中的記錄。基于在數(shù)據(jù)集中的改變更新該映射。本發(fā)明的各個(gè)方面能夠包括以下一個(gè)或多個(gè)優(yōu)點(diǎn)。通過根據(jù)版本識(shí)別準(zhǔn)則識(shí)別數(shù)據(jù)集的集合,能夠比純粹手動(dòng)操作更有效地實(shí)現(xiàn)在數(shù)據(jù)集的兩個(gè)實(shí)例之間的匹配。另外,通過提供用戶接口以接收在至少兩個(gè)數(shù)據(jù)集之間的映射,該映射將比該系統(tǒng)是純粹自動(dòng)的更精確。通過以下描述以及權(quán)利要求書,本發(fā)明的其它特征和優(yōu)點(diǎn)將變得明了。
圖1是數(shù)據(jù)流圖表。圖2是數(shù)據(jù)集映射器及其相關(guān)組件的概圖。圖3A-3E是由數(shù)據(jù)集映射器處理的不同情況的圖。圖4是數(shù)據(jù)集映射器操作的流程圖。圖5是數(shù)據(jù)集連接映射。圖6是數(shù)據(jù)集格式映射。
具體實(shí)施例方式1 概述數(shù)據(jù)處理元素可以是圖表的形式?;趫D表的計(jì)算使用“數(shù)據(jù)流圖表”實(shí)現(xiàn),該“數(shù)據(jù)流圖表”由指向圖表示,該指向圖具有在圖表中表示組件(對(duì)應(yīng)于存儲(chǔ)的數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)組件或?qū)?yīng)于可執(zhí)行過程的計(jì)算組件)的頂點(diǎn),和在圖表中表示組件之間的數(shù)據(jù)的流的指向鏈路或“邊緣”。數(shù)據(jù)流圖表(也簡(jiǎn)單叫作“圖表”)是模塊化實(shí)體。每個(gè)圖表可以由一個(gè)或多個(gè)其他圖表組成,并且特別的圖表可以是較大圖表中的組件。圖形開發(fā)環(huán)境(GDE)提供用戶接口用于規(guī)定可執(zhí)行圖表和定義關(guān)于圖表組件的參數(shù)。參考圖1,數(shù)據(jù)流圖表101的示例包括輸入組件102,提供要由數(shù)據(jù)流圖表101的可執(zhí)行組件104a-104j處理的數(shù)據(jù)積聚集(collection)。例如,數(shù)據(jù)集102可以包括與數(shù)據(jù)庫系統(tǒng)關(guān)聯(lián)的數(shù)據(jù)記錄或與交易處理系統(tǒng)關(guān)聯(lián)的交易。每個(gè)可執(zhí)行組件與由整個(gè)數(shù)據(jù)流圖表101定義的計(jì)算的一部分關(guān)聯(lián)。工作要素(如,來自數(shù)據(jù)積聚集的各個(gè)數(shù)據(jù)記錄)進(jìn)入組件的一個(gè)或多個(gè)輸入端口,而輸出工作要素(它們?cè)谝恍┣闆r中是輸入工作要素,或輸入工作要素的處理后的版本)一般離開該組件的一個(gè)或多個(gè)輸出端口。在圖表101中, 來自組件104e、104g和104j的輸出工作要素被存儲(chǔ)在輸出數(shù)據(jù)組件10加-102(3中。數(shù)據(jù)集是表示特定的數(shù)據(jù)積聚集的對(duì)象(如,存儲(chǔ)在面向?qū)ο蟮臄?shù)據(jù)庫中)。在數(shù)據(jù)流圖表的系統(tǒng)的環(huán)境中,組件能夠表示數(shù)據(jù)集。在這些情況中,圖表可以按一種或多種方式與表示數(shù)據(jù)集的組件(或簡(jiǎn)稱“數(shù)據(jù)集組件”)交互作用。數(shù)據(jù)集組件包括用于訪問由給定數(shù)據(jù)集表示的物理數(shù)據(jù)的指令,從而圖表可以使用數(shù)據(jù)集組件接受來自數(shù)據(jù)集的輸入,使用數(shù)據(jù)集組件提供輸出到數(shù)據(jù)集,并且在中間步驟中使用數(shù)據(jù)集組件處理數(shù)據(jù)集的數(shù)據(jù)。數(shù)據(jù)集組件可以包括與包括數(shù)據(jù)集對(duì)象的實(shí)例的給定數(shù)據(jù)集對(duì)象相關(guān)的各種類型的信息。此類系統(tǒng)可以具有多打、成千上百的圖表和相關(guān)的數(shù)據(jù)集組件。隨著此類系統(tǒng)的復(fù)雜性增加,不同圖表和數(shù)據(jù)集組件之間的關(guān)系變得更難以管理。在系統(tǒng)中一個(gè)以上的數(shù)據(jù)集組件可以表示相同的數(shù)據(jù)源并且每個(gè)此類數(shù)據(jù)集組件可以與不同圖表、圖表子集或可執(zhí)行組件關(guān)聯(lián)。例如,在一個(gè)可能的情況中,單個(gè)數(shù)據(jù)集可以存儲(chǔ)在與數(shù)據(jù)管理系統(tǒng)關(guān)聯(lián)的一個(gè)以上的位置中。在該情況中,兩個(gè)或多個(gè)數(shù)據(jù)源包含該相同數(shù)據(jù)的相似或相同的版本。在該系統(tǒng)中的兩個(gè)圖表可能處理該單個(gè)數(shù)據(jù)集,但是每個(gè)圖表從不同數(shù)據(jù)文件、不同數(shù)據(jù)庫表、或另一類型的數(shù)據(jù)集組件讀取和將每個(gè)圖表寫入不同數(shù)據(jù)文件、不同數(shù)據(jù)庫表、或另一類型的數(shù)據(jù)集組件。
在相似的情況中,由給定數(shù)據(jù)集表示的數(shù)據(jù)(例如數(shù)據(jù)文件)可以不僅存儲(chǔ)在一個(gè)以上的位置中,而且使用不同的數(shù)據(jù)存儲(chǔ)格式來解釋。通過以上示例,兩個(gè)圖表可以操作于包含相同數(shù)據(jù)僅在格式上不同的兩個(gè)單獨(dú)的數(shù)據(jù)文件。每個(gè)數(shù)據(jù)文件可以具有不同的數(shù)據(jù)類型的排列,盡管包含相同數(shù)據(jù)的實(shí)例。在替換的情況中,一個(gè)圖表可以操作于包含該數(shù)據(jù)集的實(shí)例的數(shù)據(jù)文件,而另一圖表可以操作于也包含該數(shù)據(jù)集的實(shí)例的數(shù)據(jù)庫表。在此種情況中,數(shù)據(jù)文件和數(shù)據(jù)庫表將通常具有兩個(gè)不同的數(shù)據(jù)格式。在另一情況中,數(shù)據(jù)管理系統(tǒng)可以按不同方式訪問不同版本的相同數(shù)據(jù)集的每個(gè)。一個(gè)圖表可以直接訪問數(shù)據(jù)集的實(shí)例,諸如通過經(jīng)過標(biāo)準(zhǔn)的文件輸入/輸出機(jī)制讀取數(shù)據(jù)文件。另一圖表可以通過查詢外部源(諸如經(jīng)由網(wǎng)絡(luò)可用的數(shù)據(jù)倉(cāng)庫)檢索文件。圖表也可以訪問經(jīng)過類似的外部查詢(諸如對(duì)聯(lián)網(wǎng)數(shù)據(jù)庫的查詢)檢索的數(shù)據(jù)庫表。數(shù)據(jù)管理系統(tǒng)也可以按不同方式引用(reference)相同數(shù)據(jù)集每個(gè)的不同實(shí)例。 例如,圖表能夠根據(jù)參數(shù)訪問不同的數(shù)據(jù)位置。此類參數(shù)可以隨時(shí)間指向任意數(shù)量的數(shù)據(jù)位置。如果參數(shù)在圖表的執(zhí)行之間改變,則操作多次的圖表可以在不同場(chǎng)合中訪問不同的位置。在一些情況中,在圖表中數(shù)據(jù)集的表示可以不是單個(gè)組件,而是組件的積聚集,諸如圖表中的“子圖表”組件,其自身實(shí)現(xiàn)為具有多個(gè)組件的圖表。該積聚集可以包括一個(gè)或多個(gè)數(shù)據(jù)集組件,并且也可以包括一個(gè)或多個(gè)可執(zhí)行組件。所有這些情況可以潛在地對(duì)顯現(xiàn)和分析由數(shù)據(jù)管理系統(tǒng)處理的數(shù)據(jù)造成問題。如果用戶要求與給定數(shù)據(jù)集交互作用的各組件的統(tǒng)一查看,則能夠使用各種辦法來使可能存在的數(shù)據(jù)集的不同實(shí)例協(xié)調(diào)(reconcile)。一個(gè)辦法是自動(dòng)機(jī)制,其識(shí)別相同數(shù)據(jù)集的多個(gè)實(shí)例并且創(chuàng)建在它們之間的連接??墒?,有些自動(dòng)機(jī)制具有缺點(diǎn),諸如以下的三種缺點(diǎn)。第一,該機(jī)制會(huì)要求數(shù)據(jù)集的每個(gè)實(shí)例按特定方式存儲(chǔ),諸如按照統(tǒng)一的命名方案和目錄結(jié)構(gòu)。這給該機(jī)制提供一種方法以識(shí)別和定位與數(shù)據(jù)管理系統(tǒng)關(guān)聯(lián)的存儲(chǔ)系統(tǒng)中的每個(gè)??墒?,這種安排限制了數(shù)據(jù)管理系統(tǒng)的靈活性并且可能對(duì)該系統(tǒng)的某些使用過于限制。第二,在操作的幾個(gè)情況中,該機(jī)制可能無法恰當(dāng)識(shí)別相同數(shù)據(jù)集的實(shí)例以及形成正確的連接。例如,如果使用外部引用實(shí)體來訪問數(shù)據(jù)集,則這很有可能,并且該自動(dòng)機(jī)制未能訪問該實(shí)體。類似地,如果組件根據(jù)參數(shù)列表中的獨(dú)立參數(shù)訪問數(shù)據(jù)集,則這很有可能,并且該機(jī)制沒有辦法訪問或解釋該參數(shù)列表。另外,如果數(shù)據(jù)集通過由一個(gè)或多個(gè)數(shù)據(jù)集組件和可執(zhí)行組件組成的復(fù)雜實(shí)體(諸如子圖表)表示,則這很有可能。自動(dòng)機(jī)制可能無法辨別組件的什么特定組合表示特定的數(shù)據(jù)集。第三,該機(jī)制會(huì)形成在數(shù)據(jù)集的實(shí)例之間的冗余或不必要的連接。例如,由數(shù)據(jù)管理系統(tǒng)處理的一些數(shù)據(jù)集可以表示額外的數(shù)據(jù),諸如錯(cuò)誤內(nèi)容日志。在這些數(shù)據(jù)集的實(shí)例之間的任何鏈接是不必要的。另外,由數(shù)據(jù)管理系統(tǒng)處理的一些數(shù)據(jù)集實(shí)例可能是冗余實(shí)例,諸如高速緩存數(shù)據(jù)或數(shù)據(jù)的其他臨時(shí)副本。連接這種類型的數(shù)據(jù)的鏈接很快變?yōu)檫^時(shí)并且使檢查該數(shù)據(jù)管理系統(tǒng)的用戶搞糊涂。替換辦法是這樣的系統(tǒng),其中用戶經(jīng)由用戶接口手動(dòng)地統(tǒng)一相同數(shù)據(jù)集的實(shí)例。 用戶不太可能錯(cuò)過在數(shù)據(jù)集的實(shí)例之間的本質(zhì)鏈接,并且也不太可能產(chǎn)生在數(shù)據(jù)集的實(shí)例之間的冗余或不必要的鏈接??墒牵绻摂?shù)據(jù)管理系統(tǒng)具有數(shù)百或數(shù)千的組件,則用戶手動(dòng)產(chǎn)生必須的鏈接所需的時(shí)間量高得驚人得大。在部分自動(dòng)的辦法中,數(shù)據(jù)集映射器用來提供一些自動(dòng)分析,并且按照對(duì)大且/ 或復(fù)雜系統(tǒng)的用戶不高得驚人的方法使能用戶的一些交互作用。圖2是示出在相關(guān)的主要組件之間的相互關(guān)系的示范數(shù)據(jù)集映射器100的一個(gè)實(shí)施例的框圖。數(shù)據(jù)集映射器100能夠分析一個(gè)或多個(gè)圖表180、180a、180b、180c的集合。 每個(gè)圖表與一個(gè)或多個(gè)數(shù)據(jù)集組件182、182a、182b關(guān)聯(lián),其中每個(gè)數(shù)據(jù)集組件可以對(duì)應(yīng)于數(shù)據(jù)文件、數(shù)據(jù)庫表、子圖表或表示數(shù)據(jù)集的另一類型的組件。映射器100分析各圖表,目的是在包含相同數(shù)據(jù)集1 86的實(shí)例的數(shù)據(jù)集組件之間形成鏈接。映射器100根據(jù)內(nèi)置規(guī)則110、用戶定義規(guī)則120和試探法130的組合處理每個(gè)數(shù)據(jù)集組件以確定數(shù)據(jù)集組件182 是否可以包含表示數(shù)據(jù)管理系統(tǒng)170已知的數(shù)據(jù)源176、176a、176b的幾個(gè)數(shù)據(jù)集之一的實(shí)例。映射器100將該信息傳遞給用戶接口 160,其允許用戶162選擇對(duì)應(yīng)于數(shù)據(jù)集組件182 的適當(dāng)?shù)臄?shù)據(jù)集(如果有的話)。例如,用戶接口 160呈現(xiàn)基于匹配于一個(gè)或多個(gè)準(zhǔn)則(用于識(shí)別單個(gè)數(shù)據(jù)集的不同的版本或?qū)嵗?的可能的候選映射的列表。下面將更詳細(xì)地描述此類準(zhǔn)則的示例,其包括基于內(nèi)置規(guī)則、用戶定義規(guī)則和試探法的準(zhǔn)則。該列表可以根據(jù)對(duì)一個(gè)或多個(gè)準(zhǔn)則的匹配的量化來排序(如,更有可能成為給定數(shù)據(jù)集的實(shí)例的候選者在列表中排序較高)。映射器100然后產(chǎn)生數(shù)據(jù)集鏈接映射140,其指示數(shù)據(jù)集組件182包含表示數(shù)據(jù)源176的數(shù)據(jù)集的實(shí)例。另外,數(shù)據(jù)集組件182可以具有不同于對(duì)應(yīng)鏈接的數(shù)據(jù)源176的格式174的數(shù)據(jù)格式184。取決于數(shù)據(jù)管理系統(tǒng)170的要求,用戶可以選擇為數(shù)據(jù)集的全部實(shí)例建立單個(gè)數(shù)據(jù)格式。該系統(tǒng)存儲(chǔ)關(guān)于每個(gè)數(shù)據(jù)源176、176a、176b的格式174、17 ,174b。替換地,用戶可以選擇產(chǎn)生在數(shù)據(jù)集組件182的格式184和對(duì)應(yīng)數(shù)據(jù)源176的建立格式174之間的可選的映射142。可選的數(shù)據(jù)格式映射142允許系統(tǒng)170保持關(guān)于數(shù)據(jù)集的每個(gè)實(shí)例的數(shù)據(jù)類型的信息。映射器100也使得用戶能夠指示在可執(zhí)行組件和單個(gè)數(shù)據(jù)集組件(它可以不具有其他的連接)之間的鏈接。例如,數(shù)據(jù)集組件可以對(duì)應(yīng)于僅具有一個(gè)讀取器的源數(shù)據(jù)集或僅具有一個(gè)寫入器的目標(biāo)數(shù)據(jù)集。如果數(shù)據(jù)集對(duì)象已經(jīng)存在于系統(tǒng)中并且具有其他相關(guān)元數(shù)據(jù),諸如正確記錄格式、文件、數(shù)據(jù)簡(jiǎn)檔等,該鏈接使能數(shù)據(jù)集組件映射到正確的數(shù)據(jù)集。2映射過程映射器100能夠處理在復(fù)雜的數(shù)據(jù)管理系統(tǒng)中出現(xiàn)的共同情況。在第一情況中, 如圖3A所示,一個(gè)圖表210提供數(shù)據(jù)集組件212作為輸出,而另一圖表220接受一不同的數(shù)據(jù)集組件222作為輸入。每個(gè)數(shù)據(jù)集組件包含相同數(shù)據(jù)集216的實(shí)例。該數(shù)據(jù)集可以和表示數(shù)據(jù)管理系統(tǒng)已知的數(shù)據(jù)源176的數(shù)據(jù)集相同。另外,第一數(shù)據(jù)集組件212具有可以和屬于第二數(shù)據(jù)集組件222的格式相同的數(shù)據(jù)格式214,或,替換地,第二組件可以具有不同的格式224。映射器100能夠識(shí)別第二數(shù)據(jù)集組件222作為由第一數(shù)據(jù)集組件212表示的數(shù)據(jù)集216的實(shí)例并且產(chǎn)生適合的鏈接映射140。在第二情況中,如圖:3B所示,圖表230使用對(duì)外部源239的外部引用238與外部數(shù)據(jù)集組件232關(guān)聯(lián)。外部數(shù)據(jù)集組件232具有數(shù)據(jù)格式234并且是數(shù)據(jù)集236的實(shí)例。 如第一情況一樣,由外部數(shù)據(jù)集組件表示的數(shù)據(jù)集236可以是表示數(shù)據(jù)管理系統(tǒng)170已知的數(shù)據(jù)源176的數(shù)據(jù)集。映射器100能夠識(shí)別該外部數(shù)據(jù)集組件232作為另一數(shù)據(jù)集的實(shí)例并且產(chǎn)生適合的鏈接映射140。在第三情況中,如圖3C所示,圖表240使用參數(shù)列表M7的參數(shù)238與數(shù)據(jù)集組件242關(guān)聯(lián)。引用的數(shù)據(jù)集組件242具有數(shù)據(jù)格式244并且是數(shù)據(jù)集246的實(shí)例。如第一和第二情況一樣,由引用的數(shù)據(jù)集組件表示的數(shù)據(jù)集246可以是表示數(shù)據(jù)管理系統(tǒng)170已知的數(shù)據(jù)源176的數(shù)據(jù)集。映射器100能夠識(shí)別該引用的數(shù)據(jù)集組件242作為另一數(shù)據(jù)集的實(shí)例并且產(chǎn)生適合的鏈接映射140。在第四情況中,如圖3D所示,圖表250使用對(duì)外部源259的外部引用258與外部組件251關(guān)聯(lián)。外部組件251不是數(shù)據(jù)集組件,而是另一類型的組件,諸如可執(zhí)行組件。映射器100能夠識(shí)別該可執(zhí)行組件251為不適用于數(shù)據(jù)集鏈接映射過程。在第五情況中,如圖3E所示,圖表260與自身由幾個(gè)組件組成的子圖表組件263 關(guān)聯(lián)。這些組件包括至少一個(gè)數(shù)據(jù)集組件沈2,以及在該示例中,包括一個(gè)或多個(gè)可執(zhí)行組件沈13、26113、沈1(3。在這種情況下,作為單個(gè)實(shí)體的子圖表263表示至少一個(gè)數(shù)據(jù)集。其他示范的子圖表可以包括多個(gè)數(shù)據(jù)集組件,和任何數(shù)量(包括零個(gè))的可執(zhí)行組件。另外, 該子圖表263具有多個(gè)輸出^^a、265b。每個(gè)輸出能夠提供數(shù)據(jù)集的不同實(shí)例到接收該輸出的組件。另一示范的子圖表還可以具有任何數(shù)量的輸入。再一示范的子圖表可以不具有對(duì)應(yīng)于各個(gè)數(shù)據(jù)集的輸入或輸出。對(duì)于子圖表確實(shí)表示至少一個(gè)數(shù)據(jù)集的情況,映射器 100能夠識(shí)別該子圖表263作為至少一個(gè)數(shù)據(jù)集的實(shí)例并且產(chǎn)生至少一個(gè)適合的鏈接映射 140。在圖4中示出映射器的操作序列的示例。在步驟302中,映射器首先識(shí)別在與圖表關(guān)聯(lián)的要素中哪個(gè)要素表示數(shù)據(jù)集。一般,圖表將具有一個(gè)或多個(gè)輸入和輸出,并且每個(gè)輸入和每個(gè)輸出可以是數(shù)據(jù)集的實(shí)例。每個(gè)圖表也可以在一些中間步驟中處理數(shù)據(jù)集的實(shí)例。結(jié)果,每個(gè)圖表可以連接到能夠作為數(shù)據(jù)集候選者的多個(gè)組件。在有些情況中,數(shù)據(jù)管理系統(tǒng)具有關(guān)于某些組件的特征的信息,包括有關(guān)該組件是否表示數(shù)據(jù)集的信息。在那些情況下,在步驟304中映射器將潛在的數(shù)據(jù)集組件添加到數(shù)據(jù)集候選者的表中。在有些情況下,組件可以是由包括數(shù)據(jù)集組件和可執(zhí)行組件的多個(gè)組件組成的子圖表。子圖表可以表示數(shù)據(jù)集的至少一個(gè)實(shí)例。因此,映射器編譯全部此類子圖表的列表并且作為步驟304 的一部分將它們添加到數(shù)據(jù)集候選者的表中。在其他情況中,組件的性質(zhì)可能不可用于數(shù)據(jù)管理系統(tǒng)。該組件可以通過對(duì)外部實(shí)體的引用而被訪問,其中該引用可以是對(duì)數(shù)據(jù)庫表的查詢、指向因特網(wǎng)服務(wù)器的統(tǒng)一資源定位符、參數(shù)列表中的參數(shù)、或另外類型的引用。在這些情況下,映射器一般不具有這樣的手段,通過它映射器可以獨(dú)立訪問由引用指向的實(shí)體。因此,映射器編譯全部此類引用的列表并且作為步驟304的一部分將它們添加到數(shù)據(jù)集候選者的表中。接下來,在步驟306中,對(duì)于給定的數(shù)據(jù)集候選者,映射器產(chǎn)生數(shù)據(jù)集候選者能夠映射到的已知數(shù)據(jù)集的列表。該映射器使用用戶定義規(guī)則、內(nèi)置規(guī)則和試探法的組合來評(píng)估哪個(gè)已知數(shù)據(jù)集能夠映射到數(shù)據(jù)集候選者。接下來,在步驟308,用戶然后選擇對(duì)應(yīng)于數(shù)據(jù)集候選者的已知數(shù)據(jù)集。如果建議的已知數(shù)據(jù)集全不是正確的匹配,則用戶也可以訪問全部已知數(shù)據(jù)集的整個(gè)列表。此外,用戶能夠指示數(shù)據(jù)集候選者不是數(shù)據(jù)集。例如,對(duì)遠(yuǎn)程服務(wù)器的引用可以是對(duì)遠(yuǎn)程可執(zhí)行過程(它不是數(shù)據(jù)實(shí)體)的調(diào)用。作為另一示例,數(shù)據(jù)集候選者可以表示數(shù)據(jù),但是它可以是不屬于數(shù)據(jù)管理系統(tǒng)的類型的數(shù)據(jù),諸如錯(cuò)誤日志。在這種情況下,用戶可以向用戶接口指示該數(shù)據(jù)將在映射過程中被忽略。接下來,在步驟310中,用戶識(shí)別新映射的數(shù)據(jù)集的數(shù)據(jù)格式。該系統(tǒng)可以具有數(shù)據(jù)格式模板的集合,能夠選擇其中一個(gè)模板。替換地,用戶能夠在用戶接口中產(chǎn)生新的數(shù)據(jù)格式。接下來,在步驟312中映射器使用該信息產(chǎn)生關(guān)于數(shù)據(jù)集候選者的鏈接映射,以及可選的,格式映射。接下來,映射器將下一個(gè)數(shù)據(jù)集候選者提供給用戶用于在步驟308、310和312的另一迭代中的鏈接產(chǎn)生,除非映射器已經(jīng)處理全部的數(shù)據(jù)集候選者。接下來,在步驟314中,用戶查看與數(shù)據(jù)管理系統(tǒng)關(guān)聯(lián)的組件以基于在組件之間的新鏈接確保在圖表和數(shù)據(jù)集組件之間的關(guān)聯(lián)的顯現(xiàn)是精確的。在步驟316中,用戶具有對(duì)鏈接和格式映射做出任何調(diào)整的選項(xiàng)。最后,在步驟318中,映射器向數(shù)據(jù)管理系統(tǒng)傳遞該鏈接和格式映射。該映射可以與一個(gè)或多個(gè)圖表一起存儲(chǔ),或存儲(chǔ)在與數(shù)據(jù)管理系統(tǒng)關(guān)聯(lián)的單獨(dú)的存儲(chǔ)實(shí)體中,或通過另外的手段存儲(chǔ)。3數(shù)據(jù)集映射維持映射器100能夠處理可能出現(xiàn)的多個(gè)情況,其影響數(shù)據(jù)集鏈接的完整性。第一情況包括當(dāng)新組件被添加到數(shù)據(jù)管理系統(tǒng)170時(shí)識(shí)別新的數(shù)據(jù)集候選者。在這種情況中,映射器100分析每個(gè)組件并且向用戶呈現(xiàn)可能的鏈接。映射器100能夠操作于任何新的組件以產(chǎn)生需要的合適鏈接。第二情況包括當(dāng)數(shù)據(jù)管理系統(tǒng)170隨時(shí)間改變時(shí)維持現(xiàn)有的鏈接。例如,數(shù)據(jù)集的新實(shí)例可以在與系統(tǒng)關(guān)聯(lián)的圖表的正常操作的期間開始存在。作為另一示例,數(shù)據(jù)集可能已經(jīng)改變其身份,諸如其名稱或系統(tǒng)中的位置。作為另一示例,數(shù)據(jù)集可以被整個(gè)刪除。 作為再一示例,數(shù)據(jù)集候選者可能在前一輪鏈接產(chǎn)生中被遺漏,從而鏈接的積聚集不完整。 映射系統(tǒng)的用戶接口 160允許用戶162修改現(xiàn)有的鏈接以彌補(bǔ)不完整或過時(shí)的任何映射。第三情況包括自動(dòng)更新關(guān)于總是遵循已知模式的數(shù)據(jù)集引用的鏈接。例如,圖表可以處理在參數(shù)列表247中引用的數(shù)據(jù)集。此類參數(shù)列表可以隨時(shí)間改變。如果參數(shù)列表遵循數(shù)據(jù)管理系統(tǒng)已知的標(biāo)準(zhǔn)格式,則映射器可以識(shí)別在參數(shù)列表中的改變并且相應(yīng)地更新現(xiàn)有的鏈接。4數(shù)據(jù)集鏈接映射如圖5所示,數(shù)據(jù)集鏈接映射140包含組件名稱402、數(shù)據(jù)集名稱404、數(shù)據(jù)集類型 406、格式408、主要數(shù)據(jù)集位置410和標(biāo)記412。組件名稱402是表示數(shù)據(jù)集的實(shí)例的數(shù)據(jù)集組件或子圖表。數(shù)據(jù)集名稱404是指向由該組件表示的數(shù)據(jù)集的標(biāo)識(shí)符。數(shù)據(jù)集類型 406指示在例如數(shù)據(jù)文件、或數(shù)據(jù)庫表、或另外類型的情況下該數(shù)據(jù)集的實(shí)例落入的類別。 格式408是數(shù)據(jù)集的實(shí)例用來表示其數(shù)據(jù)的格式或安排。主要數(shù)據(jù)集位置410是標(biāo)識(shí)符, 其指向保持該數(shù)據(jù)集的蹤跡的數(shù)據(jù)管理系統(tǒng)中的記錄。最后,標(biāo)記412指示該數(shù)據(jù)集的實(shí)例是否應(yīng)該被忽略,例如,如果用戶已識(shí)別數(shù)據(jù)集的實(shí)例為不適用于該數(shù)據(jù)管理系統(tǒng)并且應(yīng)該被從鏈接的集合中剔除。
5內(nèi)置規(guī)則映射器100具有內(nèi)置規(guī)則110的集合,其根據(jù)數(shù)據(jù)管理系統(tǒng)的標(biāo)準(zhǔn)慣例而操作。如果數(shù)據(jù)集組件遵循內(nèi)置規(guī)則110,則映射器能夠以最高的精確度識(shí)別對(duì)應(yīng)于數(shù)據(jù)集組件的數(shù)據(jù)集。在規(guī)則的一個(gè)示范實(shí)施中,包含數(shù)據(jù)集候選者的外部引用的數(shù)據(jù)庫表必須按照由數(shù)據(jù)管理系統(tǒng)使用的標(biāo)準(zhǔn)化目錄結(jié)構(gòu)而安置在永久存儲(chǔ)器中。另外,根據(jù)參數(shù)訪問外部引用的數(shù)據(jù)集組件的圖表必須使用數(shù)據(jù)管理系統(tǒng)也能夠訪問和解析的參數(shù)。另外,數(shù)據(jù)集組件的格式必須在永久存儲(chǔ)器中可用并且可由數(shù)據(jù)管理系統(tǒng)訪問。取決于數(shù)據(jù)管理系統(tǒng),其他內(nèi)置規(guī)則也是可能的。6用戶定義的規(guī)則除了映射器用來識(shí)別數(shù)據(jù)集候選者的內(nèi)置規(guī)則外,映射器100也具有可選的用戶定義規(guī)則120的積聚集。這些規(guī)則120可以由用戶使能或禁止,這取決于哪個(gè)適用于用戶的特定數(shù)據(jù)管理系統(tǒng)。在一個(gè)示范實(shí)施中,映射器具有六個(gè)用戶定義的可選規(guī)則。如果在名稱中一些信息模糊該表的標(biāo)識(shí),諸如關(guān)于定義該表的用戶的信息,則映射器可以忽略在數(shù)據(jù)庫表的名稱中的一些信息。另外,映射器能夠從數(shù)據(jù)庫表的名稱中消除該信息。另外, 映射器可以忽略數(shù)據(jù)文件的特定目錄,它們已知為包含不屬于與數(shù)據(jù)管理系統(tǒng)關(guān)聯(lián)的數(shù)據(jù)集的數(shù)據(jù)。此類目錄可以是數(shù)據(jù)文件類型或數(shù)據(jù)文件擴(kuò)展。另外,映射器能夠解析對(duì)參數(shù)列表的特定參數(shù)的引用并且以參數(shù)自身的名稱取代該引用。另外,映射器能夠整個(gè)消除對(duì)參數(shù)的引用。用戶也能夠產(chǎn)生映射器要遵循的其他規(guī)則。7試探法除了遵循內(nèi)置和用戶定義的規(guī)則來評(píng)估數(shù)據(jù)集候選者外,映射器100也使用試探法130的集合。試探法130允許映射器分析給定數(shù)據(jù)集組件的特征并且將那些特征與已知的數(shù)據(jù)集比較。與已知的數(shù)據(jù)集具有類似特征的數(shù)據(jù)集組件很可能是數(shù)據(jù)集的實(shí)例。在一個(gè)示范實(shí)施中,映射器使用兩個(gè)試探法。一個(gè)試探法是給定數(shù)據(jù)集組件的數(shù)據(jù)的特征。例如,如果與數(shù)據(jù)集組件關(guān)聯(lián)的數(shù)據(jù)具有和與已知的數(shù)據(jù)集關(guān)聯(lián)的數(shù)據(jù)相同數(shù)量的字節(jié)和記錄,則該數(shù)據(jù)集組件很可能是那個(gè)數(shù)據(jù)集的實(shí)例。另外,如果數(shù)據(jù)集組件具有類似于已知的數(shù)據(jù)集的名稱或產(chǎn)生的時(shí)期,則該數(shù)據(jù)集組件很可能是那個(gè)數(shù)據(jù)集的實(shí)例。第二試探法是數(shù)據(jù)集組件的數(shù)據(jù)格式。如果數(shù)據(jù)集組件與已知的數(shù)據(jù)集共享數(shù)據(jù)格式,則該數(shù)據(jù)集組件很可能是數(shù)據(jù)集的實(shí)例。該試探法在其中多個(gè)不同的數(shù)據(jù)集使用相同數(shù)據(jù)格式的情況下不那么可靠。8數(shù)據(jù)集格式和映射表示數(shù)據(jù)源的每個(gè)數(shù)據(jù)集具有關(guān)聯(lián)的數(shù)據(jù)格式,其對(duì)數(shù)據(jù)集的每個(gè)要素指示該要素代表什么類型的數(shù)據(jù)。例如,數(shù)據(jù)庫表的數(shù)據(jù)格式指示在給定記錄中每個(gè)字段的數(shù)據(jù)類型。數(shù)據(jù)管理系統(tǒng)170對(duì)于表示數(shù)據(jù)源176、176a、176b的每個(gè)數(shù)據(jù)集保持單個(gè)數(shù)據(jù)格式 174、174a、174b。如果映射器100已遇到表示新的數(shù)據(jù)集186的數(shù)據(jù)集組件182,則映射器100基于數(shù)據(jù)集組件182的數(shù)據(jù)格式184產(chǎn)生將由數(shù)據(jù)管理系統(tǒng)存儲(chǔ)的對(duì)應(yīng)的數(shù)據(jù)格式。在其中數(shù)據(jù)集組件183表示代表數(shù)據(jù)源176的已知的數(shù)據(jù)集的一些情況中,數(shù)據(jù)集組件182具有不同于代表數(shù)據(jù)源176的已知的數(shù)據(jù)集的數(shù)據(jù)格式174的數(shù)據(jù)格式184。 數(shù)據(jù)管理系統(tǒng)170將代表數(shù)據(jù)源176的數(shù)據(jù)集作為單個(gè)實(shí)體處理,獨(dú)立于數(shù)據(jù)集可能存在的實(shí)體的數(shù)量。結(jié)果,當(dāng)這些情況出現(xiàn)時(shí)數(shù)據(jù)管理系統(tǒng)170依靠映射器100來統(tǒng)一不同的格式174、184。在一個(gè)實(shí)施中,映射器能夠依靠于用戶和數(shù)據(jù)管理系統(tǒng)的要求以四種不同方法的一種來應(yīng)對(duì)每個(gè)情況。用戶162能夠選擇統(tǒng)一的四種方法的任何一種用于每個(gè)情況。在統(tǒng)一的第一方法中,映射器100使用數(shù)據(jù)集組件182的數(shù)據(jù)格式184作為數(shù)據(jù)集的主要數(shù)據(jù)格式并且相應(yīng)地更新數(shù)據(jù)管理系統(tǒng)170。在統(tǒng)一的第二方法中,映射器100使用現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)格式174作為數(shù)據(jù)集的主要數(shù)據(jù)格式并且相應(yīng)地更新數(shù)據(jù)管理系統(tǒng)170。在統(tǒng)一的第三方法中,映射器100保持兩種數(shù)據(jù)格式,并且產(chǎn)生在每個(gè)數(shù)據(jù)格式的字段之間的映射142。如圖6所示,數(shù)據(jù)格式映射142指示數(shù)據(jù)集格式510的哪個(gè)字段51h、512b、512c對(duì)應(yīng)于數(shù)據(jù)集實(shí)例(如,數(shù)據(jù)集組件)的格式的哪個(gè)字段52h、522b、 522c。在統(tǒng)一的第四方法中,映射器產(chǎn)生能夠充當(dāng)任一數(shù)據(jù)格式的新的統(tǒng)一的數(shù)據(jù)格式。9 一般計(jì)算機(jī)實(shí)施以上描述的數(shù)據(jù)集映射方法能夠使用用于在計(jì)算機(jī)上執(zhí)行的軟件來實(shí)現(xiàn)。例如, 軟件形成在一個(gè)或多個(gè)編程或可編程的計(jì)算機(jī)系統(tǒng)(其可以具有各種架構(gòu),諸如分布式的、客戶端/服務(wù)器或網(wǎng)格的)中執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序中的過程,每個(gè)計(jì)算機(jī)系統(tǒng)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(包括易失性和非易失性存儲(chǔ)器和/或存儲(chǔ)元件)、至少一個(gè)輸入設(shè)備或端口、以及至少一個(gè)輸出設(shè)備或端口。該軟件可以形成較大程序的一個(gè)或多個(gè)模塊,例如,其提供與數(shù)據(jù)流圖表的設(shè)計(jì)和配置相關(guān)的其他服務(wù)。圖表的節(jié)點(diǎn)和要素能夠?qū)崿F(xiàn)為存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的數(shù)據(jù)結(jié)構(gòu)或?qū)崿F(xiàn)為遵循存儲(chǔ)在數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)模型的其他組織的數(shù)據(jù)。軟件可以提供在存儲(chǔ)介質(zhì)中,諸如⑶-ROM,可通過通用或?qū)S每删幊逃?jì)算機(jī)讀取或經(jīng)過網(wǎng)絡(luò)的通信介質(zhì)傳遞(按可傳播信號(hào)編碼)到執(zhí)行處的計(jì)算機(jī)。全部的功能可以在專用計(jì)算機(jī)上執(zhí)行,或使用諸如協(xié)處理器的專用硬件執(zhí)行。軟件可以按分布方式實(shí)現(xiàn),其中由軟件規(guī)定的計(jì)算的不同部分由不同計(jì)算機(jī)執(zhí)行。每個(gè)此類計(jì)算機(jī)程序優(yōu)選地存儲(chǔ)于或下載到存儲(chǔ)媒介或設(shè)備(如,固態(tài)存儲(chǔ)器或媒介,或磁或光媒介)中,可由通用或?qū)S每删幊逃?jì)算機(jī)讀取,以用于當(dāng)通過計(jì)算機(jī)系統(tǒng)讀取存儲(chǔ)媒介或設(shè)備以執(zhí)行這里所述的過程時(shí)配置和操作該計(jì)算機(jī)。本發(fā)明的系統(tǒng)也可以考慮實(shí)現(xiàn)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),配置為計(jì)算機(jī)程序,其中存儲(chǔ)介質(zhì)的配置使得計(jì)算機(jī)系統(tǒng)按特定和預(yù)定義的方式操作以執(zhí)行這里所述的功能。已經(jīng)描述了本發(fā)明的多個(gè)實(shí)施例。然而,將理解各種修改可以被做出而不脫離本發(fā)明的精神和范圍。例如,上述的一些步驟可以是順序獨(dú)立的,因此能夠按照不同于所述的順序來執(zhí)行。應(yīng)該理解前述說明的意圖是說明性的而非限制本發(fā)明的范圍,該范圍由所附權(quán)利要求的范圍定義。例如,上述的多個(gè)功能步驟可以按照不同的順序執(zhí)行而不會(huì)本質(zhì)上影響整個(gè)處理。其他實(shí)施例處于以下權(quán)利要求的范圍中。
權(quán)利要求
1.一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)以由計(jì)算機(jī)系統(tǒng)使用的方法,該方法包括通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則,;提供用戶接口以接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射;以及與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,包括在用戶接口上呈現(xiàn)該集合。
3.根據(jù)權(quán)利要求1所述的方法,包括在用戶接口上呈現(xiàn)根據(jù)對(duì)一個(gè)或多個(gè)準(zhǔn)則的匹配的數(shù)量而排序的可能的映射的列表。
4.根據(jù)權(quán)利要求3所述的方法,其中可能的映射的列表包括很可能是在列表中排序較高的給定數(shù)據(jù)集的實(shí)例的候選者。
5.根據(jù)權(quán)利要求3所述的方法,其中準(zhǔn)則之一內(nèi)置于映射器中,該映射器識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合。
6.根據(jù)權(quán)利要求3所述的方法,其中準(zhǔn)則之一是從用戶接口接收的。
7.根據(jù)權(quán)利要求3所述的方法,其中至少一個(gè)可能的映射指示表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件,并且至少一個(gè)可能的映射指示不表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件。
8.根據(jù)權(quán)利要求1所述的方法,其中包括多個(gè)組件的數(shù)據(jù)流圖表的子圖表表示數(shù)據(jù)集。
9.根據(jù)權(quán)利要求8所述的方法,其中該子圖表包括數(shù)據(jù)組件。
10.根據(jù)權(quán)利要求8所述的方法,其中該子圖表包括可執(zhí)行組件。
11.根據(jù)權(quán)利要求1所述的方法,其中識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合包括使用試探法以確定在給定集合中的數(shù)據(jù)集是否具有與另一數(shù)據(jù)集共同的一個(gè)或多個(gè)特征。
12.根據(jù)權(quán)利要求11所述的方法,其中該特征包括在數(shù)據(jù)集的表示中的字節(jié)和記錄的數(shù)量。
13.根據(jù)權(quán)利要求11所述的方法,其中該特征包括數(shù)據(jù)集的表示的名稱。
14.根據(jù)權(quán)利要求11所述的方法,其中該特征包括數(shù)據(jù)集的表示的創(chuàng)建的日期。
15.根據(jù)權(quán)利要求11所述的方法,其中該特征包括數(shù)據(jù)集的表示的數(shù)據(jù)格式。
16.根據(jù)權(quán)利要求1所述的方法,其中該映射的至少一個(gè)數(shù)據(jù)集屬于數(shù)據(jù)管理系統(tǒng)已知的數(shù)據(jù)集的組。
17.根據(jù)權(quán)利要求1所述的方法,還包括提供給定集合中的數(shù)據(jù)集之間的格式映射。
18.根據(jù)權(quán)利要求1所述的方法,其中該映射包括標(biāo)識(shí)符,其指向保持?jǐn)?shù)據(jù)集的蹤跡的數(shù)據(jù)管理系統(tǒng)中的記錄。
19.根據(jù)權(quán)利要求1所述的方法,還包括基于在數(shù)據(jù)集中的改變更新該映射。
20.一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括數(shù)據(jù)存儲(chǔ)系統(tǒng),通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,存儲(chǔ)包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;映射器,其識(shí)別與數(shù)據(jù)流圖表關(guān)聯(lián)的一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;用戶接口,其接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射,以及與數(shù)據(jù)流圖表關(guān)聯(lián)來在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)該映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其中該用戶接口呈現(xiàn)該集合。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其中用戶接口呈現(xiàn)根據(jù)對(duì)一個(gè)或多個(gè)準(zhǔn)則的匹配的數(shù)量而排序的可能的映射的列表。
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中可能的映射的列表包括很可能是在列表中排序較高的給定數(shù)據(jù)集的實(shí)例的候選者。
24.根據(jù)權(quán)利要求22所述的系統(tǒng),其中準(zhǔn)則之一被內(nèi)置于映射器中。
25.根據(jù)權(quán)利要求22所述的系統(tǒng),其中準(zhǔn)則之一是通過用戶接口接收的。
26.根據(jù)權(quán)利要求22所述的系統(tǒng),其中至少一個(gè)可能的映射指示表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件,并且至少一個(gè)可能的映射指示不表示數(shù)據(jù)集的數(shù)據(jù)流圖表的組件。
27.根據(jù)權(quán)利要求20所述的系統(tǒng),其中包括多個(gè)組件的數(shù)據(jù)流圖表的子圖表表示數(shù)據(jù)集。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中該子圖表包括數(shù)據(jù)組件。
29.根據(jù)權(quán)利要求27所述的系統(tǒng),其中該子圖表包括可執(zhí)行組件。
30.根據(jù)權(quán)利要求20所述的系統(tǒng),其中該映射器使用試探法以確定在給定集合中的數(shù)據(jù)集是否具有與另一數(shù)據(jù)集共同的一個(gè)或多個(gè)特征。
31.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該特征包括在數(shù)據(jù)集的表示中字節(jié)和記錄的數(shù)量。
32.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該特征包括數(shù)據(jù)集的表示的名稱。
33.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該特征包括數(shù)據(jù)集的表示的創(chuàng)建的日期。
34.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該特征包括數(shù)據(jù)集的表示的數(shù)據(jù)格式。
35.根據(jù)權(quán)利要求20所述的系統(tǒng),其中該映射的數(shù)據(jù)集的至少一個(gè)屬于數(shù)據(jù)管理系統(tǒng)已知的數(shù)據(jù)集的組。
36.根據(jù)權(quán)利要求20所述的系統(tǒng),其中該映射器產(chǎn)生給定集合中數(shù)據(jù)集之間的格式映射。
37.根據(jù)權(quán)利要求20所述的系統(tǒng),其中該映射包括標(biāo)識(shí)符,其指向保持?jǐn)?shù)據(jù)集的蹤跡的數(shù)據(jù)管理系統(tǒng)中的記錄。
38.根據(jù)權(quán)利要求20所述的系統(tǒng),其中映射器基于在數(shù)據(jù)集中的改變更新該映射。
39.一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括一部件,用于通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;用于識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合的部件,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;用于提供用戶接口以接收在給定集合中的至少兩個(gè)數(shù)據(jù)集之間的映射的部件;和用于與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射的部件,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。
40. 一種存儲(chǔ)用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)程序包括指令,用于促使計(jì)算機(jī)來通過至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及通過至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流,處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表的規(guī)范;識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合,其中在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則;提供用戶接口以接收在給定集合的至少兩個(gè)數(shù)據(jù)集之間的映射;以及與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。
全文摘要
一種用于映射存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)(170)的數(shù)據(jù)以由計(jì)算機(jī)系統(tǒng)使用的方法,包括處理包括代表由表示數(shù)據(jù)的流的鏈路相互連接的計(jì)算的節(jié)點(diǎn)的數(shù)據(jù)流圖表(180)的規(guī)范。至少一個(gè)數(shù)據(jù)流圖表從至少一個(gè)輸入數(shù)據(jù)集接收數(shù)據(jù)的流以及至少一個(gè)數(shù)據(jù)流圖表向至少一個(gè)輸出數(shù)據(jù)集提供數(shù)據(jù)的流。映射器(100)識(shí)別一個(gè)或多個(gè)數(shù)據(jù)集的集合。在給定集合中的每個(gè)數(shù)據(jù)集匹配用于識(shí)別單個(gè)數(shù)據(jù)集的不同版本的一個(gè)或多個(gè)準(zhǔn)則。提供用戶接口(160)來接收在給定集合的至少兩個(gè)數(shù)據(jù)集之間的映射。與數(shù)據(jù)流圖表關(guān)聯(lián)來存儲(chǔ)在用戶接口上接收的映射,該數(shù)據(jù)流圖表向該映射的數(shù)據(jù)集提供數(shù)據(jù)或從該映射的數(shù)據(jù)集接收數(shù)據(jù)。
文檔編號(hào)G06F7/00GK102232212SQ200980148087
公開日2011年11月2日 申請(qǐng)日期2009年12月1日 優(yōu)先權(quán)日2008年12月2日
發(fā)明者亞當(dāng).韋斯, 蒂姆.韋克林 申請(qǐng)人:起元技術(shù)有限責(zé)任公司