一種數(shù)據(jù)處理方法及服務(wù)器與流程

文檔序號：11250913閱讀：975來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息處理技術(shù)，尤其涉及一種數(shù)據(jù)處理方法及服務(wù)器。

背景技術(shù)：

對大數(shù)據(jù)進行分析時，通常會涉及數(shù)據(jù)的清洗和校準(zhǔn)，如數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯誤值的處理、重復(fù)值的檢測和消除等。現(xiàn)有技術(shù)中，對數(shù)據(jù)進行處理的流程示意圖，如圖1所示，包括源數(shù)據(jù)清洗、數(shù)據(jù)處理過程質(zhì)量監(jiān)測、在線監(jiān)控報警、監(jiān)控效果分析和手動調(diào)整清洗校準(zhǔn)腳本或代碼邏輯；在對數(shù)據(jù)處理過程進行質(zhì)量監(jiān)控時，基于質(zhì)量規(guī)則庫進行人工檢查、或基于業(yè)務(wù)經(jīng)驗來編寫特定的處理程序；通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進行清洗和校準(zhǔn)時，識別數(shù)據(jù)質(zhì)量問題的效率低、很難全面的處理諸多異常數(shù)據(jù)、消耗大量的時間和人力成本。并且，現(xiàn)有技術(shù)中的方案也未充分利用計算平臺提供的強大的數(shù)據(jù)處理能力。

技術(shù)實現(xiàn)要素：

為解決現(xiàn)有存在的技術(shù)問題，本發(fā)明實施例提供了一種數(shù)據(jù)處理方法及服務(wù)器，能至少解決現(xiàn)有技術(shù)中存在的上述問題。

本發(fā)明實施例提供一種數(shù)據(jù)處理方法，所述方法包括：確定源數(shù)據(jù)的不同維度的特征的相似度；

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

基于各所述處理階段所遵循的質(zhì)量規(guī)則，對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理。

上述方案中，所述確定對相應(yīng)類別的源數(shù)據(jù)進行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則，包括：

確定相應(yīng)類別的源數(shù)據(jù)的輸入特征；

基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到，用于表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對應(yīng)關(guān)系。

上述方案中，所述方法還包括：根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到數(shù)據(jù)的質(zhì)量，確定不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律；

根據(jù)所述變化規(guī)律，預(yù)測所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中，所述方法還包括：

建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系；

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與所述異常數(shù)據(jù)輸出對象集合之間的第一關(guān)聯(lián)關(guān)系；

在決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則，得到第一匹配結(jié)果；

基于所述第一匹配結(jié)果修改所述決策樹模型。

上述方案中，所述方法還包括：

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與所述異常數(shù)據(jù)輸出對象集合之間的第二關(guān)聯(lián)關(guān)系；

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度，得到第二匹配結(jié)果；

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中，所述方法還包括：

基于修改后的決策樹模型確定聚類后的源數(shù)據(jù)進行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則，對聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量，形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本發(fā)明實施例還提供一種服務(wù)器，所述服務(wù)器包括至少一個處理器，以及至少一個存儲器；其中：

所述至少一個處理器，用于確定源數(shù)據(jù)的不同維度的特征的相似度；

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則，對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

所述至少一個存儲器，用于存儲處理所述源數(shù)據(jù)所遵循的質(zhì)量規(guī)則。

上述方案中，所述處理器，具體用于確定相應(yīng)類別的源數(shù)據(jù)的輸入特征；

上述方案中，所述處理器，還用于根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到數(shù)據(jù)的質(zhì)量，確定不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律；

根據(jù)所述變化規(guī)律，預(yù)測所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中，所述處理器，還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系；

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與所述異常數(shù)據(jù)輸出對象集合之間的第一關(guān)聯(lián)關(guān)系；

在決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則，得到第一匹配結(jié)果；

基于所述第一匹配結(jié)果修改所述決策樹模型。

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與所述異常數(shù)據(jù)輸出對象集合之間的第二關(guān)聯(lián)關(guān)系；

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度，得到第二匹配結(jié)果；

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中，所述處理器，還用于基于修改后的決策樹模型確定對聚類后的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量，形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本發(fā)明實施例中，服務(wù)器確定源數(shù)據(jù)的不同維度的特征的相似度，并將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別，以實現(xiàn)對所述源數(shù)據(jù)的聚類；對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則，基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；如此，能夠?qū)崿F(xiàn)對每個所述類別的源數(shù)據(jù)利用最高效的處理路徑進行自動化處理，不僅能夠提高識別數(shù)據(jù)質(zhì)量問題的效率、節(jié)省時間和人力成本，而且能夠全面的處理諸多異常數(shù)據(jù)，提高數(shù)據(jù)處理能力。

附圖說明

圖1為本發(fā)明實施例對數(shù)據(jù)進行處理的流程示意圖；

圖2為本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程示意圖；

圖3為本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程示意圖；

圖4為本發(fā)明實施例一種修改決策樹模型的處理流程示意圖；

圖5為本發(fā)明實施例另一種修改決策樹模型的處理流程示意圖；

圖6為本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程示意圖；

圖7為本發(fā)明實施例形成質(zhì)量監(jiān)控和改善閉環(huán)的數(shù)據(jù)處理流程示意圖；

圖8為本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程示意圖；

圖9為本發(fā)明實施例一種服務(wù)器的組成結(jié)構(gòu)示意圖。

具體實施方式

為更好地理解本發(fā)明實施例，下面對數(shù)據(jù)清洗和校準(zhǔn)的各階段進行簡單的說明。

在對數(shù)據(jù)進行清洗和校準(zhǔn)時，通常包括如下四個階段：數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯誤值的處理、重復(fù)值的檢測及消除。其中，數(shù)據(jù)一致性檢查，是根據(jù)每個變量的合理取值范圍和相互關(guān)系，檢查數(shù)據(jù)是否滿足要求，篩選出超出合理取值范圍、邏輯不合理、或相互矛盾的數(shù)據(jù)。無效值和缺失值的處理，是指在數(shù)據(jù)的采集、傳輸、加工處理過程中，會出現(xiàn)調(diào)查、錄入誤差、或軟件處理程序的缺陷，進而導(dǎo)致數(shù)據(jù)中出現(xiàn)無效值和缺失值；需對該無效值和缺失值給予相應(yīng)的處理。異常值和錯誤值的處理，是在數(shù)據(jù)清洗和校準(zhǔn)的過程中，利用統(tǒng)計分析的方法識別可能的錯誤值和異常值，如偏差分析、識別不遵守分布或回歸方程的值，也可以利用簡單的常識性規(guī)則、業(yè)務(wù)特定規(guī)則等規(guī)則庫檢查數(shù)據(jù)值，或利用不同屬性間的約束、外部的數(shù)據(jù)來檢測和清洗數(shù)據(jù)。重復(fù)值的檢測及消除，是指通過檢測數(shù)據(jù)庫中各記錄的屬性值是否相等，將屬性值相同的記錄合并為一條記錄來消除重復(fù)值。

下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。

實施例一

本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程，如圖2所示，包括以下步驟：

步驟s101，確定源數(shù)據(jù)的不同維度的特征的相似度，將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

具體地，服務(wù)器對于輸入的源數(shù)據(jù)，確定源數(shù)據(jù)的不同維度的特征的相似度；以k-means為例，對于由n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)，n為大于1的正整數(shù)，從所述源數(shù)據(jù)中任意選擇k個數(shù)據(jù)作為初始聚類中心，k為大于1、且小于n的正整數(shù)；計算n個數(shù)據(jù)中除k個數(shù)據(jù)以外的每個數(shù)據(jù)分別與所述k個數(shù)據(jù)形成的初始聚類中心的相似度；并把除k個數(shù)據(jù)以外的每個數(shù)據(jù)分配給與其最相似的聚類，形成第一聚類；即將n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個第一聚類。對于多個第一聚類中的任意一個第一聚類，計算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值，得到相應(yīng)的聚類中心?；诘玫降木垲愔行模捎枚噍喌接嬎阒貜?fù)上述聚類過程，直至標(biāo)準(zhǔn)的測度函數(shù)開始收斂為止。

這里，所述相似度是針對某一特定的維度，兩個數(shù)據(jù)之間的距離；可采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

通過將源數(shù)據(jù)聚類到相應(yīng)維度的類別，使得源數(shù)據(jù)按照某一維度的特征聚類為若干群組，且各聚類自身盡可能的緊湊，各聚類之間盡可能的分開。

步驟s102，對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

具體地，對于同一個源數(shù)據(jù)，利用不同的處理階段的執(zhí)行順序進行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量不同；對于一個源數(shù)據(jù)，在同一個處理階段遵循不同的質(zhì)量規(guī)則進行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量也不同。其中，所述處理階段包括：數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯誤值的處理、重復(fù)值的檢測及消除。如，有些源數(shù)據(jù)最高效的處理路徑是首先進行去空去重處理，然后再補充缺失值；而有些數(shù)據(jù)最高效的處理路徑是先保留null值記錄，再在完整的數(shù)據(jù)記錄集合中進行過濾清洗。

因此，對于一個類別的源數(shù)據(jù)，服務(wù)器首先確定該類別的源數(shù)據(jù)的輸入特征，基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

這里，所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到，能夠表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對應(yīng)關(guān)系；通過源數(shù)據(jù)的數(shù)據(jù)格式類型、數(shù)據(jù)來源渠道、數(shù)據(jù)其他維度特征、數(shù)據(jù)隨機組合的維度特征等屬性，在決策樹模型中查找與所述源數(shù)據(jù)對應(yīng)的質(zhì)量規(guī)則，即對所述源數(shù)據(jù)進行處理時所應(yīng)用的質(zhì)量規(guī)則。

在決策樹模型中，樹中每個節(jié)點表示某一聚類數(shù)據(jù)清洗過程中節(jié)點的實例對象，而每個分叉路徑則代表基于不同的質(zhì)量規(guī)則優(yōu)化后的某個可能的屬性值；每個葉節(jié)點對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值；即利用不同的質(zhì)量規(guī)則對源數(shù)據(jù)進行處理后得到的不同程度數(shù)據(jù)質(zhì)量的指標(biāo)權(quán)重。

步驟s103，基于各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

具體地，服務(wù)器按照上述確定的不同處理階段的執(zhí)行順序?qū)υ磾?shù)據(jù)進行處理；在特定的處理階段，利用上述確定的質(zhì)量規(guī)則對源數(shù)據(jù)進行處理。

實施例二

本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程，如圖3所示，包括以下步驟：

步驟s201，確定源數(shù)據(jù)的不同維度的特征的相似度，將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

這里，所述相似度是針對某一特定的維度，兩個數(shù)據(jù)之間的距離；可采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

步驟s202，對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

步驟s203，基于各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

步驟s204，修改決策樹模型；

服務(wù)器修改決策樹模型時，至少包括兩種實現(xiàn)方式；一種修改決策樹模型的處理流程，如圖4所示，包括以下步驟：

步驟s2001，建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系；

具體地，服務(wù)器記錄源數(shù)據(jù)經(jīng)處理的各階段的節(jié)點數(shù)據(jù)，即記錄在每個處理階段的輸入數(shù)據(jù)、利用相應(yīng)的質(zhì)量規(guī)則進行處理后得到的輸出數(shù)據(jù)、及所述質(zhì)量規(guī)則之間的關(guān)聯(lián)關(guān)系。

步驟s2002，基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與異常數(shù)據(jù)輸出對象集合之間的第一關(guān)聯(lián)關(guān)系；

這里，服務(wù)器針對源數(shù)據(jù)的各個處理階段，均會建立第一關(guān)聯(lián)關(guān)系；所述異常數(shù)據(jù)輸出對象集合包括：每個節(jié)點的數(shù)據(jù)質(zhì)量監(jiān)控告警數(shù)據(jù)的集合、基于人工方式標(biāo)注的分層清洗失敗的數(shù)據(jù)；所述第一質(zhì)量規(guī)則庫是指在所述決策樹模型中新引入的質(zhì)量規(guī)則集合；服務(wù)器通過所述關(guān)聯(lián)關(guān)系能夠確定新引入的質(zhì)量規(guī)則集合中的具體那一條質(zhì)量規(guī)則與異常數(shù)據(jù)輸出對象集合之間存在關(guān)聯(lián)關(guān)系。

步驟s2003，在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則，得到第一匹配結(jié)果；

具體地，服務(wù)器在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則，即查找與異常數(shù)據(jù)輸出對象集合存在關(guān)聯(lián)關(guān)系的質(zhì)量規(guī)則。

步驟s2004，基于所述第一匹配結(jié)果修改所述決策樹模型；

具體地，服務(wù)器修改在所述決策樹模型中查找出的質(zhì)量規(guī)則，以便后續(xù)對源數(shù)據(jù)進行優(yōu)化處理，進而形成數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量改善的閉環(huán)。

另一種修改決策樹模型的處理流程，如圖5所示，包括以下步驟：

步驟s2005，建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系；

步驟s2006，基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與異常數(shù)據(jù)輸出對象集合之間的第二關(guān)聯(lián)關(guān)系；

這里，所述數(shù)據(jù)質(zhì)量程度是指數(shù)據(jù)質(zhì)量等級參數(shù)，數(shù)據(jù)質(zhì)量等級參數(shù)的設(shè)定會影響到數(shù)據(jù)處理的效率、及源數(shù)據(jù)經(jīng)過處理后形成目標(biāo)數(shù)據(jù)的質(zhì)量。

步驟s2007，在所述決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度，得到第二匹配結(jié)果；

具體地，服務(wù)器在所述決策樹模型中查找與異常數(shù)據(jù)輸出對象集合存在關(guān)聯(lián)關(guān)系的數(shù)據(jù)質(zhì)量程度。

步驟s2008，基于所述第二匹配結(jié)果修改所述決策樹模型；

具體地，服務(wù)器在所述決策樹模型中修改上述查找得到的數(shù)據(jù)質(zhì)量程度，以便后續(xù)對源數(shù)據(jù)進行優(yōu)化處理，進而形成數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量改善的閉環(huán)。

實施例三

本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程，如圖6所示，包括以下步驟：

步驟s301，確定源數(shù)據(jù)的不同維度的特征的相似度，將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

具體地，服務(wù)器對于輸入的源數(shù)據(jù)，確定源數(shù)據(jù)的不同維度的特征的相似度；以k-means為例，對于由n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)，n為大于1的正整數(shù)，從所述源數(shù)據(jù)中任意選擇k個數(shù)據(jù)作為初始聚類中心，k為大于1、且小于n的正整數(shù)；計算n個數(shù)據(jù)中除k個數(shù)據(jù)以外的每個數(shù)據(jù)分別與所述k個數(shù)據(jù)形成的初始聚類中心的相似度；并把除k個數(shù)據(jù)以外的每個數(shù)據(jù)分配給與其最相似的聚類，形成第一聚類；即將n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個第一聚類。對于多個第一聚類中的任意一個第一聚類，計算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值，得到相應(yīng)的聚類中心?；诘玫降木垲愔行?，采用多輪迭代式計算重復(fù)上述聚類過程，直至標(biāo)準(zhǔn)的測度函數(shù)開始收斂為止。

這里，所述相似度是針對某一特定的維度，兩個數(shù)據(jù)之間的距離；可采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

步驟s302，對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

步驟s303，基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

步驟s304，對經(jīng)處理的源數(shù)據(jù)進行在線監(jiān)控；

具體地，服務(wù)器基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理時，服務(wù)器按照預(yù)設(shè)的監(jiān)控規(guī)則實時監(jiān)控處理過程中生成的異常數(shù)據(jù)，并在生成異常數(shù)據(jù)時進行報警提示；

這里，所述異常數(shù)據(jù)包括：基于人工方式標(biāo)注的處理失敗的數(shù)據(jù)、在各處理階段形成目標(biāo)數(shù)據(jù)過程中的不滿足預(yù)定條件的中間監(jiān)控數(shù)據(jù)等；上述異常數(shù)據(jù)形成異常數(shù)據(jù)輸出對象集合。

步驟s305，修改決策樹模型和監(jiān)控規(guī)則；

具體地，服務(wù)器在監(jiān)控到異常數(shù)據(jù)輸出后，將自動觸發(fā)調(diào)整監(jiān)控規(guī)則和所述決策樹模型中的質(zhì)量規(guī)則，形成質(zhì)量監(jiān)控和改善的閉環(huán)，如圖7所示；如此，不需要通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進行清洗和校準(zhǔn)，便能夠高效的識別數(shù)據(jù)質(zhì)量問題，節(jié)省大量的時間和人力成本。

步驟s306，基于修改后的決策樹模型確定聚類后的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

步驟s307，基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理。

實施例四

本發(fā)明實施例一種數(shù)據(jù)處理方法的處理流程，如圖8所示，包括以下步驟：

步驟s401，確定源數(shù)據(jù)的不同維度的特征的相似度，將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

具體地，服務(wù)器對于輸入的源數(shù)據(jù)，確定源數(shù)據(jù)的不同維度的特征的相似度；以k-means為例，對于由n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)，n為大于1的正整數(shù)，從所述源數(shù)據(jù)中任意選擇k個數(shù)據(jù)作為初始聚類中心，k為大于1、且小于n的正整數(shù)；計算n個數(shù)據(jù)中除k個數(shù)據(jù)以外的每個數(shù)據(jù)分別與所述k個數(shù)據(jù)形成的初始聚類中心的相似度；并把除k個數(shù)據(jù)以外的每個數(shù)據(jù)分配給與其最相似的聚類，形成第一聚類；即將n個數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個第一聚類。對于多個第一聚類中的任意一個第一聚類，計算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值，得到相應(yīng)的聚類中心。基于得到的聚類中心，采用多輪迭代式計算重復(fù)上述聚類過程，直至標(biāo)準(zhǔn)的測度函數(shù)開始收斂為止。

這里，所述相似度是針對某一特定的維度，兩個數(shù)據(jù)之間的距離；可采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。

步驟s402，對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

步驟s403，基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

步驟s404，對經(jīng)處理的源數(shù)據(jù)進行在線監(jiān)控；

具體地，服務(wù)器基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理時，服務(wù)器實時監(jiān)控處理過程中生成的異常數(shù)據(jù)，并在生成異常數(shù)據(jù)時進行報警提示；

服務(wù)器在監(jiān)控到異常數(shù)據(jù)輸出后，將自動觸發(fā)調(diào)整所述決策樹模型中的質(zhì)量規(guī)則，不需要通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進行清洗和校準(zhǔn)，進而高效的識別數(shù)據(jù)質(zhì)量問題，節(jié)省大量的時間和人力成本。

步驟s405，根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到數(shù)據(jù)的質(zhì)量，確定不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律；

具體地，服務(wù)器根據(jù)歷史監(jiān)控報警數(shù)據(jù)、歷次人工修改的質(zhì)量規(guī)則、不同處理階段的數(shù)據(jù)分布和質(zhì)量狀態(tài)數(shù)據(jù)建立回歸模型，歸納出不同處理階段數(shù)據(jù)質(zhì)量變化的規(guī)律。在各處理階段，服務(wù)器基于不同的質(zhì)量規(guī)則調(diào)用的腳本得到的輸出數(shù)據(jù)確定因變量和自變量；并建立因變量和自變量之間的關(guān)系式，即回歸模型；并對所述回歸模型的可信度進行檢驗，即校驗所述回歸模型是否可信。

服務(wù)器還根據(jù)數(shù)據(jù)處理過程中各節(jié)點所應(yīng)用的質(zhì)量規(guī)則、為提高數(shù)據(jù)質(zhì)量的調(diào)節(jié)控制數(shù)據(jù)、不同階段的輸入/輸出質(zhì)量指標(biāo)、基于人工方式標(biāo)注的數(shù)據(jù)處理成功和失敗的數(shù)據(jù)及異常數(shù)據(jù)輸出對象集合建立所述數(shù)據(jù)處理過程中各處理階段的關(guān)聯(lián)分析預(yù)測模型，根據(jù)所述關(guān)聯(lián)分析預(yù)測模型可實現(xiàn)對數(shù)據(jù)處理各階段的預(yù)測。

步驟s406，根據(jù)所述變化規(guī)律，預(yù)測所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布；

具體地，服務(wù)器可根據(jù)所述回歸模型預(yù)測源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布；并根據(jù)源數(shù)據(jù)的變化和用戶干預(yù)的需求自動預(yù)測未來某個時間點不同階段的特定項數(shù)據(jù)質(zhì)量維度的趨勢。服務(wù)器也可根據(jù)所述關(guān)聯(lián)分析預(yù)測模型預(yù)測源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布。服務(wù)器也可根據(jù)實際需要為所述回歸模型和所述關(guān)聯(lián)分析預(yù)測模型配置相應(yīng)的權(quán)重，結(jié)合所述回歸模型和所述關(guān)聯(lián)分析預(yù)測模型預(yù)測源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布。

需要說明的是，本發(fā)明上述實施例所述的服務(wù)器執(zhí)行的功能可由一個獨立的服務(wù)器實現(xiàn)，也可由多個相互之間獨立的服務(wù)器構(gòu)成的服務(wù)器集群實現(xiàn)。

實施例五

本發(fā)明實施例提供一種服務(wù)器，所述服務(wù)器的組成結(jié)構(gòu)，如圖9所示，包括至少一個處理器1以及至少一個存儲器2；其中，

所述至少一個處理器1，用于確定源數(shù)據(jù)的不同維度的特征的相似度；

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別；

對于每個所述類別的源數(shù)據(jù)，確定對相應(yīng)類別的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

所述至少一個存儲器2，用于存儲處理所述源數(shù)據(jù)所遵循的質(zhì)量規(guī)則。

上述方案中，所述處理器1，具體用于確定相應(yīng)類別的源數(shù)據(jù)的輸入特征；

所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到，以表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對應(yīng)關(guān)系。

上述方案中，所述處理器1，還用于根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到數(shù)據(jù)的質(zhì)量，確定不同類別的所述源數(shù)據(jù)在各所述處理階段進行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律；

根據(jù)所述變化規(guī)律，預(yù)測所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中，所述處理器1，還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系；

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與異常數(shù)據(jù)輸出對象集合之間的第一關(guān)聯(lián)關(guān)系；

在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則，得到第一匹配結(jié)果；

基于所述第一匹配結(jié)果修改所述決策樹模型。

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與異常數(shù)據(jù)輸出對象集合之間的第二關(guān)聯(lián)關(guān)系；

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度，得到第二匹配結(jié)果；

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中，所述處理器1，還用于基于修改后的決策樹模型確定對聚類后的源數(shù)據(jù)進行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則；

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進行處理；

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量，以形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本領(lǐng)域普通技術(shù)人員可以理解：實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成，前述的程序可以存儲于一計算機可讀取存儲單元中，該程序在執(zhí)行時，執(zhí)行包括上述方法實施例的步驟；而前述的存儲單元包括：移動存儲設(shè)備、只讀存儲器(rom，read-onlymemory)、隨機存取存儲器(ram，randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

或者，本發(fā)明上述集成的單元如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時，也可以存儲在一個計算機可讀取存儲單元中?；谶@樣的理解，本發(fā)明實施例的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品存儲在一個存儲單元中，包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲單元包括：移動存儲設(shè)備、rom、ram、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述，僅為本發(fā)明的具體實施方式，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此，本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準(zhǔn)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尹正軍
技術(shù)所有人：聯(lián)想（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

高性能數(shù)據(jù)處理服務(wù)器相關(guān)技術(shù)

數(shù)據(jù)處理方法相關(guān)技術(shù)

常用的數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)據(jù)處理服務(wù)器相關(guān)技術(shù)

一種心電數(shù)據(jù)處理方法相關(guān)技術(shù)

大數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)學(xué)建模數(shù)據(jù)處理方法相關(guān)技術(shù)

正交實驗數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)據(jù)處理的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)處理方法及服務(wù)器與流程