本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其涉及大規(guī)模非結(jié)構化數(shù)據(jù)提取方法、其系統(tǒng)、分布式數(shù)據(jù)管理平臺。
背景技術:
隨著社會的飛速發(fā)展,如今各個行業(yè)的信息、數(shù)據(jù)量都呈現(xiàn)爆炸性增長的趨勢。在企業(yè)和公共事業(yè)中,各類業(yè)務變得越來越復雜,信息化水平迅速提高,進入了數(shù)據(jù)化時代。因此,數(shù)據(jù)成為了最重要的資產(chǎn)之一,其不僅僅體現(xiàn)在常規(guī)業(yè)務的操作需求,更為事業(yè)發(fā)展的方向提供數(shù)據(jù)支持,起到了重要的決策作用。
與此同時,傳統(tǒng)的數(shù)據(jù)類型的占比已逐漸下降。隨著業(yè)務需求以及功能多樣化意味著非結(jié)構化數(shù)據(jù)已經(jīng)占據(jù)了較大比例?,F(xiàn)有對非結(jié)構化數(shù)據(jù)的提取通常使用文件服務器系統(tǒng)記性管理,并人工篩選統(tǒng)籌分類等初級解決方案。
該類方案操作復雜、準確度低,僅能應對簡單的數(shù)據(jù)存儲需求,且對非結(jié)構化數(shù)據(jù)的索引、分類、屬性等高級特性的幾乎無法支持。由于大數(shù)據(jù)具有數(shù)量大、運行速度快、分類多等特點,造成了大量異構和非結(jié)構化問題,使得許多現(xiàn)有的數(shù)據(jù)分析和挖掘的優(yōu)秀算法工具,無法適用于非結(jié)構化大數(shù)據(jù)。這對于非結(jié)構化大數(shù)據(jù)的數(shù)據(jù)挖掘和利用造成了障礙。
深度學習作為當前流行的通用工具適合解決上述大規(guī)模非結(jié)構化數(shù)據(jù)提取問題。在深度學習中,可以按照輸入自動進行特征的學習,神經(jīng)網(wǎng)絡中的每層都將學習到對應的特征,低層網(wǎng)絡學習到的特征抽象化組合后構成高層網(wǎng)絡出入。這種深度學習的方法可以應用在圖片分析等其他領域都體現(xiàn)出了超強的性能,近幾年,深度學習及其神經(jīng)網(wǎng)絡模型已成為了特征抽取的重要方法。非結(jié)構化數(shù)據(jù)可以將其維度作為神經(jīng)網(wǎng)絡模型的輸入,最后將高效地提取出特征并進行分類。
為了更好的實現(xiàn)大規(guī)模非結(jié)構化數(shù)據(jù)的分析,對于大規(guī)模的非結(jié)構化數(shù)據(jù)按照特征類別進行提取分類的需求越來越強烈。如何結(jié)合深度學習的強大功能,以滿足這樣的提取分類需求是一個有待解決的問題。
技術實現(xiàn)要素:
鑒于上述現(xiàn)有技術的不足之處,本發(fā)明的目的在于提供大規(guī)模非結(jié)構化數(shù)據(jù)提取方法、其系統(tǒng)、分布式數(shù)據(jù)管理平臺,旨在解決現(xiàn)有技術中大規(guī)模非結(jié)構化數(shù)據(jù)的提取分類的問題。
為了達到上述目的,本發(fā)明采取了以下技術方案:
一種大規(guī)模非結(jié)構化數(shù)據(jù)提取方法,其中,所述方法包括:
獲取若干非結(jié)構化數(shù)據(jù)對象,并將所述非結(jié)構化數(shù)據(jù)對象的特征抽象為屬性;
使用所述非結(jié)構話數(shù)據(jù)對象的所有屬性對應的多維向量表示所述非結(jié)構化數(shù)據(jù)對象;
將所述多維向量作為卷積神經(jīng)網(wǎng)絡輸入的基本單元;
通過卷積神經(jīng)網(wǎng)絡的卷積層學習所述訓練數(shù)據(jù)的局部屬性;
通過卷積神經(jīng)網(wǎng)絡的池化層將所述局部屬性進行統(tǒng)計操作,獲得第二特征向量;
將所述第二特征向量輸入所述卷積神經(jīng)網(wǎng)絡的全連接層,利用分類器獲得非結(jié)構化數(shù)據(jù)分類結(jié)果。
所述的方法,其中,所述方法還包括:訓練所述卷積神經(jīng)網(wǎng)絡;
所述訓練所述卷積神經(jīng)網(wǎng)絡具體包括:
設卷積神經(jīng)網(wǎng)絡中可訓練參數(shù)為:θ=(w1,w2),其中w1為卷積核的參數(shù),應用如下優(yōu)化目標函數(shù):
其中,t為訓練的樣本數(shù)量;
構建p(i|x,θ)作為似然函數(shù),在給定x,θ的情況下,輸出提取的數(shù)據(jù)的屬性類別為i的概率通過如下算式計算:
使用梯度下降的方法求解可訓練參數(shù),w1,w2的值隨機初始化,通過向后傳播算法求導。
所述的方法,其中,所述通過卷積神經(jīng)網(wǎng)絡的卷積層學習所述訓練數(shù)據(jù)的局部屬性,具體包括:
通過若干個長度與所述多維向量的維度相同的卷積單元學習所述非結(jié)構對象的屬性特征;
其中,卷積過程通過如下算式表示:
ci=f(w1di+b),i=1,2,...,n
其中,w1表示卷積單元的權重,b表示其偏移量,f為非線性激活函數(shù);
對輸入的所有多維向量均進行所述卷積過程,獲得第一特征向量;所述第一特征向量為:c=[c1,c2,…,ci,...,cn]。
所述的方法,其中,所述通過卷積神經(jīng)網(wǎng)絡的池化層將所述局部屬性進行統(tǒng)計操作,獲得第二特征向量,具體包括:
進行最大池化操作,獲取所述第一特征向量的特征值,所述特征值為:
對每個卷積單元均執(zhí)行所述最大池化操作并將各個卷積單元的特征值連接生成第二特征向量;所述第二特征向量為:
一種大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng),其中,所述系統(tǒng)包括:
屬性生成模塊,用于獲取若干非結(jié)構化數(shù)據(jù)對象,并將所述非結(jié)構化數(shù)據(jù)對象的特征抽象為屬性;使用所述非結(jié)構話數(shù)據(jù)對象的所有屬性對應的多維向量表示所述非結(jié)構化數(shù)據(jù)對象;
卷積神經(jīng)網(wǎng)絡模塊,用于將所述多維向量作為卷積神經(jīng)網(wǎng)絡輸入的基本單元;通過卷積神經(jīng)網(wǎng)絡的卷積層學習所述訓練數(shù)據(jù)的局部屬性;通過卷積神經(jīng)網(wǎng)絡的池化層將所述局部屬性進行統(tǒng)計操作,獲得第二特征向量;以及將所述第二特征向量輸入所述卷積神經(jīng)網(wǎng)絡的全連接層,利用分類器獲得非結(jié)構化數(shù)據(jù)分類結(jié)果。
所述的系統(tǒng),其中,所述系統(tǒng)還包括:訓練模塊,用于訓練所述卷積神經(jīng)網(wǎng)絡;所述訓練過程具體包括:
設卷積神經(jīng)網(wǎng)絡中可訓練參數(shù)為:θ=(w1,w2),其中w1為卷積核的參數(shù),應用如下優(yōu)化目標函數(shù):
其中,t為訓練的樣本數(shù)量;
構建p(i|x,θ)作為似然函數(shù),在給定x,θ的情況下,輸出提取的數(shù)據(jù)的屬性類別為i的概率通過如下算式計算:
使用梯度下降的方法求解可訓練參數(shù),w1,w2的值隨機初始化,通過向后傳播算法求導。
所述的系統(tǒng),其中,所述卷積神經(jīng)網(wǎng)路模塊具體用于:通過若干個長度與所述多維向量的維度相同的卷積單元學習所述非結(jié)構對象的屬性特征;
其中,卷積過程通過如下算式表示:
ci=f(w1di+b),i=1,2,…,n
其中,w1表示卷積單元的權重,b表示其偏移量,f為非線性激活函數(shù);
對輸入的所有多維向量均進行所述卷積過程,獲得第一特征向量;所述第一特征向量為:c=[c1,c2,…,ci,…,cn]。
所述的系統(tǒng),其中,所述卷積神經(jīng)網(wǎng)路模塊具體用于:進行最大池化操作,獲取所述第一特征向量的特征值,所述特征值為:
對每個卷積單元均執(zhí)行所述最大池化操作并將各個卷積單元的特征值連接生成第二特征向量;所述第二特征向量為:
一種分布式數(shù)據(jù)平臺,其中,包括:若干個存儲設備組成的分布式存儲集群以及如上所述的大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng);
所述大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng)用于根據(jù)用戶指令,在所述分布式存儲集群中的存儲數(shù)據(jù)中提取與用戶指令對應的數(shù)據(jù)。
一種分布式數(shù)據(jù)管理方法,其中,包括:
以分布式技術存儲的大規(guī)模非結(jié)構化數(shù)據(jù);
通過如上所述的大規(guī)模非結(jié)構化數(shù)據(jù)提取方法,構建所述大規(guī)模非結(jié)構化數(shù)據(jù)的屬性維度;
接收用戶指令并根據(jù)所述屬性維度查詢與所述用戶指令對應的數(shù)據(jù)。
有益效果:本發(fā)明提供的大規(guī)模非結(jié)構化數(shù)據(jù)提取方法、其系統(tǒng)、分布式數(shù)據(jù)管理平臺,基于卷積神經(jīng)網(wǎng)絡的深度學習方法,有效克服了現(xiàn)有信息抽取算法,在應用進行大規(guī)模文本數(shù)據(jù)分析前,需要人工制定數(shù)據(jù)維度的弊端,對于結(jié)構化分析大規(guī)模非結(jié)構化文本數(shù)據(jù)這樣的復雜問題具有較好的效果。
附圖說明
圖1為本發(fā)明實施例提供的大規(guī)模非結(jié)構化數(shù)據(jù)提取方法的方法流程圖;
圖2為本發(fā)明實施例提供的非結(jié)構化數(shù)據(jù)的屬性分類示意圖;
圖3為本發(fā)明實施例提供的非結(jié)構化數(shù)據(jù)與屬性之間的關系示意圖;
圖4為本發(fā)明實施例提供的卷積神經(jīng)網(wǎng)絡模型的示意圖;
圖5為本發(fā)明實施例提供的大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng)的功能框圖;
圖6為本發(fā)明實施例提供的分布式數(shù)據(jù)平臺的系統(tǒng)架構圖。
具體實施方式
本發(fā)明提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。為使本發(fā)明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,為本發(fā)明實施例提供的大規(guī)模非結(jié)構化數(shù)據(jù)提取方法。所述方法包括如下步驟:
100:獲取若干非結(jié)構化數(shù)據(jù)對象,并將所述非結(jié)構化數(shù)據(jù)對象的特征抽象為屬性。通常,大規(guī)模非結(jié)構化數(shù)據(jù)主要可以包括四種類型:文本數(shù)據(jù)、圖片數(shù)據(jù)、音頻數(shù)據(jù)以及視頻數(shù)據(jù)。在本實施例中,將上述非結(jié)構化數(shù)據(jù)的每一種特征抽象為一個屬性。該屬性既可以是通過非結(jié)構化數(shù)據(jù)本身特征抽象得到,也可以是與另一個非結(jié)構化數(shù)據(jù)相關聯(lián)之后抽象得到的屬性。
200:使用所述非結(jié)構話數(shù)據(jù)對象的所有屬性對應的多維向量表示所述非結(jié)構化數(shù)據(jù)對象。
具體的,所述多維向量可以表示為:d=rm=(x1,x2,…,xm)=d。其中,d表示一個非結(jié)構話數(shù)據(jù)對象,rm表示一個多維數(shù)據(jù)空間,(x1,x2,…,xm)表示m維數(shù)據(jù)空間中的坐標。如圖2和3所示,每一個屬性為一個坐標軸。每個坐標xi表示該非結(jié)構數(shù)據(jù)的其中一個屬性。這樣的,可以用空間中唯一的多維向量表示d這個非結(jié)構數(shù)據(jù)的屬性,為了適應卷積神經(jīng)網(wǎng)絡模型的特性,將這個多維向量用d表示。
300:將所述多維向量作為卷積神經(jīng)網(wǎng)絡輸入的基本單元。圖4為本發(fā)明實施例提供的卷積神經(jīng)網(wǎng)絡模型的示意圖,典型的可以包括卷積層、池化層以及全連接層。其中,該卷積神經(jīng)網(wǎng)絡模型的輸入為上述多維的屬性向量d。
400:通過卷積神經(jīng)網(wǎng)絡的卷積層學習所述訓練數(shù)據(jù)的局部屬性。
在本實施例中,具體可以通過若干個長度與所述多維向量的維度相同的卷積單元學習所述非結(jié)構對象的屬性特征。
設數(shù)據(jù)總量為n,卷積過程通過算式(1)表示:
ci=f(w1di+b),i=1,2,…,n(1)
其中,w1表示卷積單元的權重,b表示其偏移量,f為非線性激活函數(shù)。該非線性激活函數(shù)具體可以采用多種合適的函數(shù),包括sigmoid、tanh或relu(rectifiedlinearunits)等。在本實施例中,可以采用relu作為激活函數(shù),其函數(shù)定義為:f(x)=max(0,x)。
然后對輸入的所有多維向量均進行所述卷積過程,獲得第一特征向量。所述第一特征向量為:c=[c1,c2,…,ci,…,cn]。此時,相當于學習了輸入的所有非結(jié)構化數(shù)據(jù)的局部屬性。
500:通過卷積神經(jīng)網(wǎng)絡的池化層將所述局部屬性進行統(tǒng)計操作,獲得第二特征向量。池化是指對步驟400中卷積后的局部屬性結(jié)果進行統(tǒng)計操作。具體可以采用平均池化或者最大池化的方法。在本實施例中,使用最大池化(max-over-timepooling),以保留屬性的最顯著的特征值
然后對每個卷積單元均執(zhí)行所述最大池化操作并將各個卷積單元的特征值連接生成第二特征向量。所述第二特征向量為:
600:將所述第二特征向量輸入所述卷積神經(jīng)網(wǎng)絡的全連接層,利用分類器獲得非結(jié)構化數(shù)據(jù)分類結(jié)果。將該第二特征向量輸入至全連接層后,可以利用分類器(例如softmax分類器)得到最終結(jié)果。
具體通過算式(2)計算:
o=w2z(2)
其中,w2∈rl×j是一個轉(zhuǎn)移矩陣,l是對非結(jié)構化數(shù)據(jù)對象的屬性分類的數(shù)量,輸出o是一個l維的向量,第i維就表示屬于第i類數(shù)據(jù)屬性的概率。
在本發(fā)明實施例中,使用所述卷積神經(jīng)網(wǎng)絡模型前,還需要使用樣本數(shù)據(jù)對其進行訓練。其具體的訓練過程為:
設卷積神經(jīng)網(wǎng)絡中可訓練參數(shù)為:θ=(w1,w2),其中w1為卷積核的參數(shù),應用算式(3)所示的優(yōu)化目標函數(shù):
其中,t為訓練的樣本數(shù)量;
構建p(i|x,θ)作為似然函數(shù),在給定x,θ的情況下,輸出提取的數(shù)據(jù)的屬性類別為i的概率通過如下算式計算:
使用梯度下降的方法求解可訓練參數(shù),w1,w2的值隨機初始化。求導的過程通過向后傳播算法,如算式(4)所示:
其中,η為學習效率。
圖5為本發(fā)明實施例提供的大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng)。所述系統(tǒng)包括:屬性生成模塊100,用于獲取若干非結(jié)構化數(shù)據(jù)對象,并將所述非結(jié)構化數(shù)據(jù)對象的特征抽象為屬性;使用所述非結(jié)構話數(shù)據(jù)對象的所有屬性對應的多維向量表示所述非結(jié)構化數(shù)據(jù)對象;以及卷積神經(jīng)網(wǎng)絡模塊200,用于將所述多維向量作為卷積神經(jīng)網(wǎng)絡輸入的基本單元;通過卷積神經(jīng)網(wǎng)絡的卷積層學習所述訓練數(shù)據(jù)的局部屬性;通過卷積神經(jīng)網(wǎng)絡的池化層將所述局部屬性進行統(tǒng)計操作,獲得第二特征向量;以及將所述第二特征向量輸入所述卷積神經(jīng)網(wǎng)絡的全連接層,利用分類器獲得非結(jié)構化數(shù)據(jù)分類結(jié)果。
具體的,如圖5所示,所述系統(tǒng)還包括:訓練模塊300,用于訓練所述卷積神經(jīng)網(wǎng)絡。所述訓練過程具體包括:
設卷積神經(jīng)網(wǎng)絡中可訓練參數(shù)為:θ=(w1,w2),其中w1為卷積核的參數(shù),應用如下優(yōu)化目標函數(shù):
其中,t為訓練的樣本數(shù)量;
構建p(i|x,θ)作為似然函數(shù),在給定x,θ的情況下,輸出提取的數(shù)據(jù)的屬性類別為i的概率通過如下算式計算:
使用梯度下降的方法求解可訓練參數(shù),w1,w2的值隨機初始化,通過向后傳播算法求導。
具體的,所述卷積神經(jīng)網(wǎng)路模塊200具體用于:通過若干個長度與所述多維向量的維度相同的卷積單元學習所述非結(jié)構對象的屬性特征;
其中,卷積過程通過如下算式表示:
ci=f(w1di+b),i=1,2,...,n
其中,w1表示卷積單元的權重,b表示其偏移量,f為非線性激活函數(shù);
對輸入的所有多維向量均進行所述卷積過程,獲得第一特征向量;所述第一特征向量為:c=[c1,c2,...,ci,...,cn]。
更具體的,所述卷積神經(jīng)網(wǎng)路模塊100具體用于:進行最大池化操作,獲取所述第一特征向量的特征值,所述特征值為:
對每個卷積單元均執(zhí)行所述最大池化操作并將各個卷積單元的特征值連接生成第二特征向量;所述第二特征向量為:
圖6為本發(fā)明實施例提供的一種分布式數(shù)據(jù)平臺的系統(tǒng)架構圖。在該系統(tǒng)中,包括用戶端10、主控制節(jié)點20以及若干個存儲設備組成的分布式存儲集群30。該分布式存儲集群使用如上所述的大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng),對各個數(shù)據(jù)節(jié)點存儲的數(shù)據(jù)進行查詢或者調(diào)用。所述大規(guī)模非結(jié)構化數(shù)據(jù)提取系統(tǒng)可以根據(jù)用戶指令,在所述分布式存儲集群中的存儲數(shù)據(jù)中提取與用戶指令對應的數(shù)據(jù)。
本發(fā)明實施例還進一步提供一種與圖6所示的分布式數(shù)據(jù)平臺對應的分布式數(shù)據(jù)管理方法。其包括:以云計算或者分布式等相類似的技術存儲或者管理大規(guī)模非結(jié)構化數(shù)據(jù)。然后,在運行過程中,通過如上所述的大規(guī)模非結(jié)構化數(shù)據(jù)提取方法,構建所述大規(guī)模非結(jié)構化數(shù)據(jù)的屬性維度。從而最終實現(xiàn)接收用戶指令并根據(jù)所述屬性維度查詢與所述用戶指令對應的數(shù)據(jù),使得非結(jié)構化數(shù)據(jù)為可查詢數(shù)據(jù)及確定其屬性。
可以理解的是,對本領域普通技術人員來說,可以根據(jù)本發(fā)明的技術方案及本發(fā)明構思加以等同替換或改變,而所有這些改變或替換都應屬于本發(fā)明所附的權利要求的保護范圍。