一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法及系統(tǒng),包括:步驟a:在Map?reduce分布式框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù)據(jù),并根據(jù)高階張量數(shù)據(jù)構(gòu)建初始的支持張量機分類模型;步驟b:以支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除,輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù);步驟c:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)對初始的支持張量機分類模型參數(shù)進行優(yōu)化,確定最終的支持張量機分類模型;步驟d:將測試樣本輸入到支持張量機分類模型進行分類。本發(fā)明可以有效提高分類模型的分類精度;且計算復(fù)雜度更低,保證分類模型能夠識別張量數(shù)據(jù)中的冗余信息,進一步提高分類模型的分類速度。
【專利說明】
一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于模式識別技術(shù)領(lǐng)域,尤其涉及一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 模式識別(Pattern Recognition),就是通過計算機用數(shù)學技術(shù)方法來研究模式 的自動處理和判讀。我們把環(huán)境與客體統(tǒng)稱為"模式"。隨著計算機技術(shù)的發(fā)展,人類有可能 研究復(fù)雜的信息處理過程。信息處理過程的一個重要形式是生命體對環(huán)境及客體的識別。 對人類來說,特別重要的是對光學信息(通過視覺器官來獲得)和聲學信息(通過聽覺器官 來獲得)的識別,這是模式識別的兩個重要方面。
[0003] 隨著計算機技術(shù)的不斷發(fā)展,模式識別技術(shù)逐漸由向量數(shù)據(jù)向多維模型轉(zhuǎn)變,問 題描述的支持數(shù)據(jù)也由單視角數(shù)據(jù)過渡到多個視角數(shù)據(jù),如醫(yī)學科學,基于臨床、免疫、影 像、血常規(guī)、尿常規(guī)和個體/群體的基因組組等數(shù)據(jù)評價病人或居民的健康狀況,這些數(shù)據(jù) 之間相互信息補充。通常將描述同一個問題的多個視角的數(shù)據(jù)統(tǒng)稱為多視角數(shù)據(jù)。
[0004]大數(shù)據(jù)時代的環(huán)境下,描述問題的數(shù)據(jù)愈發(fā)豐富多元,常常從多個不同角度描述 問題,如描述病人的健康狀況,有影像數(shù)據(jù),基因組數(shù)據(jù),血常規(guī)數(shù)據(jù),尿常規(guī)數(shù)據(jù)等等。根 據(jù)不同視角數(shù)據(jù)之間存在信息互補作用的原理,有機整合這些多視角數(shù)據(jù)能夠更全面地描 述問題,進而提高疾病診斷的精度。由于張量模型能夠有效表達數(shù)據(jù)的結(jié)構(gòu)信息,數(shù)據(jù)的表 達逐漸由傳統(tǒng)的向量模式過渡到張量模式。在模式識別、計算機可視化和圖像處理等研究 領(lǐng)域,數(shù)據(jù)經(jīng)常以張量模式儲存,譬如,灰度圖像是二階張量(矩陣)、彩色圖像是三階張量 等。不同于向量模式表示方法,張量模式表示能夠儲存更多向量模式無法表示的信息,如原 始數(shù)據(jù)的結(jié)構(gòu)信息、內(nèi)在依賴性等。但是,現(xiàn)有張量模式表達的數(shù)據(jù)冗余信息導(dǎo)致現(xiàn)有張量 分類算法的計算復(fù)雜度較高,且計算效率不高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法及系統(tǒng),旨在解決現(xiàn)有 的張量模式表達的數(shù)據(jù)冗余信息導(dǎo)致現(xiàn)有張量分類算法的計算復(fù)雜度較高,且計算效率不 高的技術(shù)問題。
[0006] 本發(fā)明實現(xiàn)方式如下,一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,包括以下步 驟:
[0007] 步驟a:在Map-reduce分布式框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量 數(shù)據(jù),并根據(jù)高階張量數(shù)據(jù)構(gòu)建初始的支持張量機分類模型;
[0008] 步驟b:以支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除, 輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù);
[0009] 步驟c:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)對初始的支持張量機分類模型參數(shù) 進行優(yōu)化,確定最終的支持張量機分類模型;
[0010]步驟d:將測試樣本輸入到支持張量機分類模型進行分類。
[0011]本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟a中,所述在Map-reduce分布式 框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù)據(jù)的運算方式包括以下步驟:
[0012]步驟al:確定Map過程中向量模式數(shù)據(jù)x(l)和維數(shù)為I的向量特征&張量模式數(shù)據(jù)X (2)的鍵值對;
[0013]步驟a2:執(zhí)行Map過程,輸出x (1)和X (2)的鍵值對;
[0014] 步驟a3 :將Map操作后的結(jié)果通過MapReduce編程框架的shuffle階段傳輸?shù)?Reduce 階段;
[0015] 步驟a4:確定reduce過程中的鍵值對;所述reduce的輸入鍵值對為Map的輸出鍵值 對;
[0016] 步驟a 5 : r e d u c e過程中,并行計算向量x ( 1 )與X ( 2 )的張量積運算: T 。尤(2>,輸出的鍵值對即為高階張量礦的鍵值對。
[0017]本發(fā)明實施例采取的技術(shù)方案還包括:所述步驟b還包括:在Map-reduce分布式框 架上根據(jù)交替投影算法迭代優(yōu)化得出初始的支持張量機分類模型的最優(yōu)參數(shù)。
[0018]本發(fā)明實施例采取的技術(shù)方案還包括:所述根據(jù)交替投影算法迭代優(yōu)化得出初始 的支持張量機分類模型的最優(yōu)參數(shù)的算法包括以下步驟:
[0019] 步驟bio:在Map-reduce分布式框架下初始化哪介張量中前(N-1)階的投影向量,根 據(jù)支持張量機分類模型求張量的第N階投影向量;其中,N為高階張量數(shù)據(jù)的階數(shù);
[0020] 步驟bll:確定第哪介投影向量的(key-value);
[0021]步驟bl 2:在Map-reduce分布式框架下更新張量的第N階投影向量,根據(jù)支持張量 機分類模型求張量的第(N-1)階投影向量;
[0022] 步驟bl3:確定第N-1階投影向量的(key-value);
[0023]步驟bl4:在Map-reduce分布式框架下更新張量的第(N-1)階投影向量,根據(jù)支持 張量機分類模型求張量的第(N-2)階投影向量;
[0024]步驟bl 5:在Map-reduce分布式框架下更新張量的第2階投影向量,根據(jù)支持張量 機分類模型求張量的第1階投影向量;
[0025] 步驟bl6:循環(huán)步驟blO至步驟bl5,直到支持張量機分類模型收斂,獲得支持張量 機分類模型的投影張量和偏移標量。
[0026] 本發(fā)明實施例采取的技術(shù)方案還包括:在所述步驟b中,所述以支持向量遞歸特征 消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除,輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù) 具體包括以下步驟:
[0027] 步驟b20:初始化保留特征的下標數(shù)據(jù),使保留特征的下標數(shù)據(jù)對應(yīng)視角 數(shù)據(jù)I(v)中的各個特征;
[0028]步驟b21:確定保留特征的總數(shù)p(v);
[0029] 步驟b22:計算保留特征對應(yīng)的權(quán)值數(shù)據(jù)你(v) ? ,.
[0030] 步驟b23 :對保留特征的秩確定(key-value),并計算各個保留特征的秩得分 riv} . =(w(v) . )2 W 乂V V 叫 A" ? 5
[0031 ] 步驟b24 :在Map-reduce分布式框架下遍歷各秩的得分,尋找最小的秩得分 〇rgmind...;A' h J.-, -Z:y: ? * 5
[0032]步驟b25:在保留特征的下標數(shù)據(jù)^~中剔除秩得分最低特征對應(yīng)的下標(h,i2,-_ In);
[0033] 步驟b26:循環(huán)步驟b20至步驟b25,直到length(yv)) < , .,
[0034] 步驟b27:輸出保留特征對應(yīng)的下標數(shù)據(jù)5(v) 〇
[0035] 本發(fā)明實施例采取的技術(shù)方案還包括:所述步驟c還包括:根據(jù)各視角數(shù)據(jù)保留特 征的下標數(shù)據(jù)J00剔除測試樣本的冗余信息。
[0036] 本發(fā)明實施例采取的另一技術(shù)方案為:一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化系 統(tǒng),包括張量積運算模塊、分類模型構(gòu)建模塊、特征消除模塊、分類模型優(yōu)化模塊和數(shù)據(jù)分 類模塊;
[0037] 所述張量積運算模塊用于在Map-reduce分布式框架下對多視角數(shù)據(jù)進行張量積 運算,得到高階張量數(shù)據(jù);
[0038] 所述分類模型構(gòu)建模塊用于根據(jù)高階張量數(shù)據(jù)構(gòu)建初始的支持張量機分類模型;
[0039] 所述特征消除模塊用于以支持向量遞歸特征消除算法在原始空間進行各個視角 數(shù)據(jù)的特征消除,輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù);
[0040] 所述分類模型優(yōu)化模塊用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)對初始的支持 張量機分類模型參數(shù)進行優(yōu)化,確定最終的支持張量機分類模型;
[0041] 所述數(shù)據(jù)分類模塊用于將測試樣本輸入到支持張量機分類模型進行分類。
[0042] 本發(fā)明實施例采取的技術(shù)方案還包括:還包括交替投影算法模塊,所述交替投影 算法模塊用于在Map-reduce分布式框架上根據(jù)交替投影算法迭代優(yōu)化得出初始的支持張 量機分類模型的最優(yōu)參數(shù)。
[0043] 本發(fā)明實施例采取的技術(shù)方案還包括:所述特征消除模塊以支持向量遞歸特征消 除算法在原始空間進行各個視角數(shù)據(jù)的特征消除的消除方式為:初始化保留特征的下標數(shù) 據(jù)使保留特征的下標數(shù)據(jù)對應(yīng)視角數(shù)據(jù)x(v)中的各個特征;確定保留特征的總數(shù) P(v);計算保留特征對應(yīng)的權(quán)值數(shù)據(jù)做(_V)丨對保留特征的秩確定(key-value),并計算各個 保留特征的秩得分41...& = (MX.、.)2 .在Map-reduce分布式框架下遍歷各秩的得分, ,. (V) _ ... (V) 尋找最小的秩得分保留特征的下標數(shù)據(jù)/v)中剔除秩得分最低 特征對應(yīng)的下標(1142廣士);并循環(huán)處理直到1€_1:110(1;);)<$ (1〇后,輸出保留特征對 應(yīng)的下標數(shù)據(jù) D
[0044] 本發(fā)明實施例采取的技術(shù)方案還包括:還包括信息剔除模塊,所述信息剔除模塊 用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)$(v)剔除測試樣本的冗余信息。
[0045] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明實施例的基于張量模式的多源 數(shù)據(jù)分類優(yōu)化方法及系統(tǒng)通過在Map-reduce分布式框架下構(gòu)建高階張量數(shù)據(jù),從而快速計 算高階張量數(shù)據(jù),保證大數(shù)據(jù)計算過程的高效性;采用原始數(shù)據(jù)為不同數(shù)據(jù)源的多視角數(shù) 據(jù),有效提高分類模型的分類精度;選擇支持張量機作為構(gòu)建的初始分類模型,提高分類精 度的同時,更加適合小樣本問題,避免過學習等問題;并通過利用支持向量機遞歸特征消除 算法在原始空間進行特征選擇,計算復(fù)雜度更低,保證分類模型能夠識別張量數(shù)據(jù)中的冗 余信息,進一步提高分類模型的分類速度。
【附圖說明】
[0046] 圖1是本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法的流程圖;
[0047] 圖2是本發(fā)明實施例構(gòu)建的高階張量數(shù)據(jù)的規(guī)模效果圖;
[0048] 圖3是本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0049] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不 用于限定本發(fā)明。
[0050] 請參閱圖1,是本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法的流程圖。 本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法包括以下步驟:
[0051 ] 步驟100:將多視角數(shù)據(jù)引入統(tǒng)一的張量積空間,并在Map-reduce分布式框架下對 多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù)據(jù);
[0052] 在步驟100中,Map-Reduce是Google開發(fā)的一種并行分布式計算模型,用于大規(guī)模 數(shù)據(jù)集(大于1TB)的并行運算,概念"Map(映射)〃和"Reduce(歸約)〃和它們的主要思想,都 是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。Map-Reduce極大地方 便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。本發(fā) 明通過在Map-reduce分布式框架下構(gòu)建高階張量數(shù)據(jù),從而快速計算高階張量數(shù)據(jù),保證 大數(shù)據(jù)計算過程的高效性;本發(fā)明實施例中,采用原始數(shù)據(jù)為不同數(shù)據(jù)源的多視角數(shù)據(jù),分 別從不同的角度描述目標問題,而且各個視角數(shù)據(jù)之間存在信息互補的效果,所以所收集 的原始多視角數(shù)據(jù)的信息量特別豐富,全面綜合描述目標問題,有效提高分類模型的分類 精度。
[0053]為了清楚說明步驟100,本發(fā)明實施例以2源多視角數(shù)據(jù)(向量模式數(shù)據(jù)x(l):維數(shù) 為I的向量特征&張量模式數(shù)據(jù)X(2): J X K矩陣特征)為例,在Map-reduce分布式框架下構(gòu)建 高階張量數(shù)據(jù)的方法包括以下步驟:
[0054] 步驟101:確定1&口過程中1(1)和乂(2)的鍵值對(1^7-¥31116)。其中^(1)的索引 (1^7)為;[£{1,2,...,1},對應(yīng)著1(1)中元素:^_15的數(shù)值¥31116:"4)^(2)的索弓丨(1^7)為
[(k-1)*M+j ],對應(yīng)著X(2)中元素〇勺數(shù)值value: ;
[0055] 步驟102:執(zhí)行Map過程,輸出x(l)和X(2)的鍵值對(key-value);此時,x(l)的key 變?yōu)閕與數(shù)值JCp以字符串的形式鏈接:(1,41))^&11^不變,同理4(2)的1?^變?yōu)椋╗仏-1)* M+j ],xjj ),value 不變;
[0056] 步驟103 :將Map操作后的結(jié)果通過MapReduce編程框架的shuffle階段傳輸?shù)?Reduce 階段;
[0057] 步驟104:確定reduce過程中的鍵值對;其中,reduce的輸入鍵值對為Map的輸出鍵 值對;
[0058] 步驟105 : reduce過程中,并行計算向量x (1)與X( 2 )的張量積(外積)運算: T = x(1)。1(2\輸出的鍵值對即為高階張量實的鍵值對;
[0059]在步驟105中,若I = 3,J = 3,K = 4,則構(gòu)建所述的高階張量數(shù)據(jù)的規(guī)模為三階張量 數(shù)據(jù)(3x3x4),具體如圖2所示,是本發(fā)明實施例構(gòu)建的高階張量數(shù)據(jù)的規(guī)模效果圖。
[0060]步驟200:以高階張量數(shù)據(jù)為輸入,構(gòu)建初始的支持張量機(Support Tensor Machine, STM)分類模型;
[0061]在步驟200中,本發(fā)明選擇支持張量機作為構(gòu)建的初始分類模型,該模型能夠直接 在張量領(lǐng)域處理張量數(shù)據(jù),有效分析利用結(jié)構(gòu)信息,提高分類精度,同時,相比向量分類模 型,其參數(shù)較少,更加適合小樣本問題,避免過學習等問題;例如,將256*256的二階張量數(shù) 據(jù)轉(zhuǎn)化為向量數(shù)據(jù),其維數(shù)256*256 = 65536,同時丟失了各個mode之間的內(nèi)在相關(guān)性。支持 張量積直接處理張量數(shù)據(jù),其模型參數(shù)為256+256 = 512個,而支持向量機處理后的數(shù)據(jù),對 應(yīng)的模型參數(shù)為65536個,而現(xiàn)實中能夠采集的樣本量較少,難免出現(xiàn)小樣本問題。
[0062]步驟300:在Map-reduce分布式框架上根據(jù)交替投影算法迭代優(yōu)化得出初始的支 持張量機分類模型的最優(yōu)參數(shù);
[0063]具體地,本發(fā)明實施例的根據(jù)交替投影算法迭代優(yōu)化得出支持張量機分類模型的 最優(yōu)參數(shù)的方法包括以下步驟:
[0064] 步驟301:在Map-reduce分布式框架下初始化哪介張量中前(N-1)階的投影向量,根 據(jù)支持張量機分類模型求張量的第N階投影向量;其中,N為高階張量數(shù)據(jù)的階數(shù);
[0065] 步驟302:確定第哪介投影向量的(key-value);
[0066]步驟303:在Map-reduce分布式框架下更新張量的第N階投影向量,根據(jù)支持張量 機分類模型求張量的第(N-1)階投影向量;
[0067] 步驟304:確定第N-1階投影向量的(key-value);
[0068] 步驟305:在Map-reduce分布式框架下更新張量的第(N-1)階投影向量,根據(jù)支持 張量機分類模型求張量的第(N-2)階投影向量;
[0069] 步驟306:以此類推,在Map-reduce分布式框架下更新張量的第2階投影向量,根據(jù) 支持張量機分類模型求張量的第1階投影向量;
[0070]步驟307:循環(huán)步驟301至步驟306,直到支持張量機分類模型收斂為止,獲得支持 張量機分類模型的投影張量和偏移標量。
[0071 ] 步驟400:在Map-reduce分布式框架下,以支持向量遞歸特征消除算法(SMV-RFE) 在原始空間進行各個視角數(shù)據(jù)的特征消除,并輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)J(V); [0072]在步驟400中,支持向量機遞歸特征消除算法的主要思想是根據(jù)支持向量機(SVM) 在訓練過程輸出的權(quán)值向量W來構(gòu)造特征排序系數(shù),每次迭代刪去一個排序系數(shù)最小的特 征,最后得到前k個最大排序系數(shù)的特征子集。本發(fā)明通過利用支持向量機遞歸特征消除算 法在原始空間進行特征選擇,相比在張量積空間進行特征選擇,參數(shù)更少,計算復(fù)雜度較 低,保證分類模型能夠識別張量數(shù)據(jù)中的冗余信息,進一步提高分類模型的分類速度。
[0073] 假設(shè)正在循環(huán)的某維視角數(shù)據(jù)為N階張量數(shù)據(jù)X(v) e ,以支持向量遞歸 特征消除算法在各個視角數(shù)據(jù)v迭代循環(huán)過程包括以下步驟:
[0074] 步驟401:初始化保留特征的下標數(shù)據(jù)J(v\,使保留特征的下標數(shù)據(jù)$@對應(yīng)視角 數(shù)據(jù)(v)中的各個特征(義(v)與>規(guī)模、類型一致);
[0075]步驟402:確定保留特征的總數(shù)p(v);
[0076] 步驟403:計算保留特征對應(yīng)的權(quán)值數(shù)據(jù)你<1);
[0077] 步驟404 :對保留特征的秩確定(key-value),并計算各個保留特征的秩得分 r.(v) . =(w(v) . )2
[0078] 步驟405 :在Map-reduce分布式框架下遍歷各秩的得分,尋找最小的秩得分 =arg_ ~ i ?
[0079] 步驟406:在保留特征的下標數(shù)據(jù)中剔除秩得分最低特征對應(yīng)的下標(h,i2,… In);
[0080] 步驟407:循環(huán)步驟402至步驟406,直到length(5(i'})乞".
[0081] 步驟408:輸出保留特征對應(yīng)的下標數(shù)據(jù)5(V} 0
[0082] 步驟500:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)進一步優(yōu)化初始的支持張量 機分類模型參數(shù),并確定最終的支持張量機分類模型;
[0083] 在步驟500中,根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)J(v),剔除冗余特征對應(yīng)的參 數(shù),得到各視角數(shù)據(jù)分別對應(yīng)的最終的投影,從而得到最終的支持張量機分類模型; 決策函數(shù)為/(1)=海"(rr__1<w(vwv)>+^其中第 v視角數(shù)據(jù)x(v)若為向量,其投影w(v)亦為向量,同理x(v)若為張量,其投影w(v)亦為張量。
[0084] 步驟600:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)剔除測試樣本的冗余信息;
[0085] 步驟700:將剔除冗余信息的測試樣本輸入到支持張量機分類模型,通過支持張量 機分類模型對測試樣本進行分類。
[0086] 請參閱圖3,是本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng)的結(jié)構(gòu)示 意圖。本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng)包括張量積運算模塊、分類 模型構(gòu)建模塊、交替投影算法模塊、特征消除模塊、分類模型優(yōu)化模塊、信息剔除模塊和數(shù) 據(jù)分類模塊;
[0087] 張量積運算模塊用于將多視角數(shù)據(jù)引入統(tǒng)一的張量積空間,并在Map-reduce分布 式框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù)據(jù);其中,本發(fā)明實施例以2源多 視角數(shù)據(jù)(向量模式數(shù)據(jù)x(l):維數(shù)為I的向量特征&張量模式數(shù)據(jù)X(2):JXK矩陣特征)為 例,在Map-reduce分布式框架下構(gòu)建高階張量數(shù)據(jù)的方式具體為:確定Map過程中x( 1)和X (2)的鍵值對(key-value); x(1)的索弓丨(key)為i G {1,2,. . .,I},對應(yīng)著x(1)中元素.if}的 數(shù)值value: X(2)的索引(key)為[(k-1) *M+j ],對應(yīng)著X(2)中元素〇勺數(shù)值value : ,執(zhí)行Map過程,輸出x(l)和X(2)的鍵值對(key-value);此時,x(l)的key變?yōu)閕與數(shù)值 x;(1 >以字符串的形式鏈接:(i,JCp),value不變,同理,X⑵的key變?yōu)椋╗(k-1 )*M+j ],xg), value不變;將Map操作后的結(jié)果通過MapReduce編程框架的shuffle階段傳輸?shù)絉educe階 段;確定reduce過程中的鍵值對;其中,reduce的輸入鍵值對為Map的輸出鍵值對;reduce過 程中,并行計算向量X(l)與X(2)的張量積(外積)運算:€ = 1(1)。:1(2),輸出的鍵值對即為 高階張量纊的鍵值對。
[0088]分類模型構(gòu)建模塊用于以高階張量數(shù)據(jù)為輸入,構(gòu)建初始的支持張量機分類模 型;其中,本發(fā)明選擇支持張量機作為構(gòu)建的初始分類模型,該模型能夠直接在張量領(lǐng)域處 理張量數(shù)據(jù),有效分析利用結(jié)構(gòu)信息,提高分類精度,同時,相比向量分類模型,其參數(shù)較 少,更加適合小樣本問題,避免過學習等問題;例如,將256*256的二階張量數(shù)據(jù)轉(zhuǎn)化為向量 數(shù)據(jù),其維數(shù)256*256 = 65536,同時丟失了各個mode之間的內(nèi)在相關(guān)性。支持張量積直接處 理張量數(shù)據(jù),其模型參數(shù)為256+256 = 512個,而支持向量機處理后的數(shù)據(jù),對應(yīng)的模型參數(shù) 為65536個,而現(xiàn)實中能夠采集的樣本量較少,難免出現(xiàn)小樣本問題。
[0089]交替投影算法模塊用于在Map-reduce分布式框架上根據(jù)交替投影算法迭代優(yōu)化 得出初始的支持張量機分類模型的最優(yōu)參數(shù);其中,本發(fā)明實施例的根據(jù)交替投影算法迭 代優(yōu)化得出支持張量機分類模型的最優(yōu)參數(shù)的方式為:在Map-reduce分布式框架下初始化 N階張量中前(N-1)階的投影向量,根據(jù)支持張量機分類模型求張量的第N階投影向量;其 中,N為高階張量數(shù)據(jù)的階數(shù);確定第N階投影向量的(key-value);在Map-reduce分布式框 架下更新張量的第N階投影向量,根據(jù)支持張量機分類模型求張量的第(N-1)階投影向量; 確定第N-1階投影向量的(key-value);在Map-reduce分布式框架下更新張量的第(N-1)階 投影向量,根據(jù)支持張量機分類模型求張量的第(N-2)階投影向量;以此類推,在Map-reduce 分布式框架下更新張量的第 2 階投影向量,根據(jù)支持張量機分類模型求張量的第 1 階 投影向量,并循環(huán)至支持張量機分類模型收斂為止,獲得支持張量機分類模型的投影張量 和偏移標量。
[0090]特征消除模塊用于在Map-reduce分布式框架下,以支持向量遞歸特征消除算法 (SMV-RFE)在原始空間進行各個視角數(shù)據(jù)的特征消除,并輸出各視角數(shù)據(jù)保留特征的下標 數(shù)據(jù)?其中,假設(shè)正在循環(huán)的某維視角數(shù)據(jù)為N階張量數(shù)據(jù)JT(V) ei?/lX/;x''+/N,以支持向 量遞歸特征消除算法在各個視角數(shù)據(jù)v迭代循環(huán)方式為:初始化保留特征的下標數(shù)據(jù) 使保留特征的下標數(shù)據(jù)對應(yīng)視角數(shù)據(jù)1@中的各個特征與規(guī)模、類型一致); 確定保留特征的總數(shù)P(v);計算保留特征對應(yīng)的權(quán)值數(shù)據(jù)對保留特征的秩確定(key- value),并計算各個保留特征的秩得分<2,..、. _= 在Map-reduce分布式框架 " ? (.V *) * (飛') 下遍歷各秩的得分,尋找最小的秩得分在保留特征的下標數(shù)據(jù)#v) ^ , 中剔除秩得分最低特征對應(yīng)的下標(h,i2,…iN);并循環(huán)處理直到lengthC^ 11) < i?(v) 后,輸出保留特征對應(yīng)的下標數(shù)據(jù)61(v) 〇
[0091] 分類模型優(yōu)化模塊用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)?1^進一步優(yōu)化初 始的支持張量機分類模型參數(shù),并確定最終的支持張量機分類模型;其中,根據(jù)各視角數(shù)據(jù) 保留特征的下標數(shù)據(jù).S W,剔除冗余特征對應(yīng)的參數(shù),得到各視角數(shù)據(jù)分別對應(yīng)的最終的投 影矽w,從而得到最終的支持張量機分類模型;決策函數(shù)為/(幻=掩"(til < wu1'1 >+&), 其中第V視角數(shù)據(jù)X(v)若為向量,其投影W(v)亦為向量,同理x(v)若為張量,其投影w (v)亦為張 量。
[0092] 信息剔除模塊用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)5(1;)剔除測試樣本的冗 余信息;
[0093] 數(shù)據(jù)分類模塊用于將剔除冗余信息的測試樣本輸入到支持張量機分類模型,通過 支持張量機分類模型對測試樣本進行分類。
[0094]本發(fā)明實施例的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法及系統(tǒng)通過在Map-reduce分布式框架下構(gòu)建高階張量數(shù)據(jù),從而快速計算高階張量數(shù)據(jù),保證大數(shù)據(jù)計算過 程的高效性;采用原始數(shù)據(jù)為不同數(shù)據(jù)源的多視角數(shù)據(jù),有效提高分類模型的分類精度;選 擇支持張量機作為構(gòu)建的初始分類模型,提高分類精度的同時,更加適合小樣本問題,避免 過學習等問題;并通過利用支持向量機遞歸特征消除算法在原始空間進行特征選擇,計算 復(fù)雜度更低,保證分類模型能夠識別張量數(shù)據(jù)中的冗余信息,進一步提高分類模型的分類 速度。
[0095]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之。
【主權(quán)項】
1. 一種基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,包括W下步驟: 步驟a:在Map-reduce分布式框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù) 據(jù),并根據(jù)高階張量數(shù)據(jù)構(gòu)建初始的支持張量機分類模型; 步驟b: W支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除,輸出 各視角數(shù)據(jù)保留特征的下標數(shù)據(jù); 步驟C:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)對初始的支持張量機分類模型參數(shù)進行 優(yōu)化,確定最終的支持張量機分類模型; 步驟d:將測試樣本輸入到支持張量機分類模型進行分類。2. 根據(jù)權(quán)利要求1所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,其特征在于,在所述 步驟a中,所述在Map-reduce分布式框架下對多視角數(shù)據(jù)進行張量積運算,得到高階張量數(shù) 據(jù)的運算方式包括W下步驟: 步驟al:確定Map過程中向量模式數(shù)據(jù)X(I)和維數(shù)為I的向量特征的長量模式數(shù)據(jù)X(2) 的鍵值對; 步驟曰2:執(zhí)行Map過程,輸出X (1)和X (2)的鍵值對; 步驟曰3:將Map操作后的結(jié)果通過MapReduce編程框架的shuffle階段傳輸?shù)絉educe階 段; 步驟日4:確定reduce過程中的鍵值對;所述reduce的輸入鍵值對為Map的輸出鍵值對; 步驟曰5: reduce過程中,并行計算向量X (1)與X(2)的張量積運算:。輸出 的鍵值對即為高階張量爭的鍵值對。3. 根據(jù)權(quán)利要求2所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,其特征在于,所述步 驟b還包括:在Map-reduce分布式框架上根據(jù)交替投影算法迭代優(yōu)化得出初始的支持張量 機分類模型的最優(yōu)參數(shù)。4. 根據(jù)權(quán)利要求3所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,其特征在于,所述根 據(jù)交替投影算法迭代優(yōu)化得出初始的支持張量機分類模型的最優(yōu)參數(shù)的算法包括W下步 驟: 步驟blO:在Map-reduce分布式框架下初始化N階張量中前(N-I)階的投影向量,根據(jù)支 持張量機分類模型求張量的第N階投影向量;其中,N為高階張量數(shù)據(jù)的階數(shù); 步驟bl 1:確定第N階投影向量的化ey-value); 步驟bl 2:在Map-reduce分布式框架下更新張量的第N階投影向量,根據(jù)支持張量機分 類模型求張量的第(N-I)階投影向量; 步驟bl3:確定第N-I階投影向量的化巧-value); 步驟bl4:在Map-reduce分布式框架下更新張量的第(N-I)階投影向量,根據(jù)支持張量 機分類模型求張量的第(N-2)階投影向量; 步驟bl 5:在Map-reduce分布式框架下更新張量的第2階投影向量,根據(jù)支持張量機分 類模型求張量的第1階投影向量; 步驟bl6:循環(huán)步驟blO至步驟bl5,直到支持張量機分類模型收斂,獲得支持張量機分 類模型的投影張量和偏移標量。5. 根據(jù)權(quán)利要求1所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,其特征在于,在所述 步驟b中,所述W支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除,輸 出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)具體包括W下步驟: 步驟b20:初始化保留特征的下標數(shù)據(jù)玄W >使保留特征的下標數(shù)據(jù)對應(yīng)視角數(shù)據(jù) 中的各個特征; 步驟b21:確定保留特征的總數(shù)pW; 步驟b22:計算保留特征對應(yīng)的權(quán)值數(shù)據(jù); 步驟b23:對保留特征的秩確定(key-value),并計算各個保留特征的秩得分iuce分布式框架下遍歷各秩的得分,尋找最小的秩得分 步驟b25:在保留特征的下標數(shù)據(jù)戶"> 中剔除秩得分最低特征對應(yīng)的下標(ii,i2,…iN); 步驟b26:循環(huán)步驟b20至步驟b25,直菌步驟b27:輸出保留特征對應(yīng)的下標數(shù)據(jù)又W0.6. 根據(jù)權(quán)利要求5所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化方法,其特征在于,所述步 驟C還包括:根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)j'W剔除測試樣本的冗余信息。7. -種基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng),其特征在于,包括張量積運算模塊、分 類模型構(gòu)建模塊、特征消除模塊、分類模型優(yōu)化模塊和數(shù)據(jù)分類模塊; 所述張量積運算模塊用于在Map-reduce分布式框架下對多視角數(shù)據(jù)進行張量積運算, 得到高階張量數(shù)據(jù); 所述分類模型構(gòu)建模塊用于根據(jù)高階張量數(shù)據(jù)構(gòu)建初始的支持張量機分類模型; 所述特征消除模塊用于W支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù) 的特征消除,輸出各視角數(shù)據(jù)保留特征的下標數(shù)據(jù); 所述分類模型優(yōu)化模塊用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)對初始的支持張量 機分類模型參數(shù)進行優(yōu)化,確定最終的支持張量機分類模型; 所述數(shù)據(jù)分類模塊用于將測試樣本輸入到支持張量機分類模型進行分類。8. 根據(jù)權(quán)利要求7所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng),其特征在于,還包括 交替投影算法模塊,所述交替投影算法模塊用于在Map-reduce分布式框架上根據(jù)交替投影 算法迭代優(yōu)化得出初始的支持張量機分類模型的最優(yōu)參數(shù)。9. 根據(jù)權(quán)利要求8所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng),其特征在于,所述特 征消除模塊W支持向量遞歸特征消除算法在原始空間進行各個視角數(shù)據(jù)的特征消除的消 除方式為:初始化保留特征的下標數(shù)據(jù)文W,使保留特征的下標數(shù)據(jù)公,4對應(yīng)視角數(shù)據(jù) 中的各個特征;確定保留特征的總數(shù)PW ;計算保留特征對應(yīng)的權(quán)值數(shù)據(jù)睞W 對保留 特征的秩確定(key-value ),并計算各個保留特征的秩得4E Map-reduce分布式框架下遍歷各秩的得分,尋找最小的秩得《在 保留特征的下標數(shù)據(jù)、中剔除秩得分最低特征對應(yīng)的下標-Jn);并循環(huán)處理直到旨,輸出保留特征對應(yīng)的下標數(shù)據(jù)jW O10.根據(jù)權(quán)利要求9所述的基于張量模式的多源數(shù)據(jù)分類優(yōu)化系統(tǒng),其特征在于,還包 括信息剔除模塊,所述信息剔除模塊用于根據(jù)各視角數(shù)據(jù)保留特征的下標數(shù)據(jù)剔除測 試樣本的冗余信息。
【文檔編號】G06K9/62GK105913085SQ201610223152
【公開日】2016年8月31日
【申請日】2016年4月12日
【發(fā)明人】王書強, 劉志華, 胡勇, 郭毅可, 曾德威, 盧哲
【申請人】中國科學院深圳先進技術(shù)研究院