一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法
【專利摘要】本發(fā)明涉及一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法。該方法包括兩個(gè)模型,一個(gè)為異構(gòu)流形平滑學(xué)習(xí)(HMSL)模型,另一個(gè)為基于相關(guān)性的多源冗余縮減(CMRR)模型。其中,HMSL模型將多源異構(gòu)數(shù)據(jù)線性投影到一個(gè)低維特征同構(gòu)空間,并在這個(gè)空間中,使信息相關(guān)描述的流形距離更近,而語義互補(bǔ)樣本的歐氏距離更近;CMRR模型利用基于梯度能量競爭策略的廣義初等變換約束,在由HMSL模型學(xué)習(xí)得來的特征同構(gòu)空間中,消除多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu)性。本發(fā)明能夠消除多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu)性,進(jìn)而精簡多源異構(gòu)數(shù)據(jù)的冗余源。
【專利說明】
一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,針對(duì)海量多源異構(gòu)冗余數(shù)據(jù)環(huán)境下的三向冗余和雙層 異構(gòu)問題,提出了一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法。
【背景技術(shù)】
[0002] 近年來,隨著大量高技術(shù)數(shù)碼產(chǎn)品的出現(xiàn),由這些異源電子設(shè)備產(chǎn)生的多源異構(gòu) 數(shù)據(jù)(felti-source Heterogeneous Data)己經(jīng)遍布到人們現(xiàn)實(shí)生活的各個(gè)角落。所謂多 源異構(gòu)數(shù)據(jù)是指來自不同來源或者渠道,但表達(dá)的內(nèi)容相似,以不同形式、不同模態(tài)、不同 視角和不同背景等多種樣式出現(xiàn)的數(shù)據(jù)。例如,新浪微博、騰訊微信和搜狐網(wǎng)站關(guān)于相同的 新聞的不同形式的報(bào)道;老年癡呆癥(Al zhe imer)患者的大腦可以由核磁共振(MRI)、正電 子成像技術(shù)(PET)和X光產(chǎn)生多種不同視角的醫(yī)學(xué)成像;Wikipedia網(wǎng)站上對(duì)花豹的描述采 用了圖片、文本和語音等不同模態(tài)的媒介;相同的建筑物白宮可以處在不同的背景之下。
[0003] 然而,由于不恰當(dāng)?shù)奶卣魈崛?、不正確的數(shù)據(jù)存儲(chǔ)和隨機(jī)事件等原因,并不是所有 的樣本描述都是客觀現(xiàn)實(shí)的簡潔高效反映,從而不可避免地導(dǎo)致多源異構(gòu)冗余數(shù)據(jù)的存 在。不同于重復(fù)數(shù)據(jù),多源冗余數(shù)據(jù)指的是那些會(huì)嚴(yán)重影響學(xué)習(xí)器性能的數(shù)據(jù)。因此,國內(nèi) 外的研究人員提出了一些多源冗余數(shù)據(jù)的去冗余方法。這些方法主要分為兩類,一類為維 度縮減(Dimension Reduction)方法,另一類為樣本選擇(Sample Selection)方法。
[0004] 近年來,國內(nèi)外的研究人員設(shè)計(jì)了各種各樣的多源維度縮減方法,基于底層特征 之間的相關(guān)性,進(jìn)行特征選擇,降低多源數(shù)據(jù)的維度,去除多源數(shù)據(jù)中的冗余特征,節(jié)省存 儲(chǔ)空間和計(jì)算時(shí)間。
[0005] Christoudias等人提出了一種基于分布編碼的無監(jiān)督多源圖片特征選擇(Joint Feature Histogram Model,JFHM)算法。該方法利用統(tǒng)計(jì)不同來源信息的高斯處理模型過 濾不同來源數(shù)據(jù)中的冗余信息,并在接收端獲取多源數(shù)據(jù)的聯(lián)合編碼,以降低數(shù)據(jù)維度,提 高對(duì)象識(shí)別準(zhǔn)確率。然而,JFHM算法只能用來處理多源圖片冗余。(參考文獻(xiàn):C. Mario Christoudias,Raquel Urtasun,Trevor Darrell.Unsupervised feature selection via distributed coding for multi-view object recognition.IEEE International Conference on Computer Vision and Pattern Recognition 2008:1-8.)
[0006] Zhu等人提出了一種多源典型特征選擇(Multi-modality Canonical Feature SeleCti〇n,MCFS)方法,利用不同來源之間的相關(guān)性,將不同來源的特征投影到由CCA誘導(dǎo) 的典型空間中,從而實(shí)現(xiàn)多源典型特征選擇。MCFS方法將不同來源間的相關(guān)信息,整合到稀 疏多任務(wù)學(xué)習(xí) (Sparse Multi-Task Learning)中。MCFS方法首先利用CCA獲取典型特征空 間的典型基向量,再將不同來源的異構(gòu)描述嵌入到這個(gè)空間中,并利用帶有典型正規(guī)化項(xiàng) 的稀疏多任務(wù)學(xué)習(xí)篩選典型特征。然而,MCFS方法本身無法處理異構(gòu)數(shù)據(jù),必需借助CCA方 法,才能進(jìn)行關(guān)聯(lián)分析,消除冗余。(參考文獻(xiàn):Xiaof eng Zhu,Heung-II Suk,Dinggang Shen.Multi-modality Canonical Feature Selection for Alzheimer's Disease Diagnosis.Springer Medical Image Computing and Computer-Assisted Intervention (2)2014:162-169.)
[0007] 而Lan和Huan提出了一種降低無標(biāo)簽樣本的復(fù)雜度的半監(jiān)督多源學(xué)習(xí) (Reducing the Unlabeled Sample Complexity of Semi-Supervised Multi-view Learning, RUSCSSML)方法。在半監(jiān)督學(xué)習(xí)中,同時(shí)利用有標(biāo)簽樣本和無標(biāo)簽樣本訓(xùn)練分類器。而樣本 復(fù)雜度(Sample Complexity)是訓(xùn)練樣本有效性的通用度量標(biāo)準(zhǔn)。Lan和Huan將這兩類樣本 的復(fù)雜度定義為有標(biāo)簽樣本復(fù)雜度(Labeled Sample Complexity,LSC)和無標(biāo)簽樣本復(fù)雜 度(Un I abe I ed Samp I e Comp I ex i ty,USC)兩類。在松弛條件下,RUSCSSML方法將USC從0 (1 / ε)降低到〇(l〇g(l/e))(ε為錯(cuò)誤率)Ian和Huan在理論上證明了分類器的泛化錯(cuò)誤率和不 兼容性之間的聯(lián)系。并證明了在半監(jiān)督多源學(xué)習(xí)中,如具備大量無標(biāo)簽樣本,就可以學(xué)習(xí)到 一個(gè)不兼容性較低的分類器。通過結(jié)合這兩項(xiàng)理論證明,Lan和Huan進(jìn)一步證明了半監(jiān)督多 源學(xué)習(xí)的可能近似正確(Probably Approximately Correct,PAC)的學(xué)習(xí)范圍。然而,上述 方法卻無法得到不同來源間的共享描述。(參考文獻(xiàn):Chao Lan and Jun Huan.Reducing the Unlabeled Sample Complexity of Semi-Supervised Multi-View Learning.ACM SIGKDD International Conference Knowledge Discovery Data Mining,2015:627-634.)
[0008] Guo等人提出了一種用于跨語言文本分類的低維子空間協(xié)同正規(guī)化多源學(xué)習(xí) (Subspace Co-regularized Multi-view Learning,SCML)方法。該方法基于機(jī)器翻譯的平 行語料庫,聯(lián)合最小化每個(gè)來源上的分類器的訓(xùn)練誤差,并同時(shí)最小化低維子空間中描述 間的距離。Guo等人假設(shè)一篇文檔(源語言(Source Language))和其翻譯文本(目標(biāo)語言 (Target Language)),以兩種不同的來源描述了相同的對(duì)象。于是,對(duì)于相同的分類任務(wù), 同一對(duì)象的不同來源描述在潛在共享子空間中描述應(yīng)該是相似的。因此,SCML方法針對(duì)不 同的語言(來源),同時(shí)學(xué)習(xí)不同的分類器,并通過半監(jiān)督優(yōu)化模型,最小化所有來源的有標(biāo) 簽數(shù)據(jù)的訓(xùn)練損失,懲罰所有對(duì)象異構(gòu)描述在子空間中的距離。但是,SCML方法在降維過程 中,只考慮了不同來源間的相關(guān)性,而沒有充分利用不同來源間的分布相似性,所以必然會(huì) 丟失一些重要的信息。(參考文獻(xiàn):Yuhong Guo,Min Xiao.Cross Language Text Classification via Subspace Co-regularized Multi-view Learning. ACM International Conference on Machine Learning 2012.)
[0009] 表1總結(jié)了上述多源數(shù)據(jù)冗余縮減方法的不足。
[0010] 表1.已有的多源數(shù)據(jù)冗余縮減方法的不足
[0012]為了進(jìn)一步節(jié)省存儲(chǔ)空間,提高學(xué)習(xí)效率和性能,國內(nèi)外的研究人員相繼提出了 一些多源樣本選擇方法,利用多源之間的關(guān)聯(lián)結(jié)構(gòu),從原始數(shù)據(jù)集中挑選精簡子集,以提高 學(xué)習(xí)器的性能。
[0013] 多源圖片是一組由多個(gè)攝像機(jī)在同一場景下拍攝的圖片。不同來源的圖片之間必 然存在互補(bǔ)信息。在多源立體聲(Multi-View Stereo,MVS)的重建中,并不是所有的圖片都 能提高重建模型輸出結(jié)果的質(zhì)量,而且大量的多源圖片還會(huì)耗費(fèi)過多的處理時(shí)間。針對(duì)這 一問題,Hornung 等人設(shè)計(jì)出一種多源圖片選擇(1111&86 3616(31:;[011;1^01'11]^)1'〇¥6(111111:;[-View StereoJSIMVS)方案,利用預(yù)先定義的質(zhì)量標(biāo)準(zhǔn),根據(jù)多源圖片中的互補(bǔ)信息,篩選 相關(guān)性最大的圖片合成重建結(jié)果。ISIMVS方法通過以下三個(gè)預(yù)先定義的質(zhì)量標(biāo)準(zhǔn) (Criteria)完成MVS重建:1)初始表面精簡子集(Initial Surface Proxy),即選擇一組輸 入圖片的精簡子集,該子集不僅能夠充分代表原始數(shù)據(jù)集,并能充分逼近未知對(duì)象的表面; 2)表面可見度(Surf ace Visibility),即在設(shè)定的最小可視距離內(nèi),挑選的精簡子集中的 多源樣本是清晰可見的;3)自適應(yīng)性(Adaptivity),即針對(duì)多源圖片中的不一致區(qū)域,通過 選擇一些其它的相關(guān)圖片,以提高在這些區(qū)域中的重建性能,增加精選子集的可靠性。根據(jù) 上述三個(gè)質(zhì)量標(biāo)準(zhǔn),ISMVS方法的樣本選擇過程分為三步:第一步,從若干來源中,挑選一 些有利于快速收斂的來源;第二步,為每個(gè)對(duì)象挑選至少兩個(gè)來源的圖片,以達(dá)到足夠的覆 蓋率;第三步,挑選一些突出多源圖片中不一致區(qū)域的額外的相關(guān)圖片。進(jìn)而達(dá)到良好的 MVS重建效果。但是,ISIMVS方法存在只能精簡多源圖片的缺陷。(參考文獻(xiàn)Alexander Hornung,Boyi Zeng,Leif Kobbelt. Image selection for improved multi-view stereo. IEEE International Conference on Computer Vision and Pattern Recognition 2008:1-8.)
[0014] Kitahara等人提出的多源視頻編碼(Multi-view Video Coding using View Interpolation and Reference Picture Selection,MVCVIRPS)方法。MVCVIRPS方法基于 H. 264/AVC的動(dòng)作/不一致性補(bǔ)償完成多源視頻編碼。該方法利用不同來源圖片之間的關(guān)聯(lián) 性,通過選擇相關(guān)的異模圖片作為參考圖片,插值補(bǔ)償視差。MVCVIRPS方法假設(shè)索引c = l, 2,…,C對(duì)應(yīng)C臺(tái)不同的攝像機(jī)(基于H. 264/AVC編碼),而另一索引Ci: C= {1,2,…,C]表示攝像機(jī) c用于不一致性補(bǔ)償?shù)膮⒖紨z像機(jī)的索引。在視頻編碼過程中,MVCVIRPS方法同時(shí)利用不同 來源間的時(shí)間(temporal )、空間(spacial)和模間(inter-view)相關(guān)性,從攝像機(jī)c的參考 攝像機(jī)的索引中選擇相關(guān)索引,完成異模間動(dòng)作/不一致性補(bǔ)償。(參考文獻(xiàn)= Masaki Kitahara,Hideaki Kimata,Shinya Shimizu,Kazuto Kamikura,Yoshiyuki Yashima, Kenji Yamamoto ,Tomohiro Yendo,Toshiaki Fujii,Masayuki Tanimoto.Multi-View Video Coding using View Interpolation and Reference Picture Selection. IEEE International Conference on Multimedia and Expo 2006:97-100.)
[0015] 在圖像提取(Image Matting)中,利用基于顏色采樣的摳圖方法獲取的顏色信息, 可以挑選出針對(duì)未知像素的前景(Foreground(F))和后景(Background(B))顏色的最匹配 樣本。然而,如果前景和背景區(qū)域的顏色分布有重疊,那么利用顏色信息就很難區(qū)分這些區(qū) 域,挑選的樣本便無法估計(jì)遮片(Matte) C3Shahrian等人提出了一種基于內(nèi)容的樣本選擇 (Weighted Color and Texture Sample Selection for Image Matting,WCTSSIM)方法, 該方法借助圖片的紋理(來源)信息,使用基于樣本的顏色(來源)匹配方法,通過最佳匹配 圖片填補(bǔ)未知貞的前景和后景顏色。在WCTSSIM方法中,利用圖片的顏色(Color)和紋理 (Texture)特征挑選一組(F,B)候選集。并根據(jù)兩種特征,基于圖片的內(nèi)容,自動(dòng)確定F和B間 的權(quán)重,進(jìn)而從候選集中挑選出最佳樣本。(參考文獻(xiàn):Ehsan Shahrian ,Deepu Rajan.Weighted Color and Texture Sample Selection for Image Matting.IEEE Transactions on Image Processing 22(11):4260-4270(2013).)
[0016] 然而,雖然上述方法在精簡多源圖片數(shù)據(jù)集問題上,都取得了不錯(cuò)的效果,但是對(duì) 于其它形式的多源數(shù)據(jù)(例如,文本)的冗余卻捉襟見肘。
[0017] 表2總結(jié)了上述多源數(shù)據(jù)樣本選擇方法的不足。
[0018] 表2.已有的多源數(shù)據(jù)樣本選擇方法的不足
【發(fā)明內(nèi)容】
[0020]隨著現(xiàn)代信息和存儲(chǔ)技術(shù)的快速發(fā)展,數(shù)據(jù)的規(guī)模在不斷擴(kuò)大。但是在實(shí)際情況 下,由于不恰當(dāng)?shù)奶卣魈崛?、不正確的數(shù)據(jù)存儲(chǔ)和隨機(jī)事件等原因,并不是所有的樣本描述 都是客觀現(xiàn)實(shí)的簡潔高效反映,從而不可避免地導(dǎo)致多源異構(gòu)冗余數(shù)據(jù)的存在。不同于重 復(fù)數(shù)據(jù),多源冗余數(shù)據(jù)指的是那些會(huì)嚴(yán)重影響學(xué)習(xí)器性能的數(shù)據(jù)。此外,如圖1所示,多源冗 余數(shù)據(jù)的冗余源問題也是完全不同于單源冗余數(shù)據(jù)問題。究其原因在于多源冗余數(shù)據(jù)包含 以下三向冗余(Three-way Redundancies):
[0021 ] 1)數(shù)據(jù)描述過剩(Data Representations Excessiveness,DRE)。這類冗余指的是 在同源內(nèi)存在針對(duì)同一對(duì)象的多個(gè)無重復(fù)描述,進(jìn)而導(dǎo)致占用大量的存儲(chǔ)空間。
[0022] 2)樣本特征繁多(Sample Features Superabundance,SFS)。這種由維度災(zāi)難 (Curse of Dimensionality)引起的冗余指的是在高維空間中嵌入了大量相關(guān)或隨機(jī)的維 度,從而導(dǎo)致耗費(fèi)過多的計(jì)算時(shí)間。
[0023] 3)互補(bǔ)關(guān)系超額(Complementary Relationships Overplus,CR0)。這類冗余指的 是一源之內(nèi)的某一樣本描述和另一源內(nèi)多個(gè)異構(gòu)描述之間存在互補(bǔ)關(guān)系。由于此類冗余破 壞了不同源間的一一對(duì)應(yīng)關(guān)系,進(jìn)而會(huì)導(dǎo)致多源異構(gòu)數(shù)據(jù)的性能下降。
[0024]由于三向冗余的存在,冗余源問題具有雙層異構(gòu)性(Double-level Heterogeneities),即特征維度不相似性(Feature Dimension Dissimilarity,F(xiàn)DD)和樣 本規(guī)模差異性(Sample Size Difference,SSD)。首先,不同的來源使用不同維度和不同屬 性描述相同的事物;其次,每個(gè)源內(nèi)的樣本數(shù)量也不同。多源冗余數(shù)據(jù)的三向冗余和雙層異 構(gòu)性會(huì)導(dǎo)致數(shù)據(jù)的性能被嚴(yán)重削弱,進(jìn)而延緩學(xué)習(xí)過程,浪費(fèi)存儲(chǔ)空間,降低模型的泛化能 力。因此,提出一種多源冗余數(shù)據(jù)的協(xié)同精簡算法,不僅可以節(jié)省寶貴的存儲(chǔ)空間,避免高 計(jì)算復(fù)雜度,還可以顯著提高學(xué)習(xí)器的泛化性能。
[0025]如圖2所示,多源異構(gòu)數(shù)據(jù)處在互補(bǔ)性、相關(guān)性和分布性約束之下?;パa(bǔ)性約束指 的是來自不同來源的異構(gòu)描述傳達(dá)的語義(類標(biāo)簽)是一致的;相關(guān)性約束指的是異構(gòu)相關(guān) 描述沿著流形(Manifold)彼此臨近,從而將不同來源間的互補(bǔ)信息充分包含在多源數(shù)據(jù) 中;不同于互補(bǔ)性和相關(guān)性約束,分布性約束呈現(xiàn)出高度的分布相似性,此約束會(huì)將同一來 源內(nèi)的同類樣本聚集到一起。而本發(fā)明的具體目的就是針對(duì)多源異構(gòu)數(shù)據(jù)的冗余源問題, 提供一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法,利用多源異構(gòu)數(shù)據(jù)間的語義互補(bǔ)性、信 息相關(guān)性和分布相似性,基于子空間學(xué)習(xí)方法,通過對(duì)已有的無冗余多源異構(gòu)數(shù)據(jù)間關(guān)聯(lián) 性的挖掘,協(xié)同去除多個(gè)來源中三向冗余和雙層異構(gòu)性,降低數(shù)據(jù)維度,提煉數(shù)據(jù)子集,修 復(fù)異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系,精簡多源異構(gòu)數(shù)據(jù)的冗余源。
[0026] 如圖3所示,本發(fā)明提供了一種多源異構(gòu)數(shù)據(jù)的冗余源縮減的基本框架。這個(gè)框架 由兩個(gè)數(shù)學(xué)模型組成,一個(gè)為異構(gòu)流形平滑學(xué)習(xí) (Heterogeneous Manifold Smoothness Learning,HMSL)模型,另一個(gè)為基于相關(guān)性的多源冗余縮減(&31^61&1:;[011^^86(111111:;[-view Redundancy Reduction,CMRR)模型。其中,HMSL模型將多源異構(gòu)數(shù)據(jù)線性投影到一個(gè) 低維特征同構(gòu)空間,并在這個(gè)空間中,使信息相關(guān)描述的流形距離(Manifold Distance)更 近,而語義互補(bǔ)樣本的歐氏距離(Euclidean Distance)更近。而CMRR模型利用基于梯度能 量競爭(Gradient Energy Competition,GEC)策略的廣義初等變換約束,在由HMSL模型學(xué) 習(xí)得來的特征同構(gòu)空間,消除了多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu)性,進(jìn)而精簡多源異 構(gòu)數(shù)據(jù)的冗余源,有助于獲得準(zhǔn)確且魯棒的多源數(shù)據(jù)評(píng)估分析結(jié)果。
[0027] 在圖3中,多源異構(gòu)數(shù)據(jù)由源X和源Y組成。Xn和Yn為已有的多源無冗余數(shù)據(jù)。然而, 一些多源異構(gòu)數(shù)據(jù)Xr和Yr具有三向冗余和雙層異構(gòu)性。例如,CRO冗余導(dǎo)致源X中的描述X7和 源Y中多個(gè)描述y7,ys,和y 9相關(guān);此外,在源Y中存在大量的和描述yio相似的冗余樣本yn, y12,和y13;而由于SFS,在每對(duì)異構(gòu)描述中又包含一些隨機(jī)或相關(guān)的特征維度。從而導(dǎo)致這 些多源異構(gòu)數(shù)據(jù)Xr和Yr具有雙層異構(gòu)性,即特征維度不相似性(FDD)和樣本規(guī)模差異性 (SSD)。針對(duì)多源異構(gòu)數(shù)據(jù)的冗余源問題,為了消除多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu) 性,加速學(xué)習(xí)過程,節(jié)省存儲(chǔ)空間,提高模型的泛化能力,本發(fā)明研究具有多源協(xié)同去冗余 能力的冗余源縮減方法。
[0028]本發(fā)明具體的技術(shù)方案為:
[0029] 1)HMSL模型利用已有的多源無冗余數(shù)據(jù)Xn和YN,學(xué)習(xí)兩個(gè)異構(gòu)線性變換A和B,一個(gè) 決策矩陣W,和一個(gè)流形平滑度量M,以消除底層特征空間中的異構(gòu)性。由此,便可得到一個(gè) 低維的特征同構(gòu)空間,在這個(gè)空間中,使信息相關(guān)描述的流形距離更近,而語義互補(bǔ)樣本的 歐氏距離更近。
[0030] 如圖3所示,流形平滑度量M將異構(gòu)描述X^Py2匹配到一起,以提取異源間的相關(guān)信 息;此外,為了捕捉異源間的語義互補(bǔ)性,決策矩陣W將異構(gòu)描述X 6和y6耦合到一起;而類1中 的異構(gòu)共生描述(11,71),(1 2,72),和(13,73)被分別歸類到不同的簇中,以挖掘異源間的分 布相似性。
[0031] 2)與此同時(shí),在由HMSL模型學(xué)習(xí)到的低維特征同構(gòu)空間中,CMRR模型基于異源間 的語義互補(bǔ)性、信息相關(guān)性和分布相似性,有效地去除了多源冗余數(shù)據(jù)Xr和Yr的三向冗余和 雙層異構(gòu)性。CMRR模型首先使用基于梯度能量競爭的廣義初等變換約束,根據(jù)HMSL模型學(xué) 習(xí)到的流形平滑度量M和決策矩陣W,恢復(fù)同一對(duì)象異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系。這個(gè)約束 會(huì)調(diào)整冗余矩陣Xr和Yr中相應(yīng)行的位置,以消除多余的互補(bǔ)關(guān)系。
[0032]如圖3所示,源X中的描述X7和源Y中的描述y8和y9間多余的互補(bǔ)關(guān)系被清除,恢復(fù) 了X7和y7間的一一對(duì)應(yīng)關(guān)系,以消除CRO;另外,為了去除DRE,源Y中的冗余描述yn,y 12,和y13 被刪除,以節(jié)省存儲(chǔ)空間;并同時(shí)將冗余源中的全部描述,線性投影到HMSL模型學(xué)習(xí)到的低 維特征同構(gòu)空間中,以消除SFS和雙層異構(gòu)性。從圖5中可以看出,在消除了三向冗余之后, 在特征同構(gòu)空間中,多源冗余數(shù)據(jù)的異構(gòu)描述都得以正確的匹配和歸類。因此,由HMSL+ CMRR構(gòu)成的框架可以有效地縮減多源異構(gòu)數(shù)據(jù)的冗余源。
[0033]下面進(jìn)一步說明本發(fā)明的具體步驟:
[0034] 1)異構(gòu)流形平滑學(xué)習(xí)模型
[0035]如圖4所示,本發(fā)明提供的異構(gòu)流形平滑學(xué)習(xí) HMSL模型利用已有的多源無冗余數(shù) 據(jù)心€ e MnIxdKdx為來源Vx的維度,dy為來源V y的維度,m為無冗余樣本的數(shù) 量),學(xué)習(xí)多個(gè)異構(gòu)線性變換A和B,一個(gè)決策矩陣W,和一個(gè)流形平滑度量(manifold smoothness measure)M,將異源間的相關(guān)異構(gòu)描述親合到一起,以捕捉異源間的語義互補(bǔ) 性、信息相關(guān)性和分布相似性,消除異源間的異構(gòu)性,從而構(gòu)建出一個(gè)低維的特征同構(gòu)空 間。在這個(gè)空間中,使信息相關(guān)描述的流形距離更近,而語義互補(bǔ)樣本的歐氏距離更近。 [0036]該方法首先定義了 一組馬氏距離度量:
[0037] (!)
[0038] (?
[0039] 其中,Xi e Mrf*為來源Vx中的第i個(gè)樣本,y; € 11?為來源Vy中的第i個(gè)樣本,Mx = AtA 和My = BtB為兩個(gè)半正定度量矩陣。其次,HMSL方法定義了一個(gè)來源中的樣本Xi或者yi與另 一來源中的異構(gòu)樣本yj或者Xj,在特征同構(gòu)空間中為近鄰的概率Pij或者qij:
[0043] P5
[0040; (3)
[0041; (4)[0042] 從而可以得剞笛i個(gè)烊太被iF確分類的概率pi或者qi為:
[0045] 其中,4和4分別表示來源VjPVy中第t類樣本的集合。[0046] 基于上述定義,HMSL方法的優(yōu)化模型如下:
[0044] (6)
[0047]
(7)
[0048] 其中,>4 e MOiS β e Rdyxfc,/c S min(dx,dy)為特征同構(gòu)子空間的維度,α和β為平衡 參數(shù)。HMSL方法利用正交約束六1=1和#8 = 1消除同一來源內(nèi)不同特征之間的相關(guān)性,同時(shí) 借助半正定約束M e MfcU > 0確保模型屯:能夠?qū)W習(xí)到一個(gè)良好定義的偽度量。而公式(7)中 的目標(biāo)函數(shù)為包含三個(gè)子函數(shù),即語義、相關(guān)和分布子函數(shù),的復(fù)合函數(shù)(complex function)。其中,目標(biāo)函數(shù)中的第一項(xiàng)fs(A,B,W):
[0049]
(8:)
[0050] 為基于多變量線性回歸(multivariant linear regression)的語義子函數(shù),用來 捕捉不同來源間的語義互補(bǔ)性,4 e 為多源無冗余數(shù)據(jù)Xn和Yn的標(biāo)簽矩陣(m為標(biāo)簽 數(shù)量);此外,在目標(biāo)函數(shù)中引入相關(guān)子函數(shù)gM(A,B,M):
[0051 ] g = UnAMBtY^W2f (9)
[0052] 的目的就是度量不同線性變換A和B之間的平滑度,以提取異構(gòu)描述之間的相關(guān)信 息;而目標(biāo)函數(shù)中的第三項(xiàng)分布子函數(shù)hD(A,B):
[0053] hD(A,B) = Σ Pi+Σ qi (10)
[0054] 為由不同來源的分類準(zhǔn)確率構(gòu)成的交叉驗(yàn)證(leave-one-out validation),該子 函數(shù)基于馬氏距離度量挖掘不同來源間的分布相似性。
[0055]值得注意的是,HMSL方法可以將多源異構(gòu)數(shù)據(jù)線性投影到一個(gè)低維空間中。這一 點(diǎn)是非常不同于著名的非線性投影方法核典型相關(guān)分析方法(參考文獻(xiàn):David R.Hardoon,Sandor Szedmak,John Shawe-Taylor.Canonical Correlation Analysis:An Overview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相關(guān)分析(參考文獻(xiàn):Galen Andrew,Raman Arora, Jeff A.BiImes,Karen Livescu.Deep Canonical Correlation Analysis.ACM International Conference on Machine Learning(3)2013:1247-1255·)方法的。
[0056] 2)梯度能量競爭策略
[0057] 在由梯度下降方法得來的梯度矩陣G中,每個(gè)內(nèi)部元素都和四個(gè)近鄰 G1+1,^G1,h,和Gu+1關(guān)聯(lián)。本發(fā)明提供的梯度能量競爭策略基于I 1范數(shù)的梯度幅值能量,定 義每個(gè)內(nèi)部元素Gij在垂直方向的樣本間能量(between-sample energy)Ebs為:
[0058] (11)
[0059]
[0060] (12)
[0061 ] 通過Ebs和Ews,就可以得到每個(gè)內(nèi)部元素Gij的全局能量(global energy)Egi〇be:
[0062] Egi〇be = 5*Ebs+(l-5)Ews (13)
[0063] 其中,δ為平衡參數(shù)。利用公式(13)可以計(jì)算出矩陣G中每個(gè)元素的全局能量,進(jìn)而 得到能量矩陣Ε。如圖5所示,本發(fā)明提供的梯度能量競爭策略通過比較矩陣E中每個(gè)元素的 能量,將獲勝者(能量最大者)的值設(shè)置為1,而與獲勝者同行同列的元素的值都被設(shè)置為〇, 如此往復(fù),直到構(gòu)建出一個(gè)廣義初等變換矩陣Q。
[0064] 3)基于相關(guān)性的多源冗余縮減模型
[0065] 如圖6所示,本發(fā)明提供的基于相關(guān)性的多源冗余縮減模型CMRR,首先利用HMSL方 法獲得的最優(yōu)解(A'B'W'if),將多源異構(gòu)冗余數(shù)據(jù)知G和為e (η2為來源Vx 中冗余樣本的數(shù)量,M為來源Vy中冗余樣本的數(shù)量,且η2矣n3)構(gòu)建為特征同構(gòu)的冗余矩陣H = XrASPR = YrB'并借助決策矩陣f預(yù)測冗余樣本H和R的類別,以修復(fù)同一對(duì)象異構(gòu)描述間 的互補(bǔ)關(guān)系。同時(shí),通過學(xué)習(xí)到的廣義初等行變換矩陣P和Q,其中P為針對(duì)來源V x中冗余數(shù) 據(jù)的n2Xn4階的廣義初等行變換矩陣,Q為針對(duì)來源Vy中冗余數(shù)據(jù)的n 3Xn4階的廣義初等行 變換矩陣,調(diào)換矩陣H和R中冗余樣本的位置,從而將信息相關(guān)的異構(gòu)描述匹配到一起,并根 據(jù)消除CRO和DRE,重新建立異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系。
[0066] CMRR方法的優(yōu)化模型如下:
[0067]
[0068] 其中,P和Q為廣義初等行變換矩陣,?Λ2Χ"4 e e為兩組廣義初 等行變換矩陣的集合,ru=min(n2,n3),γ和τ為平衡參數(shù)。
[0069]目標(biāo)函數(shù)中的第一項(xiàng)利用HMSL方法學(xué)習(xí)到的多個(gè)異構(gòu)線性變換,以及決策 矩陣W'在消除CRO和SFS的同時(shí),重塑同一對(duì)象異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系。而目標(biāo)函數(shù)中 的第二項(xiàng)借助HMSL方法學(xué)習(xí)到的流形平滑度量M'消除同一來源內(nèi)的DRE,以提取匹配的異 構(gòu)描述間的相關(guān)信息。另外,目標(biāo)函數(shù)中的第三項(xiàng)為基于跡范數(shù)的低秩(low-rank)正規(guī)化 項(xiàng),以使復(fù)合描述盡可能線性可分。對(duì)矩陣P和Q施加廣義初等變換約束的目的就是調(diào)換矩 陣H和R中冗余樣本的位置,消除CRO,重新建立異構(gòu)描述間的--對(duì)應(yīng)關(guān)系。而通過引入I 2,1 范數(shù)等式約束,可以在矩陣P和Q中創(chuàng)建若干全零行,以清除DRE。需要注意的是,如果沒有廣 義初等變換約束,而僅有U 1范數(shù)等式約束,矩陣P和Q有可能成為一個(gè)僅有一個(gè)非零行的矩 陣。因此,為了能夠篩選異構(gòu)互補(bǔ)描述,在CMRR模型中,對(duì)矩陣P和Q施加廣義初等變換約束 是是十分必要的。從而,消除了多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu)性,進(jìn)而精簡多源異構(gòu) 數(shù)據(jù)的冗余源。
[0070]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
[0071]針對(duì)于多源冗余數(shù)據(jù)中存在的三向冗余和雙層異構(gòu)性,本發(fā)明提供了一種多源異 構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減的框架。該框架首先包含一種帶有流形(Manifold)正規(guī)化項(xiàng)和 偽度量約束的HMSL模型,將多源異構(gòu)數(shù)據(jù)線性投影到一個(gè)低維特征同構(gòu)空間,并在這個(gè)空 間中,使信息相關(guān)描述的流形距離更近,而語義互補(bǔ)樣本的歐氏距離(Euc Ii dean Distance),從而可以有效地捕捉到不同來源間的語義互補(bǔ)性、信息相關(guān)性和分布相似性。 此外,提出了一種帶有廣義初等變換約束的CMRR模型,利用梯度能量競爭策略和I 2,i范數(shù)等 式,在由HMSL模型學(xué)習(xí)得來的特征同構(gòu)空間,恢復(fù)異源異構(gòu)冗余描述間的一一對(duì)應(yīng)關(guān)系,消 除了多源冗余數(shù)據(jù)的三向冗余和雙層異構(gòu)性,進(jìn)而精簡多源異構(gòu)數(shù)據(jù)的冗余源。
【附圖說明】
[0072] 圖1為多源冗余和單源冗余的示例說明。
[0073] 圖2為多源異構(gòu)數(shù)據(jù)間的互補(bǔ)性、相關(guān)性和分布性約束的示例說明。
[0074]圖3為多源異構(gòu)數(shù)據(jù)的冗余源縮減框架的示例說明。
[0075]圖4為異構(gòu)流形平滑學(xué)習(xí)模型的示例說明。
[0076] 圖5為梯度能量競爭策略的示例說明。
[0077] 圖6為基于相關(guān)性的多源冗余縮減模型的示例說明。
【具體實(shí)施方式】
[0078] 下面通過具體實(shí)施例,對(duì)本發(fā)明做進(jìn)一步說明。
[0079] 本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法,由異構(gòu)流形平滑學(xué)習(xí)HMSL 和基于相關(guān)性的多源冗余縮減CMRR算法組成,通過循環(huán)迭代過程實(shí)現(xiàn)模型的逐步優(yōu)化。
[0080] 在公式(7)中的HMSL模型可以簡化為:
[0081 ] F(Z) (15)
[0082] 其中,F(xiàn)( · )=fs( · )+agM( · )-PhD( ·)為平滑目標(biāo)函數(shù),Z=[Az Bz Wz Mz]代表優(yōu) 化變量,e為封閉且針對(duì)單個(gè)變量的凸集:
[0083] C ^ {Ζ\Α\Αχ - !, B^Bz - I1 Mz > 0} (16)
[0084] 由于F( ·)是關(guān)于Lipschitz連續(xù)梯度L的連續(xù)可微函數(shù)(參考文獻(xiàn): Y.Nesterov.Introductory lectures on convex optimization, volume 87. Springer Science&Business Media,2004.):
[0085] ||VF(ZT) - VF(Zy)Wr. ^ L\\z>r ~zyiF> G c (17)
[0086] 因此,適合利用加速投影梯度(Accelerated Projected Gradient,APG)算法(參 考文獻(xiàn):Υ· Nesterov .Introductory lectures on convex optimization ,volume 87.Springer Science&Business Media,2004.)求解公式(15)中的問題D
[0087] APG算法為一階梯度算法,該方法在最小化目標(biāo)函數(shù)過程中,會(huì)在可執(zhí)行解 (feasible solution)上加速每個(gè)梯度步,以獲取最優(yōu)解在求解過程中,APG方法會(huì)構(gòu)建一 個(gè)解點(diǎn)序列{ZJ和一個(gè)搜索點(diǎn)序列{SJ,在每次迭代中利用S 1更新Z1。而每個(gè)給定點(diǎn)s在凸 集e上的歐幾里德投影為:
[0088] Projc(s) ^arg rrun\\z - s\\j/2 (18)
[0089] Weinberger等人提出的半正定投影(Positive Semi-definite Projection,PSP) 方法(參考文南犬:Kilian Q.Weinberger,Lawrence K. Saul .Distance Metric Learning for Large Margin Nearest Neighbor Classification.Journal of Machine Learning Research 10:207-244(2009).)可以在保持半正定約束的情況下,最小化目標(biāo)函數(shù)由此, 便可利用PSP求解公式(18)中的問題。算法1給出了 PSP算法的細(xì)節(jié)。
[0091 ] 與此同時(shí),可以利用Wen等人提出的梯度下降曲線搜索(Gradient Descent Method with Curvilinear Search,GDMCS)算法(參考文獻(xiàn):Zaiwen Wen and Wotao Yin.A feasible method for optimization with orthogonality constraints .Math.Program. 142( 1-2): 397-434(2013) ·),在最小化目標(biāo)函數(shù)過程中保持 公式(18)中的正交約束。算法2給出了GDMCS算法的細(xì)節(jié)。
[0094] 而當(dāng)利用APG算法求解公式(15)中的問題時(shí),給定點(diǎn)S= [As Bs]在凸集e上的歐幾 里德投影Z=[Az Bz]為:
[0095] pro/tf (S) = ar,g IlZ - S|g/'2 (19)
[0096] 通過結(jié)合APG、PSP和GDMCS算法,便可求解公式(I 9)中的問題。算法3給出了本發(fā)明 提供的HMSL算法的具體細(xì)節(jié),其中函數(shù)Schmidt( ·)表示Gram-Schmidt正交化。
[0099] 在公式(14)中的CMRR模型可以簡化為:
[0100] -? W(0) = w(0) + rt(0) (20)
[0101] 其中,w0 = H|-r|Hlf為平滑目標(biāo)函數(shù),t( · )=|卜I I*為不可微函數(shù),θ=[ρθ Q? ]代表優(yōu)化變量,2為封閉且針對(duì)單個(gè)變量的凸集:
[0102] Q - {Θ[^e ^ Xni/ Qe ^ i'itjxni? Q-fld = 二.?} (21)
[0103] 由于w( ·)是關(guān)于公式(17)中的Lipschitz連續(xù)梯度L連續(xù)可微的。所以,同樣可以 利用APG求解公式(20)中的問題。而每個(gè)給定點(diǎn)s在凸集fi上的歐幾里德投影為:
[0104] pro}q(.s) = arg ?η?η\\Θ - s\\2F/2 (22)
[0105] 為了求解公式(22)中的問題,根據(jù)本發(fā)明提供的GEC策略,本發(fā)明提供的Energy (·)和C〇mpetiti 〇n( ·)函數(shù),可以在保持初等變換約束的情況下,最小化目標(biāo)函數(shù)。算法4 給出了Energy( ·)函數(shù)的具體細(xì)節(jié),此函數(shù)根據(jù)公式(11,12,13)計(jì)算由梯度下降算法得到 的梯度矩陣G中每個(gè)元素的全局能量,進(jìn)而獲得能量矩陣E。此外,本發(fā)明提供的 Competition!; ·)函數(shù),根據(jù)算法4產(chǎn)生的能量矩陣E,創(chuàng)建一個(gè)標(biāo)準(zhǔn)的初等變換矩陣。算法5 給出了Competition!; ·)函數(shù)的具體細(xì)節(jié)。通過結(jié)合APG,Energy,和Competition算法,便可 求解公式(22)中的問題。算法6給出了 CMRR方法的具體細(xì)節(jié)。
[0111] 本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減HMSL+CMRR框架,針對(duì)多源異構(gòu) 數(shù)據(jù)的冗余源問題,利用多源異構(gòu)數(shù)據(jù)間的語義互補(bǔ)性、信息相關(guān)性和分布相似性,基于子 空間學(xué)習(xí)方法,通過對(duì)已有的無冗余多源異構(gòu)數(shù)據(jù)間關(guān)聯(lián)性的挖掘,協(xié)同去除多個(gè)來源中 三向冗余和雙層異構(gòu)性,降低數(shù)據(jù)維度,提煉數(shù)據(jù)子集,修復(fù)異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系, 精簡多源異構(gòu)數(shù)據(jù)的冗余源。
[0112] 以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制,本領(lǐng)域的普通技術(shù) 人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本 發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書所述為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種多源異構(gòu)大數(shù)據(jù)的冗余源協(xié)同縮減方法,其步驟包括: 1) 利用已有的多源無冗余數(shù)據(jù)學(xué)習(xí)多個(gè)異構(gòu)線性變換、一個(gè)決策矩陣和一個(gè)流形平滑 度量,將異源間的相關(guān)異構(gòu)描述禪合到一起,W捕捉異源間的語義互補(bǔ)性、信息相關(guān)性和分 布相似性,消除異源間的異構(gòu)性,從而構(gòu)建出一個(gè)低維的特征同構(gòu)空間;在所述低維的特征 同構(gòu)空間中,使信息相關(guān)描述的流形距離更近,而語義互補(bǔ)樣本的歐氏距離更近; 2) 在所述低維的特征同構(gòu)空間中,利用基于梯度能量競爭策略的廣義初等變換約束, 并基于異源間的語義互補(bǔ)性、信息相關(guān)性和分布相似性,消除多源冗余數(shù)據(jù)的Ξ向冗余和 雙層異構(gòu)性。2. 如權(quán)利要求1所述的方法,其特征在于,步驟1)對(duì)異源間的語義互補(bǔ)性、信息相關(guān)性 和分布相似性建立如下優(yōu)化模型:其中,46膠味,幻S占 e阪泣yxfc,k<min(dx,dy)為特征同構(gòu)子空間的維度,α和β為平衡參數(shù), W為決策矩陣,Μ為流形平滑度量;利用正交約束ΑΤα=Ι和護(hù)8 = 1消除同一來源內(nèi)不同特征之 間的相關(guān)性,同時(shí)借助半正定約束Me股kx^^*0確保模型Ψl能夠?qū)W習(xí)到一個(gè)良好定義的偽 度量;上述公式中的目標(biāo)函數(shù)為包含語義子函數(shù)、相關(guān)子函數(shù)和分布子函數(shù)的復(fù)合函數(shù),其 中目標(biāo)函數(shù)中的第一項(xiàng)fs(A,B,W)為基于多變量線性回歸的語義子函數(shù),用來捕捉不同來 源間的語義互補(bǔ)性;目標(biāo)函數(shù)中引入相關(guān)子函數(shù)gM(A,B,M)的目的就是度量不同線性變換A 和B之間的平滑度,W提取異構(gòu)描述之間的相關(guān)信息;目標(biāo)函數(shù)中的第Ξ項(xiàng)分布子函數(shù)hD (A,B)為由不同來源的分類準(zhǔn)確率構(gòu)成的交叉驗(yàn)證,該子函數(shù)基于馬氏距離度量挖掘不同 來源間的分布相似性。3. 如權(quán)利要求2所述的方法,其特征在于:步驟2)所述梯度能量競爭策略首先由梯度下 降方法得到梯度矩陣G,然后計(jì)算梯度矩陣的每個(gè)內(nèi)部元素 Gu在垂直方向的樣本間能量Ebs 和水平方向的樣本內(nèi)能量Ews,從而得到每個(gè)內(nèi)部元素 Gij的全局能量Eglobe:通過計(jì)算出矩陣 G中每個(gè)元素的全局能量得到能量矩陣E;所述梯度能量競爭策略通過比較矩陣E中每個(gè)元 素的能量,將獲勝者即能量最大者的值設(shè)置為1,而與獲勝者同行同列的元素的值都被設(shè)置 為0,如此往復(fù),直到構(gòu)建出一個(gè)廣義初等變換矩陣Q。4. 如權(quán)利要求2或3所述的方法,其特征在于:步驟2)利用步驟1)獲得的最優(yōu)解(A^B^ W*,M*),將多源異構(gòu)冗余數(shù)據(jù)而G rbxdx和Κε e阪,wdy構(gòu)建為特征同構(gòu)的冗余矩陣H = XrA* 和R =化護(hù),其中Π 2為來源Vx中冗余樣本的數(shù)量,Π 3為來源Vy中冗余樣本的數(shù)量,且Π 2辛m;并 借助決策矩陣r預(yù)測冗余樣本Η和R的類別,W修復(fù)同一對(duì)象異構(gòu)描述間的互補(bǔ)關(guān)系;同時(shí), 通過學(xué)習(xí)到的廣義初等行變換矩陣Ρ和Q,調(diào)換矩陣Η和R中冗余樣本的位置,從而將信息相 關(guān)的異構(gòu)描述匹配到一起,并根據(jù)Μ氣肖除互補(bǔ)關(guān)系超額冗余和數(shù)據(jù)描述過剩冗余,重新建 立異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系。5. 如權(quán)利要求4所述的方法,其特征在于:步驟2)建立如下優(yōu)化模型:其中,Ρ和Q為廣義初等行變換矩陣,£郵堿e iRUzxn嘴Σ:η3々4 e 為兩組廣義初等行 變換矩陣的集合,n4=min(n2,n3),丫和τ為平衡參數(shù);目標(biāo)函數(shù)中的第一項(xiàng)利用步驟1)學(xué)習(xí) 到的多個(gè)異構(gòu)線性變換A勺郵及決策矩陣r,在消除互補(bǔ)關(guān)系超額冗余和樣本特征繁多 冗余的同時(shí),重塑同一對(duì)象異構(gòu)描述間的一一對(duì)應(yīng)關(guān)系;目標(biāo)函數(shù)中的第二項(xiàng)借助步驟1) 學(xué)習(xí)到的流形平滑度量消除同一來源內(nèi)的數(shù)據(jù)描述過剩冗余,W提取匹配的異構(gòu)描述 間的相關(guān)信息;目標(biāo)函數(shù)中的第Ξ項(xiàng)為基于跡范數(shù)的低秩正規(guī)化項(xiàng),W使復(fù)合描述盡可能 線性可分。
【文檔編號(hào)】G06F17/30GK105843896SQ201610166631
【公開日】2016年8月10日
【申請(qǐng)日】2016年3月22日
【發(fā)明人】張磊, 王樹鵬, 云曉春
【申請(qǐng)人】中國科學(xué)院信息工程研究所