本發(fā)明涉及機器學習標記噪聲識別,尤其涉及一種基于二次模糊學習機的標記噪聲識別方法。
背景技術:
1、監(jiān)督學習通過從大量的訓練樣本中學習來構建預測模型,其中每個訓練樣本都有一個標記標明其真實的輸出,然而此類算法的效果嚴重依賴于訓練樣本的標記質量,在實際問題中獲取具有高質量標記的訓練樣本通常費時費力。為節(jié)省人力物力,網(wǎng)絡爬蟲、眾包方法等替代方法被用于采集訓練數(shù)據(jù)。不幸的是,這些替代方法獲取的數(shù)據(jù)往往存在一定比例的錯誤標注,即標記噪聲,由此帶來了很多潛在的問題。
2、分類作為機器學習中最重要的問題之一,也會受到標記噪聲的影響。標記噪聲給分類任務帶來了巨大的挑戰(zhàn),因為傳統(tǒng)的分類模型容易受到這些錯誤標記的干擾導致性能下降。因此識別和處理標記噪聲對于構建高效、準確的機器學習模型至關重要。
3、目前為止已有大量識別標記噪聲的方法被提出,基于集成學習思想的識別方法是通過多個基分類器的預測結果組合后的正確程度來識別噪聲,比如多數(shù)投票過濾器(majority?vote?filter,mvf)、動態(tài)集成過濾器和高一致性隨機森林過濾器(randomforest,rf),這類方法雖然比單一基過濾器具有很好的精度,但計算成本通常很大。基于近鄰模型識別方法通常是借助k近鄰(k-nearest?neighbor,knn)模型實現(xiàn),如全近鄰過濾器、互近鄰(mutual?nearest?neighbor,mnn)過濾器,這些過濾器都對近鄰參數(shù)k的選取過于敏感,且這類方法都基于原始特征計算距離度量,無法應對大規(guī)模數(shù)據(jù)集。有人提出了基于相對密度(relative?density-based,rd)過濾方法,rd利用樣本的相對密度來衡量樣本的噪聲強度,還提出了基于完全隨機森林(complete?random?forest,crf)的過濾方法,crf通過構建完全隨機樹來衡量樣本被一類樣本包圍的水平,進而確定樣本的噪聲強度。為了解決其中的硬閾值問題,通過將隨機劃分測試集的分類精度作為自適應指標,相繼提出了基于自適應投票策略的相對密度過濾器vrd和自適應完全隨機森林過濾器adap_mcrf,但這兩種方法在噪聲比例較高時過濾效果會明顯下降且時間復雜度較高?,F(xiàn)有噪聲過濾方法時間復雜度較高且難以處理當前數(shù)據(jù)量急劇增長、數(shù)據(jù)類型復雜的大規(guī)模數(shù)據(jù)集;大多基于原始特征識別標記噪聲的方法難以自適應地學習對任務有用的特征,這使其無法有效識別標記噪聲,而深度神經網(wǎng)絡雖然具有較強的特征提取能力,但由于模型的表達能力較強使其可以擬合任意比例的標記噪聲。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術的不足,本發(fā)明提出一種基于二次模糊學習機的標記噪聲識別方法。通過特征提取網(wǎng)絡捕獲樣本的潛在表示,通過模糊二元關系模塊迭代訓練模型迭代優(yōu)化網(wǎng)絡參數(shù),利用閾值選擇策略區(qū)分高置信度樣本和低置信度樣本,利用高置信度樣本繼續(xù)再次迭代訓練模型,利用樣例集來預測樣本標記,最終來實現(xiàn)噪聲樣本的識別。
2、本發(fā)明的目的是通過下述技術方案實現(xiàn)的:
3、一種基于二次模糊學習機的標記噪聲識別方法,包含如下步驟:
4、s1:輸入模塊,給定帶噪聲數(shù)據(jù)集
5、s2:首次學習模塊,構建模糊學習機,在訓練過程中通過最小化模糊允許損失lfsr迭代更新模型參數(shù),捕捉所有樣本的潛在表示h(x);
6、s3:模糊二元關系模塊,使用余弦相似度作為模糊二元關系網(wǎng)絡的基本骨架,基于獲取到的樣本特征h(x)進行相似度計算,計算余弦相似度得到樣本之間的模糊關系矩陣s;
7、s4:樣例集選擇模塊,對于類別c,將標記為c的所有樣本原始特征x輸入模糊二元關系模塊,得到樣本之間的模糊關系矩陣s,按列求和,對所有樣本的模糊隸屬度進行排序,將top-k得分最高的樣本作為該類別樣例集ec,由此循環(huán)得到所有類別的樣例集;
8、s5:標記干凈度計算模塊,利用樣例集e計算樣本模糊相似矩陣s,根據(jù)樣本的類別標記生成獨熱編碼矩陣one-hot-mat及類別對角矩陣d,通過將模糊相似矩陣、獨熱編碼矩陣及類別對角矩陣進行矩陣乘法,并進行歸一化處理,即可得到樣本對每個類別的隸屬度矩陣sam_class_score,從而計算每個樣本的標記干凈度pclean;
9、s6:二次學習模塊,基于所有樣本標記干凈度pclean,根據(jù)設定閾值r劃分子集,將標記干凈度大于閾值的樣本歸類為高置信度樣本,將低于閾值的樣本歸類為低置信度樣本,選取高置信度樣本繼續(xù)訓練模糊學習機,更新模型參數(shù);
10、s7:噪聲識別模塊,基于二次學習后的模糊學習機得到更新的樣例集e',利用e'計算樣本對每個類別的隸屬度矩陣sam_class_score,隸屬度最高的類別索引即為樣本預測標記,對比樣本原類別標記,兩者不一致即認為標記噪聲樣本。
11、進一步,步驟s1包括:給定標記數(shù)據(jù)集其中xi表示樣本原始表示,yi表示樣本xi的真實標記。
12、進一步,步驟s2包括:首次學習模塊,基于特征提取模塊和模糊二元關系模塊構建模糊學習機,在訓練過程中通過最小化模糊允許損失lfsr迭代更新模型參數(shù),捕捉所有樣本的潛在表示h(x)。對于樣本特征xi,通過特征提取模塊獲取到的特征為h(xi)。
13、利用模糊關系矩陣s構造模糊允許損失lfsr,訓練過程中的模糊允許損失為:
14、
15、其中α、β為兩個超參數(shù),α∈[0,0.5),β∈(0.5,1],β-a用于控制概念的模糊度。
16、對于一個樣本對(xi,yi),(xj,yj),樣本對之間的模糊允許損失lα,β(sij,yi,yj)
17、計算公式為
18、
19、隨之構建隨機梯度下降優(yōu)化器,以此形成循環(huán)進行訓練,更新模型參數(shù)。
20、進一步,步驟s3包括:模糊二元關系模塊,使用余弦相似度作為模糊二元關系網(wǎng)絡的基本骨架,基于獲取到的樣本特征h(x)進行相似度計算,計算余弦相似度得到樣本之間的模糊關系矩陣。對于樣本xi的特征h(xi)和樣本xj的特征h(xj)進行余弦相似度計算,余弦相似度計算公式為:
21、
22、定義一個模糊關系矩陣s∈[0,1]n×n,其中sij為樣本xi與xj之間的相似度,其對應計算公式為:
23、
24、進一步,步驟s4包括:樣例集選擇模塊,對于類別c,將標記為c的所有樣本原始特征x輸入模糊二元關系模塊,得到樣本之間的模糊關系矩陣s,對模糊關系矩陣s進行按列求和,即可得到樣本對于類別的隸屬度s_c,對其進行從大到小排序,得到top-k的樣本即為類別c的樣例集ec,由此循環(huán),得到所有類別的樣例集。
25、進一步,步驟s5包括:標記干凈度計算模塊,利用樣例集e計算樣本模糊相似矩陣s,利用樣本類別標記生成獨熱編碼矩陣one-hot-mat,其中每一行標記為1的位置對應于樣本標記,其余位置均為0,再生成一個類別對角矩陣d,對角線上的元素均為每個類別樣例集的數(shù)目的倒數(shù)即將所得三個矩陣相乘并歸一化處理得到矩陣sam_class_score,即樣本對每個類別的隸屬度得分,
26、sam_class_score=s*one-hot-mat*d。
27、利用sam_class_score計算每個樣本的標記干凈度pclean,對于樣本(xi,yi)的標記干凈度pclean為
28、
29、進一步,步驟s6包括:二次學習模塊,基于所有樣本標記干凈度pclean,根據(jù)設定閾值r劃分子集,將標記干凈度大于閾值的樣本歸類為高置信度樣本,將低于閾值的樣本歸類為低置信度樣本,選取高置信度樣本繼續(xù)訓練模糊學習機,更新模型參數(shù)。
30、進一步,步驟s7包括:噪聲識別模塊,利用更新后的樣例集e'計算樣本對每個類別的隸屬度矩陣sam_class_score,隸屬度最高的類別索引即為樣本預測標記,對比樣本原類別標記,兩者不一致即認為標記噪聲樣本。
31、對于樣本(xi,yi),其真實標記為yi,其預測標記為
32、
33、若認為樣本(xi,yi)為干凈樣本;若認為樣本(xi,yi)為噪聲樣本。
34、一種基于二次模糊學習機的標記噪聲識別系統(tǒng),包括以下模塊:
35、輸入模塊:輸入有標記帶噪聲數(shù)據(jù)集;
36、首次學習模塊:構建模糊學習機,在訓練過程中通過最小化模糊允許損失迭代更新模型參數(shù),捕捉所有樣本的潛在表示;
37、模糊二元關系模塊:使用余弦相似度作為模糊二元關系網(wǎng)絡的基本骨架,基于獲取到的樣本特征進行相似度計算,計算余弦相似度得到樣本之間的模糊關系矩陣;
38、樣例集選擇模塊:對于每一個類別,將類別的所有樣本原始特征輸入到特征提取模塊和模糊二元關系模塊,以此得到樣本之間的模糊關系矩陣,按列求和,對所有樣本的隸屬度進行排序,將top-k得分最高的樣本作為該類別樣例集,由此循環(huán)得到所有類別的樣例集;
39、標記干凈度計算模塊:利用樣例集計算樣本模糊相似矩陣,根據(jù)樣本的類別標記生成獨熱編碼矩陣及類別對角矩陣,三者進行矩陣乘法,并進行歸一化處理,即可得到樣本對每個類別的隸屬度矩陣,計算每個樣本的標記干凈度;
40、二次學習模塊:基于所有樣本標記干凈度,根據(jù)設定閾值劃分子集,將標記干凈度大于閾值的樣本歸類為高置信度樣本,將低于閾值的樣本歸類為低置信度樣本,選取高置信度樣本繼續(xù)訓練模糊學習機,更新模型參數(shù);
41、噪聲識別模塊:利用更新后的樣例集預測樣本所屬標記,對比樣本原類別標記,兩者不一致即認為標記噪聲樣本。
42、綜上所述,發(fā)明具有以下有益效果:
43、本發(fā)明利用深度神經網(wǎng)絡提取對標記噪聲識別有用的特征;利用模糊允許損失降低深度神經網(wǎng)絡擬合標記噪聲的風險;利用二次學習機制完成對標記噪聲的初篩和識別,能夠有效地提升標記噪聲識別性能。