一種基于標簽噪聲糾正的眾包標注數(shù)據(jù)質(zhì)量提升方法
【技術(shù)領域】
[0001] 本發(fā)明屬于數(shù)據(jù)標注技術(shù)領域,具體涉及一種基于標簽噪聲糾正的眾包標注數(shù)據(jù) 質(zhì)量提升方法。
【背景技術(shù)】
[0002] 獲得高質(zhì)量的標注數(shù)據(jù)是當今信息檢索、機器學習、數(shù)據(jù)挖掘等領域的一項基礎 性工作。以機器學習中的監(jiān)督學習為例,其整個學習過程就是在一個規(guī)模適度的具有類標 簽的數(shù)據(jù)集上進行模型訓練,從而獲得對未標注樣本能夠準確預測的學習模型。傳統(tǒng)上,訓 練數(shù)據(jù)中的類標簽通常是由該應用領域的專家提供。專家提供的類標簽準確度高,有利于 構(gòu)建高質(zhì)量的模型。然而,這種專家標注本身卻代價高昂。隨著智能計算技術(shù)的發(fā)展,越來 越多的標注需求不斷提出,采用專家標注已經(jīng)不能滿足應用需求。眾包系統(tǒng)的出現(xiàn)極大地 緩解了這一問題。很多標注任務,例如文本標注、圖像分類等,均可以通過眾包平臺發(fā)布到 互聯(lián)網(wǎng)上,由來自互聯(lián)網(wǎng)的普通用戶進行標注。普通用戶完成數(shù)據(jù)標注任務并獲得發(fā)布者 提供的經(jīng)濟報酬。
[0003] 眾包標注的出現(xiàn)使得獲得標注數(shù)據(jù)的代價變小且時效性加強。但是,眾包標注也 有其固有的缺陷:標注者均為來自互聯(lián)網(wǎng)的普通用戶,與傳統(tǒng)的專家標注相比,其標注質(zhì)量 的不到保證。為了解決質(zhì)量低下的問題,一種廣為采用的方法就每個標注樣本讓不同的標 注者進行標注,然后使用一種標簽集成方法,獲得每個樣本最終的標簽。目前已有的標簽 集成算法包括:多數(shù)投票算法、David和Skene算法(DS),Raykar等人提出的算法(RY), ZenCrowd算法等。這些標簽集成算法從用戶的專業(yè)知識水平、用戶完成任務的投入程度、 任務本身的難度等多個側(cè)面對眾包標注系統(tǒng)進行建模,并推理每個樣本的集成標簽。相關(guān) 研究發(fā)現(xiàn),雖然集成的方法多種多樣,但是沒有某種算法被公認為性能最優(yōu)。在大多數(shù)情況 下,標簽集成后的數(shù)據(jù)質(zhì)量提升程度有限。這里數(shù)據(jù)質(zhì)量的定義為,樣本數(shù)據(jù)集成標簽值與 其標簽真值之間的匹配程度。在整個標注數(shù)據(jù)處理過程中,所有樣本的標簽真值都是未知 的,標簽集成的目標就是正確推理出每個樣本的標簽,使之與其真值盡可能地匹配。
[0004] 上述標簽集成算法無法進一步提升數(shù)據(jù)質(zhì)量的一個主要原因為算法只利用了來 自多個不確定標注者的標簽信息,而忽略了數(shù)據(jù)本身的特征信息。本發(fā)明中將那些集成后 的標簽值與標簽真值不匹配的數(shù)據(jù)標簽稱為"噪聲"標簽。如果能夠利用現(xiàn)有數(shù)據(jù)的特征 信息,進一步對這些噪聲進行糾正,那么數(shù)據(jù)質(zhì)量可以獲得進一步提升。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)所存在的上述技術(shù)問題,本發(fā)明提供了一種基于標簽噪聲糾正的眾 包標注數(shù)據(jù)質(zhì)量提升方法。該方法的總體技術(shù)框架包含如下步驟: (1)在初始的眾包標注數(shù)據(jù)集及h運行標簽集成算法,得到標簽集成后的數(shù)據(jù)集#,該 數(shù)據(jù)集中的每一個數(shù)據(jù)樣本均獲得一個集成標簽。在此過程中估計出標注者的質(zhì)量和每個 樣本集成標簽的質(zhì)量。所述的標注者質(zhì)量,即標注者賦予樣本的標簽等同于樣本標簽真值 的概率。所述的樣本集成標簽的質(zhì)量,即樣本的集成標簽等同于其標簽真值的概率。
[0006] (2)對數(shù)據(jù)集Z/進行娜府斤交叉驗證,即在對數(shù)據(jù)集Z/進行隨機打亂后,分成尤 份,其中每一份分別作為測試集,而余下的份作為訓練集,訓練出分類器。使用該分類 器對測試集中的每個樣本進行標簽預測。在每一輪的交叉驗證中,構(gòu)建一個高質(zhì)量數(shù)據(jù)集。 總共構(gòu)建#高質(zhì)量數(shù)據(jù)集湖" ;,湖0,……,湖利用每一輪交叉驗證過程中,每個樣 本獲得的標簽類別預測概率,結(jié)合步驟(1)中得到的標注者質(zhì)量和樣本集成標簽質(zhì)量,對所 有樣本屬于標簽噪聲樣本的可能性進行排序,確定一定數(shù)量的標簽噪聲樣本,這些樣本構(gòu) 成標簽噪聲數(shù)據(jù)集#。從#刪除那些屬于#的樣本,余下的樣本構(gòu)成潔凈數(shù)據(jù)集#,三者 關(guān)系為所述的腐卩尤為該方法的參數(shù),其中滅漢值為不小于1的正整數(shù),尤 取值為不小于3的正整數(shù)。
[0007] (3)利用步驟(2)中所述的高質(zhì)量數(shù)據(jù)集湖";,湖@,……訓練分類模 型,并利用該分類模型重新預測噪聲數(shù)據(jù)集#中全部樣本的類標簽,并用預測出的類標簽 替換原有的類標簽,最終形成修正后的噪聲數(shù)據(jù)集
[0008] (4)將步驟(3)中所述Z/和步驟(2)中所述#合并成新的增強數(shù)據(jù)集#和步 驟(1)中所述#具有相同的樣本,但是#的標簽質(zhì)量高于#。
[0009] 本發(fā)明利用到標注樣本本身的特征屬性結(jié)合標簽噪聲處理技術(shù)對集成標簽中的 潛在錯誤進行糾正。本發(fā)明與傳統(tǒng)只進行標簽集成的方法相比具有以下有益效果: (1)本發(fā)明利用了被標注樣本本身的特征屬性在標簽集成方法的基礎上進一步修正集 成中潛在的錯誤標簽,提升了最終數(shù)據(jù)集的標簽質(zhì)量。
[0010] (2)本發(fā)明適用多種標簽集成方法,具有通用性。
[0011] 本發(fā)明方法對各種類型的眾包數(shù)據(jù)均適用,包括但不限于:圖像、文本、視頻等任 務的二值標注和多值標注。
【附圖說明】
[0012] 圖1為本發(fā)明方法的整體框架圖。
[0013] 圖2為本發(fā)明方法的一種實施方案流程圖。
【具體實施方式】
[0014] 為了更為具體地描述本發(fā)明,下面結(jié)合附圖詳細描述本發(fā)明的一種具體實施方 式。
[0015] 步驟(1):(眾包標簽集成) (1-1)在初始的眾包數(shù)據(jù)集及h運行一種標簽集成算法。最常用的算法為多數(shù)投票算 法。該算法針對數(shù)據(jù)集中的每一個樣本i,對該樣本來自于多個標注者的標簽進行數(shù)量統(tǒng) 計,如果類別為^的標簽具有最多的數(shù)量,那么該樣本的集成標簽即為^。如果數(shù)目最多 的標簽類別不止一種,那么隨機選一種類別作為該樣本的集成標簽。
[0016] (1-2)數(shù)據(jù)集//中任意一個樣本i,其集成標簽為免,標注者武予樣本i的標 簽為_#,那么標注者注質(zhì)莖麵::計算為:
其中堤#中樣本的數(shù)目,函數(shù)隱為指示器函數(shù),即在條件成立時返回1否則返回0。
[0017] 標注者總數(shù)為則所有標注者的平均標注質(zhì)量fH十算為:
一個具有#眾包標簽的樣本i,其集成標簽質(zhì)量以十算為:
估算標簽集成后潛在的噪聲數(shù)目的上下界σ和0分別計算為: ΓV'·
Γ/'ν 步驟(2):(噪聲識別)該步驟需要兩個參數(shù),府卩其中尤為下述Κ折交叉驗證的折 數(shù),#是將要構(gòu)建的高質(zhì)量數(shù)據(jù)集的數(shù)目。一般#設置為1〇, #設置為5。
[0018] (2-1)步驟2-1是屬%的循環(huán)過程,每輪循環(huán)4勾建一個高質(zhì)量的數(shù)據(jù)集湖~并 進行相關(guān)計算具體步驟如下: (2-1-1)將數(shù)據(jù)集Ζ/中的樣本順序隨機打亂,將Ζ/平均分成^份。一次將每一等份 作為測試集,其余個等份作為訓練集。用這尤-7個等份數(shù)據(jù)訓練分類器?,并使用這個 分類器對測試集中的樣本進行預測。
[0019] (2-1-2)構(gòu)建的分類器?對每個樣本i進行預測,預測出樣本i屬于類別1,類別 2,……,類別崩概率分別為.__,__,……,|_。計舅
,其中/?類別總數(shù)。如果該樣本i的預測標簽與其在步驟(1)中得到的集成標