国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于主動學習和模型剪枝的集成學習方法及裝置與流程

      文檔序號:12469217閱讀:166來源:國知局
      一種基于主動學習和模型剪枝的集成學習方法及裝置與流程

      本發(fā)明屬于機器學習中的集成學習領(lǐng)域,尤其涉及機器學習中的主動學習和集成學習中的模型剪枝方法及裝置。



      背景技術(shù):

      主動學習:

      機器學習方法正在取得越來越廣泛的應(yīng)用,并深刻的影響著人們的日常生活。

      目前,機器學習中普遍存在的一個問題是標準答案獲取成本高。盡管隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量變得越來越龐大,然而這些數(shù)據(jù)大多是原始的、粗糙的、沒有經(jīng)過人工標記的,例如網(wǎng)絡(luò)上大量的圖片數(shù)據(jù),并沒有被標記上圖片的主題、包含人的數(shù)量等信息,而這些信息對于機器學習而言是十分寶貴的。不使用標準答案的機器學習方法稱為“無監(jiān)督學習”,相應(yīng)的,使用標準答案的方法稱為“有監(jiān)督學習”。通常,有監(jiān)督學習比無監(jiān)督學習的效果要好很多。

      主動學習技術(shù)就是為了應(yīng)對這種情況而提出來的。這種技術(shù)利用一些標準對輸入的未標記樣本進行判斷,如果判斷此樣本包含的信息量比較大,可以有效的訓練機器學習模型,那么就將此樣本交給人類來進行標注,然后使用標注后的樣本訓練機器學習模型。這樣,隨著一個一個的樣本被標注和加入訓練集合,機器學習模型可以很快的達到較為理想的水平。有研究表明,達到同樣的學習效果,主動學習可以比傳統(tǒng)方法少用90%的樣本數(shù)量。

      然而,當前的主動學習技術(shù)對樣本有效性的判斷還存在一定的問題,很多情況下,選擇出來用以訓練機器學習模型的樣本,并不是候選樣本中最好的,從而限制了訓練后的機器學習模型的效果。

      集成學習:

      在眾多的機器學習方法中,集成學習是最為成功的一類方法,其中隨機森林、梯度提升(gradient boosting)等方法是集成學習的典型代表。集成學習的基本想法是組合眾多基本的機器學習模型的結(jié)果,以達到提升學習效果的目的。

      集成學習方法主要包含三個部分:模型的生成,模型的剪枝,模型的集成。

      模型的生成需要完成基分類器的訓練任務(wù)。對于輸入的訓練數(shù)據(jù)集,訓練出若干個不同的機器學習模型,且這些模型可以各自對輸入樣本進行預測。

      模型的剪枝需要完成冗余模型的刪減任務(wù)。由于模型生成時十分容易造成冗余和相關(guān),因此對這些模型進行刪減十分重要。已有研究表明,使用合適的剪枝方法可以提高集成學習的學習效果。

      模型的集成需要對刪減后的模型進行集成。目前集成方法比較多,常用的有投票法、加權(quán)平均法等。

      無論在理論還是實踐方面,集成學習都已經(jīng)被證明可以達到比單個機器學習模型更好的水平,并且學習效果隨著集成的模型數(shù)目的增多而變得更好。然而,在實際應(yīng)用中,集成太多的模型會導致速度變慢,性能降低,并且對硬件要求也更高。因此,模型的剪枝是一個相當重要的環(huán)節(jié)。

      簡單的根據(jù)模型的準確率進行選擇已被證明是效果不佳的,因為會留下許多相似的或相關(guān)的模型。當前的模型剪枝方法,大多著眼于模型的多樣性,即盡量留下互相之間不相似的模型。但是,過于強調(diào)多樣性也會導致集成后的效果一般。



      技術(shù)實現(xiàn)要素:

      基于上述關(guān)于主動學習技術(shù)和集成學習技術(shù)的情況,提出了一種適用于集成學習情況下的主動學習方法。

      一種適用于集成學習情況下的主動學習方法,包括:

      接收一組未標記的樣本集合,以及一組使用少量有標記數(shù)據(jù)訓練好的機器學習模型;

      將未標記樣本集合內(nèi)的樣本逐個輸入模型集合,得到每個模型對該樣本的預測值;

      對每個樣本,根據(jù)得到的一組預測值,計算其平均預測值然后根據(jù)如下公式計算其多樣性或者稱為適用程度:

      此公式來源于集成學習中的泛化誤差分解理論,在二分類問題中,如果使用邏輯回歸損失(logistic loss)來度量分類效果的好壞,那么此公式度量的就是一組機器學習模型的“歧義度”(Ambiguity),因此也被廣泛接受為多樣性的度量。

      從所有未標記樣本中,選出適用程度最高的若干個(記為N個)樣本,請求人工標注;

      標注完成后,將此N個樣本加入已標注的樣本集合,并重新訓練模型集合;

      此過程不斷重復,直到學習效果無法繼續(xù)提高為止。

      基于上述關(guān)于模型剪枝技術(shù)的情況,提供了一種模型剪枝方法。

      一種模型剪枝方法,包括:

      接收一組已標記的樣本集合作為驗證集,以及一組訓練好的機器學習模型;

      從這組模型中,選擇效果最好的模型作為第一個被選出來的模型,組成留用集合,其他模型組成候選集合;

      從候選集合中,每輪選出一個模型,加入留用集合,選擇的標準是:將該候選模型與留用集合組合得到測試模型集合,對驗證集中的每個樣本,設(shè)其標準答案為y,這組模型的預測值的平均為使用下式計算當前測試模型集合對該樣本的適用程度:

      此公式同樣來源于集成學習中的泛化誤差分解理論,在樣本標記為1和-1的二分類問題中,如果使用邏輯回歸損失來度量分類效果的好壞,那么此公式分子部分度量的就是一組機器學習模型的平均準確度,分母部分度量的是一組模型的相似性,二者之比最大時,就是多樣性最大同時平均誤差最低的情況,因此可以作為模型集合對樣本的適用程度。對驗證集中所有樣本的適用程度求和,就得到綜合適用程度。將綜合適用程度最大的模型選擇出來,加入留用集合;

      重復上述過程,直到留用集合在驗證集上的誤差不能再繼續(xù)降低為止。

      綜合主動學習技術(shù)和模型剪枝技術(shù),提供了一種集成學習方法。

      一種集成學習方法,包括:

      接收一組未標記的樣本集合,一組數(shù)量較少的已標記的樣本集合;

      使用已標記樣本集合訓練一組機器學習模型;

      利用前面所述主動學習方法,不斷地自動從未標記樣本集合中選擇關(guān)鍵樣本,交給人工標注,從而提高已訓練的機器學習模型的準確度;

      利用前面所述模型剪枝方法,對得到的模型集合做進一步的篩選;

      將篩選后的模型集合集成起來,作為最終的機器學習模型。

      綜合主動學習技術(shù)和模型剪枝技術(shù),提供了一種集成學習裝置。

      一種集成學習裝置,包括:

      樣本集輸入模塊,用于接收輸入的未標記樣本集合,以及包含較少樣本的已標記樣本集合;

      基本機器學習模型的訓練模塊,用于利用已標記樣本集合來訓練基本的機器學習模型集合;

      基本機器學習模型的主動學習模塊,用于利用前面所述主動學習方法,不斷地自動從未標記樣本集合中選擇關(guān)鍵樣本,交給人工標注,從而提高已訓練的機器學習模型的準確度;

      模型集合的剪枝模塊,用于利用前面所述模型剪枝方法,對得到的模型集合做進一步的篩選;

      模型的集成模塊,用來將篩選后的模型集合集成起來,對新輸入的樣本作出預測,并輸出預測值。

      實施本發(fā)明實施例,將具有如下有益效果:

      該主動學習方法使用了一種新的度量樣本適用程度的標準,可以有效的篩選出最適合當前模型集合的樣本,減少了需要人工標注的樣本數(shù)量,節(jié)約了人工標注的成本。

      該模型剪枝方法可以在不降低甚至提高集成模型的效果的情況下,顯著減少最終模型集合所包含的模型數(shù)量,從而提高了集成模型的性能。

      該基于主動學習和模型剪枝的集成方法和裝置僅需要人工標注少量未標記樣本,與傳統(tǒng)集成方法相比,所需要的人工標注成本顯著降低,且性能比簡單集成方法更高。

      附圖說明

      下面結(jié)合附圖和實施例對本發(fā)明進一步說明。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      其中:

      圖1為一個實施例中一種主動學習方法的流程圖;

      圖2為一個實施例中一種模型剪枝方法的流程圖;

      圖3為一個實施例中一種基于主動學習和模型剪枝的集成學習方法的流程圖;

      圖4為一個實施例中一種基于主動學習和模型剪枝的集成學習裝置的示意圖;

      圖5為本發(fā)明所述綜合主動學習技術(shù)和模型剪枝技術(shù)的集成學習方法的流程圖。

      具體實施方式

      以下結(jié)合附圖對本發(fā)明的原理和性質(zhì)進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

      本發(fā)明提供一種主動學習方法,如圖1所示,詳細過程如下:

      1)如圖步驟S101,接收一組未標記的樣本集合,以及一組已使用少量有標記數(shù)據(jù)訓練好的機器學習模型;

      2)如圖步驟S102,對未標記樣本集合內(nèi)的每個樣本,逐個輸入模型集合中的每個模型,得到每個模型對該樣本的預測值,這樣每個樣本可以得到一組預測值;

      3)如圖步驟S103,對每個樣本,將上一步得到的一組預測值進行平均,得到然后根據(jù)如下公式計算其多樣性或者稱為適用程度:

      4)如圖步驟S104,從所有未標記樣本中,選出適用程度最高的N個樣本,請求人工標注;

      5)如圖步驟S105,標注完成后,將這N個樣本加入已標注的樣本集合,并重新訓練模型集合;

      6)如圖步驟S106,判斷重新訓練后的模型集合的學習效果是否在繼續(xù)提高,如果還在提高,那么重復步驟S102、S103、S104、S105,否則進入下一步;

      7)如圖步驟S107,輸出訓練后的模型集合。

      本發(fā)明提供一種模型剪枝方法,如圖2所示,詳細過程如下:

      1)如圖步驟S201,接收一組已標記的樣本集合作為驗證集,以及一組訓練好的機器學習模型;

      2)如圖步驟S202,從這組模型中,選擇效果最好的模型作為第一個被選出來的模型,組成留用集合,其他模型組成候選集合;

      3)如圖步驟S203,從候選集合中,每輪篩選出一個模型,加入留用集合,選擇的標準是:將每個候選模型依次與留用集合組合得到相應(yīng)的測試模型集合,對驗證集中的每個樣本,設(shè)其標準答案為y,這組模型的預測值的平均為使用下式計算當前測試模型集合對該樣本的適用程度:

      然后對驗證集中所有樣本的適用程度求和,得到每個候選模型對應(yīng)的測試模型集合的綜合適用程度。將綜合適用程度最大的測試模型集合所對應(yīng)的候選模型選擇出來,加入留用集合;

      4)如圖步驟S204,判斷留用集合的學習效果是否在繼續(xù)提高,如果還在提高,那么重復步驟S203,否則進入下一步;

      5)如圖步驟S205,輸出最終保留的留用集合。

      綜合主動學習技術(shù)和模型剪枝技術(shù),本發(fā)明提供了一種集成學習方法,如圖3所示,詳細過程如下:

      1)如圖步驟S301,接收一組未標記的樣本集合,一組數(shù)量較少的已標記的樣本集合;

      2)如圖步驟S302,使用已標記樣本集合訓練一組機器學習模型,這里具體使用哪些機器學習模型不受限制。由于已標記樣本集合包含樣本數(shù)量較少,故在此訓練出來的模型效果和集成后的效果都會比較一般,通過后面幾步,將使集成模型的效果得到提升;

      3)如圖步驟S303,利用前面所述主動學習方法,自動從未標記樣本集合中選擇關(guān)鍵樣本,交給人工標注,并重新訓練模型,從而提高已訓練的機器學習模型集合的準確度;

      4)如圖步驟S304,利用前面所述模型剪枝方法,對得到的模型集合做進一步的篩選;

      5)如圖步驟S305,將篩選后的模型集合集成起來,作為最終的機器學習模型。這里集成方法不受限制,可以使用包括投票法、加權(quán)平均法等各種集成方法。

      此外,本發(fā)明提供一種集成學習裝置,如圖4所示,包括五個模塊:樣本集輸入模塊101、基本機器學習模型的訓練模塊102、基本機器學習模型的主動學習模塊103、模型集合的剪枝模塊104和模型的集成模塊105,其中:

      樣本集輸入模塊101,用于接收輸入的未標記樣本集合,以及包含較少樣本的已標記樣本集合;

      基本機器學習模型的訓練模塊102,用于利用已標記樣本集合來訓練基本的機器學習模型集合;

      基本機器學習模型的主動學習模塊103,用于利用前面所述主動學習方法,不斷地自動從未標記樣本集合中選擇關(guān)鍵樣本,交給人工標注,從而提高已訓練的機器學習模型的準確度;

      模型集合的剪枝模塊104,用于利用前面所述模型剪枝方法,對得到的模型集合做進一步的篩選;

      模型的集成模塊105,用來將篩選后的模型集合集成起來,對新輸入的樣本作出預測,并輸出預測值。

      在本實施例中,基本機器學習模型的主動學習模塊103還用于度量每個未標記樣本對模型集合的適用程度,并交給人工標注。

      在本實施例中,模型集合的剪枝模塊104還用于度量一組模型集合對一組已標記樣本集合的適用程度,并指導模型剪枝。

      采用了上述綜合了主動學習技術(shù)和模型剪枝技術(shù)的集成學習方法及裝置之后,不僅可以以很少的人工標注成本得到理想的學習效果,還能夠降低最終集成模型的復雜度,從而提高集成學習性能。

      以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1