国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)與流程

      文檔序號(hào):12864240閱讀:445來(lái)源:國(guó)知局
      用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)與流程

      本發(fā)明的示例性實(shí)施例總體說(shuō)來(lái)涉及人工智能領(lǐng)域,更具體地說(shuō),涉及一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)。



      背景技術(shù):

      隨著海量數(shù)據(jù)的出現(xiàn),人工智能技術(shù)得到了迅速發(fā)展,而為了從海量數(shù)據(jù)中挖掘出價(jià)值,需要基于數(shù)據(jù)記錄來(lái)產(chǎn)生適用于機(jī)器學(xué)習(xí)的樣本。

      這里,每條數(shù)據(jù)記錄可被看做關(guān)于一個(gè)事件或?qū)ο蟮拿枋?,?duì)應(yīng)于一個(gè)示例或樣例。在數(shù)據(jù)記錄中,包括反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的各個(gè)事項(xiàng),這些事項(xiàng)可稱為“屬性”。通過(guò)對(duì)數(shù)據(jù)記錄的屬性信息進(jìn)行諸如特征工程等處理,可產(chǎn)生包括各種特征的機(jī)器學(xué)習(xí)樣本。

      實(shí)踐中,機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果與模型的選擇、可用的數(shù)據(jù)和樣本特征的提取均有關(guān)系。此外,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)時(shí)還需要面對(duì)計(jì)算資源有限、樣本數(shù)據(jù)不足等客觀問(wèn)題。因此,如何從原始數(shù)據(jù)記錄的各個(gè)屬性提取出機(jī)器學(xué)習(xí)樣本的特征,將會(huì)對(duì)機(jī)器學(xué)習(xí)模型的效果帶來(lái)很大的影響。相應(yīng)地,不論從模型訓(xùn)練還是模型理解的角度來(lái)看,都很需要獲知機(jī)器學(xué)習(xí)樣本的各特征或特征組合的重要程度。例如,可根據(jù)基于xgboost訓(xùn)練出的樹(shù)模型,計(jì)算每個(gè)特征的期望分裂增益,然后計(jì)算特征重要性。上述方式雖然能考慮特征之間的相互作用,但訓(xùn)練代價(jià)高,且不同參數(shù)對(duì)特征重要性的影響較大。

      實(shí)際上,特征的重要性難以直觀確定,往往需要技術(shù)人員不僅掌握機(jī)器學(xué)習(xí)的知識(shí),還需要對(duì)實(shí)際預(yù)測(cè)問(wèn)題有深入的理解,而預(yù)測(cè)問(wèn)題往往結(jié)合著不同行業(yè)的不同實(shí)踐經(jīng)驗(yàn),這些因素都導(dǎo)致特征提取很難達(dá)到滿意的效果。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的示例性實(shí)施例旨在克服現(xiàn)有技術(shù)中難以有效地衡量機(jī)器學(xué)習(xí)樣本特征重要性的缺陷。

      根據(jù)本發(fā)明的示例性實(shí)施例,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法,包括:(a)確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征;(b)確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征;(c)針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成;以及(d)根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      可選地,在所述方法中,在步驟(d)中,根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型在相同數(shù)據(jù)集上的效果之間的差異來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      可選地,在所述方法中,復(fù)合機(jī)器學(xué)習(xí)模型的效果包括復(fù)合機(jī)器學(xué)習(xí)模型的auc。

      可選地,在所述方法中,所述目標(biāo)特征基于基本特征而產(chǎn)生。

      可選地,在所述方法中,所述目標(biāo)特征為通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的組合特征。

      可選地,在所述方法中,在步驟(c)中,通過(guò)并行地訓(xùn)練多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型來(lái)獲取與每一個(gè)目標(biāo)特征子集相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。

      可選地,在所述方法中,目標(biāo)特征子集包括通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的一個(gè)組合特征,并且,所述方法還包括:(e)以圖形化方式向用戶展示確定的各個(gè)組合特征的重要性。

      可選地,在所述方法中,在步驟(c)中,通過(guò)在固定已經(jīng)訓(xùn)練出的基本子模型的情況下訓(xùn)練附加子模型來(lái)獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。

      可選地,在所述方法中,基本子模型和附加子模型的類型相同。

      根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的介質(zhì),其中,在所述計(jì)算機(jī)可讀介質(zhì)上記錄有用于執(zhí)行上述方法的計(jì)算機(jī)程序。

      根據(jù)本發(fā)明的另一示例性實(shí)施,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的計(jì)算裝置,包括存儲(chǔ)部件和處理器,其中,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行上述方法。

      根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的系統(tǒng),包括:基本特征子集確定裝置,用于確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征;目標(biāo)特征子集確定裝置,用于確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征;復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置,用于針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成;以及重要性確定裝置,用于根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      可選地,在所述系統(tǒng)中,重要性確定裝置根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型在相同數(shù)據(jù)集上的效果之間的差異來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      可選地,在所述系統(tǒng)中,復(fù)合機(jī)器學(xué)習(xí)模型的效果包括復(fù)合機(jī)器學(xué)習(xí)模型的auc。

      可選地,在所述系統(tǒng)中,所述目標(biāo)特征基于基本特征而產(chǎn)生。

      可選地,在所述系統(tǒng)中,所述目標(biāo)特征為通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的組合特征。

      可選地,在所述系統(tǒng)中,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置通過(guò)并行地訓(xùn)練多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型來(lái)獲取與每一個(gè)目標(biāo)特征子集相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。

      可選地,在所述系統(tǒng)中,目標(biāo)特征子集包括通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的一個(gè)組合特征,并且,所述系統(tǒng)還包括:顯示裝置,以圖形化方式向用戶展示確定的各個(gè)組合特征的重要性。

      可選地,在所述系統(tǒng)中,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置通過(guò)在固定已經(jīng)訓(xùn)練出的基本子模型的情況下訓(xùn)練附加子模型來(lái)獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。

      可選地,在所述系統(tǒng)中,基本子模型和附加子模型的類型相同。

      在根據(jù)本發(fā)明示例性實(shí)施例的確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)中,每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型被構(gòu)建為包括基于提升框架的基本子模型(與基本特征子集對(duì)應(yīng))和附加子模型(與重要性待確定的某個(gè)目標(biāo)特征子集對(duì)應(yīng)),相應(yīng)地,根據(jù)各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果,能夠以較低的運(yùn)算代價(jià)有效地得出各個(gè)目標(biāo)特征子集的重要性。

      附圖說(shuō)明

      從下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的詳細(xì)描述中,本發(fā)明的這些和/或其他方面和優(yōu)點(diǎn)將變得更加清楚并更容易理解,其中:

      圖1示出根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的系統(tǒng)的框圖;

      圖2示出根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法的流程圖;

      圖3示出根據(jù)本發(fā)明示例性實(shí)施例的訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型的方法的流程圖;以及

      圖4示出根據(jù)本發(fā)明示例性實(shí)施例的測(cè)試復(fù)合機(jī)器學(xué)習(xí)模型的方法的流程圖。

      具體實(shí)施方式

      為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的示例性實(shí)施例作進(jìn)一步詳細(xì)說(shuō)明。

      機(jī)器學(xué)習(xí)是人工智能研究發(fā)展到一定階段的必然產(chǎn)物,其致力于通過(guò)計(jì)算的手段,利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身的性能。在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常以“數(shù)據(jù)”形式存在,通過(guò)機(jī)器學(xué)習(xí)算法,可從數(shù)據(jù)中產(chǎn)生“模型”,也就是說(shuō),將經(jīng)驗(yàn)數(shù)據(jù)提供給機(jī)器學(xué)習(xí)算法,就能基于這些經(jīng)驗(yàn)數(shù)據(jù)產(chǎn)生模型,在面對(duì)新的情況時(shí),模型會(huì)提供相應(yīng)的判斷,即,預(yù)測(cè)結(jié)果。機(jī)器學(xué)習(xí)可被實(shí)現(xiàn)為“有監(jiān)督學(xué)習(xí)”、“無(wú)監(jiān)督學(xué)習(xí)”或“半監(jiān)督學(xué)習(xí)”的形式。應(yīng)注意,本發(fā)明的示例性實(shí)施例在訓(xùn)練和應(yīng)用機(jī)器學(xué)習(xí)模型的過(guò)程中,還可利用統(tǒng)計(jì)算法、業(yè)務(wù)規(guī)則和/或?qū)<抑R(shí)等,以進(jìn)一步提高機(jī)器學(xué)習(xí)的效果。

      本發(fā)明的示例性實(shí)施例涉及如何衡量機(jī)器學(xué)習(xí)樣本的特征重要性,在本發(fā)明的示例性實(shí)施例中,復(fù)合機(jī)器學(xué)習(xí)模型被構(gòu)建為包括基于提升框架的基本子模型和附加子模型,其中,所有復(fù)合機(jī)器學(xué)習(xí)模型的基本子模型均對(duì)應(yīng)于同樣的基本特征子集,而每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的附加子模型對(duì)應(yīng)于各自不同的目標(biāo)特征子集,因此,可通過(guò)比較各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)衡量相應(yīng)目標(biāo)特征子集的重要性。這里,由于目標(biāo)特征子集可包括一個(gè)或多個(gè)目標(biāo)特征,因此,本發(fā)明的示例性實(shí)施例既可以衡量多個(gè)目標(biāo)特征之間的重要性,也可以衡量多組目標(biāo)特征之間的重要性。

      圖1示出根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的系統(tǒng)。圖1所示的系統(tǒng)可全部通過(guò)計(jì)算機(jī)程序以軟件方式來(lái)實(shí)現(xiàn),也可由專門的硬件裝置來(lái)實(shí)現(xiàn),還可通過(guò)軟硬件結(jié)合的方式來(lái)實(shí)現(xiàn)。相應(yīng)地,組成圖1所示的系統(tǒng)的各個(gè)裝置可以是僅依靠計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)相應(yīng)功能的虛擬模塊,也可以是依靠硬件結(jié)構(gòu)來(lái)實(shí)現(xiàn)所述功能的通用或?qū)S闷骷?,還可以是運(yùn)行有相應(yīng)計(jì)算機(jī)程序的處理器等。利用所述系統(tǒng),能夠確定出機(jī)器學(xué)習(xí)樣本的相關(guān)特征的重要性,這些重要性信息有助于進(jìn)行模型訓(xùn)練和/或模型解釋。

      參照?qǐng)D1,基本特征子集確定裝置100用于確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征。根據(jù)本發(fā)明的示例性實(shí)施例,基本特征子集將固定地應(yīng)用于所有復(fù)合機(jī)器學(xué)習(xí)模型中的基本子模型,這里,基本特征子集確定裝置100可將任何基于數(shù)據(jù)記錄的屬性信息產(chǎn)生的特征作為基本特征。例如,基本特征子集確定裝置100可將數(shù)據(jù)記錄的至少一部分屬性信息直接作為基本特征。此外,作為示例,基本特征子集確定裝置100可考慮實(shí)際的機(jī)器學(xué)習(xí)問(wèn)題,基于測(cè)試計(jì)算或根據(jù)業(yè)務(wù)人員指定來(lái)確定相對(duì)重要或基本的特征作為基本特征。

      目標(biāo)特征子集確定裝置200用于確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征。這里,每個(gè)目標(biāo)特征子集可包括一個(gè)或多個(gè)目標(biāo)特征,并且,目標(biāo)特征子集確定裝置200可將任何基于數(shù)據(jù)記錄的屬性信息產(chǎn)生的特征作為目標(biāo)特征。

      具體說(shuō)來(lái),當(dāng)期望確定多個(gè)特征之間的重要性時(shí),目標(biāo)特征子集確定裝置200可將所述多個(gè)特征之中的每一個(gè)特征作為目標(biāo)特征子集。當(dāng)期望確定多組特征之間的重要性時(shí),目標(biāo)特征子集確定裝置200可將所述多組特征之中的每一組特征作為目標(biāo)特征子集。根據(jù)本發(fā)明的示例性實(shí)施例,每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的附加子模型對(duì)應(yīng)于各自的目標(biāo)特征子集,相應(yīng)地,可根據(jù)多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果差異來(lái)衡量不同目標(biāo)特征子集在預(yù)測(cè)時(shí)所起到的作用大小。

      在獲知了目標(biāo)特征子集的重要性之后,可在模型的訓(xùn)練和/或解釋等方面利用這樣的重要性信息。作為示例,在所有目標(biāo)特征子集均只包括單個(gè)目標(biāo)特征的情況下,可通過(guò)衡量所有目標(biāo)特征的重要性來(lái)篩選出較為重要的一個(gè)或多個(gè)特征,以作為訓(xùn)練樣本的特征。作為另一示例,在目標(biāo)特征子集分別包括不同目標(biāo)特征的組合時(shí),可衡量出這些特征組合的不同表現(xiàn),以選取最優(yōu)組合作為訓(xùn)練樣本的特征。應(yīng)注意,本發(fā)明的示例性實(shí)施例并不限制應(yīng)用重要性確定結(jié)果的具體方式。

      可以看出,根據(jù)本發(fā)明示例性實(shí)施例的基本特征和目標(biāo)特征是一個(gè)相對(duì)的概念,使得在保持基本特征不變的情況下,衡量各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型由于引入不同的目標(biāo)特征子集所帶來(lái)的效果差異?;谏鲜鰳?gòu)思,可根據(jù)具體情況,采用任何適當(dāng)?shù)姆绞絹?lái)設(shè)計(jì)基本特征子集和各個(gè)目標(biāo)特征子集。

      復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300用于針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成。

      根據(jù)本發(fā)明的示例性實(shí)施例,對(duì)于每一個(gè)目標(biāo)特征子集,需獲取對(duì)應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。這里,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300可自身完成復(fù)合機(jī)器學(xué)習(xí)模型的訓(xùn)練,也可從外部獲取已經(jīng)訓(xùn)練好的復(fù)合機(jī)器學(xué)習(xí)模型。這里,復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架(例如,梯度提升框架)訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型和附加子模型可以是類型相同的模型,例如,基本子模型和附加子模型可以都是線性模型(例如,對(duì)數(shù)幾率回歸模型),此外,基本子模型和附加子模型也可以具有不同的類型。這里,各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的提升框架可以是相同的,即,各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型具有相同類型的基本子模型和相同類型的附加子模型,區(qū)別僅在于附加子模型所依據(jù)的目標(biāo)特征子集不一樣。

      重要性確定裝置400用于根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。如上所述,復(fù)合機(jī)器學(xué)習(xí)模型的效果可用于衡量其所對(duì)應(yīng)的目標(biāo)特征子集的重要性。這里,重要性確定裝置400可通過(guò)測(cè)試不同復(fù)合機(jī)器學(xué)習(xí)模型在相同數(shù)據(jù)集上的表現(xiàn)來(lái)反映各個(gè)目標(biāo)特征子集的重要性。

      作為示例,圖1所示的系統(tǒng)還可包括顯示裝置(未示出),用于以圖形化的形式向用戶展示特征重要性的確定結(jié)果。例如,可將目標(biāo)特征子集的重要性展示為圖形或表格,以便用戶更好地進(jìn)行特征工程或更直觀地理解模型。此外,圖1所示的系統(tǒng)還可包括輸入裝置(未示出),用于感測(cè)用戶為了指定特征處理方式等而進(jìn)行的輸入操作。

      以下將參照?qǐng)D2來(lái)描述根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法。這里,作為示例,圖2所示的方法可由圖1所示的系統(tǒng)來(lái)執(zhí)行,也可完全通過(guò)計(jì)算機(jī)程序以軟件方式實(shí)現(xiàn),還可通過(guò)特定配置的計(jì)算裝置來(lái)執(zhí)行圖2所示的方法。

      為了描述方便,假設(shè)圖2所示的方法由圖1所示的系統(tǒng)來(lái)執(zhí)行。參照?qǐng)D2,在步驟s100中,由基本特征子集確定裝置100確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征。作為示例,基本特征子集確定裝置100可根據(jù)預(yù)設(shè)的特征提取方式來(lái)確定基本特征子集所包括的各個(gè)基本特征,例如,可將數(shù)據(jù)記錄的預(yù)定屬性信息按照設(shè)定的方式處理為相應(yīng)的基本特征。這里,可借助屬性測(cè)試手段或根據(jù)業(yè)務(wù)經(jīng)驗(yàn)來(lái)確定所述預(yù)定屬性信息和/或相應(yīng)的處理方式。此外,基本特征子集確定裝置100可根據(jù)用戶的交互操作來(lái)確定基本特征子集所包括的各個(gè)基本特征,例如,在諸如機(jī)器學(xué)習(xí)平臺(tái)的軟件系統(tǒng)中,用戶可通過(guò)相應(yīng)的交互操作來(lái)手動(dòng)選取基本特征。優(yōu)選地,上述兩種方式還可進(jìn)行結(jié)合,例如,用戶可通過(guò)諸如軟件系統(tǒng)的操作界面設(shè)置基本特征的處理方式,包括作為特征來(lái)源的屬性信息、提取方式(例如,直接提取、組合提取、運(yùn)算提取等)、相關(guān)參數(shù)等。

      在步驟s200中,由目標(biāo)特征子集確定裝置200確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征。作為示例,目標(biāo)特征子集確定裝置200可根據(jù)預(yù)設(shè)的特征提取方式來(lái)確定各個(gè)目標(biāo)特征子集所包括的目標(biāo)特征,例如,可將數(shù)據(jù)記錄的預(yù)定屬性信息按照設(shè)定的方式處理為相應(yīng)的目標(biāo)特征。這里,可借助屬性測(cè)試手段或根據(jù)業(yè)務(wù)經(jīng)驗(yàn)來(lái)確定所述預(yù)定屬性信息和/或相應(yīng)的處理方式。此外,目標(biāo)特征子集確定裝置200可根據(jù)用戶的交互操作來(lái)確定目標(biāo)特征子集所包括的各個(gè)目標(biāo)特征,例如,在諸如機(jī)器學(xué)習(xí)平臺(tái)的軟件系統(tǒng)中,用戶可通過(guò)相應(yīng)的交互操作來(lái)手動(dòng)選取各個(gè)目標(biāo)特征子集所包括的目標(biāo)特征。優(yōu)選地,上述兩種方式還可進(jìn)行結(jié)合,例如,用戶可通過(guò)諸如軟件系統(tǒng)的操作界面設(shè)置目標(biāo)特征的處理方式,包括作為特征來(lái)源的屬性信息、提取方式(例如,直接提取、組合提取、運(yùn)算提取等)、相關(guān)參數(shù)等。

      根據(jù)本發(fā)明的示例性實(shí)施例,所述目標(biāo)特征可基于基本特征而產(chǎn)生。例如,可通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行某種變換而得到相應(yīng)的目標(biāo)特征。作為示例,所述目標(biāo)特征可以為通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的組合特征。在組合基本特征時(shí),還可先對(duì)相關(guān)基本特征進(jìn)行附加的變換(例如,指數(shù)運(yùn)算、離散化等)。例如,在基本特征子集包括特征a、特征b、特征c、特征d等的情況下,組合特征可以是上述特征的直接組合,例如,組合特征可以是上述一部分特征的笛卡爾積,或者,特別地,組合特征可以是單個(gè)的上述特征本身;此外,組合特征也可以是上述特征的算術(shù)運(yùn)算結(jié)果(例如,a^2、d^2等)的組合(例如,可以是上述算術(shù)運(yùn)算結(jié)果的笛卡爾積或其本身)。通過(guò)這種方式來(lái)劃分基本特征和目標(biāo)特征并結(jié)合復(fù)合機(jī)器學(xué)習(xí)模型的框架,可有效地衡量機(jī)器學(xué)習(xí)樣本的一些較為復(fù)雜的目標(biāo)特征(例如,組合特征)是否適合作為最終使用的特征。

      在步驟s300中,由復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成。

      作為示例,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300可從外部獲取已經(jīng)訓(xùn)練好的復(fù)合機(jī)器學(xué)習(xí)模型,為此,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300需要首先將之前確定的基本特征子集和各個(gè)目標(biāo)特征子集的具體提取方式通知外部的模型訓(xùn)練裝置(未示出,可位于圖1所示的系統(tǒng)之內(nèi)或圖1所示的系統(tǒng)之外),以便所述外部的模型訓(xùn)練裝置可按照相應(yīng)的特征設(shè)計(jì)來(lái)構(gòu)建訓(xùn)練樣本,進(jìn)而訓(xùn)練出復(fù)合機(jī)器學(xué)習(xí)模型。

      作為另一示例,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300本身可執(zhí)行復(fù)合機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程。以下結(jié)合圖3來(lái)描述根據(jù)本發(fā)明示例性實(shí)施例的訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型的方法。

      參照?qǐng)D3,在步驟s310中,可獲取訓(xùn)練數(shù)據(jù)記錄。這些訓(xùn)練數(shù)據(jù)記錄可由任何方以任何方式來(lái)產(chǎn)生,例如,可以是在線生成或收集的數(shù)據(jù)、預(yù)先生成或存儲(chǔ)的數(shù)據(jù)、也可以是從外部接收的數(shù)據(jù)。這些數(shù)據(jù)的屬性信息可涉及客戶信息,例如,身份、學(xué)歷、職業(yè)、資產(chǎn)、聯(lián)系方式等信息。或者,這些數(shù)據(jù)的屬性信息也可涉及業(yè)務(wù)相關(guān)項(xiàng)目的信息,例如,關(guān)于買賣合同的交易額、交易雙方、標(biāo)的物、交易地點(diǎn)等信息。應(yīng)注意,本發(fā)明的示例性實(shí)施例中提到的數(shù)據(jù)的屬性可涉及任何對(duì)象或事務(wù)在某方面的表現(xiàn)或性質(zhì),而不限于對(duì)個(gè)人、物體、組織、單位、機(jī)構(gòu)、項(xiàng)目、事件等進(jìn)行限定或描述。實(shí)際上,任何能夠通過(guò)對(duì)其進(jìn)行機(jī)器學(xué)習(xí)的信息數(shù)據(jù)均可應(yīng)用于本發(fā)明的示例性實(shí)施例。

      這里,可獲取不同來(lái)源(例如,來(lái)源于數(shù)據(jù)提供商的數(shù)據(jù)、來(lái)源于互聯(lián)網(wǎng)(例如,社交網(wǎng)站)的數(shù)據(jù)、來(lái)源于移動(dòng)運(yùn)營(yíng)商的數(shù)據(jù)、來(lái)源于app運(yùn)營(yíng)商的數(shù)據(jù)、來(lái)源于快遞公司的數(shù)據(jù)、來(lái)源于信用機(jī)構(gòu)的數(shù)據(jù)等等)的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),例如,文本數(shù)據(jù)或數(shù)值數(shù)據(jù)等。這些數(shù)據(jù)可從外部輸入到復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300,或者由復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300根據(jù)已有的數(shù)據(jù)來(lái)自動(dòng)生成,或者可由復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300從網(wǎng)絡(luò)上(例如,網(wǎng)絡(luò)上的存儲(chǔ)介質(zhì)(例如,數(shù)據(jù)倉(cāng)庫(kù)))獲得,此外,諸如服務(wù)器的中間數(shù)據(jù)交換裝置可有助于復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300從外部數(shù)據(jù)源獲取相應(yīng)的數(shù)據(jù)。這里,獲取的數(shù)據(jù)可被復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300中的文本分析模塊等數(shù)據(jù)轉(zhuǎn)換模塊轉(zhuǎn)換為容易處理的格式。應(yīng)注意,復(fù)合機(jī)器學(xué)習(xí)模型獲取裝置300可被配置為由軟件、硬件和/或固件組成的各個(gè)模塊,這些模塊中的某些模塊或全部模塊可被集成為一體或共同協(xié)作以完成特定功能。

      接下來(lái),在步驟s320中,可基于訓(xùn)練數(shù)據(jù)記錄的屬性信息,按照之前確定的基本特征子集和/或目標(biāo)特征子集來(lái)生成復(fù)合機(jī)器學(xué)習(xí)模型的訓(xùn)練樣本。如上所述,根據(jù)本發(fā)明示例性實(shí)施例的復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架的基本子模型和附加子模型。相應(yīng)地,本領(lǐng)域技術(shù)人員應(yīng)理解,作為示例,對(duì)于每一個(gè)復(fù)合機(jī)器學(xué)習(xí)模型而言,可首先訓(xùn)練出基本子模型,然后訓(xùn)練出附加子模型,相應(yīng)地,可構(gòu)建用于訓(xùn)練出基本子模型的訓(xùn)練樣本(其包括基本特征子集和標(biāo)記(label)部分)和用于隨后訓(xùn)練出附加子模型的訓(xùn)練樣本(其包括基本特征子集、目標(biāo)特征子集和標(biāo)記部分)。

      作為示例,可根據(jù)基本特征子集和目標(biāo)特征子集的具體設(shè)置,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)記錄的屬性信息進(jìn)行篩選、分組或進(jìn)一步附加處理等而得到相應(yīng)特征。根據(jù)本發(fā)明的示例性實(shí)施例,可按照任何適當(dāng)?shù)姆绞絹?lái)生成相應(yīng)特征,例如,可考慮屬性信息的內(nèi)容、含義、取值連續(xù)性、取值范圍、取值空間規(guī)模、缺失性、重要性等因素,或者,可結(jié)合復(fù)合機(jī)器學(xué)習(xí)模型中的子模型特點(diǎn)等。

      根據(jù)本發(fā)明的示例性實(shí)施例,可基于基本特征子集中的基本特征來(lái)產(chǎn)生目標(biāo)特征子集中的目標(biāo)特征,也就是說(shuō),目標(biāo)特征基于基本特征而產(chǎn)生。例如,可將基本特征的組合作為目標(biāo)特征。這里,可通過(guò)對(duì)基本特征進(jìn)行任何適當(dāng)?shù)淖儞Q來(lái)得到目標(biāo)特征。隨著目標(biāo)特征經(jīng)由附加子模型而引入到機(jī)器學(xué)習(xí)模型中,能夠相應(yīng)地影響機(jī)器學(xué)習(xí)模型的效果。

      在步驟s330中,可利用生成的訓(xùn)練樣本來(lái)訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型。根據(jù)本發(fā)明的示例性實(shí)施例,在每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型中,基本子模型與附加子模型之間基于提升框架訓(xùn)練而成。

      具體說(shuō)來(lái),可根據(jù)提升框架(例如,梯度提升框架)來(lái)訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型所包括的基本子模型和附加子模型,這兩個(gè)子模型可具有相同或不同的模型類型。這里,針對(duì)每一個(gè)復(fù)合機(jī)器學(xué)習(xí)模型,可基于載入的模型訓(xùn)練配置來(lái)分階段地訓(xùn)練出基本子模型和附加子模型,具體說(shuō)來(lái),在第一階段訓(xùn)練基本子模型時(shí),可根據(jù)配置的參數(shù)來(lái)執(zhí)行初始化處理,并利用由基本特征子集與標(biāo)記部分組成的訓(xùn)練樣本來(lái)訓(xùn)練基本子模型。在此基礎(chǔ)上,提升框架下的復(fù)合機(jī)器學(xué)習(xí)模型可表示為基本子模型和附加子模型的拼接結(jié)果,該結(jié)果可對(duì)應(yīng)于一個(gè)相對(duì)較強(qiáng)的模型。相應(yīng)地,在訓(xùn)練出基本子模型之后,可利用由基本特征子集、目標(biāo)特征子集連同標(biāo)記部分組成的訓(xùn)練樣本來(lái)訓(xùn)練附加子模型。

      假設(shè)單個(gè)復(fù)合機(jī)器學(xué)習(xí)模型表示為f,這里,f可由基本子模型fbase和附加子模型fadd組成,假設(shè)輸入的訓(xùn)練數(shù)據(jù)記錄表示為x,在按照確定的基本特征子集和目標(biāo)特征子集經(jīng)過(guò)相應(yīng)的特征處理之后,基本子模型fbase對(duì)應(yīng)的樣本部分的特征為xb,附加子模型fadd對(duì)應(yīng)的樣本部分的特征為xa。相應(yīng)地,可按照以下的等式來(lái)構(gòu)建復(fù)合機(jī)器學(xué)習(xí)模型f:

      f(x)=fbase(xb)+fadd(xa)。

      然而,應(yīng)注意,基本子模型和附加子模型除了可基于相同的訓(xùn)練數(shù)據(jù)記錄集訓(xùn)練而成之外,還可基于不同的訓(xùn)練數(shù)據(jù)記錄集訓(xùn)練而成。例如,上述兩種子模型均可基于全體訓(xùn)練數(shù)據(jù)記錄訓(xùn)練而成,或者,也可分別基于從全體訓(xùn)練數(shù)據(jù)記錄中采樣的一部分訓(xùn)練數(shù)據(jù)記錄訓(xùn)練而成。作為示例,可根據(jù)預(yù)設(shè)的采樣策略為基本子模型和附加子模型分配相應(yīng)的訓(xùn)練數(shù)據(jù)記錄,例如,可將較多的訓(xùn)練數(shù)據(jù)記錄分配給基本子模型,而將較少的訓(xùn)練數(shù)據(jù)記錄分配給附加子模型,這里,不同子模型分配的訓(xùn)練數(shù)據(jù)記錄之間可具有一定比例的交集或者完全沒(méi)有交集。通過(guò)根據(jù)采樣策略來(lái)確定各個(gè)子模型所使用的訓(xùn)練數(shù)據(jù)記錄,可進(jìn)一步提升整個(gè)機(jī)器學(xué)習(xí)模型的效果。

      根據(jù)本發(fā)明的示例性實(shí)施例,可通過(guò)并行地訓(xùn)練多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型來(lái)獲取與每一個(gè)目標(biāo)特征子集相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。作為示例,在訓(xùn)練附加子模型時(shí),基本子模型的系數(shù)可固定不變。也就是說(shuō),通過(guò)在固定已經(jīng)訓(xùn)練出的基本子模型的情況下訓(xùn)練附加子模型來(lái)獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。在這種情況下,可大大降低并行訓(xùn)練時(shí)的運(yùn)算量,降低了內(nèi)存需求。

      以上列出了子模型的示例性訓(xùn)練方式,然而,應(yīng)理解,本發(fā)明的示例性實(shí)施例并不受限于上述示例。

      再次參照回圖2,在獲取了復(fù)合機(jī)器學(xué)習(xí)模型之后,在步驟s400中,由重要性確定裝置400根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。這里,作為示例,重要性確定裝置400可通過(guò)執(zhí)行相應(yīng)處理來(lái)親自確定各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果,也可從與其連接的其他方接收各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果。例如,為了確定復(fù)合機(jī)器學(xué)習(xí)模型的效果,可在逐步地訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型的同時(shí)獲取模型效果。具體說(shuō)來(lái),可將訓(xùn)練樣本劃分為多組以逐步地訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型,并且,可在訓(xùn)練過(guò)程中,使用當(dāng)前訓(xùn)練出的復(fù)合機(jī)器學(xué)習(xí)模型來(lái)針對(duì)下一組訓(xùn)練樣本執(zhí)行預(yù)測(cè)以得到與所述下一組訓(xùn)練樣本相應(yīng)的分組效果,并綜合各個(gè)分組效果來(lái)得到復(fù)合機(jī)器學(xué)習(xí)模型的總效果,其中,在得到所述下一組訓(xùn)練樣本的分組效果之后,利用所述下一組訓(xùn)練樣本來(lái)繼續(xù)訓(xùn)練當(dāng)前模型。又例如,為了確定復(fù)合機(jī)器學(xué)習(xí)模型的效果,可在多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的訓(xùn)練完成之后,通過(guò)將這些復(fù)合機(jī)器學(xué)習(xí)模型應(yīng)用于相應(yīng)的測(cè)試數(shù)據(jù)集來(lái)獲取各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果,其中,所述測(cè)試數(shù)據(jù)集既可以包括用于模型訓(xùn)練的訓(xùn)練數(shù)據(jù)記錄,也可以包括除了訓(xùn)練數(shù)據(jù)記錄之外的其他歷史數(shù)據(jù)記錄。這里,可根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型在相同數(shù)據(jù)集上的效果之間的差異來(lái)確定多個(gè)目標(biāo)特征子集的重要性;或者,也可根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型在不同數(shù)據(jù)集上的效果之間的差異來(lái)確定多個(gè)目標(biāo)特征子集的重要性。

      具體說(shuō)來(lái),復(fù)合機(jī)器學(xué)習(xí)模型在測(cè)試集上的表現(xiàn)可作為該復(fù)合機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果,而這一預(yù)測(cè)效果可用于衡量所述復(fù)合機(jī)器學(xué)習(xí)模型的目標(biāo)特征子集的預(yù)測(cè)能力。通過(guò)衡量不同復(fù)合機(jī)器學(xué)習(xí)模型在原始測(cè)試數(shù)據(jù)集上的效果差異,可綜合得出機(jī)器學(xué)習(xí)樣本的各個(gè)目標(biāo)特征子集的重要性。

      這里,作為示例,復(fù)合機(jī)器學(xué)習(xí)模型的效果可包括復(fù)合機(jī)器學(xué)習(xí)模型的auc(roc(受試者工作特征,receiveroperatingcharacteristic)曲線下的面積,areaunderroccurve)或?qū)β蕮p失(logisticloss)。

      圖4示出根據(jù)本發(fā)明示例性實(shí)施例的測(cè)試復(fù)合機(jī)器學(xué)習(xí)模型的方法的流程圖。通過(guò)執(zhí)行圖4所示的方法,可獲得各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果。

      具體說(shuō)來(lái),在步驟s410中,可獲取測(cè)試數(shù)據(jù)記錄。這里,作為示例,測(cè)試數(shù)據(jù)記錄可以是除了訓(xùn)練數(shù)據(jù)記錄以外的其他歷史數(shù)據(jù)記錄。

      接著,在步驟s420中,可針對(duì)每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型,根據(jù)相應(yīng)的基本特征子集和目標(biāo)特征子集的具體設(shè)置,對(duì)測(cè)試數(shù)據(jù)記錄進(jìn)行特征工程處理,以得到所述每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的測(cè)試樣本。這里,每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的測(cè)試樣本可基于同樣的測(cè)試數(shù)據(jù)集。

      在步驟s430中,獲取每個(gè)復(fù)合機(jī)器學(xué)習(xí)模型針對(duì)相應(yīng)的測(cè)試樣本所產(chǎn)生的預(yù)測(cè)結(jié)果,從而基于預(yù)測(cè)結(jié)果來(lái)得到各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果。

      應(yīng)理解,圖4所示的示例僅用于說(shuō)明本發(fā)明的示例性實(shí)施,而不是為了進(jìn)行限制,例如,本發(fā)明的示例性實(shí)施例還可在訓(xùn)練復(fù)合機(jī)器學(xué)習(xí)模型的過(guò)程中,利用后續(xù)訓(xùn)練數(shù)據(jù)記錄來(lái)逐步測(cè)試當(dāng)前訓(xùn)練出的復(fù)合機(jī)器學(xué)習(xí)模型的效果,并在模型訓(xùn)練完成之后綜合得出復(fù)合機(jī)器學(xué)習(xí)模型的整體效果。

      在確定了各個(gè)復(fù)合機(jī)器學(xué)習(xí)模型的效果之后,可根據(jù)效果之間的差異來(lái)確定相應(yīng)目標(biāo)特征子集的重要性。對(duì)于如何應(yīng)用目標(biāo)特征子集的重要性確定結(jié)果,本發(fā)明的示例性實(shí)施例并不受限。例如,可將每個(gè)目標(biāo)特征子集均設(shè)置為僅包括通過(guò)對(duì)至少一個(gè)基本特征進(jìn)行組合而得到的一個(gè)組合特征,相應(yīng)地,在確定了各個(gè)組合特征的重要性之后,還可通過(guò)圖形化方式向用戶展示確定的各個(gè)組合特征的重要性。

      應(yīng)理解,圖1所示出的裝置可被分別配置為執(zhí)行特定功能的軟件、硬件、固件或上述項(xiàng)的任意組合。例如,這些裝置可對(duì)應(yīng)于專用的集成電路,也可對(duì)應(yīng)于純粹的軟件代碼,還可對(duì)應(yīng)于軟件與硬件相結(jié)合的單元或模塊。此外,這些裝置所實(shí)現(xiàn)的一個(gè)或多個(gè)功能也可由物理實(shí)體設(shè)備(例如,處理器、客戶端或服務(wù)器等)中的組件來(lái)統(tǒng)一執(zhí)行。

      以上參照?qǐng)D1和圖2描述了根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的系統(tǒng)和方法。應(yīng)理解,上述方法可通過(guò)記錄在計(jì)算可讀介質(zhì)上的程序來(lái)實(shí)現(xiàn),相應(yīng)地,根據(jù)本發(fā)明的示例性實(shí)施例,可提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的介質(zhì),其中,在所述計(jì)算機(jī)可讀介質(zhì)上記錄有用于執(zhí)行以下方法步驟的計(jì)算機(jī)程序:(a)確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征;(b)確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征;(c)針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成;以及(d)根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      上述計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序可在諸如客戶端、主機(jī)、代理裝置、服務(wù)器等計(jì)算機(jī)設(shè)備中部署的環(huán)境中運(yùn)行,應(yīng)注意,所述計(jì)算機(jī)程序還可用于執(zhí)行除了上述步驟以外的附加步驟或者在執(zhí)行上述步驟時(shí)執(zhí)行更為具體的處理,這些附加步驟和進(jìn)一步處理的內(nèi)容已經(jīng)參照?qǐng)D1到圖4進(jìn)行了描述,這里為了避免重復(fù)將不再進(jìn)行贅述。

      應(yīng)注意,根據(jù)本發(fā)明示例性實(shí)施例的特征重要性確定系統(tǒng)可完全依賴計(jì)算機(jī)程序的運(yùn)行來(lái)實(shí)現(xiàn)相應(yīng)的功能,即,各個(gè)裝置與計(jì)算機(jī)程序的功能架構(gòu)中與各步驟相應(yīng),使得整個(gè)系統(tǒng)通過(guò)專門的軟件包(例如,lib庫(kù))而被調(diào)用,以實(shí)現(xiàn)相應(yīng)的預(yù)測(cè)功能。

      另一方面,圖1所示的各個(gè)裝置也可以通過(guò)硬件、軟件、固件、中間件、微代碼或其任意組合來(lái)實(shí)現(xiàn)。當(dāng)以軟件、固件、中間件或微代碼實(shí)現(xiàn)時(shí),用于執(zhí)行相應(yīng)操作的程序代碼或者代碼段可以存儲(chǔ)在諸如存儲(chǔ)介質(zhì)的計(jì)算機(jī)可讀介質(zhì)中,使得處理器可通過(guò)讀取并運(yùn)行相應(yīng)的程序代碼或者代碼段來(lái)執(zhí)行相應(yīng)的操作。

      這里,本發(fā)明的示例性實(shí)施例還可以實(shí)現(xiàn)為計(jì)算裝置,該計(jì)算裝置包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法。

      具體說(shuō)來(lái),所述計(jì)算裝置可以部署在服務(wù)器或客戶端中,也可以部署在分布式網(wǎng)絡(luò)環(huán)境中的節(jié)點(diǎn)裝置上。此外,所述計(jì)算裝置可以是pc計(jì)算機(jī)、平板裝置、個(gè)人數(shù)字助理、智能手機(jī)、web應(yīng)用或其他能夠執(zhí)行上述指令集合的裝置。

      這里,所述計(jì)算裝置并非必須是單個(gè)的計(jì)算裝置,還可以是任何能夠單獨(dú)或聯(lián)合執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計(jì)算裝置還可以是集成控制系統(tǒng)或系統(tǒng)管理器的一部分,或者可被配置為與本地或遠(yuǎn)程(例如,經(jīng)由無(wú)線傳輸)以接口互聯(lián)的便攜式電子裝置。

      在所述計(jì)算裝置中,處理器可包括中央處理器(cpu)、圖形處理器(gpu)、可編程邏輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬處理器、數(shù)字處理器、微處理器、多核處理器、處理器陣列、網(wǎng)絡(luò)處理器等。

      根據(jù)本發(fā)明示例性實(shí)施例的特征重要性確定方法中所描述的某些操作可通過(guò)軟件方式來(lái)實(shí)現(xiàn),某些操作可通過(guò)硬件方式來(lái)實(shí)現(xiàn),此外,還可通過(guò)軟硬件結(jié)合的方式來(lái)實(shí)現(xiàn)這些操作。

      處理器可運(yùn)行存儲(chǔ)在存儲(chǔ)部件之一中的指令或代碼,其中,所述存儲(chǔ)部件還可以存儲(chǔ)數(shù)據(jù)。指令和數(shù)據(jù)還可經(jīng)由網(wǎng)絡(luò)接口裝置而通過(guò)網(wǎng)絡(luò)被發(fā)送和接收,其中,所述網(wǎng)絡(luò)接口裝置可采用任何已知的傳輸協(xié)議。

      存儲(chǔ)部件可與處理器集成為一體,例如,將ram或閃存布置在集成電路微處理器等之內(nèi)。此外,存儲(chǔ)部件可包括獨(dú)立的裝置,諸如,外部盤(pán)驅(qū)動(dòng)、存儲(chǔ)陣列或任何數(shù)據(jù)庫(kù)系統(tǒng)可使用的其他存儲(chǔ)裝置。存儲(chǔ)部件和處理器可在操作上進(jìn)行耦合,或者可例如通過(guò)i/o端口、網(wǎng)絡(luò)連接等互相通信,使得處理器能夠讀取存儲(chǔ)在存儲(chǔ)部件中的文件。

      此外,所述計(jì)算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸如,鍵盤(pán)、鼠標(biāo)、觸摸輸入裝置等)。計(jì)算裝置的所有組件可經(jīng)由總線和/或網(wǎng)絡(luò)而彼此連接。

      根據(jù)本發(fā)明示例性實(shí)施例的特征重要性確定方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示圖。然而,這些功能塊或功能示圖可被均等地集成為單個(gè)的邏輯裝置或按照非確切的邊界進(jìn)行操作。

      具體說(shuō)來(lái),如上所述,根據(jù)本發(fā)明示例性實(shí)施例的用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的計(jì)算裝置可包括存儲(chǔ)部件和處理器,其中,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行下述步驟:(a)確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征;(b)確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征;(c)針對(duì)所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成;以及(d)根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來(lái)確定所述多個(gè)目標(biāo)特征子集的重要性。

      應(yīng)注意,以上已經(jīng)結(jié)合圖1到圖4描述了根據(jù)本發(fā)明示例性實(shí)施例的確定機(jī)器學(xué)習(xí)樣本的特征重要性的各處理細(xì)節(jié),這里將不再贅述計(jì)算裝置執(zhí)行各步驟時(shí)的處理細(xì)節(jié)。

      以上已經(jīng)描述了本發(fā)明的各示例性實(shí)施例,應(yīng)理解,上述描述僅是示例性的,并非窮盡性的,并且本發(fā)明也不限于所披露的各示例性實(shí)施例。在不偏離本發(fā)明的范圍和精神的情況下,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見(jiàn)的。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的范圍為準(zhǔn)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1