国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于特征交叉與融合特征選擇的分類方法及裝置

      文檔序號:40394220發(fā)布日期:2024-12-20 12:17閱讀:13來源:國知局
      一種基于特征交叉與融合特征選擇的分類方法及裝置

      本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于特征交叉與融合特征選擇的分類方法及裝置。


      背景技術(shù):

      1、時間序列是表示隨時間延伸采集的一類信號,該類信號具有時間順序特性,是按時間排序的數(shù)據(jù)點(diǎn)。時間序列分析既包含對過去數(shù)據(jù)的診斷,也包括未來數(shù)據(jù)的預(yù)測。許多應(yīng)用都對時間序列的發(fā)展起到了重要貢獻(xiàn)。典型應(yīng)用有:醫(yī)學(xué)、天氣、經(jīng)濟(jì)學(xué)及天文學(xué)等方面。典型的時間序列分析方法,包括:基于統(tǒng)計(jì)學(xué)的方法、基于機(jī)器學(xué)習(xí)的方法以及集成方法。在使用機(jī)器學(xué)習(xí)進(jìn)行分類的應(yīng)用中,尤其在處理時間序列數(shù)據(jù)時具有顯著優(yōu)勢。這類數(shù)據(jù)廣泛存在于能源、金融及健康等多方面應(yīng)用,如電力負(fù)荷、股票價(jià)格走勢、心電圖及語音等信號。通過時序序列分類,對未來趨勢預(yù)測、對異常情況檢測,進(jìn)而做出更明智的決策。語音分類作為聽覺通道的類別學(xué)習(xí),能幫助個體迅速識別、判斷聲音刺激,具有特殊的生存意義。

      2、使用何種特征提取與特征選擇是影響最終效果的重要因素。因此,探索新的特征提取與特征選擇長期以來都是機(jī)器學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)。在特征提取方面,為了能提取數(shù)據(jù)中的深層特征,常常采用二次特征提取方法,包括:先提取特征再對提取的特征進(jìn)行特征交叉或者提取完特征后,再對特征進(jìn)行二次提取、升維或降維操作。所述特征交叉,包括顯式特征交叉和隱式特征交叉。隱式特征交叉通常采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征交叉,此種方法復(fù)雜度高。顯式特征交叉通?;谝延刑卣鞯木€性變換,如內(nèi)積、笛卡爾積等,該種特征交叉對非線性模型的擬合度欠佳,一次只能對兩類特征使用固定的特征交叉方法進(jìn)行交叉,無法根據(jù)已有特征的特點(diǎn)自適應(yīng)選擇最佳交叉方法且交叉后不保留原先的已有特征。在特征選擇方面,雖然已經(jīng)有基于不同原理的多種特征選擇方法被提出,但現(xiàn)有技術(shù)中多采用單一的特征選擇方法,在不同場景下無法總是使用與當(dāng)前待選擇特征最為合適的選擇,因此往往不能取得最佳效果。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于針對現(xiàn)有顯示特征交叉方法難以擬合非線性模型、每次交叉的特征類型數(shù)有限、自適應(yīng)性差、不保留原有特征以及單一特征選擇導(dǎo)致分類準(zhǔn)確率低的缺陷,提出了一種基于特征交叉與融合特征選擇的分類方法及裝置,所述方法,首先對受試者的語音信號進(jìn)行采集,利用采集到的語音數(shù)據(jù)提取多種特征數(shù)據(jù),所述多種特征數(shù)據(jù)在全部拼接后進(jìn)行第一次融合特征選擇得到第一次選擇后數(shù)據(jù),所述第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉得到交叉后特征數(shù)據(jù),所述交叉后特征數(shù)據(jù)在進(jìn)行第二次融合特征選擇后得到的待分類數(shù)據(jù)用于機(jī)器學(xué)習(xí),通過機(jī)器學(xué)習(xí)最終得到能夠?qū)斎胝Z音數(shù)據(jù)進(jìn)行分類;所述分類裝置用于實(shí)現(xiàn)基于特征交叉與融合特征選擇的分類。

      2、為了達(dá)到上述目的,本發(fā)明采取以下技術(shù)方案:

      3、作為本發(fā)明的第一方面,提出了一種基于特征交叉與融合特征選擇的分類裝置,包括語音采集模塊、特征提取模塊、第一融合特征選擇模塊、自適應(yīng)特征交叉模塊、第二融合特征選擇模塊及模型訓(xùn)練模塊;

      4、所述語音采集模塊與特征提取模塊相連,所述特征提取模塊與第一融合特征選擇模塊相連,所述第一融合特征選擇模塊與自適應(yīng)特征交叉模塊相連,所述自適應(yīng)特征交叉模塊與第二融合特征選擇模塊相連,所述第二融合特征選擇模塊與模型訓(xùn)練模塊相連;

      5、所述語音采集模塊將語音信號進(jìn)行數(shù)模轉(zhuǎn)換成語音數(shù)據(jù)傳遞給特征提取模塊;所述特征提取模塊對語音數(shù)據(jù)提取多種特征,將得到的多種特征數(shù)據(jù)傳遞給第一融合特征選擇模塊;所述第一融合特征選擇模塊對特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征,將得到的第一次選擇后數(shù)據(jù)傳遞給自適應(yīng)特征交叉模塊;所述自適應(yīng)特征交叉模塊對第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉,將得到的交叉后特征數(shù)據(jù)傳遞給第二融合特征選擇模塊;所述第二融合特征選擇模塊對交叉后特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征,將得到的待分類數(shù)據(jù)傳遞給模型訓(xùn)練模塊;所述模型訓(xùn)練模塊利用上述待分類數(shù)據(jù)進(jìn)行模型訓(xùn)練,最終導(dǎo)出訓(xùn)練準(zhǔn)確率最高的分類模型;

      6、所述語音采集模塊,包括麥克風(fēng)及模數(shù)轉(zhuǎn)換器;

      7、所述語音采集模塊中的麥克風(fēng)用于采集語音,所述麥克風(fēng)采集的語音經(jīng)過模數(shù)轉(zhuǎn)換器進(jìn)行模數(shù)轉(zhuǎn)換為語音數(shù)據(jù)傳遞給特征提取模塊;

      8、所述特征提取模塊,包括小波特征提取單元、濾波特征提取單元、熵特征提取單元;

      9、所述小波特征提取單元的數(shù)量為w,所述w大于等于2;

      10、所述濾波特征提取單元的數(shù)量為f,所述f大于等于1;

      11、所述熵特征提取單元的數(shù)量為e,所述e大于等于1;

      12、所述特征提取模塊,接收上述語音數(shù)據(jù),上述三種特征提取單元并行運(yùn)行,分別提取得到w組小波特征、f組濾波特征及e組熵特征的特征數(shù)據(jù);

      13、所述w組小波特征、f組濾波特征以及e組熵特征的特征數(shù)據(jù)被傳遞給第一融合特征選擇模塊;

      14、所述第一融合特征選擇模塊,包括第一平均mic計(jì)算單元、第一特征選擇單元及第一特征補(bǔ)充單元;

      15、所述第一特征選擇單元的數(shù)量為c1,所述c1大于等于2;

      16、所述第一融合特征選擇模塊,接收上述特征數(shù)據(jù),利用第一平均mic計(jì)算單元計(jì)算特征與來自醫(yī)生判斷的標(biāo)簽、特征與其他特征的平均mic,根據(jù)此mic上述c1個第一特征選擇單元并行運(yùn)行,選擇出c1類相應(yīng)數(shù)量的特征,第一特征補(bǔ)充單元根據(jù)上述c1類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征,得到第一次選擇后數(shù)據(jù)并傳遞給自適應(yīng)特征交叉模塊;

      17、所述自適應(yīng)特征交叉模塊,包括線性相關(guān)系數(shù)計(jì)算單元、非線性變換單元、克羅內(nèi)克積單元;

      18、所述自適應(yīng)特征交叉模塊,接收上述第一次選擇后數(shù)據(jù),利用線性相關(guān)系數(shù)計(jì)算單元計(jì)算特征間平均線性相關(guān)系數(shù),判斷此線性相關(guān)系數(shù)是否大于等于閾值s,若否,即小于閾值s,則將第一次選擇后數(shù)據(jù)作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元;若是,即大于等于閾值s,則將第一次選擇后數(shù)據(jù)經(jīng)非線性變換單元后再作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元。克羅內(nèi)克積單元對所述輸入數(shù)據(jù)與第一次選擇后數(shù)據(jù)求克羅內(nèi)克積,得到交叉后特征數(shù)據(jù)并傳遞給第二次特征選擇模塊;

      19、所述閾值s的取值范圍為0≤s≤1;

      20、所述第二特征選擇模塊,包括第二平均mic計(jì)算單元、第二特征選擇單元及第二特征補(bǔ)充單元;

      21、所述第一特征選擇單元的數(shù)量為c2,所述c2大于等于2;

      22、所述第二特征選擇模塊,接收上述交叉后特征數(shù)據(jù),利用第二平均mic計(jì)算單元計(jì)算特征與標(biāo)簽、特征與其他特征的平均mic,根據(jù)此mic上述c2個第二特征選擇單元并行運(yùn)行,選擇出c2類相應(yīng)數(shù)量的特征,第二特征補(bǔ)充單元根據(jù)上述c2類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征,得到待分類數(shù)據(jù)并傳遞給模型訓(xùn)練模塊;

      23、所述模型訓(xùn)練模塊,包括若干分類模型;

      24、所述模型訓(xùn)練模塊,接收上述待分類數(shù)據(jù)后放入若干分類模型中進(jìn)行訓(xùn)練,將訓(xùn)練準(zhǔn)確率最高的模型作為模型訓(xùn)練模塊的輸出。

      25、作為本發(fā)明的第二方面,提出了一種基于特征交叉與融合特征選擇的分類方法,包括如下步驟:

      26、s1、將采集的語音進(jìn)行模數(shù)轉(zhuǎn)換得到語音數(shù)據(jù)并根據(jù)醫(yī)生的診斷結(jié)果為所述每條語音數(shù)據(jù)添加標(biāo)簽;

      27、所述語音數(shù)據(jù)的條數(shù)為x;x的取值范圍為2≤x;

      28、s2、從語音數(shù)據(jù)中提取若干種類的特征;

      29、所述特征種類數(shù)為n;n的取值范圍為1≤n;

      30、每條語音數(shù)據(jù)的第n類特征具有yn個特征數(shù)據(jù)且所述特征數(shù)據(jù)的種類數(shù)與特征種類數(shù)相同;其中n=1,2,...,n,n為所述特征種類數(shù);所述若干種類的特征的總數(shù)為

      31、s3、拼接每條語音數(shù)據(jù)對應(yīng)的特征數(shù)據(jù),得到拼接后向量再表達(dá)為拼接二維矩陣;

      32、所述拼接后向量的長度為所述拼接二維矩陣為行數(shù)為x,列數(shù)為y的二維矩陣,包括全部x條語音數(shù)據(jù)的特征數(shù)據(jù),每行對應(yīng)一條語音數(shù)據(jù),每列對應(yīng)一個特征;

      33、s4、根據(jù)標(biāo)簽對拼接二維矩陣中的所有特征進(jìn)行第一次融合特征選擇,得到第一次選擇后數(shù)據(jù);

      34、所述第一次融合特征選擇,具體為:

      35、s41、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù);

      36、所述特征為第y個特征,其中y=1,2,...,y;所述與標(biāo)簽的最大互信息系數(shù)為mic1y;mic1y的取值范圍為0≤mic1y≤1;所述與其他特征的平均最大化信息系數(shù)為mic2y;mic2y的取值范圍為0≤mic2y≤1;

      37、s42、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值;

      38、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

      39、s43、根據(jù)s42中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留,得到選擇后特征;

      40、所述s43,具體為:

      41、s431、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對應(yīng)數(shù)量的特征;

      42、所述希望保留的特征數(shù)據(jù)數(shù)量為m;m的取值范圍為1≤m≤y;所述特征選擇方法的數(shù)量為c1,且至少含有一個未考慮特征間相關(guān)性的方法與一個考慮了特征間相關(guān)性的方法;c1的取值范圍為2≤c1;所述對應(yīng)數(shù)量為與個;

      43、s432、將s431中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征;

      44、所述待補(bǔ)充的選擇后特征的數(shù)量為m-m,其中m代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量;

      45、s433、補(bǔ)充s432中重復(fù)選擇的特征,得到選擇后特征,具體為:

      46、若選擇s431中未考慮特征間相關(guān)性的方法下除去s431的特征之后的m個不重復(fù)特征進(jìn)行補(bǔ)充,否則選擇s431中考慮了特征間相關(guān)性的方法下除去s431中的特征之后的m個不重復(fù)特征進(jìn)行補(bǔ)充;

      47、s44、根據(jù)選擇后特征選擇s3中的特征數(shù)據(jù),得到第一次選擇后數(shù)據(jù);

      48、所述第一次選擇后數(shù)據(jù)的行數(shù)為x,列數(shù)為m,每行對應(yīng)一條語音數(shù)據(jù),每列對應(yīng)一個特征;

      49、s5、對s44中的第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉,得到交叉后特征數(shù)據(jù),具體為:

      50、s51、計(jì)算s44中第一次選擇數(shù)據(jù)的每兩列特征數(shù)據(jù)之間的線性相關(guān)系數(shù)后計(jì)算所有線性相關(guān)系數(shù)的均值;

      51、所述線性相關(guān)系數(shù)rij,i,j=1,2,...,m,j≠i;rij的取值范圍為0≤rij≤1;所述線性相關(guān)系數(shù)的均值的取值范圍為

      52、s52、若s51中的小于閾值s,分別計(jì)算s34中每行數(shù)據(jù)與自身的克羅內(nèi)克積,否則先計(jì)算每行數(shù)據(jù)經(jīng)過非線性函數(shù)的結(jié)果,再計(jì)算該結(jié)果與該行數(shù)據(jù)的克羅內(nèi)克積;

      53、所述閾值s的取值范圍為0≤s≤1;所述克羅內(nèi)克積在兩種情況下均為維度為m的方陣;

      54、s53、將s52所得各行數(shù)據(jù)對應(yīng)的方陣元素排列成行向量,則全部生理數(shù)據(jù)對應(yīng)的特征數(shù)據(jù)可由一個二維矩陣表示,稱為交叉特征數(shù)據(jù);

      55、所述行向量長度為m2;所述交叉特征數(shù)據(jù)的行數(shù)為x,列數(shù)為m2,每行對應(yīng)一條語音數(shù)據(jù),每列對應(yīng)一個交叉特征;

      56、s6、根據(jù)標(biāo)簽對s53所得交叉后特征數(shù)據(jù)的交叉特征進(jìn)行第二次融合特征選擇,得到第二次選擇后數(shù)據(jù);

      57、所述第二次融合特征選擇,具體為:

      58、s61、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù);

      59、所述特征為第z個特征,其中z=1,2,...,m2;所述與標(biāo)簽的最大互信息系數(shù)為mic3z;mic3z的取值范圍為0≤mic3z≤1;所述與其他特征的平均最大化信息系數(shù)為mic4z;mic4z的取值范圍為0≤mic4z≤1;

      60、s62、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值;

      61、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

      62、s63、根據(jù)s62中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留,得到選擇后特征;

      63、所述s63,具體為:

      64、s631、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對應(yīng)數(shù)量的特征;

      65、所述希望保留的特征數(shù)據(jù)數(shù)量為l;l的取值范圍為1≤l≤m2;所述特征選擇方法的數(shù)量為c2,且至少含有一個未考慮特征間相關(guān)性的方法與一個考慮了特征間相關(guān)性的方法;c2的取值范圍為2≤c2;所述對應(yīng)數(shù)量分別為與個;

      66、s632、將s631中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征;

      67、所述待補(bǔ)充的選擇后特征的數(shù)量為l-l,其中l(wèi)代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量;

      68、s633、補(bǔ)充s632中重復(fù)選擇的特征,得到選擇后特征,具體為:

      69、若選擇s631中未考慮特征間相關(guān)性的方法下除去s631的特征之后的l個不重復(fù)特征進(jìn)行補(bǔ)充,否則選擇s631中考慮了特征間相關(guān)性的方法下除去s631中的特征之后的l個不重復(fù)特征進(jìn)行補(bǔ)充;

      70、s64、根據(jù)選擇后特征選擇s53中的交叉特征數(shù)據(jù),得到待分類數(shù)據(jù);

      71、所述待分類數(shù)據(jù)的行數(shù)為x,列數(shù)為l,每行對應(yīng)一條語音數(shù)據(jù),每列對應(yīng)一個特征;

      72、s7、將s64所得待分類數(shù)據(jù)按比例劃分為訓(xùn)練集與測試集;

      73、s8、將s7劃分的訓(xùn)練集與標(biāo)簽輸入分類學(xué)習(xí)器訓(xùn)練模型,選擇訓(xùn)練準(zhǔn)確率最高的模型導(dǎo)出;

      74、s9、將s7所得測試集輸入s8所得模型即可得到分類結(jié)果;

      75、至此,通過所述s1到s9,完成了一種基于特征交叉與融合特征選擇的分類方法。

      76、有益效果

      77、本發(fā)明提出的基于特征交叉與融合特征選擇的分類方法及裝置,與現(xiàn)有分類方法及裝置相比,具有如下有益效果:

      78、1.所述方法共使用兩次融合特征選擇,改善了進(jìn)行特征交叉時由于維度爆炸導(dǎo)致交叉特征維數(shù)過多的情況;

      79、2.所述融合特征選擇綜合考慮了特征與標(biāo)簽、特征與其他特征間的相關(guān)性,在保證所選特征有效性的基礎(chǔ)上減少了特征間的冗余;

      80、3.所述融合特征選擇根據(jù)上述兩類相關(guān)性可自適應(yīng)地調(diào)整使用的特征選擇方法,在面對特性不同的數(shù)據(jù)時具有較好的魯棒性;

      81、4.所述自適應(yīng)特征交叉能夠在一次計(jì)算過程中完成多于2類特征的交叉;

      82、5.所述自適應(yīng)特征交叉在輸出不同類型的特征的交叉結(jié)果的同時保留了未經(jīng)交叉時的有效特征;

      83、6.所述自適應(yīng)特征交叉能夠根據(jù)待交叉數(shù)據(jù)間的線性相關(guān)度自適應(yīng)地調(diào)整交叉方法,對線性相關(guān)度高的特征使用非線性函數(shù)進(jìn)行計(jì)算,增強(qiáng)了對非線性模型的擬合度;

      84、7.所述自適應(yīng)特征交叉的非線性函數(shù)計(jì)算只對待交叉數(shù)據(jù)的單邊使用,改善了同時存在“特征1交叉特征2”與“特征2交叉特征1”的冗余情況,新生成的“經(jīng)過非線性函數(shù)的特征1交叉特征2”與“經(jīng)過非線性函數(shù)的特征2交叉特征1”豐富了交叉得到的深層特征。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1