一種基于決策樹的腦電信號特征選擇方法
【專利摘要】本發(fā)明涉及一種基于決策樹的腦電信號特征選擇方法。首先將采集的多通道腦電信號進行預處理;然后利用主成分分析法對預處理后的腦電信號進行特征提取,得到特征向量;將特征提取后的特征向量輸入到?jīng)Q策樹中,進行優(yōu)勢特征選擇;對決策樹選出的優(yōu)勢特征進行重組;最后將重組后的優(yōu)勢特征向量輸入到支持向量機中,進行腦電信號分類,得到分類正確率。本發(fā)明應用決策樹進行優(yōu)勢特征選擇,操作簡單,無需人工參與,節(jié)省時間和人力。應用決策樹進行優(yōu)勢特征選擇,選擇過程中避免了人的主觀因素的影響,使選擇更客觀,分類正確率更高。實驗表明,運用本發(fā)明方法進行腦電信號分類的平均正確率為89.1%,比運用傳統(tǒng)的優(yōu)勢電極重組法提高了0.9%。
【專利說明】一種基于決策樹的腦電信號特征選擇方法【技術(shù)領域】
[0001]本發(fā)明涉及腦電研究中的腦電信號分析方法,特別是涉及腦電信號特征選擇方法。
【背景技術(shù)】
[0002]人的大腦是一個非常復雜的系統(tǒng),腦電信號(Electroencephalograph, EEG)是通過頭皮覆蓋電極和導電介質(zhì)采集到的大腦神經(jīng)元細胞的放電活動,包含了大量的表征人體生理心理狀態(tài)的信息。腦電信號的研究是當今科學研究中非常前沿的領域之一,涉及腦電信號的采集、預處理、處理以及腦電信號的應用等多個方面,對認知科學、神經(jīng)科學、心理學、病理生理學、信息與信號處理、計算機科學、生物技術(shù)、生物醫(yī)學工程乃至應用數(shù)學等多個領域的研究都有極其重要的作用。隨著腦科學的日益熱門,越來越多的研究人員都投入到了腦電信號的研究熱潮中。[0003]由于大腦結(jié)構(gòu)的復雜性,大腦活動會引發(fā)大腦某個區(qū)域或多個區(qū)域的放電。為了更加精細而全面地采集到大腦活動區(qū)域的EEG信號,研究人員在需要在被試大腦的不同位置采集EEG信號。目前的采集裝置基本采用多通道方式,如較常見的有40導、64導、128導和256導電極帽等等。由于腦電信號的采集精度為毫秒級,導致單電極腦電數(shù)據(jù)具有很高的屬性維度,并行處理多導聯(lián)數(shù)據(jù)時,腦電數(shù)據(jù)的維度會更高。另外,根據(jù)心理學研究發(fā)現(xiàn),不同的刺激或?qū)嶒炄蝿諘せ畈煌拇竽X功能區(qū),更深入地從大腦生理結(jié)構(gòu)來講,不同的刺激或?qū)嶒炄蝿諘е麓竽X的不同結(jié)構(gòu)的神經(jīng)元細胞產(chǎn)生放電行為。又根據(jù)腦電信號的特征可知,我們采集到的EEG信號有很多冗余信息。因此,在腦電信號的研究過程中,無論是出于減少數(shù)據(jù)維度的考慮,還是去除無效冗余電極或冗余信息的考慮,對電極的篩選是不可缺少的環(huán)節(jié)。
[0004]傳統(tǒng)的電極選擇(空間特征選擇)方法一般是優(yōu)勢電極重組法,即依據(jù)人工統(tǒng)計單個電極的分類效果來選擇優(yōu)勢電極(對整體的分類正確率有提升或者沒有下降的電極)。該方法有兩點不足:(I)依靠主觀經(jīng)驗選擇電極,容易造成信息偏失;(2)人工操作復雜,費時耗力。
【發(fā)明內(nèi)容】
[0005]針對上述傳統(tǒng)的電極選擇方法的不足,本發(fā)明提出一種基于決策樹的腦電信號特征選擇方法。該方法充分利用決策樹自動選擇優(yōu)勢屬性(優(yōu)勢特征)的這一特點,使特征選擇更客觀,從而使腦電信號的分類正確率更高。
[0006]實現(xiàn)本發(fā)明方法的主要思路是:將采集的多通道腦電信號進行預處理;利用主成分分析法(PCA)對預處理后的腦電信號進行特征提取,得到特征向量;將特征提取后的特征向量輸入到?jīng)Q策樹中,進行優(yōu)勢特征選擇;對決策樹選擇出的優(yōu)勢特征進行重組;將重組后的優(yōu)勢特征向量輸入到支持向量機(SVM)中,進行EEG信號分類,得到分類正確率。
[0007]—種基于決策樹的腦電信號特征選擇方法,包括如下步驟:[0008](1)采集數(shù)據(jù)
[0009]受試者佩戴電極帽,想象上下移動屏幕上的光標。采集受試者腦電信號,得到訓練樣本集和測試樣本集。
[0010](2)數(shù)據(jù)預處理
[0011]將采集到的所有電極的訓練樣本集,按樣本量不變、維度增加的方法重組成一個訓練數(shù)據(jù)集,即重組成一個矩陣;用同樣的方式處理所有電極的測試樣本集,得到測試數(shù)據(jù)集。
[0012]將預處理后的測試數(shù)據(jù)集和訓練數(shù)據(jù)集以維度不變、增加樣本量的方法組合成一個數(shù)據(jù)集,然后再將此數(shù)據(jù)集平均地分成10份,將其中1份作為測試數(shù)據(jù),其它9份作為訓練數(shù)據(jù)。
[0013](3)特征提取
[0014]利用PCA對訓練數(shù)據(jù)集和測試數(shù)據(jù)集進行降維,得到降維后的特征向量。
[0015](4)特征選擇
[0016]利用決策樹對降維后的特征向量進行優(yōu)勢特征選擇,得到優(yōu)勢特征在數(shù)據(jù)集中的位置;再將優(yōu)勢特征對應位置的數(shù)據(jù),按樣本量不變、維度增加的方法進行重組,得到優(yōu)勢特征向量。
[0017](5)分類
[0018]將重組后的優(yōu)勢特征向量輸入到SVM分類器中,進行EEG信號分類,求分類正確率。
[0019](6)求分類正確率
[0020]輪流選擇步驟(2)所述的10份數(shù)據(jù)中的1份作為測試數(shù)據(jù),其它9份作為訓練數(shù)據(jù),重復步驟(3)、(4)、(5),共進行10次實驗,求10次實驗所得到分類正確率的平均值,得到最終的分類正確率。
[0021]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下明顯的優(yōu)勢和有益效果:
[0022](1)本發(fā)明應用決策樹進行優(yōu)勢特征選擇,操作簡單,無需人工參與,節(jié)省時間和人力。
[0023](2)本發(fā)明應用決策樹進行優(yōu)勢特征選擇,選擇過程中避免了人的主觀因素的影響,使選擇更客觀,分類正確率更高。實驗表明,運用本發(fā)明方法進行EEG信號分類的平均正確率為89.1%,比運用傳統(tǒng)的優(yōu)勢電極重組法提高了 0.9%。
【專利附圖】
【附圖說明】
[0024]圖1為本發(fā)明所涉及方法的流程圖;
[0025]圖2為記錄電極在頭皮表面的位置分布;
[0026]圖3為決策樹的子樹的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027]下面結(jié)合附圖和【具體實施方式】對本發(fā)明做進一步的描述。
[0028]本發(fā)明所涉及方法的流程圖如圖1所示,包括以下步驟:
[0029]步驟1,采集數(shù)據(jù)。[0030]將本發(fā)明所述方法應用到BCI2003競賽標準數(shù)據(jù)集Data Set Ia上。數(shù)據(jù)采自于I個健康的受試者。被試者的實驗任務是通過想象使屏幕上的光標上下移動,而想象所誘發(fā)的成分是低頻的皮層慢電位(Slow Cortical Potential, SCP),他的皮層電位被Cz電極記錄。每次實驗持續(xù)時間為6秒。在0.5s~6s內(nèi),計算機屏幕上方或下方有一個高亮度的指示條,暗示被試者需要將屏幕中間的光標向上或向下移動,移動規(guī)則是:當SCP為正時光標下移,SCP為負時光標上移。其中在2s~5.5內(nèi),被試者接受來自Cz電極的SCP幅度反饋信息,該信息在屏幕下方以一個長度正比于SCP幅度的亮條顯示,此時被試者的EEG信號被以256Hz的采樣率記錄下來,記錄電極分別位于六1、八2、?3、?4、?3、?4這六個位置,而最終用于信號處理的數(shù)據(jù)就是這3.5s內(nèi)所記錄到的信息反饋階段的兩種類型的腦電信號。各個電極在頭皮表面的位置如圖2所示。
[0031]實驗共采集到兩組實驗數(shù)據(jù)集:訓練數(shù)據(jù)集和測試數(shù)據(jù)集,其中訓練數(shù)據(jù)集用于訓練分類器,而測試數(shù)據(jù)集用于判斷分類器的性能。由于本實驗只采集了兩種類型的腦電信號,所以數(shù)據(jù)的類別預測問題是一個兩個類的分類問題,類別標簽分別是O和1,其中O表不向下移動光標對應的信號類別,I表不向上移動光標對應的信號類別。
[0032]步驟2,進行數(shù)據(jù)預處理。
[0033]步驟2.1,數(shù)據(jù)重組。
[0034]將米集到的一個電極的訓練樣本集表不為一個m*p的矩陣,其中m表不訓練樣本集的樣本量,p=r*t為樣本集的維度,其中r表示采樣率,t表示采樣時間;將采集到的所有電極的訓練樣本集,按樣本量不變、維度增加的方法重組成一個訓練數(shù)據(jù)集,即重組成一個m*k的矩陣,k=a*p,其中 a為記錄電極的個數(shù)。
[0035]將采集到的一個電極的測試樣本集表示為一個n*p的矩陣,其中η表示測試樣本集的樣本量。按照與訓練樣本集相同的處理方式,將所有電極的測試樣本集重組成一個n*k的矩陣。
[0036]步驟2.2,數(shù)據(jù)分組。
[0037]將步驟2.1得到的測試數(shù)據(jù)集和訓練數(shù)據(jù)集以維度不變、增加樣本量的方法組合成一個數(shù)據(jù)集,即一個h*k的矩陣,h=m+n。然后再將此數(shù)據(jù)集按樣本量平均地分成10份,其中訓練數(shù)據(jù)是一個w*k的矩陣,w=0.9h,測試數(shù)據(jù)是一個g*k的矩陣,g=0.lh。
[0038]步驟3,特征提取。
[0039]利用PCA分別對訓練數(shù)據(jù)和測試數(shù)據(jù)進行特征提取,得到特征向量,即將兩個數(shù)據(jù)集均從k維數(shù)據(jù)降為d維數(shù)據(jù),也就是將每個電極的數(shù)據(jù)從P維降到q維,其中d=a*q。
[0040]步驟4,特征選擇。
[0041]將特征提取后的特征向量輸入到?jīng)Q策樹中,進行優(yōu)勢特征選擇。這一過程具體包括以下兩個步驟:
[0042]步驟4.1,構(gòu)造決策樹。
[0043]以代表訓練樣本的單個結(jié)點開始建樹。結(jié)點存放的是一個屬性。如果樣本都在同一個類,則該結(jié)點成為樹葉,并用該類標記;否則,使用成為信息增益的基于熵的度量為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,即具有最高信息增益的屬性。該屬性成為該結(jié)點的“測試”或“判定”屬性。對測試屬性的每個已知的值,創(chuàng)建一個分支,并據(jù)此劃分樣本。重復上述過程,遞歸地形成每個劃分上的樣本決策樹,當下列條件之一成立時停止:[0044]條件一:給定結(jié)點的所有樣本屬于同一類;
[0045]條件二:沒有剩余屬性可以用來進一步劃分樣本。在此情況下,采用多數(shù)表決,即將給定的結(jié)點轉(zhuǎn)換成樹葉,用樣本中多數(shù)所在的類別標記它;
[0046]條件三:對于根據(jù)測試屬性的其中一個已知的值創(chuàng)建的分支中沒有樣本。在這種情況下,以樣本中多數(shù)類創(chuàng)建一個樹葉。
[0047]按照上述方法構(gòu)造一棵具有非葉結(jié)點、分支和樹葉(葉結(jié)點)的完全決策樹。對于d維的訓練數(shù)據(jù)來說,對應有d個屬性。樹的結(jié)點存放著屬性Ai,其中i=l,2,一,d。根據(jù)分支A1-=aj劃分樣本,其中aj是屬性Ai的一個已知的值,j=l, 2,..., w,。樹葉存放著結(jié)點樣本的類別標簽。決策樹的一棵子樹的結(jié)構(gòu)如圖3所示。
[0048]步驟4.2,修剪決策樹。
[0049]對于完全決策樹中的每一個非葉結(jié)點的子樹,嘗試將其替換成一個葉結(jié)點,該葉結(jié)點的類別用子樹所覆蓋訓練樣本中存在最多的那個類來代替,這樣就產(chǎn)生了一個簡化決策樹。然后,比較完全決策樹和簡化決策樹在測試數(shù)據(jù)集中的表現(xiàn),如果簡化決策樹在測試數(shù)據(jù)集中的錯誤比較少,并且該子樹里面沒有包含另外一個具有類似特性的子樹,所謂類似的特性是指把子樹替換成葉結(jié)點后其測試數(shù)據(jù)集誤判率降低的特性,那么該子樹就可以替換成葉結(jié)點。以這種自下而上的方式遍歷所有的子樹,直至沒有任何子樹可以替換使得測試數(shù)據(jù)集的表現(xiàn)得以改進時,修剪便終止,得到最終的簡化樹。
[0050]此時簡化樹有c個非葉結(jié)點,對應數(shù)據(jù)集中的c個屬性(即特征),稱這c個特征為優(yōu)勢特征(對分類效果相對幫助較大的特征),而數(shù)據(jù)集中剩余的特征為非優(yōu)勢特征。
[0051]步驟5,進行EEG信號分類。
[0052]取出訓練數(shù)據(jù)中c個特征對應的數(shù)據(jù),形成新的訓練樣本,即一個w*c的矩陣。對測試樣本做同樣的工作,形成新的測試樣本,即一個g*c的矩陣。將重組后的優(yōu)勢特征向量,包括訓練樣本、訓練樣本標簽、測試樣本、測試樣本標簽,輸入到SVM分類器中,進行EEG信號分類,得到分類正確率。
[0053]步驟6,求分類正確率。
[0054]輪流選擇步驟2.2所述的10份數(shù)據(jù)中的1份作為測試數(shù)據(jù),其它9份作為訓練數(shù)據(jù),重復步驟3~5,共進行10次實驗,求10次實驗所得到分類正確率的平均值,得到最終的分類正確率。
[0055]為了驗證本發(fā)明的有效性,以及與傳統(tǒng)的運用優(yōu)勢電極重組分類法相比性能的優(yōu)劣,進行了一組對比實驗,兩種分類方法的正確率如表1所示。
[0056]表1本發(fā)明與傳統(tǒng)方法分類正確率的比較
[0057]
【權(quán)利要求】
1.一種基于決策樹的腦電信號特征選擇方法,其特征在于,包括以下步驟: 步驟I,采集數(shù)據(jù); 受試者佩戴電極帽,想象上下移動屏幕上的光標;采集受試者腦電信號,得到訓練樣本集和測試樣本集; 步驟2,進行數(shù)據(jù)預處理; 步驟2.1,數(shù)據(jù)重組; 將采集到的一個電極的訓練樣本集表示為一個m*p的矩陣,其中m表示訓練樣本集的樣本量,P=r*t為樣本集的維度,其中r表示采樣率,t表示采樣時間;將采集到的所有電極的訓練樣本集,按樣本量不變、維度增加的方法重組成一個訓練數(shù)據(jù)集,即重組成一個m*k的矩陣,k=a*p,其中a為記錄電極的個數(shù); 將采集到的一個電極的測試樣本集表示為一個n*p的矩陣,其中η表示測試樣本集的樣本量;按照與訓練樣本集相同的處理方式,將所有電極的測試樣本集重組成一個n*k的矩陣; 步驟2.2,數(shù)據(jù)分組; 將步驟2.1得到的測試數(shù)據(jù)集和訓練數(shù)據(jù)集按照維度不變、增加樣本量的方法組合成一個數(shù)據(jù)集,即一個h*k的矩陣,h=m+n ;然后再將此數(shù)據(jù)集按樣本量平均地分成10份,其中訓練數(shù)據(jù)是一個w*k的矩陣,w=0.9h,測試數(shù)據(jù)是一個g*k的矩陣,g=0.1h ; 步驟3,特征提??; 利用主成分分析法分別對訓練數(shù)據(jù)和測試數(shù)據(jù)進行特征提取,得到特征向量,即將兩個數(shù)據(jù)集均從k維數(shù)據(jù)降為d維數(shù)據(jù),也就是將每個電極的數(shù)據(jù)從P維降到q維,其中d=a氺q ; 步驟4,特征選擇; 將特征提取后的特征向量輸入到?jīng)Q策樹中,進行優(yōu)勢特征選擇; 步驟5,進行腦電信號分類; 取出訓練數(shù)據(jù)中c個特征對應的數(shù)據(jù),形成新的訓練樣本,即一個w*c的矩陣;對測試樣本做同樣的工作,形成新的測試樣本,即一個g*c的矩陣;將重組后的優(yōu)勢特征向量,包括訓練樣本、訓練樣本標簽、測試樣本、測試樣本標簽,輸入到支持向量機分類器中,進行腦電信號分類,得到分類正確率; 步驟6,求分類正確率; 輪流選擇步驟2.2所述的10份數(shù)據(jù)中的1份作為測試數(shù)據(jù),其它9份作為訓練數(shù)據(jù),重復步驟3~5,共進行10次實驗,求10次實驗所得到分類正確率的平均值,得到最終的分類正確率。
2.根據(jù)權(quán)利要求1所述的一種基于決策樹的腦電信號特征選擇方法,其特征在于,步驟4所述優(yōu)勢特征選擇的方法包括以下步驟: (I)構(gòu)造決策樹; 以代表訓練樣本的單個結(jié)點開始建樹;結(jié)點存放的是一個屬性;如果樣本都在同一個類,則該結(jié)點成為樹葉,并用該類標記;否則,使用成為信息增益的基于熵的度量為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,即具有最高信息增益的屬性;該屬性成為該結(jié)點的“測試”或“判定”屬性;對測試屬性的每個已知的值,創(chuàng)建一個分支,并據(jù)此劃分樣本;重復上述過程,遞歸地形成每個劃分上的樣本決策樹,當下列條件之一成立時停止: 條件一:給定結(jié)點的所有樣本屬于同一類; 條件二:沒有剩余屬性可以用來進一步劃分樣本;在此情況下,采用多數(shù)表決,即將給定的結(jié)點轉(zhuǎn)換成樹葉,用樣本中多數(shù)所在的類別標記它; 條件三:對于根據(jù)測試屬性的其中一個已知的值創(chuàng)建的分支中沒有樣本;在這種情況下,以樣本中多數(shù)類創(chuàng)建一個樹葉; 按照上述方法構(gòu)造一棵具有非葉結(jié)點、分支和樹葉的完全決策樹;對于d維的訓練數(shù)據(jù)來說,對應有d個屬性;樹的結(jié)點存放著屬性Ai,其中i=l,2,...,(!;根據(jù)分支Ai=aj劃分樣本,其中aj是屬性Ai的一個已知的值,j=l, 2,…,w,;樹葉存放著結(jié)點樣本的類別標簽; (2)修剪決策樹; 對于完全決策樹中的每一個非葉結(jié)點的子樹,嘗試將其替換成一個葉結(jié)點,該葉結(jié)點的類別用子樹所覆蓋訓練樣本中存在最多的那個類來代替,這樣就產(chǎn)生了一個簡化決策樹;然后,比較完全決策樹和簡化決策樹在測試數(shù)據(jù)集中的表現(xiàn),如果簡化決策樹在測試數(shù)據(jù)集中的錯誤比較少,并且該子樹里面沒有包含另外一個具有類似特性的子樹,那么該子樹就可以替換成葉結(jié)點;所述類似特性是指把子樹替換成葉結(jié)點后其測試數(shù)據(jù)集誤判率降低的特性;以這種自下而上的方式遍歷所有的子樹,直至沒有任何子樹可以替換使得測試數(shù)據(jù)集的表現(xiàn)得以改進時,修剪便終止,得到最終的簡化樹; 此時簡化樹有c個非葉結(jié)點,對應數(shù)據(jù)集中的c個屬性,即c個特征,稱這c個特征為優(yōu)勢特征,而數(shù)據(jù)集中剩余的 特征 為非優(yōu)勢特征。
【文檔編號】A61B5/0476GK103876734SQ201410112806
【公開日】2014年6月25日 申請日期:2014年3月24日 優(yōu)先權(quán)日:2014年3月24日
【發(fā)明者】段立娟, 葛卉, 周海燕, 喬元華, 馬偉, 苗軍 申請人:北京工業(yè)大學