本發(fā)明涉及的是一種基于卷積神經網絡和主成分分析法的肺結節(jié)特征提取方法。
背景技術:
肺結節(jié)所表現(xiàn)的醫(yī)學征象是醫(yī)師診斷肺部疾病的基礎,通過分析肺ct圖像的各種醫(yī)學征象,便于醫(yī)師判斷結節(jié)的良惡性程度并做出相應的診斷決策。但是醫(yī)師主要根據(jù)經驗診斷疾病,診斷結果具有一定主觀性,常常出現(xiàn)誤診、漏診的情況。近年來,無須人工提取特征,通過深度學習過程,原始輸入數(shù)據(jù)中所隱藏的數(shù)據(jù)信息可以逐層提取抽象出來,層數(shù)越深,提取出來的特征所代表的數(shù)據(jù)概念就表達得越深,這是淺層結構所無法表達和得到的。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是針對現(xiàn)有技術的不足提供一種基于卷積神經網絡和主成分分析法的肺結節(jié)特征提取方法。
本發(fā)明的技術方案如下:
一種基于卷積神經網絡和主成分分析法的肺結節(jié)特征提取方法,包括以下步驟:
a1、ct圖像的預處理
在搭建cnn模型前,提取ct圖像的包含肺實質的感興趣區(qū)域;肺部ct序列圖像取圖像左上角坐標(40,110),右下角坐標(470,440),這一范圍包含的肺實質最完整;然后將結果圖經過雙線插值法,規(guī)格化到112×112大小后,存儲的樣本庫中,用于進行fecnn的訓練;
a2、特征提取
a21特征提取
c層為特征提取層,每個單元的通過與前一層的局部感受野相連,經過卷積運算提取局部特征,根據(jù)局部特征來確定它與其他特征空間的位置關系;
在第k(k=1,…6)層計算時,假設輸入的特征圖
其中,convn表示特征圖xk和卷積核
a22特征映射
s層是特征映射層,通過局部平均運算,使樣本上所有單元的具有相等的權值,因而減少了fecnn中自由參數(shù)的個數(shù),降低了網絡參數(shù)選擇的復雜性;
假設輸入的特征圖
每個降采樣層都采用固定大小的核
其中,downsampling代表降采樣運算,2代表步長為2;在最后一次降采樣后,通過激活函數(shù)
經過多次卷積和降采樣后,將最后一層特征圖進行全連接得到48×1維單層特征向量x1;
a23特征選擇
通過pca方法對每一層的映射進行降維后輸出,得到多層深度融合特征向量x2,使得特征表達更為緊湊;
對特征圖像適用pca降維的步驟如下:
1)假設有n幅特征圖,每個圖像的大小為m×n,則特征樣本矩陣x為:
x=(x1,x2,...,xi,...,xn)
其中,向量xi為由第i個圖像的每一列向量依次連接成的mn的一維向量,即把矩陣向量化;計算n幅特征圖像的平均向量μ:
計算每幅特征圖像的差值di=xi-μi=1,2,…,n
2)計算特征圖像的協(xié)方差矩陣c:
3)對c進行奇異值分解得到特征圖像的特征值λi和特征向量xi,并選取貢獻值和大于95%的前n個最大特征值λi和對應的特征向量ui:
對每一個映射層的特征圖進行pca融合,得到特征向量y1,y2和y3,將y1,y2和y3相連,得到特征向量x2。
本發(fā)明首先利用卷積神經網絡自動學習肺結節(jié)特征,通過卷積進行特征提取和降采樣進行特征映射。在提取特征時,利用pca對特征提取卷積神經網絡模型(convolutionalneuralnetworksmodelforfeatureextraction,fecnn)中每個特征映射層的輸出降維,與輸出層的映射相融合得到最后的多層深度融合特征。為了證明本發(fā)明提出的算法的有效性,選取了肺部薄掃ct圖像共1000例,進行多次實驗,大量的實驗結果表明:與當前人工提取特征或單獨采用最后一層映射的特征結果相比,該方法在確保分類準確性的基礎上,極大的降低了特征提取的過程復雜性,從而表明了該方法在肺結節(jié)特征提取方面的有效性。
附圖說明
圖1是本發(fā)明對肺結節(jié)自動檢測方法的框架圖。運用區(qū)域生長對圖像進行預處理后存儲到樣本庫,運用卷積神經網絡對樣本進行特征提取,最后一步將特征進行融合。
圖2是本發(fā)明中樣本圖像的處理過程。經過數(shù)學統(tǒng)計將原始ct片裁剪為128×128且包含有肺實質的圖像。
圖3是本發(fā)明肺結節(jié)自動檢測的卷積神經網絡模型。此特征提取模型包含有7層,通過卷積層和降采樣層自主學習特征,將降采樣層的特征經過pca降維得到融合特征。
圖4是s2層輸出的6張?zhí)卣鲌D及融合后的特征向量y1。經過第一次降采樣后得到6張?zhí)卣鲌D像,將特征圖像進行連接后得到特征向量y1。
圖5是s4層輸出的12張?zhí)卣鲌D及融合后的特征向量y2。經過第二次降采樣后得到12張?zhí)卣鲌D像,將特征圖像進行連接后得到特征向量y2。
圖6是s6層輸出的12張?zhí)卣鲌D及融合后的特征向量y3。經過第三次降采樣后得到12張?zhí)卣鲌D像,將特征圖像進行連接后得到特征向量y3。
具體實施方式
以下結合具體實施例,對本發(fā)明進行詳細說明。
1ct圖像的預處理
在搭建cnn模型前,提取ct圖像的包含肺實質的感興趣區(qū)域。當肺部ct序列圖像取圖像左上角坐標(40,110),右下角坐標(470,440)時包含的肺實質最完整。如圖2所示,對圖2(a)提取肺實質圖像得到圖2(b)所示結果。并將結果圖經過雙線插值法,規(guī)格化到112×112大小后,存儲的樣本庫中,用于進行fecnn的訓練。
2特征提取
在進行肺結節(jié)特征提取任務時,fecnn通過一組有相同權值向量但是在薄掃ct圖像上不同位置的單元,來獲取ct圖像的肺結節(jié)顯著特征并構成特征圖(featuremap)。在圖像的相同位置,來自不同特征圖的單元對應可以得到肺結節(jié)的不同類型特征。fecnn的結構由輸入層,隱含層和輸出層構成。輸入層讀入樣本庫中歸一化的樣本,將局部相鄰的單元分為一組,將其作為下一隱含層的輸入。通過局部感知區(qū)的不同運算,能夠抽取到顯著的或者隱含的特征,這些特征都會被下一層利用。
2.1卷積神經網絡的結構
本發(fā)明提出的特征提取模型(fecnn)可以充分的學習肺結節(jié)的特征,因為它的特征提取從低到高,由卷積和降采樣交替進行運算,隨著深度的增加,提取到的特征更加抽象,也更具有表達能力。圖3中,輸入層讀入樣本,經過卷積,得到隱含層c1的特征提取層,由6個112×112特征圖組成。每個c層后都跟有一個降采樣層s,即特征映射層。s層通過局部平均運算,不僅可以降低特征圖的分辨率,還可以降低輸出對于位移的敏感度。特征提取后的單層特征向量由x1表示。
2.2特征提取過程
2.2.1特征提取
c層為特征提取層,每個單元的通過與前一層的局部感受野相連,經過卷積運算提取局部特征,根據(jù)局部特征來確定它與其他特征空間的位置關系。
在第k(k=1,…6)層計算時,假設輸入的特征圖
其中,convn表示特征圖xk和卷積核
2.2.2特征映射
s層是特征映射層,通過局部平均運算,使樣本上所有單元的具有相等的權值,因而減少了fecnn中自由參數(shù)的個數(shù),降低了網絡參數(shù)選擇的復雜性。
假設輸入的特征圖
每個降采樣層都采用固定大小的核
其中,downsampling代表降采樣運算,2代表步長為2。在最后一次降采樣后,通過激活函數(shù)
經過多次卷積和降采樣后,將最后一層特征圖進行全連接得到48×1維單層特征向量x1。
2.3特征選擇
傳統(tǒng)cnns只采用最后一層的映射輸出,而忽略了中間隱含層的特征。在特征提取后,若提取到的特征過多,除了可能增加過度擬合,也會有較高的計算復雜度;若提取到的特征過少時,將其對分類器進行訓練,會產生一個不可靠的分類器。特征選擇技術可以減少樣本集的特征空間維度,可以有效地解決該問題。本發(fā)明中通過pca方法對每一層的映射進行降維后輸出,得到多層深度融合特征向量x2,使得特征表達更為緊湊。
對特征圖像適用pca降維的步驟如下:
1)假設有n幅特征圖,每個圖像的大小為m×n,則特征樣本矩陣x為:
x=(x1,x2,...,xi,...,xn)
其中,向量xi為由第i個圖像的每一列向量依次連接成的mn的一維向量,即把矩陣向量化。計算n幅特征圖像的平均向量μ:
計算每幅特征圖像的差值di=xi-μi=1,2,…,n
2)計算特征圖像的協(xié)方差矩陣c:
3)對c進行奇異值分解得到特征圖像的特征值λi和特征向量xi,并選取貢獻值和大于95%的前n個最大特征值λi和對應的特征向量ui:
對每一個映射層的特征圖進行pca融合,得到特征向量y1,y2和y3。
按照圖3中特征提取模型,將y1,y2和y3相連,得到特征向量x2。
本發(fā)明采用卷積神經網絡和pca算法,對來自山西某醫(yī)院和網絡公開的lidc數(shù)據(jù)庫的共1000例數(shù)據(jù)進行了提取特征實驗,并使用svm對提取到的多層深度融合特征進行分類,通過對比肺結節(jié)診斷的結果驗證本發(fā)明算法的有效性和準確性。
實驗結果證明,本發(fā)明算法不需要繁瑣的過程可以提取到較好的特征,取得了較好的效果。svm分類結果如表1所示。
表1提取特征svm分類結果表
實驗結果表明,本發(fā)明提出的方法,提取到的特征能夠對肺結節(jié)進行準確的分類。該方法與傳統(tǒng)的方法相比,準確率達到93.18%。
應當理解的是,對本領域普通技術人員來說,可以根據(jù)上述說明加以改進或變換,而所有這些改進和變換都應屬于本發(fā)明所附權利要求的保護范圍。