本發(fā)明涉及生物醫(yī)學信息處理,具體地說是一種用于腦網(wǎng)絡學習與分類的極簡化transformer方法。
背景技術:
1、腦功能網(wǎng)絡作為一種在宏觀尺度上模擬神經(jīng)通路的方法,在早期識別自閉癥譜系障礙、阿爾茨海默病和重度抑郁障礙等神經(jīng)或精神異常方面發(fā)揮著越來越重要的作用。在數(shù)學中,功能腦網(wǎng)絡可以用一個圖來描述,圖中的節(jié)點代表大腦感興趣區(qū),邊反映了與相應腦區(qū)的功能磁共振成像信號之間的關系。與分子式等未知或可明確定義的傳統(tǒng)圖形不同,功能腦網(wǎng)絡沒有準確的真實定義,一般需要根據(jù)功能磁共振成像信號數(shù)據(jù)進行估計,高質量的功能腦網(wǎng)絡估計對下游任務至關重要。
2、在過去的幾十年里,人們提出了許多方法來估計功能腦網(wǎng)絡。經(jīng)典方法包括皮爾遜相關、稀疏表示和互信息等。皮爾遜相關是估計功能腦網(wǎng)絡的第一種也是最簡單的方法。盡管皮爾遜相關很受歡迎,但它只能計算腦區(qū)之間的完全相關性,因此很容易導致估計的功能腦網(wǎng)絡中出現(xiàn)虛假連接。相比之下,稀疏表示作為一種建立部分相關性模型的方法,可以通過回歸無關腦區(qū)的混雜效應來獲得更可靠的連接。與只能捕捉線性關系的皮爾遜相關和稀疏表示不同,互信息提供了一種對不同腦區(qū)之間復雜的非線性相互作用進行建模的方法。此外,還有許多其他方案,如高階相關性、動態(tài)因果模型和格蘭杰因果關系等,可用于估計功能腦網(wǎng)絡。
3、根據(jù)獲得的功能腦網(wǎng)絡,可以完成腦疾病診斷任務。傳統(tǒng)上,首先要從不同受試者對應的功能腦網(wǎng)絡中提取特征,如節(jié)點度、局部聚類系數(shù)或邊權重。然后,選擇這些特征(如有必要)并將其輸入向量分類器(如支持向量機),以便從正常對照組中識別出患有腦部疾病的受試者。此外,考慮到功能腦網(wǎng)絡是一個圖,圖神經(jīng)網(wǎng)絡自然也可以用來進行功能腦網(wǎng)絡分類。與傳統(tǒng)向量方案中的人工特征提取方式不同,基于圖神經(jīng)網(wǎng)絡的方法將特征提取與分類任務結合在一個框架中。盡管基于向量的方案和基于圖神經(jīng)網(wǎng)絡的方法在腦疾病診斷中得到了成功應用,但它們在學習過程中都需要預先估計功能腦網(wǎng)絡。這意味著功能腦網(wǎng)絡的學習和下游任務被分成了不同的步驟,很難達到最佳的整體性能。
4、為了克服傳統(tǒng)的分步學習方法的局限性,研究人員最近探索了功能腦網(wǎng)絡與下游任務的聯(lián)合學習。例如,kazi等人提出將可微分圖模塊與圖卷積網(wǎng)絡結合起來用于阿爾茨海默癥的診斷。kazi,anees,et?al."differentiable?graph?module(dgm)for?graphconvolutional?networks."ieee?transactions?on?pattern?analysis?and?machineintelligence?45.2(2022):1606-1617.jia等人研究了一種基于時空圖卷積網(wǎng)絡自適應學習圖結構的方法。jia,ziyu,et?al."graphsleepnet:adaptive?spatial-temporal?graphconvolutional?networks?for?sleep?stage?classification."ijcai.vol.2021.2020.jang等人設計了一種神經(jīng)網(wǎng)絡模型,利用數(shù)據(jù)驅動的方式學習圖結構。jang?s,moon?s?e,lee?j?s.eeg-based?emotional?video?classification?vialearning?connectivity?structure[j].ieee?transactions?on?affective?computing,2021,14(2):1586-1597.然而,這些工作所涉及的架構主要基于較強的技能進行設計,沒有統(tǒng)一的原則可循,影響了其在新場景下的適應性和靈活性。
5、相比之下,transformer作為一個統(tǒng)一的基礎框架,已在自然語言處理和計算機視覺等多個領域展現(xiàn)出顯著的成效。更重要的是,它提供了一種利用自我注意機制來模擬腦區(qū)之間關系的自然方法。最近,kan等人提出了brainnettf和drat,它們利用transformer以端到端的方式學習和分類功能腦網(wǎng)絡。kan?x,dai?w,cui?h,et?al.brain?networktransformer[j].advances?in?neural?information?processing?systems,2022,35:25586-25599.kan?x,gu?a?a?c,cui?h,et?al.dynamic?brain?transformer?with?multi-level?attention?for?functional?brain?network?analysis[c]//2023ieee?embsinternational?conference?on?biomedical?and?health?informatics(bhi).ieee,2023:1-4.盡管這些基于transformer的方法潛力巨大,但它們包含大量參數(shù),因此需要足夠的數(shù)據(jù)進行訓練,而這對于醫(yī)療場景來說是一個巨大的挑戰(zhàn)。此外,這類方法通常導致可解釋性差。一方面,自我注意模塊中涉及的投影矩陣wq、wk和wv,使得功能磁共振成像信號中不同時間點的數(shù)據(jù)耦合在一起,這給模型參數(shù)的解釋帶來了挑戰(zhàn)。另一方面,傳統(tǒng)的基于transformer的方法很難確定哪些腦區(qū)或連接對最終結果有貢獻,因為這些方法中涉及的自我注意矩陣只是作為學習新表征的中間度量,而不是直接用作腦疾病分類任務的功能腦網(wǎng)絡。
技術實現(xiàn)思路
1、本發(fā)明提出了一種用于腦網(wǎng)絡學習與分類的極簡化transformer方法,它不僅減少了需要學習的參數(shù)數(shù)量,使基于有限數(shù)據(jù)的訓練更加有效,還增強模型參數(shù)和最終結果的可解釋性。其次,設計了基于miniformer的兩個變體,分別對功能磁共振成像信號施加稀疏性和時間平滑性先驗,靈活地整合先驗信息。
2、為了解決上述技術問題,本發(fā)明采用以下技術方案:
3、一種用于腦網(wǎng)絡學習與分類的極簡化transformer方法,其特征在于包括以下步驟:
4、(1)對于功能磁共振設備采集到的靜息態(tài)功能磁共振成像信號數(shù)據(jù),使用dparsf工具箱進行如下預處理:1)去除每個被試的前p個不穩(wěn)定的時間點;2)進行頭動和時間層矯正;3)回歸掉腦室、白質、全局信號的影響;4)通過蒙特利爾神經(jīng)學研究所模板配準到標準空間;5)0.01-0.1hz帶通濾波,以減少心跳和呼吸的影響;
5、(2)靜息態(tài)功能磁共振成像信號數(shù)據(jù)預處理后,基于自動解剖標記模板,將大腦劃分為若干個腦區(qū),并分別提取各個腦區(qū)的時間序列,x=[x1,x2,…,xi,…,xn]∈rt×n,其中xi∈rt表示第i個節(jié)點的時間序列,t表示時間序列中時間的個數(shù),n表示節(jié)點的數(shù)量;
6、(3)基于提取的各個腦區(qū)的時間序列,輸入miniformer模型,先經(jīng)過腦功能網(wǎng)絡的學習過程,再進入腦功能網(wǎng)絡的分類過程;
7、所述的腦功能網(wǎng)絡的學習過程中,時間序列輸入到簡編碼器模塊miniencoder,該模塊堆疊成多層,以逐步提取和融合時間序列的特征;miniencoder將基于transformer的投影矩陣簡化為一個對角矩陣wl,其中wl中的對角元素恰好對應于功能磁共振成像信號中時間點的權重;對投影矩陣經(jīng)過簡化得到對角矩陣wl,得到了嵌入表示ql、kl和并通過ql和kl點積運算計算出注意力矩陣al;得到的矩陣通過softmax函數(shù)進行縮放,然后與vl相乘,就得到了自注意機制的輸出,計算公式如下:
8、
9、sal(ql,kl,vl)=sal(ql,ql,ql)=softmax(al)ql
10、進一步采用殘差連接和層歸一化模塊來解決自注意機制的輸出存在的梯度消失或爆炸的問題;利用前饋網(wǎng)絡模塊負責傳輸和處理神經(jīng)網(wǎng)絡各層的輸入數(shù)據(jù),然后再次通過殘差連接和層歸一化模塊;最終,miniencoder輸出的數(shù)據(jù)將成為后續(xù)miniencoder的輸入數(shù)據(jù),整個過程反復進行;
11、所述的再進入腦功能網(wǎng)絡的分類過程,經(jīng)過基于注意力的功能腦網(wǎng)絡學習之后,本模型直接將獲得的功能腦網(wǎng)絡al+1作為分類器的輸入;使用經(jīng)典的多層感知器mlp作為分類器,選擇通過提取功能腦網(wǎng)絡的上三角矩陣來減少特征冗余和計算復雜性,然后將該矩陣扁平化,并通過雙層全連接網(wǎng)絡進行分類;反向傳播過程采用交叉熵損失,其公式如下:
12、
13、miniformer的最終損失定義為通過設置訓練更新的次數(shù)epochs,定義常見的衡量模型性能的指標,即可輸出病人與正常人的分類結果,同時能夠更新得到要學習的對角投影矩陣。
14、為了彌補現(xiàn)有模型與其應用場景之間的差距,本發(fā)明的一種用于腦網(wǎng)絡學習與分類的極簡化transformer方法,即miniformer,該方法將transformer中的三個投影矩陣簡化為一個對角矩陣,并直接將自注意力矩陣作為分類模塊的輸入。這種改進能夠滿足功能腦網(wǎng)絡分析任務的需要。首先,它大大減少了模型參數(shù)的數(shù)量,從而減輕了許多醫(yī)療場景中因訓練數(shù)據(jù)不足而導致的過擬合風險。其次,它提高了模型參數(shù)和最終結果的可解釋性。特別是,模型對角投影矩陣中的每個參數(shù)都能有效表明時間點在功能磁共振成像信號數(shù)據(jù)中的重要性,通過直接將自我注意矩陣(即功能腦網(wǎng)絡)作為分類模塊的輸入,可以識別出對最終分類結果有重要貢獻的腦區(qū)或連接。第三,由于模型參數(shù)的可解釋性,它使先驗或假設的納入更加容易和自然。
15、作為對本技術方案的進一步改進:
16、所述的用于腦網(wǎng)絡學習與分類的極簡化transformer方法,在miniencoder中,將投影矩陣經(jīng)過簡化得到的對角矩陣wl,進行先驗或假設的整合,通過考慮功能磁共振成像信號中相鄰的時間點對功能腦網(wǎng)絡學習的貢獻程度,即平滑度先驗或假設,進而設計出新的變體miniformer(sm),包括以下步驟:
17、通過以下正則化項來約束對角矩陣wl的對角元素:
18、
19、其中,wt表示第t個時間點的權重,即對角矩陣wl對角線上的第t個元素,t是時間點的數(shù)量;miniformer(sm)的最終損失定義為其中λ是一個超參數(shù);之后利用反向傳播,設置訓練更新的次數(shù)epochs,定義常見的衡量模型性能的指標,并根據(jù)最優(yōu)更新次數(shù)的指標,輸出病人與正常人的分類結果。
20、所述的用于腦網(wǎng)絡學習與分類的極簡化transformer方法,在miniencoder中,將投影矩陣經(jīng)過簡化得到的對角矩陣wl,進行先驗或假設的整合,通過在權利要求1所述損失函數(shù)中引入能夠衡量稀疏性的正則化項,用于剔除可能對功能腦網(wǎng)絡學習無益的"雜亂"時間點,進而設計出新的變體miniformer(sp),包括以下步驟:
21、通過以下正則化項來對稀疏性進行編碼:
22、
23、miniformer(sp)的最終損失定義為其中λ是一個超參數(shù);之后利用反向傳播,設置訓練更新的次數(shù)epochs,定義常見的衡量模型性能的指標,并根據(jù)最優(yōu)更新次數(shù)的指標,輸出病人與正常人的分類結果。
24、本發(fā)明考慮了時間平滑性(sm)和稀疏性(sp)“先驗信息”,以改進所提出的miniformer模型。
25、采用上述技術方案后,本發(fā)明的有益技術效果是:
26、1.提出了為功能腦網(wǎng)絡學習與分類而創(chuàng)新的端到端的極簡化transformer方法,即miniformer,它不僅減少了需要學習的參數(shù)數(shù)量,使基于有限數(shù)據(jù)的訓練更加有效,還作為了一種更簡單的端到端的方法來增強模型參數(shù)和最終結果的可解釋性。
27、2.由于模型參數(shù)的可解釋性,使先驗或假設的納入更簡單。設計了miniformer的兩個變體,分別引入稀疏性和時間平滑性的正則項約束,驗證了所提出的架構可以靈活地整合先驗信息。
28、3.直接使用注意力矩陣(功能腦網(wǎng)絡)作為分類模塊的輸入,有助于識別出對最終分類結果有重要貢獻的腦區(qū)或連接,從而提高了模型的解釋性。
29、4.在公開數(shù)據(jù)集上進行了對比實驗,以評估針對腦部疾病診斷任務提出的極簡化transformer方法,即miniformer,在各個性能評價指標上均表現(xiàn)良好,整體結果高于對比方法結果,且結果更可靠。