本發(fā)明涉及計(jì)算機(jī)及醫(yī)學(xué)模型數(shù)據(jù)處理,具體涉及一種基于可解釋模型預(yù)測(cè)感染性休克者(即感染性休克患者)亞甲藍(lán)治療響應(yīng)的方法。
背景技術(shù):
1、感染性休克(septic?shock),又稱膿毒性休克,是由微生物及其毒素等產(chǎn)物所引起的膿毒病綜合征伴休克的病癥。感染性休克是重癥監(jiān)護(hù)室(intensive?care?unit,icu)中最為常見(jiàn)的休克原因之一,其臨床表現(xiàn)復(fù)雜多樣,也是導(dǎo)致icu患者死亡的主要原因,其院內(nèi)死亡率高達(dá)50%以上。血管麻痹是感染性休克的主要病理生理機(jī)制,聯(lián)合使用不同機(jī)制的升壓藥物以減少兒茶酚胺類藥物的用量是研究熱點(diǎn)。
2、目前,治療感染性休克指南建議首選的升壓藥物是去甲腎上腺素,但是大劑量長(zhǎng)時(shí)間的使用可能引起包括腎小管壞死,肝壞死等嚴(yán)重的不良后果。此外,對(duì)去甲腎上腺素?zé)o應(yīng)答的患者,常常需要聯(lián)合其他血管活性藥物共同治療。然而,血管活性藥物的大劑量使用會(huì)導(dǎo)致不良反應(yīng)的發(fā)生。感染性休克現(xiàn)有的治療方案并未有效降低患者病死率,仍需尋求新的藥物,為治療感染性休克患者提供新的可能。亞甲藍(lán)(methylene?blue,mb)作為選擇性一氧化氮合酶抑制劑,部分阻斷一氧化氮的血管擴(kuò)張作用,是一種安全、價(jià)廉、容易獲得的輔助升壓藥物,近年來(lái)受到越來(lái)越多的關(guān)注。許多研究表明,亞甲藍(lán)能夠顯著升高各種血管麻痹性休克的血壓,減少去甲腎上腺素的使用,甚至降低患者病死率。然而,由于目前缺乏足夠的循證醫(yī)學(xué)證據(jù),無(wú)法確定哪些患者能從亞甲藍(lán)治療中獲益,且影響亞甲藍(lán)升壓有效性的關(guān)鍵影響因素尚不明確。
3、隨著機(jī)器學(xué)習(xí)、人工智能等技術(shù)的快速發(fā)展,醫(yī)學(xué)與計(jì)算機(jī)的深度交叉融合促使醫(yī)學(xué)領(lǐng)域不斷創(chuàng)新,機(jī)器學(xué)習(xí)模型在藥物療效評(píng)估中取得了顯著性進(jìn)展,為個(gè)體化治療提供新的可能性。機(jī)器學(xué)習(xí)預(yù)測(cè)模型有助于識(shí)別有效人群,結(jié)合可解釋工具可提高模型的可理解性和可信度,輔助醫(yī)生進(jìn)行臨床決策。從數(shù)據(jù)驅(qū)動(dòng)的角度運(yùn)用可解釋機(jī)器學(xué)習(xí)算法深入挖掘患者對(duì)亞甲藍(lán)藥物的個(gè)體響應(yīng),具有十分重要的意義。
4、綜上所述,亞甲藍(lán)作為感染性休克的潛在的升壓藥物之一,其有效性難以預(yù)測(cè),適宜人群亦未知。在臨床上,感染性休克患者是否使用亞甲藍(lán)進(jìn)行升壓主要依賴醫(yī)生的經(jīng)驗(yàn),這影響了亞甲藍(lán)藥物在臨床上的合理使用。目前,尚未發(fā)現(xiàn)公開(kāi)的技術(shù)方案涉及使用可解釋機(jī)器學(xué)習(xí)方法預(yù)測(cè)感染性休克者亞甲藍(lán)藥物治療響應(yīng)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問(wèn)題是針對(duì)目前感染性休克患者對(duì)亞甲藍(lán)藥物響應(yīng)的關(guān)鍵因素未知,采用現(xiàn)有技術(shù)無(wú)法預(yù)測(cè)亞甲藍(lán)作為感染性休克者的潛在升壓藥物之一的有效性,且無(wú)法知道適宜人群的問(wèn)題,提供一種基于可解釋模型預(yù)測(cè)感染性休克者(即感染性休克患者)亞甲藍(lán)治療響應(yīng)的方法,通過(guò)多方法多重篩選的特征工程構(gòu)建了兩組感染性休克亞甲藍(lán)藥物治療響應(yīng)的臨床數(shù)據(jù)集,利用不同的機(jī)器學(xué)習(xí)模型預(yù)測(cè)藥物治療響應(yīng),并引入shap(shapley?additive?explanations)解釋器對(duì)最優(yōu)的機(jī)器學(xué)習(xí)模型進(jìn)行解釋,尋找影響亞甲藍(lán)升壓有效性的關(guān)鍵因素,預(yù)測(cè)亞甲藍(lán)作為感染性休克者的潛在升壓藥物之一的有效性,并找到適宜人群。
2、本發(fā)明的技術(shù)方案是:
3、第一步,構(gòu)建感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng)。感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng)由數(shù)據(jù)預(yù)處理模塊、特征工程模塊、響應(yīng)預(yù)測(cè)模塊組成。
4、數(shù)據(jù)預(yù)處理模塊與特征工程模塊相連,訓(xùn)練時(shí),數(shù)據(jù)預(yù)處理模塊讀取原始數(shù)據(jù)集s1(s1由24個(gè)特征構(gòu)成),對(duì)s1中的特征進(jìn)行數(shù)據(jù)清理,得到清理后的數(shù)據(jù)集s2;然后對(duì)s2進(jìn)行數(shù)據(jù)變換,先對(duì)s2中連續(xù)型特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的數(shù)據(jù)集s2',再對(duì)s2'中分類型特征進(jìn)行獨(dú)熱編碼,得到預(yù)處理后的數(shù)據(jù)集s3,將s3發(fā)送給特征工程模塊。當(dāng)對(duì)用戶輸入的感染性休克患者數(shù)據(jù)x進(jìn)行預(yù)測(cè)時(shí),對(duì)x進(jìn)行數(shù)據(jù)清理,得到清理后的數(shù)據(jù)x',再對(duì)x'進(jìn)行數(shù)據(jù)變換,得到預(yù)處理后的感染性休克患者數(shù)據(jù)x”',將x”'發(fā)送給響應(yīng)預(yù)測(cè)模塊。
5、特征工程模塊與數(shù)據(jù)預(yù)處理模塊、響應(yīng)預(yù)測(cè)模塊相連。由于本發(fā)明的研究對(duì)象數(shù)據(jù)集一般較小,特征數(shù)量較多,直接輸入全部數(shù)據(jù)進(jìn)行模型訓(xùn)練,很容易導(dǎo)致過(guò)擬合,因此本發(fā)明采用兩種方法對(duì)s3進(jìn)行特征工程,一種是基于臨床研究常用的統(tǒng)計(jì)學(xué)方法,另一種是基于機(jī)器學(xué)習(xí)方法。訓(xùn)練時(shí),特征工程模塊接收數(shù)據(jù)預(yù)處理模塊輸入的數(shù)據(jù)集s3,先使用統(tǒng)計(jì)學(xué)方法進(jìn)行顯著特征篩選,得到第一數(shù)據(jù)集pv_data,將pv_data劃分為第一訓(xùn)練集pv_train和第一測(cè)試集pv_test。然后對(duì)s3使用機(jī)器學(xué)習(xí)方法進(jìn)行特征篩選,得到第二數(shù)據(jù)集ml_data,將ml_data劃分為第二訓(xùn)練集ml_train和第二測(cè)試集ml_test。將第一訓(xùn)練集pv_train、第一測(cè)試集pv_test、第二訓(xùn)練集ml_train、第二測(cè)試集ml_test發(fā)送給響應(yīng)預(yù)測(cè)模塊。
6、響應(yīng)預(yù)測(cè)模塊與特征工程模塊、數(shù)據(jù)預(yù)處理模塊相連,響應(yīng)預(yù)測(cè)模塊由模型訓(xùn)練子模塊、模型篩選子模塊、模型解釋子模塊、預(yù)測(cè)模型構(gòu)成。模型訓(xùn)練子模塊與特征工程模塊、模型篩選子模塊相連,包含邏輯回歸模型(logistic?regression,lr)、隨機(jī)森林模型(randomforest,rf)、支持向量機(jī)模型(support?vector?machine,svm)、可解釋提升機(jī)模型(explainable?boosting?machine,ebm)、輕量級(jí)梯度提升機(jī)模型(light?gradientboostingmachine,lightgbm))。訓(xùn)練時(shí),模型訓(xùn)練子模塊接收特征工程模塊輸入的第一訓(xùn)練集pv_train,對(duì)5種模型進(jìn)行訓(xùn)練,并調(diào)整5種模型的超參數(shù),得到5個(gè)響應(yīng)預(yù)測(cè)模型。模型訓(xùn)練子模塊還接收特征工程模塊輸入的第二訓(xùn)練集ml_train,對(duì)5種模型進(jìn)行訓(xùn)練,并調(diào)整5種模型的超參數(shù),又得到5個(gè)響應(yīng)預(yù)測(cè)模型。訓(xùn)練后共得到10個(gè)響應(yīng)預(yù)測(cè)模型,將10個(gè)響應(yīng)預(yù)測(cè)模型發(fā)送給模型篩選子模塊。
7、模型篩選子模塊與特征工程模塊、模型訓(xùn)練子模塊、模型解釋子模塊相連,訓(xùn)練時(shí),模型篩選子模塊接收模型訓(xùn)練子模塊輸入的10個(gè)響應(yīng)預(yù)測(cè)模型,在接收特征工程模塊輸入的第一測(cè)試集pv_test時(shí),對(duì)基于第一訓(xùn)練集pv_train建立的5個(gè)響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估;在接收特征工程模塊輸入的第二測(cè)試集ml_test時(shí),對(duì)基于第二訓(xùn)練集ml_train建立的5個(gè)響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估,對(duì)從模型訓(xùn)練子模塊接收的10個(gè)響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估,得到最佳的響應(yīng)預(yù)測(cè)模型。將最佳的響應(yīng)預(yù)測(cè)模型及其使用的數(shù)據(jù)集發(fā)送給模型解釋子模塊(例如最佳的響應(yīng)預(yù)測(cè)模型是基于第一訓(xùn)練集pv_train建立的svm模型,就將第一訓(xùn)練集pv_train和svm模型一起發(fā)送給模型解釋子模塊)。
8、模型解釋子模塊與模型篩選子模塊相連,訓(xùn)練時(shí),模型解釋子模塊接收模型篩選子模塊輸入的最佳響應(yīng)預(yù)測(cè)模型及其使用的數(shù)據(jù)集,將其輸入到shap解釋器中,使用shap解釋器對(duì)最佳的響應(yīng)預(yù)測(cè)模型進(jìn)行全局解釋(獲取各個(gè)特征對(duì)亞甲藍(lán)藥物響應(yīng)預(yù)測(cè)的重要性程度)和局部解釋(獲取各個(gè)特征是如何影響預(yù)測(cè)模型對(duì)單個(gè)患者的預(yù)測(cè))。
9、最佳的響應(yīng)預(yù)測(cè)模型和shap解釋器一起構(gòu)成了訓(xùn)練得到的最終的預(yù)測(cè)模型。當(dāng)對(duì)用戶輸入的單個(gè)感染性休克患者數(shù)據(jù)x進(jìn)行預(yù)測(cè)時(shí),預(yù)測(cè)模型接收數(shù)據(jù)預(yù)處理模塊輸入的x”',預(yù)測(cè)模型中的最佳的響應(yīng)預(yù)測(cè)模型輸出該患者對(duì)亞甲藍(lán)藥物響應(yīng)的預(yù)測(cè)結(jié)果(有響應(yīng)/無(wú)響應(yīng)),預(yù)測(cè)模型中的shap解釋器輸出各個(gè)特征對(duì)該患者響應(yīng)預(yù)測(cè)結(jié)果的shap值,并可視化這些shap值,顯示每個(gè)特征對(duì)該患者的響應(yīng)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。
10、第二步,構(gòu)建原始數(shù)據(jù)集s1,方法是:
11、2.1初始化原始數(shù)據(jù)集s1為空,s1的每個(gè)表項(xiàng)包括26個(gè)域,分別為患者id編號(hào)(具有唯一性)、24個(gè)用于構(gòu)建模型的特征、患者對(duì)亞甲藍(lán)藥物是否響應(yīng)的標(biāo)簽。
12、2.2從醫(yī)院的膿毒癥專病數(shù)據(jù)庫(kù)提取滿足以下3個(gè)條件的患者id編號(hào):(1)診斷為膿毒性休克;(2)患者年齡≥18歲;(3)接受亞甲藍(lán)作為二線縮血管藥物升壓治療(患者接受去甲腎上腺素泵入至少6h后啟動(dòng)亞甲藍(lán))。若患者多次使用亞甲藍(lán)升壓,則只將與第二次使用亞甲藍(lán)的時(shí)間間隔>6h的患者納入s1。
13、將滿足以下條件之一的患者id編號(hào)從s1中刪除:(1)使用亞甲藍(lán)后icu住院時(shí)間<24h;(2)不能明確亞甲藍(lán)是否用于升壓及因數(shù)據(jù)缺失無(wú)法判斷有效性的患者。令此時(shí)s1中的患者id編號(hào)共有m個(gè),m為正整數(shù),即此時(shí)s1共有m個(gè)表項(xiàng),1個(gè)表項(xiàng)對(duì)應(yīng)1個(gè)患者的樣本。
14、2.3根據(jù)s1中的患者id編號(hào),從醫(yī)院的膿毒癥專病數(shù)據(jù)庫(kù)提取24個(gè)用于構(gòu)建模型的特征,包括患者性別、住院時(shí)年齡(歲)、體重(kg)、吸煙史、飲酒史、合并癥(高血壓、糖尿病、冠心病、房顫、肺部疾病、腎病、肝臟疾病、免疫功能抑制情況)、icu類型(中心icu和其他icu)、是否使用特利加壓素、是否使用激素、啟動(dòng)亞甲藍(lán)前6h平均去甲等量(neepre)、氧療方式(有創(chuàng)呼吸機(jī)輔助呼吸和無(wú)創(chuàng)輔助呼吸)、氧合指數(shù)(oxygenation?index,oi)、是否連續(xù)性腎臟替代治療(continuous?renal?replacement?therapy,crrt)、乳酸、中心靜脈血氧飽和度(scvo2)、啟動(dòng)亞甲藍(lán)距離首次啟動(dòng)去甲腎上腺素的時(shí)間(tne)、啟動(dòng)亞甲藍(lán)距離診斷休克的時(shí)間(tshock),將這些內(nèi)容放到s1的患者id編號(hào)對(duì)應(yīng)的表項(xiàng)中。以上24個(gè)特征分為連續(xù)型特征和分類型特征。連續(xù)型特征包括患者住院時(shí)年齡(歲)、體重(kg)、neepre、oi、乳酸、scvo2、tne、tshock,分類型特征包括患者性別、吸煙史、飲酒史、高血壓、糖尿病、冠心病、房顫、肺部疾病、腎病、肝臟疾病、免疫功能抑制情況、icu類型、是否使用特利加壓素、是否使用激素、氧療方式、是否連續(xù)性腎臟替代治療。
15、其中,啟動(dòng)亞甲藍(lán)前6h平均去甲等量(neepre)是計(jì)算啟動(dòng)亞甲藍(lán)前6h內(nèi)去甲等量(nee)的用量(假設(shè)所有藥物使用都是勻速的),nee的計(jì)算公式(見(jiàn)文獻(xiàn)“kotani,y.,digioia,a.,landoni,g.et?al.an?updated“norepinephrine?equivalent”score?inintensive?care?as?amarker?of?shock?severity[j].crit?care重癥監(jiān)護(hù),2023,27(1):29.”,kotani,y.等人的論文:重癥監(jiān)護(hù)中更新的“去甲腎上腺素等量”評(píng)分作為休克嚴(yán)重程度的標(biāo)志)為:nee=norepinephrine?dose(μg/kg/min)+1/100×dopamine?dose(μg/kg/min)+0.06×phenylephrine?dose(μg/kg/min)+10×terlipressin特利dose(μg/kg/min)+0.2×methylene?blue亞甲藍(lán)dose(mg/kg/h)+8×metaraminol間羥胺dose(μg/kg/min)+0.02×hydroxocobalamin維生素b12dose(g)+0.4×midodrine米多君dose(μg/kg/min)。。氧合指數(shù)oi=pao2/fio2,其中pao2為動(dòng)脈血氧分壓,fio2為吸入氧濃度百分比,oi的正常值為400-500mmhg。乳酸主要是用于檢測(cè)血液中的乳酸鹽含量,正常值一般為0.5~1.7mmol/l。中心靜脈血氧飽和度(scvo2)是指人體中心靜脈血液中的氧氣飽和度水平,是評(píng)估患者氧供需平衡的重要指標(biāo)之一,scvo2正常值在70%~75%之間。
16、2.4根據(jù)以下條件得出s1中m個(gè)患者對(duì)亞甲藍(lán)是否響應(yīng)的標(biāo)簽(有響應(yīng)時(shí)標(biāo)簽為1,無(wú)響應(yīng)響應(yīng)時(shí)標(biāo)簽為0)。
17、患者對(duì)亞甲藍(lán)有響應(yīng)(即升壓有效)定義為滿足以下2個(gè)條件之一:(1)nee下降>10%(即nee%<-10%)且平均動(dòng)脈壓(map_avg_post)≥65mmhg;(2)nee下降、不變、或增加<10%(即10%>nee%≥-10%)但平均動(dòng)脈壓改變值(map_avg%)上升≥10mmhg。具體來(lái)說(shuō),滿足以上2個(gè)條件之一時(shí),認(rèn)為亞甲藍(lán)升壓有效,將s1中患者id編號(hào)對(duì)應(yīng)的標(biāo)簽賦值為1,兩項(xiàng)條件均不符合時(shí)定義亞甲藍(lán)升壓無(wú)效,將s1中患者id編號(hào)對(duì)應(yīng)的標(biāo)簽賦值為0。
18、其中,nee的改變值(nee%)=(neepost-neepre)/neepre×100%,neepost為啟動(dòng)亞甲藍(lán)后6h平均去甲等量(同neepre可以通過(guò)公式計(jì)算得到)。平均動(dòng)脈壓(map)=[收縮壓+(舒張壓×2)]/3,正常成年人平均動(dòng)脈壓正常值為70~105mmhg。分別計(jì)算啟動(dòng)亞甲藍(lán)前6h和后6h內(nèi)平均動(dòng)脈壓的平均值(map_avg)得到map_avg_pre和map_avg_post,map_avg的改變值(map_avg%)=(map_avg_post-map_avg_pre)。此時(shí),s1中有響應(yīng)的患者為m_1位,無(wú)響應(yīng)的患者為m_0位。
19、第三步,數(shù)據(jù)預(yù)處理模塊對(duì)數(shù)據(jù)集s1進(jìn)行預(yù)處理,得到預(yù)處理后的數(shù)據(jù)集s3。
20、3.1對(duì)s1進(jìn)行數(shù)據(jù)清理,方法是:
21、3.1.1使用箱線圖(boxplot)對(duì)s1進(jìn)行異常值(被記錄錯(cuò)誤的數(shù)據(jù)值或反常的數(shù)據(jù)值)檢測(cè),刪除異常值或者使用該特征的平均值對(duì)異常值進(jìn)行填充,得到數(shù)據(jù)集s1',s1'中患者id編號(hào)共有m2個(gè),m2≤m且m2為正整數(shù)。
22、3.1.2刪除s1'中數(shù)據(jù)缺失比例(某個(gè)特征(如體重,年齡)數(shù)據(jù)中缺失數(shù)據(jù)的數(shù)量占數(shù)據(jù)總體數(shù)量m2的比例)超過(guò)30%的特征,對(duì)于數(shù)據(jù)缺失比例<30%的特征,使用多重knn插補(bǔ)法(見(jiàn)文獻(xiàn)“thomas?t,et?al.addressing?missing?data?in?a?healthcare?datasetusing?an?improved?knn?algorithm[c].2021”thomas?t等人的論文:使用改進(jìn)的knn算法解決醫(yī)療保健數(shù)據(jù)集中的缺失數(shù)據(jù))進(jìn)行插補(bǔ),具體步驟是:
23、3.1.2.1將s1'拆分為有缺失值的部分s11和完整的部分s12,s11是需要進(jìn)行插補(bǔ)的特征。
24、3.1.2.2對(duì)s11進(jìn)行插補(bǔ)處理,得到k(k為正整數(shù),優(yōu)選為20)個(gè)插補(bǔ)后的數(shù)據(jù)集s111,…,s11k,…,s11k(1≤k≤k且k為正整數(shù)),s111,…,s11k,…,s11k中患者id編號(hào)都是m2個(gè),與s11的區(qū)別是數(shù)據(jù)缺失比例<30%的特征都已插補(bǔ)完整,且不含有≥30%的特征,并基于s111,…,s11k,…,s11k隨機(jī)劃分訓(xùn)練集和測(cè)試集并進(jìn)行模型訓(xùn)練和評(píng)估,得到avg_accuracy1,…,avg_accuracyk,…,avg_accuracyk,和avg_rmse1,…,avg_rmsek,…,avg_rmsek,avg_accuracyk為對(duì)s11k的評(píng)估指標(biāo)平均準(zhǔn)確度,avg_rmsek為對(duì)s11k的評(píng)估指標(biāo)平均均方根誤差;具體過(guò)程是:
25、3.1.2.2.1令k=1:
26、3.1.2.2.2對(duì)s11中每個(gè)特征的缺失值進(jìn)行第k次knn插補(bǔ):
27、3.1.2.2.2.1計(jì)算s11中有特征缺失值的樣本與s12中每個(gè)樣本的距離;
28、3.1.2.2.2.2選擇距離最近的k個(gè)樣本;
29、3.1.2.2.2.3對(duì)于s11中的連續(xù)型特征,通過(guò)加權(quán)平均計(jì)算k個(gè)樣本的平均值來(lái)填充缺失值;對(duì)于s11中的分類型特征,通過(guò)投票選取分類型特征中出現(xiàn)最頻繁的類別來(lái)填充缺失值,得到插補(bǔ)后的s11';
30、3.1.2.2.2.4將插補(bǔ)得到的s11'與s12合并,得到第k次插補(bǔ)后的數(shù)據(jù)集s11k。
31、3.1.2.2.3對(duì)s11k進(jìn)行n(n為正整數(shù),優(yōu)選為20)次評(píng)估,得到n個(gè)對(duì)s11k的評(píng)估指標(biāo)準(zhǔn)確度accuracy-1,…,accuracy-n,…,accuracy-n和n個(gè)均方根誤差rmse-1,…,rmse-n,…,rmse-n(1≤n≤n且n為正整數(shù));accuracy-n為第n次對(duì)s11k的評(píng)估指標(biāo)準(zhǔn)確度,rmse-n為第n次對(duì)s11k的評(píng)估指標(biāo)均方根誤差,方法是:
32、3.1.2.2.3.1令n=1;
33、3.1.2.2.3.2對(duì)s11k按照3:1的比例進(jìn)行隨機(jī)劃分,得到訓(xùn)練集n_train和測(cè)試集n_test(每一次的劃分都是隨機(jī)的,得到的n_train和n_test也不相同);
34、3.1.2.2.3.3基于n_train訓(xùn)練隨機(jī)森林模型,并基于n_test評(píng)估建立的隨機(jī)森林模型,計(jì)算隨機(jī)森林模型的第n次訓(xùn)練后的準(zhǔn)確度accuracy-n和第n次訓(xùn)練后的均方根誤差rmse-n;
35、3.1.2.2.3.4令n=n+1,若n≤n,轉(zhuǎn)3.1.2.2.3.2繼續(xù)隨機(jī)劃分訓(xùn)練集和測(cè)試集并進(jìn)行模型訓(xùn)練和評(píng)估,否則,得到了accuracy-1,…,accuracy-n,…,accuracy-n和rmse-1,…,rmse-n,…,rmse-n,轉(zhuǎn)3.1.2.2.4。
36、3.1.2.2.4計(jì)算accuracy-1,…,accuracy-n,…,accuracy-n的平均值,得到s11k的平均準(zhǔn)確度avg_accuracyk,計(jì)算rmse-1,…,rmse-n,…,rmse-n的平均值,得到s11k的平均均方根誤差avg_rmsek;
37、3.1.2.2.5令k=k+1,若k≤k,轉(zhuǎn)3.1.2.2.1,否則得到avg_accuracy1,…,avg_accuracyk,…,avg_accuracyk,和avg_rmse1,…,avg_rmsek,…,avg_rmsek,轉(zhuǎn)3.1.2.3。
38、3.1.2.3比較avg_accuracyk,…,avg_accuracyk,…,avg_accuracyk和avg_rmse1,…,avg_rmsek,…,avg_rmsek,選擇平均準(zhǔn)確度最大且平均均方根誤差相對(duì)較小的k值對(duì)應(yīng)的數(shù)據(jù)集s11k作為清理后的數(shù)據(jù)集s2。s2中特征數(shù)量共有t個(gè),其中連續(xù)性特征有t1個(gè),分類型特征有t2個(gè),t1+t2=t,t≤24且t為正整數(shù)。
39、3.2對(duì)s2進(jìn)行數(shù)據(jù)變換,方法是:
40、3.2.1對(duì)s2中m2個(gè)患者的t1個(gè)連續(xù)型特征數(shù)據(jù)使用z-score標(biāo)準(zhǔn)化法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化(分類型特征數(shù)據(jù)不做處理),得到數(shù)據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)集s2',方法是:
41、3.2.1.1將s2分為包含t1個(gè)連續(xù)型特征數(shù)據(jù)的部分s21和包含t2個(gè)分類型特征數(shù)據(jù)的部分s22。
42、3.2.1.2對(duì)s21中的特征進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的數(shù)據(jù)集s21',方法是:
43、3.2.1.2.1令變量i=1(i值從1~t1,i為正整數(shù))
44、3.2.1.2.2計(jì)算s21中第i個(gè)連續(xù)型特征的均值μi和標(biāo)準(zhǔn)差σi;
45、3.2.1.2.3對(duì)s21中m2個(gè)患者的第i個(gè)連續(xù)型特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,得到m2個(gè)標(biāo)準(zhǔn)化后的第i個(gè)連續(xù)型特征的值,方法是:
46、3.2.1.2.3.1令變量j=1(j值從1~m2,j為正整數(shù));
47、3.2.1.2.3.2對(duì)第i個(gè)連續(xù)型特征的第j個(gè)患者的特征值xj進(jìn)行標(biāo)準(zhǔn)化,得到xj′,計(jì)算公式為:
48、
49、其中,xj是第j個(gè)患者的原始特征值,xj′是標(biāo)準(zhǔn)化后的特征值。
50、3.2.1.2.3.3使用標(biāo)準(zhǔn)化后的特征值xj′替換原始的特征值xj。
51、3.2.1.2.3.4令j=j(luò)+1,如果j≤m2,轉(zhuǎn)3.2.1.2.3.2,否則轉(zhuǎn)3.2.1.2.4。
52、3.2.1.2.4.令i=i+1,如果i≤t1,轉(zhuǎn)3.2.1.2.2,否則,得到標(biāo)準(zhǔn)化后的特征數(shù)據(jù)集s21',轉(zhuǎn)3.2.1.3。
53、3.2.1.3將s21'與s22合并,得到標(biāo)準(zhǔn)化后的特征數(shù)據(jù)集s2'。
54、3.2.2對(duì)s2'中m2個(gè)患者的t2個(gè)分類型特征數(shù)據(jù)進(jìn)行獨(dú)熱編碼(見(jiàn)文獻(xiàn)“l(fā)iangjie,etal.one-hot?encoding?and?convolutional?neural?network?based?anomalydetection[j].journal?of?tsinghua?university(science?and?technology),2019,59(7):523-529.”梁杰等人.基于獨(dú)熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)),得到預(yù)處理后的數(shù)據(jù)集s3,s3中也有m2個(gè)進(jìn)行了獨(dú)熱編碼的患者的樣本。將s3發(fā)送給特征工程模塊。
55、第四步,特征工程模塊對(duì)預(yù)處理后的數(shù)據(jù)集s3分別使用統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法進(jìn)行特征工程,構(gòu)建訓(xùn)練模型的兩組訓(xùn)練集和兩組測(cè)試集。
56、4.1特征工程模塊使用統(tǒng)計(jì)學(xué)方法對(duì)s3進(jìn)行特征工程,得到第一數(shù)據(jù)集pv_data,pv_data中包含t1個(gè)特征,將pv_data劃分為第一訓(xùn)練集pv_train和第一測(cè)試集pv_test,pv_train中包含m'位患者,pv_test中包含m”位患者,m'+m”=m2,方法是:
57、4.1.1根據(jù)患者對(duì)亞甲藍(lán)是否響應(yīng)的標(biāo)簽將s3分為兩個(gè)組,分別為有響應(yīng)組和無(wú)響應(yīng)組。
58、4.1.2基于假設(shè)檢驗(yàn)方法(見(jiàn)文獻(xiàn)“jia?junping,et?al.statistics[m].北京:中國(guó)人民大學(xué)出版社,2018”賈俊平等人的著作的p156~p184:統(tǒng)計(jì)學(xué))進(jìn)行有響應(yīng)組和無(wú)響應(yīng)組的各個(gè)特征的組間差異性分析。本發(fā)明用到的假設(shè)檢驗(yàn)方法包括卡方檢驗(yàn)方法、獨(dú)立樣本t檢驗(yàn)方法和wilcoxon秩和檢驗(yàn)方法,在進(jìn)行檢驗(yàn)時(shí)需要計(jì)算p值來(lái)判斷假設(shè)檢驗(yàn)的結(jié)果。具體來(lái)說(shuō),使用卡方檢驗(yàn)方法比較分類型特征在有響應(yīng)和無(wú)響應(yīng)兩個(gè)組間的差異(計(jì)算p值,根據(jù)p值判斷分類型特征在有響應(yīng)和無(wú)響應(yīng)兩個(gè)組之間的差異是否顯著)。針對(duì)連續(xù)型特征,對(duì)于符合正態(tài)分布的連續(xù)型特征使用獨(dú)立樣本t檢驗(yàn)方法比較其在有響應(yīng)和無(wú)響應(yīng)兩個(gè)組之間的差異(計(jì)算p值),對(duì)于不符合正態(tài)分布的連續(xù)型特征使用wilcoxon秩和檢驗(yàn)方法比較其在有響應(yīng)和無(wú)響應(yīng)兩個(gè)組之間的差異(計(jì)算p值)。在統(tǒng)計(jì)學(xué)中,通常認(rèn)為p值<0.05的特征在兩個(gè)組之間具有顯著差異。然而,由于使用亞甲藍(lán)治療的感染性休克患者較少,本發(fā)明的數(shù)據(jù)集通常較小,導(dǎo)致一些重要因素可能不顯著。為了有效地避免漏掉一些重要因素,需要重新設(shè)定p值(見(jiàn)文獻(xiàn)“kang?sj,et?al.predictors?for?functionallysignificant?in-stent?restenosis:an?integrated?analysis?using?coronaryangiography,ivus,and?myocardial?perfusion?imaging[j].jacc?cardiovasc?imaging,2013,6(11):1183-1190.”kang?sj等人.功能顯著的支架內(nèi)再狹窄的預(yù)測(cè)因素:使用冠狀動(dòng)脈照影、ivus和心肌灌注成像的綜合分析),盡可能納入較多的變量。經(jīng)過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)通過(guò)篩選p值<0.3的特征,可以有效地避免漏掉一些重要因素,因此,p值設(shè)置為<0.3。
59、4.1.3通過(guò)皮爾森相關(guān)系數(shù)檢驗(yàn)探究4.1.2中篩選出來(lái)的特征之間的相關(guān)性,去除冗余特征后,得到第一數(shù)據(jù)集pv_data,pv_data中包含t1個(gè)特征。
60、4.1.4將pv_data按照3:1的比例劃分為第一訓(xùn)練集pv_train和第一測(cè)試集pv_test,將pv_train發(fā)送給響應(yīng)預(yù)測(cè)模塊中的模型訓(xùn)練子模塊,將pv_test發(fā)送給響應(yīng)預(yù)測(cè)模塊中的模型篩選子模塊。
61、4.2特征工程模塊使用機(jī)器學(xué)習(xí)方法對(duì)s3進(jìn)行特征工程,得到用于最終建模的數(shù)據(jù)集ml_data,ml_data中包含t2個(gè)特征,將ml_data劃分為第二訓(xùn)練集ml_train和第二測(cè)試集ml_test,ml_train中包含mm'位患者,ml_test中包含mm”位患者,mm'+mm”=m2,方法是:
62、4.2.1使用隨機(jī)森林作為基模型,采用遞歸特征消除與交叉驗(yàn)證(rfecv)(見(jiàn)文獻(xiàn)“staartjes?v?e,et?al.foundations?of?feature?selection?in?clinical?predictionmodeling[c].2022”staartjes?v?e等人的論文:臨床預(yù)測(cè)建模中特征選擇的基礎(chǔ))的方法對(duì)s3進(jìn)行特征篩選,通過(guò)逐步移除特征并利用交叉驗(yàn)證來(lái)確定最佳特征子集,得到用于最終建模的數(shù)據(jù)集ml_data,ml_data中包含t2個(gè)特征。
63、4.2.2將ml_data按照3:1的比例劃分為第二訓(xùn)練集ml_train和第二測(cè)試集ml_test,將ml_train發(fā)送給響應(yīng)預(yù)測(cè)模塊中的模型訓(xùn)練子模塊,將ml_test發(fā)送給響應(yīng)預(yù)測(cè)模塊中的模型篩選子模塊。
64、第五步,響應(yīng)預(yù)測(cè)模塊中的模型訓(xùn)練子模塊使用第一訓(xùn)練集pv_train、第二訓(xùn)練集ml_train分別對(duì)5種機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到10個(gè)響應(yīng)預(yù)測(cè)模型。
65、5.1使用模型訓(xùn)練方法,采用第一訓(xùn)練集pv_train對(duì)lr模型、rf模型、ebm模型、svm模型和lightgbm模型進(jìn)行訓(xùn)練。為了得到最佳的模型性能,采用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,得到5個(gè)基于第一訓(xùn)練集建立的響應(yīng)預(yù)測(cè)模型,具體如下:
66、5.1.1采用第一訓(xùn)練集pv_train對(duì)lr模型進(jìn)行訓(xùn)練,使用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,以模型的準(zhǔn)確度作為評(píng)估標(biāo)準(zhǔn)選擇最佳的超參數(shù)組合得到響應(yīng)預(yù)測(cè)模型pv_lr。
67、5.1.2采用第一訓(xùn)練集pv_train對(duì)rf模型進(jìn)行訓(xùn)練,使用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,以模型的準(zhǔn)確度作為評(píng)估標(biāo)準(zhǔn)選擇最佳的超參數(shù)組合得到響應(yīng)預(yù)測(cè)模型pv_rf。
68、5.1.3采用第一訓(xùn)練集pv_train對(duì)ebm模型進(jìn)行訓(xùn)練,使用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,以模型的準(zhǔn)確度作為評(píng)估標(biāo)準(zhǔn)選擇最佳的超參數(shù)組合得到響應(yīng)預(yù)測(cè)模型pv_ebm。
69、5.1.4采用第一訓(xùn)練集pv_train對(duì)svm模型進(jìn)行訓(xùn)練,使用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,以模型的準(zhǔn)確度作為評(píng)估標(biāo)準(zhǔn)選擇最佳的超參數(shù)組合得到響應(yīng)預(yù)測(cè)模型pv_svm。
70、5.1.5采用第一訓(xùn)練集pv_train對(duì)lightgbm模型進(jìn)行訓(xùn)練,使用網(wǎng)格搜索和5折交叉驗(yàn)證方法調(diào)整模型的超參數(shù)組合,以模型的準(zhǔn)確度作為評(píng)估標(biāo)準(zhǔn)選擇最佳的超參數(shù)組合得到響應(yīng)預(yù)測(cè)模型pv_lightgbm。
71、5.2采用5.1所述模型訓(xùn)練方法,使用第二訓(xùn)練集ml_train對(duì)lr模型、rf模型、ebm模型、svm模型和lightgbm模型進(jìn)行訓(xùn)練,得到5個(gè)基于第二訓(xùn)練集建立的響應(yīng)預(yù)測(cè)模型,分別為ml_lr、ml_rf、ml_ebm、ml_svm、ml_lightgbm。
72、5.3將5個(gè)基于第一訓(xùn)練集建立的響應(yīng)預(yù)測(cè)模型和5個(gè)基于第二訓(xùn)練集建立的響應(yīng)預(yù)測(cè)模型發(fā)送給模型篩選子模塊。
73、第六步,模型篩選子模塊使用第一測(cè)試集pv_test、第二測(cè)試集ml_test對(duì)10個(gè)響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估,篩選出一種最佳模型,作為最終的響應(yīng)預(yù)測(cè)模型。
74、6.1初始化混淆矩陣a(2×2的一張表)為空,混淆矩陣a包含4個(gè)元素,分別為a11,a12,a21,a22,初始都為0。a11存放模型預(yù)測(cè)標(biāo)簽為1真實(shí)標(biāo)簽也為1(真陽(yáng)性)的數(shù)量tp,a12存放模型預(yù)測(cè)標(biāo)簽為1真實(shí)標(biāo)簽為0(假陽(yáng)性)的數(shù)量fp,a21存放模型預(yù)測(cè)標(biāo)簽為0真實(shí)標(biāo)簽為1(假陰性)的數(shù)量fn,a22存放模型預(yù)測(cè)標(biāo)簽為0真實(shí)標(biāo)簽為0(真陰性)的數(shù)量tn。
75、混淆矩陣a
76、
77、6.2基于第一測(cè)試集pv_test,采用響應(yīng)預(yù)測(cè)模型評(píng)估方法對(duì)5.1得到的5個(gè)基于第一訓(xùn)練集的響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估,得到一個(gè)最佳的基于第一訓(xùn)練集的響應(yīng)預(yù)測(cè)模型,方法是:
78、6.2.1基于第一測(cè)試集pv_test分別計(jì)算5個(gè)響應(yīng)預(yù)測(cè)模型的準(zhǔn)確率(acc)、靈敏度(sensitivity)、特異度(specificity)、f1score、陽(yáng)性預(yù)測(cè)值(ppv)、陰性預(yù)測(cè)值(npv)、auc值、布里爾(brier)分?jǐn)?shù)這8個(gè)評(píng)價(jià)指標(biāo)。
79、6.2.1.1采用指標(biāo)計(jì)算方法計(jì)算pv_lr模型的8個(gè)評(píng)價(jià)指標(biāo):
80、6.2.1.1.1將第一測(cè)試集的m”位患者輸入5.1.1建立的pv_lr模型中,pv_lr預(yù)測(cè)模型輸出m”位患者對(duì)亞甲藍(lán)藥物響應(yīng)的結(jié)果(有響應(yīng)1,無(wú)響應(yīng)0),以及m”位患者對(duì)亞甲藍(lán)藥物響應(yīng)的概率值,通過(guò)統(tǒng)計(jì)實(shí)際標(biāo)簽與預(yù)測(cè)標(biāo)簽,對(duì)6.1的混淆矩陣a進(jìn)行填充,得到填充后的混淆矩陣a,即a11=tp,a12=fp,a21=fn,a22=tn,得到如表2所示的填充后的混淆矩陣表a:
81、填充后的混淆矩陣a
82、
83、其中,tp表示pv_lr模型對(duì)m”位患者中實(shí)際對(duì)亞甲藍(lán)有響應(yīng)被正確預(yù)測(cè)為有響應(yīng)的患者數(shù)量;fp表示pv_lr模型對(duì)m”位患者中實(shí)際對(duì)亞甲藍(lán)無(wú)響應(yīng)被錯(cuò)誤預(yù)測(cè)為有響應(yīng)的患者數(shù)量;fn表示pv_lr模型對(duì)m”位患者中實(shí)際對(duì)亞甲藍(lán)有響應(yīng)被錯(cuò)誤預(yù)測(cè)為無(wú)響應(yīng)的患者數(shù)量;tn表示pv_lr模型對(duì)m”位患者中實(shí)際對(duì)亞甲藍(lán)無(wú)響應(yīng)被正確預(yù)測(cè)為無(wú)響應(yīng)的患者數(shù)量,tp+tn+fp+fn=m”。
84、6.2.1.1.2基于填充后的混淆矩陣a,計(jì)算8種評(píng)價(jià)指標(biāo):
85、6.2.1.1.2.1計(jì)算準(zhǔn)確率(acc):分類模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例:
86、
87、6.2.1.1.2.2計(jì)算靈敏度(sensitivity):分類模型正確預(yù)測(cè)為正例的樣本數(shù)占所有正例樣本數(shù)的比例:
88、
89、6.2.1.1.2.3計(jì)算特異度(specificity):分類模型正確預(yù)測(cè)為反例的樣本數(shù)占所有反例樣本數(shù)的比例:
90、
91、6.2.1.1.2.4計(jì)算f1-分?jǐn)?shù)f1score:精確度(precision)和召回率(recall)的調(diào)和平均值:
92、
93、6.2.1.1.2.5計(jì)算陽(yáng)性預(yù)測(cè)值(ppv):分類模型預(yù)測(cè)為正例的樣本中真正為正例的比例:
94、
95、6.2.1.1.2.6計(jì)算陰性預(yù)測(cè)值(npv):分類模型預(yù)測(cè)為反例的樣本中真正為反例的比例:
96、
97、6.2.1.1.2.7計(jì)算auc(area?under?curve):受試者工作特征曲線(roc曲線)下面積,roc曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽(yáng)性率(敏感性)為縱坐標(biāo),假陽(yáng)性率(1-特異性)為橫坐標(biāo)繪制的曲線。其計(jì)算公式為:
98、
99、6.2.1.1.2.8計(jì)算布里爾分?jǐn)?shù)(brier?score):衡量分類問(wèn)題中模型預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的差距,取值范圍在0~1之間,值越小表示模型的預(yù)測(cè)準(zhǔn)確性越高。
100、
101、其中,m”表示pv_test中樣本量,fj是響應(yīng)預(yù)測(cè)模型對(duì)pv_test中患者j的預(yù)測(cè)概率,oj是pv_test中患者j的實(shí)際類別標(biāo)簽,通常取0或1。
102、6.2.1.2采用6.2.1.1步所述指標(biāo)計(jì)算方法計(jì)算pv_rf模型的8個(gè)評(píng)價(jià)指標(biāo):
103、6.2.1.3采用6.2.1.1步所述指標(biāo)計(jì)算方法計(jì)算pv_ebm模型的8個(gè)評(píng)價(jià)指標(biāo):
104、6.2.1.4采用6.2.1.1步所述指標(biāo)計(jì)算方法計(jì)算pv_svm模型的8個(gè)評(píng)價(jià)指標(biāo):
105、6.2.1.5采用6.2.1.1步所述指標(biāo)計(jì)算方法計(jì)算pv_lightgbm模型的8個(gè)評(píng)價(jià)指標(biāo):
106、6.2.2準(zhǔn)確率(accuracy)、靈敏度(sensitivity)、特異度(specificity)、f1score、陽(yáng)性預(yù)測(cè)值(ppv)、陰性預(yù)測(cè)值(npv)、auc值都是越大越好,布里爾(brier)分?jǐn)?shù)是越小越好,根據(jù)這8個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估5個(gè)模型的表現(xiàn)。5個(gè)模型中,若這些指標(biāo)達(dá)到最優(yōu)值的數(shù)量相同,則優(yōu)先選擇accuracy和auc值更好的模型,得到5.1得到的5個(gè)模型中最佳的基于第一訓(xùn)練集的響應(yīng)預(yù)測(cè)模型,簡(jiǎn)稱第一最佳模型。
107、6.3基于第二測(cè)試集ml_test,采用6.2步所述響應(yīng)預(yù)測(cè)模型評(píng)估方法對(duì)5.2得到的5個(gè)基于第二訓(xùn)練集的響應(yīng)預(yù)測(cè)模型進(jìn)行評(píng)估,得到一個(gè)最佳的基于第二訓(xùn)練集的響應(yīng)預(yù)測(cè)模型,簡(jiǎn)稱第二最佳模型。
108、6.4基于第一訓(xùn)練集pv_test繪制第一最佳模型的3種可視化曲線(roc曲線、校準(zhǔn)曲線、臨床決策曲線dca),基于第二訓(xùn)練集ml_test繪制第二最佳模型的3種可視化曲線。比較第一最佳模型和第二最佳模型在3種可視化曲線中的表現(xiàn),選擇在可視化曲線中表現(xiàn)更好的數(shù)量較多的模型,即為最終的響應(yīng)預(yù)測(cè)模型。將最終的響應(yīng)預(yù)測(cè)模型及其使用的訓(xùn)練集(訓(xùn)練集中包含t個(gè)特征,t=t1或t2)發(fā)送給模型解釋子模塊。
109、第七步,模型解釋子模塊對(duì)最終的響應(yīng)預(yù)測(cè)模型采用shap解釋器(見(jiàn)文獻(xiàn)“jiaxiao-yao,.breast?cancer?prediction?and?feature?analysis?model?based?oncatboost?and?shap[j].computer?and?modernization,2023,0(10):32-38.”賈瀟瑤的論文:融合catboost和shap的乳腺癌預(yù)測(cè)及特征分析)進(jìn)行全局解釋和局部解釋,得到最終的預(yù)測(cè)模型和具有可解釋性的感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng)。
110、7.1模型解釋子模塊是采用python開(kāi)發(fā)的一個(gè)“模型解釋包”shap實(shí)現(xiàn)的shap解釋器,使用時(shí)需要先安裝shap包,通過(guò)import?shap語(yǔ)句導(dǎo)入shap庫(kù)。
111、7.2使用“shap.explainer”類初始化shap解釋器,將最終的響應(yīng)預(yù)測(cè)模型使用的訓(xùn)練集和最終的響應(yīng)預(yù)測(cè)模型輸入shap解釋器中,完成shap解釋器的初始化,得到初始化后的shap解釋器。
112、7.3通過(guò)shap解釋器中的“shap_values”函數(shù)計(jì)算最終的響應(yīng)預(yù)測(cè)模型使用的訓(xùn)練集中t個(gè)特征的shap值,并計(jì)算最終的響應(yīng)預(yù)測(cè)模型使用的訓(xùn)練集中的t個(gè)特征的shap值的絕對(duì)值的平均值avg_shap_1,…,avg_shap_f,…,avg_shap_t,f為正整數(shù)且1≤f≤t。
113、7.4對(duì)最終的響應(yīng)預(yù)測(cè)模型進(jìn)行全局解釋,以avg_shap_1,…,avg_shap_f,…,avg_shap_t作為t個(gè)特征對(duì)亞甲藍(lán)藥物響應(yīng)預(yù)測(cè)的重要性程度。通過(guò)shap解釋器中的“summary_plot”可視化函數(shù)得到一張t個(gè)特征對(duì)模型預(yù)測(cè)重要性的排序圖。找到avg_shap_1,…,avg_shap_f,…,avg_shap_t中小于閾值threshold的特征,(threshold是根據(jù)特征重要性分布選擇的,threshold=(avg_shap_1+…+avg_shap_f+…+avg_shap_t)/(2×t)),令avg_shap_1,…,avg_shap_f,…,avg_shap_t中小于threshold的特征個(gè)數(shù)為t3,則這t3個(gè)特征是對(duì)亞甲藍(lán)藥物響應(yīng)的關(guān)鍵特征,t3<t,t3為正整數(shù)。
114、7.5對(duì)最終的響應(yīng)預(yù)測(cè)模型進(jìn)行局部解釋,即解釋t個(gè)特征如何影響預(yù)測(cè)模型對(duì)單個(gè)患者的預(yù)測(cè)結(jié)果。通過(guò)shap解釋器中的“waterfall”可視化函數(shù),對(duì)7.3步計(jì)算的任意一個(gè)患者(令為x1)的t個(gè)特征的shap值進(jìn)行可視化,生成一張x1的瀑布圖,在x1的瀑布圖中,e[f(x1)]表示模型的初始預(yù)測(cè)偏差(在沒(méi)有任何特征信息的情況下,模型預(yù)測(cè)的平均結(jié)果),f(x1)表示模型對(duì)于給定樣本x1的預(yù)測(cè)輸出值,每個(gè)特征對(duì)于模型輸出的影響以柱狀圖的形式展現(xiàn),紅色條形表示特征對(duì)預(yù)測(cè)起正向作用,藍(lán)色條形表示特征對(duì)預(yù)測(cè)起負(fù)向作用。每個(gè)特征的柱狀圖的高度表示了該特征對(duì)于模型輸出的影響的大小。x1的瀑布圖展示各個(gè)特征對(duì)患者x1響應(yīng)預(yù)測(cè)結(jié)果的貢獻(xiàn)。
115、7.6最終的響應(yīng)預(yù)測(cè)模型與初始化后的shap解釋器一起構(gòu)成響應(yīng)預(yù)測(cè)模塊中最終的預(yù)測(cè)模型,此時(shí)得到最佳的具有可解釋性的感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng)。
116、第八步,最終的具有可解釋性的感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng)對(duì)用戶輸入的患者數(shù)據(jù)x進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果,方法是:
117、8.1數(shù)據(jù)預(yù)處理模塊對(duì)用戶輸入的患者數(shù)據(jù)x進(jìn)行預(yù)處理,方法是:
118、8.1.1對(duì)x進(jìn)行數(shù)據(jù)清理。檢查x中特征是否存在缺失值或異常值,如果存在,使用最終的響應(yīng)預(yù)測(cè)模型的訓(xùn)練集中該特征的平均值進(jìn)行填充,得到清理后的數(shù)據(jù)x'。
119、8.1.2對(duì)x'進(jìn)行數(shù)據(jù)變換。對(duì)于x中的連續(xù)型特征,基于最終的響應(yīng)預(yù)測(cè)模型的訓(xùn)練集中對(duì)應(yīng)特征的均值和方差,使用z-score標(biāo)準(zhǔn)化法對(duì)特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)化后的數(shù)據(jù)x”;對(duì)x”中的分類型特征進(jìn)行獨(dú)熱編碼,得到預(yù)處理后的感染性休克患者數(shù)據(jù)x”',將x”'發(fā)送給響應(yīng)預(yù)測(cè)模塊中的預(yù)測(cè)模型。
120、8.2響應(yīng)預(yù)測(cè)模塊的預(yù)測(cè)模型中最終的響應(yīng)預(yù)測(cè)模型對(duì)x”'進(jìn)行預(yù)測(cè),得到該患者對(duì)于亞甲藍(lán)藥物有無(wú)響應(yīng)的預(yù)測(cè)結(jié)果(有響應(yīng)或無(wú)響應(yīng))。
121、8.3響應(yīng)預(yù)測(cè)模塊的預(yù)測(cè)模型中的shap解釋器計(jì)算x”'中各個(gè)特征對(duì)亞甲藍(lán)藥物響應(yīng)預(yù)測(cè)的shap值,采用7.5步所述的“waterfall”可視化函數(shù)對(duì)shap值進(jìn)行可視化,生成x的瀑布圖,x的瀑布圖中,e[f(x)]表示模型的初始預(yù)測(cè)偏差,f(x)表示模型對(duì)于x的預(yù)測(cè)輸出值,每個(gè)特征對(duì)于模型輸出的影響以柱狀圖的形式展現(xiàn),紅色條形表示特征對(duì)預(yù)測(cè)起正向作用,藍(lán)色條形表示特征對(duì)預(yù)測(cè)起負(fù)向作用。x的瀑布圖展示各個(gè)特征對(duì)該患者響應(yīng)預(yù)測(cè)結(jié)果的貢獻(xiàn),幫助醫(yī)生了解和信任模型,以輔助醫(yī)生對(duì)x進(jìn)行決策。
122、采用本發(fā)明可以達(dá)到以下技術(shù)效果:
123、1.本發(fā)明第四步特征工程模塊綜合運(yùn)用了多種方法進(jìn)行特征工程,針對(duì)感染性休克亞甲藍(lán)藥物治療響應(yīng)的臨床數(shù)據(jù)集構(gòu)建了兩組數(shù)據(jù)集,并將其分別劃分為訓(xùn)練集和測(cè)試集。通過(guò)特征工程模塊能夠篩選出更相關(guān)的特征,從而提升模型預(yù)測(cè)的性能和準(zhǔn)確度。亞甲藍(lán)作為一種治療感染性休克患者的二線升壓藥被使用,因此面向該研究的數(shù)據(jù)集通常較小,過(guò)多的特征可能會(huì)導(dǎo)致模型過(guò)擬合的問(wèn)題。特征工程模塊通過(guò)使用多種方法進(jìn)行特征工程,避免了模型過(guò)度依賴于單一特征工程方法,降低模型過(guò)擬合的風(fēng)險(xiǎn),進(jìn)而提升了模型的泛化能力。
124、2.本發(fā)明第五步利用五種不同的機(jī)器學(xué)習(xí)模型預(yù)測(cè)藥物治療響應(yīng),通過(guò)比較不同模型的預(yù)測(cè)結(jié)果,選擇性能最優(yōu)的模型,并引入shap(shapley?additive?explanations)可解釋器對(duì)最優(yōu)的機(jī)器學(xué)習(xí)模型進(jìn)行解釋。一方面,可以增強(qiáng)模型的魯棒性,提升預(yù)測(cè)的準(zhǔn)確度;另一方面,通過(guò)解釋器挖掘感染性休克患者對(duì)亞甲藍(lán)藥物治療響應(yīng)的潛在影響因素,有助于醫(yī)生理解模型的預(yù)測(cè)過(guò)程和結(jié)果,提升醫(yī)生對(duì)預(yù)測(cè)模型的信任度,促進(jìn)新的治療方法的發(fā)現(xiàn)。
125、3.在臨床上,感染性休克患者是否使用亞甲藍(lán)進(jìn)行升壓主要依賴醫(yī)生的經(jīng)驗(yàn),有比較大的主觀性,本發(fā)明第一步構(gòu)建的感染性休克患者亞甲藍(lán)治療響應(yīng)預(yù)測(cè)系統(tǒng),在實(shí)施例中醫(yī)院的數(shù)據(jù)中達(dá)到了較好的預(yù)測(cè)效果,預(yù)測(cè)患者對(duì)亞甲藍(lán)響應(yīng)的整體準(zhǔn)確性達(dá)到了76%,其中預(yù)測(cè)患者對(duì)亞甲藍(lán)無(wú)響應(yīng)的準(zhǔn)確率達(dá)到了94%,能夠準(zhǔn)確識(shí)別出對(duì)亞甲藍(lán)無(wú)響應(yīng)的患者,減少該藥錯(cuò)誤使用造成的風(fēng)險(xiǎn)。將這一預(yù)測(cè)模型應(yīng)用于臨床實(shí)踐中,可以有助于更好的識(shí)別出受益于亞甲藍(lán)藥物的膿毒性休克患者,幫助優(yōu)化該疾病的治療方案,探索病理生理機(jī)制,改進(jìn)臨床實(shí)踐。