国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種代謝組學數(shù)據(jù)融合優(yōu)化處理方法與流程

      文檔序號:11386949閱讀:611來源:國知局
      一種代謝組學數(shù)據(jù)融合優(yōu)化處理方法與流程
      本申請涉及醫(yī)學數(shù)據(jù)信息挖掘領(lǐng)域,更具體地涉及一種代謝組學數(shù)據(jù)融合優(yōu)化處理方法。
      背景技術(shù)
      :隨著精準醫(yī)學時代的到來,疾病的準確分類對于制定個性化和精準化的治療方案極為重要。代謝組學是繼基因組學和蛋白組學后的一種相對較新的組學技術(shù),該技術(shù)目的在于盡可能多得檢測生物樣品中的小分子代謝物,從而反映生物體在不同環(huán)境下(比如疾病發(fā)生發(fā)展過程、藥物/飲食干預(yù)等)的代謝變化情況。代謝組學技術(shù)可以在代謝物層面反映生物體個性化的差異,因此,該技術(shù)可以實現(xiàn)臨床疾病的分型和分類。代謝組學可以產(chǎn)生大量的數(shù)據(jù)信息,而且這些數(shù)據(jù)可以來源于不同的生物樣品,還可以來源于不同的分析平臺,但是我們不可忽視任何來源的數(shù)據(jù),因為其中包含我們所需要病人信息。數(shù)據(jù)融合技術(shù)可以將不同來源的數(shù)據(jù)進行整合,從而實現(xiàn)更加準確的疾病分型和分類。不同來源的數(shù)據(jù)具有不同的特征,因此,在選擇數(shù)據(jù)前處理方法上也不可一概而論。但是,目前存在許多不同的數(shù)據(jù)前處理方法,如何根據(jù)不同數(shù)據(jù)特征選擇最佳的數(shù)據(jù)前處理方法是數(shù)據(jù)分析領(lǐng)域的一個熱點問題。另外,數(shù)據(jù)融合并不是簡單地將數(shù)據(jù)疊加一起,融合不同來源數(shù)據(jù)中重要信息將減少數(shù)據(jù)量,提高數(shù)據(jù)處理速度,但是,如何從不同來源的數(shù)據(jù)中選擇重要信息也是數(shù)據(jù)分析領(lǐng)域的一個備受關(guān)注的問題。技術(shù)實現(xiàn)要素:為解決當前存在的上述問題,本申請?zhí)岢隽艘环N代謝組學數(shù)據(jù)融合優(yōu)化處理方法本發(fā)明所采取的技術(shù)方案如下:一種代謝組學數(shù)據(jù)融合優(yōu)化處理方法,包括以下步驟:1)將關(guān)于多個病人的不同來源的代謝組學數(shù)據(jù)分別轉(zhuǎn)換成多個代謝數(shù)據(jù)矩陣;2)利用實驗設(shè)計方法分別優(yōu)化不同來源的代謝組學的數(shù)據(jù)最佳前處理方法,通過優(yōu)化后的數(shù)據(jù)最佳前處理方法對應(yīng)處理步驟1)中的代謝數(shù)據(jù)矩陣,結(jié)合分類模型找出貢獻較大的代謝物數(shù)據(jù);3)將步驟2)找出貢獻較大的代謝物數(shù)據(jù)融合轉(zhuǎn)換成重要代謝數(shù)據(jù)矩陣;4)利用實驗設(shè)計方法優(yōu)化重要代謝數(shù)據(jù)矩陣的數(shù)據(jù)最佳前處理方法,通過優(yōu)化后的數(shù)據(jù)最佳前處理方法處理步驟3)中的重要代謝數(shù)據(jù)矩陣,結(jié)合分類模型對不同的病人進行分型和分類。優(yōu)選地,步驟1)中代謝組學數(shù)據(jù)的來源為血液、尿液、糞便、汗液、心臟組織、腎臟組織、肝臟組織、胃腸道組織中的一種或多種,所述代謝組學數(shù)據(jù)通過核磁共振波譜儀、液質(zhì)聯(lián)用儀、氣質(zhì)聯(lián)用儀、紅外光譜儀、紫外光譜儀、拉曼光譜儀中的一種或多種得到。優(yōu)選地,步驟2)中具體包括以下步驟:步驟2-1.通過實驗設(shè)計方法選擇不同數(shù)據(jù)前處理方法的組合方式;步驟2-2.分別對步驟1)得到的代謝數(shù)據(jù)矩陣按步驟2-1中的組合方式進行數(shù)據(jù)前處理;步驟2-3.將數(shù)據(jù)前處理后得到的數(shù)據(jù)輸入分類模型,通過實驗設(shè)計方法建立分類模型性能參數(shù)和不同數(shù)據(jù)前處理方法之間的關(guān)系,評價分類模型性能,分析不同前處理對分類模型性能參數(shù)的影響;步驟2-4.通過實驗設(shè)計方法最大化分類模型性能參數(shù),選擇最佳數(shù)據(jù)前處理方法組合;步驟2-5.采用步驟2-4所得的最佳數(shù)據(jù)前處理方法組合,對步驟1)得到的代謝數(shù)據(jù)矩進行數(shù)據(jù)前處理,輸入分類模型,篩選出對疾病分型分類貢獻最大的代謝物數(shù)據(jù)。優(yōu)選地,步驟4)中具體包括以下步驟:步驟4-1.通過實驗設(shè)計方法選擇不同數(shù)據(jù)前處理的組合方式;步驟4-2.將步驟3)得到的代謝數(shù)據(jù)矩陣按步驟4-1中的組合方式進行數(shù)據(jù)前處理;步驟4-3.將數(shù)據(jù)前處理后得到的數(shù)據(jù)輸入分類模型,通過實驗設(shè)計方法建立分類模型性能參數(shù)和不同數(shù)據(jù)前處理方法之間的關(guān)系,評價分類模型性能,分析不同前處理對分類模型性能參數(shù)的影響;步驟4-4.將步驟3)得到的代謝數(shù)據(jù)矩陣按步驟4-3優(yōu)化的最佳前處理方案進行數(shù)據(jù)前處理,輸入分類模型,建立基于代謝組學數(shù)據(jù)的病人分類模型。優(yōu)選地,所述實驗設(shè)計方法為響應(yīng)面分析、混合設(shè)計、d優(yōu)化設(shè)計、拉丁方設(shè)計、交叉設(shè)計、配對設(shè)計、析因設(shè)計中的一種或多種。優(yōu)選地,所述數(shù)據(jù)前處理方法為歸一化、標準化、數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)縮放、數(shù)據(jù)平滑、數(shù)據(jù)集成中的一種或多種。優(yōu)選地,分類模型為線性判別分析模型、偏最小二乘判別分析模型、人工神經(jīng)網(wǎng)絡(luò)模型、支持向量機模型、隨機森林模型、決策樹模型、模糊聚類分析模型中的一種或多種。優(yōu)選地,評價分類模型性能通過擬合系數(shù)、預(yù)測性能、分類準確率、p值、受試者工作特征(roc)曲線中的一種或多種。優(yōu)選地,對疾病分型分類貢獻最大的代謝物數(shù)據(jù)根據(jù)分類模型輸出的每個代謝物的權(quán)重或者貢獻度,自定義設(shè)置閾值進行篩選。本發(fā)明的有益效果如下:融合不同來源的代謝組學數(shù)據(jù),可以增加數(shù)據(jù)信息量,提高對疾病的分型和分類準確性,能夠輔助醫(yī)生更加精準地為病人制定個性化治療方案。本發(fā)明與現(xiàn)有方法相比,具有以下優(yōu)點:(1)數(shù)據(jù)前處理對于代謝組學數(shù)據(jù)分析至關(guān)重要,但是面對多種多樣的前處理方法,逐一嘗試必將費時費力,而且不同前處理方法間還存在交互效應(yīng),因此,運用傳統(tǒng)的方法難以確定最佳的數(shù)據(jù)前處理方案。本發(fā)明利用實驗設(shè)計方法設(shè)計不同前處理組合方案,一方面節(jié)省優(yōu)化時間,另一方面還考慮不同方法之間的交互效應(yīng)。(2)本發(fā)明以分類模型性能為導向,利用實驗設(shè)計方法建立與不同數(shù)據(jù)前處理方法間的關(guān)系,通過最大化分類模型性能參數(shù)確定最佳數(shù)據(jù)前處理方案。與傳統(tǒng)方法相比,本發(fā)明提出的方法可以更加準確更有目的性地優(yōu)化代謝組學數(shù)據(jù)前處理方案。(3)本發(fā)明首先優(yōu)化不同來源的代謝組學數(shù)據(jù)的前處理方案,并通過分類模型篩選重要代謝物,最后融合篩選出的重要代謝物。與簡單地將不同來源數(shù)據(jù)疊加的方法相比,本發(fā)明提出的方法融合關(guān)鍵數(shù)據(jù)信息并濾去無用信息,從而降低數(shù)據(jù)維度,提高分類模型的運算速度。(4)本發(fā)明還優(yōu)化了融合后代謝組學數(shù)據(jù)的最佳前處理方案,更進一步提高分類模型的性能。(5)可以根據(jù)本發(fā)明,編輯程序并開發(fā)相應(yīng)的軟件來實施。附圖說明圖1為本發(fā)明所提出的代謝組學數(shù)據(jù)融合優(yōu)化處理方法的示意流程圖。圖2為不同來源的代謝組學數(shù)據(jù)轉(zhuǎn)換成的代謝數(shù)據(jù)矩陣統(tǒng)一格式。圖3為基于分類模型的重要代謝物的選擇,其中貢獻度值大于2.0的代謝物作為重要代謝物。具體實施方式下面結(jié)合附圖對本發(fā)明的實施方式進行詳細描述。圖1展示本發(fā)明所提出的一種代謝組學數(shù)據(jù)融合優(yōu)化處理方法的示意流程圖。參考圖1,該方法包括:步驟1:將關(guān)于多個病人的不同來源的代謝組學數(shù)據(jù)分別轉(zhuǎn)換成矩陣。不同來源的代謝組學數(shù)據(jù)可以是來源于不同的生物樣品,比如血液、尿液、糞便、汗液、心臟組織、腎臟組織、肝臟組織、胃腸道組織,也可以是來源于不同的分析技術(shù),比如核磁共振波譜儀、液質(zhì)聯(lián)用儀、氣質(zhì)聯(lián)用儀、紅外光譜儀、紫外光譜儀、拉曼光譜儀。但是,這些數(shù)據(jù)都要分別轉(zhuǎn)換成統(tǒng)一的矩陣格式,如圖2所示,每一行是一個病人的相關(guān)信息,其中第一列為病人編號,第二列為病人分組,之后為代謝物數(shù)據(jù)。步驟2:利用實驗設(shè)計方法分別優(yōu)化不同來源的代謝組學數(shù)據(jù)最佳前處理方法,結(jié)合分類模型找出貢獻較大的代謝物數(shù)據(jù)。實驗設(shè)計方法可以根據(jù)具體實際情況選擇不同方法,比如響應(yīng)面分析、混合設(shè)計、d優(yōu)化設(shè)計、拉丁方設(shè)計、交叉設(shè)計、配對設(shè)計、析因設(shè)計;另外,數(shù)據(jù)前處理方法也可以根據(jù)實際情況選擇使用,比如歸一化、標準化、數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)縮放、數(shù)據(jù)平滑、數(shù)據(jù)集成。步驟2具體包括以下步驟:步驟2-1:通過實驗設(shè)計方法選擇不同數(shù)據(jù)前處理的組合方式。例如,優(yōu)化3種不同的數(shù)據(jù)前處理方法的組合方案,每種前處理方法考慮3種不同的計算方式,即歸一化(a1,b1和c1)、數(shù)據(jù)轉(zhuǎn)置(a2,b2和c2)以及數(shù)據(jù)縮放(a3,b3和c3)。采用傳統(tǒng)的正交實驗,27種不同的組合方案需要被嘗試,但是假如選用實驗設(shè)計方法,比如d優(yōu)化設(shè)計,只需嘗試7次不同的數(shù)據(jù)前處理組合方案,如表1所示。表1不同數(shù)據(jù)前處理的組合方式前處理組合歸一化(f1)數(shù)據(jù)轉(zhuǎn)置(f2)數(shù)據(jù)縮放(f3)模型性能參數(shù)(p)1c1b2a3n12c1a2b3n23b1c2c3n34b1b2b3n45b1a2a3n56a1c2b3n67a1a2c3n7步驟2-2:分別對不同來源的代謝組學數(shù)據(jù)按步驟2-1中的方式進行數(shù)據(jù)前處理。步驟2-3:將前處理后的數(shù)據(jù)輸入分類模型,分析不同前處理對分類模型性能參數(shù)的影響。如表1所示,經(jīng)不同數(shù)據(jù)前處理組合方案處理過的數(shù)據(jù)會產(chǎn)生不同的分類模型性能參數(shù)。例如,通過實驗設(shè)計方法建立分類模型性能參數(shù)(p)和不同數(shù)據(jù)前處理方法(f1,f2和f3)之間的關(guān)系,如公式1所示,其中α、β、γ、δ、θ和μ表示模型系數(shù),ε表示模型殘差,f1·f2、f1·f3和f2·f3表示不同數(shù)據(jù)前處理方法之間的交互效應(yīng),該公式中的數(shù)據(jù)前處理方法可以是歸一化、標準化、數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)縮放、數(shù)據(jù)平滑、數(shù)據(jù)集成中的多種組合。分類模型也可以根據(jù)實際情況選擇使用,比如線性判別分析模型、偏最小二乘判別分析模型、人工神經(jīng)網(wǎng)絡(luò)模型、支持向量機模型、隨機森林模型、決策樹模型、模糊聚類分析模型;另外,模型性能評價可以選擇擬合系數(shù)、預(yù)測性能、分類準確率、p值、受試者工作特征(roc)曲線。公式1p=α·f1+β·f2+γ·f3+δ·(f1·f2)+θ·(f1·f3)+μ·(f2·f3)+ε步驟2-4:通過實驗設(shè)計方法最大化分類模型性能參數(shù),選擇最佳數(shù)據(jù)前處理方法組合,如公式2所示,其中α、β、γ、δ、θ和μ表示模型系數(shù),ε表示模型殘差,f1·f2、f1·f3和f2·f3表示不同數(shù)據(jù)前處理方法之間的交互效應(yīng),該公式中的數(shù)據(jù)前處理方法可以是歸一化、標準化、數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)縮放、數(shù)據(jù)平滑、數(shù)據(jù)集成中的多種組合,max表示最大化運算命令。公式2max(p)=α·p1+β·p2+γ·p3+δ·(p1·p2)+θ·(p1·p3)+μ·(p2·p3)+ε步驟2-5:采用步驟2-4優(yōu)化所得的最佳數(shù)據(jù)前處理方法組合,對代謝組學數(shù)據(jù)進行前處理,輸入分類模型,篩選出對疾病分型分類貢獻最大的代謝物數(shù)據(jù)。貢獻最大的代謝物數(shù)據(jù)可以根據(jù)分類模型輸出的每個代謝物的權(quán)重或者貢獻度,自定義設(shè)置閾值進行篩選。例如,如圖3所示,貢獻度值大于2.0的代謝物作為重要代謝物被篩選,進行下一步的數(shù)據(jù)融合。步驟3:將從不同來源的代謝組學數(shù)據(jù)中篩選出的重要代謝物數(shù)據(jù)轉(zhuǎn)換成同一個矩陣。步驟4:再次利用實驗設(shè)計方法優(yōu)化融合后的代謝組學數(shù)據(jù)最佳前處理方法,結(jié)合分類模型對不同的病人進行分型和分類,為醫(yī)生制定個性化的治療策略提供參考,具體包括以下步驟:步驟4-1:通過實驗設(shè)計方法選擇不同數(shù)據(jù)前處理的組合方式,同步驟2-1。步驟4-2:將融合后的代謝組學數(shù)據(jù)按步驟4-1的方式進行數(shù)據(jù)前處理。步驟4-3:將前處理后的數(shù)據(jù)輸入分類模型,并通過實驗設(shè)計方法確定最佳數(shù)據(jù)前處理方案,同步驟2-3。步驟4-4:將融合后的代謝組學數(shù)據(jù)按步驟4-3優(yōu)化的最佳前處理方案進行數(shù)據(jù)前處理,輸入分類模型,建立基于代謝組學數(shù)據(jù)的病人分類模型。本領(lǐng)域技術(shù)人員可以根據(jù)上述方法,編輯程序并開發(fā)相應(yīng)的軟件來實施。融合不同來源的代謝組學數(shù)據(jù),可以增加數(shù)據(jù)信息量,提高對疾病的分型和分類準確性,能夠輔助醫(yī)生更加精準地為病人制定個性化治療方案。本發(fā)明的實施方式與現(xiàn)有方法相比,具有以下優(yōu)點:優(yōu)點1:數(shù)據(jù)前處理對于代謝組學數(shù)據(jù)分析至關(guān)重要,但是面對多種多樣的前處理方法,逐一嘗試必將費時費力,而且不同前處理方法間還存在交互效應(yīng),因此,運用傳統(tǒng)的方法難以確定最佳的數(shù)據(jù)前處理方案。本發(fā)明利用實驗設(shè)計方法設(shè)計不同前處理組合方案,一方面節(jié)省優(yōu)化時間,另一方面還考慮不同方法之間的交互效應(yīng)。優(yōu)點2:本發(fā)明以分類模型性能為導向,利用實驗設(shè)計方法建立與不同數(shù)據(jù)前處理方法間的關(guān)系,通過最大化分類模型性能參數(shù)確定最佳數(shù)據(jù)前處理方案。與傳統(tǒng)方法相比,本發(fā)明提出的方法可以更加準確更有目的性地優(yōu)化代謝組學數(shù)據(jù)前處理方案。優(yōu)點3:本發(fā)明首先優(yōu)化不同來源的代謝組學數(shù)據(jù)的前處理方案,并通過分類模型篩選重要代謝物,最后融合篩選出的重要代謝物。與簡單地將不同來源數(shù)據(jù)疊加的方法相比,本發(fā)明提出的方法融合關(guān)鍵數(shù)據(jù)信息并濾去無用信息,從而降低數(shù)據(jù)維度,提高分類模型的運算速度。優(yōu)點4:本發(fā)明還優(yōu)化了融合后代謝組學數(shù)據(jù)的最佳前處理方案,更進一步提高分類模型的性能。本領(lǐng)域的技術(shù)人員可以理解,雖然本申請是通過描述具體實施方式來闡述本發(fā)明,但是實施方式中一些具體的方法是非限制性的,,比如實驗設(shè)計方法、前處理方法、分類模型、模型性能評價標準、代謝物篩選標準等,可以根據(jù)具體需求和條件進行修改和替換。當前第1頁12
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1