本發(fā)明涉及醫(yī)療數(shù)據(jù)分析,具體涉及一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng)。
背景技術(shù):
1、基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比是指利用現(xiàn)有的技術(shù)包括機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘和統(tǒng)計(jì)分析等,通過對(duì)電子健康記錄(ehr)、基因組數(shù)據(jù)、影像數(shù)據(jù)和實(shí)時(shí)健康監(jiān)測(cè)數(shù)據(jù)等多源數(shù)據(jù)進(jìn)行集成和處理,從中提取有價(jià)值的信息。但是,在處理和集成多源數(shù)據(jù)時(shí),如果稀有醫(yī)療患者數(shù)據(jù)的樣本數(shù)量不足,可能會(huì)導(dǎo)致分析模型出現(xiàn)對(duì)常見醫(yī)療患者的偏向,忽視稀有醫(yī)療患者。使得模型可能無法正確識(shí)別稀有醫(yī)療患者,導(dǎo)致誤診或漏診,影響患者健康。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),以解決背景技術(shù)中不足。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),包括數(shù)據(jù)獲取模塊、數(shù)據(jù)處理模塊、樣本數(shù)據(jù)增加模塊,模型穩(wěn)定性評(píng)估模塊以及展示模塊;
3、數(shù)據(jù)獲取模塊:用于從各種數(shù)據(jù)源收集相關(guān)的醫(yī)療數(shù)據(jù),并對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理后的醫(yī)療數(shù)據(jù)進(jìn)行稀有醫(yī)療患者特征提取;
4、數(shù)據(jù)處理模塊:根據(jù)提取出的稀有醫(yī)療患者的亞型復(fù)雜度特征和患者樣本數(shù)據(jù)傾斜特征,判斷稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量是否充足;
5、樣本數(shù)據(jù)增加模塊:當(dāng)稀有醫(yī)療患者數(shù)據(jù)數(shù)量不充足時(shí),通過數(shù)據(jù)增強(qiáng)技術(shù)增加稀有醫(yī)療患者樣本的數(shù)量,對(duì)稀有醫(yī)療患者數(shù)據(jù)進(jìn)行過采樣,對(duì)常見醫(yī)療患者數(shù)據(jù)進(jìn)行欠采樣,平衡數(shù)據(jù)集;
6、模型穩(wěn)定性評(píng)估模塊:使用k折交叉驗(yàn)證技術(shù),將數(shù)據(jù)集分成k個(gè)子集,循環(huán)進(jìn)行訓(xùn)練和驗(yàn)證,評(píng)估分析模型的穩(wěn)定性;
7、展示模塊:對(duì)稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的判斷結(jié)果和分析模型的穩(wěn)定性進(jìn)行綜合分析,評(píng)估分析模型醫(yī)療患者識(shí)別結(jié)果的準(zhǔn)確性,并對(duì)其進(jìn)行可視化展示。
8、優(yōu)選的,數(shù)據(jù)處理模塊中,根據(jù)提取出的稀有醫(yī)療患者的亞型復(fù)雜度特征生成亞型分布異常指數(shù),則亞型分布異常指數(shù)的獲取方法為:
9、獲取稀有醫(yī)療患者的臨床數(shù)據(jù)和基因數(shù)據(jù)并標(biāo)注n個(gè)患者的亞型數(shù)量m,選擇與稀有醫(yī)療患者亞型相關(guān)的臨床特征,對(duì)選定的特征進(jìn)行計(jì)算,計(jì)算正常情況下各個(gè)亞型的基線分布,表達(dá)式為:式中,ni為第i個(gè)亞型的患者數(shù),其中i∈{1,2,…,m},qi為每個(gè)亞型i的基線分布,將基線分布建立數(shù)據(jù)集合q={q1,q2,…,qi,…,qn};并計(jì)算當(dāng)前基線分布pi,建立數(shù)據(jù)集合p={p1,p2,…,pi,…,pn};計(jì)算當(dāng)前樣本中各個(gè)亞型的實(shí)際分布頻率,即計(jì)算亞型分布異常指數(shù),具體的計(jì)算表達(dá)式為:式中,dk為亞型分布異常指數(shù)。
10、優(yōu)選的,根據(jù)提取出的患者樣本數(shù)據(jù)傾斜特征生成數(shù)據(jù)類別不平衡指數(shù),則數(shù)據(jù)類別不平衡指數(shù)的獲取方法為:
11、從不同來源收集患者樣本數(shù)據(jù),對(duì)每個(gè)患者樣本進(jìn)行標(biāo)注,確定其所屬的類別,將數(shù)據(jù)集中的樣本數(shù)量標(biāo)記為w,并劃分為k個(gè)類別,統(tǒng)計(jì)每個(gè)類別s的樣本數(shù)量ws;計(jì)算每個(gè)類別的比例,表達(dá)式為:其中,gs表示類別s的樣本比例,計(jì)算期望均勻分布的比例,表達(dá)式為:其中,k表示類別的總數(shù),計(jì)算數(shù)據(jù)類別不平衡指數(shù),表達(dá)式為:其中,yb為數(shù)據(jù)類別不平衡指數(shù)。
12、優(yōu)選的,將亞型分布異常指數(shù)以及數(shù)據(jù)類別不平衡指數(shù)進(jìn)行歸一化處理,通過歸一化處理后的亞型分布異常指數(shù)以及數(shù)據(jù)類別不平衡指數(shù)計(jì)算稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)。
13、優(yōu)選的,將獲取到的稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)與預(yù)先設(shè)置的稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)參考閾值進(jìn)行比較,若充足性評(píng)估系數(shù)大于等于充足性評(píng)估系數(shù)參考閾值,稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量充足,此時(shí)生成數(shù)據(jù)充足信號(hào);若充足性評(píng)估系數(shù)小于充足性評(píng)估系數(shù)參考閾值,稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量不充足,此時(shí)生成數(shù)據(jù)不充足信號(hào)。
14、優(yōu)選的,模型穩(wěn)定性評(píng)估模塊中,使用k折交叉驗(yàn)證技術(shù),將數(shù)據(jù)集分成k個(gè)子集,循環(huán)進(jìn)行訓(xùn)練和驗(yàn)證,評(píng)估分析模型的穩(wěn)定性;
15、從各個(gè)數(shù)據(jù)源收集稀有醫(yī)療患者和常見醫(yī)療患者的患者數(shù)據(jù),包括臨床數(shù)據(jù)和基因數(shù)據(jù),選擇k值,將整個(gè)數(shù)據(jù)集隨機(jī)分成k個(gè)子集,定義用于評(píng)估模型性能的指標(biāo),包括準(zhǔn)確率、精確率、召回率、f1分?jǐn)?shù);
16、將第i個(gè)子集作為驗(yàn)證集,剩余的k-1個(gè)子集合并作為訓(xùn)練集;
17、使用訓(xùn)練集訓(xùn)練模型;
18、使用驗(yàn)證集評(píng)估模型性能,記錄評(píng)估結(jié)果;
19、將k次驗(yàn)證結(jié)果的評(píng)估指標(biāo)分別進(jìn)行收集并建立對(duì)應(yīng)的數(shù)據(jù)集合,計(jì)算各個(gè)數(shù)據(jù)集合的標(biāo)準(zhǔn)差,將各個(gè)數(shù)據(jù)集合的標(biāo)準(zhǔn)差進(jìn)行加權(quán)移動(dòng)平均計(jì)算后計(jì)算模型穩(wěn)定性分析系數(shù)。
20、優(yōu)選的,將獲取到的模型穩(wěn)定性分析系數(shù)與模型穩(wěn)定性分析系數(shù)參考閾值進(jìn)行比較,若模型穩(wěn)定性分析系數(shù)大于等于模型穩(wěn)定性分析系數(shù)參考閾值,模型穩(wěn)定性高,此時(shí)生成模型穩(wěn)定信號(hào);若模型穩(wěn)定性分析系數(shù)小于模型穩(wěn)定性分析系數(shù)參考閾值,模型穩(wěn)定性低,此時(shí)生成模型不穩(wěn)定信號(hào)。
21、優(yōu)選的,展示模塊中,對(duì)稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的判斷結(jié)果和分析模型的穩(wěn)定性進(jìn)行綜合分析,評(píng)估分析模型醫(yī)療患者識(shí)別結(jié)果的準(zhǔn)確性,具體為:
22、將稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)與模型穩(wěn)定性分析系數(shù)作為模糊邏輯的輸入項(xiàng),將分析模型醫(yī)療患者識(shí)別結(jié)果的準(zhǔn)確性作為模糊邏輯的輸出項(xiàng);
23、分別定義稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)與模型穩(wěn)定性分析系數(shù)的模糊集合;
24、制定模糊規(guī)則,將具體數(shù)值轉(zhuǎn)化為模糊值,根據(jù)模糊規(guī)則庫進(jìn)行推理,將模糊值轉(zhuǎn)換為具體數(shù)值輸出。
25、在上述技術(shù)方案中,本發(fā)明提供的技術(shù)效果和優(yōu)點(diǎn):
26、1、本發(fā)明通過整合多源醫(yī)療數(shù)據(jù)并對(duì)稀有疾病患者數(shù)據(jù)進(jìn)行特征提取和評(píng)估,解決了樣本數(shù)量不足導(dǎo)致的模型偏向問題。通過數(shù)據(jù)增強(qiáng)技術(shù)增加稀有疾病樣本數(shù)量,并對(duì)常見疾病樣本進(jìn)行欠采樣,有效平衡數(shù)據(jù)集。同時(shí),使用k折交叉驗(yàn)證技術(shù)評(píng)估和優(yōu)化模型穩(wěn)定性,并通過模糊邏輯綜合分析模型的準(zhǔn)確性,為臨床決策提供可靠依據(jù)。
27、2、本發(fā)明不僅提升了稀有疾病識(shí)別的準(zhǔn)確性和模型的魯棒性,還能直觀地展示數(shù)據(jù)樣本數(shù)量和模型穩(wěn)定性分析結(jié)果。通過可視化展示,醫(yī)療從業(yè)者能夠更全面地了解模型性能,做出更準(zhǔn)確的治療決策,最終改善患者健康管理效果。
1.一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:包括數(shù)據(jù)獲取模塊、數(shù)據(jù)處理模塊、樣本數(shù)據(jù)增加模塊,模型穩(wěn)定性評(píng)估模塊以及展示模塊;
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:數(shù)據(jù)處理模塊中,根據(jù)提取出的稀有醫(yī)療患者的亞型復(fù)雜度特征生成亞型分布異常指數(shù),則亞型分布異常指數(shù)的獲取方法為:
3.根據(jù)權(quán)利要求2所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:根據(jù)提取出的患者樣本數(shù)據(jù)傾斜特征生成數(shù)據(jù)類別不平衡指數(shù),則數(shù)據(jù)類別不平衡指數(shù)的獲取方法為:
4.根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:將亞型分布異常指數(shù)以及數(shù)據(jù)類別不平衡指數(shù)進(jìn)行歸一化處理,通過歸一化處理后的亞型分布異常指數(shù)以及數(shù)據(jù)類別不平衡指數(shù)計(jì)算稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)。
5.根據(jù)權(quán)利要求4所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:將獲取到的稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)與預(yù)先設(shè)置的稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的充足性評(píng)估系數(shù)參考閾值進(jìn)行比較,若充足性評(píng)估系數(shù)大于等于充足性評(píng)估系數(shù)參考閾值,稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量充足,此時(shí)生成數(shù)據(jù)充足信號(hào);若充足性評(píng)估系數(shù)小于充足性評(píng)估系數(shù)參考閾值,稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量不充足,此時(shí)生成數(shù)據(jù)不充足信號(hào)。
6.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:模型穩(wěn)定性評(píng)估模塊中,使用k折交叉驗(yàn)證技術(shù),將數(shù)據(jù)集分成k個(gè)子集,循環(huán)進(jìn)行訓(xùn)練和驗(yàn)證,評(píng)估分析模型的穩(wěn)定性;
7.根據(jù)權(quán)利要求6所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:將獲取到的模型穩(wěn)定性分析系數(shù)與模型穩(wěn)定性分析系數(shù)參考閾值進(jìn)行比較,若模型穩(wěn)定性分析系數(shù)大于等于模型穩(wěn)定性分析系數(shù)參考閾值,模型穩(wěn)定性高,此時(shí)生成模型穩(wěn)定信號(hào);若模型穩(wěn)定性分析系數(shù)小于模型穩(wěn)定性分析系數(shù)參考閾值,模型穩(wěn)定性低,此時(shí)生成模型不穩(wěn)定信號(hào)。
8.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)分析對(duì)比系統(tǒng),其特征在于:展示模塊中,對(duì)稀有醫(yī)療患者數(shù)據(jù)樣本數(shù)量的判斷結(jié)果和分析模型的穩(wěn)定性進(jìn)行綜合分析,評(píng)估分析模型醫(yī)療患者識(shí)別結(jié)果的準(zhǔn)確性,具體為: