本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理,特別是涉及一種血液病的醫(yī)學(xué)報(bào)告的處理方法。
背景技術(shù):
1、血液病的醫(yī)學(xué)報(bào)告作為臨床實(shí)踐中產(chǎn)生的大量文字報(bào)告或圖片報(bào)告,包含豐富的關(guān)鍵信息;但是,這些關(guān)鍵信息多以非結(jié)構(gòu)化的自由文本形式存在,這給信息提取、數(shù)據(jù)分析及后續(xù)的其他應(yīng)用帶來了極大的挑戰(zhàn)。如何準(zhǔn)確地從血液病的醫(yī)學(xué)報(bào)告中抽取關(guān)鍵信息,是亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于,提供一種血液病的醫(yī)學(xué)報(bào)告的處理方法,以準(zhǔn)確地從血液病的醫(yī)學(xué)報(bào)告中抽取關(guān)鍵信息。
2、根據(jù)本發(fā)明,提供了一種血液病的醫(yī)學(xué)報(bào)告的處理方法,所述方法包括以下步驟:
3、s100,獲取待處理的血液病的醫(yī)學(xué)報(bào)告;所述待處理的血液病的醫(yī)學(xué)報(bào)告包括與血液病的關(guān)聯(lián)特征相關(guān)的信息。
4、s200,如果待處理的血液病的醫(yī)學(xué)報(bào)告為文本格式,則將待處理的血液病的醫(yī)學(xué)報(bào)告確定為目標(biāo)文本;如果待處理的血液病的醫(yī)學(xué)報(bào)告為圖片格式,則對待處理的血液病的醫(yī)學(xué)報(bào)告進(jìn)行ocr識別,將識別后得到的文本確定為目標(biāo)文本。
5、s300,將目標(biāo)文本輸入至經(jīng)訓(xùn)練的大模型,以使經(jīng)訓(xùn)練的大模型輸出與目標(biāo)文本對應(yīng)的標(biāo)簽列表x;x={x1,x2,…,xj,…,xm},xj為與目標(biāo)文本對應(yīng)的血液病的第j個(gè)關(guān)聯(lián)特征的標(biāo)簽,j的取值范圍為1到m,m為血液病的關(guān)聯(lián)特征的數(shù)量。
6、s400,遍歷x,將xj寫入預(yù)設(shè)模板文本中的第j個(gè)位置,得到與待處理的血液病的醫(yī)學(xué)報(bào)告對應(yīng)的結(jié)構(gòu)化文本;所述預(yù)設(shè)模板文本包括血液病的關(guān)聯(lián)特征,所述預(yù)設(shè)模板文本中的第j個(gè)位置與血液病的第j個(gè)關(guān)聯(lián)特征具有對應(yīng)關(guān)系;經(jīng)訓(xùn)練的大模型的訓(xùn)練過程包括:
7、s040,使用初訓(xùn)練大模型獲取驗(yàn)證樣本集的結(jié)構(gòu)化文本集d,d={d1,d2,…,dk,…,dz},dk為使用初訓(xùn)練大模型獲取的第k個(gè)驗(yàn)證樣本的結(jié)構(gòu)化文本,k的取值范圍為1到z,z為驗(yàn)證樣本的數(shù)量;每一驗(yàn)證樣本為血液病的一份醫(yī)學(xué)報(bào)告;驗(yàn)證樣本集包括z個(gè)驗(yàn)證樣本。
8、s050,獲取血液病的關(guān)聯(lián)特征與血液病的皮爾遜相關(guān)系數(shù)p,p={p1,p2,…,pj,…,pm},pj為血液病的第j個(gè)關(guān)聯(lián)特征與血液病的皮爾遜相關(guān)系數(shù)。
9、s060,遍歷p,如果|pj|大于等于第一預(yù)設(shè)值,則保留dk中與血液病的第j個(gè)關(guān)聯(lián)特征相關(guān)的內(nèi)容;否則,刪除dk中與血液病的第j個(gè)關(guān)聯(lián)特征相關(guān)的內(nèi)容;第一預(yù)設(shè)值大于0。
10、s070,獲取根據(jù)第一預(yù)設(shè)值得到的更新后的結(jié)構(gòu)化文本dk,new,并對dk,new進(jìn)行標(biāo)準(zhǔn)化處理;所述標(biāo)準(zhǔn)化處理包括:將文本中出現(xiàn)在標(biāo)簽列表中的標(biāo)簽替換為預(yù)設(shè)字符。
11、s080,根據(jù)經(jīng)標(biāo)準(zhǔn)化處理后的結(jié)構(gòu)化文本d’k,new和經(jīng)訓(xùn)練的第一分類模型判定是否將初訓(xùn)練大模型確定為經(jīng)訓(xùn)練的大模型;所述經(jīng)訓(xùn)練的第一分類模型的數(shù)量大于等于2。
12、進(jìn)一步的,s080包括:
13、s090,如果經(jīng)訓(xùn)練的第一分類模型對d’k,new的輸出結(jié)果一致且經(jīng)訓(xùn)練的第一分類模型的輸出結(jié)果與第k個(gè)驗(yàn)證樣本對應(yīng)的預(yù)設(shè)輸出結(jié)果相同,則將第k個(gè)驗(yàn)證樣本判定為第一類驗(yàn)證樣本;如果經(jīng)訓(xùn)練的第一分類模型對d’k,new的輸出結(jié)果一致且經(jīng)訓(xùn)練的第一分類模型的輸出結(jié)果與第k個(gè)驗(yàn)證樣本對應(yīng)的預(yù)設(shè)輸出結(jié)果不相同,則將第k個(gè)驗(yàn)證樣本判定為第二類驗(yàn)證樣本。
14、s0100,如果驗(yàn)證樣本集中第二類驗(yàn)證樣本與第一類驗(yàn)證樣本的數(shù)量之比小于等于預(yù)設(shè)比例閾值,則將初訓(xùn)練大模型判定為經(jīng)訓(xùn)練的大模型。
15、進(jìn)一步的,s0100還包括:如果驗(yàn)證樣本集中第二類驗(yàn)證樣本與第一類驗(yàn)證樣本的數(shù)量之比大于預(yù)設(shè)比例閾值,則進(jìn)入s0101。
16、s0101,遍歷p,如果|pj|大于等于第二預(yù)設(shè)值,則保留dk中與血液病的第j個(gè)關(guān)聯(lián)特征相關(guān)的內(nèi)容;否則,刪除dk中與血液病的第j個(gè)關(guān)聯(lián)特征相關(guān)的內(nèi)容;所述第二預(yù)設(shè)值小于所述第一預(yù)設(shè)值,所述第二預(yù)設(shè)值大于0。
17、s0102,獲取根據(jù)第二預(yù)設(shè)值得到的更新后的結(jié)構(gòu)化文本ek,new,并對ek,new進(jìn)行標(biāo)準(zhǔn)化處理。
18、s0103,獲取經(jīng)標(biāo)準(zhǔn)化處理后的結(jié)構(gòu)化文本e’k,new,并將e’k,new輸入至經(jīng)訓(xùn)練的第二分類模型;所述經(jīng)訓(xùn)練的第二分類模型的數(shù)量大于等于2。
19、s0104,如果經(jīng)訓(xùn)練的第二分類模型對e’k,new的輸出結(jié)果一致且經(jīng)訓(xùn)練的第二分類模型的輸出結(jié)果與第k個(gè)驗(yàn)證樣本對應(yīng)的預(yù)設(shè)輸出結(jié)果相同,則將第k個(gè)驗(yàn)證樣本判定為第三類驗(yàn)證樣本;如果經(jīng)訓(xùn)練的第二分類模型對e’k,new的輸出結(jié)果一致且經(jīng)訓(xùn)練的第二分類模型的輸出結(jié)果與第k個(gè)驗(yàn)證樣本對應(yīng)的預(yù)設(shè)輸出結(jié)果不相同,則將第k個(gè)驗(yàn)證樣本判定為第四類驗(yàn)證樣本。
20、s0105,如果驗(yàn)證樣本集中第四類驗(yàn)證樣本與第三類驗(yàn)證樣本的數(shù)量之比小于等于預(yù)設(shè)比例閾值,則將初訓(xùn)練大模型判定為經(jīng)訓(xùn)練的大模型。
21、進(jìn)一步的,s0105還包括:如果驗(yàn)證樣本集中第四類驗(yàn)證樣本與第三類驗(yàn)證樣本的數(shù)量之比大于預(yù)設(shè)比例閾值,且目標(biāo)差值的絕對值小于等于預(yù)設(shè)差值閾值,則使用第二訓(xùn)練樣本集對初訓(xùn)練大模型進(jìn)行訓(xùn)練,得到經(jīng)訓(xùn)練的大模型;所述目標(biāo)差值為驗(yàn)證樣本集中第四類驗(yàn)證樣本與第三類驗(yàn)證樣本的數(shù)量之比與驗(yàn)證樣本集中第二類驗(yàn)證樣本與第一類驗(yàn)證樣本的數(shù)量之比的差值。
22、進(jìn)一步的,dk的獲取過程包括:
23、s041,如果第k個(gè)驗(yàn)證樣本為文本格式,則將第k個(gè)驗(yàn)證樣本確定為第k輸入文本;如果第k個(gè)驗(yàn)證樣本為圖片格式,則對第k個(gè)驗(yàn)證樣本進(jìn)行ocr識別,將識別后得到的文本確定為第k輸入文本。
24、s042,將第k輸入文本輸入至初訓(xùn)練大模型,以使初訓(xùn)練大模型輸出與第k輸入文本對應(yīng)的標(biāo)簽列表yk;yk={yk,1,yk,2,…,yk,j,…,yk,m},yk,j為與第k輸入文本對應(yīng)的血液病的第j個(gè)關(guān)聯(lián)特征的標(biāo)簽。
25、s043,遍歷yk,將yk,j寫入預(yù)設(shè)模板文本中的第j個(gè)位置,得到dk。
26、進(jìn)一步的,標(biāo)簽列表中的標(biāo)簽包括陽性、高表達(dá)、+、增高和異常,預(yù)設(shè)字符為陽性。
27、進(jìn)一步的,第一分類模型包括支持向量機(jī)、邏輯回歸和梯度提升樹。
28、進(jìn)一步的,在s040之前,經(jīng)訓(xùn)練的大模型的訓(xùn)練過程包括:
29、s010,獲取第一訓(xùn)練樣本集a,a={a1,a2,…,ai,…,an},ai為第i個(gè)訓(xùn)練樣本,i的取值范圍為1到n,n為第一訓(xùn)練樣本集a中訓(xùn)練樣本的數(shù)量,每一訓(xùn)練樣本為血液病的一份醫(yī)學(xué)報(bào)告。
30、s020,獲取第一訓(xùn)練樣本集對應(yīng)的標(biāo)簽b,b={b1,b2,…,bi,…,bn},bi為ai對應(yīng)的標(biāo)簽,bi={bi,1,bi,2,…,bi,j,…,bi,m},bi,j為ai對應(yīng)的血液病的第j個(gè)關(guān)聯(lián)特征的標(biāo)簽。
31、s030,使用a和b對預(yù)訓(xùn)練大模型進(jìn)行訓(xùn)練,得到初訓(xùn)練大模型。
32、本發(fā)明與現(xiàn)有技術(shù)相比至少具有以下有益效果:
33、本發(fā)明獲取了待處理的血液病的醫(yī)學(xué)報(bào)告后,先判段待處理的血液病的醫(yī)學(xué)報(bào)告的格式,如果是文本格式,則無需進(jìn)行格式轉(zhuǎn)換就輸入經(jīng)訓(xùn)練的大模型;如果是圖片格式,則將待處理的血液病的醫(yī)學(xué)報(bào)告轉(zhuǎn)換為文本格式后再輸入經(jīng)訓(xùn)練的大模型;經(jīng)訓(xùn)練的大模型具有獲取輸入的文本對應(yīng)的血液病的關(guān)聯(lián)特征的標(biāo)簽的能力,由此,將目標(biāo)文本輸入至經(jīng)訓(xùn)練的大模型后可以獲取目標(biāo)文本對應(yīng)的血液病的關(guān)聯(lián)特征的標(biāo)簽,也即待處理的血液病的醫(yī)學(xué)報(bào)告對應(yīng)的血液病的關(guān)聯(lián)特征的標(biāo)簽;進(jìn)一步的,本發(fā)明通過將血液病的每一關(guān)聯(lián)特征的標(biāo)簽寫入預(yù)設(shè)模板文本中對應(yīng)的位置的方法,得到了與待處理的血液病的醫(yī)學(xué)報(bào)告對應(yīng)的結(jié)構(gòu)化文本。本發(fā)明獲取的與待處理的血液病的醫(yī)學(xué)報(bào)告對應(yīng)的結(jié)構(gòu)化文本包括血液病的所有關(guān)聯(lián)特征的標(biāo)簽,實(shí)現(xiàn)了對待處理的血液病的醫(yī)學(xué)報(bào)告中關(guān)鍵信息的提取,基于本發(fā)明獲取的與待處理的血液病的醫(yī)學(xué)報(bào)告對應(yīng)的結(jié)構(gòu)化文本,可以快速得到待處理的血液病的醫(yī)學(xué)報(bào)告中的關(guān)鍵信息。