本發(fā)明涉及數(shù)據(jù)挖掘以及人工智能領(lǐng)域,尤其涉及到一種皮膚病理圖像鏡下所見描述文本的生成方法。
背景技術(shù):
:病理圖像是人體組織的切片在顯微鏡下的成像,在皮膚科中由于取材的代價(jià)比較低,且很多屬于該科的疾病及其嚴(yán)重程度均需要通過患病部位的病理圖像進(jìn)行判斷,因而對病理圖像診斷的數(shù)量需求巨大,這給病理實(shí)驗(yàn)室的專業(yè)工作人員帶來了巨大的壓力。皮膚科病理圖像變化多樣,同一張圖像中能夠反映的病理特性眾多,對于病理實(shí)驗(yàn)室人員的專業(yè)知識、讀片經(jīng)驗(yàn)和讀片時(shí)需要花費(fèi)的時(shí)間和精力都是巨大的考驗(yàn)。一般來說,對于每一幅的皮膚病理圖像,病理實(shí)驗(yàn)室人員需要給出一段用于描述送檢組織病理圖像所反映的病理特性的文字,目前是專業(yè)人員在分析每一幅病理圖像之后給出的,之后再根據(jù)病理圖像所反映的病理特性,給出初步的疾病診斷,或者是患有某種皮膚疾病的可能性。這給病理實(shí)驗(yàn)室人員帶來巨大的工作量,大量一般性病例的鏡下所見描述占用了病理實(shí)驗(yàn)室人員的大量時(shí)間和精力,且其判斷受到主觀因素的影響。目前研究人員采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法進(jìn)行圖像描述文本的自動生成。文獻(xiàn)“andrejkarpathy,lifei-fei.deepvisual-semanticalignmentsforgeneratingimagedescriptions.cvpr2015.”提出了一個可以用于自動生成對圖像和其中的局部區(qū)域的文本描述的模型,他們的方法是使用卷積神經(jīng)網(wǎng)絡(luò)對圖像和局部區(qū)域進(jìn)行建模,使用雙向的遞歸神經(jīng)網(wǎng)絡(luò)對描述文本進(jìn)行建模,并使用了一種面向結(jié)構(gòu)化目標(biāo)的策略對上述兩個模型進(jìn)行對齊,以產(chǎn)生最終的描述性文本。該方法的問題在于它本質(zhì)上是基于圖像分類和局部區(qū)域識別的,對圖像和局部區(qū)域的文本描述的生成是通過其進(jìn)行分類而得到的,難以生成復(fù)雜的文本描述,且無法表達(dá)專業(yè)領(lǐng)域中用于描述程度的修飾詞,因而有較大的局限性。除上述方法外,現(xiàn)有的其他方法的不足之處在于其多是圍繞著自然場景圖像的文本描述的自動生成而開展的研究,且絕大多數(shù)的方法都是以是或否具有某種類型圖像的特征而進(jìn)行文本描述的生成,而在病理圖像分析領(lǐng)域中,對圖像所反映出的特征的描述要求更高,故現(xiàn)有方法均不能滿足要求。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種無需占用病理實(shí)驗(yàn)室人員大量時(shí)間和精力、判斷不受主觀因素影響、減輕病理實(shí)驗(yàn)室人員工作量、達(dá)到病理圖像分析的要求的皮膚病理圖像鏡下所見描述文本的生成方法。為實(shí)現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:一種皮膚病理圖像鏡下所見描述文本的生成方法,該方法包括以下步驟:(1)建立病理特性描述;病理特性分為“是否型”病理特性和“等級型”病理特性,建立病理特性類型和描述性質(zhì)以及病理特性在鏡下所見文本描述中的邏輯關(guān)系;(2)設(shè)計(jì)病理特性識別模型;根據(jù)病理特性的類別處理訓(xùn)練數(shù)據(jù)集,設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)作為識別模型;(3)模型訓(xùn)練;采用深度神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)的誤差反向傳播學(xué)習(xí)算法調(diào)整模型的權(quán)值;(4)生成鏡下所見文本。進(jìn)一步地,步驟(2)中所述的深度神經(jīng)網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò),該卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、激活層、全連接層以及輸出層;其中,輸入層接受病理圖像輸入,多個卷積層/激活層組合緊跟輸入層,在最后一個卷積層/激活層組合的輸出上連接多個全連接層和激活層,每個全連接層的維數(shù)為最后一個卷積層/激活層組合輸出維數(shù)的3倍,每個全連接層之后緊跟一個激活層,輸出層與最后一個全連接層連接,使用sigmoid函數(shù),每個輸出單元得到一個在區(qū)間[0,1]之間的實(shí)值輸出值,輸出單元與病理特性一一對應(yīng)。進(jìn)一步地,所述步驟(4)生成鏡下所見文本包括以下步驟:1)把待生成鏡下所見描述的皮膚病理圖像輸入到已完成訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型中;2)輸入模型后得到一個多維的實(shí)值向量,根據(jù)每一維所對應(yīng)的病理特性的性質(zhì)進(jìn)行離散化;3)將每一個離散化后得到的病理特性的文本描述連接成完整的鏡下所見文本描述。進(jìn)一步地,所述離散化,對于“是否型”病理特性時(shí),根據(jù)對應(yīng)的維的輸出值判斷該皮膚病理圖像是否具有該病理特性;對于“等級型”病理特性時(shí),根據(jù)對應(yīng)的維的輸出值判斷該皮膚病理圖像病理特性預(yù)測的等級。進(jìn)一步地,激活層的激活函數(shù)為relu:y=max(x,0),其中x為上一層的輸出,y為本激活層的輸出。進(jìn)一步地,sigmoid函數(shù)為其中x為上一層的輸出,y為sigmoid的輸出。進(jìn)一步地,所述步驟(3)中模型的權(quán)值采用[0,1]之間的隨機(jī)數(shù)進(jìn)行初始化并進(jìn)行多輪訓(xùn)練,所有訓(xùn)練樣本輸入到模型中并且完成權(quán)值調(diào)整為一輪,直到模型的輸出誤差不再下降為止。進(jìn)一步地,所述步驟(2)中處理訓(xùn)練數(shù)據(jù)集時(shí),對于“是否型”病理特性,每一幅用于訓(xùn)練模型的已診斷的皮膚病理圖像設(shè)置一個多維的實(shí)值向量,其中每一維的數(shù)值范圍在[0,1]之間,它的每一維是這樣生成的:若該圖像具有該維對應(yīng)的病理特性,則該維的值在區(qū)間(0.5,1]之間隨機(jī)取值;若該圖像不具有該維對應(yīng)的病理特性,則該維的值在區(qū)間[0,0.5)之間隨機(jī)取值;對于“連續(xù)型”病理特性,每一幅用于訓(xùn)練模型的已診斷的皮膚病理圖像,設(shè)置一個多維的實(shí)值向量,其中每一維的數(shù)值范圍在[0,1]之間,它的每一維是這樣生成的:若該維對應(yīng)的病理特性有多個等級,則這多個等級對應(yīng)的數(shù)值在[0,1]區(qū)間之中均勻分布,其中第1個等級為不具有該病理特性,對應(yīng)的數(shù)值為0,最嚴(yán)重的等級對應(yīng)的數(shù)值為1。本方案原理如下:借助機(jī)器學(xué)習(xí)手段,從對以往皮膚科病理圖像的診斷數(shù)據(jù)中提取鏡下所見描述文本與圖像數(shù)據(jù)之間的關(guān)系,生成皮膚病理圖像鏡下所見描述文本。與現(xiàn)有技術(shù)相比,本方案具有以下優(yōu)點(diǎn)及有益效果:無需占用病理實(shí)驗(yàn)室人員大量時(shí)間和精力、判斷不受主觀因素影響、減輕病理實(shí)驗(yàn)室人員工作量、達(dá)到病理圖像分析的要求。附圖說明圖1為本發(fā)明的流程示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對本發(fā)明作進(jìn)一步說明:參見附圖1所示,本實(shí)施例所述的一種皮膚病理圖像鏡下所見描述文本的生成方法,具體實(shí)施步驟如下:(1)建立病理特性描述;病理特性分為“是否型”病理特性和“等級型”病理特性,首先建立病理特性類型和描述性質(zhì),如表1所示(“描述性質(zhì)”字段里面,y表示“出現(xiàn)該病理特性時(shí)要描述”,n表示“不出現(xiàn)該病理特性時(shí)要描述”,yn表示“兩種情況下都要描述”);表1.病理特性類型和描述性質(zhì)表(部分病理特性)下步建立病理特性邏輯關(guān)系,如表2所示(表2中的序號是對所有病理特性進(jìn)行的編號,必須出現(xiàn)字段表示該字段是否無條件的出現(xiàn)在鏡下所見的文本描述中,“同時(shí)出現(xiàn)的序號”字段表示若該行序號所示的字段出現(xiàn)在描述中,則本字段中的序號所示的字段也要出現(xiàn)在描述中);表2.病理特性在鏡下所見文本描述中的邏輯關(guān)系表序號病理特性名稱類型必須出現(xiàn)同時(shí)出現(xiàn)的序號1角化過度是否型是2,52murno微囊腫是否型否13淋巴細(xì)胞浸潤等級型否14痣細(xì)胞巢是否型否無5淀粉樣變是否型否3(2)設(shè)計(jì)病理特性識別模型;采用卷積神經(jīng)網(wǎng)絡(luò)為識別模型,每一幅皮膚病理圖像的大小為400*400像素,顏色通道為rgb,模型的輸入為一個400*400*3的矩陣,輸出為一個65維實(shí)值向量,代表65個皮膚病理特性;卷積神經(jīng)網(wǎng)絡(luò)各層的結(jié)構(gòu)如表3所示;表3.卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)表(3)模型訓(xùn)練;在matconvnet中通過配置文件實(shí)現(xiàn)表3中的模型結(jié)構(gòu),把數(shù)據(jù)集做成matlab數(shù)據(jù)文件.mat格式,然后使用matconvnet提供的訓(xùn)練腳本cnn_train.m進(jìn)行訓(xùn)練。訓(xùn)練進(jìn)行50輪,每10輪的學(xué)習(xí)率分別為0.05,0.01,0.005,0.001和0.0005。訓(xùn)練的損失函數(shù)采用zero-oneloss。每個模型經(jīng)過50輪訓(xùn)練后,系統(tǒng)會生成50個.mat文件,分別保存了各輪訓(xùn)練結(jié)束時(shí)模型的參數(shù)。(4)生成鏡下所見文本;先把待生成鏡下所見描述的皮膚病理圖像輸入到第50輪訓(xùn)練結(jié)束時(shí)的深度神經(jīng)網(wǎng)絡(luò)模型,得到一個65維的實(shí)值向量,其中每一維的取值范圍在[0,1]之間,每一維代表一個病理特性。離散化每一維,對于“是否型”病理特性,若對應(yīng)的維的輸出值大于0.5,則把該輸出值置為1,表示該皮膚病理圖像具有該病理特性;若對應(yīng)的維的輸出值小于等于0.5,則把該輸出值置為0,表示該皮膚病理圖像不具有該病理特性;對于“等級型”的病理特性,按照該病理特性的特級數(shù)量,把區(qū)間[0,1]分成相應(yīng)數(shù)量的區(qū)間,模型在該維的輸出落在哪個區(qū)間中,就認(rèn)為模型把該病理圖像的該病理特性預(yù)測為該等級。將每一個離散化后得到的病理特性的文本描述連接成完整的鏡下所見文本描述。本實(shí)施例從對以往皮膚科病理圖像的診斷數(shù)據(jù)中提取鏡下所見描述文本與圖像數(shù)據(jù)之間的關(guān)系,生成皮膚病理圖像鏡下所見描述文本,無需占用病理實(shí)驗(yàn)室人員大量時(shí)間和精力、判斷不受主觀因素影響、減輕病理實(shí)驗(yàn)室人員工作量、達(dá)到病理圖像分析的要求。以上所述之實(shí)施例子只為本發(fā)明之較佳實(shí)施例,并非以此限制本發(fā)明的實(shí)施范圍,故凡依本發(fā)明之形狀、原理所作的變化,均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁12