一種基于圖熵的醫(yī)學(xué)圖像聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于醫(yī)療信息技術(shù)領(lǐng)域,具體涉及一種基于圖熵的醫(yī)學(xué)圖像聚類方法。
【背景技術(shù)】
[0002] 借著科學(xué)技術(shù)飛速發(fā)展的東風(fēng),醫(yī)療衛(wèi)生事業(yè)的現(xiàn)代化程度不斷加深。醫(yī)學(xué)影像 技術(shù),如:電子計(jì)算機(jī)X射線斷層掃描技術(shù)(CT)、正電子發(fā)射計(jì)算機(jī)斷層掃描技術(shù)(PET)、核 磁共振成像技術(shù)(MRI)等可輔助醫(yī)生對病人的病情進(jìn)行診斷,其在臨床診斷的過程中得到 大量使用,因此醫(yī)院每天都會產(chǎn)生大量的醫(yī)學(xué)圖像。如何利用好這些醫(yī)學(xué)圖像,從這些圖像 的背后發(fā)掘出有價(jià)值的信息,以方便醫(yī)生對病人的病情進(jìn)行診斷,是當(dāng)前對醫(yī)學(xué)圖像進(jìn)行 數(shù)據(jù)挖掘的熱點(diǎn)。目前,對于醫(yī)學(xué)圖像的數(shù)據(jù)挖掘研究主要集中在對醫(yī)學(xué)圖像進(jìn)行分類、聚 類、相似性搜索以及關(guān)聯(lián)規(guī)則等方面。
[0003] 聚類是數(shù)據(jù)挖掘領(lǐng)域一個(gè)重要組成部分,同時(shí)其在模式識別、生物學(xué)、圖像處理、 Web信息檢索等方面也有著廣泛應(yīng)用。如在圖像檢索領(lǐng)域中,通過圖像聚類對圖像進(jìn)行聚類 預(yù)處理可以提高圖像的檢索性能。在醫(yī)學(xué)圖像分析領(lǐng)域中,通常會使用分類方法將醫(yī)學(xué)圖 像分成若干個(gè)類目,如:利用貝葉斯隨機(jī)變量選擇方法對大量的基因數(shù)據(jù)進(jìn)行分類;使用 關(guān)聯(lián)規(guī)則和決策樹的混合方法對腦部CT圖像中是否含有腫瘤進(jìn)行分類。然而隨著存儲的 醫(yī)學(xué)圖像數(shù)量的不斷增加,具有不同病理特征的腦部CT圖像也會隨之增加,分類方法需要 提前對醫(yī)學(xué)圖像所要分成的類目數(shù)量進(jìn)行指定已經(jīng)不能準(zhǔn)確刻畫既有醫(yī)學(xué)圖像的特征。這 時(shí),通過使用聚類方法將醫(yī)學(xué)圖像按其既有特征劃分成若干個(gè)類目是一個(gè)很好的選擇,目 前,聚類方法在對圖像進(jìn)行分割及圖像聚類等方面得到了一定的應(yīng)用,如:使用模糊C-均 值(FCM)聚類算法對圖像進(jìn)行分割;采用k-均值聚類方法對MRI圖像進(jìn)行分割;使用k-均 值及模糊k-均值方法對圖像進(jìn)行聚類;使用局部判別模型和全局融合的方法對圖像進(jìn)行 聚類等。然而以上這些算法在應(yīng)用的過程中需要指定參數(shù),并且對參數(shù)的選取也很敏感。因 此,對不需提前指定類別數(shù)目的醫(yī)學(xué)圖像聚類方法進(jìn)行研究,有很高的實(shí)際意義和應(yīng)用價(jià) 值。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提出一種基于圖熵的能夠縮短醫(yī)學(xué)圖像聚類時(shí)間并保證準(zhǔn)確率 的基于圖熵的醫(yī)學(xué)圖像聚類方法。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0006] (1)待聚類圖像提出聚類請求:待聚類圖像為原始醫(yī)學(xué)圖像數(shù)據(jù);
[0007] (2)圖像預(yù)處理過程:對原始醫(yī)學(xué)圖像提取感興趣區(qū)域,計(jì)算圖像ROI區(qū)域的灰度 直方圖,得到圖像ROI區(qū)域的灰度直方圖的波谷列表,根據(jù)波谷列表對圖像分級提取紋理 特征,將得到的分級紋理圖像規(guī)范化到統(tǒng)一的大小,之后將此紋理圖像分區(qū)域,通過比較兩 張紋理圖像對應(yīng)區(qū)域的直方圖的差值之和,來衡量醫(yī)學(xué)圖像之間的相似程度;
[0008] (3)圖的稀疏化:將醫(yī)學(xué)圖像集抽象成帶權(quán)無向完全圖,之后對其進(jìn)行稀疏化剪 枝處理;
[0009] (4)基于圖熵的帶權(quán)無向圖聚類:計(jì)算帶權(quán)無向圖中頂點(diǎn)熵和圖熵,并在此基礎(chǔ) 上為圖熵的帶權(quán)無向圖聚類;
[0010] (5)展示結(jié)果。
[0011] 所述的圖的稀疏化過程為:首先將醫(yī)學(xué)圖像集抽象成圖,其中,每個(gè)頂點(diǎn)代表一張 醫(yī)學(xué)圖像,醫(yī)學(xué)圖像之間的相似度作為頂點(diǎn)之間所連邊上的權(quán)值,所夠成的圖是一個(gè)帶權(quán) 無向完全圖;之后根據(jù)稀疏因子e,e的取值范圍是[0, 1],每個(gè)頂點(diǎn)將會保留[cf]條邊,其 中d為該頂點(diǎn)原有邊的數(shù)量;當(dāng)邊在稀疏化過程中被其兩個(gè)端點(diǎn)均保留時(shí),則此邊將繼續(xù) 保留在圖中,否則將從圖中刪除;此時(shí)圖中所留下的邊為兩個(gè)頂點(diǎn)在剪枝過程中均要保留 的公共邊。
[0012] 所述的基于圖熵的帶權(quán)無向圖聚類:計(jì)算帶權(quán)無向圖中頂點(diǎn)熵和圖熵;在形成每 個(gè)簇的過程中,通過使在此簇的件下圖熵的值達(dá)到最小來優(yōu)化此簇的結(jié)果,迭代上述過程 來形成聚類結(jié)果集合C 1. . . Cn。
[0013] 本發(fā)明的有益效果在于:
[0014] 本發(fā)明提出利用圖熵的方法對醫(yī)學(xué)圖像進(jìn)行聚類,通過將醫(yī)學(xué)圖像集抽象成完全 圖,之后對其進(jìn)行稀疏化剪枝處理,所留下的邊說明兩張圖像均認(rèn)為與對方很相似,最后提 出帶權(quán)無向圖的聚類方法。通過以上過程對醫(yī)學(xué)圖像進(jìn)行聚類,可以有效的降低聚類時(shí)間 而且聚類的準(zhǔn)確率也沒有明顯的降低,利用這種方法可以輔助醫(yī)生在日常工作中對病人的 病情進(jìn)行診斷。
【附圖說明】
[0015] 圖1是帶權(quán)無向圖中頂點(diǎn)熵和圖熵計(jì)算方法舉例;
[0016] 圖2(a)是腦部CT紋理圖像構(gòu)建帶權(quán)無向完全圖的過程;
[0017] 圖2(b)是帶權(quán)無向完全圖剪枝過程;
[0018] 圖2(c)是剪枝完成之后的圖;
[0019] 圖2(d)是圖2(c)的同構(gòu)圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和具體實(shí)施對本發(fā)明作進(jìn)一步的說明:
[0021] 本發(fā)明包括如下步驟:
[0022] (1)圖像預(yù)處理過程:對原始醫(yī)學(xué)圖像提取感興趣區(qū)域(ROI,Region Of Interest),計(jì)算圖像ROI區(qū)域的灰度直方圖,得到圖像ROI區(qū)域的灰度直方圖的波谷列 表,根據(jù)波谷列表對圖像分級提取紋理特征,根據(jù)實(shí)際需要將得到的分級紋理圖像規(guī)范化 到統(tǒng)一的大小,之后將此紋理圖像分成若干區(qū)域,通過比較兩張圖像對應(yīng)區(qū)域的LBP (Local Binary Patterns)直方圖的差值之和,來衡量醫(yī)學(xué)圖像之間的相似程度;
[0023] (2)圖的稀疏化過程:將醫(yī)學(xué)圖像集抽象成帶權(quán)無向完全圖,之后對其進(jìn)行稀疏 化剪枝處理;
[0024] (3)基于圖熵的帶權(quán)無向圖聚類方法:給出帶權(quán)無向圖中頂點(diǎn)熵和圖熵的計(jì)算方 法,并在此基礎(chǔ)上提出了基于圖熵的帶權(quán)無向圖聚類方法;
[0025] 進(jìn)一步的1.基于圖熵的醫(yī)學(xué)圖像聚類方法,其特征在于,包括如下步驟:
[0026] I. 1待聚類圖像提出聚類請求:待聚類圖像為原始醫(yī)學(xué)圖像數(shù)據(jù);
[0027] 1.2圖像預(yù)處理過程:對原始醫(yī)學(xué)圖像提取感興趣區(qū)域(ROI,Region Of Interest),計(jì)算圖像ROI區(qū)域的灰度直方圖,得到圖像ROI區(qū)域的灰度直方圖的波谷列表, 根據(jù)波谷列表對圖像分級提取紋理特征,根據(jù)實(shí)際需要將得到的分級紋理圖像規(guī)范化到統(tǒng) 一的大小,之后將此紋理圖像分成若干區(qū)域,通過比較兩張紋理圖像對應(yīng)區(qū)域的LBP (Local Binary Patterns)直方圖的差值之和,來衡量醫(yī)學(xué)圖像之間的相似程度;
[0028] 1. 3圖的稀疏化:將醫(yī)學(xué)圖像集抽象成帶權(quán)無向完全圖,之后對其進(jìn)行稀疏化剪 枝處理;
[0029] 1.4基于圖熵的帶權(quán)無向圖聚類方法:給出帶權(quán)無向圖中頂點(diǎn)熵和圖熵的計(jì)算方 法,并在此基礎(chǔ)上提出了基于圖熵的帶權(quán)無向圖聚類方法;
[0030] 1. 5展示結(jié)果:基于圖熵的帶權(quán)無向圖聚類方法將原始圖像數(shù)據(jù)庫中的圖像實(shí)現(xiàn) 聚類。
[0031] 所述的圖稀疏化過程為:首先將醫(yī)學(xué)圖像集抽象成圖,其中,每個(gè)頂點(diǎn)代表一張醫(yī) 學(xué)圖像,醫(yī)學(xué)圖像之間的相似度作為頂點(diǎn)之間所連邊上的權(quán)值,所夠成的圖是一個(gè)帶權(quán)無 向完全圖。之后,根據(jù)稀疏因子e的選取情況(e的取值范圍是[0, 1]),每個(gè)頂點(diǎn)將會保留 條邊,其中d為該頂點(diǎn)原有邊的數(shù)量。當(dāng)邊在稀疏化過程中被其兩個(gè)端點(diǎn)均保留時(shí),則 此邊將繼續(xù)保留在圖中,否則將從圖中刪除。此時(shí)圖中所留下的邊為兩個(gè)頂點(diǎn)在剪枝過程 中均要保留的公共邊。
[0032] 所述的基于圖熵的帶權(quán)無向圖聚類方法為:首先,給出帶權(quán)無向圖中頂點(diǎn)熵和圖 熵的計(jì)算方法;之后,在形成每個(gè)簇的過程中,通過使在此簇的件下圖熵的值達(dá)到最小來優(yōu) 化此簇的結(jié)果,迭代上述過程來形成聚類結(jié)果集合C 1. .. Cn。
[0033] 本發(fā)明的具體內(nèi)容包括:
[0034] 首先對醫(yī)學(xué)圖像進(jìn)行預(yù)處理:
[0035] 1.對原始圖像庫中的每一張?jiān)嫉哪X部CT圖像提取ROI區(qū)域;
[0036] 2.截取ROI區(qū)域并校正;
[0037] 3.計(jì)算圖像ROI區(qū)域灰度直方圖的波谷分布情況,得到灰度直方圖的波谷表;
[0038] 4.按照波谷表設(shè)置閾值對圖像多次提取紋理,從而得到多級紋理圖像;
[0039] 5.最后將多級紋理圖像規(guī)范化為大小為COLUMNXROW的圖像;
[0040] 6.計(jì)算每張紋理圖像中紋理點(diǎn)的LBP值;
[0041] 7.對紋理圖像進(jìn)行分區(qū),得到每個(gè)區(qū)域的LBP直方圖;
[0042] 8.通過計(jì)算兩張紋理圖像間對應(yīng)區(qū)域LBP直方圖差值的和,來獲得圖像之間相似 性權(quán)值;
[0043] 經(jīng)過以上過程,每兩張醫(yī)學(xué)圖像都會進(jìn)行相似度權(quán)值計(jì)算,得到對應(yīng)的權(quán)值。將這 些醫(yī)學(xué)圖像抽象成一個(gè)帶權(quán)無向完全圖,利用稀疏化方法對每個(gè)頂點(diǎn)的邊進(jìn)行稀疏化剪枝 處理,之后定義帶權(quán)無向圖中頂點(diǎn)熵和圖熵,并給出基于圖熵的帶權(quán)無向圖聚類方法,通過 此方法得到醫(yī)學(xué)圖像的聚類結(jié)果;
[0044] 具體的一次圖像聚類過程如下:
[0045] 1.對待聚類的醫(yī)學(xué)圖像進(jìn)行預(yù)處理,先得到每張醫(yī)學(xué)圖像對應(yīng)的紋理圖像,之后 得到醫(yī)學(xué)圖像間的相似性權(quán)值;
[0046] 2.將此醫(yī)學(xué)圖像集抽象成一個(gè)帶權(quán)無向完全圖G,將圖中的所有邊按照升序進(jìn)行 排列,之后選取稀疏因子e (e的取值范圍是[0, 1]),保留每個(gè)頂點(diǎn)的前丨,1條權(quán)值最小的邊 (d為該頂點(diǎn)之前所含有邊的數(shù)量),以此來對此圖進(jìn)行稀疏化剪枝處理,邊被保留的下規(guī) 則是如果在此稀疏化過程中,該邊被其兩個(gè)端點(diǎn)均保留,則此邊留下,否則將此邊從圖中刪 除。
[0047] 3.構(gòu)建種子頂點(diǎn)候選集S,初始的S中為圖中的所有頂點(diǎn)。第一步,從種子頂點(diǎn) 候選集S中任意選取一個(gè)頂點(diǎn)作為種子頂點(diǎn),將此頂點(diǎn)和它的鄰居頂點(diǎn)一起構(gòu)成初始的 種子簇C,通過以下公式:
來計(jì)算每個(gè)頂點(diǎn)熵以及圖熵。如果從簇C中移除種子頂點(diǎn)的某個(gè) 鄰居頂點(diǎn)會使圖G的熵變小,那么將此鄰居頂點(diǎn)移除,迭代第一步直到圖G的熵不能再變小 為止。第二步,如果將簇C的某個(gè)外邊界頂點(diǎn)(即與簇C的頂點(diǎn)相連又不在C中的頂點(diǎn)) 加入到簇中會使圖G的熵繼續(xù)變小,則將此頂點(diǎn)加入到簇C中,迭代第二步,直到圖G的熵 不能再繼續(xù)變小為止。第三步,此時(shí)所得到的簇C就是聚類結(jié)果中的一個(gè)簇,將此簇中的頂 點(diǎn)從種子頂點(diǎn)候選集中刪去。迭代第一、第二、第三步,直到種子頂點(diǎn)候選集S為空才停止, 此時(shí)已將圖G聚類完畢。
[0048] 以上實(shí)例表明,本發(fā)明提出的基于圖熵的醫(yī)學(xué)圖像聚類方法具有實(shí)際的應(yīng)用價(jià) 值。
[0049] 本發(fā)明還有這樣一些技術(shù)特征:
[0050] 1. 一些定義和定理:
[0051] 定義1. 一個(gè)帶權(quán)圖是一個(gè)三元組G = (V,E, W),其中V = Iv1, v2. . . vj是頂點(diǎn)集,E ={e。|l<i<n,Kj<n,且i GV,j GV}是 VXV 的邊集,W = (Wij |l<i<n,l<j<n 且i e V,j e V}為邊集E上的權(quán)值集合,Wlj表示頂點(diǎn)V i和頂點(diǎn)V #目連的邊e U上的權(quán)值。
[0052] 其中,頂點(diǎn)集中的每個(gè)頂點(diǎn)代表一張醫(yī)學(xué)圖像,邊集代表每兩張醫(yī)學(xué)圖像的相似 性關(guān)系,權(quán)值集合的元素為醫(yī)學(xué)圖像之間的相似性權(quán)值。
[0053] 定理:當(dāng)稀疏因子e辛1時(shí),經(jīng)過稀疏化剪枝處理后得到的圖G'中,每個(gè)頂點(diǎn)\相 比其原圖G中所對應(yīng)的頂點(diǎn),至少會減少一條邊。
[0054] 這個(gè)定