一種基于lda的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊,LDA訓(xùn)練模塊對(duì)LDA模型進(jìn)行訓(xùn)練;主題詞抽取模塊對(duì)圖像的說明文字進(jìn)行LDA建模并抽取主題詞;主題詞精煉模塊對(duì)主題詞集合進(jìn)行優(yōu)化;索引上下文句子模塊索引出與主題詞關(guān)聯(lián)的句子集;上下文生成模塊選取最密切的句子構(gòu)成圖像的上下文;標(biāo)注產(chǎn)生模塊對(duì)圖像的上下文進(jìn)行建模,通過計(jì)算選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。本發(fā)明同時(shí)公開了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法。本發(fā)明一次能生成多個(gè)標(biāo)注詞語,準(zhǔn)確性高,使用關(guān)鍵詞索引來查找相關(guān)圖像,方便快捷,更符合人們文本檢索習(xí)慣。
【專利說明】—種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理【技術(shù)領(lǐng)域】,具體涉及一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著數(shù)字影像技術(shù)的發(fā)展和數(shù)碼相機(jī)等可拍照設(shè)備的日益普及,各種各樣的圖像數(shù)量呈現(xiàn)幾何級(jí)的飛速增長。而同時(shí)互聯(lián)網(wǎng)的快速發(fā)展也使得圖像傳播與共享變得更加快捷。為了有效地組織、查詢與瀏覽如此大規(guī)模的圖像資源,圖像檢索技術(shù)應(yīng)運(yùn)而生,成為計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn)。
[0003]現(xiàn)有的圖像檢索方法主要分為兩種:基于內(nèi)容的圖像檢索(Content-Based ImageRetrieval)和基于文本的圖像檢索(Text-Based Image Retrieval)?;趦?nèi)容的圖像檢索需要用戶提供一幅圖像作為查詢,系統(tǒng)提取圖像的底層視覺特征,如顏色、紋理和形狀等,為圖像建立視覺索引,然后根據(jù)數(shù)據(jù)庫中圖像與查詢間的視覺相似性找出匹配項(xiàng),實(shí)現(xiàn)檢索的目的。由于圖像底層視覺特征與高層語義概念之間存在不一致性,即所謂的“語義鴻溝(Semantic Gap)”,基于內(nèi)容的圖像檢索的性能難以令人滿意。基于文本的圖像檢索,需要對(duì)圖像事先建立文本索引,用戶檢索時(shí)只要提交文本作為查詢,系統(tǒng)根據(jù)文本的相關(guān)性匹配找出相似的圖像返回,這樣對(duì)圖像的檢索就轉(zhuǎn)化為對(duì)文本關(guān)鍵詞的檢索。
[0004]與基于內(nèi)容的圖像檢索相比,基于文本的圖像檢索只需要用戶提交文本關(guān)鍵詞,方便快捷,更受廣大用戶的青睞,由此也成為主流商業(yè)化圖像搜索引擎的主要方式。但是這種方式需要對(duì)圖像建立文本索引,也就是實(shí)現(xiàn)圖像的語義標(biāo)注,這是基于文本的圖像檢索技術(shù)中極具挑戰(zhàn)的一項(xiàng)工作。實(shí)現(xiàn)圖像的語義標(biāo)注,已成為基于文本的圖像檢索技術(shù)的重中之重。一種傳統(tǒng)的方式是進(jìn)行人工標(biāo)注,但是這種方式耗時(shí)費(fèi)力,尤其是面對(duì)大規(guī)模的網(wǎng)絡(luò)圖像時(shí),它顯然已經(jīng)無法勝任。因此,如何擺脫人工干預(yù),并快速、有效地實(shí)現(xiàn)對(duì)圖像的自動(dòng)語義標(biāo)注,變得十分重要。
[0005]為了實(shí)現(xiàn)圖像的自動(dòng)化標(biāo)注,現(xiàn)有技術(shù)已有的一種方法是將圖像進(jìn)行分類,然后把分類的結(jié)果當(dāng)作圖像的標(biāo)注。具體而言,將每個(gè)語義關(guān)鍵詞看成一個(gè)類別標(biāo)記(Label),并基于語料庫訓(xùn)練一些分類器,然后用這些分類器對(duì)未標(biāo)注圖像進(jìn)行分類,所分類別即為該圖像的標(biāo)注。目前已有許多成熟的分類算法,例如支持向量機(jī),隱形馬爾科夫模型等等。
[0006]然而,雖然采用分類的方法進(jìn)行圖像標(biāo)注,依賴于分類算法的準(zhǔn)確性,目前的分類算法雖然準(zhǔn)確性比較高,但仍然會(huì)有一定的誤差。另外,現(xiàn)有的分類算法大多是二元分類器,例如支持向量機(jī),那么對(duì)于有多重標(biāo)注的圖像,就需要設(shè)計(jì)多個(gè)分類器,并對(duì)圖像進(jìn)行多次分類,效率也不高。
[0007]因此,有必要提供一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法來滿足現(xiàn)有需求。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是提供一種準(zhǔn)確性高、方便快捷的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法。
[0009]因此,本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊,所述LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練;所述主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模,然后從所建模型中抽取所有的主題詞;所述主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化;所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;所述上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文;所述標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,所得結(jié)果作為這個(gè)單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
[0010]較佳地,所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字,從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件中抽取節(jié)點(diǎn)的說明文字,將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。
[0011 ] 較佳地,所述訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布,然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
[0012]較佳地,所述主題詞精煉模塊對(duì)主題詞集合的優(yōu)化過程包括:在LDA模型對(duì)生物醫(yī)療圖像的說明文字建模的結(jié)果中,如果主題-單詞分布中某個(gè)主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果生物醫(yī)療圖像的說明文字中不包含某個(gè)主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復(fù)的單詞,將重復(fù)的單詞剔除,只保留一個(gè)。
[0013]較佳地,所述索引上下文句子模塊利用LUCENE檢索工具對(duì)主題詞集合中的每一個(gè)單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。
[0014]較佳地,所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子,如果這個(gè)句子含有其他的主題詞,其得票數(shù)就相應(yīng)的增加,一個(gè)主題詞貢獻(xiàn)一票,然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
[0015]本發(fā)明同時(shí)提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法,包括以下步驟:步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字,組成LDA模型的訓(xùn)練數(shù)據(jù)集;步驟2:對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出單詞對(duì)應(yīng)的主題的分布,然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布;步驟3:對(duì)一副未標(biāo)注圖像,利用訓(xùn)練的LDA模型進(jìn)行建模,選取所有的主題詞,組成主題詞集合;步驟4:對(duì)主題詞集合進(jìn)行優(yōu)化,去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合;步驟5:對(duì)一個(gè)主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個(gè)句子集,記作該主題詞的對(duì)應(yīng)句子集;步驟6:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子,組成該圖像的上下文;步驟7:用訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模,然后將主題-單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個(gè)作為圖像的最終標(biāo)注。
[0016]與現(xiàn)有技術(shù)相比,本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標(biāo)注詞語,準(zhǔn)確性高,并且一次能生成多個(gè)標(biāo)注詞語。實(shí)現(xiàn)生物醫(yī)療圖像的準(zhǔn)確標(biāo)注后,可以使用關(guān)鍵詞索引來查找相關(guān)的圖像,方便快捷,更符合人們文本檢索習(xí)慣。
【專利附圖】
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0018]圖1是本發(fā)明基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖2是本發(fā)明基于LDA的生物醫(yī)療圖像的標(biāo)注方法的流程圖;
[0020]圖3是本發(fā)明實(shí)施例的基于LDA的生物醫(yī)療圖像的標(biāo)注方法的流程圖。
【具體實(shí)施方式】
[0021]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0022]如上所述,本發(fā)明針對(duì)生物醫(yī)療圖像進(jìn)行標(biāo)注,在生物醫(yī)療圖像語料庫中,每張圖像都有一個(gè)對(duì)應(yīng)的文本文件。結(jié)合這種特殊性,提出了一種基于LDA (Latent DirichletAllocation,潛在狄利克雷分配)的生物醫(yī)療圖像的標(biāo)注方法,利用LDA從圖像的說明文字(caption)中提取主題詞,然后根據(jù)這些主題詞從圖像對(duì)應(yīng)的文本文件中抽取上下文,最后再利用LDA對(duì)上下文進(jìn)行建模,所得到的主題詞就作為生物醫(yī)療圖像的最終標(biāo)注。
[0023]具體地,參考圖1,本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊。
[0024]LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練;LDA模型是通過一定的訓(xùn)練數(shù)據(jù)集對(duì)LDA模型進(jìn)行訓(xùn)練,以生成文檔-主題分布和主題-單詞分布。本發(fā)明中LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字。從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件(XML格式)中抽取caption節(jié)點(diǎn)的內(nèi)容,即該圖像的說明文字,所有圖像的說明文字集合在一起,構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。同時(shí)我們將主題個(gè)數(shù)、文檔-主題分布和主題-單詞分布的狄利克雷先驗(yàn)參數(shù)設(shè)置為經(jīng)驗(yàn)值。LDA訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布,然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
[0025]主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模,然后從所建模型(主題分布和單詞分布)中抽取所有的主題詞;對(duì)于一副未標(biāo)注圖像,利用訓(xùn)練模塊所產(chǎn)生的LDA模型對(duì)該圖像的說明文字(caption)進(jìn)行建模,然后從建模的結(jié)果(主題分布和單詞分布)中抽取所有的單詞作為該圖像的主題詞,加入到主題詞集合中。
[0026]主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化,得到最精簡、最有效的主題詞集合。在LDA模型對(duì)圖像的說明文字(caption)建模的結(jié)果中,如果主題-單詞分布中某個(gè)主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果圖像的說明文字中不包含某個(gè)主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復(fù)的單詞,將重復(fù)的單詞剔除,只保留一個(gè)。經(jīng)過這些優(yōu)化操作,從而得到更精煉的主題詞集合。通過主題詞精煉處理,去掉重復(fù)的主題詞,同時(shí)去掉LDA建模結(jié)果中概率為零的主題詞,以及去掉圖像說明文字(caption)中不包含的句子
[0027]索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;索引模塊利用LUCENE作為檢索工具,對(duì)精煉主題詞集合中的每一個(gè)單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。索引過程完成后,對(duì)于每一個(gè)主題詞,都有一個(gè)句子集與之關(guān)聯(lián)??梢岳斫獾兀谒饕舷挛木渥幽K,本發(fā)明實(shí)施例是采用LUCENE來實(shí)現(xiàn)文本檢索,目前也有其他的文本檢索工具,可以代替LUCECE實(shí)現(xiàn)同樣的功能。
[0028]上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文(context),即所有密切句子組成的集合就是上下文。較佳地,所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子,如果這個(gè)句子含有其他的主題詞,其得票數(shù)就相應(yīng)的增加,一個(gè)主題詞貢獻(xiàn)一票,然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
[0029]標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,所得結(jié)果作為這個(gè)單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
[0030]參考圖2,相應(yīng)地,本發(fā)明同時(shí)提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法,包括以下步驟:
[0031]步驟SOl:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字,組成LDA模型的訓(xùn)練數(shù)據(jù)集;
[0032]步驟S02:對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出單詞對(duì)應(yīng)的主題的分布,然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布;
[0033]步驟S03:對(duì)一副未標(biāo)注圖像,利用訓(xùn)練的LDA模型進(jìn)行建模,選取所有的主題詞,組成主題詞集合;
[0034]步驟S04:對(duì)主題詞集合進(jìn)行優(yōu)化,去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合;
[0035]步驟S05:對(duì)一個(gè)主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個(gè)句子集,記作該主題詞的對(duì)應(yīng)句子集;
[0036]步驟S06:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子,組成該圖像的上下文;
[0037]步驟S07:用訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模,然后將主題_單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個(gè)作為圖像的最終標(biāo)注。
[0038]配合參考圖3,作為本發(fā)明一實(shí)施例的基于LDA的生物醫(yī)療圖像標(biāo)注方法的具體操作步驟如下:
[0039]第I步,開始
[0040]第2步,選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集,并從每幅圖像的文本文件中提取CAPTION節(jié)點(diǎn)中的說明文字,組成LDA模型的訓(xùn)練數(shù)據(jù)集;同時(shí),給定主題數(shù)、文檔_主題分布的先驗(yàn)參數(shù)、主題-單詞分布的先驗(yàn)參數(shù)。
[0041]第3步,采用Gibbs采樣算法對(duì)LDA模型進(jìn)行訓(xùn)練;先抽樣出單詞對(duì)應(yīng)的主題的分布,然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布。
[0042]第4步,對(duì)一副未標(biāo)注圖像,利用訓(xùn)練的LDA模型進(jìn)行建模,選取所有的主題詞,組成主題詞集合。
[0043]第5步,對(duì)主題詞集合進(jìn)行優(yōu)化,去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合。
[0044]第6步,對(duì)一個(gè)主題詞,用LUCECE從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個(gè)句子集,記作該主題詞的對(duì)應(yīng)句子集。
[0045]第7步,如果所有的主題詞都有對(duì)應(yīng)句子集,則進(jìn)入第8步,否則進(jìn)入第6步。
[0046]第8步,利用上下文生成算法,從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子,組成該圖像的上下文。
[0047]第9步,用第3步訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模,然后將主題_單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個(gè)作為圖像的最終標(biāo)注。
[0048]第10步,所有未標(biāo)注圖像都進(jìn)行了標(biāo)注,進(jìn)入第11步,否則跳到第4步。
[0049]第11步,結(jié)束。
[0050]與現(xiàn)有技術(shù)相比,本發(fā)明充分利用了生物醫(yī)療圖像的說明文字和所對(duì)應(yīng)的文本信息,從說明文字中挖掘圖像的主題詞,并回溯到圖像所在的文本信息,生成一段上下文,進(jìn)而提取出圖像的標(biāo)注詞。這種方式大大提高了標(biāo)注的準(zhǔn)確性,并能夠一次性生成圖像所關(guān)聯(lián)的多個(gè)標(biāo)注。本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標(biāo)注詞語,準(zhǔn)確性高,并且一次能生成多個(gè)標(biāo)注詞語。實(shí)現(xiàn)生物醫(yī)療圖像的準(zhǔn)確標(biāo)注后,可以使用關(guān)鍵詞索引來查找相關(guān)的圖像,方便快捷,更符合人們文本檢索習(xí)慣。
[0051]以上對(duì)本發(fā)明實(shí)施例所提供的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法,進(jìn)行了詳細(xì)介紹,本發(fā)明中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊,所述LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練;所述主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模,然后從所建模型中抽取所有的主題詞;所述主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化;所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;所述上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文;所述標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,所得結(jié)果作為這個(gè)單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
2.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字,從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件中抽取節(jié)點(diǎn)的說明文字,將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。
3.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,所述訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布,然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
4.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,所述主題詞精煉模塊對(duì)主題詞集合的優(yōu)化過程包括:在LDA模型對(duì)生物醫(yī)療圖像的說明文字建模的結(jié)果中,如果主題-單詞分布中某個(gè)主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果生物醫(yī)療圖像的說明文字中不包含某個(gè)主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復(fù)的單詞,將重復(fù)的單詞剔除,只保留一個(gè)。
5.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,所述索引上下文句子模塊利用LUCENE檢索工具對(duì)主題詞集合中的每一個(gè)單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。
6.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng),其特征在于,所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子,如果這個(gè)句子含有其他的主題詞,其得票數(shù)就相應(yīng)的增加,一個(gè)主題詞貢獻(xiàn)一票,然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
7.一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法,其特征在于,包括以下步驟: 步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字,組成LDA模型的訓(xùn)練數(shù)據(jù)集; 步驟2:對(duì)LDA模型進(jìn)行訓(xùn)練,先抽樣出單詞對(duì)應(yīng)的主題的分布,然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布; 步驟3:對(duì)一副未標(biāo)注圖像,利用訓(xùn)練的LDA模型進(jìn)行建模,選取所有的主題詞,組成主題詞集合; 步驟4:對(duì)主題詞集合進(jìn)行優(yōu)化,去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合; 步驟5:對(duì)一個(gè)主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個(gè)句子集,記作該主題詞的對(duì)應(yīng)句子集; 步驟6:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子,組成該圖像的上下文; 步驟7:用訓(xùn)練的LDA模型 對(duì)上下文進(jìn)行建模,然后將主題-單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個(gè)作為圖像的最終標(biāo)注。
【文檔編號(hào)】G06F17/27GK103942274SQ201410120529
【公開日】2014年7月23日 申請(qǐng)日期:2014年3月27日 優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】林謀廣, 姜濤, 薛凱軍, 肖劍 申請(qǐng)人:東莞中山大學(xué)研究院, 中山大學(xué)