一種基于lda的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法

文檔序號(hào)：6542122閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于lda的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊，LDA訓(xùn)練模塊對(duì)LDA模型進(jìn)行訓(xùn)練；主題詞抽取模塊對(duì)圖像的說明文字進(jìn)行LDA建模并抽取主題詞；主題詞精煉模塊對(duì)主題詞集合進(jìn)行優(yōu)化；索引上下文句子模塊索引出與主題詞關(guān)聯(lián)的句子集；上下文生成模塊選取最密切的句子構(gòu)成圖像的上下文；標(biāo)注產(chǎn)生模塊對(duì)圖像的上下文進(jìn)行建模，通過計(jì)算選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。本發(fā)明同時(shí)公開了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法。本發(fā)明一次能生成多個(gè)標(biāo)注詞語，準(zhǔn)確性高，使用關(guān)鍵詞索引來查找相關(guān)圖像，方便快捷，更符合人們文本檢索習(xí)慣。
【專利說明】—種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理【技術(shù)領(lǐng)域】，具體涉及一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著數(shù)字影像技術(shù)的發(fā)展和數(shù)碼相機(jī)等可拍照設(shè)備的日益普及，各種各樣的圖像數(shù)量呈現(xiàn)幾何級(jí)的飛速增長。而同時(shí)互聯(lián)網(wǎng)的快速發(fā)展也使得圖像傳播與共享變得更加快捷。為了有效地組織、查詢與瀏覽如此大規(guī)模的圖像資源，圖像檢索技術(shù)應(yīng)運(yùn)而生，成為計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn)。
[0003]現(xiàn)有的圖像檢索方法主要分為兩種:基于內(nèi)容的圖像檢索(Content-Based ImageRetrieval)和基于文本的圖像檢索(Text-Based Image Retrieval)?；趦?nèi)容的圖像檢索需要用戶提供一幅圖像作為查詢，系統(tǒng)提取圖像的底層視覺特征，如顏色、紋理和形狀等，為圖像建立視覺索引，然后根據(jù)數(shù)據(jù)庫中圖像與查詢間的視覺相似性找出匹配項(xiàng)，實(shí)現(xiàn)檢索的目的。由于圖像底層視覺特征與高層語義概念之間存在不一致性，即所謂的“語義鴻溝(Semantic Gap)”，基于內(nèi)容的圖像檢索的性能難以令人滿意。基于文本的圖像檢索，需要對(duì)圖像事先建立文本索引，用戶檢索時(shí)只要提交文本作為查詢，系統(tǒng)根據(jù)文本的相關(guān)性匹配找出相似的圖像返回，這樣對(duì)圖像的檢索就轉(zhuǎn)化為對(duì)文本關(guān)鍵詞的檢索。
[0004]與基于內(nèi)容的圖像檢索相比，基于文本的圖像檢索只需要用戶提交文本關(guān)鍵詞，方便快捷，更受廣大用戶的青睞，由此也成為主流商業(yè)化圖像搜索引擎的主要方式。但是這種方式需要對(duì)圖像建立文本索引，也就是實(shí)現(xiàn)圖像的語義標(biāo)注，這是基于文本的圖像檢索技術(shù)中極具挑戰(zhàn)的一項(xiàng)工作。實(shí)現(xiàn)圖像的語義標(biāo)注，已成為基于文本的圖像檢索技術(shù)的重中之重。一種傳統(tǒng)的方式是進(jìn)行人工標(biāo)注，但是這種方式耗時(shí)費(fèi)力，尤其是面對(duì)大規(guī)模的網(wǎng)絡(luò)圖像時(shí)，它顯然已經(jīng)無法勝任。因此，如何擺脫人工干預(yù)，并快速、有效地實(shí)現(xiàn)對(duì)圖像的自動(dòng)語義標(biāo)注，變得十分重要。
[0005]為了實(shí)現(xiàn)圖像的自動(dòng)化標(biāo)注，現(xiàn)有技術(shù)已有的一種方法是將圖像進(jìn)行分類，然后把分類的結(jié)果當(dāng)作圖像的標(biāo)注。具體而言，將每個(gè)語義關(guān)鍵詞看成一個(gè)類別標(biāo)記(Label)，并基于語料庫訓(xùn)練一些分類器，然后用這些分類器對(duì)未標(biāo)注圖像進(jìn)行分類，所分類別即為該圖像的標(biāo)注。目前已有許多成熟的分類算法，例如支持向量機(jī)，隱形馬爾科夫模型等等。
[0006]然而，雖然采用分類的方法進(jìn)行圖像標(biāo)注，依賴于分類算法的準(zhǔn)確性，目前的分類算法雖然準(zhǔn)確性比較高，但仍然會(huì)有一定的誤差。另外，現(xiàn)有的分類算法大多是二元分類器，例如支持向量機(jī)，那么對(duì)于有多重標(biāo)注的圖像，就需要設(shè)計(jì)多個(gè)分類器，并對(duì)圖像進(jìn)行多次分類，效率也不高。
[0007]因此，有必要提供一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法來滿足現(xiàn)有需求。

【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是提供一種準(zhǔn)確性高、方便快捷的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法。
[0009]因此，本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊，所述LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練；所述主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模，然后從所建模型中抽取所有的主題詞；所述主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化；所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集；所述上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子，然后集合所有最密切的句子，構(gòu)成生物醫(yī)療圖像的上下文；所述標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模，得到生物醫(yī)療圖像的主題分布和單詞分布，然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，所得結(jié)果作為這個(gè)單詞的權(quán)值，再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序，選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
[0010]較佳地，所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字，從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件中抽取節(jié)點(diǎn)的說明文字，將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。
[0011 ] 較佳地，所述訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布，然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
[0012]較佳地，所述主題詞精煉模塊對(duì)主題詞集合的優(yōu)化過程包括:在LDA模型對(duì)生物醫(yī)療圖像的說明文字建模的結(jié)果中，如果主題-單詞分布中某個(gè)主題單詞的概率為零，將該單詞從主題詞集合中剔除；如果生物醫(yī)療圖像的說明文字中不包含某個(gè)主題詞，將該單詞從主題詞集中剔除；如果主題詞集合中含有重復(fù)的單詞，將重復(fù)的單詞剔除，只保留一個(gè)。
[0013]較佳地，所述索引上下文句子模塊利用LUCENE檢索工具對(duì)主題詞集合中的每一個(gè)單詞，將其作為查詢條件，檢索出所有包含該主題詞的句子。
[0014]較佳地，所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子，如果這個(gè)句子含有其他的主題詞，其得票數(shù)就相應(yīng)的增加，一個(gè)主題詞貢獻(xiàn)一票，然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子；集合所有主題詞的最密切句子構(gòu)成上下文。
[0015]本發(fā)明同時(shí)提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法，包括以下步驟:步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集，并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字，組成LDA模型的訓(xùn)練數(shù)據(jù)集；步驟2:對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出單詞對(duì)應(yīng)的主題的分布，然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布；步驟3:對(duì)一副未標(biāo)注圖像，利用訓(xùn)練的LDA模型進(jìn)行建模，選取所有的主題詞，組成主題詞集合；步驟4:對(duì)主題詞集合進(jìn)行優(yōu)化，去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞，從而得到精煉主題詞集合；步驟5:對(duì)一個(gè)主題詞，從圖像的文本文件中檢索出包含該單詞的所有句子，組成一個(gè)句子集，記作該主題詞的對(duì)應(yīng)句子集；步驟6:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子，組成該圖像的上下文；步驟7:用訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模，然后將主題-單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，得到的結(jié)果作為單詞的權(quán)值；按降序排序所有單詞，選取前幾個(gè)作為圖像的最終標(biāo)注。
[0016]與現(xiàn)有技術(shù)相比，本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標(biāo)注詞語，準(zhǔn)確性高，并且一次能生成多個(gè)標(biāo)注詞語。實(shí)現(xiàn)生物醫(yī)療圖像的準(zhǔn)確標(biāo)注后，可以使用關(guān)鍵詞索引來查找相關(guān)的圖像，方便快捷，更符合人們文本檢索習(xí)慣。
【專利附圖】

【附圖說明】
[0017]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0018]圖1是本發(fā)明基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)的結(jié)構(gòu)示意圖；
[0019]圖2是本發(fā)明基于LDA的生物醫(yī)療圖像的標(biāo)注方法的流程圖；
[0020]圖3是本發(fā)明實(shí)施例的基于LDA的生物醫(yī)療圖像的標(biāo)注方法的流程圖。
【具體實(shí)施方式】
[0021]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0022]如上所述，本發(fā)明針對(duì)生物醫(yī)療圖像進(jìn)行標(biāo)注，在生物醫(yī)療圖像語料庫中，每張圖像都有一個(gè)對(duì)應(yīng)的文本文件。結(jié)合這種特殊性，提出了一種基于LDA (Latent DirichletAllocation，潛在狄利克雷分配)的生物醫(yī)療圖像的標(biāo)注方法，利用LDA從圖像的說明文字(caption)中提取主題詞，然后根據(jù)這些主題詞從圖像對(duì)應(yīng)的文本文件中抽取上下文，最后再利用LDA對(duì)上下文進(jìn)行建模，所得到的主題詞就作為生物醫(yī)療圖像的最終標(biāo)注。
[0023]具體地，參考圖1，本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊。
[0024]LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練；LDA模型是通過一定的訓(xùn)練數(shù)據(jù)集對(duì)LDA模型進(jìn)行訓(xùn)練，以生成文檔-主題分布和主題-單詞分布。本發(fā)明中LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字。從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件(XML格式)中抽取caption節(jié)點(diǎn)的內(nèi)容，即該圖像的說明文字，所有圖像的說明文字集合在一起，構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。同時(shí)我們將主題個(gè)數(shù)、文檔-主題分布和主題-單詞分布的狄利克雷先驗(yàn)參數(shù)設(shè)置為經(jīng)驗(yàn)值。LDA訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布，然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
[0025]主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模，然后從所建模型(主題分布和單詞分布)中抽取所有的主題詞；對(duì)于一副未標(biāo)注圖像，利用訓(xùn)練模塊所產(chǎn)生的LDA模型對(duì)該圖像的說明文字(caption)進(jìn)行建模，然后從建模的結(jié)果(主題分布和單詞分布)中抽取所有的單詞作為該圖像的主題詞，加入到主題詞集合中。
[0026]主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化，得到最精簡、最有效的主題詞集合。在LDA模型對(duì)圖像的說明文字(caption)建模的結(jié)果中，如果主題-單詞分布中某個(gè)主題單詞的概率為零，將該單詞從主題詞集合中剔除；如果圖像的說明文字中不包含某個(gè)主題詞，將該單詞從主題詞集中剔除；如果主題詞集合中含有重復(fù)的單詞，將重復(fù)的單詞剔除，只保留一個(gè)。經(jīng)過這些優(yōu)化操作，從而得到更精煉的主題詞集合。通過主題詞精煉處理，去掉重復(fù)的主題詞，同時(shí)去掉LDA建模結(jié)果中概率為零的主題詞，以及去掉圖像說明文字(caption)中不包含的句子
[0027]索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集；索引模塊利用LUCENE作為檢索工具，對(duì)精煉主題詞集合中的每一個(gè)單詞，將其作為查詢條件，檢索出所有包含該主題詞的句子。索引過程完成后，對(duì)于每一個(gè)主題詞，都有一個(gè)句子集與之關(guān)聯(lián)?？梢岳斫獾兀谒饕舷挛木渥幽K，本發(fā)明實(shí)施例是采用LUCENE來實(shí)現(xiàn)文本檢索，目前也有其他的文本檢索工具，可以代替LUCECE實(shí)現(xiàn)同樣的功能。
[0028]上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子，然后集合所有最密切的句子，構(gòu)成生物醫(yī)療圖像的上下文(context)，即所有密切句子組成的集合就是上下文。較佳地，所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子，如果這個(gè)句子含有其他的主題詞，其得票數(shù)就相應(yīng)的增加，一個(gè)主題詞貢獻(xiàn)一票，然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子；集合所有主題詞的最密切句子構(gòu)成上下文。
[0029]標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模，得到生物醫(yī)療圖像的主題分布和單詞分布，然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，所得結(jié)果作為這個(gè)單詞的權(quán)值，再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序，選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
[0030]參考圖2，相應(yīng)地，本發(fā)明同時(shí)提供了一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法，包括以下步驟:
[0031]步驟SOl:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集，并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字，組成LDA模型的訓(xùn)練數(shù)據(jù)集；
[0032]步驟S02:對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出單詞對(duì)應(yīng)的主題的分布，然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布；
[0033]步驟S03:對(duì)一副未標(biāo)注圖像，利用訓(xùn)練的LDA模型進(jìn)行建模，選取所有的主題詞，組成主題詞集合；
[0034]步驟S04:對(duì)主題詞集合進(jìn)行優(yōu)化，去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞，從而得到精煉主題詞集合；
[0035]步驟S05:對(duì)一個(gè)主題詞，從圖像的文本文件中檢索出包含該單詞的所有句子，組成一個(gè)句子集，記作該主題詞的對(duì)應(yīng)句子集；
[0036]步驟S06:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子，組成該圖像的上下文；
[0037]步驟S07:用訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模，然后將主題_單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，得到的結(jié)果作為單詞的權(quán)值；按降序排序所有單詞，選取前幾個(gè)作為圖像的最終標(biāo)注。
[0038]配合參考圖3，作為本發(fā)明一實(shí)施例的基于LDA的生物醫(yī)療圖像標(biāo)注方法的具體操作步驟如下:
[0039]第I步，開始
[0040]第2步，選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集，并從每幅圖像的文本文件中提取CAPTION節(jié)點(diǎn)中的說明文字，組成LDA模型的訓(xùn)練數(shù)據(jù)集；同時(shí)，給定主題數(shù)、文檔_主題分布的先驗(yàn)參數(shù)、主題-單詞分布的先驗(yàn)參數(shù)。
[0041]第3步，采用Gibbs采樣算法對(duì)LDA模型進(jìn)行訓(xùn)練；先抽樣出單詞對(duì)應(yīng)的主題的分布，然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布。
[0042]第4步，對(duì)一副未標(biāo)注圖像，利用訓(xùn)練的LDA模型進(jìn)行建模，選取所有的主題詞，組成主題詞集合。
[0043]第5步，對(duì)主題詞集合進(jìn)行優(yōu)化，去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞，從而得到精煉主題詞集合。
[0044]第6步，對(duì)一個(gè)主題詞，用LUCECE從圖像的文本文件中檢索出包含該單詞的所有句子，組成一個(gè)句子集，記作該主題詞的對(duì)應(yīng)句子集。
[0045]第7步，如果所有的主題詞都有對(duì)應(yīng)句子集，則進(jìn)入第8步，否則進(jìn)入第6步。
[0046]第8步，利用上下文生成算法，從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子，組成該圖像的上下文。
[0047]第9步，用第3步訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模，然后將主題_單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，得到的結(jié)果作為單詞的權(quán)值；按降序排序所有單詞，選取前幾個(gè)作為圖像的最終標(biāo)注。
[0048]第10步，所有未標(biāo)注圖像都進(jìn)行了標(biāo)注，進(jìn)入第11步，否則跳到第4步。
[0049]第11步，結(jié)束。
[0050]與現(xiàn)有技術(shù)相比，本發(fā)明充分利用了生物醫(yī)療圖像的說明文字和所對(duì)應(yīng)的文本信息，從說明文字中挖掘圖像的主題詞，并回溯到圖像所在的文本信息，生成一段上下文，進(jìn)而提取出圖像的標(biāo)注詞。這種方式大大提高了標(biāo)注的準(zhǔn)確性，并能夠一次性生成圖像所關(guān)聯(lián)的多個(gè)標(biāo)注。本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標(biāo)注詞語，準(zhǔn)確性高，并且一次能生成多個(gè)標(biāo)注詞語。實(shí)現(xiàn)生物醫(yī)療圖像的準(zhǔn)確標(biāo)注后，可以使用關(guān)鍵詞索引來查找相關(guān)的圖像，方便快捷，更符合人們文本檢索習(xí)慣。
[0051]以上對(duì)本發(fā)明實(shí)施例所提供的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法，進(jìn)行了詳細(xì)介紹，本發(fā)明中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，包括LDA訓(xùn)練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標(biāo)注產(chǎn)生模塊，所述LDA訓(xùn)練模塊用于對(duì)LDA模型進(jìn)行訓(xùn)練；所述主題詞抽取模塊用于對(duì)每幅生物醫(yī)療圖像的說明文字進(jìn)行LDA建模，然后從所建模型中抽取所有的主題詞；所述主題詞精煉模塊對(duì)所述主題詞抽取模塊所產(chǎn)生的主題詞集合進(jìn)行優(yōu)化；所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集；所述上下文生成模塊從每個(gè)主題詞所對(duì)應(yīng)的句子集中選取一個(gè)最密切的句子，然后集合所有最密切的句子，構(gòu)成生物醫(yī)療圖像的上下文；所述標(biāo)注產(chǎn)生模塊通過LDA訓(xùn)練模塊得到的LDA模型對(duì)生物醫(yī)療圖像的上下文進(jìn)行建模，得到生物醫(yī)療圖像的主題分布和單詞分布，然后將主題-單詞分布中每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，所得結(jié)果作為這個(gè)單詞的權(quán)值，再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序，選取前幾個(gè)單詞作為生物醫(yī)療圖像的標(biāo)注詞。
2.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字，從每幅生物醫(yī)療圖像所對(duì)應(yīng)的文本文件中抽取節(jié)點(diǎn)的說明文字，將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓(xùn)練數(shù)據(jù)集。
3.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，所述訓(xùn)練模塊采用Gibbs采樣方法對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出每個(gè)單詞所對(duì)應(yīng)主題的分布，然后根據(jù)這個(gè)分布推算出文檔-主題分布和主題-單詞分布。
4.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，所述主題詞精煉模塊對(duì)主題詞集合的優(yōu)化過程包括:在LDA模型對(duì)生物醫(yī)療圖像的說明文字建模的結(jié)果中，如果主題-單詞分布中某個(gè)主題單詞的概率為零，將該單詞從主題詞集合中剔除；如果生物醫(yī)療圖像的說明文字中不包含某個(gè)主題詞，將該單詞從主題詞集中剔除；如果主題詞集合中含有重復(fù)的單詞，將重復(fù)的單詞剔除，只保留一個(gè)。
5.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，所述索引上下文句子模塊利用LUCENE檢索工具對(duì)主題詞集合中的每一個(gè)單詞，將其作為查詢條件，檢索出所有包含該主題詞的句子。
6.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標(biāo)注系統(tǒng)，其特征在于，所述最密切的句子選取過程包括:遍歷包含其中一個(gè)主題詞的每個(gè)句子，如果這個(gè)句子含有其他的主題詞，其得票數(shù)就相應(yīng)的增加，一個(gè)主題詞貢獻(xiàn)一票，然后選取得票數(shù)最高的句子作為這個(gè)主題詞的最密切句子；集合所有主題詞的最密切句子構(gòu)成上下文。
7.一種基于LDA的生物醫(yī)療圖像的標(biāo)注方法，其特征在于，包括以下步驟: 步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓(xùn)練集，并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點(diǎn)中的說明文字，組成LDA模型的訓(xùn)練數(shù)據(jù)集；步驟2:對(duì)LDA模型進(jìn)行訓(xùn)練，先抽樣出單詞對(duì)應(yīng)的主題的分布，然后進(jìn)一步計(jì)算文檔-主題分布和主題-單詞分布；步驟3:對(duì)一副未標(biāo)注圖像，利用訓(xùn)練的LDA模型進(jìn)行建模，選取所有的主題詞，組成主題詞集合；步驟4:對(duì)主題詞集合進(jìn)行優(yōu)化，去除其中重復(fù)的單詞、概率為零的單詞和不在說明文字中單詞，從而得到精煉主題詞集合；步驟5:對(duì)一個(gè)主題詞，從圖像的文本文件中檢索出包含該單詞的所有句子，組成一個(gè)句子集，記作該主題詞的對(duì)應(yīng)句子集；步驟6:從每個(gè)主題詞的對(duì)應(yīng)句子集中選取最密切的句子，組成該圖像的上下文；步驟7:用訓(xùn)練的LDA模型對(duì)上下文進(jìn)行建模，然后將主題-單詞分布中的每個(gè)單詞的概率乘以對(duì)應(yīng)主題的概率，得到的結(jié)果作為單詞的權(quán)值；按降序排序所有單詞，選取前幾個(gè)作為圖像的最終標(biāo)注。
【文檔編號(hào)】G06F17/27GK103942274SQ201410120529
【公開日】2014年7月23日申請(qǐng)日期:2014年3月27日優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】林謀廣, 姜濤, 薛凱軍, 肖劍申請(qǐng)人:東莞中山大學(xué)研究院, 中山大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林謀廣;姜濤;薛凱軍;肖劍
技術(shù)所有人：東莞中山大學(xué)研究院;中山大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像標(biāo)注工具相關(guān)技術(shù)

圖像標(biāo)注相關(guān)技術(shù)

圖像自動(dòng)標(biāo)注相關(guān)技術(shù)

圖像標(biāo)注工具labelimg相關(guān)技術(shù)

圖像語義標(biāo)注相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于lda的生物醫(yī)療圖像的標(biāo)注系統(tǒng)及方法