国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法與流程

      文檔序號:11143396閱讀:1070來源:國知局
      一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法與制造工藝

      本發(fā)明涉及圖像語義理解、深度學習領域,特別是一種基于深度殘差網(wǎng)絡和LSTM(Long Short-term Memory)的圖像理解方法。



      背景技術:

      圖像理解是指對圖像語義的理解。它是以圖像為對象,知識為核心,研究圖像中何位置有何目標、目標之間的相互關系、圖像是何場景的一門科學。

      圖像理解輸入的是圖像數(shù)據(jù),輸出的是知識,屬于圖像處理研究領域的高層內(nèi)容。其重點是在圖像目標識別的基礎上進一步研究圖像中各目標的性質(zhì)及其相互關系,并得出對圖像內(nèi)容含義的理解以及對原來客觀場景的解釋,進而指導和規(guī)劃行為。

      目前常用的圖像理解方法主要是基于底層特征與分類器相結合的方法,先使用小波變換、尺度不變特征變換(SIFT)、邊緣提取等圖像處理算法對圖像進行特征提取,然后使用潛在狄利克雷分布(LDA)、隱馬爾科夫模型(HMM)、支持向量機(SVM)等圖像識別和推理算法對提取出的特征進行分類識別并建立語義模型。從算法實現(xiàn)上來看,目前常用的圖像理解算法存在泛化性差、魯棒性低、局部依賴性強、實現(xiàn)困難、識別率低等缺點。



      技術實現(xiàn)要素:

      本發(fā)明公布了一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法,該方法利用了深度殘差網(wǎng)絡在圖像特征提取和LSTM對時序序列建模方面的優(yōu)勢,深度殘差網(wǎng)絡和LSTM模型成了一個編碼-解碼框架,將圖像內(nèi)容信息轉(zhuǎn)化成自然語言,達到提取圖像的深層次信息的目的。

      本發(fā)明的目的通過以下的技術方案實現(xiàn):基于深度殘差網(wǎng)絡和LSTM的圖像理解方法,其特征在于:應用于從輸入圖像中提取抽象特征的深度殘差網(wǎng)絡模型、根據(jù)抽象特征生成自然語言的LSTM模型;具體包括如下步驟:

      S1:下載訓練數(shù)據(jù)集;

      S2:對步驟S1數(shù)據(jù)集中的數(shù)據(jù)進行預處理;

      S3:訓練深度殘差網(wǎng)絡模型;

      S4:訓練LSTM模型;

      S5:用步驟S3中訓練好的深度殘差網(wǎng)絡模型提取待識別圖像的抽象特征;

      S6:將步驟S5中提取的特征輸入到步驟S4訓練好的LSTM模型中,LSTM模型根據(jù)特征生成自然語言。

      優(yōu)選的,步驟S1中下載訓練數(shù)據(jù)集:分別從http://www.image-net.org、http://mscoco.org這兩個網(wǎng)站下載ImageNet、MS-COCO公共圖像數(shù)據(jù)集;ImageNet數(shù)據(jù)集分為訓練圖像集和測試圖像集,MS-COCO數(shù)據(jù)集分為訓練圖像集合測試圖像集,對應的,每張圖片有5個用于描述其內(nèi)容信息的自然語言語句。

      優(yōu)選的,步驟S2預處理包括對ImageNet數(shù)據(jù)集和MS-COCO數(shù)據(jù)集兩種情況:

      對于ImageNet數(shù)據(jù)集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-類別”對作為一個數(shù)據(jù);

      對于MS-COCO數(shù)據(jù)集,預處理的步驟如下:

      S2.1、將每一個自然語言語句與其對應的圖像成對保存,一個“圖像-自然語句”對作為一個數(shù)據(jù);

      S2.2、將“圖像-自然語句”對中的圖像維持長寬比不變并縮放,剪成224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-自然語句”對作為一個數(shù)據(jù);

      S2.3、統(tǒng)計所有自然語句中出現(xiàn)過的單詞,去重,排序,單詞總個數(shù)記為K;將每個單詞都用1×K的列向量來表示,列向量中下標為單詞序號處置1,其他位置0,這樣一個向量稱為單詞向量,所有的“單詞-單詞向量”對構成一個長度為K的字典DIC;

      S2.4、將“圖像-自然語句”對中的自然語句用基于字典DIC的單詞向量表示,一個長度為C的自然語句y可以表示為:

      優(yōu)選的,步驟S3中訓練深度殘差網(wǎng)絡模型:包含46個卷積塊(用“conv+下標”表示)、2個池化層、1個全連接層和1個softmax分類器;在每個卷積塊中,先用批歸一化(BN)方法對數(shù)據(jù)歸一化,然后使用修正線性單元(ReLu)對數(shù)據(jù)進行非線性變換,最后進行卷積操作。訓練時使用隨機梯度下降(SGD)和反向傳播方法(BP),用預處理后的ImageNet數(shù)據(jù)集(“標準尺寸圖像-類別”對)作為樣本;對于每個樣本,標準尺寸圖像在網(wǎng)絡中向前傳播,經(jīng)過softmax層后輸出預測類別,再將預測類別與實際類別的差異反向傳播到網(wǎng)絡頭部,反向傳播過程中使用隨機梯度下降算法調(diào)整網(wǎng)絡參數(shù)。重復樣本輸入的過程,直到網(wǎng)絡收斂。

      優(yōu)選的,步驟S4中訓練LSTM模型:LSTM模型的基本結構由LSTM神經(jīng)元構成。LSTM模型包含C層LSTM神經(jīng)元(C為預先設定的自然語句的最大長度),能依次輸出C個單詞;這里使用的是預處理后的MS-COCO數(shù)據(jù)集(“標準尺寸圖像-自然語句”對)作為樣本;訓練LSTM模型步驟如下:

      S4.1、將標準尺寸圖像輸入到步驟S3的深度殘差網(wǎng)絡中,從conv5_3_c卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048,用表示;

      S4.2、對于每一時刻t,根據(jù)以下公式動態(tài)生成一個圖像內(nèi)容向量:

      eti=fatt(ai,ht-1)

      其中,ai是抽象矩陣a中的向量,ht-1是上一時刻的隱藏狀態(tài)量,fatt是一個基于多層感知機的注意力模型,能夠自動確定時刻t更注意的抽象特征,αti是與ai對應的權重,是動態(tài)生成的圖像內(nèi)容向量;

      S4.3、對于每一時刻t,LSTM神經(jīng)元的前向傳導過程可以表示為:

      ht=ottanh(ct)

      其中,σ是sigmoid函數(shù),σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分別表示t時刻輸入門、遺忘門、記憶單元、輸出門、隱藏層所對應的狀態(tài)變量;Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc為LSTM模型學習到的權重矩陣,bi、bf、bc、bo是LSTM模型學習到的偏置項,是一個隨機初始化的嵌入矩陣,m是一個常數(shù),yt-1是上一時刻LSTM模型輸出的單詞;t=0時的ct、ht按下面公式初始化:

      其中,fiinit,c、fiinit,h是兩個獨立的多層感知機;

      S4.4、對于每一時刻t,通過最大化下面式子來求得輸出的單詞yt

      其中,λ是一個常數(shù),C是樣本中自然語句的最大長度;

      S4.5、根據(jù)交叉熵損失計算預測自然語句和樣本中自然語句的差異,然后使用反向傳播算法(BP)和基于RMSProp的隨機梯度下降(SGD)算法訓練,令交叉熵最小。

      S4.6、對于MS-COCO數(shù)據(jù)集中的每一個樣本,重復S4.1-S4.5步驟。

      S4.7、重復S4.1-S4.6步驟20次。

      優(yōu)選的,步驟S5中提取待識別圖像的特征的具體步驟為:

      S7.1:使用步驟S2中對Imagenet數(shù)據(jù)集的圖像進行預處理;

      S7.2:將預處理后的圖像輸入到步驟S3訓練好的深度殘差網(wǎng)絡中,從最底層卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048。

      優(yōu)選的,步驟S6中LSTM模型根據(jù)圖像特征生成自然語句,對于每一時刻t,其中0≤t<C,使用步驟S4.1-S4.4生成一個單詞,所有單詞依次連接構成自然語句。

      本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點和有益效果:

      1、本方法采用深度學習理論,使用大量圖像樣本訓練深度殘差網(wǎng)絡模型和LSTM模型,能自動學習到圖像中的普遍模式,魯棒性強,適用范圍廣。

      2、本發(fā)明方法采用的深度殘差網(wǎng)絡具有50層的極深結構,能夠充分提取圖像中的抽象特征;同時,本發(fā)明方法采用了LSTM模型,能夠恰當?shù)貙ψ匀徽Z言等時序序列建模,將特征向量轉(zhuǎn)化成自然語言。深度殘差網(wǎng)絡與LSTM網(wǎng)絡結合,顯著提升了圖像理解的準確度。

      3、本發(fā)明引入了一種動態(tài)注意機制,能夠根據(jù)深度殘差網(wǎng)絡提取到的特征矩陣動態(tài)的生成合適特征向量,使得LSTM具有動態(tài)聚焦到圖像的不同位置的優(yōu)點。

      附圖說明

      圖1為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法的具體流程圖;

      圖2為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法中步驟(3)的深度殘差網(wǎng)絡模型結構;

      圖3為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法中步驟(3)的深度殘差網(wǎng)絡模型中卷積塊的具體結構;

      圖4為本發(fā)明實施例的一種基于深度殘差網(wǎng)絡和LSTM的圖像理解方法中步驟(4)的LSTM模型中LSTM神經(jīng)元的結構。

      具體實施方式

      下面結合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。

      實施例

      如圖1所示為本發(fā)明的方法流程圖,包括如下步驟:

      (1)、下載訓練數(shù)據(jù)集:分別從http://www.image-net.org、http://mscoco.org這兩個網(wǎng)站下載ImageNet、MS-COCO公共圖像數(shù)據(jù)集。ImageNet數(shù)據(jù)集分為訓練圖像集和測試圖像集,訓練圖像集含有1000個類別的圖片,每個類別1300張,測試圖像集含50000張圖片;MS-COCO數(shù)據(jù)集分為訓練圖像集合測試圖像集,訓練圖像集包含82783張圖片,測試圖像集包含40504張圖片,對應的,每張圖片有5個用于描述其內(nèi)容信息的自然語言語句。

      (2)、預處理:

      對于ImageNet數(shù)據(jù)集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-類別”對作為一個數(shù)據(jù);

      對于MS-COCO數(shù)據(jù)集,預處理的步驟如下:

      2.1、將每一個自然語言語句與其對應的圖像成對保存,一個“圖像-自然語句”對作為一個數(shù)據(jù);

      2.2、將“圖像-自然語句”對中的圖像維持長寬比不變并縮放,剪成224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-自然語句”對作為一個數(shù)據(jù);

      2.3、統(tǒng)計所有自然語句中出現(xiàn)過的單詞,去重,排序,單詞總個數(shù)記為K;將每個單詞都用1×K的列向量來表示,列向量中下標為單詞序號處置1,其他位置0,這樣一個向量稱為單詞向量,所有的“單詞-單詞向量”對構成一個長度為K的字典DIC;

      2.4、將“圖像-自然語句”對中的自然語句用基于字典DIC的單詞向量表示,一個長度為C的自然語句y可以表示為:

      (3)、訓練深度殘差網(wǎng)絡模型:深度殘差網(wǎng)絡結構如圖2所示,包含46個卷積塊(用“conv+下標”表示)、2個池化層、1個全連接層和一個softmax分類器。在每個卷積塊中,先用批歸一化(BN)方法對數(shù)據(jù)歸一化,然后使用修正線性單元(ReLu)對數(shù)據(jù)進行非線性變換,最用進行卷積操作。訓練時使用隨機梯度下降(SGD)和反向傳播方法(BP),用預處理后的ImageNet數(shù)據(jù)集(“標準尺寸圖像-類別”對)作為樣本。具體參數(shù)已在圖2中標明,例如,“conv2_1_a,1*1,64,1”表示該卷積塊名稱為conv2_1_a,卷積核大小為1×1,步長為1,輸出64個特征圖。

      (4)、訓練LSTM模型:圖4所示的是LSTM模型的基本結構由LSTM神經(jīng)元組成。LSTM模型包含C層LSTM神經(jīng)元(C為預先設定的自然語句的最大長度),能依次輸出C個單詞。這里使用的是預處理后的MS-COCO數(shù)據(jù)集(“標準尺寸圖像-自然語句”對)作為樣本。訓練LSTM模型步驟如下:

      4.1、將標準尺寸圖像輸入到步驟(3)的深度殘差網(wǎng)絡中,從conv5_3_c卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048,用表示;

      4.2、對于每一時刻t,根據(jù)以下公式動態(tài)生成一個圖像內(nèi)容向量:

      eti=fatt(ai,ht-1)

      其中,ai是抽象矩陣a中的向量,ht-1是上一時刻的隱藏狀態(tài)量,fatt是一個基于多層感知機的注意力模型,能夠自動確定時刻t更注意的抽象特征,αti是與ai對應的權重,是動態(tài)生成的圖像內(nèi)容向量;

      4.3、對于每一時刻t,LSTM神經(jīng)元的前向傳導過程可以表示為:

      ht=ottanh(ct)

      其中,σ是sigmoid函數(shù),σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分別表示t時刻輸入門、遺忘門、記憶單元、輸出門、隱藏層所對應的狀態(tài)變量。Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc為LSTM、模型學習到的權重矩陣,bi、bf、bc、bo是LSTM模型學習到的偏置項,是一個隨機初始化的嵌入矩陣,m是一個常數(shù),yt-1是上一時刻LSTM模型輸出的單詞;t=0時的ct、ht按下面公式初始化:

      其中,finit,c、finit,h是兩個獨立的多層感知機;

      4.4、對于每一時刻t,通過最大化下面式子來求得輸出的單詞yt

      其中,λ是一個常數(shù),C是樣本中自然語句的最大長度;

      4.5、根據(jù)交叉熵損失計算預測自然語句和樣本中自然語句的差異,然后使用反向傳播算法(BP)和基于RMSProp的隨機梯度下降(SGD)算法訓練,令交叉熵最小。

      4.6、對于MS-COCO數(shù)據(jù)集中的每一個樣本,重復4.1-4.5步驟。

      4.7、重復4.1-4.6步驟20次。

      (5)、用步驟(3)中訓練好的深度殘差網(wǎng)絡模型提取待識別圖像的抽象特征。首先使用步驟(2)中對Imagenet數(shù)據(jù)集的圖像進行預處理,然后將預處理后的圖像輸入到步驟(3)訓練好的深度殘差網(wǎng)絡中,從最底層卷積塊末端提取抽象特征矩陣,大小為7*7*2048=49*2048。

      (6)、將步驟(5)中提取的抽象特征輸入到步驟(4)訓練好的LSTM模型中,對于每一時刻t,其中0≤t<C,使用步驟S4.1-S4.4生成一個單詞,所有單詞依次連接構成自然語句。

      上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發(fā)明的保護范圍之內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1