国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器的制造方法

      文檔序號:10624838閱讀:221來源:國知局
      從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器的制造方法
      【專利摘要】本發(fā)明實施例提供從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器,以至少解決現(xiàn)有技術(shù)中從圖片生成文本摘要的方法通用性差、網(wǎng)絡(luò)依賴性強的問題。方法包括:用戶設(shè)備獲取數(shù)字圖像;所述用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X;所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;所述用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;所述用戶設(shè)備輸出所述文本摘要。本發(fā)明適用于圖片內(nèi)容辨識技術(shù)領(lǐng)域。
      【專利說明】
      從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及圖片內(nèi)容辨識技術(shù),尤其涉及從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器。
      【背景技術(shù)】
      [0002]隨著數(shù)碼相機、手機攝像頭、谷歌眼鏡等智能設(shè)備的不斷發(fā)展,圖像數(shù)據(jù)開始呈現(xiàn)指數(shù)式爆炸增長。用戶通常需要輸入文本信息來查找與其相關(guān)的圖片信息,或者輸入圖片信息來查找與之相關(guān)的文本信息或類似圖片。然而,由于圖片數(shù)據(jù)量大、內(nèi)容復(fù)雜,因此使用文字或圖片查找對應(yīng)或類似圖片時需要對大量的數(shù)據(jù)進行檢索,面臨著數(shù)據(jù)量大以及存儲計算復(fù)雜度高的技術(shù)難題。雖然通過文字摘要信息來表達圖片信息可以提升檢索速度,但是由于視覺信息和文字信息是人類對自然界的兩種截然不同的認知,因此通過文字準確、快速并清晰的描述相關(guān)圖片并不容易。即,如何將視覺信息轉(zhuǎn)化為相關(guān)的文字信息是機器學習領(lǐng)域的一大難題。
      [0003]現(xiàn)有技術(shù)中,有如下兩種將視覺信息轉(zhuǎn)化為相關(guān)的文字信息的方案:
      [0004]第一,在提供圖片搜索功能的網(wǎng)站或服務(wù)器,以圖片搜索圖片的方式,從數(shù)據(jù)庫中搜索出與該照片相近似的圖片,并得到該相似圖片的來源網(wǎng)址。然后,統(tǒng)計所有相近似圖片來源網(wǎng)址上的文字信息,提取其中出現(xiàn)次數(shù)最多的文字為關(guān)鍵字,并以該關(guān)鍵字為搜索條件到搜索網(wǎng)站或服務(wù)器搜索文字信息后,將該文字信息在圖片上注解。
      [0005]第二,在提供圖片搜索功能的網(wǎng)站或服務(wù)器,以圖片搜索圖片的方式,從數(shù)據(jù)庫中搜索出與該照片相近似的圖片,進而用該搜索到的圖片已有的標簽為關(guān)鍵字,查詢詩句后輸出。
      [0006]雖然上述兩種方案均可以將視覺信息轉(zhuǎn)化為相關(guān)的文字信息,但是,仍存在如下問題:第一,均依賴于圖片畫面的相似性為前提,對于畫面不相似但語義相似的畫面無法處理,通用性較差;第二,均需要相關(guān)設(shè)備聯(lián)網(wǎng),網(wǎng)絡(luò)依賴性較強。

      【發(fā)明內(nèi)容】

      [0007]本發(fā)明實施例提供從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器,以至少解決現(xiàn)有技術(shù)中從圖片生成文本摘要的方法通用性差、網(wǎng)絡(luò)依賴性強的問題,能夠增強通用性,減少網(wǎng)絡(luò)依賴性。
      [0008]為達到上述目的,本發(fā)明的實施例采用如下技術(shù)方案:
      [0009]第一方面,提供一種從圖片生成文本摘要的方法,所述方法包括:
      [0010]用戶設(shè)備獲取數(shù)字圖像;
      [0011]所述用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X ;
      [0012]所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;
      [0013]所述用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;
      [0014]所述用戶設(shè)備輸出所述文本摘要。
      [0015]在第一方面第一種可能的實現(xiàn)方式中,結(jié)合第一方面,所述預(yù)先訓(xùn)練的摘要模型包括:
      [0016]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0017]在第一方面第二種可能的實現(xiàn)方式中,結(jié)合第一方面第一種可能的實現(xiàn)方式,若N=2,則所述預(yù)先訓(xùn)練的摘要模型包括:
      [0018]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0019]在第一方面第三種可能的實現(xiàn)方式中,結(jié)合第一方面第二種可能的實現(xiàn)方式,所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,包括:
      [0020]所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層X2、以及所述第一全連接層F2后得到向量Z,所述向量Z再通過摘要向量卷積層T2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。
      [0021]在第一方面第四種可能的實現(xiàn)方式中,結(jié)合第一方面至第一方面第三種可能的實現(xiàn)方式,所述用戶設(shè)備輸出所述文本摘要,包括:
      [0022]所述用戶設(shè)備通過所述用戶設(shè)備的顯示模塊輸出所述文本摘要;
      [0023]或者,
      [0024]所述用戶設(shè)備通過所述用戶設(shè)備的語音模塊輸出所述文本摘要。
      [0025]第二方面,提供一種從圖片生成文本摘要的方法,所述方法包括:
      [0026]訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù);
      [0027]所述訓(xùn)練服務(wù)器向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。
      [0028]在第二方面第一種可能的實現(xiàn)方式中,結(jié)合第二方面,若N = 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括:
      [0029]圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0030]在第二方面第二種可能的實現(xiàn)方式中,結(jié)合第二方面第一種可能的實現(xiàn)方式,所述訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,包括:
      [0031]所述訓(xùn)練服務(wù)器構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層;
      [0032]所述訓(xùn)練服務(wù)器對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wxl^P W xl,d,其中,Wxl,u表示所述圖像向量卷積層Xl的輸入層與所述圖像向量卷積層Xl之間的第一神經(jīng)元參數(shù);Wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xl之間的第二神經(jīng)元參數(shù);
      [0033]所述訓(xùn)練服務(wù)器構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層;
      [0034]所述訓(xùn)練服務(wù)器對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl^P W yl,d,其中,Wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);Wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù);
      [0035]所述訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述Wxl,u、Wxl,d、Wyl,jP Wyl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fi進行訓(xùn)練,獲得參數(shù)r xl,u、w’ xl,d、w’ yl,u、r yl,d、Wflx,u、wflx,d、UP Wflyid,其中,W’ ^表示優(yōu)化后的第一神經(jīng)元參數(shù)-X xl,d表示優(yōu)化后的第二神經(jīng)元參數(shù).Χ吣表示優(yōu)化后的第三神經(jīng)元參數(shù);w’ yl,d表示優(yōu)化后的第四神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);1&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù);1£1“表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù);
      [0036]所述訓(xùn)練服務(wù)器構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層;
      [0037]所述訓(xùn)練服務(wù)器對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2^P W x2,d,其中,Wx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù);
      [0038]所述訓(xùn)練服務(wù)器構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層;
      [0039]所述訓(xùn)練服務(wù)器對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wy2,u和W y2,d,其中,Wy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù);
      [0040]所述訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2id, Wy2iu^P ff y2id,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)r x2,u、r x2,d、r y2,u、r y2,d、Wf2xiu, Wf2xid, Wf2y,,和 W f2y,d,其中,r 一表示優(yōu)化后的第九神經(jīng)元參數(shù);w’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù).χ y2,u表示優(yōu)化后的第十一神經(jīng)元參數(shù);w’ y2,d表示優(yōu)化后的第十二神經(jīng)元參數(shù);1&-表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向圖像的第十三神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向圖像的第十四神經(jīng)元參數(shù);胃%-表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向摘要的第十五神經(jīng)元參數(shù);Wf2y,d表示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向摘要的第十六神經(jīng)元參數(shù)。
      [0041]在第二方面第三種可能的實現(xiàn)方式中,結(jié)合第二方面第二種可能的實現(xiàn)方式,所述訓(xùn)練服務(wù)器對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP W xl,d,包括;
      [0042]所述訓(xùn)練服務(wù)器以最小化重建誤差α 1| |f(x,ffxl,u, ffxl,d)-x Γ為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wxl, JPWxl,d,其中,11 I I表示標準差,O < α I< I ;
      [0043]所述訓(xùn)練服務(wù)器對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl,JP ff yl,d,包括:
      [0044]所述訓(xùn)練服務(wù)器以最小化重建誤差β 1| |f(y,ffyl,u, ffyl,d)-y Γ為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)評吣和Wyl,d,其中,O < β I < I ;
      [0045]所述訓(xùn)練服務(wù)器根據(jù)所述Wxl,u、Wxl,d、ffyl,u^P ff yl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fl進行訓(xùn)練,獲得參數(shù)W’ xl,u、W,xl,d、W’ yl,u、W’ yl, d、Wflx,u、Wflx,d、Wfly,,和 Wfly,d,包括:
      [0046]所述訓(xùn)練服務(wù)器根據(jù)所述Wxl,u、Wxl,d、ffyl,u^Pffyl,d,以最小化重建誤差a 1| |f(x,wx, !,u, Wx^hd)-X I |2+β 1| |f(y,r yl,u,r yl,d)-y Γ+γ?| |f(xl,Wflx,u,Wflx,d)-f(yl,Wfly,u,fffly,d) I Γ為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl,d、Wflx,u、Wflx,d、Wfly,,和
      Wfly,d,其中,(W,xl,u)初始=Wxl,u,(W,Xl,d)初始=Wxl,d,(W,yl’u)初始=Wyl,u,(W,yl’d)初始=Wyl,d,Xl
      =f (X,W,xl’u,W,xl’d),yl = f (y,w,yl’u,W,yl’d),
      [0047]0 < γ I < 1
      [0048]在第二方面第四種可能的實現(xiàn)方式中,結(jié)合第二方面第三種可能的實現(xiàn)方式,所述訓(xùn)練服務(wù)器對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和ff x2,d,包括:
      [0049]所述訓(xùn)練服務(wù)器以最小化重建誤差a 2| |f (xl,Wx2,u,Wx2,d)-x| Γ為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2,u和Wx2,d,其中,O < α 2 < I ;
      [0050]所述訓(xùn)練服務(wù)器對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wy2,u和ff y2,d,包括:
      [0051]所述訓(xùn)練服務(wù)器以最小化重建誤差β2| f(yl,Wy2,u,Wy2,d)-y Γ為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wau和Wy2,d,其中,O < β2 < I ;
      [0052]所述訓(xùn)練服務(wù)器根據(jù)所述Wx2,u、Wx2,d、Wy2,u和ff y2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)r x2,u、W,x2,d、r y2,u、r y2,d、Wf2x,u、Wf2x,d、Wf2y,,和Wf2y,d,包括;
      [0053]所述訓(xùn)練服務(wù)器根據(jù)所述Wx2, u、Wx2id, Wy2iu^P Wy2id,以最小化重建誤差a 2| |f (xl,r x2’u,r x2,d)-x 2+β2 f(yi, r y2’u,r y2’d)-y| 2+y2 f(x2, wf2x’u,wf2x’d)-f(y2,wf2y’u,fff2y,d) I Γ為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2yjP
      Wf2y, d,其中,(W X2, u)初始一Wx2, u,(ff X2, d)初始一Wx2, d,(W y2jU)初始一Wy2, u,(W y2, d)初始一Wy2, d,χ2
      =f(xl,W,x2,u,w,x2,d),y2 = f(yl,r y2,u,W,y2,d),0 < γ2< 10
      [0054]在第二方面第五種可能的實現(xiàn)方式中,結(jié)合第二方面第四種可能的實現(xiàn)方式,
      [0055]α I = β I = γ I = α 2 = β 2 = γ2 = 0.5。
      [0056]第三方面,提供一種用戶設(shè)備,所述用戶設(shè)備包括:獲取單元、處理單元、生成單元、轉(zhuǎn)化單元、以及輸出單元;
      [0057]所述獲取單元,用于獲取數(shù)字圖像;
      [0058]所述處理單元,用于將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X;
      [0059]所述生成單元,用于將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;
      [0060]所述轉(zhuǎn)化單元,用于將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;
      [0061 ] 所述輸出單元,用于輸出所述文本摘要。
      [0062]在第三方面第一種可能的實現(xiàn)方式中,結(jié)合第三方面,所述預(yù)先訓(xùn)練的摘要模型包括:
      [0063]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0064]在第三方面第二種可能的實現(xiàn)方式中,結(jié)合第三方面第一種可能的實現(xiàn)方式,若N=2,則所述預(yù)先訓(xùn)練的摘要模型包括:
      [0065]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層Χ2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層Τ2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層Χ2、所述第一全連接層F2、所述摘要向量卷積層Τ2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0066]在第三方面第三種可能的實現(xiàn)方式中,結(jié)合第三方面第二種可能的實現(xiàn)方式,所述生成單元具體用于:
      [0067]將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層Χ2、以及所述第一全連接層F2后得到向量Ζ,所述向量Z再通過所述摘要向量卷積層Τ2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。
      [0068]在第三方面第四種可能的實現(xiàn)方式中,結(jié)合第三方面至第三方面第三種可能的實現(xiàn)方式,所述輸出單元具體用于:
      [0069]通過所述用戶設(shè)備的顯示模塊輸出所述文本摘要;
      [0070]或者,
      [0071 ] 通過所述用戶設(shè)備的語音模塊輸出所述文本摘要。
      [0072]第四方面,提供一種訓(xùn)練服務(wù)器,所述訓(xùn)練服務(wù)器包括訓(xùn)練單元、發(fā)送單元;
      [0073]所述訓(xùn)練單元,用于訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù);
      [0074]所述發(fā)送單元,用于向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。
      [0075]在第四方面第一種可能的實現(xiàn)方式中,結(jié)合第四方面,若N = 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括:
      [0076]圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0077]在第四方面第二種可能的實現(xiàn)方式中,結(jié)合第四方面第一種可能的實現(xiàn)方式,所述訓(xùn)練單元具體用于:
      [0078]構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層;
      [0079]對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wxl,d,其中,Wxl,u表示所述圖像向量卷積層Xl的輸入層與所述圖像向量卷積層Xl之間的第一神經(jīng)元參數(shù);Wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xl之間的第二神經(jīng)元參數(shù);
      [0080]構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層;
      [0081]對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wyl,d,其中,Wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);Wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù);
      [0082]構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述Wxl,u、Wxl,d、Wyl^P W yl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fi進行訓(xùn)練,獲得參數(shù)w’ xl,u、r xl,d、r yl,u、r yl,d、wflx,u、wflXid、wflyjpWflyid,其中,w’ ^表示優(yōu)化后的第一神經(jīng)元參數(shù);w’ xlid表示優(yōu)化后的第二神經(jīng)元參數(shù);胃’吣表示優(yōu)化后的第三神經(jīng)元參數(shù).χ &表示優(yōu)化后的第四神經(jīng)元參數(shù);wflx,u表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);胃&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù)示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù);
      [0083]構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層;
      [0084]對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和Wx2,d,其中,Wx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù);
      [0085]構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層;
      [0086]對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wy2,d,其中,Wy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù);
      [0087]構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JP Wf2y,d,其中,W’ ^表示優(yōu)化后的第九神經(jīng)元參數(shù);W’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù);1%2-表示優(yōu)化后的第^^一神經(jīng)元參數(shù);Ψ y2id表示優(yōu)化后的第十二神經(jīng)元參數(shù);評&-表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向圖像的第十三神經(jīng)元參數(shù);1&,,表示所述第一全連接層?2的輸出層與所述第一全連接層Fl之間的面向圖像的第十四神經(jīng)元參數(shù);胃%』表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向摘要的第十五神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層Fl之間的面向摘要的第十六神經(jīng)元參數(shù)。
      [0088]在第四方面第三種可能的實現(xiàn)方式中,結(jié)合第四方面第二種可能的實現(xiàn)方式,所述訓(xùn)練單元具體用于:
      [0089]以最小化重建誤差a 1| |f(x,ffxl,u, ffxl,d)-x 12為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)^-和Wxlid,其中,Il Il表示標準差,O < α I < I ;
      [0090]所述訓(xùn)練單元具體用于:
      [0091]以最小化重建誤差β 1| |f(y,ffyl,u, ffyl,d)-y 12為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wyliu和Wyl,d,其中,O < β I < I ;
      [0092]所述訓(xùn)練單元具體用于:
      [0093]根據(jù)所述Wxl,u、Wxlid, Wyliu^P Wylid,以最小化重建誤差 α 11 f(x, ψ xl u,r Xi,d)-x |2+β 1| |f(y,r yl’u,r yl,d)-y Ι2+γ?| |f(xi,wflx’u,wflx’d)-f(yi,wfly’u,wfly’d) I 2為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,xl = f(x,W,xl,u,r xl,d),yi = f(y,r yl,u,r yl,d),
      [0094]0 < γ I < 1
      [0095]在第四方面第四種可能的實現(xiàn)方式中,結(jié)合第四方面第三種可能的實現(xiàn)方式,所述訓(xùn)練單元具體用于:
      [0096]以最小化重建誤差a 2| |f (xl,Wx2,u,Wx2,d)-x| 12為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2jp wx2,d,其中,O < α 2 < I ;
      [0097]所述訓(xùn)練單元具體用于:
      [0098]以最小化重建誤差β2| f(yl,ffy2,u,ffy2,d)-y 12為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2, J口 Wy2,d,其中,O < β 2 < I ;
      [0099]所述訓(xùn)練單元具體用于:
      [0100]根據(jù)所述Wx2,u、Wx2id, U Wy2id,以最小化重建誤差 α 2 I f(xl, W,x2,u,W,x2id)-x |2+β2| |f(yl,W,y2’u,W,y2id)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,
      (w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,
      r x2,u,W,x2,d),y2 = f(yi,r y2,u,r y2,d),o < γ2< 1
      [0101]在第四方面第五種可能的實現(xiàn)方式中,結(jié)合第四方面第四種可能的實現(xiàn)方式,
      [0102]α1=β1=γ1=α2=β2=γ2 = 0.5。
      [0103]本發(fā)明實施例提供從圖片生成文本摘要的方法、用戶設(shè)備及訓(xùn)練服務(wù)器,包括:用戶設(shè)備獲取數(shù)字圖像;所述用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X ;所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;所述用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;所述用戶設(shè)備輸出所述文本摘要?;诒景l(fā)明實施例的上述方案,一方面,本發(fā)明實施例中,從圖片生成文本摘要時,用戶設(shè)備直接將數(shù)字圖像轉(zhuǎn)化為圖像向量,進而將圖像向量輸入到預(yù)先訓(xùn)練好的摘要模型,即可生成所述數(shù)字圖像的文本摘要。該過程與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,本發(fā)明實施例中,從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成所述數(shù)字圖像的文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      【附圖說明】
      [0104]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0105]圖1為本發(fā)明實施例提供的從圖片生成文本摘要的方法流程示意圖一;
      [0106]圖2為本發(fā)明實施例提供的摘要模型結(jié)構(gòu)示意圖;
      [0107]圖3為本發(fā)明實施例提供的N= 2時的摘要模型結(jié)構(gòu)示意圖;
      [0108]圖4為本發(fā)明實施例提供的從圖片生成文本摘要的方法流程示意圖二 ;
      [0109]圖5為本發(fā)明實施例提供的第一三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
      [0110]圖6為本發(fā)明實施例提供的第二三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
      [0111]圖7為本發(fā)明實施例提供的三層神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型結(jié)構(gòu)示意圖;
      [0112]圖8為本發(fā)明實施例提供的第一五層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
      [0113]圖9為本發(fā)明實施例提供的第二五層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
      [0114]圖10為本發(fā)明實施例提供的用戶設(shè)備結(jié)構(gòu)示意圖一;
      [0115]圖11為本發(fā)明實施例提供的訓(xùn)練服務(wù)器結(jié)構(gòu)示意圖一;
      [0116]圖12為本發(fā)明實施例提供的用戶設(shè)備結(jié)構(gòu)示意圖二;
      [0117]圖13為本發(fā)明實施例提供的訓(xùn)練服務(wù)器結(jié)構(gòu)示意圖二。
      【具體實施方式】
      [0118]為了下述各實施例的描述清楚簡潔,首先給出相關(guān)概念的簡要介紹:
      [0119]神經(jīng)網(wǎng)絡(luò):
      [0120]神經(jīng)網(wǎng)絡(luò)分為生物神經(jīng)網(wǎng)絡(luò)與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡稱:ANNs),本發(fā)明實施例中的神經(jīng)網(wǎng)絡(luò)具體為人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)也簡稱為神經(jīng)網(wǎng)絡(luò)(Neural Networks,簡稱:NNs)或稱作連接模型(Connect1n Model),它是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型。該神經(jīng)網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達到處理信息的目的。
      [0121]第二,多層深度神經(jīng)網(wǎng)絡(luò):
      [0122]多層深度神經(jīng)網(wǎng)絡(luò)是指有多個(> =2)輸入層、隱藏層和輸出層疊加起來,構(gòu)成的一個多層次的神經(jīng)網(wǎng)絡(luò)。
      [0123]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
      [0124]需要說明的是,為了便于清楚描述本發(fā)明實施例的技術(shù)方案,在本發(fā)明的實施例中,采用了“第一”、“第二”等字樣對功能和作用基本相同的相同項或相似項進行區(qū)分,本領(lǐng)域技術(shù)人員可以理解“第一”、“第二”等字樣并不對數(shù)量和執(zhí)行次序進行限定。
      [0125]實施例一、
      [0126]本發(fā)明實施例提供一種從圖片生成文本摘要的方法,如圖1所示,包括:
      [0127]S101、用戶設(shè)備獲取數(shù)字圖像。
      [0128]S102、用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X。
      [0129]S103、用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的。
      [0130]S104、用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要。
      [0131]S105、用戶設(shè)備輸出所述文本摘要。
      [0132]具體的,本發(fā)明實施例步驟SlOl中,用戶設(shè)備可以對特定場景進行實時拍攝,產(chǎn)生數(shù)字圖像;也可以從預(yù)先存儲的圖像庫中獲取數(shù)字圖像,本發(fā)明實施例對此不作具體限定。
      [0133]具體的,本發(fā)明實施例步驟S102中,用戶設(shè)備將獲取到的數(shù)字圖像進行預(yù)處理,得到該數(shù)字圖像的圖像向量X。其中,該圖像向量X可以為一個k維向量,比如X= [0,0,
      1.2,0,2.45,0,0,0,34…0,45,0,0,91],本發(fā)明實施例對該圖像向量的形式不作具體限定。
      [0134]具體的,本發(fā)明實施例步驟S103中,預(yù)先訓(xùn)練好的摘要模型為用戶設(shè)備從訓(xùn)練服務(wù)器下載訓(xùn)練好的摘要模型時,訓(xùn)練服務(wù)器發(fā)送給用戶設(shè)備的。該預(yù)先訓(xùn)練好的摘要模型可以如圖2所示,包括:
      [0135]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0136]需要說明的是,該多層深度神經(jīng)網(wǎng)絡(luò)模型中包含N個圖像向量卷積層與N個摘要向量卷積層,其中,N越大,該預(yù)先訓(xùn)練好的摘要模型越精確;N越小,該預(yù)先訓(xùn)練好的摘要模型的訓(xùn)練成本越低。通常,在訓(xùn)練服務(wù)器訓(xùn)練摘要模型時,會綜合考慮模型的精確性與訓(xùn)練成本兩個因素,確定出合適的N后,進而建立神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,本發(fā)明實施例對N個取值不作具體限定。
      [0137]優(yōu)選的,若N = 2,則該預(yù)先訓(xùn)練好的摘要模型可以如圖3所示,包括:
      [0138]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0139]進一步的,所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量(步驟S103)具體包括:
      [0140]所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層X2、以及所述第一全連接層F2后得到向量Z,所述向量Z再通過所述摘要向量卷積層T2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。
      [0141]其中,假設(shè)所有的文本標簽形成一個集合T = {Λ,?2,...,?η},則該摘要向量Y表示為一個基于文本標簽集合T的η維詞頻向量t。
      [0142]示例性的,假設(shè)有5個文本標簽組成的集合T,則每個文本摘要是個5維度的向量,每個值表示文本標簽出現(xiàn)的次數(shù),稱之為詞頻。比如,假設(shè)5個文本標簽分別為:“貓”,“天空”,“高樓”,“老鼠”,“地鐵”,則摘要向量[1,0,0,2,0]表示的圖片中“貓”的詞頻為1,“老鼠”的詞頻為2,“天空”、“高樓”、“地鐵”的詞頻均為O。
      [0143]需要說明的是,上述僅是示例性的提供一種摘要向量,當然,還可能存在其它可能的摘要向量表征形式。比如,可以表示為歸一化后的摘要向量。即,上述示例中的摘要向量[1,0,0, 2,0]可以歸一化為[1/3,0,0,2/3,O],表示圖片中包含“貓”的可能性為1/3,包含“老鼠”的可能性為2/3,包含“天空”、“高樓”、“地鐵”的可能性為O。本發(fā)明實施例對該摘要向量的形式不作具體限定。
      [0144]具體的,考慮到摘要向量僅是文本摘要的一種數(shù)學表征形式,并不易于用戶理解,因此本發(fā)明實施例步驟S104中,用戶設(shè)備需要將摘要向量轉(zhuǎn)化為數(shù)字圖像的文本摘要。比如,上述示例中的摘要向量[1,0,0,2,0]對應(yīng)的數(shù)字圖像的文本摘要可以為老鼠。
      [0145]具體的,本發(fā)明實施例步驟S105中,用戶設(shè)備輸出所述文本摘要具體可以通過以下兩種方式實現(xiàn):
      [0146]方式一:用戶設(shè)備通過該用戶設(shè)備的顯示模塊輸出所述文本摘要;
      [0147]方式二:用戶設(shè)備通過該用戶設(shè)備的語音模塊輸出所述文本摘要。
      [0148]S卩,一種可能的實現(xiàn)方式中,用戶設(shè)備可以直接將文本摘要顯示給用戶;一種可能的實現(xiàn)方式中,用戶設(shè)備可以將文本摘要信息轉(zhuǎn)換成語音后通過語音輸出。
      [0149]其中,利用從文本到語音(Text-to-speech,簡稱:TTS)技術(shù)可以將文本摘要信息轉(zhuǎn)換成語音。TTS技術(shù)是人機對話的一部分,讓機器能夠說話。它在內(nèi)置芯片的支持之下,通過神經(jīng)網(wǎng)絡(luò)的設(shè)計,把文字智能地轉(zhuǎn)化為自然語音流。TTS技術(shù)對文本文件進行實時轉(zhuǎn)換,轉(zhuǎn)換時間之短可按秒計算。在其特有智能語音控制器作用下,文本輸出的語音音律流暢,使得聽者在聽取信息時感覺自然,毫無機器語音輸出的冷漠與生澀感。TTS技術(shù)可以幫助有視覺障礙的人閱讀計算機上的信息,或者只是簡單的用來增加文本文檔的可讀性。
      [0150]可以理解的是,除了上述列舉的用戶設(shè)備輸出文本摘要的實現(xiàn)方式,還可能存在其它可能的實現(xiàn)方式,本發(fā)明實施例對此不作具體限定。
      [0151]需要說明的是,本發(fā)明實施例中,用戶設(shè)備將訓(xùn)練好的摘要模型從訓(xùn)練服務(wù)器下載到客戶端后,還可以進行“低頻度”更新。即,利用用戶自己標注好的數(shù)據(jù)對該摘要模型進行參數(shù)更新。這樣,當不同用戶使用相似的圖片,可能會產(chǎn)生出略有不同的文本摘要,可以理解為是一種“個性化”的從圖片生成文本摘要的過程。本發(fā)明實施例對此不作具體限定。
      [0152]本發(fā)明實施例提供一種從圖片生成文本摘要的方法,包括:用戶設(shè)備獲取數(shù)字圖像;所述用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X ;所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;所述用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;所述用戶設(shè)備輸出所述文本摘要?;诒景l(fā)明實施例的上述方案,一方面,本發(fā)明實施例中,從圖片生成文本摘要時,用戶設(shè)備直接將數(shù)字圖像轉(zhuǎn)化為圖像向量,進而將圖像向量輸入到預(yù)先訓(xùn)練好的摘要模型,即可生成所述數(shù)字圖像的文本摘要。該過程與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,本發(fā)明實施例中,從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成所述數(shù)字圖像的文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0153]實施例二、
      [0154]本發(fā)明實施例提供一種從圖片生成文本摘要的方法,如圖4所示,包括:
      [0155]S401、訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0156]S402、訓(xùn)練服務(wù)器向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。
      [0157]具體的,本發(fā)明實施例步驟S401中,訓(xùn)練服務(wù)器訓(xùn)練摘要模型,得到訓(xùn)練好的摘要模型,該訓(xùn)練好的摘要模型可以如圖2所示,此處不再贅述。
      [0158]其中,該多層深度神經(jīng)網(wǎng)絡(luò)模型可以將多態(tài)的高瑋度信息(例如圖像或者摘要信息)映射到一個共同的低瑋度空間,從而實現(xiàn)快速有效的檢索。
      [0159]可以理解的是,高維度定義為向量的長度很長,例如圖像的每個像素值作為一個維度,則尺寸500*500大小的圖像維度至少是250000。低瑋度的定義為向量長度較短,例如標簽集合T,一般只有幾千個標簽。因此,將高瑋度信息映射到低瑋度空間,可以實現(xiàn)快速有效的檢索。
      [0160]優(yōu)選的,若N = 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型可以如圖3所示,包括:
      [0161]圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0162]進一步的,若所述多層深度神經(jīng)網(wǎng)絡(luò)模型可以如圖3所示,則訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型(步驟S401)具體可以包括:
      [0163]S401a、訓(xùn)練服務(wù)器構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層。
      [0164]具體的,該第一三層神經(jīng)網(wǎng)絡(luò)可以如圖5所示。
      [0165]S401b、訓(xùn)練服務(wù)器對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wxl,JPWxl,d,其中,wxl,u表示所述圖像向量卷積層Xl的輸入層與所述圖像向量卷積層Xl之間的第一神經(jīng)元參數(shù);wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xl之間的第二神經(jīng)元參數(shù)。
      [0166]具體的,步驟S401b具體可以通過如下方式實現(xiàn):
      [0167]訓(xùn)練服務(wù)器以最小化重建誤差α 1| |f(x,ffxl,u, ffxl,d)-x Γ為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)^-和Wxl,d,其中,I I I I表示標準差,O < α I < I。
      [0168]其中,訓(xùn)練服務(wù)器可以利用無標簽訓(xùn)練數(shù)據(jù)和梯度下降迭代的方法對第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,目標為α 11 |f (X,Wxl,u,Wxl,d)-X I I2,從而獲得參數(shù)UP Wxl,d。
      [0169]需要說明的是,梯度下降迭代為一種優(yōu)化參數(shù)的方法,例如重建圖像和原始圖像的誤差就是梯度的一種度量,通過對目標函數(shù)求倒數(shù),得到更新參數(shù)的方程,該方程的主要變量就是上述誤差。通過更新參數(shù),可以使得下一次參數(shù)更新后誤差向小的方向變化。
      [0170]S401c、訓(xùn)練服務(wù)器構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層。
      [0171]具體的,該第二三層神經(jīng)網(wǎng)絡(luò)可以如圖6所示。
      [0172]S401d、訓(xùn)練服務(wù)器對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl,JPWyl,d,其中,wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù)。
      [0173]具體的,步驟S401d具體可以通過如下方式實現(xiàn):
      [0174]訓(xùn)練服務(wù)器以最小化重建誤差β 1| |f(y,ffyl,u, ffyl,d)-y Γ為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)評吣和Wyl,d,其中,O < β I < I。
      [0175]其中,訓(xùn)練服務(wù)器可以利用無標簽訓(xùn)練數(shù)據(jù)和梯度下降迭代的方法對第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,目標為β 1| |f(y,Wyl,u,Wyl,d)_y| I2,從而獲得參數(shù)Wyl,J口 Wyl,d。
      [0176]S401e、訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層?1,并根據(jù)所述11彳1:^、1吣和11彳對所述圖像向量卷積層乂1和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fl進行訓(xùn)練,獲得參數(shù)Ψ xl,u、W’ xl,d、W’ yl,u、r yl,d、Wflx,u、wflx,d、UP Wflyid,其中,W’ ^表示優(yōu)化后的第一神經(jīng)元參數(shù)-X xl,d表示優(yōu)化后的第二神經(jīng)元參數(shù).Χ吣表示優(yōu)化后的第三神經(jīng)元參數(shù);w’ yl,d表示優(yōu)化后的第四神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);1&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù);1£1“表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù)。
      [0177]具體的,三層神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型可以如圖7所示。步驟S401e具體可以通過如下方式實現(xiàn):
      [0178]訓(xùn)練服務(wù)器根據(jù)所述Wxl, u、Wxl, d、Wyl,,和Wyl, d,以最小化重建誤差α 11 |f (x,W’ xl,u,r Xi,d)-x |2+β 1| |f(y,r yl’u,r yl,d)-y Ι2+γ?| |f(xi,wflx’u,wflx’d)-f(yi,wfly’u,wfly’d) I 2為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,xl = f(x,
      r xl’u, r xi,d),yl = f(y.r yl’u, r yl’d),o < n < 1
      [0179]其中,訓(xùn)練服務(wù)器可以利用{圖像向量,摘要向量}對和梯度下降迭代的方法對圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fl進行訓(xùn)練,目標為 a Il |f(x,r xl,u,r Xl,d)-x |2+β 1| |f(y,r yl,u,r ylid)-y 2+nl |f(xi,wflXiU,wflx,d)-f(yi,Wfly,u,Wfly,d) 112。
      [0180]S401f、訓(xùn)練服務(wù)器構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層。
      [0181]具體的,該第一五層神經(jīng)網(wǎng)絡(luò)可以如圖8所示。
      [0182]S401g、訓(xùn)練服務(wù)器對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和ff x2,d,其中,wx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù)。
      [0183]具體的,步驟S401g具體可以通過如下方式實現(xiàn):
      [0184]訓(xùn)練服務(wù)器以最小化重建誤差a 2| |f (xl,Wx2,u,Wx2,d)-x| |2為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)wx2,u和Wx2,d,其中,O < α 2 < I。
      [0185]其中,訓(xùn)練服務(wù)器可以利用無標簽訓(xùn)練數(shù)據(jù)和梯度下降迭代的方法對第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,目標為a2| f (xl, ffx2iU, Wx2jd) -x I2,從而獲得參數(shù)Wx2, JP Wx2, d。
      [0186]S401h、訓(xùn)練服務(wù)器構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層。
      [0187]具體的,該第二三層神經(jīng)網(wǎng)絡(luò)可以如圖9所示。
      [0188]S4011、訓(xùn)練服務(wù)器對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù)。
      [0189]具體的,步驟S401i具體可以通過如下方式實現(xiàn):
      [0190]訓(xùn)練服務(wù)器以最小化重建誤差β2| f(yl,ffy2iU,Wy2id)-Y |2為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2,JPWy2,d,其中,O < β2 < I。
      [0191]S401j、訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層Χ2與所述摘要向量卷積層Τ2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、Wy2jP Wy2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)r x2,u、W’ x2,d、r y2,u、r y2,d、Wf2xiu, Wf2xid, Wf2y,,和 W f2y,d,其中,r 一表示優(yōu)化后的第九神經(jīng)元參數(shù);w’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù).Χ y2,u表示優(yōu)化后的第十一神經(jīng)元參數(shù);w’ y2,d表示優(yōu)化后的第十二神經(jīng)元參數(shù);1&-表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向圖像的第十三神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層Fl之間的面向圖像的第十四神經(jīng)元參數(shù)1%-表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向摘要的第十五神經(jīng)元參數(shù);Wf2y,d表示所述第一全連接層F2的輸出層與所述第一全連接層Fl之間的面向摘要的第十六神經(jīng)元參數(shù)。
      [0192]具體的,五層神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型可以如圖3所示。步驟S401j具體可以通過如下方式實現(xiàn):
      [0193]訓(xùn)練服務(wù)器根據(jù)所述12丨12,^口^2彳以最小化重建誤差a 2| |f(xl,W’x2,u,W,x2,d)-x |2+β2| |f(yl,W,y2’u,W,y2,d)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,
      (w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,
      r x2,u,W,x2,d),y2 = f(yi,r y2,u,r y2,d),o < γ2< 1
      [0194]其中,訓(xùn)練服務(wù)器可以利用{圖像向量,摘要向量}對和梯度下降迭代的方法對圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,目標為 a2| |f (xl,W,x2iU, Ψ x2id)-x |2+β2| |f(yl,W’ y2,u,Ψ y2.d)-y 2+T 2 |f(x2,
      Wf2X, u,Wf2x, d) (y2,Wf2y,u,Wf2y, d) I I。
      [0195]具體的,本發(fā)明實施例中,重建誤差的系數(shù)α 1、β 1、γ 1、α 2、β 2、γ 2為大于O小于 I 的實數(shù)。優(yōu)選的,α? = β I = γ I = α 2 = β 2 = γ2 = 0.5。
      [0196]需要說明的是,上述僅是示例性的提供一種訓(xùn)練副武器訓(xùn)練摘要模型,獲得如圖3所示的多層深度神經(jīng)網(wǎng)絡(luò)模型的具體實現(xiàn),當然,也可能存在其它的實現(xiàn)方法,本發(fā)明實施例對此不作具體限定。
      [0197]本發(fā)明實施例提供一種從圖片生成文本摘要的方法,包括:訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N多1,Ν為整數(shù);訓(xùn)練服務(wù)器向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型?;诒景l(fā)明實施例的上述方案,訓(xùn)練服務(wù)器可以訓(xùn)練摘要模型,并將該訓(xùn)練好的摘要模型發(fā)送給用戶設(shè)備。這樣,用戶設(shè)備可以根據(jù)該摘要模型從圖片生成文本摘要。一方面,由于用戶設(shè)備從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成數(shù)字圖像的文本摘要,與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,由于用戶設(shè)備從圖片生成數(shù)字圖像的文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0198]實施例三、
      [0199]本發(fā)明實施例提供一種用戶設(shè)備100,具體如圖10所示,所述用戶設(shè)備100包括:獲取單元101、處理單元102、生成單元103、轉(zhuǎn)化單元104、以及輸出單元105。
      [0200]所述獲取單元101,用于獲取數(shù)字圖像。
      [0201]所述處理單元102,用于將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X。
      [0202]所述生成單元103,用于將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備100的。
      [0203]所述轉(zhuǎn)化單元104,用于將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要。
      [0204]所述輸出單元105,用于輸出所述文本摘要。
      [0205]具體的,所述預(yù)先訓(xùn)練的摘要模型可以包括:
      [0206]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0207]優(yōu)選的,若N = 2,則所述預(yù)先訓(xùn)練的摘要模型包括:
      [0208]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0209]進一步的,所述生成單元103具體用于:
      [0210]將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層X2、以及所述第一全連接層F2后得到向量Z,所述向量Z再通過所述摘要向量卷積層T2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。
      [0211]進一步的,所述輸出單元105具體用于:
      [0212]通過所述用戶設(shè)備100的顯示模塊輸出所述文本摘要;
      [0213]或者,
      [0214]通過所述用戶設(shè)備100的語音模塊輸出所述文本摘要。
      [0215]具體的,通過本發(fā)明實施例提供的用戶設(shè)備100從圖片生成文本摘要的方法可參考實施例一的描述,本發(fā)明實施例在此不再贅述。
      [0216]本發(fā)明實施例提供一種用戶設(shè)備,包括:獲取單元獲取數(shù)字圖像;處理單元將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X ;生成單元將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的;轉(zhuǎn)化單元將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要;輸出單元輸出所述文本摘要。基于本發(fā)明實施例的上述方案,一方面,本發(fā)明實施例中,從圖片生成文本摘要時,用戶設(shè)備直接將數(shù)字圖像轉(zhuǎn)化為圖像向量,進而將圖像向量輸入到預(yù)先訓(xùn)練好的摘要模型,即可生成所述數(shù)字圖像的文本摘要。該過程與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,本發(fā)明實施例中,從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成所述數(shù)字圖像的文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0217]實施例四、
      [0218]本發(fā)明實施例提供一種訓(xùn)練服務(wù)器110,具體如圖11所示,所述訓(xùn)練服務(wù)器110包括訓(xùn)練單元111、發(fā)送單元112。
      [0219]所述訓(xùn)練單元111,用于訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N多1,N為整數(shù)。
      [0220]所述發(fā)送單元112,用于向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。
      [0221]優(yōu)選的,若N = 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括:
      [0222]圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0223]進一步的,所述訓(xùn)練單元111具體用于:
      [0224]構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層。
      [0225]對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wxl,d,其中,Wxl,u表示所述圖像向量卷積層Xl的輸入層與所述圖像向量卷積層Xl之間的第一神經(jīng)元參數(shù);Wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xl之間的第二神經(jīng)元參數(shù)。
      [0226]構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層。
      [0227]對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wyl,d,其中,Wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);Wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù)。
      [0228]構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述Wxl,u、Wxl,d、Wyl^P W yl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fi進行訓(xùn)練,獲得參數(shù)w’ xl,u、r xl,d、r yl,u、r yl,d、wflx,u、wflXid、wflyjpWflyid,其中,w’ ^表示優(yōu)化后的第一神經(jīng)元參數(shù);w’ xlid表示優(yōu)化后的第二神經(jīng)元參數(shù);胃’吣表示優(yōu)化后的第三神經(jīng)元參數(shù).χ &表示優(yōu)化后的第四神經(jīng)元參數(shù);wflx,u表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);胃&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù)示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù)。
      [0229]構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層。
      [0230]對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和Wx2,d,其中,Wx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù)。
      [0231]構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層。
      [0232]對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wy2,d,其中,Wy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù)。
      [0233]構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JP Wf2y,d,其中,W’ ^表示優(yōu)化后的第九神經(jīng)元參數(shù);W’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù);1%2-表示優(yōu)化后的第^^一神經(jīng)元參數(shù);Ψ y2id表示優(yōu)化后的第十二神經(jīng)元參數(shù);評&-表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向圖像的第十三神經(jīng)元參數(shù);1&,,表示所述第一全連接層?2的輸出層與所述第一全連接層Fl之間的面向圖像的第十四神經(jīng)元參數(shù);胃%』表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向摘要的第十五神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層Fl之間的面向摘要的第十六神經(jīng)元參數(shù)。
      [0234]進一步的,所述訓(xùn)練單元111具體用于:
      [0235]以最小化重建誤差a 1| |f(x,ffxl,u, ffxl,d)-x 12為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)U Wxlid,其中,Il Il表示標準差,O < α I < I。
      [0236]所述訓(xùn)練單元111具體用于:
      [0237]以最小化重建誤差β 1| |f(y,ffyl,u, ffyl,d)-y 12為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wyliu和Wyl,d,其中,O < β I < I。
      [0238]所述訓(xùn)練單元111具體用于:
      [0239]根據(jù)所述Wxl,u、Wxlid, Wyliu^P Wylid,以最小化重建誤差 α 11 f(x, ψ xl,u,r xi,d)-x |2+β i| |f(y,r yl’u,r yl,d)-y Ι2+γ?| |f(xi,wflx’u,wflx’d)-f(yi,wfly’u,wfly’d) I 2為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,xl = f(x,W,xl,u,r xl,d),yi = f(y,r yl,u,r yl,d),
      [0240]0 < γ I < I o
      [0241]進一步的,所述訓(xùn)練單元111具體用于:
      [0242]以最小化重建誤差α 2| I f (xl,Wx2,u,Wx2,d)-χ | 12為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2jP Wx2,d,其中,O < α 2 < I。
      [0243]所述訓(xùn)練單元111具體用于:
      [0244]以最小化重建誤差β2| f(yl,Wy2,u,Wy2,d)-y 12為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2,J口 Wy2,d,其中,O < β2 < I。
      [0245]所述訓(xùn)練單元111具體用于:
      [0246]根據(jù)所述Wx2,u、Wx2id, U Wy2id,以最小化重建誤差 α 2 I f(xl, Ψ x2,u,r x2,d)-x 2+β2 |f(yl,W,y2’u,W,y2,d)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,
      (w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,
      r x2,u,r x2,d),y2 = f(yi,r y2,u,r y2,d),o < 口 < I。
      [0247]優(yōu)選的,α?= β I = γ I = α 2 = β 2 = γ2 = 0.5。
      [0248]具體的,通過本發(fā)明實施例提供的訓(xùn)練服務(wù)器110從圖片生成文本摘要的方法可參考實施例一的描述,本發(fā)明實施例在此不再贅述。
      [0249]本發(fā)明實施例提供一種訓(xùn)練服務(wù)器,包括:訓(xùn)練單元訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N ^ 1,N為整數(shù);發(fā)送單元向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型?;诒景l(fā)明實施例的上述方案,訓(xùn)練服務(wù)器可以訓(xùn)練摘要模型,并將該訓(xùn)練好的摘要模型發(fā)送給用戶設(shè)備。這樣,用戶設(shè)備可以根據(jù)該摘要模型從圖片生成文本摘要。一方面,由于用戶設(shè)備從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成數(shù)字圖像的文本摘要,與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,由于用戶設(shè)備從圖片生成數(shù)字圖像的文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0250]實施例五、
      [0251]本發(fā)明實施例提供一種用戶設(shè)備120,具體如圖12所示,包括處理器121、輸出接P 122、通信接口 125、存儲器123和總線124。
      [0252]其中,所述處理器121具體可以是一個中央處理器(Central Processing Unit,簡稱:CPU),或者是特定集成電路(Applicat1n Specific Integrated Circuit,簡稱:ASIC)等,本發(fā)明實施例對此不作具體限定。
      [0253]所述存儲器123具體可以包含高速隨機存取存儲器(Random Access Memory,簡稱:RAM),也可能包含非易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器,本發(fā)明實施例對此不作具體限定。
      [0254]所述總線124具體可以是工業(yè)標準體系結(jié)構(gòu)(Industry Standard Architecture,簡稱:ISA)總線、外部設(shè)備互連(Peripheral Component Interconnect,簡稱:PCI)總線或擴展工業(yè)標準體系結(jié)構(gòu)(Extended Industry Standard Architecture,簡稱:EISA)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖12中僅用一條線表示,但并不表示僅有一根總線或一種類型的總線。
      [0255]所述總線124,用于所述處理器121,所述輸出接口 122、所述通信接口 125、所述存儲器123之間的連接通信。
      [0256]所述輸出接口 122,用于所述用戶設(shè)備120的輸出。
      [0257]所述通信接口 125,用于所述用戶設(shè)備120與外部的通信。
      [0258]所述處理器121,用于調(diào)用所述存儲器123中存儲的程序代碼1231,執(zhí)行下述操作:
      [0259]獲取數(shù)字圖像。
      [0260]將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X。
      [0261]將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備120,由所述用戶設(shè)備通過所述通信接口 125獲取的。
      [0262]將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要。
      [0263]通過所述輸出接口 122輸出所述文本摘要。
      [0264]具體的,所述預(yù)先訓(xùn)練的摘要模型可以包括:
      [0265]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。
      [0266]優(yōu)選的,若N = 2,則所述預(yù)先訓(xùn)練的摘要模型包括:
      [0267]多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0268]進一步的,所述處理器121具體用于:
      [0269]將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層X2、以及所述第一全連接層F2后得到向量Z,所述向量Z再通過所述摘要向量卷積層T2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。
      [0270]進一步的,所述通過所述輸出接口 122輸出所述文本摘要,包括:
      [0271]通過所述用戶設(shè)備120的顯示模塊輸出所述文本摘要;
      [0272]或者,
      [0273]通過所述用戶設(shè)備120的語音模塊輸出所述文本摘要。
      [0274]具體的,通過本發(fā)明實施例提供的用戶設(shè)備120從圖片生成文本摘要的方法可參考實施例一的描述,本發(fā)明實施例在此不再贅述。
      [0275]本發(fā)明實施例提供一種用戶設(shè)備,包括:用戶設(shè)備獲取數(shù)字圖像,將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X,將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,并將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要后,輸出所述文本摘要。基于本發(fā)明實施例的上述方案,一方面,本發(fā)明實施例中,從圖片生成文本摘要時,用戶設(shè)備直接將數(shù)字圖像轉(zhuǎn)化為圖像向量,進而將圖像向量輸入到預(yù)先訓(xùn)練好的摘要模型,即可生成所述數(shù)字圖像的文本摘要。該過程與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強;另一方面,本發(fā)明實施例中,從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成所述數(shù)字圖像的文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0276]實施例六、
      [0277]本發(fā)明實施例提供一種訓(xùn)練服務(wù)器130,具體如圖13所示,所述訓(xùn)練服務(wù)器130包括處理器131、通信接口 132、存儲器133和總線134。
      [0278]其中,所述處理器131具體可以是一個CPU,或者是ASIC等,本發(fā)明實施例對此不作具體限定。
      [0279]所述存儲器133具體可以包含RAM,也可能包含非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器,本發(fā)明實施例對此不作具體限定。
      [0280]所述總線134具體可以是ISA總線、PCI總線或EISA總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖13中僅用一條線表示,但并不表示僅有一根總線或一種類型的總線。
      [0281]所述總線134,用于所述處理器131,所述通信接口 132、所述存儲器133之間的連接通信。
      [0282]所述通信接口 132,用于所述訓(xùn)練服務(wù)器130與外部的通信。
      [0283]所述處理器131,用于調(diào)用所述存儲器133中的存儲的程序代碼1331,執(zhí)行下述操作:
      [0284]訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N多1,N為整數(shù)。
      [0285]通過所述通信接口 135向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。
      [0286]優(yōu)選的,若N = 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括:
      [0287]圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。
      [0288]進一步的,所述處理器131具體用于:
      [0289]構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層。
      [0290]對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wxl,d,其中,Wxl,u表示所述圖像向量卷積層Xi的輸入層與所述圖像向量卷積層Xi之間的第一神經(jīng)元參數(shù);wxl,d表示所述圖像向量卷積層Xi的輸出層與所述圖像向量卷積層Xi之間的第二神經(jīng)元參數(shù)。
      [0291]構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層。
      [0292]對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wyl,d,其中,Wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù)。
      [0293]構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述wxl,u、Wxl,d、Wyl^P W yl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fi進行訓(xùn)練,獲得參數(shù)w’ xl,u、r xl,d、r yl,u、r yl,d、wflx,u、wflXid、wflyjpWflyid,其中,w’ ^表示優(yōu)化后的第一神經(jīng)元參數(shù);w’ xlid表示優(yōu)化后的第二神經(jīng)元參數(shù);胃’吣表示優(yōu)化后的第三神經(jīng)元參數(shù).χ &表示優(yōu)化后的第四神經(jīng)元參數(shù);wflx,u表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);胃&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù)示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù)。
      [0294]構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層。
      [0295]對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和Wx2,d,其中,Wx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù)。
      [0296]構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層。
      [0297]對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)UP Wy2,d,其中,Wy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù)。
      [0298]構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JP Wf2y,d,其中,W’ ^表示優(yōu)化后的第九神經(jīng)元參數(shù);W’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù);1%2-表示優(yōu)化后的第^^一神經(jīng)元參數(shù);Ψ y2id表示優(yōu)化后的第十二神經(jīng)元參數(shù);評&-表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向圖像的第十三神經(jīng)元參數(shù);1&,,表示所述第一全連接層?2的輸出層與所述第一全連接層Fl之間的面向圖像的第十四神經(jīng)元參數(shù);胃%』表示所述第一全連接層F2的輸入層與所述第一全連接層Fl之間的面向摘要的第十五神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層Fl之間的面向摘要的第十六神經(jīng)元參數(shù)。
      [0299]進一步的,所述處理器131具體用于:
      [0300]以最小化重建誤差a 1| |f(x,ffxl,u, ffxl,d)-x 12為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)U Wxlid,其中,Il Il表示標準差,O < α I < I。
      [0301]所述處理器131具體用于:
      [0302]以最小化重建誤差β 1| |f(y,Wyl,u,ffyl,d)-y 12為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wyliu和Wyl,d,其中,O < β I < I。
      [0303]所述處理器131具體用于:
      [0304]根據(jù)所述Wxl,u、Wxlid, Wyliu^P Wylid,以最小化重建誤差 α 11 f(x, ψ xl u,r Xi,d)-x |2+β 1| |f(y,r yl’u,r yl,d)-y Ι2+γ?| |f(xi,wflx’u,wflx’d)-f(yi,wfly’u,wfly’d) I 2為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,xl = f(x,
      w,xl’u,w;i,d),yi = f(y,w,yliU, w,yl’d),
      [0305]0 < γ I < I o
      [0306]進一步的,所述處理器131具體用于:
      [0307]以最小化重建誤差a 2| |f (xl,Wx2,u,Wx2,d)-X| 12為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2jp wx2,d,其中,O < α 2 < I。
      [0308]所述處理器131具體用于:
      [0309]以最小化重建誤差β2| f(yl,Wy2,u,Wy2,d)-y 12為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2,J口 Wy2,d,其中,O < β2 < I。
      [0310]所述處理器131具體用于:
      [0311]根據(jù)所述Wx2,u、Wx2id, U ff y2id,以最小化重建誤差 α 2 | f(xl, Ψ x2,u,W,x2,d)-x |2+β2| |f(yl,W,y2’u,W,y2,d)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,
      (w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,
      r x2,u,r x2,d),y2 = f(yi,r y2,u,r y2,d),o < 口 < I。
      [0312]優(yōu)選的,α?= β I = γ I = α 2 = β 2 = γ2 = 0.5。
      [0313]具體的,通過本發(fā)明實施例提供的訓(xùn)練服務(wù)器130從圖片生成文本摘要的方法可參考實施例一的描述,本發(fā)明實施例在此不再贅述。
      [0314]本發(fā)明實施例提供一種訓(xùn)練服務(wù)器,包括:訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N ^ 1,N為整數(shù);向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。基于本發(fā)明實施例的上述方案,訓(xùn)練服務(wù)器可以訓(xùn)練摘要模型,并將該摘要模型發(fā)送給用戶設(shè)備。這樣,用戶設(shè)備可以根據(jù)該摘要模型從圖片生成文本摘要。一方面,由于用戶設(shè)備從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成數(shù)字圖像的文本摘要,與圖片本身的內(nèi)容無關(guān),比如,不依賴于圖片畫面的相似性,因此通用性較強?’另一方面,由于用戶設(shè)備從圖片生成文本摘要時,可以根據(jù)預(yù)先訓(xùn)練好的摘要模型生成數(shù)字圖像的文本摘要,并不需要相關(guān)設(shè)備聯(lián)網(wǎng),因此減輕了網(wǎng)絡(luò)的依賴性。
      [0315]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
      [0316]在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
      [0317]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
      [0318]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
      [0319]所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
      [0320]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。
      【主權(quán)項】
      1.一種從圖片生成文本摘要的方法,其特征在于,所述方法包括: 用戶設(shè)備獲取數(shù)字圖像; 所述用戶設(shè)備將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X; 所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的; 所述用戶設(shè)備將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要; 所述用戶設(shè)備輸出所述文本摘要。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)先訓(xùn)練的摘要模型包括: 多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,若N= 2,則所述預(yù)先訓(xùn)練的摘要模型包括: 多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,包括: 所述用戶設(shè)備將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層X1、所述圖像向量卷積層X2、以及所述第一全連接層F2后得到向量Z,所述向量Z再通過所述摘要向量卷積層T2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,所述用戶設(shè)備輸出所述文本摘要,包括: 所述用戶設(shè)備通過所述用戶設(shè)備的顯示模塊輸出所述文本摘要; 或者, 所述用戶設(shè)備通過所述用戶設(shè)備的語音模塊輸出所述文本摘要。6.一種從圖片生成文本摘要的方法,其特征在于,所述方法包括: 訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù); 所述訓(xùn)練服務(wù)器向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,若N= 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括: 圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層Χ2、所述第一全連接層F2、所述摘要向量卷積層Τ2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述訓(xùn)練服務(wù)器訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,包括: 所述訓(xùn)練服務(wù)器構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層; 所述訓(xùn)練服務(wù)器對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wxl,jP W xl,d,其中,Wxl,u表示所述圖像向量卷積層Xl的輸入層與所述圖像向量卷積層Xl之間的第一神經(jīng)元參數(shù);Wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xl之間的第二神經(jīng)元參數(shù); 所述訓(xùn)練服務(wù)器構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層; 所述訓(xùn)練服務(wù)器對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl,jp W yl,d,其中,Wyl,u表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù); 所述訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層Xi與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述Wxl,u、Wxl,d、Wyl,JP Wyl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fl進行訓(xùn)練,獲得參數(shù)W’ xl,u、W’ xl,d、W’ yl,u、W’ yl,d、wflx,u、wflx,d、wflyjp Wflyid,其中,r ―表示優(yōu)化后的第一神經(jīng)元參數(shù);w’ xl,d表示優(yōu)化后的第二神經(jīng)元參數(shù);w’吣表示優(yōu)化后的第三神經(jīng)元參數(shù);w’ yl,d表示優(yōu)化后的第四神經(jīng)元參數(shù);胃£1:^表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);胃£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);1&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù);1£1“表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù); 所述訓(xùn)練服務(wù)器構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層; 所述訓(xùn)練服務(wù)器對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2,u和W x2,d,其中,ffx2,u表示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù); 所述訓(xùn)練服務(wù)器構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層; 所述訓(xùn)練服務(wù)器對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wy2,u和W y2,d,其中,ffy2,u表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù); 所述訓(xùn)練服務(wù)器構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、%2JO W y2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)Ψ x2,u、W’ x2,d、W’ y2,u、r y2,d、Wf2x,u、Wf2xid, Wf2yJP Wf2yid,其中,r ^表示優(yōu)化后的第九神經(jīng)元參數(shù);w’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù);w’ y2,u表示優(yōu)化后的第十一神經(jīng)元參數(shù).χ y2,d表示優(yōu)化后的第十二神經(jīng)元參數(shù);1&-表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向圖像的第十三神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向圖像的第十四神經(jīng)元參數(shù);胃%-表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向摘要的第十五神經(jīng)元參數(shù);胃%,,表示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向摘要的第十六神經(jīng)元參數(shù)。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述訓(xùn)練服務(wù)器對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wxl, JP W xljd,包括: 所述訓(xùn)練服務(wù)器以最小化重建誤差α 1| |f(X,wxl,u, Wxld)-X I I2為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)^-和Wxl,d,其中,I I I I表示標準差,O < α I < I ;所述訓(xùn)練服務(wù)器對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl,jP ff yl,d,包括:所述訓(xùn)練服務(wù)器以最小化重建誤差P1I |f(y,Wyl,u,Wyl,d)_y| Γ為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)U Wylid,其中,O < β I < I ; 所述訓(xùn)練服務(wù)器根據(jù)所述wxl,u、Wxl,d、Wyl,JP Wyl,d,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fl進行訓(xùn)練,獲得參數(shù)胃’:(1』、¥’:!1丨W,yl,u、W’ yl,d、Wflx,u、Wflx,d、Wfly,JPWfly,d,包括: 所述訓(xùn)練服務(wù)器根據(jù)所述Wxl, u、Wxl, d、Wyl, JP Wyl, d,以最小化重建誤差Ct1I |f(x,w’ xliU,W,xi,d) -x Ι2+β 11 |f(y,w,yliU, w,ylid) -y 2+Y11 |f(xi,wfix’u,Wnxid) -f (yi, Wfly’u,Wflyj d) I為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,Xl = f(x,r xi,r xi,d),yi = f(y.r yl’u, r yl’d) ,0 < γ 1 < 1。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述訓(xùn)練服務(wù)器對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)wx2, JP ff x2jd,包括: 所述訓(xùn)練服務(wù)器以最小化重建誤差a2| |f(xl,Wx2,u,Wx2,d)-X| I2為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2,u和Wx2,d,其中,O < α 2 < I ; 所述訓(xùn)練服務(wù)器對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wy2jP ff y2,d,包括:所述訓(xùn)練服務(wù)器以最小化重建誤差β2| |f(yl,Wy2,u,Wy2,d)-y| Γ為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2,JPWy2,d,其中,O < β2 < I ; 所述訓(xùn)練服務(wù)器根據(jù)所述Wx2,u、Wx2,d、Wy2,JP Wy2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)r x2,u、W’ x2,d、W,y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,,和 Wf2y,d,包括: 所述訓(xùn)練服務(wù)器根據(jù)所述WdAu和Wy2,d,以最小化重建誤差a 2| If (xl,W’x2,u,W,x2id)-x |2+β2| |f(yl,W,y2’u,W,y2id)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,(w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,r x2,u,W,x2,d),y2 = f(yi,r y2,u,r y2,d),o < γ2< 111.根據(jù)權(quán)利要求10所述的方法,其特征在于, α I = β I = γ I = α 2 = β 2 = γ2 = 0.5。12.—種用戶設(shè)備,其特征在于,所述用戶設(shè)備包括:獲取單元、處理單元、生成單元、轉(zhuǎn)化單元、以及輸出單元; 所述獲取單元,用于獲取數(shù)字圖像; 所述處理單元,用于將所述數(shù)字圖像進行預(yù)處理,得到所述數(shù)字圖像的圖像向量X ;所述生成單元,用于將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,生成所述數(shù)字圖像的摘要向量,其中,所述摘要模型為訓(xùn)練服務(wù)器訓(xùn)練后發(fā)送給所述用戶設(shè)備的; 所述轉(zhuǎn)化單元,用于將所述摘要向量轉(zhuǎn)化為所述數(shù)字圖像的文本摘要; 所述輸出單元,用于輸出所述文本摘要。13.根據(jù)權(quán)利要求12所述的用戶設(shè)備,其特征在于,所述預(yù)先訓(xùn)練的摘要模型包括: 多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù)。14.根據(jù)權(quán)利要求13所述的用戶設(shè)備,其特征在于,若N= 2,則所述預(yù)先訓(xùn)練的摘要模型包括: 多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、圖像向量卷積層Xl和圖像向量卷積層Χ2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層Τ2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層Χ2、所述第一全連接層F2、所述摘要向量卷積層Τ2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。15.根據(jù)權(quán)利要求14所述的用戶設(shè)備,其特征在于,所述生成單元具體用于: 將所述圖像向量X輸入到預(yù)先訓(xùn)練好的摘要模型,所述圖像向量X經(jīng)過所述圖像向量卷積層Xl、所述圖像向量卷積層Χ2、以及所述第一全連接層F2后得到向量Ζ,所述向量Z再通過所述摘要向量卷積層Τ2與所述摘要向量卷積層Tl,輸出所述數(shù)字圖像的摘要向量Y。16.根據(jù)權(quán)利要求12-15任一項所述的用戶設(shè)備,其特征在于,所述輸出單元具體用于: 通過所述用戶設(shè)備的顯示模塊輸出所述文本摘要; 或者, 通過所述用戶設(shè)備的語音模塊輸出所述文本摘要。17.—種訓(xùn)練服務(wù)器,其特征在于,所述訓(xùn)練服務(wù)器包括訓(xùn)練單元、發(fā)送單元; 所述訓(xùn)練單元,用于訓(xùn)練摘要模型,獲得訓(xùn)練好的摘要模型,所述訓(xùn)練好的摘要模型包括:多層深度神經(jīng)網(wǎng)絡(luò)模型,所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括圖像向量層、N個圖像向量卷積層、第一全連接層、N個摘要向量卷積層、以及摘要向量層,其中,所述圖像向量層、所述N個圖像向量卷積層、所述第一全連接層、所述N個摘要向量卷積層、以及所述摘要向量層順次相連,N彡1,N為整數(shù); 所述發(fā)送單元,用于向用戶設(shè)備發(fā)送所述訓(xùn)練好的摘要模型。18.根據(jù)權(quán)利要求17所述的訓(xùn)練服務(wù)器,其特征在于,若N= 2,則所述多層深度神經(jīng)網(wǎng)絡(luò)模型包括: 圖像向量層、圖像向量卷積層Xl和圖像向量卷積層X2、第一全連接層F2、摘要向量卷積層Tl和摘要向量卷積層T2,其中,所述圖像向量層、所述圖像向量卷積層X1、所述圖像向量卷積層X2、所述第一全連接層F2、所述摘要向量卷積層T2、所述摘要向量卷積層Tl、以及所述摘要向量層順次相連。19.根據(jù)權(quán)利要求18所述的訓(xùn)練服務(wù)器,其特征在于,所述訓(xùn)練單元具體用于: 構(gòu)建第一三層神經(jīng)網(wǎng)絡(luò),所述第一三層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述圖像向量卷積層XI,第三層為圖像向量重建層; 對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wxl,jp W xl,d,其中,評^-表示所述圖像向量卷積層Xi的輸入層與所述圖像向量卷積層Xi之間的第一神經(jīng)元參數(shù);wxl,d表示所述圖像向量卷積層Xl的輸出層與所述圖像向量卷積層Xi之間的第二神經(jīng)元參數(shù); 構(gòu)建第二三層神經(jīng)網(wǎng)絡(luò),所述第二三層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為摘要向量重建層; 對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wyl,jp W yl,d,其中,評^-表示所述摘要向量卷積層Tl的輸入層與所述摘要向量卷積層Tl之間的第三神經(jīng)元參數(shù);wyl,d表示所述摘要向量卷積層Tl的輸出層與所述摘要向量卷積層Tl之間的第四神經(jīng)元參數(shù); 構(gòu)建所述圖像向量卷積層Xl與所述摘要向量卷積層Tl的第二全連接層F1,并根據(jù)所述Wxl,u、Wxlid、WyliJP ff ylid,對所述圖像向量卷積層Xl和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層Fi進行訓(xùn)練,獲得參數(shù)w’ xl,u、r xl,d、r yl,u、r yl,d、wflx,u、wflx,d、Wfly,u和Wfly,d,其中,r _表示優(yōu)化后的第一神經(jīng)元參數(shù);w’ xl,d表示優(yōu)化后的第二神經(jīng)元參數(shù);w’吣表示優(yōu)化后的第三神經(jīng)元參數(shù);w’吣表示優(yōu)化后的第四神經(jīng)元參數(shù);wflx,^示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向圖像的第五神經(jīng)元參數(shù);1£1:^表示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向圖像的第六神經(jīng)元參數(shù);胃&』表示所述第二全連接層Fl的輸入層與所述第二全連接層Fl之間的面向摘要的第七神經(jīng)元參數(shù)示所述第二全連接層Fl的輸出層與所述第二全連接層Fl之間的面向摘要的第八神經(jīng)元參數(shù); 構(gòu)建第一五層神經(jīng)網(wǎng)絡(luò),所述第一五層神經(jīng)網(wǎng)絡(luò)的第一層為所述圖像向量層,第二層為所述向量卷積層XI,第三層為所述向量卷積層X2,第四層為所述向量卷積層XI,第五層為圖像向量重建層; 對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)Wx2jP W x2,d,其中,Wx2,^示所述圖像向量卷積層X2的輸入層與所述圖像向量卷積層X2之間的第九神經(jīng)元參數(shù);Wx2,d表示所述圖像向量卷積層X2的輸出層與所述圖像向量卷積層X2之間的第十神經(jīng)元參數(shù); 構(gòu)建第二五層神經(jīng)網(wǎng)絡(luò),所述第二五層神經(jīng)網(wǎng)絡(luò)的第一層為所述摘要向量層,第二層為所述摘要向量卷積層Tl,第三層為所述摘要向量卷積層T2,第四層為所述摘要向量卷積層Tl,第五層為摘要向量重建層; 對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得參數(shù)U Wy 2彳其中,胃吣表示所述摘要向量卷積層T2的輸入層與所述摘要向量卷積層T2之間的第十一神經(jīng)元參數(shù);Wy2,d表示所述摘要向量卷積層T2的輸出層與所述摘要向量卷積層T2之間的第十二神經(jīng)元參數(shù); 構(gòu)建所述圖像向量卷積層X2與所述摘要向量卷積層T2的所述第一全連接層F2,并根據(jù)所述Wx2,u、Wx2,d、Wy2^P ff y2,d,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層F2進行訓(xùn)練,獲得參數(shù)w’ x2,u、r x2,d、r y2,u、r y2,d、wf2x,u、wf2x,d、wf2yjp wf2y,d,其中,w’ ^表示優(yōu)化后的第九神經(jīng)元參數(shù);w’ x2,d表示優(yōu)化后的第十神經(jīng)元參數(shù);1%2-表示優(yōu)化后的第^^一神經(jīng)元參數(shù);Ψ y2id表示優(yōu)化后的第十二神經(jīng)元參數(shù);評&-表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向圖像的第十三神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向圖像的第十四神經(jīng)元參數(shù);胃%』表示所述第一全連接層F2的輸入層與所述第一全連接層F2之間的面向摘要的第十五神經(jīng)元參數(shù)示所述第一全連接層F2的輸出層與所述第一全連接層F2之間的面向摘要的第十六神經(jīng)元參數(shù)。20.根據(jù)權(quán)利要求19所述的訓(xùn)練服務(wù)器,其特征在于,所述訓(xùn)練單元具體用于; 以最小化重建誤差a Il |f(x,Wxl,u,Wxl,d)-X| I為目標,對所述第一三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wxliu和Wxlid,其中,11 11表示標準差,O < α I < I; 所述訓(xùn)練單元具體用于: 以最小化重建誤差β 1| |f(y,wyl,u, ffyl,d)-y Γ為目標,對所述第二三層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wyl, J口 Wylid,其中,O < β I < I ; 所述訓(xùn)練單元具體用于: 根據(jù)所述 Wxl,U、Wxl,d、WyliJP ff yl,d,以最小化重建誤差 a Il |f(x,ψ xl u,W,Xl,d)-x |2+β 1| |f(y,r yl’u,r yl,d)-y 2+T 11 I f (xl, WflXiU, ffflXid)-f (yl, Wfly, u, Wfly, d) I 2為目標,對所述圖像向量卷積層Xi和所述摘要向量卷積層Tl進行優(yōu)化、以及對所述第二全連接層 Fl 進行訓(xùn)練,獲得參數(shù) W’ xl,u、W’ xl,d、W’ yl,u、W’ yl, d、Wflx,U、Wflx, d、Wfly,^ Wfly,d,其中,(W,xi,u)初始=WX1,U,(w,xi,d)初始=Wxl,d,(W,yl,u)初始=ffy1.u, (w,yi,d)初始=Wyl,d,xl = f(x,W,xl,u,r xl,d),yi = f(y,r yl,u,r yl,d),0 < γ I < I。21.根據(jù)權(quán)利要求20所述的訓(xùn)練服務(wù)器,其特征在于,所述訓(xùn)練單元具體用于: 以最小化重建誤差a 2| If (xl,ffx2,u, Wx2,d)-X I為目標,對所述第一五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wx2iu和Wx2id,其中,O < α 2 < I ; 所述訓(xùn)練單元具體用于; 以最小化重建誤差β2| |f(yl,Wy2,u,Wy2,d)-y| Γ為目標,對所述第二五層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得所述參數(shù)Wy2,J口 Wy2id,其中,O < β2 < I ; 所述訓(xùn)練單元具體用于: 根據(jù)所述Wx2,u、Wx2,d、W y2,d,以最小化重建誤差a 2| f(xl, Ψ x2,u,r x2,d)-x 2+β2 |f(yl,W,y2’u,W,y2id)-y 2+T 2 f (x2, Wf2x, u, Wf2x, d)-f (y2, Wf2y, u, Wf2y, d) | 2為目標,對所述圖像向量卷積層X2和所述摘要向量卷積層T2進行優(yōu)化、以及對所述第一全連接層 F2 進行訓(xùn)練,獲得參數(shù) W’ x2,u、W’ x2,d、W’ y2,u、W’ y2,d、Wf2x,u、Wf2x,d、Wf2y,JPWf2y,d,其中,(w,X2’J初始=Wx2’u,(W,x2’d)初始=wx2,d,(w,y2’u)初始=wy2,u,(r y2’d)初始=Wy2id, χ2 = f (xl,W,x2,u,w,x2,d),y2 = f(yl,r y2,u,W,y2,d),0 < γ2< 1022.根據(jù)權(quán)利要求21所述的訓(xùn)練服務(wù)器,其特征在于, α I = β I = γ I = α 2 = β 2 = γ2 = 0.5。
      【文檔編號】G06N3/02GK105989067SQ201510068418
      【公開日】2016年10月5日
      【申請日】2015年2月9日
      【發(fā)明人】陳嘉, 曾嘉
      【申請人】華為技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1