本發(fā)明大體上涉及計算技術(shù),并且更具體地涉及用于自動進行對圖像相關(guān)問題的問答任務(wù)并改進人機對接的系統(tǒng)和方法。
背景技術(shù):
存在的問題是如何自動回答與圖像相關(guān)的問題。雖然已經(jīng)嘗試了使用深度學(xué)習(xí)來使回答問題的過程自動進行,但是仍需顯著的提高。
因此,需要的是提供更有效且更準(zhǔn)確的方式來自動回答與圖像相關(guān)的問題的系統(tǒng)和方法。
技術(shù)實現(xiàn)要素:
本申請?zhí)峁┝艘环N改進對問題輸入生成的答案的準(zhǔn)確性的計算機實施的方法、一種對圖像相關(guān)的問題生成答案的計算機實施的方法、以及一種改進對問題輸入生成的答案的準(zhǔn)確性的裝置
根據(jù)本申請的一方面,提供了一種改進對問題輸入生成的答案的準(zhǔn)確性的計算機實施的方法包括:接收圖像輸入;接收與圖像輸入相關(guān)的問題輸入;將問題輸入和圖像輸入輸入到基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架中以生成答案,基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架包括:圖像特征圖提取組件,包括從圖像輸入提取圖像特征圖的卷積神經(jīng)網(wǎng)絡(luò);語義問題嵌入組件,從問題輸入獲得問題嵌入;經(jīng)問題引導(dǎo)的關(guān)注圖生成組件,接收圖像特征圖和問題嵌入,并且獲得集中于問題輸入所詢問的區(qū)域或多個區(qū)域的經(jīng)問題引導(dǎo)的關(guān)注圖;以及答案生成組件,通過使用經(jīng)問題引導(dǎo)的關(guān)注圖加權(quán)圖像特征圖,獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,并且基于圖像特征圖、問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合來生成答案。
根據(jù)本申請的另一方面,提供了一種對圖像相關(guān)的問題生成答案的計算機實施的方法,包括:使用深層卷積神經(jīng)網(wǎng)絡(luò)從包括多個像素的輸入圖像提取圖像特征圖;使用長短期存儲器層從與輸入圖像相關(guān)的輸入問題中獲得密集問題嵌入;通過將密集問題嵌入從語義空間投影到視覺空間來產(chǎn)生多個經(jīng)問題配置的內(nèi)核;將經(jīng)問題配置的內(nèi)核與圖像特征圖卷積以生成經(jīng)問題引導(dǎo)的關(guān)注圖;通過使用經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)圖像特征圖,在多類別分類器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,經(jīng)關(guān)注加權(quán)的圖像特征圖降低與輸入問題不相關(guān)的區(qū)域的權(quán)重;以及基于圖像特征圖、密集問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合對輸入問題生成答案。
根據(jù)本申請的再一方面,提供了一種改進對問題輸入生成的答案的準(zhǔn)確性的裝置,包括:響應(yīng)于接收問題輸入提取所述問題輸入的密集問題嵌入的裝置;響應(yīng)于接收與所述問題輸入相關(guān)的圖像輸入生成圖像特征圖的裝置;至少基于所述圖像特征圖和所述密集問題嵌入生成經(jīng)問題引導(dǎo)的關(guān)注圖的裝置,所述經(jīng)問題引導(dǎo)的關(guān)注圖選擇性地集中于所述問題輸入所詢問的區(qū)域上;使用所述經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)所述圖像特征圖以獲得經(jīng)關(guān)注加權(quán)的圖像特征圖的裝置;以及將語義信息、所述圖像特征圖和所述經(jīng)關(guān)注加權(quán)的圖像特征圖融合以對所述問題輸入生成答案的裝置。
附圖說明
將參考本發(fā)明的實施方式,它們的示例可示于附圖中。這些附圖旨在是說明性的而非限制性的。雖然本發(fā)明大體上在這些實施方式的上下文中描述,但應(yīng)理解,本發(fā)明的范圍并不旨在限于這些特定實施方式。附圖中的項目未按比例繪制。
圖1示出根據(jù)本公開的實施方式的視覺問答中的關(guān)注的問題。
圖2描繪根據(jù)本公開的實施方式的示例性流程或框架。
圖3描繪根據(jù)本公開的實施方式的用于詢問處理的LSTM框架的實施方式的細節(jié)。
圖4描繪根據(jù)本公開的實施方式的基于關(guān)注加權(quán)圖像(attention weighted image)的答案生成的示例性流程圖。
圖5描繪根據(jù)本公開的實施方式的用于生成關(guān)注加權(quán)圖像的示例性流程圖。
圖6描繪根據(jù)本公開的實施方式的一些示例圖像以及對應(yīng)QA對,每個圖像以其相應(yīng)數(shù)據(jù)集的編號標(biāo)識。
圖7示出根據(jù)本公開的實施方式的具有圖像相關(guān)問題與在Toronto COCO-QA數(shù)據(jù)集中通過ABC-CNN生成的經(jīng)問題引導(dǎo)的關(guān)注圖的所選圖像。
圖8描繪根據(jù)本公開的實施方式的計算設(shè)備/信息處理系統(tǒng)的簡化框圖。
具體實施方式
在以下描述中,出于解釋目的,闡明具體細節(jié)以便提供對本發(fā)明的理解。然而,將對本領(lǐng)域的技術(shù)人員顯而易見的是,可在沒有這些細節(jié)的情況下實踐本發(fā)明。此外,本領(lǐng)域的技術(shù)人員將認識到,下文描述的本發(fā)明的實施方式可以以各種方式(例如過程、裝置、系統(tǒng)、設(shè)備或方法)在非瞬時計算機可讀介質(zhì)上實施。
附圖中示出的組件或是模塊是本發(fā)明實施方式的示例性說明,并且意圖避免使本發(fā)明不清楚。還應(yīng)理解,在本論述的全文中,組件可描述為單獨的功能單元(可包括子單元),但是本領(lǐng)域的技術(shù)人員將認識到,各種組件或其部分可劃分成單獨組件,或者可整合在一起(包括整合在單個的系統(tǒng)或組件內(nèi))。應(yīng)當(dāng)關(guān)注,本文論述的功能或操作可實施為組件。組件可以以軟件、硬件、或它們的組合實施。
此外,附圖內(nèi)的組件或系統(tǒng)之間的連接并不旨在限于直接連接。相反,在這些組件之間的數(shù)據(jù)可由中間組件修改、重格式化、或以其他方式改變。另外,可以使用另外或更少的連接。還應(yīng)關(guān)注,術(shù)語“聯(lián)接”、“連接”、或“通信地聯(lián)接”應(yīng)理解為包括直接連接、通過一個或多個中間設(shè)備來進行的間接連接、和無線連接。
在本說明書中對“一個實施方式”、“優(yōu)選實施方式”、“實施方式”、“多個實施方式”的提及表示結(jié)合實施方式所描述的具體特征、結(jié)構(gòu)、特性或功能包括在本發(fā)明的至少一個實施方式中。另外,在本說明書的各個地方出現(xiàn)以上所提到的短語并不一定全都是指相同的實施方式或多個相同實施方式。
在本說明書的各個地方使用某些術(shù)語目的在于說明,并且不應(yīng)被理解為限制。服務(wù)、功能或資源并不限于單個服務(wù)、單個功能或單個資源;這些術(shù)語的使用可指代相關(guān)服務(wù)、功能或資源的可分布或聚合的分組。術(shù)語“包括”、“包括有”、“包含”、“包含有”應(yīng)理解為開放性的術(shù)語,并且其后任何列出內(nèi)容都是實例,而不旨在限于所列項目。術(shù)語“圖像”應(yīng)理解為包括靜態(tài)圖像或視頻圖像。本文所使用的任何標(biāo)題僅是為了組織目的,并且不應(yīng)被用于限制說明書或權(quán)利要求的范圍。本專利文獻中提到的每個參考文獻以其全文通過引用并入本文。
此外,本領(lǐng)域的技術(shù)人員應(yīng)認識到,(1)某些步驟可以可選地執(zhí)行;(2)步驟可不限于本文所闡述的特定次序;(3)某些步驟可以以不同次序執(zhí)行;以及(4)某些步驟可同時地進行。
A.介紹
視覺問答(VQA)是計算機視覺化、自然語言處理和機器學(xué)習(xí)的積極跨學(xué)科性研究領(lǐng)域。給定圖像以及與圖像相關(guān)的自然語言問題,VQA使用自然語句回答問題。VQA不僅是構(gòu)建人工智能的基本步驟,也對許多應(yīng)用(例如圖像檢索、盲人導(dǎo)航和兒童早教)極為重要。VQA是一項有挑戰(zhàn)的任務(wù),因為它要求復(fù)雜的計算視覺技術(shù)以深層理解圖像,還要求先進的自然語言處理技術(shù)以提取問題含義,并且要求統(tǒng)一框架來有效地整合視覺信息和語義信息。
目前,大多數(shù)的現(xiàn)有技術(shù)VQA模型包含視覺部分、自然語言部分和答案生成部分。視覺部分利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[參見例如Y·A·樂村(Y.A.LeCun)、L·伯特(L.Bottou)、G·B·奧爾(G.B.Orr)和K·R·穆勒(K.R.Muller),“有效BackProp”(Efficient Backprop),《神經(jīng)網(wǎng)絡(luò):技巧》(Neural networks:Tricks of the trade)),第9–48頁,施普林格出版公司(Springer),2012]或傳統(tǒng)的視覺特征提取器從輸入圖像中提取視覺特征。自然語言部分利用Bag-of-Word模型或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[參見例如S·霍奇瑞特(S.Hochreiter)和J·施密哈勃(J.Schmidhuber),“長短期存儲器(Long short-term memory)”,《神經(jīng)計算》(Neural computation),9(8):1735–1780,1997]模型學(xué)習(xí)密集問題嵌入(dense question embedding)以對問題語義進行編碼。答案生成部分在給定視覺特征和問題嵌入的情況下,生成答案。答案可為通過多類別分類器來生成的單字詞答案或為通過另外的RNN解碼器來生成的完整句子。全局視覺特征和密集問題嵌入通過線性/非線性的聯(lián)合投影整合。這種整合通常并不足以充分利用視覺部分與問題理解部分之間的關(guān)系。
在本文中呈現(xiàn)新的基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)(ABC-CNN)的實施方式作為統(tǒng)一框架,它將VQA的視覺信息和語義信息整合。當(dāng)試圖回答與圖像相關(guān)的問題時,人們趨于在給出答案前集中于根據(jù)問題意向的信息區(qū)域上。例如,在圖1中,就詢問“外套是什么顏色的?”而言,人們通常在判斷外套顏色以回答問題之前找出外套區(qū)域。找出這些區(qū)域的機制是稱為經(jīng)問題引導(dǎo)的關(guān)注,因為這些區(qū)域通過圖像以及圖像相關(guān)的問題兩者確定。
給定圖像以及圖像相關(guān)的問題,所提出的框架不僅生成自然語言答案,而且還提供經(jīng)問題引導(dǎo)的關(guān)注信息作為回答問題的重要證據(jù)。在實施方式中,VQA任務(wù)考慮單字詞答案;然而,實施方式可容易地擴展為通過使用例如RNN解碼器生成完整句子。
為了處理這些問題,提出基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)(ABC-CNN)。根據(jù)本公開的一些實施方式的示例性ABC-CNN框架200在圖2中示出。ABC-CNN框架包含視覺部分(也被稱為圖像特征圖提取部分)、問題理解部分、答案生成部分和關(guān)注提取部分。在所描繪的實施方式中,方框205指示視覺部分或視覺組件;方框210為問題理解部分或問題理解組件;方框215表示具有可配置卷積的關(guān)注提取部分或關(guān)注提取組件;以及方框220是對經(jīng)關(guān)注加權(quán)的圖像特征圖222使用多類別分類的答案生成部分或答案生成組件。
在實施方式中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)207用于在視覺部分中提取視覺特征。替代提取單個全局視覺特征,空間特征圖通過在滑動窗口中應(yīng)用CNN或利用完全卷積神經(jīng)網(wǎng)絡(luò)被提取以保留重要空間信息。在實施方式中,長短期存儲器(LSTM)模型214用于在問題理解部分中獲得問題嵌入212,并且多類別分類器用于在答案生成部分中生成答案。視覺部分和問題理解部分通過利用經(jīng)問題引導(dǎo)的關(guān)注進行整合。
在實施方式中,經(jīng)問題引導(dǎo)的關(guān)注信息在關(guān)注提取部分215內(nèi)被表示為經(jīng)問題引導(dǎo)的關(guān)注圖218,關(guān)注提取部分215是ABC-CNN框架的核心。其經(jīng)由可配置的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn),其中卷積內(nèi)核216通過將問題嵌入從語義空間投影到視覺空間來生成??膳渲镁矸e內(nèi)核與根據(jù)問題含義所確定的視覺信息對應(yīng)。例如,在圖1中,問題“雨傘是什么顏色的?”應(yīng)當(dāng)生成與“雨傘”視覺特征對應(yīng)的卷積內(nèi)核??膳渲镁矸e內(nèi)核與圖像特征圖表的卷積自適應(yīng)地將每個區(qū)域?qū)τ诨卮鸾o定問題的重要性表示為經(jīng)問題引導(dǎo)的關(guān)注圖218。經(jīng)問題引導(dǎo)的關(guān)注圖218可以用于在空間上加權(quán)視覺特征圖,以過濾掉噪聲和不相關(guān)的信息。在實施方式中,ABC-CNN是有效地將圖像和語言理解整合并可以以端對端的方式訓(xùn)練而不要求對圖像中的關(guān)注區(qū)域進行任何人工標(biāo)記的統(tǒng)一框架。
在實驗中,根據(jù)本公開的ABC-CNN架構(gòu)的實施方式針對三個基準(zhǔn)VQA數(shù)據(jù)集進行評估:Toronto COCOQA[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering),arXiv:1505.02074.2015];DAQUAR[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz),“基于不確定的輸入進行真實世界場景的問答的多世界性方法”(A multi-world approach to question answering about real-world scenes based on uncertain input),《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in Neural Information Processing Systems),第1682–1690頁,2014];以及VQA[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:視覺問答”(VQA:Visual question answering),arXiv預(yù)印本arXiv:1505.00468,2015]。實驗表明,ABC-CNN框架顯著優(yōu)于現(xiàn)有技術(shù)方法。視覺化證實了ABC-CNN架構(gòu)能夠生成很好地反映問題詢問的區(qū)域的關(guān)注圖。
總而言之,統(tǒng)一的ABC-CNN框架被公開為經(jīng)由經(jīng)問題引導(dǎo)的關(guān)注有效地將視覺信息與語義信息整合以用于VQA。經(jīng)問題引導(dǎo)的關(guān)注不僅顯著改進VQA系統(tǒng)性能,而且它還幫助獲得對問答過程的更好理解。
B.相關(guān)工作
VQA&為圖像加說明:這兩問題在推理視覺內(nèi)容并以自然語言呈現(xiàn)結(jié)果方面存在相似。在VQA和為圖像加說明方面的當(dāng)前現(xiàn)有技術(shù)方法趨于應(yīng)用CNN提取視覺特征并且應(yīng)用LSTM模型作為解碼器來生成答案或說明。一些方法在LSTM解碼器中的生成期間應(yīng)用多模型層來通過聯(lián)合投影組合可視特征和字詞嵌入矢量。至少一個其他方法[參見P·賽馬內(nèi)特(P.Sermanet)、A·福姆(A.Frome)和E·瑞爾(E.Real),“用于精細的分類的關(guān)注”(Attention for fine-grained categorization),arXiv預(yù)印本arXiv:1412.7054,2014]利用所投影的圖像特征作為LSTM解碼器的起始狀態(tài),這類似于序列至序列學(xué)習(xí)[參見,I·蘇特科夫(I.Sutskever)、O·維亞爾斯(O.Vinyals)和Q·V·李(Q.V.Le),“利用神經(jīng)網(wǎng)絡(luò)的序列-序列學(xué)習(xí)”(Sequence to sequence learning with neural networks),《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in neural information processing systems),第3104–3112頁,2014]中的編解碼-解碼器框架。在將圖像特征處理為全局視覺特征時,它們沒有發(fā)掘問題中的有價值的信息來將它們的關(guān)注集中于圖像中的對應(yīng)區(qū)域上。
關(guān)注模型:關(guān)注模型已成功地用于許多計算機視覺任務(wù),包括對象檢測、精細圖像分類、精細視覺識別和為圖像加說明。關(guān)注信息可建模為圖像中的關(guān)注區(qū)域序列。循環(huán)神經(jīng)網(wǎng)絡(luò)用于基于當(dāng)前關(guān)注區(qū)域的位置和視覺特征來預(yù)測下一關(guān)注區(qū)域。一些人將該框架分別用于對象識別、對象檢測和精細對象識別。另一些人已發(fā)展出用于為圖像加說明的基于關(guān)注的模型,該模型使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為生成器,使得在生成句子中的不同字詞時,模型將其關(guān)注集中于不同圖像區(qū)域上。所述模型提取每個圖像中的一組建議區(qū)域,并且關(guān)注權(quán)重使用解碼LSTM生成器隱藏狀態(tài)和每個建議區(qū)域中提取的視覺特征來學(xué)習(xí)。在一種情況[參見T·Y·林(T.Y.Lin)、A·羅伊·喬杜里(A.Roy Chowdhury)和S·馬基(S.Maji),“用于精細視覺識別的雙線性CNN模型”(Bilinear CNN models for fine-grained visual recognition),arXiv預(yù)印本arXiv:1504.07889,2015]下,雙線性CNN結(jié)構(gòu)被提出用于將位置和內(nèi)容組合以用于精細圖像分類。ABC-CNN受到將關(guān)注在這些視覺任務(wù)上的成功應(yīng)用的啟發(fā),并且利用經(jīng)問題引導(dǎo)的關(guān)注來改進VQA性能。
可配置卷積神經(jīng)網(wǎng)絡(luò):已經(jīng)提出用于小范圍天氣預(yù)測的動態(tài)的卷積層架構(gòu)[參見B·克萊恩(B.Klein)、L·沃夫(L.Wolf)和Y·埃菲克(Y.Afek),“用于小范圍天氣預(yù)測的動態(tài)的卷積層架構(gòu)”(A dynamic convolutional layer for short range weather prediction),《IEEE計算機視覺和圖案識別會刊》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition)第4840–4848頁,2015]。動態(tài)的卷積層中的卷積內(nèi)核通過神經(jīng)網(wǎng)絡(luò)在先前時間步長中對天氣圖像信息編碼來確定。在VQA中,確定關(guān)注區(qū)域的最重要的線索是問題。因此,ABC-CNN框架的實施方式中的可配置卷積內(nèi)核通過問題嵌入來確定。
C.基于關(guān)注的可配置CNN
圖2中示出了ABC-CNN框架的實施方式。在實施方式中,具有單字詞答案的QA對是本文中的重點示例,因為任務(wù)可看作是多類別分類的問題,這簡化了評估度量并且允許集中于開發(fā)經(jīng)問題引導(dǎo)的關(guān)注模型。然而,應(yīng)當(dāng)關(guān)注,關(guān)注模型的實施方式可容易地擴展為通過用LSTM解碼器替代多類別分類模型來生成多字詞的句子作為答案。
如圖2所示,所描繪的ABC-CNN實施方式包括四個組件:圖像特征提取部分205、問題理解部分210、關(guān)注提取部分215和答案生成部分220。在圖像特征提取部分205中,在實施方式中,深度卷積神經(jīng)網(wǎng)絡(luò)207被用于針對每個圖像提取圖像特征圖I 208作為圖像表示。在實施方式中,使用了在1000類ImageNet分類挑戰(zhàn)2012數(shù)據(jù)集[參見J·鄧(J.Deng)、W·董(W.Dong)、R·索契爾(R.Socher)、L·J·李(L.-J.Li)、K·李(K.Li)和李菲菲(L.Fei-Fei),“圖像網(wǎng)絡(luò):大規(guī)模分級圖像數(shù)據(jù)庫”(A large-scale hierarchical image database),《IEEE計算機視覺和圖案識別2009CVPR2009會刊》(Computer Vision and Pattern Recognition,2009.CVPR2009.IEEE Conference on),第248–255頁,IEEE,2009]上預(yù)訓(xùn)練的VGG-19深度卷積神經(jīng)網(wǎng)絡(luò)[K·西蒙亞恩(K.Simonyan)和A·齊塞曼(A.Zisserman,“用于大規(guī)模圖像識別的極深卷積網(wǎng)絡(luò)”(A very deep convolutional networks for large-scale image recognition),arXiv預(yù)印本)arXiv:1409.1556,2014]、以及在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的完全卷積分段神經(jīng)網(wǎng)絡(luò)[參見L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS),arXiv預(yù)印本arXiv:1412.7062,2014]。在實施方式中,問題理解部分210采用LSTM層214來學(xué)習(xí)密集問題嵌入s 213,以對圖像相關(guān)問題的語義信息進行編碼。在實施方式中,ABC-CNN框架的核心組件是關(guān)注提取部分215。在實施方式中,關(guān)注提取部分根據(jù)密集問題嵌入配置一組卷積內(nèi)核216。表征問題中所問的對象的視覺特征的卷積內(nèi)核216被應(yīng)用于圖像特征圖208,以生成經(jīng)問題引導(dǎo)的關(guān)注圖218。在實施方式中,基于圖像特征圖I 208、經(jīng)關(guān)注加權(quán)的圖像特征圖222和密集問題嵌入213的融合的改進,答案生成部分220使用多類別分類器回答問題。本章節(jié)的其余部分將更詳細地描述ABC-CNN框架的每個組件的實施方式。
1.關(guān)注提取
在實施方式中,經(jīng)問題引導(dǎo)的關(guān)注圖m(其反映了問題所詢問的圖像區(qū)域)使用可配置卷積神經(jīng)網(wǎng)絡(luò)從每個圖像-問題對中生成??膳渲镁矸e神經(jīng)網(wǎng)絡(luò)中的卷積內(nèi)核可根據(jù)密集問題嵌入s通過將密集問題嵌入s從語義空間投影到視覺空間來配置。
其中σ(.)是sigmoid函數(shù)。
在實施方式中,密集問題表示s對編碼問題中詢問的語義對象信息。在實施方式中,投影將語義信息變換成對應(yīng)的視覺信息以作為經(jīng)問題配置的內(nèi)核,其具有與圖像特征圖I相同數(shù)量的通道。例如,如果問題是“雨傘是什么顏色的?”,則經(jīng)問題配置的內(nèi)核k應(yīng)當(dāng)為雨傘的視覺特征。
在實施方式中,經(jīng)問題引導(dǎo)的關(guān)注圖可通過將經(jīng)問題配置的內(nèi)核k應(yīng)用于圖像特征圖I上來生成。
其中mij是位置(i,j)處的經(jīng)問題引導(dǎo)的關(guān)注的元素,并且符號*表示卷積運算。在實施方式中,Softmax歸一化產(chǎn)生空間關(guān)注分布作為經(jīng)問題引導(dǎo)的圖。在實施方式中,卷積被填充以確保關(guān)注圖m具有與圖像特征圖I相同的大小。經(jīng)問題引導(dǎo)的關(guān)注圖集中于問題所詢問的區(qū)域上。例如,問題“雨傘是什么顏色的?”可以生成集中在圖像中的雨傘區(qū)域上的關(guān)注圖,因為卷積內(nèi)核按照問題被配置成雨傘視覺特征。
利用關(guān)注圖m,問答準(zhǔn)確性可對所有四類問題改善,這是出于以下原因:
·對于計數(shù)問題,例如“在對象中存在多少汽車?”,關(guān)注圖過濾掉不相關(guān)的區(qū)域,這使對象更容易地推斷圖像中的對象數(shù)量。
·對于顏色問題,例如“外套是什么顏色的?”,特定對象的顏色可通過集中于相關(guān)對象上來更有效地回答。
·對于對象問題,例如“桌面上放的是什么?”,關(guān)注圖可以過濾掉不太相關(guān)的區(qū)域,例如背景,并且根據(jù)空間關(guān)系推斷尋找對象的更好的位置。
·對于位置問題,例如“圖像中的汽車在哪?”,關(guān)注圖對于生成準(zhǔn)確的答案來說是重要的,因為,它清楚地描述對象是在圖像中的哪個位置。
2.問題理解
問題理解對于視覺問答來說是重要的。問題語義含義不僅會為答案生成提供最重要的線索,而且可以用于確定可配置卷積內(nèi)核以成關(guān)注圖。
最近,長短期存儲器(LSTM)模型已表明了在語言理解上工作得很好。在實施方式中,LSTM模型被用于生成密集問題嵌入來表征問題語義含義。在實施方式中,問題q首先被分詞成字詞序列{vt}。在實施方式中,所有大寫字符被轉(zhuǎn)換成小寫字符,并且所有標(biāo)點被刪除。在訓(xùn)練集合中出現(xiàn)但未在測試集合中出現(xiàn)的字詞用特殊符號來替代,例如#OOV#,并且#B#和#E#特殊符號被添加至序列頭和序列尾。根據(jù)問題字典,每個字詞可表示為密集字詞嵌入向量。在實施方式中,LSTM被應(yīng)用于字詞嵌入序列以通過使用存儲門(memory gate)ct和遺忘門(forget gate)ft從每個向量vt生成隱藏狀態(tài)ht(等式3,如以下所示):
it=σ(Wvivt+Whiht-1+bi)
ft=σ(Wvfvt+Whfht-1+bf)
ot=σ(Wvovt+Whoht-1+bo)
gt=φ(Wvgvt+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ht=ot⊙φ(ct) (3)
其中φ是雙曲正切函數(shù),并且⊙表示在兩個向量之間的按元素的乘積。圖3中示出了用于詢問過程的LSTM框架的實施方式的細節(jié)。輸入問題q的語義信息s通過在所有時間步長上求LSTM狀態(tài){ht}的平均值來獲得。
3.圖像特征提取
在實施方式中,每個圖像中的視覺信息被表示為N×N×D的圖像特征圖。特征圖可通過將圖像分成N×N的網(wǎng)格并在網(wǎng)格中的每個單元中提取的D維特征向量f來提取。在實施方式中,在原始圖像和左右翻轉(zhuǎn)圖像的每個單元中的中心、左上、右上、左下和右下角落提取五個(5個)窗口,從而針對每個單元產(chǎn)生總共十個(10個)窗口。在實施方式中,VGG-19深度卷積神經(jīng)網(wǎng)絡(luò)對每個窗口提取D維特征。在實施方式中,每個單元的D維特征向量是所有十個(10個)D維特征向量的平均。最終N×N×D圖像特征圖是N×N×D維特征向量的串聯(lián)。
也可以利用完全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)來更有效地提取圖像特征圖。在實施方式中,在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的分段模型[L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS),arXiv預(yù)印本arXiv:1412.7062,2014]被使用,并且產(chǎn)生稍好的性能。
4.答案生成
在實施方式中,答案生成部分是用于原始圖像特征圖、密集問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的多類別分類器。在實施方式中,關(guān)注圖用于在空間上加權(quán)圖像特征圖I。加權(quán)的圖像特征圖集中于與問題對應(yīng)的對象上。在實施方式中,在空間上的加權(quán)通過圖像特征圖和關(guān)注圖的每個通道之間的按元素的乘積實現(xiàn)。
I′i=Ii⊙m (4)
其中⊙表示按元素的乘積,I′i和Ii分別表示經(jīng)關(guān)注加權(quán)的圖像特征圖I′i和原始圖像特征圖I的第i通道。經(jīng)關(guān)注加權(quán)的圖像特征圖降低與問題不相關(guān)的區(qū)域的權(quán)重。在實施方式中,為了避免過度擬合,1×1卷積被應(yīng)用于經(jīng)關(guān)注加權(quán)的圖像特征圖以減少通道數(shù)量,從而得到減小的特征圖Ir。在實施方式中,問題或詢問的語義信息、圖像特征圖I和減小的特征圖Ir通過非線性投影融合:
h=g(WihI+WrhIr+Wshs+bh) (5)
其中h表示最終投影特征,并且g(.)是按元素逐個標(biāo)定的雙曲正切函數(shù):該函數(shù)使得梯度進入值的最為非線性的范圍,并且實現(xiàn)更高的訓(xùn)練速度。
在實施方式中,具有Softmax激活的多類別分類器在最終投影特征h上訓(xùn)練。答案id可以在答案字典中指定。ABC-CNN所生成的答案是具有最大概率的字詞:
其中Va是答案字典中的所有字詞的集合。
應(yīng)注意的是,對于實施方式,用于問題和答案的字典并不共享。這意味著,用于相同字詞的表示可能對于問題和答案是不同。
圖4描繪根據(jù)本公開的實施方式的用于使用ABC-CNN架構(gòu)生成答案的示例性流程圖。在實施方式中,ABC-CNN架構(gòu)在步驟405中使用深度卷積神經(jīng)網(wǎng)絡(luò)從包括多個像素的輸入圖像提取圖像特征圖,并且在步驟410中使用長短期存儲器(LSTM)層從與輸入圖像相關(guān)的輸入問題中獲得密集問題嵌入。在步驟415處,通過將密集問題嵌入從語義空間投影到視覺空間產(chǎn)生多個經(jīng)問題配置的內(nèi)核。在步驟420處,通過將經(jīng)問題配置的內(nèi)核與圖像特征圖卷積生成經(jīng)問題引導(dǎo)的關(guān)注圖。在步驟425處,通過使用經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)圖像特征圖,在多類別分類器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖。經(jīng)關(guān)注加權(quán)的圖像特征圖用于降低與問題不相關(guān)的區(qū)域的權(quán)重,或者集中于與問題關(guān)聯(lián)的區(qū)域上。在實施方式中,在空間上的加權(quán)通過圖像特征圖和經(jīng)問題引導(dǎo)的關(guān)注圖的每個通道之間的按元素的乘積來實現(xiàn)。最后,在步驟430處,基于圖像特征圖、深度問題嵌入和將關(guān)注加權(quán)的圖像特征圖的融合生成問題的答案。
圖5描繪根據(jù)本公開的實施方式的用于使用ABC-CNN架構(gòu)生成經(jīng)問題引導(dǎo)的關(guān)注圖的示例性流程圖。在實施方式中,關(guān)注圖生成部分在步驟505中接收從圖像輸入提取的圖像特征圖,并且在步驟510中接收使用LSTM從問題輸入獲得的密集問題嵌入。在步驟515中,通過將問題嵌入從語義空間投影到視覺空間,產(chǎn)生一組可配置卷積內(nèi)核。在步驟520處,空間上的關(guān)注分布通過經(jīng)問題配置的內(nèi)核與圖像特征圖之間的卷積運算生成。在實施方式中,ABC-CNN框架具有初始權(quán)重,該初始權(quán)重在預(yù)訓(xùn)練期間隨機調(diào)整為確保在ABC-CNN框架內(nèi)的所有層(包括CNN層和LSTM層等)的每個維度的激活具有0均值以及一個標(biāo)準(zhǔn)導(dǎo)數(shù)。在步驟525中,將Softmax歸一化應(yīng)用至空間上的關(guān)注分布以生成經(jīng)問題引導(dǎo)的關(guān)注圖。
5.訓(xùn)練和測試
在實施方式中,整個框架可利用隨機梯度下降和adadelta[參見M·D·齊勒,“Adadelta:自適應(yīng)的學(xué)習(xí)速率方法”(Adadelta:An adaptive learning rate method),arXiv預(yù)印本arXiv:1212.5701,2012]算法以端對端的方式訓(xùn)練。每批隨機梯度下降獨立隨機采樣64個圖像問題對,并且向后傳播可被應(yīng)用以學(xué)習(xí)ABC-CNN架構(gòu)的所有權(quán)重。在實施方式中,所有層的初始權(quán)重可以隨機調(diào)整為確保所有層的每個維度的激活具有0均值以及一個標(biāo)準(zhǔn)導(dǎo)數(shù)。在實施方式中,初始學(xué)習(xí)速率設(shè)為0.1。在實驗中,雖然在ABC-CNN實施方式中以端對端的方式來訓(xùn)練所有權(quán)重是有可能的,但是圖像特征提取部分中的權(quán)重可固定以允許更快的訓(xùn)練速度。
在測試階段期間,在實施方式中,針對每個圖像提取圖像特征圖。在實施方式中,在給定問題的情況下,產(chǎn)生該問題的密集問題嵌入,并且問題嵌入用于配置卷積內(nèi)核,以生成關(guān)注圖。在實施方式中,多類別分類器使用原始特征圖、問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合生成答案。
D.實驗
本模型的實施方式在以下數(shù)據(jù)集上進行評估:Toronto COCOQA數(shù)據(jù)集[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering),arXiv:1505.02074.2015];DAQUAR數(shù)據(jù)集[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz),“基于不確定的輸入進行真實世界場景的問答的多世界性方法”(A multi-world approach to question answering about real-world scenes based on uncertain input),《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in Neural Information Processing Systems),第1682–1690頁,2014];以及VQA數(shù)據(jù)集[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:視覺問答”(VQA:Visual question answering),arXiv預(yù)印本arXiv:1505.00468,2015]。實施方式針對具有單字詞答案的QA對進行評估,其分別考慮到Toronto-QA數(shù)據(jù)集、VQA數(shù)據(jù)集和DAQUAR數(shù)據(jù)集的(100%、85%、90%)。它還符合M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)(arXiv:1505.02074.2015)中的評估。除此之外,ABC-CNN框架的實施方式可容易地擴展成通過在答案生成部分中使用RNN解碼器來生成完整句子作為答案。
應(yīng)注意的是,本專利文獻中引用的實驗和結(jié)果(在本章節(jié)或任何其他章節(jié)中)以說明的方式提供,并且使用具體實施方式或多個具體實施方式在具體條件下執(zhí)行;因此,這些實驗或其結(jié)果不應(yīng)當(dāng)用于限制本專利文獻的公開的范圍。
1.實現(xiàn)細節(jié)
在實驗中,圖像特征圖和關(guān)注圖兩者的分辨率選擇為3×3,ATT-SEG-HSV模型除外,該ATT-SEG-HSV模型使用從完全卷積分段網(wǎng)絡(luò)提取的特征(16×16)。每個圖像單元使用預(yù)訓(xùn)練過的VGG網(wǎng)絡(luò)[參見K·查特菲德、K·西蒙亞恩、A·威達爾迪和A·齊塞曼,“魔鬼藏于細節(jié)之中:深入探究卷積網(wǎng)絡(luò)”(Return of the devil in the details:Delving deep into convolutional nets),arXiv預(yù)印本arXiv:1405.3531,2014]生成4096維圖像特征向量。來自所有圖像單元的圖像特征向量構(gòu)成具有4096×3×3維度的圖像特征圖。為了避免過度擬合,圖像特征圖的維度使用1×1卷積被減小至256×3×3。密集問題嵌入的維度是256。另外,HSV顏色特征圖被添加至圖像特征圖(ATT-HSV)。每個單元中的顏色特征被編碼為該每個單元中像素的HSV直方圖。在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的完全卷積神經(jīng)網(wǎng)絡(luò)[L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS),arXiv預(yù)印本arXiv:1412.7062,2014]也被用于生成16×16×1024特征圖,并且將它們與HSV顏色特征圖串接為圖像特征圖(ATT-SEG-HSV)。使用4個K40Nvidia GPU在Toronto COCO-QA數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)ATT-HSV需要花費約24小時。系統(tǒng)可以在單個K40GPU上以每個問題9.89ms的速度生成答案。
2.數(shù)據(jù)集
根據(jù)本公開的模型的實施方式在三個數(shù)據(jù)集上進行評估:DAQUAR、Toronto COCO-QA和VQA。
DAQUAR數(shù)據(jù)集具有兩種版本:完整的數(shù)據(jù)集(DQ-Full)和減少的數(shù)據(jù)集(DQ-Reduced)。DQ-Reduced具有37個對象類的問題答案對,這是具有894個對象類的DQ-Full數(shù)據(jù)集的子集。兩種版本使用來自NYU-Depth V2數(shù)據(jù)集[參見N·希爾伯曼、D·霍伊埃姆、P·科里和R·弗古斯,來自RGBD圖像的室內(nèi)分段和支持推測(Indoor segmentation and support inference from RGBD images),計算機視覺—ECCV 2012,第746–760頁,斯普林格出版公司,2012(Computer Vision–ECCV 2012,pages 746–760.Springer,2012)]的室內(nèi)場景圖像。DQ-Full數(shù)據(jù)集包含具有6794個QA對的795個訓(xùn)練圖像和具有5674個QA對的654個測試圖像。DQ-Reduced數(shù)據(jù)集包含具有3825個QA對的781個訓(xùn)練圖像和具有286個QA對的25個測試圖像。在實驗中,DAQUAR數(shù)據(jù)集僅針對具有單字詞答案的QA對進行測試以及訓(xùn)練,這符合于由瑞恩(Ren)等人[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering),arXiv:1505.02074.2015]進行的評估。這種QA對分別構(gòu)成DQ-Full數(shù)據(jù)集和DQ-Reduced數(shù)據(jù)集的訓(xùn)練集合和測試集合中的(90.6%,89.5%)和(98.7%,97.6%)。
Toronto COCO-QA數(shù)據(jù)集使用來自Microsoft COCO數(shù)據(jù)集(MS-COCO)的圖像。它的QA對僅包含單字詞答案。它的基本統(tǒng)計總結(jié)于表1中。
表1.Toronto COCO-QA問題類型分解[參見P·賽馬內(nèi)特(P.Sermanet)、A·福姆(A.Frome)和E·瑞爾(E.Real),“用于精細的分類的關(guān)注”(Attention for fine-grained categorization),arXiv預(yù)印本arXiv:1412.7054,2014]。
VQA數(shù)據(jù)集是最近收集的數(shù)據(jù)集,其還利用MS-COCO數(shù)據(jù)集中的圖像構(gòu)建。針對VQA數(shù)據(jù)集中的VQA真實圖像(開放式的)任務(wù)的建議模型被評估。其包含了82783個訓(xùn)練圖像、40504個驗證圖像和81434個測試圖像。MS-COCO數(shù)據(jù)集中的每個圖像注有三個(3個)問題,并且每個問題具有十個(10個)候選答案。用于訓(xùn)練、測試和驗證的QA對的總數(shù)分別為248349、121512、244302。本模型的實施方式針對VQA數(shù)據(jù)集中的單字詞答案QA對進行評估,單字詞答案QA對構(gòu)成數(shù)據(jù)集中的總QA對的86.88%。圖6中示出了來自三個數(shù)據(jù)集的一些樣本。
3.評估度量
VQA模型的性能根據(jù)“答案的準(zhǔn)確性”和“吳-帕爾馬相似性測量集(Wu-Palmer similarity measure Set)(WUPS)”評分來評估。答案的準(zhǔn)確性(ACC)計算準(zhǔn)確匹配參考答案的所生成的答案的百分比。WUPS評分從吳-帕爾馬(WUP)相似性[參見,Z·吳(Z.Wu)和M·帕爾馬(M.Palmer),“動詞語義和詞匯選擇”(Verbs semantics and lexical selection),《計算語言協(xié)會第32屆年會會刊》(Proceedings of the 32nd annual meeting on Association for Computational Linguistics),第133–138頁,計算語言協(xié)會出版,1994]得出,其值在[0,1]的范圍內(nèi)。WUP相似性基于兩個字詞在分類樹中的最低共同祖先的深度測量兩個字詞的相似性。具有閾值的WUP評分是針對所有的所生成的答案和參考答案的向下加權(quán)的WUPS評分的平均值。如果兩個字詞的WUPS評分Swups低于閾值,那么其向下加權(quán)的WUPS評分為0.1Swups。否則,其向下加權(quán)的WUPS是Swups。在實驗中,具有閾值0.0和0.9的WUPS評分被使用。
4.基線方法
將本方法的實施方式與不同基準(zhǔn)方法進行比較。以下列出所有基線模型:
1.VIS+LSTM(VL):它是由瑞恩(Ren)等人所提出的框架[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering),arXiv:1505.02074.2015],該框架具有提取圖像特征的CNN,在該CNN后接著的是維度減小層。然后,圖像特征被插入進問題字詞嵌入序列頭部作為問題LSTM的輸入。
2.2-VIS+BLSTM(2VB):圖像特征在字詞嵌入序列的頭和尾處編碼。除此之外,瑞恩(Ren)等人提出的框架中的LSTM設(shè)為在向前和向后方向行進。
3.IMG+BOW(IB):瑞恩(Ren)等人使用Bag-of-Words特征生成密集問題嵌入。
4.IMG:僅圖像特征被用于回答問題。它被稱為“聾”模型。
5.LSTM:僅使用來自LTM的密集問題嵌入生成答案。它被稱為“盲”模型。
6.ENSEMBLE:瑞恩(Ren)等人通過使用所有以上方法組合來對融合模型進行評估。
7.Q+I:安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:視覺問答”(VQA:Visual question answering),arXiv預(yù)印本arXiv:1505.00468,2015]使用密集問題嵌入和圖像特征兩者訓(xùn)練多類別分類器以實現(xiàn)問答。
8.Q+I+C:類似于Q+I模型,Q+I+C模型采用標(biāo)記的圖像說明的密集嵌入作為附加輸入。
9.ASK:馬里諾維斯基(Malinowski)等人[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz),“詢問您的神經(jīng):用于回答關(guān)于圖像的問題的基于神經(jīng)的方法(Ask your neurons:A neural-based approach to answering questions about images),arXiv預(yù)印本arXiv:1505.01121,2014]在LSTM解碼器中將CNN特征和問題嵌入線性組合以生成答案。
5.結(jié)果和分析
表2、4和5總結(jié)了不同模型分別在Toronto COCO-QA數(shù)據(jù)集、DQ-Reduced數(shù)據(jù)集和DQ-Full數(shù)據(jù)集上的性能。表3分解每個分類中的不同方法在Toronto COCO-QA數(shù)據(jù)集上的性能。
在表2中,僅使用VGG特征圖(AYY)的ABC-CNN優(yōu)于瑞恩(Ren)等人[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel),“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering),arXiv:1505.02074.2015]的單模型中的大多數(shù)。通過組合HSV特征圖與VGG特征圖(ATT-HSV),ABC-CNN的性能超越所有基線模型。雖然我們僅采用單模型,但是ABC-CNN甚至在答案準(zhǔn)確性上比ENSEMBLE模型高0.2%。ABC-CNN在“對象”、“數(shù)量”和“位置”分類上優(yōu)于基線方法,因為經(jīng)問題引導(dǎo)的關(guān)注發(fā)掘問題語義以及圖像中的情景信息來回答問題。ABC-CNN的準(zhǔn)確性在“顏色”分類上略微低于IB和ENSEMBLE模型。
還發(fā)現(xiàn),完全卷積模型ATT-SEG-HSV的性能略好于VGG模型ATT-HSV,但是利用完全卷積神經(jīng)網(wǎng)絡(luò)提取特征圖要快得多。使用VGG,SEG和HSV特征一起(ATT-VGG-SEG-HSV)得到最佳性能。具體來說,完全卷積模型的添加幫助正確回答位置問題。ABC-CNN中的關(guān)注(NO-ATT)也被去除以作為燒蝕實驗(ablative experiment),并且這分別會造成準(zhǔn)確性上1.34%、0.85%和0.35%的損失、WUPS 0.9和WUPS 0.0的評分。
在表4中,ABC-CNN模型與基線模型在DQ-Reduced數(shù)據(jù)集上進行比較。ABC-CNN模型的性能在所有度量上高于所有單模型。在WUPS 0.9測量上,ABC-CNN模型僅比的ENSEMBLE模型低0.53%。
在DQ-Full和VQA數(shù)據(jù)集上,ABC-CNN在表5和6的數(shù)據(jù)集上優(yōu)于現(xiàn)有技術(shù)方案。在DQ-Full數(shù)據(jù)集上,ABC-CNN模型與Toronto COCO-QA數(shù)據(jù)集和DQ-Reduced數(shù)據(jù)集上的模型相同。在VQA數(shù)據(jù)集上,為了進行公平評估,使用與安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:視覺問答”(VQA:Visual question answering),arXiv預(yù)印本arXiv:1505.00468,2015]相同的包含1000個最頻繁答案(ATT 1000)的答案字典。ABC-CNN模型還使用包含所有答案(ATT Full)的答案字典進行評估。
圖7中示出了所生成的經(jīng)問題引導(dǎo)的關(guān)注圖及其對應(yīng)的圖像和問題的一些??捎^察到,經(jīng)問題引導(dǎo)的關(guān)注圖成功捕獲具有不同關(guān)注區(qū)域的不同問題的意向。利用這些關(guān)注圖,通過將其關(guān)注集中于重要區(qū)域上并過濾掉不相關(guān)的信息,ABC-CNN能夠生成更準(zhǔn)確的答案。由于原始特征圖在預(yù)測答案時也被提供,因此如果詢問對象僅為圖像中的對象(例如“躺在山坡上草地中的是什么?”),那么ABC-CNN可以在不使用關(guān)注圖的情況下回答問題。
表3每類別的Toronto COCO-QA準(zhǔn)確性
表4關(guān)于DAQUAR-Reduce數(shù)據(jù)集的結(jié)果
表5關(guān)于DAQUAR-Full數(shù)據(jù)集的結(jié)果
表6不同模型的在VQA數(shù)據(jù)集上的性能
E.系統(tǒng)實施方式
在實施方式中,本專利文獻的方面可涉及到信息處理系統(tǒng)/計算系統(tǒng)或者使用信息處理系統(tǒng)/計算系統(tǒng)實施。出于本公開的目的,計算系統(tǒng)可以包括出于商業(yè)、科學(xué)、控制或其他目的可操作來計算、運算、確定、分類、處理、傳輸、接收、檢索、發(fā)起、路由、交換、存儲、顯示、通信、顯現(xiàn)、檢測、記錄、再現(xiàn)、處理或利用任何形式信息、智能或數(shù)據(jù)的任何手段或手段的組合。例如,計算系統(tǒng)可為個人計算機(例如,膝上型計算機)、平板電腦、平板手機、個人數(shù)字助理(PDA)、智能手機、智能手表、智能包裝、服務(wù)器(例如,刀片式服務(wù)器或機架式服務(wù)器)、網(wǎng)絡(luò)存儲設(shè)備或任何其他合適設(shè)備,并且可在大小、形狀、性能、功能和價格方面改變。計算系統(tǒng)可以包括隨機存取存儲器(RAM)、一個或多個處理資源(例如中央處理單元(CPU)或硬件或軟件控制邏輯)、ROM和/或其他類型的存儲器。計算系統(tǒng)的另外組件可以包括一個或多個盤驅(qū)動器、用于與外部設(shè)備通信的一個或多個網(wǎng)絡(luò)端口、以及各種輸入和輸出(I/O)設(shè)備(例如鍵盤、鼠標(biāo)、觸摸屏和/或視頻顯示器)。計算系統(tǒng)還可包括可操作為在各種硬件組件之間傳輸通信的一個或多個總線。
圖8描繪根據(jù)本公開的實施方式的計算設(shè)備/信息處理系統(tǒng)(或是計算系統(tǒng))的簡化框圖。應(yīng)理解,信息處理系統(tǒng)可不同地配置并且包括不同組件,但應(yīng)理解,針對系統(tǒng)800所示出的功能可操作為支持信息處理系統(tǒng)的各種實施方式。
如圖8所示,系統(tǒng)800包括一個或多個中央處理單元(CPU)801,CPU 801提供計算資源并控制計算機。CPU 801可實施有微處理器等,并且還可包括一個或多個圖形處理單元(GPU)817和/或用于數(shù)學(xué)計算的浮點協(xié)處理器。系統(tǒng)800還可包括系統(tǒng)存儲器802,系統(tǒng)存儲器802可呈隨機存取存儲器(RAM)、只讀存儲器(ROM)、或兩者的形式。
如圖8所示,還可提供多個控制器和外圍設(shè)備。輸入控制器803表示至各種輸入設(shè)備804的接口,例如鍵盤、鼠標(biāo)或觸筆。還可存在掃描儀控制器805,該掃描儀控制器805與掃描儀806通信。系統(tǒng)800還可包括存儲控制器807,該存儲控制器807用于與一個或多個存儲設(shè)備808對接,存儲設(shè)備中的每個包括存儲介質(zhì)(諸如磁帶或盤)或光學(xué)介質(zhì)(其可用于記錄用于操作系統(tǒng)、實用工具和應(yīng)用程序的指令的程序,它們可包括實施本發(fā)明的各方面的程序的實施方式)。存儲設(shè)備808還可用于存儲經(jīng)處理的數(shù)據(jù)或是將要根據(jù)本發(fā)明處理的數(shù)據(jù)。系統(tǒng)800還可包括顯示控制器809,該顯示控制器809用于為顯示設(shè)備811提供接口,顯示設(shè)備811可為陰極射線管(CRT)、薄膜晶體管(TFT)顯示器或其他類型的顯示器。計算系統(tǒng)800還可包括打印機控制器812,該打印機控制器812用于與打印機813通信。通信控制器814可與一個或多個通信設(shè)備815對接,這使系統(tǒng)800能夠通過各種網(wǎng)絡(luò)(包括互聯(lián)網(wǎng)、云資源(例如以太云、經(jīng)以太網(wǎng)的光纖通道(FCoE)/數(shù)據(jù)中心橋接(DCB)云等)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、存儲區(qū)域網(wǎng)絡(luò)(SAN))中的任一網(wǎng)絡(luò),或通過任何合適電磁載波信號(包括紅外信號)來連接至遠程設(shè)備。
在示出的系統(tǒng)中,所有主要系統(tǒng)組件可連接至總線816,總線816可以表示多于一個的物理總線。然而,各種系統(tǒng)組件可在物理上彼此接近或可不在物理上彼此接近。例如,輸入數(shù)據(jù)和/或輸出數(shù)據(jù)可遠程地從一個物理位置傳輸?shù)搅硪晃锢砦恢?。另外,實現(xiàn)本發(fā)明的各方面的程序可經(jīng)由網(wǎng)絡(luò)從遠程位置(例如,服務(wù)器)訪問。此類數(shù)據(jù)和/或程序可通過各種機器可讀介質(zhì)中的任一機器可讀介質(zhì)來傳送,機器可讀介質(zhì)包括但不限于:諸如硬盤、軟盤和磁帶的磁性介質(zhì);諸如CD-ROM和全息設(shè)備的光學(xué)介質(zhì);磁光介質(zhì);以及硬件設(shè)備,該硬件設(shè)備專門被配置成存儲或存儲并執(zhí)行程序代碼,該硬件設(shè)備例如專用集成電路(ASIC)、可編程邏輯器件(PLD)、閃存設(shè)備、以及ROM和RAM設(shè)備。
本發(fā)明的實施方式可以利用用于一個或多個處理器或處理單元以使步驟執(zhí)行的指令在一個或多個非暫態(tài)計算機可讀介質(zhì)上編碼。應(yīng)注意,一個或多個非暫態(tài)計算機可讀介質(zhì)應(yīng)當(dāng)包括易失性存儲器和非易失性存儲器。應(yīng)注意,替代實現(xiàn)方式是可能的,其包括硬件實現(xiàn)方式或軟件/硬件實現(xiàn)方式。硬件實施的功能可使用ASIC、可編程的陣列、數(shù)字信號處理電路等來實現(xiàn)。因此,任何權(quán)利要求中的術(shù)語“手段”旨在涵蓋軟件實現(xiàn)方式和硬件實現(xiàn)方式兩者。類似地,如本文使用的術(shù)語“計算機可讀媒介或介質(zhì)”包括具有實施在其上的指令程序的軟件和/或硬件或它們的組合。利用所構(gòu)想的這些替代實現(xiàn)方式,應(yīng)當(dāng)理解,附圖以及隨附描述提供本領(lǐng)域的技術(shù)人員編寫程序代碼(即,軟件)和/或制造電路(即,硬件)以執(zhí)行所需處理所要求的功能信息。
應(yīng)當(dāng)注意,本發(fā)明的實施方式還可涉及具有其上具有用于執(zhí)行各種計算機實施的操作的計算機代碼的非暫態(tài)有形計算機可讀介質(zhì)的計算機產(chǎn)品。介質(zhì)和計算機代碼可為出于本發(fā)明的目的而專門設(shè)計和構(gòu)造的介質(zhì)和計算機代碼,或者它們可為相關(guān)領(lǐng)域中的技術(shù)人員已知或可用的。有形計算機可讀介質(zhì)的示例包括但不限于:諸如硬盤、軟盤和磁帶的磁性介質(zhì);諸如CD-ROM和全息設(shè)備的光學(xué)介質(zhì);磁光介質(zhì);以及專門配置成存儲或存儲并執(zhí)行程序代碼的硬件設(shè)備,例如,專用集成電路(ASIC)、可編程邏輯器件(PLD)、閃存設(shè)備、以及ROM和RAM設(shè)備。計算機代碼的示例包括機器代碼(例如,編譯器產(chǎn)生的代碼)以及包含可由計算機使用解釋器來執(zhí)行的更高級代碼的文件。本發(fā)明的實施方式可整體地或部分地實施為可在由處理設(shè)備執(zhí)行的程序模塊中的機器可執(zhí)行指令。程序模塊的示例包括庫、程序、例程、對象、組件和數(shù)據(jù)結(jié)構(gòu)。在分布的計算環(huán)境中,程序模塊可物理上定位在本地、遠程或兩者的設(shè)定中。
本領(lǐng)域的技術(shù)人員將認識到,計算系統(tǒng)或編程語言對本發(fā)明的實踐來說均不重要。本領(lǐng)域的技術(shù)人員將還將認識到,多個上述元件可物理地和/或在功能上劃分成子模塊或組合在一起。
將理解,前文的示例、實施方式和實驗是示例性的,并且出于清楚和理解的目的,而不限制本發(fā)明的范圍。旨在說明的是,在本領(lǐng)域的技術(shù)人員閱讀本說明書并研究附圖后將對本領(lǐng)域的技術(shù)人員顯而易見的本發(fā)明的所有替代、置換、增強、等同、組合或改進包括在本發(fā)明的范圍內(nèi)。因此,旨在說明的是,權(quán)利要求書包括落在本發(fā)明的真實精神和范圍內(nèi)的所有此類替代、置換、增強、等同、組合或改進,除非隨附權(quán)利要求書以其語言來另外明確說明。應(yīng)注意,隨附權(quán)利要求書的元素可不同地布置,包括具有多個從屬、配置和組合。例如,在實施方式中,各權(quán)利要求的主題可與其他權(quán)利要求組合。