本技術(shù)涉及人工智能,尤其是一種基于多模態(tài)大模型的視覺問答方法及相關(guān)裝置。
背景技術(shù):
1、視覺問答為一種涉及計(jì)算機(jī)視覺和自然語言處理的學(xué)習(xí)任務(wù),其是指通過對(duì)視頻及圖像的內(nèi)容和用戶提出的問題進(jìn)行深度理解和推理后,給出相應(yīng)的回答。其中,基于場景交互任務(wù)的視覺問答能夠?qū)θ祟惡蛨鼍斑M(jìn)行交互的行為進(jìn)行理解,被廣泛應(yīng)用。
2、基于場景交互任務(wù)中的視覺問答要求執(zhí)行相應(yīng)視覺問答任務(wù)的視覺問題模型,具有很強(qiáng)的組合理解能力,能夠在知識(shí)圖譜、問題和圖像之間進(jìn)行推理,而相關(guān)技術(shù)中的視覺問答模型容易忽略圖像中的語義信息,導(dǎo)致問答精度和知識(shí)推理精度相對(duì)較低,無法滿足用戶的高精度問答需求和答案可解釋需求。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的是提供一種基于多模態(tài)大模型的視覺問答方法及相關(guān)裝置,可以提取圖像中的語義信息,提高視覺問答的問答精度和知識(shí)推理精度。
2、本技術(shù)實(shí)施例提供一種基于多模態(tài)大模型的視覺問答方法,包括:
3、獲取原始圖像和針對(duì)所述原始圖像的提問信息;
4、對(duì)所述原始圖像進(jìn)行視覺特征編碼處理,得到第一特征向量序列;
5、對(duì)所述第一特征向量序列進(jìn)行圖像特征提取處理和基于圖像特征提取結(jié)果的圖像特征壓縮處理,得到第二特征向量序列;
6、采用殘差矢量量化方法,利用語義特征向量集對(duì)所述第二特征向量序列進(jìn)行特征替換處理,得到第三特征向量序列;
7、對(duì)所述第三特征向量序列進(jìn)行特征解碼處理,得到重構(gòu)圖像;
8、結(jié)合多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息,對(duì)所述重構(gòu)圖像和所述提問信息進(jìn)行問答預(yù)測處理,得到所述提問信息對(duì)應(yīng)的回答結(jié)果。
9、在一些實(shí)施例中,所述對(duì)所述原始圖像進(jìn)行視覺特征編碼處理,得到第一特征向量序列,包括:
10、對(duì)所述原始圖像進(jìn)行圖像分塊處理,得到多個(gè)圖像塊;
11、對(duì)各所述圖像塊進(jìn)行線性嵌入處理和位置嵌入處理,得到圖像塊特征向量序列;所述圖像塊特征向量序列包含多個(gè)圖像塊特征向量,所述圖像塊特征向量分別嵌入所述圖像塊之間的相對(duì)位置信息;
12、基于自注意力機(jī)制,使所述圖像塊特征向量序列中的多個(gè)所述圖像塊特征向量進(jìn)行特征信息傳播,得到所述第一特征向量序列。
13、在一些實(shí)施例中,所述對(duì)所述第一特征向量序列進(jìn)行圖像特征提取處理和基于圖像特征提取結(jié)果的圖像特征壓縮處理,得到第二特征向量序列,包括:
14、根據(jù)所述第一特征向量序列中的圖像塊特征向量所包含的特征信息量,對(duì)所述圖像塊特征向量進(jìn)行二值化分類處理,得到所述圖像塊特征向量的二值化分布;
15、對(duì)所述二值化分布進(jìn)行重參數(shù)化處理,得到二元決策掩碼;
16、根據(jù)所述二元決策掩碼,對(duì)所述第一特征向量序列進(jìn)行特征向量選取,以確定被選中的圖像塊特征向量和未選中的圖像塊特征向量;
17、根據(jù)所述被選中的圖像塊特征向量和所述未選中的圖像塊特征向量之間的語義相似度,將所述未選中的圖像塊特征向量壓縮融合到所述被選中的圖像塊特征向量,得到所述第二特征向量序列。
18、在一些實(shí)施例中,所述根據(jù)所述被選中的圖像塊特征向量和所述未選中的圖像塊特征向量之間的語義相似度,將所述未選中的圖像塊特征向量壓縮融合到所述被選中的圖像塊特征向量,得到所述第二特征向量序列,包括:
19、對(duì)所述被選中的圖像塊特征向量進(jìn)行自注意力計(jì)算,使后一個(gè)所述被選中的圖像塊特征向量只能觀測到前一個(gè)所述被選中的圖像塊特征向量;
20、以所述被選中的圖像塊特征向量作為查詢,以所述未選中的圖像塊特征向量作為鍵和值,通過注意力機(jī)制,將所述未選中的圖像塊特征向量壓縮融合到所述被選中的圖像塊特征向量,得到所述第二特征向量序列。
21、在一些實(shí)施例中,所述采用殘差矢量量化方法,利用語義特征向量集對(duì)所述第二特征向量序列進(jìn)行特征替換處理,得到第三特征向量序列,包括:
22、對(duì)所述第二特征向量序列進(jìn)行迭代的殘差矢量量化操作,得到每次殘差矢量量化操作對(duì)應(yīng)的殘差矢量量化結(jié)果和特征向量搜索結(jié)果;所述殘差矢量量化操作為在該次迭代對(duì)應(yīng)的語義特征向量集中搜索與最新的待量化矢量相似度最高的特征向量的操作,所述殘差矢量量化結(jié)果為所述最新的待量化矢量與所述與最新的待量化矢量相似度最高的特征向量之間的偏差,所述最新的待量化矢量為所述第二特征向量序列或上一次殘差矢量量化操作對(duì)應(yīng)的殘差矢量量化結(jié)果,所述特征向量搜索結(jié)果為所述殘差矢量量化操作搜索得到的特征向量;
23、利用所述特征向量搜索結(jié)果,構(gòu)造所述第三特征向量序列。
24、在一些實(shí)施例中,所述結(jié)合多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息,對(duì)所述重構(gòu)圖像和所述提問信息進(jìn)行問答預(yù)測處理,得到所述提問信息對(duì)應(yīng)的回答結(jié)果,包括:
25、將所述重構(gòu)圖像、所述提問信息和所述多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息輸入多模態(tài)大模型,進(jìn)行問答預(yù)測處理,得到所述提問信息對(duì)應(yīng)的回答結(jié)果;所述多模態(tài)大模型為基于樣本重構(gòu)圖像、針對(duì)所述樣本重構(gòu)圖像的樣本提問信息和樣本知識(shí)內(nèi)容信息對(duì)預(yù)設(shè)模型進(jìn)行訓(xùn)練得到。
26、在一些實(shí)施例中,所述將所述重構(gòu)圖像、所述提問信息和所述多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息輸入多模態(tài)大模型,進(jìn)行問答預(yù)測處理,得到所述提問信息對(duì)應(yīng)的回答結(jié)果,包括:
27、組合所述重構(gòu)圖像和所述提問信息,得到輸入組合結(jié)果;
28、將所述輸入組合結(jié)果輸入所述多模態(tài)大模型,對(duì)所述輸入組合結(jié)果和所述多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息進(jìn)行相關(guān)性計(jì)算,得到相關(guān)性計(jì)算結(jié)果;
29、根據(jù)所述相關(guān)性計(jì)算結(jié)果,輸出提問信息對(duì)應(yīng)的回答結(jié)果。
30、本技術(shù)實(shí)施例還提供一種基于多模態(tài)大模型的視覺問答裝置,包括:
31、第一模塊,用于獲取原始圖像和針對(duì)所述原始圖像的提問信息;
32、第二模塊,用于對(duì)所述原始圖像進(jìn)行視覺特征編碼處理,得到第一特征向量序列;
33、第三模塊,用于對(duì)所述第一特征向量序列進(jìn)行圖像特征提取處理和基于圖像特征提取結(jié)果的圖像特征壓縮處理,得到第二特征向量序列;
34、第四模塊,用于采用殘差矢量量化方法,利用語義特征向量集對(duì)所述第二特征向量序列進(jìn)行特征替換處理,得到第三特征向量序列;
35、第五模塊,用于對(duì)所述第三特征向量序列進(jìn)行特征解碼處理,得到重構(gòu)圖像;
36、第六模塊,用于結(jié)合多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息,對(duì)所述重構(gòu)圖像和所述提問信息進(jìn)行問答預(yù)測處理,得到所述提問信息對(duì)應(yīng)的回答結(jié)果。
37、本技術(shù)實(shí)施例還提供一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的基于多模態(tài)大模型的視覺問答方法。
38、本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于多模態(tài)大模型的視覺問答方法。
39、本技術(shù)的有益效果:通過對(duì)原始圖像進(jìn)行視覺特征編碼處理,得到包含原始圖像的語義信息的第一特征向量序列,再對(duì)第一特征向量序列進(jìn)行圖像特征提取處理和基于圖像特征提取結(jié)果的圖像特征壓縮處理,以評(píng)估每個(gè)圖像塊的重要性,得到富含特征信息的第二特征向量序列,再采用殘差矢量量化方法,利用語義特征向量集對(duì)第二特征向量序列進(jìn)行特征替換處理,得到與多模態(tài)知識(shí)庫中相應(yīng)的語義特征向量所包含的語義信息趨于相同的第三特征向量序列,結(jié)合多模態(tài)知識(shí)庫中的知識(shí)內(nèi)容信息,對(duì)利用第三特征向量序列重構(gòu)的重構(gòu)圖像和提問信息進(jìn)行問答預(yù)測處理,得到提問信息對(duì)應(yīng)的回答結(jié)果。由于在進(jìn)行問答預(yù)測處理之前先對(duì)原始圖像進(jìn)行視覺特征編碼處理、圖像特征提取處理以及利用語義特征向量集進(jìn)行特征替換處理,可以從原始圖像中提取豐富的語義信息,在評(píng)估每個(gè)圖像塊的重要性之后選出特征信息豐富的圖像塊,并利用預(yù)設(shè)語義特征向量集進(jìn)行特征替換處理,使重構(gòu)得到的重構(gòu)圖像所包含的語義信息與多模態(tài)知識(shí)庫中相應(yīng)的語義特征向量所包含的語義信息趨于相同,提高視覺問答的問答精度和知識(shí)推理精度。