本公開涉及人工智能的,具體涉及一種文本生成方法、裝置及相關(guān)設(shè)備。
背景技術(shù):
1、對圖像的內(nèi)容識(shí)別是計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的熱點(diǎn)課題,例如:對漫畫圖像的漫畫主題句的識(shí)別,其中,所述漫畫主體句可理解為對漫畫圖像所表現(xiàn)內(nèi)容的文本表達(dá)。
2、在相關(guān)技術(shù)中,由于對圖像內(nèi)容的挖掘程度不足,導(dǎo)致對圖像進(jìn)行內(nèi)容識(shí)別而輸出的識(shí)別文本的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、本公開的目的在于提供一種文本生成方法、裝置及相關(guān)設(shè)備,用于解決相關(guān)技術(shù)在圖像內(nèi)容識(shí)別方面,所存在的識(shí)別文本準(zhǔn)確性低的技術(shù)問題。
2、第一方面,本申請?zhí)峁┮环N文本生成方法,所述方法包括:
3、對待預(yù)測圖像進(jìn)行編碼,得到圖像特征;
4、根據(jù)所述圖像特征對關(guān)聯(lián)所述待預(yù)測圖像的非圖像特征進(jìn)行計(jì)算,得到第一注意力信息,以及根據(jù)所述非圖像特征對所述圖像特征進(jìn)行計(jì)算,得到第二注意力信息,所述非圖像特征用于表示所述待預(yù)測圖像的上下文語境;
5、將所述第一注意力信息和所述第二注意力信息融合,得到目標(biāo)注意力信息;
6、對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,所述預(yù)測文本為用于描述所述待預(yù)測圖像的圖像內(nèi)容的文本。
7、第二方面,本申請還提供一種文本生成裝置,所述裝置包括:
8、編碼模塊,用于對待預(yù)測圖像進(jìn)行編碼,得到圖像特征;
9、注意力計(jì)算模塊,用于根據(jù)所述圖像特征對關(guān)聯(lián)所述待預(yù)測圖像的非圖像特征進(jìn)行計(jì)算,得到第一注意力信息,以及根據(jù)所述非圖像特征對所述圖像特征進(jìn)行計(jì)算,得到第二注意力信息,所述非圖像特征用于表示所述待預(yù)測圖像的上下文語境;
10、注意力融合模塊,用于將所述第一注意力信息和所述第二注意力信息融合,得到目標(biāo)注意力信息;
11、解碼模塊,用于對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,所述預(yù)測文本為用于描述所述待預(yù)測圖像的圖像內(nèi)容的文本。
12、第三方面,本申請?zhí)峁┮环N電子設(shè)備,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
13、第四方面,本申請?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
14、第五方面,本申請?zhí)峁┮环N計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
15、在本申請中,引入非圖像特征,并通過分別計(jì)算圖像特征對非圖像特征的注意力信息,以及計(jì)算非圖像特征對圖像特征的注意力信息,完成圖像特征和用于描述圖像上下文語境的非圖像特征的雙向交互,來獲得更加準(zhǔn)確的注意力信息,據(jù)此進(jìn)行解碼,可使輸出的預(yù)測文本更加貼合待預(yù)測圖像的圖像內(nèi)容,也即使預(yù)測文本的準(zhǔn)確性得到提升。
1.一種文本生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述圖像特征獲取文本解碼查詢向量,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)每個(gè)所述池化視覺特征的細(xì)節(jié)特征和語義特征,得到所述文本解碼查詢向量,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述條件視覺特征對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,包括:
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述待預(yù)測圖像為漫畫圖像,所述非圖像特征包括如下至少一項(xiàng):文本特征、音頻特征。
7.一種文本生成裝置,其特征在于,所述裝置包括:
8.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。