国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文本生成方法、裝置及相關(guān)設(shè)備與流程

      文檔序號(hào):40238892發(fā)布日期:2024-12-06 17:03閱讀:18來源:國知局
      一種文本生成方法、裝置及相關(guān)設(shè)備與流程

      本公開涉及人工智能的,具體涉及一種文本生成方法、裝置及相關(guān)設(shè)備。


      背景技術(shù):

      1、對圖像的內(nèi)容識(shí)別是計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的熱點(diǎn)課題,例如:對漫畫圖像的漫畫主題句的識(shí)別,其中,所述漫畫主體句可理解為對漫畫圖像所表現(xiàn)內(nèi)容的文本表達(dá)。

      2、在相關(guān)技術(shù)中,由于對圖像內(nèi)容的挖掘程度不足,導(dǎo)致對圖像進(jìn)行內(nèi)容識(shí)別而輸出的識(shí)別文本的準(zhǔn)確性較低。


      技術(shù)實(shí)現(xiàn)思路

      1、本公開的目的在于提供一種文本生成方法、裝置及相關(guān)設(shè)備,用于解決相關(guān)技術(shù)在圖像內(nèi)容識(shí)別方面,所存在的識(shí)別文本準(zhǔn)確性低的技術(shù)問題。

      2、第一方面,本申請?zhí)峁┮环N文本生成方法,所述方法包括:

      3、對待預(yù)測圖像進(jìn)行編碼,得到圖像特征;

      4、根據(jù)所述圖像特征對關(guān)聯(lián)所述待預(yù)測圖像的非圖像特征進(jìn)行計(jì)算,得到第一注意力信息,以及根據(jù)所述非圖像特征對所述圖像特征進(jìn)行計(jì)算,得到第二注意力信息,所述非圖像特征用于表示所述待預(yù)測圖像的上下文語境;

      5、將所述第一注意力信息和所述第二注意力信息融合,得到目標(biāo)注意力信息;

      6、對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,所述預(yù)測文本為用于描述所述待預(yù)測圖像的圖像內(nèi)容的文本。

      7、第二方面,本申請還提供一種文本生成裝置,所述裝置包括:

      8、編碼模塊,用于對待預(yù)測圖像進(jìn)行編碼,得到圖像特征;

      9、注意力計(jì)算模塊,用于根據(jù)所述圖像特征對關(guān)聯(lián)所述待預(yù)測圖像的非圖像特征進(jìn)行計(jì)算,得到第一注意力信息,以及根據(jù)所述非圖像特征對所述圖像特征進(jìn)行計(jì)算,得到第二注意力信息,所述非圖像特征用于表示所述待預(yù)測圖像的上下文語境;

      10、注意力融合模塊,用于將所述第一注意力信息和所述第二注意力信息融合,得到目標(biāo)注意力信息;

      11、解碼模塊,用于對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,所述預(yù)測文本為用于描述所述待預(yù)測圖像的圖像內(nèi)容的文本。

      12、第三方面,本申請?zhí)峁┮环N電子設(shè)備,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

      13、第四方面,本申請?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

      14、第五方面,本申請?zhí)峁┮环N計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

      15、在本申請中,引入非圖像特征,并通過分別計(jì)算圖像特征對非圖像特征的注意力信息,以及計(jì)算非圖像特征對圖像特征的注意力信息,完成圖像特征和用于描述圖像上下文語境的非圖像特征的雙向交互,來獲得更加準(zhǔn)確的注意力信息,據(jù)此進(jìn)行解碼,可使輸出的預(yù)測文本更加貼合待預(yù)測圖像的圖像內(nèi)容,也即使預(yù)測文本的準(zhǔn)確性得到提升。



      技術(shù)特征:

      1.一種文本生成方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述圖像特征獲取文本解碼查詢向量,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)每個(gè)所述池化視覺特征的細(xì)節(jié)特征和語義特征,得到所述文本解碼查詢向量,包括:

      5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述條件視覺特征對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本,包括:

      6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述待預(yù)測圖像為漫畫圖像,所述非圖像特征包括如下至少一項(xiàng):文本特征、音頻特征。

      7.一種文本生成裝置,其特征在于,所述裝置包括:

      8.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述方法的步驟。

      9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述方法的步驟。

      10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。


      技術(shù)總結(jié)
      本申請?zhí)峁┮环N文本生成方法、裝置及相關(guān)設(shè)備,涉及人工智能的技術(shù)領(lǐng)域,所述方法包括:對待預(yù)測圖像進(jìn)行編碼,得到圖像特征;根據(jù)所述圖像特征對關(guān)聯(lián)所述待預(yù)測圖像的非圖像特征進(jìn)行計(jì)算,得到第一注意力信息,以及根據(jù)所述非圖像特征對所述圖像特征進(jìn)行計(jì)算,得到第二注意力信息,所述非圖像特征用于表示所述待預(yù)測圖像的上下文語境;對所述第一注意力信息和所述第二注意力信息進(jìn)行融合,得到目標(biāo)注意力信息;對所述目標(biāo)注意力信息進(jìn)行解碼,得到預(yù)測文本。本申請通過圖像特征和用于描述圖像上下文語境的非圖像特征的雙向交互,可獲得更加準(zhǔn)確的注意力信息,進(jìn)而得以輸出貼合待預(yù)測圖像的圖像內(nèi)容的預(yù)測文本。

      技術(shù)研發(fā)人員:趙玉申
      受保護(hù)的技術(shù)使用者:咪咕文化科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/5
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1