国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品

      文檔序號(hào):40391349發(fā)布日期:2024-12-20 12:14閱讀:20來源:國知局
      多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品

      本申請(qǐng)涉及人工智能,尤其涉及一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。


      背景技術(shù):

      1、在目前的多語言大語言模型(例如,bloom、llama等)中,當(dāng)嘗試在模型中加入一門新的語言時(shí),常常會(huì)遇到“災(zāi)難性遺忘”問題,即模型會(huì)在學(xué)習(xí)新語言的同時(shí),遺忘已有語言的知識(shí)。這是因?yàn)槟P驮谥匦掠?xùn)練時(shí)會(huì)更新整個(gè)網(wǎng)絡(luò)的權(quán)重,導(dǎo)致先前學(xué)到的知識(shí)被覆蓋。因此,亟需一種能夠解決多語言大語言模型中“災(zāi)難性遺忘”問題技術(shù)方案。


      技術(shù)實(shí)現(xiàn)思路

      1、本申請(qǐng)實(shí)施例提供一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,用于至少解決上述技術(shù)問題之一。

      2、第一方面,本申請(qǐng)實(shí)施例提供一種多語言大模型優(yōu)化訓(xùn)練方法,包括:

      3、獲取第一初始多語言大模型所支持的多種語言的多語言數(shù)據(jù)集;

      4、將所述多語言數(shù)據(jù)集中的至少一種語言數(shù)據(jù)輸入至所述第一初始多語言大模型以確定優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合;

      5、根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型;

      6、采用所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的訓(xùn)練樣本集對(duì)所述第二初始多語言大模型進(jìn)行訓(xùn)練。

      7、在一些實(shí)施例中,優(yōu)化訓(xùn)練目標(biāo)包括為多語言大模型增加新語種處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      8、在一些實(shí)施例中,根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型,包括:

      9、凍結(jié)所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù),以得到第二初始多語言大模型。

      10、在一些實(shí)施例中,優(yōu)化訓(xùn)練目標(biāo)包括增強(qiáng)多語言大模型對(duì)已支持舊語種的處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      11、在一些實(shí)施例中,根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型,包括:

      12、凍結(jié)所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù),以得到第二初始多語言大模型。

      13、在一些實(shí)施例中,根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型,包括:

      14、凍結(jié)所述第一初始多語言大模型所支持的舊語種之外的語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù),以得到第二初始多語言大模型。

      15、在一些實(shí)施例中,優(yōu)化訓(xùn)練目標(biāo)包括遺忘多語言大模型對(duì)已支持舊語種的處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      16、在一些實(shí)施例中,根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型,包括:

      17、置零所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù),以得到第二初始多語言大模型。

      18、第二方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

      19、第三方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

      20、第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

      21、本申請(qǐng)?jiān)趯?duì)多語言大模型優(yōu)化訓(xùn)練時(shí),先確定了優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的第一初始多語言大模型中神經(jīng)元集合,然后再根據(jù)優(yōu)化訓(xùn)練目標(biāo)對(duì)第一初始多語言大模型中對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,最后才采用訓(xùn)練樣本集對(duì)多語言大模型進(jìn)行訓(xùn)練。通過預(yù)處理的步驟,使得采用訓(xùn)練樣本集對(duì)多語言大模型進(jìn)行訓(xùn)練時(shí)避免或者降低了對(duì)預(yù)處理所對(duì)應(yīng)神經(jīng)元參數(shù)產(chǎn)生影響,從而解決了現(xiàn)有技術(shù)中存在的“災(zāi)難性遺忘”的問題。



      技術(shù)特征:

      1.一種多語言大模型優(yōu)化訓(xùn)練方法,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述優(yōu)化訓(xùn)練目標(biāo)包括為多語言大模型增加新語種處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,

      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述優(yōu)化訓(xùn)練目標(biāo)包括增強(qiáng)多語言大模型對(duì)已支持舊語種的處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述優(yōu)化訓(xùn)練目標(biāo)包括遺忘多語言大模型對(duì)已支持舊語種的處理能力;所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,

      8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。

      9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。

      10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。


      技術(shù)總結(jié)
      本申請(qǐng)公開一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,該方法包括:獲取第一初始多語言大模型所支持的多種語言的多語言數(shù)據(jù)集;將多語言數(shù)據(jù)集中的至少一種語言數(shù)據(jù)輸入至第一初始多語言大模型以確定優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合;根據(jù)優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理,以得到第二初始多語言大模型;采用優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的訓(xùn)練樣本集對(duì)第二初始多語言大模型進(jìn)行訓(xùn)練。本申請(qǐng)結(jié)合優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)神經(jīng)元集合對(duì)多語言大模型優(yōu)化訓(xùn)練,解決了現(xiàn)有技術(shù)中存在的災(zāi)難性遺忘的問題,提升了模型的訓(xùn)練效率。

      技術(shù)研發(fā)人員:陳露,俞凱,曾泓川,韓森宇
      受保護(hù)的技術(shù)使用者:上海交通大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1