国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備與流程

      文檔序號:39754129發(fā)布日期:2024-10-25 13:27閱讀:43來源:國知局
      一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備與流程

      本技術(shù)涉及自然語言處理,具體涉及一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備。


      背景技術(shù):

      1、隨著全球化的發(fā)展,在實際的語言處理場景中,用戶常常希望實現(xiàn)跨語言的應(yīng)用。為此,各種大規(guī)模預(yù)訓(xùn)練語言模型已經(jīng)在自然語言處理領(lǐng)域得到廣泛應(yīng)用。在大型多語言數(shù)據(jù)集上預(yù)訓(xùn)練過的語言模型,學(xué)到了多語言的知識,具備了很好的遷移學(xué)習(xí)的能力。

      2、目前,一種跨語言遷移的方式為基于提示學(xué)習(xí)(prompt?learning)的跨語言遷移學(xué)習(xí)方法。

      3、在提示學(xué)習(xí)中,可以在不顯著改變預(yù)訓(xùn)練語言模型的結(jié)構(gòu)和參數(shù)的情況下,通過向輸入數(shù)據(jù)增加“提示信息”來重新制定下游任務(wù),使其形式與預(yù)訓(xùn)練階段靠近,減小了預(yù)訓(xùn)練的任務(wù)和下游任務(wù)之間的差距,從而減少了對下游任務(wù)數(shù)據(jù)的需求,使預(yù)訓(xùn)練語言模型更好地解決下游任務(wù)。

      4、然而,在跨語言遷移中,對于各種目標(biāo)語言,目前的提示學(xué)習(xí)的方式所使用的提示都是相同的基于源語言的提示,將該基于源語言的提示不利于預(yù)訓(xùn)練語言模型的跨語言遷移,導(dǎo)致跨語言遷移后對目標(biāo)語言的任務(wù)的處理性能較差。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)提供一種提示學(xué)習(xí)方法,以解決在跨語言遷移后,目標(biāo)語言對應(yīng)的任務(wù)處理性能較差的問題。本技術(shù)還提供了相應(yīng)的裝置、設(shè)備、計算機(jī)可讀存儲介質(zhì)和計算機(jī)程序產(chǎn)品等。

      2、本技術(shù)第一方面提供一種提示學(xué)習(xí)方法,該方法包括:獲取至少一組數(shù)據(jù)對,任意一組數(shù)據(jù)對包括第一數(shù)據(jù)和第二數(shù)據(jù),第一數(shù)據(jù)包括第一提示和采用源語言的第一語料,第二數(shù)據(jù)包括第二提示和采用目標(biāo)語言的第二語料,第一語料和第二語料組成一對平行語料;根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí),以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù),預(yù)訓(xùn)練語言模型為根據(jù)采用源語言的訓(xùn)練數(shù)據(jù)和采用目標(biāo)語言的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練而得到的。

      3、在第一方面中,預(yù)訓(xùn)練語言模型處理基于源語言的自然語言處理任務(wù)的能力通常優(yōu)于處理基于目標(biāo)語言的自然語言處理任務(wù)的能力。在訓(xùn)練過程中,預(yù)訓(xùn)練語言模型和/或第二提示等參數(shù)可以根據(jù)由平行語料所構(gòu)建的數(shù)據(jù)對進(jìn)行調(diào)整,以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型和/或訓(xùn)練后的第二提示能夠?qū)R源語言和目標(biāo)語言,以更好地學(xué)習(xí)到目標(biāo)語言的知識,從而實現(xiàn)跨語言遷移,使得訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示較為準(zhǔn)確地執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù),緩解了跨語言遷移過程中由于語言表征差異性所帶來的性能損失,使得訓(xùn)練后的預(yù)訓(xùn)練語言模型基于訓(xùn)練后的第二提示執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)等下游任務(wù)時,具備更優(yōu)的跨語言理解能力,從而提升了執(zhí)行相關(guān)下游任務(wù)時的準(zhǔn)確性。

      4、在第一方面的一種可能的實現(xiàn)方式中,第一提示和第二提示為連續(xù)提示。

      5、目前,在通過提示學(xué)習(xí)進(jìn)行跨語言遷移時,傳統(tǒng)方案中,采用離散提示的方式來進(jìn)行跨語言遷移,并且對于所有目標(biāo)語言均適用相同的源語言(例如英語)提示模板和提示,這種方式很難捕捉到自然語言處理任務(wù)中特定于目標(biāo)語言的特征,并且離散提示主要基于人工經(jīng)驗,也會對跨語言遷移后的性能帶來不利影響。

      6、該種可能的實現(xiàn)方式中,第一提示和第二提示均為連續(xù)提示,此時,第一提示中的提示參數(shù)可以包括長度和內(nèi)容可學(xué)習(xí)的第一張量,第二提示中的提示參數(shù)也可以包括長度和內(nèi)容可學(xué)習(xí)的第二張量。

      7、這樣,可以不需要手動設(shè)計第一提示和第二提示,而是可在訓(xùn)練過程中優(yōu)化可學(xué)習(xí)的第一提示和第二提示,可以在預(yù)訓(xùn)練語言模型的人工構(gòu)建的詞匯表之外的空間找到更優(yōu)的提示參數(shù),從而提升跨語言遷移后的處理性能。

      8、在第一方面的一種可能的實現(xiàn)方式中,第一數(shù)據(jù)包括第一掩碼,第二數(shù)據(jù)包括第二掩碼,提示學(xué)習(xí)包括多次迭代過程;根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí),包括:在多次迭代過程的第n次迭代過程中:將第n次迭代過程的第一數(shù)據(jù)以及第n次迭代過程的第二數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型,獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第一掩碼的第一輸出結(jié)果,以及關(guān)于第n次迭代過程的第二掩碼的第二輸出結(jié)果,n為正整數(shù);根據(jù)第一輸出結(jié)果、第二輸出結(jié)果以及第一損失函數(shù),對第n次迭代過程的第一提示和第n次迭代過程的第二提示進(jìn)行更新,第一損失函數(shù)用于評估第一輸出結(jié)果的概率空間與第二輸出結(jié)果的概率空間之間的差異。

      9、該種可能的實現(xiàn)方式中,示例性地,通過第一損失函數(shù)可以計算第一輸出結(jié)果和第二輸出結(jié)果之間的kullback-leibler散度損失(kullback-leibler?divergence?loss,kld?loss)并正則化,以獲得第一損失值。然后,可以根據(jù)該第一損失值更新第n次迭代過程的第一提示和第n次迭代過程的第二提示,以使得第一輸出結(jié)果對應(yīng)的概率分布和第二輸出結(jié)果對應(yīng)的概率分布盡可能地接近,從而對齊源語言和目標(biāo)語言,有利于訓(xùn)練后的預(yù)訓(xùn)練語言模型根據(jù)訓(xùn)練后的第二提示更好地理解采用目標(biāo)語言的數(shù)據(jù),從而有利于執(zhí)行目標(biāo)語言相關(guān)的任務(wù)。

      10、在第一方面的一種可能的實現(xiàn)方式中,第二提示為通過提示轉(zhuǎn)換模塊對第一提示進(jìn)行轉(zhuǎn)換而得到的。

      11、該種可能的實現(xiàn)方式中,可以通過提示轉(zhuǎn)換模塊,實現(xiàn)第一提示到第二提示之間的轉(zhuǎn)換,從而減小不同語言之間的語言表征差異性。

      12、在提示學(xué)習(xí)中,第一提示和第二提示以及提示轉(zhuǎn)換模塊均可以根據(jù)包括平行語料的數(shù)據(jù)對,進(jìn)行參數(shù)調(diào)整,從而使得訓(xùn)練后的提示轉(zhuǎn)換模塊能夠?qū)R源語言和目標(biāo)語言的提示,減小了不同語言之間的語言表征差異性,使得訓(xùn)練后的第二提示可以更好地表征目標(biāo)語言的信息,有利于執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)。

      13、在第一方面的一種可能的實現(xiàn)方式中,第一數(shù)據(jù)包括第一掩碼,第二數(shù)據(jù)包括第二掩碼,提示學(xué)習(xí)包括多次迭代過程;根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí),包括:在多次迭代過程的第n次迭代過程中:將第n次迭代過程的第一數(shù)據(jù)以及第n次迭代過程的第二數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型,獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第一掩碼的第一輸出結(jié)果,以及關(guān)于第n次迭代過程的第二掩碼的第二輸出結(jié)果,n為正整數(shù);根據(jù)第一輸出結(jié)果以及第二輸出結(jié)果,對第n次迭代過程的第一提示以及第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新;通過第n次迭代過程中更新后的提示轉(zhuǎn)換模塊,對第n次迭代過程中更新后的第一提示進(jìn)行轉(zhuǎn)換,獲得第n次迭代過程中更新后的第二提示。

      14、該種可能的實現(xiàn)方式中,可以根據(jù)第一輸出結(jié)果和第二輸出結(jié)果,對第n次迭代過程的第一提示以及第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新,以使得第一輸出結(jié)果對應(yīng)的概率分布和第二輸出結(jié)果對應(yīng)的概率分布盡可能地接近,從而減小了語言表征的差異性,有利于訓(xùn)練后的預(yù)訓(xùn)練語言模型根據(jù)訓(xùn)練后的第二提示理解采用目標(biāo)語言的數(shù)據(jù),從而有利于執(zhí)行目標(biāo)語言相關(guān)的任務(wù)。

      15、在第一方面的一種可能的實現(xiàn)方式中,第n次迭代過程的第一數(shù)據(jù)對應(yīng)有第一標(biāo)簽;根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí),包括:根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第n次迭代過程的第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽以及第二損失函數(shù),對第n次迭代過程的第一提示和/或第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新,第二損失函數(shù)用于評估第一輸出結(jié)果與第n次迭代過程的第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽之間的差異。

      16、該種可能的實現(xiàn)方式中,在提示學(xué)習(xí)中,可以根據(jù)該第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽,以及第一數(shù)據(jù)對應(yīng)的第一輸出結(jié)果之間的差異進(jìn)行訓(xùn)練,以使得該差異趨向于減少,以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型可以根據(jù)訓(xùn)練后的第一提示,較為準(zhǔn)確地執(zhí)行基于源語言的自然語言處理任務(wù),提升了對源語言的自然語言處理任務(wù)的處理性能。

      17、在此基礎(chǔ)上,可以通過包含平行語料的至少一組數(shù)據(jù)對,將預(yù)訓(xùn)練語言模型對源語言的自然語言處理任務(wù)的較優(yōu)的處理性能很好地遷移至目標(biāo)語言的自然語言處理任務(wù)中,而減少語言表征差異性所帶來的負(fù)面影響。

      18、在第一方面的一種可能的實現(xiàn)方式中,該方法還包括:獲取第三數(shù)據(jù)以及第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,第三數(shù)據(jù)包括第三提示、第三掩碼和采用源語言的第三語料;根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí),包括:將第n次迭代過程的第三數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型,獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第三掩碼的第三輸出結(jié)果;根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,對第n次迭代過程的第一提示以及第n次迭代過程的第二提示,和/或,第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新。

      19、該種可能的實現(xiàn)方式中,在提示學(xué)習(xí)中,輸入數(shù)據(jù)不僅包括包含有平行語料和連續(xù)提示的數(shù)據(jù)對,還包括作為標(biāo)注數(shù)據(jù)的第三數(shù)據(jù)。

      20、這樣,可以根據(jù)多種數(shù)據(jù),以較為豐富的數(shù)據(jù)信息進(jìn)行訓(xùn)練,從而使得源語言的自然語言處理任務(wù)的處理性能以及從源語言到目標(biāo)語言的跨語言遷移后的處理性能都得到全面提升,使得跨語言遷移后,訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示,準(zhǔn)確地執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)。

      21、在第一方面的一種可能的實現(xiàn)方式中,第三提示為離散提示;根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,對第n次迭代過程的第一提示以及第n次迭代過程的第二提示,和/或,第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新,包括:根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,對第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新;根據(jù)第一輸出結(jié)果以及第二輸出結(jié)果,對第n次迭代過程的第一提示和第n次迭代過程的第二提示進(jìn)行更新。

      22、在第一方面的一種可能的實現(xiàn)方式中,第三提示為連續(xù)提示;第二提示為通過提示轉(zhuǎn)換模塊對第一提示進(jìn)行轉(zhuǎn)換而得到的;根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,對第n次迭代過程的第一提示以及第n次迭代過程的第二提示,和/或,第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新,包括:根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽,對第n次迭代過程的第三提示和第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新;將第n次迭代過程中更新后的第三提示作為第n次迭代過程中更新后的第一提示。

      23、本技術(shù)第二方面提供一種提示學(xué)習(xí)裝置,該裝置具有實現(xiàn)上述第一方面或第一方面任意一種可能實現(xiàn)方式的方法的功能。該功能可以通過硬件實現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實現(xiàn)。該硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊,例如獲取模塊以及訓(xùn)練模塊等。

      24、本技術(shù)第三方面提供一種計算設(shè)備集群,該計算設(shè)備集群包括至少一個計算設(shè)備,每個計算設(shè)備包括處理器和存儲器,至少一個計算設(shè)備的存儲器中存儲有可在處理器上運行的計算機(jī)執(zhí)行指令,當(dāng)計算機(jī)執(zhí)行指令被處理器執(zhí)行時,處理器執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

      25、本技術(shù)第四方面提供一種存儲一個或多個計算機(jī)執(zhí)行指令的計算機(jī)可讀存儲介質(zhì),當(dāng)計算機(jī)執(zhí)行指令被計算設(shè)備集群執(zhí)行時,計算設(shè)備集群執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

      26、本技術(shù)第五方面提供一種存儲一個或多個計算機(jī)執(zhí)行指令的計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包含計算機(jī)執(zhí)行指令,當(dāng)計算機(jī)執(zhí)行指令被計算設(shè)備集群執(zhí)行時,計算設(shè)備集群執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

      27、本技術(shù)第六方面提供了一種芯片系統(tǒng),該芯片系統(tǒng)包括處理器,用于支持計算設(shè)備集群實現(xiàn)上述第一方面或第一方面任意一種可能的實現(xiàn)方式中所涉及的功能。在一種可能的設(shè)計中,芯片系統(tǒng)還可以包括存儲器,存儲器用于保存必要的程序指令和數(shù)據(jù)。該芯片系統(tǒng),可以由芯片構(gòu)成,也可以包含芯片和其他分立器件。

      28、其中,第二方面至第六方面或者其中任一種可能實現(xiàn)方式所帶來的技術(shù)效果可參見第一方面或第一方面的相關(guān)可能實現(xiàn)方式所帶來的技術(shù)效果,此處不再贅述。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1