一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備與流程

文檔序號：39754129發(fā)布日期：2024-10-25 13:27閱讀：43來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及自然語言處理，具體涉及一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備。

背景技術(shù)：

1、隨著全球化的發(fā)展，在實際的語言處理場景中，用戶常常希望實現(xiàn)跨語言的應(yīng)用。為此，各種大規(guī)模預(yù)訓(xùn)練語言模型已經(jīng)在自然語言處理領(lǐng)域得到廣泛應(yīng)用。在大型多語言數(shù)據(jù)集上預(yù)訓(xùn)練過的語言模型，學(xué)到了多語言的知識，具備了很好的遷移學(xué)習(xí)的能力。

2、目前，一種跨語言遷移的方式為基于提示學(xué)習(xí)(prompt?learning)的跨語言遷移學(xué)習(xí)方法。

3、在提示學(xué)習(xí)中，可以在不顯著改變預(yù)訓(xùn)練語言模型的結(jié)構(gòu)和參數(shù)的情況下，通過向輸入數(shù)據(jù)增加“提示信息”來重新制定下游任務(wù)，使其形式與預(yù)訓(xùn)練階段靠近，減小了預(yù)訓(xùn)練的任務(wù)和下游任務(wù)之間的差距，從而減少了對下游任務(wù)數(shù)據(jù)的需求，使預(yù)訓(xùn)練語言模型更好地解決下游任務(wù)。

4、然而，在跨語言遷移中，對于各種目標(biāo)語言，目前的提示學(xué)習(xí)的方式所使用的提示都是相同的基于源語言的提示，將該基于源語言的提示不利于預(yù)訓(xùn)練語言模型的跨語言遷移，導(dǎo)致跨語言遷移后對目標(biāo)語言的任務(wù)的處理性能較差。

技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種提示學(xué)習(xí)方法，以解決在跨語言遷移后，目標(biāo)語言對應(yīng)的任務(wù)處理性能較差的問題。本技術(shù)還提供了相應(yīng)的裝置、設(shè)備、計算機(jī)可讀存儲介質(zhì)和計算機(jī)程序產(chǎn)品等。

2、本技術(shù)第一方面提供一種提示學(xué)習(xí)方法，該方法包括：獲取至少一組數(shù)據(jù)對，任意一組數(shù)據(jù)對包括第一數(shù)據(jù)和第二數(shù)據(jù)，第一數(shù)據(jù)包括第一提示和采用源語言的第一語料，第二數(shù)據(jù)包括第二提示和采用目標(biāo)語言的第二語料，第一語料和第二語料組成一對平行語料；根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí)，以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)，預(yù)訓(xùn)練語言模型為根據(jù)采用源語言的訓(xùn)練數(shù)據(jù)和采用目標(biāo)語言的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練而得到的。

3、在第一方面中，預(yù)訓(xùn)練語言模型處理基于源語言的自然語言處理任務(wù)的能力通常優(yōu)于處理基于目標(biāo)語言的自然語言處理任務(wù)的能力。在訓(xùn)練過程中，預(yù)訓(xùn)練語言模型和/或第二提示等參數(shù)可以根據(jù)由平行語料所構(gòu)建的數(shù)據(jù)對進(jìn)行調(diào)整，以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型和/或訓(xùn)練后的第二提示能夠?qū)R源語言和目標(biāo)語言，以更好地學(xué)習(xí)到目標(biāo)語言的知識，從而實現(xiàn)跨語言遷移，使得訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示較為準(zhǔn)確地執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)，緩解了跨語言遷移過程中由于語言表征差異性所帶來的性能損失，使得訓(xùn)練后的預(yù)訓(xùn)練語言模型基于訓(xùn)練后的第二提示執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)等下游任務(wù)時，具備更優(yōu)的跨語言理解能力，從而提升了執(zhí)行相關(guān)下游任務(wù)時的準(zhǔn)確性。

4、在第一方面的一種可能的實現(xiàn)方式中，第一提示和第二提示為連續(xù)提示。

5、目前，在通過提示學(xué)習(xí)進(jìn)行跨語言遷移時，傳統(tǒng)方案中，采用離散提示的方式來進(jìn)行跨語言遷移，并且對于所有目標(biāo)語言均適用相同的源語言(例如英語)提示模板和提示，這種方式很難捕捉到自然語言處理任務(wù)中特定于目標(biāo)語言的特征，并且離散提示主要基于人工經(jīng)驗，也會對跨語言遷移后的性能帶來不利影響。

6、該種可能的實現(xiàn)方式中，第一提示和第二提示均為連續(xù)提示，此時，第一提示中的提示參數(shù)可以包括長度和內(nèi)容可學(xué)習(xí)的第一張量，第二提示中的提示參數(shù)也可以包括長度和內(nèi)容可學(xué)習(xí)的第二張量。

7、這樣，可以不需要手動設(shè)計第一提示和第二提示，而是可在訓(xùn)練過程中優(yōu)化可學(xué)習(xí)的第一提示和第二提示，可以在預(yù)訓(xùn)練語言模型的人工構(gòu)建的詞匯表之外的空間找到更優(yōu)的提示參數(shù)，從而提升跨語言遷移后的處理性能。

8、在第一方面的一種可能的實現(xiàn)方式中，第一數(shù)據(jù)包括第一掩碼，第二數(shù)據(jù)包括第二掩碼，提示學(xué)習(xí)包括多次迭代過程；根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí)，包括：在多次迭代過程的第n次迭代過程中：將第n次迭代過程的第一數(shù)據(jù)以及第n次迭代過程的第二數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型，獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第一掩碼的第一輸出結(jié)果，以及關(guān)于第n次迭代過程的第二掩碼的第二輸出結(jié)果，n為正整數(shù)；根據(jù)第一輸出結(jié)果、第二輸出結(jié)果以及第一損失函數(shù)，對第n次迭代過程的第一提示和第n次迭代過程的第二提示進(jìn)行更新，第一損失函數(shù)用于評估第一輸出結(jié)果的概率空間與第二輸出結(jié)果的概率空間之間的差異。

9、該種可能的實現(xiàn)方式中，示例性地，通過第一損失函數(shù)可以計算第一輸出結(jié)果和第二輸出結(jié)果之間的kullback-leibler散度損失(kullback-leibler?divergence?loss，kld?loss)并正則化，以獲得第一損失值。然后，可以根據(jù)該第一損失值更新第n次迭代過程的第一提示和第n次迭代過程的第二提示，以使得第一輸出結(jié)果對應(yīng)的概率分布和第二輸出結(jié)果對應(yīng)的概率分布盡可能地接近，從而對齊源語言和目標(biāo)語言，有利于訓(xùn)練后的預(yù)訓(xùn)練語言模型根據(jù)訓(xùn)練后的第二提示更好地理解采用目標(biāo)語言的數(shù)據(jù)，從而有利于執(zhí)行目標(biāo)語言相關(guān)的任務(wù)。

10、在第一方面的一種可能的實現(xiàn)方式中，第二提示為通過提示轉(zhuǎn)換模塊對第一提示進(jìn)行轉(zhuǎn)換而得到的。

11、該種可能的實現(xiàn)方式中，可以通過提示轉(zhuǎn)換模塊，實現(xiàn)第一提示到第二提示之間的轉(zhuǎn)換，從而減小不同語言之間的語言表征差異性。

12、在提示學(xué)習(xí)中，第一提示和第二提示以及提示轉(zhuǎn)換模塊均可以根據(jù)包括平行語料的數(shù)據(jù)對，進(jìn)行參數(shù)調(diào)整，從而使得訓(xùn)練后的提示轉(zhuǎn)換模塊能夠?qū)R源語言和目標(biāo)語言的提示，減小了不同語言之間的語言表征差異性，使得訓(xùn)練后的第二提示可以更好地表征目標(biāo)語言的信息，有利于執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)。

13、在第一方面的一種可能的實現(xiàn)方式中，第一數(shù)據(jù)包括第一掩碼，第二數(shù)據(jù)包括第二掩碼，提示學(xué)習(xí)包括多次迭代過程；根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí)，包括：在多次迭代過程的第n次迭代過程中：將第n次迭代過程的第一數(shù)據(jù)以及第n次迭代過程的第二數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型，獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第一掩碼的第一輸出結(jié)果，以及關(guān)于第n次迭代過程的第二掩碼的第二輸出結(jié)果，n為正整數(shù)；根據(jù)第一輸出結(jié)果以及第二輸出結(jié)果，對第n次迭代過程的第一提示以及第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新；通過第n次迭代過程中更新后的提示轉(zhuǎn)換模塊，對第n次迭代過程中更新后的第一提示進(jìn)行轉(zhuǎn)換，獲得第n次迭代過程中更新后的第二提示。

14、該種可能的實現(xiàn)方式中，可以根據(jù)第一輸出結(jié)果和第二輸出結(jié)果，對第n次迭代過程的第一提示以及第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新，以使得第一輸出結(jié)果對應(yīng)的概率分布和第二輸出結(jié)果對應(yīng)的概率分布盡可能地接近，從而減小了語言表征的差異性，有利于訓(xùn)練后的預(yù)訓(xùn)練語言模型根據(jù)訓(xùn)練后的第二提示理解采用目標(biāo)語言的數(shù)據(jù)，從而有利于執(zhí)行目標(biāo)語言相關(guān)的任務(wù)。

15、在第一方面的一種可能的實現(xiàn)方式中，第n次迭代過程的第一數(shù)據(jù)對應(yīng)有第一標(biāo)簽；根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí)，包括：根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第n次迭代過程的第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽以及第二損失函數(shù)，對第n次迭代過程的第一提示和/或第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新，第二損失函數(shù)用于評估第一輸出結(jié)果與第n次迭代過程的第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽之間的差異。

16、該種可能的實現(xiàn)方式中，在提示學(xué)習(xí)中，可以根據(jù)該第一數(shù)據(jù)對應(yīng)的第一標(biāo)簽，以及第一數(shù)據(jù)對應(yīng)的第一輸出結(jié)果之間的差異進(jìn)行訓(xùn)練，以使得該差異趨向于減少，以使得訓(xùn)練后的預(yù)訓(xùn)練語言模型可以根據(jù)訓(xùn)練后的第一提示，較為準(zhǔn)確地執(zhí)行基于源語言的自然語言處理任務(wù)，提升了對源語言的自然語言處理任務(wù)的處理性能。

17、在此基礎(chǔ)上，可以通過包含平行語料的至少一組數(shù)據(jù)對，將預(yù)訓(xùn)練語言模型對源語言的自然語言處理任務(wù)的較優(yōu)的處理性能很好地遷移至目標(biāo)語言的自然語言處理任務(wù)中，而減少語言表征差異性所帶來的負(fù)面影響。

18、在第一方面的一種可能的實現(xiàn)方式中，該方法還包括：獲取第三數(shù)據(jù)以及第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，第三數(shù)據(jù)包括第三提示、第三掩碼和采用源語言的第三語料；根據(jù)至少一組數(shù)據(jù)對以及預(yù)訓(xùn)練語言模型進(jìn)行提示學(xué)習(xí)，包括：將第n次迭代過程的第三數(shù)據(jù)輸入第n次迭代過程的預(yù)訓(xùn)練語言模型，獲得第n次迭代過程的預(yù)訓(xùn)練語言模型關(guān)于第n次迭代過程的第三掩碼的第三輸出結(jié)果；根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，對第n次迭代過程的第一提示以及第n次迭代過程的第二提示，和/或，第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新。

19、該種可能的實現(xiàn)方式中，在提示學(xué)習(xí)中，輸入數(shù)據(jù)不僅包括包含有平行語料和連續(xù)提示的數(shù)據(jù)對，還包括作為標(biāo)注數(shù)據(jù)的第三數(shù)據(jù)。

20、這樣，可以根據(jù)多種數(shù)據(jù)，以較為豐富的數(shù)據(jù)信息進(jìn)行訓(xùn)練，從而使得源語言的自然語言處理任務(wù)的處理性能以及從源語言到目標(biāo)語言的跨語言遷移后的處理性能都得到全面提升，使得跨語言遷移后，訓(xùn)練后的預(yù)訓(xùn)練語言模型能夠根據(jù)訓(xùn)練后的第二提示，準(zhǔn)確地執(zhí)行基于目標(biāo)語言的自然語言處理任務(wù)。

21、在第一方面的一種可能的實現(xiàn)方式中，第三提示為離散提示；根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，對第n次迭代過程的第一提示以及第n次迭代過程的第二提示，和/或，第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新，包括：根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，對第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新；根據(jù)第一輸出結(jié)果以及第二輸出結(jié)果，對第n次迭代過程的第一提示和第n次迭代過程的第二提示進(jìn)行更新。

22、在第一方面的一種可能的實現(xiàn)方式中，第三提示為連續(xù)提示；第二提示為通過提示轉(zhuǎn)換模塊對第一提示進(jìn)行轉(zhuǎn)換而得到的；根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，對第n次迭代過程的第一提示以及第n次迭代過程的第二提示，和/或，第n次迭代過程的預(yù)訓(xùn)練語言模型進(jìn)行更新，包括：根據(jù)第一輸出結(jié)果、第二輸出結(jié)果、第三輸出結(jié)果以及第n次迭代過程的第三數(shù)據(jù)對應(yīng)的第二標(biāo)簽，對第n次迭代過程的第三提示和第n次迭代過程的提示轉(zhuǎn)換模塊進(jìn)行更新；將第n次迭代過程中更新后的第三提示作為第n次迭代過程中更新后的第一提示。

23、本技術(shù)第二方面提供一種提示學(xué)習(xí)裝置，該裝置具有實現(xiàn)上述第一方面或第一方面任意一種可能實現(xiàn)方式的方法的功能。該功能可以通過硬件實現(xiàn)，也可以通過硬件執(zhí)行相應(yīng)的軟件實現(xiàn)。該硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊，例如獲取模塊以及訓(xùn)練模塊等。

24、本技術(shù)第三方面提供一種計算設(shè)備集群，該計算設(shè)備集群包括至少一個計算設(shè)備，每個計算設(shè)備包括處理器和存儲器，至少一個計算設(shè)備的存儲器中存儲有可在處理器上運行的計算機(jī)執(zhí)行指令，當(dāng)計算機(jī)執(zhí)行指令被處理器執(zhí)行時，處理器執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

25、本技術(shù)第四方面提供一種存儲一個或多個計算機(jī)執(zhí)行指令的計算機(jī)可讀存儲介質(zhì)，當(dāng)計算機(jī)執(zhí)行指令被計算設(shè)備集群執(zhí)行時，計算設(shè)備集群執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

26、本技術(shù)第五方面提供一種存儲一個或多個計算機(jī)執(zhí)行指令的計算機(jī)程序產(chǎn)品，該計算機(jī)程序產(chǎn)品包含計算機(jī)執(zhí)行指令，當(dāng)計算機(jī)執(zhí)行指令被計算設(shè)備集群執(zhí)行時，計算設(shè)備集群執(zhí)行如上述第一方面或第一方面任意一種可能的實現(xiàn)方式的方法。

27、本技術(shù)第六方面提供了一種芯片系統(tǒng)，該芯片系統(tǒng)包括處理器，用于支持計算設(shè)備集群實現(xiàn)上述第一方面或第一方面任意一種可能的實現(xiàn)方式中所涉及的功能。在一種可能的設(shè)計中，芯片系統(tǒng)還可以包括存儲器，存儲器用于保存必要的程序指令和數(shù)據(jù)。該芯片系統(tǒng)，可以由芯片構(gòu)成，也可以包含芯片和其他分立器件。

28、其中，第二方面至第六方面或者其中任一種可能實現(xiàn)方式所帶來的技術(shù)效果可參見第一方面或第一方面的相關(guān)可能實現(xiàn)方式所帶來的技術(shù)效果，此處不再贅述。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田奇,李厚強(qiáng),周文罡,邱小雨,史佳欣
技術(shù)所有人：華為云計算技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種方便使用的縫隙檢測塞尺的制作方法
上一篇：一種位置可調(diào)的壓延產(chǎn)品包裝纏繞機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種提示學(xué)習(xí)方法以及相關(guān)設(shè)備與流程