1.一種基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,包括:獲取強化學(xué)習(xí)的源狀態(tài)表征;基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征;基于自然語言的描述器,將所述增強源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細(xì)節(jié)、輸出要求和反饋信息中的至少之一;將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強化學(xué)習(xí)智能體增強的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù);基于所述增強的狀態(tài)表征函數(shù)和所述內(nèi)在獎勵函數(shù)以更新維護對應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征,包括:對所述強化學(xué)習(xí)的源狀態(tài)表征和所述外部知識庫中的各條知識進行語義嵌入編碼以得到強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識條目語義嵌入編碼向量的集合;將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量進行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識條目語義匹配系數(shù)的集合;挑選所述源狀態(tài)表征-知識條目語義匹配系數(shù)的集合中源狀態(tài)表征-知識條目語義匹配系數(shù)的最大值對應(yīng)的知識條目語義嵌入編碼向量作為數(shù)據(jù)增強材料表示向量;對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行多特征語義加權(quán)交互以得到所述增強源狀態(tài)表征。
3.根據(jù)權(quán)利要求2所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,對所述強化學(xué)習(xí)的源狀態(tài)表征和所述外部知識庫中的各條知識進行語義嵌入編碼以得到強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識條目語義嵌入編碼向量的集合,包括:對所述強化學(xué)習(xí)的源狀態(tài)表征進行語義嵌入編碼以得到所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;對所述外部知識庫中的各條知識進行語義嵌入編碼以得到所述知識條目語義嵌入編碼向量的集合。
4.根據(jù)權(quán)利要求3所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量進行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識條目語義匹配系數(shù)的集合,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量分別輸入基于哈希函數(shù)的語義關(guān)聯(lián)度量網(wǎng)絡(luò)以得到所述源狀態(tài)表征-知識條目語義匹配系數(shù)的集合。
5.根據(jù)權(quán)利要求4所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行多特征語義加權(quán)交互以得到所述增強源狀態(tài)表征,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量;對所述強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量進行基于sigmoid函數(shù)的特征激活以得到強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量;計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的強化學(xué)習(xí)源狀態(tài)語義貢獻度;計算所述數(shù)據(jù)增強材料表示向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的數(shù)據(jù)增強語義貢獻度;對所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度進行歸一化處理,并使用歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和歸一化后的數(shù)據(jù)增強語義貢獻度對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行加權(quán)調(diào)制以得到調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強材料表示向量;以所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強材料表示向量作為鍵向量且以所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量作為值向量,將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強材料表示向量和所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強源狀態(tài)表示向量作為所述增強源狀態(tài)表征。
6.根據(jù)權(quán)利要求5所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行按位置相加后,將得到的強化學(xué)習(xí)-數(shù)據(jù)增強加和向量與權(quán)重矩陣進行相乘后再與偏置向量進行按位置相加以得到強化學(xué)習(xí)-數(shù)據(jù)增強聯(lián)合交互向量;使用tanh函數(shù)對所述強化學(xué)習(xí)-數(shù)據(jù)增強聯(lián)合交互向量進行處理以得到所述強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量。
7.根據(jù)權(quán)利要求6所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的強化學(xué)習(xí)源狀態(tài)語義貢獻度,包括:計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的對應(yīng)位置的按位置除法以得到強化學(xué)習(xí)源狀態(tài)語義貢獻向量;計算所述強化學(xué)習(xí)源狀態(tài)語義貢獻向量的每個特征值的絕對值的以二為底的對數(shù)函數(shù)值以得到強化學(xué)習(xí)源狀態(tài)語義貢獻對數(shù)向量;計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強化學(xué)習(xí)源狀態(tài)語義貢獻對數(shù)向量的按位置點乘,并將得到的點乘向量進行逐位置點加以得到強化學(xué)習(xí)源狀態(tài)語義貢獻值;計算以自然常數(shù)e為底的,所述強化學(xué)習(xí)源狀態(tài)語義貢獻值為指數(shù)的指數(shù)函數(shù)以獲得所述強化學(xué)習(xí)源狀態(tài)語義貢獻度。
8.根據(jù)權(quán)利要求7所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,對所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度進行歸一化處理,并使用歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和歸一化后的數(shù)據(jù)增強語義貢獻度對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行加權(quán)調(diào)制以得到調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強材料表示向量,包括:計算所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度的加和值以得到強化學(xué)習(xí)-數(shù)據(jù)增強語義貢獻加和值;分別將所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度除以所述強化學(xué)習(xí)-數(shù)據(jù)增強語義貢獻加和值以得到所述歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述歸一化后的數(shù)據(jù)增強語義貢獻度;將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度進行按位置點乘以得到所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;將所述數(shù)據(jù)增強材料表示向量與所述歸一化后的數(shù)據(jù)增強語義貢獻度進行按位置點乘以得到所述調(diào)制后數(shù)據(jù)增強材料表示向量。
9.根據(jù)權(quán)利要求8所述的基于大語言模型和強化學(xué)習(xí)的決策支持方法,其特征在于,以所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強材料表示向量作為鍵向量且以所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量作為值向量,將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強材料表示向量和所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強源狀態(tài)表示向量,包括:將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述調(diào)制后數(shù)據(jù)增強材料表示向量的轉(zhuǎn)置向量進行向量相乘,將得到的調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)矩陣與所述調(diào)制后數(shù)據(jù)增強材料表示向量的長度的平方根進行按位置相除以得到調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放矩陣;使用softmax函數(shù)對所述調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放矩陣進行處理,將得到的調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放激活矩陣與所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量進行矩陣-向量相乘以得到所述增強源狀態(tài)表示向量。
10.一種基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng),其特征在于,包括:強化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)收集模塊,用于獲取強化學(xué)習(xí)的源狀態(tài)表征;強化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)增強模塊,用于基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征;增強源狀態(tài)表征轉(zhuǎn)換模塊,用于基于自然語言的描述器,將所述增強源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細(xì)節(jié)、輸出要求和反饋信息中的至少之一;狀態(tài)表征函數(shù)內(nèi)在獎勵函數(shù)生成模塊,用于將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強化學(xué)習(xí)智能體增強的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù);平滑狀態(tài)更新模塊,用于基于所述增強的狀態(tài)表征函數(shù)和所述內(nèi)在獎勵函數(shù)以更新維護對應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;決策結(jié)果生成模塊,用于將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。