本發(fā)明涉及人工智能,具體涉及機器學習、在線學習和大語言模型,更具體地,涉及大模型部署方法及其裝置。
背景技術:
1、大語言模型(也即大模型)在近年來取得許多進展,許多不同類型的大模型有較好的體現。然而,這種進步也帶來了資源消耗增加和訓練推理過程中延遲增加的代價,這為大語言模型的實際部署帶來挑戰(zhàn)。對于不同的用戶提問,如何選擇一個合適的大模型進行回答是一個需要考慮的問題。
2、在實現本發(fā)明構思的過程中,發(fā)明人發(fā)現目前在問答場景中,缺乏一種比較通用的大模型部署策略,既能基于用戶輸入的問題快速反饋符合用戶需求的答案,還能使問答交互過程中消耗較少的資源。
技術實現思路
1、有鑒于此,本發(fā)明提供了一種大模型部署方法及其裝置。
2、本發(fā)明的一個方面提供了一種大模型部署方法,包括:接收在第n次問答交互時用戶輸入的待解答問題;基于第一大模型集中每個大模型回答問題的預估準確度,從第一大模型集中篩選k個大模型,得到第二大模型集,其中,第一大模型集是在第n-1次問答交互中確定的,預估準確度是基于前n-1次問答交互中第一大模型集中每個大模型被調用的次數和被調用后回答問題的答案確定的,k為正整數,且k小于第一大模型集中大模型的個數;在確定緩存中不存在待解答問題,或在確定緩存中存在待解答問題且與待解答問題對應的答案不滿足用戶需求的情況下,基于調用第二大模型集中大模型各自回答問題時所需消耗的預估資源,對第二大模型集中每個大模型進行排序,得到第三大模型集,其中,緩存中存儲有m個已解答問題和與m個已解答問題中每個已解答問題對應的已解答答案,n和m均為大于或者等于1的正整數,預估資源是基于前n-1次問答交互中調用第二大模型集中每個大模型回答問題時的消耗預估得到的;以及按照排序從第三大模型集中依次確定目標大模型,以便將待解答問題輸入目標大模型后輸出目標答案,直至目標答案滿足用戶的需求或第三大模型集中k個大模型輸出的目標答案均不滿足用戶的需求時,停止從第三大模型集中確定目標大模型,完成第n次問答交互。
3、根據本發(fā)明的實施例,排序包括升序排序,k≥2;按照排序從第三大模型集中依此確定目標大模型,以便將待解答問題輸入目標大模型后輸出目標答案,直至目標答案滿足用戶的需求或第三大模型集中k個大模型輸出的目標答案均不滿足用戶的需求時,停止從第三大模型集中確定目標大模型,包括:將升序排序后位于第三大模型集中的第一位大模型,確定為第一目標大模型,以便將待解答問題輸入第一目標大模型后輸出第一目標答案;將第一目標答案發(fā)送至用戶,以便用戶基于第一目標答案返回第一反饋結果;在確定第一反饋結果表征第一目標答案不滿足用戶的需求的情況下,將升序排序后位于第三大模型集中的第二位大模型,確定為第二目標大模型,以便將待解答問題輸入第二目標大模型后輸出第二目標答案,其中,第一目標大模型和第二目標大模型不同;將第二目標答案發(fā)送至用戶,以便用戶基于第二目標答案返回第二反饋結果;在確定第二反饋結果表征第二目標答案滿足用戶的需求的情況下,停止從第三大模型集中確定目標大模型,完成第n次問答交互;以及在確定第三大模型集中k個大模型均被調用,且k個大模型輸出的目標答案均不滿足用戶的需求的情況下,停止從第三大模型集中確定目標大模型,完成第n次問答交互。
4、根據本發(fā)明的實施例,大模型部署方法還包括:針對第二大模型集中每個大模型:分別統(tǒng)計前n-1次問答交互中調用大模型回答問題時的消耗和大模型被調用的次數;以及基于前n-1次問答交互中調用大模型回答問題時的消耗和大模型被調用的次數,確定調用大模型回答問題時所需消耗的預估資源。
5、根據本發(fā)明的實施例,基于前n-1次問答交互中調用大模型回答問題時的消耗和大模型被調用的次數,確定調用大模型回答問題時所需消耗的預估資源,包括:根據前n-1次問答交互中調用大模型回答問題時的消耗和大模型被調用的次數的比值,確定平均預估資源;基于預設回答問題的次數、大模型被調用的次數和預設參數,確定用于對平均預估資源進行修正的修正資源;以及根據平均預估資源和修正資源的差值,確定調用大模型回答問題時所需消耗的預估資源。
6、根據本發(fā)明的實施例,大模型部署方法還包括:在確定完成第n次問答交互的情況下,基于調用目標大模型回答未解答問題時的消耗,更新前n-1次問答交互中調用目標大模型回答問題時的消耗;更新前n-1次問答交互中調用目標大模型的次數;以及基于更新后的前n-1次問答交互中調用目標大模型回答問題時的消耗和更新后的前n-1次問答交互中調用目標大模型的次數,更新調用目標大模型回答問題時所需消耗的預估資源。
7、根據本發(fā)明的實施例,大模型部署方法還包括:針對第一大模型集中每個大模型:分別統(tǒng)計前n-1次問答交互中大模型被調用的次數和大模型被調用后回答問題的答案滿足用戶需求的次數;以及基于大模型被調用后回答問題的答案滿足用戶需求的次數和大模型被調用的次數,確定大模型回答問題的預估準確度。
8、根據本發(fā)明的實施例,大模型部署方法還包括:在確定完成第n次問答交互的情況下,基于目標答案,更新前n-1次問答交互中目標大模型被調用后回答問題的答案滿足用戶需求的次數;更新前n-1次問答交互中調用目標大模型的次數;以及基于更新后的前n-1次問答交互中目標大模型被調用后回答問題的答案滿足用戶需求的次數和更新后的前n-1次問答交互中調用目標大模型的次數,更新目標大模型回答問題的預估準確度。
9、根據本發(fā)明的實施例,基于第一大模型集中每個大模型回答問題的預估準確度,從第一大模型集中篩選k個大模型,得到第二大模型集,包括:根據第一大模型集中每個大模型回答問題的預估準確度,對第一大模型集中每個大模型進行降序排序,得到排序結果;以及根據排序結果,從第一大模型集中篩選前k個大模型,得到第二大模型集。
10、根據本發(fā)明的實施例,大模型部署方法還包括:采集在歷史時間段內產生的p個已解答問題和與p個已解答問題中每個已解答問題對應的已解答答案;確定p個已解答問題中每個已解答問題在歷史時間段內產生的概率;從p個已解答問題中篩選概率滿足預設條件的m個已解答問題,并將m個已解答問題和與m個已解答問題中每個已解答問題對應的已解答答案存儲于緩存中,其中,p≥m,且p為正整數;在確定完成第n次問答交互的情況下,基于目標答案和待解答問題,更新緩存。
11、本發(fā)明的另一個方面提供了一種大模型部署裝置,包括:接收模塊,用于接收在第n次問答交互時用戶輸入的待解答問題;篩選模塊,用于基于第一大模型集中每個大模型回答問題的預估準確度,從第一大模型集中篩選k個大模型,得到第二大模型集,其中,第一大模型集是在第n-1次問答交互中確定的,預估準確度是基于前n-1次問答交互中第一大模型集中每個大模型被調用的次數和被調用后回答問題的答案確定的,k為正整數,且k小于第一大模型集中大模型的個數;排序模塊,用于在確定緩存中不存在待解答問題,或在確定緩存中存在待解答問題且與待解答問題對應的答案不滿足用戶需求的情況下,基于調用第二大模型集中大模型各自回答問題時所需消耗的預估資源,對第二大模型集中每個大模型進行排序,得到第三大模型集,其中,緩存中存儲有m個已解答問題和與m個已解答問題中每個已解答問題對應的已解答答案,n和m均為正整數,預估資源是基于前n-1次問答交互中調用第二大模型集中每個大模型回答問題時的消耗預估得到的;以及確定模塊,用于按照排序從第三大模型集中依次確定目標大模型,以便將待解答問題輸入目標大模型后輸出目標答案,直至目標答案滿足用戶的需求或第三大模型集中k個大模型輸出的目標答案均不滿足用戶的需求時,停止從第三大模型集中確定目標大模型,完成第n次問答交互。
12、根據本發(fā)明的實施例,在確定緩存中不存在用戶輸入的待解答問題的情況下,或在確定緩存中存在待解答問題且與待解答問題對應的答案不滿足用戶需求的情況下,基于大模型回答問題的準確度,篩選滿足條件的大模型集,再基于調用大模型回答問題時所需消耗的資源,對大模型集中的大模型進行排序,從排序后的大模型集中依次確定目標大模型,利用目標大模型對用戶輸入的待解答問題進行回答。通過緩存機制能夠實現只有在緩存中不存在用戶輸入的待解答問題,或緩存中雖然存在用戶輸入的待解答問題,但與該待解答問題對應的答案不能滿足用戶需求時,才需要確定目標大模型,能夠借助緩存降低調用大模型回答問題時所需消耗的資源,并能夠快速反饋符合用戶需求的答案。此外,通過大模型策略選擇機制,既考慮大模型回答問題的準確度的問題,還考慮回答問題時所需消耗的資源的問題,由此確定的目標大模型能夠準確回答問題,在回答問題時還消耗較少的資源。通過將緩存機制和大模型策略選擇機制相結合的大模型部署策略,能夠提升用戶體驗,解決既能基于用戶輸入的問題快速反饋符合用戶需求的答案,還能使問答交互過程中消耗較少的資源的需求問題。