本申請涉及自然語言處理,尤其涉及一種基于chatgpt的多版本文本簡化方法。
背景技術:
1、文本簡化是一種語言處理過程,旨在將復雜、冗長或?qū)I(yè)的文本內(nèi)容轉(zhuǎn)化為更簡潔、易懂的形式。隨著自然語言處理技術的不斷發(fā)展,文本簡化已經(jīng)可以通過chatgpt模型來實現(xiàn)。在使用chatgpt進行文本簡化時,用戶可以輸入明確的提示,使得chatgpt理解并回應用戶的需求。
2、然而,發(fā)明人在構(gòu)思及實現(xiàn)本申請的過程中發(fā)現(xiàn):不同的讀者群體所具備的閱讀能力不同,但傳統(tǒng)的chatgpt模型只能生成單一版本的簡化文本,無法滿足不同讀者群體的,因此,需要一種能夠基于chatgpt模型,對不同閱讀能力的用戶提供多版本的文本簡化方法,來提升文本簡化的適應性。
技術實現(xiàn)思路
1、本申請的主要目的在于提供一種基于chatgpt的多版本文本簡化方法,旨在解決如何針對不同閱讀能力的用戶提供多版本的文本簡化的問題。
2、為實現(xiàn)上述目的,本申請?zhí)峁┑囊环N基于chatgpt的多版本文本簡化方法,所述方法包括:
3、s1,確定當前文本簡化結(jié)果和原始文本之間的可讀性差異值,其中,所述當前文本簡化結(jié)果由chatgpt或文本簡化器模型生成;
4、s2,比較所述可讀性差異值與預設差異閾值;
5、s3,若小于或等于所述預設差異閾值,輸出當前文本簡化結(jié)果;
6、s4,否則,通過所述文本簡化器對所述當前文本簡化結(jié)果進行簡化,將得到的新的當前文本簡化結(jié)果返回至步驟s1。
7、可選地,所述s1具體包括:
8、確定所述當前文本簡化結(jié)果對應的第一可讀性值,以及所述原始文本對應的第二可讀性值;
9、將所述第一可讀性值與所述二可讀性值之間的差值,確定為所述可讀性差異值。
10、可選地,可讀性值包括所述第一可讀性值和所述第二可讀性值,所述可讀性值的計算公式為:
11、
12、其中,為輸入文本的平均句子長度,表示輸入文本中每個單詞的平均音節(jié)數(shù)。
13、可選地,所述s3中輸出當前文本簡化結(jié)果,具體包括:
14、對每一輪生成的文本簡化結(jié)果進行標注,其中,標注內(nèi)容包括文本簡化結(jié)果、被簡化次數(shù)、表征文本是否可以繼續(xù)被簡化的標簽和文本簡化結(jié)果對應的可讀性值;
15、將標注的內(nèi)容構(gòu)建為用于訓練的數(shù)據(jù)樣本并輸出。
16、可選地,通過文本簡化器執(zhí)行所述s4中對所述當前文本簡化結(jié)果進行簡化,其中,使用hugging?face的transformer庫中經(jīng)過預訓練的flan-t5-base模型作為所述文本簡化器。
17、可選地,所述文本簡化器在預訓練過程中的預訓練目標為最大化似然估計,滿足以下表達式:
18、
19、其中,上式表示最大化每個時間步中,輸入文本,得到輸出的概率。
20、可選地,通過訓練后的判別器執(zhí)行步驟s2,其中,所述判別器將文本簡化結(jié)果作為輸入,是否可以繼續(xù)簡化的標志作為訓練標簽,訓練目標為最小化二分類交叉熵損失。
21、可選地,所述判別器的訓練步驟包括:
22、采用lstm函數(shù)計算文本簡化結(jié)果的表征;
23、使用多層神經(jīng)網(wǎng)絡降低所述表征的維度;
24、使用函數(shù)將結(jié)果映射至區(qū)間內(nèi)。
25、此外,為實現(xiàn)上述目的,本申請還提供一種文本簡化系統(tǒng),所述文本簡化系統(tǒng)包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于chatgpt的多版本文本簡化程序,所述基于chatgpt的多版本文本簡化程序被所述處理器執(zhí)行時實現(xiàn)如上所述的基于chatgpt的多版本文本簡化方法的步驟。
26、此外,為實現(xiàn)上述目的,本申請還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有基于chatgpt的多版本文本簡化程序,所述基于chatgpt的多版本文本簡化程序被處理器執(zhí)行時實現(xiàn)如上所述的基于chatgpt的多版本文本簡化方法的步驟。
27、本申請至少具備以下技術效果:
28、通過設置一個判別器判斷每次簡化后的文本結(jié)果是否滿足用戶的當前簡化文本需求,從而保證文本簡化質(zhì)量,輸出可靠的多版本簡化結(jié)果。
1.一種基于chatgpt的多版本文本簡化方法,其特征在于,所述方法包括以下步驟:
2.如權(quán)利要求1所述的方法,其特征在于,所述s1具體包括:
3.如權(quán)利要求2所述的方法,其特征在于,可讀性值包括所述第一可讀性值和所述第二可讀性值,所述可讀性值的計算公式為:
4.如權(quán)利要求1所述的方法,其特征在于,所述s3中輸出當前文本簡化結(jié)果,具體包括:
5.如權(quán)利要求1所述的方法,其特征在于,通過文本簡化器執(zhí)行所述s4中對所述當前文本簡化結(jié)果進行簡化,其中,使用hugging?face的transformer庫中經(jīng)過預訓練的flan-t5-base模型作為所述文本簡化器。
6.如權(quán)利要求5所述的方法,其特征在于,所述文本簡化器在預訓練過程中的預訓練目標為最大化似然估計,滿足以下表達式:
7.如權(quán)利要求1所述的方法,其特征在于,通過訓練后的判別器執(zhí)行步驟s2,其中,所述判別器將文本簡化結(jié)果作為輸入,是否可以繼續(xù)簡化的標志作為訓練標簽,訓練目標為最小化二分類交叉熵損失。
8.如權(quán)利要求7所述的方法,其特征在于,所述判別器的訓練步驟包括:
9.一種文本簡化系統(tǒng),其特征在于,所述文本簡化系統(tǒng)包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于chatgpt的多版本文本簡化程序,所述基于chatgpt的多版本文本簡化程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的基于chatgpt的多版本文本簡化方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有基于chatgpt的多版本文本簡化程序,所述基于chatgpt的多版本文本簡化程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的基于chatgpt的多版本文本簡化方法的步驟。