本申請屬于自然語言處理,涉及一種古文標(biāo)點預(yù)測方法,特別是涉及一種古文標(biāo)點預(yù)測方法、系統(tǒng)、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的發(fā)展,非結(jié)構(gòu)化的數(shù)據(jù)量也在逐漸增大,人們開始利用人工智能處理數(shù)據(jù),提取出來其中的有效信息。古文,作為漢語歷史的重要組成部分,其語言結(jié)構(gòu)、語法規(guī)則以及標(biāo)點的使用方式與現(xiàn)代漢語有著顯著差異。古文中常常省略標(biāo)點符號,且標(biāo)點的使用也并非固定,往往依賴于語境和作者的個人習(xí)慣,這使得機(jī)器學(xué)習(xí)模型在處理古文標(biāo)點時容易出現(xiàn)歧義和不準(zhǔn)確的情況。目前的標(biāo)點預(yù)測技術(shù)大多基于現(xiàn)代漢語的標(biāo)點規(guī)則進(jìn)行訓(xùn)練,而現(xiàn)代漢語的語法結(jié)構(gòu)和古文差異較大。例如,古文中的句子往往省略主謂結(jié)構(gòu)或使用倒裝句,而這些特征在現(xiàn)代漢語中較為少見。傳統(tǒng)的基于規(guī)則的模型和深度學(xué)習(xí)方法,雖然在現(xiàn)代漢語標(biāo)點預(yù)測中取得了一定的成功,但在古文處理中,由于缺乏足夠的語料和規(guī)則支持,導(dǎo)致預(yù)測結(jié)果的準(zhǔn)確性不高。尤其是當(dāng)古文中出現(xiàn)復(fù)雜的修辭手法、長句嵌套或多重義項時,現(xiàn)有技術(shù)的模型難以正確理解上下文,從而給出不適當(dāng)?shù)臉?biāo)點符號。
2、因此,如何解決古文標(biāo)點預(yù)測中的不準(zhǔn)確問題,成為當(dāng)前研究的重要方向。
技術(shù)實現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術(shù)的缺點,本申請的目的在于提供一種古文標(biāo)點預(yù)測方法、系統(tǒng)、電子設(shè)備及介質(zhì),用于解決現(xiàn)有技術(shù)中古文標(biāo)點預(yù)測準(zhǔn)確度不高的問題。
2、第一方面,本申請?zhí)峁┮环N古文標(biāo)點預(yù)測方法,所述古文標(biāo)點預(yù)測方法包括:獲取訓(xùn)練數(shù)據(jù);對所述訓(xùn)練數(shù)據(jù)進(jìn)行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓(xùn)練數(shù)據(jù)集;利用最小哈希算法構(gòu)建索引庫,以獲取所述訓(xùn)練數(shù)據(jù)集的參考文本;利用所述參考文本和所述訓(xùn)練數(shù)據(jù)集的原始文本對初始語言模型進(jìn)行訓(xùn)練,以獲取古文標(biāo)點預(yù)測模型;利用所述古文標(biāo)點預(yù)測模型對待預(yù)測文本進(jìn)行預(yù)測,以獲取預(yù)測結(jié)果。
3、本申請中,對訓(xùn)練數(shù)據(jù)進(jìn)行拆分處理,以獲取數(shù)據(jù)增強的訓(xùn)練數(shù)據(jù)集,利用最小哈希算法獲取訓(xùn)練數(shù)據(jù)集的參考文本,利用參考文本和原始文本對初始語言模型進(jìn)行訓(xùn)練,獲取古文標(biāo)點預(yù)測模型,利用古文標(biāo)點預(yù)測模型獲取待預(yù)測文本的預(yù)測結(jié)果。此種古文標(biāo)點預(yù)測方法能夠避免連續(xù)標(biāo)點預(yù)測的漏報、誤報問題,適應(yīng)復(fù)雜的古文場景,快速完成古籍文本的斷句和標(biāo)點,提高古文標(biāo)點預(yù)測的準(zhǔn)確度。
4、在第一方面的一種實現(xiàn)方式中,對所述訓(xùn)練數(shù)據(jù)進(jìn)行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓(xùn)練數(shù)據(jù)集包括:對所述訓(xùn)練數(shù)據(jù)進(jìn)行句子拆分和文本拆分,以獲取短句集合和文本集合;根據(jù)所述短句集合和所述文本集合獲取窗口范圍內(nèi)的最大短句數(shù)量和最大文本數(shù)量;根據(jù)所述最大短句數(shù)量、所述最大文本數(shù)量、所述短句集合和所述文本集合獲取所述訓(xùn)練數(shù)據(jù)集。
5、在第一方面的一種實現(xiàn)方式中,所述訓(xùn)練數(shù)據(jù)集包括至少一個待檢索文本,利用最小哈希算法構(gòu)建索引庫,以獲取所述待檢索文本的參考文本包括:基于最小哈希算法獲取所述訓(xùn)練數(shù)據(jù)集的哈希簽名向量;利用所述哈希簽名向量基于局部敏感哈希森林構(gòu)建簽名索引庫;基于最小哈希算法獲取待檢索文本的哈希簽名向量;利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進(jìn)行檢索,獲取所述待檢索文本的參考文本。
6、在第一方面的一種實現(xiàn)方式中,利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進(jìn)行檢索,獲取所述待檢索文本的參考文本包括:利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進(jìn)行檢索,獲取至少一條檢索結(jié)果;利用杰卡德相似度對所述檢索結(jié)果進(jìn)行篩選,獲取杰卡德相似度大于設(shè)定閾值的檢索結(jié)果作為所述待檢索文本的參考文本。
7、在第一方面的一種實現(xiàn)方式中,所述古文標(biāo)點預(yù)測方法包括:在利用所述古文標(biāo)點預(yù)測模型對所述待預(yù)測文本進(jìn)行預(yù)測時,將下一個預(yù)測字符限制為與所述待預(yù)測文本字符一致。
8、在第一方面的一種實現(xiàn)方式中,所述古文標(biāo)點預(yù)測方法包括:在利用所述古文標(biāo)點預(yù)測模型對所述待預(yù)測文本進(jìn)行預(yù)測時,獲取至少一個候選預(yù)測結(jié)果,將概率值最大的所述候選預(yù)測結(jié)果作為所述預(yù)測結(jié)果。
9、在第一方面的一種實現(xiàn)方式中,利用所述參考文本和所述訓(xùn)練數(shù)據(jù)集的原始文本對初始語言模型進(jìn)行訓(xùn)練,以獲取古文標(biāo)點預(yù)測模型包括:利用訓(xùn)練數(shù)據(jù)集的原始文本和所述參考文本輸入所述初始語言模型進(jìn)行訓(xùn)練,獲取初始古文標(biāo)點預(yù)測模型;利用反向傳播對所述初始古文標(biāo)點預(yù)測模型的參數(shù)進(jìn)行調(diào)整直至模型收斂,以獲取所述古文標(biāo)點預(yù)測模型。
10、第二方面,本申請?zhí)峁┮环N古文標(biāo)點預(yù)測系統(tǒng),所述古文標(biāo)點預(yù)測系統(tǒng)包括:數(shù)據(jù)獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);數(shù)據(jù)處理模塊,用于對所述訓(xùn)練數(shù)據(jù)進(jìn)行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓(xùn)練數(shù)據(jù)集;參考文本模塊,用于利用最小哈希算法構(gòu)建索引庫,以獲取所述訓(xùn)練數(shù)據(jù)集的參考文本;模型獲取模塊,用于利用所述參考文本和所述訓(xùn)練數(shù)據(jù)集的原始文本對初始語言模型進(jìn)行訓(xùn)練,以獲取古文標(biāo)點預(yù)測模型;結(jié)果預(yù)測模塊,用于利用所述古文標(biāo)點預(yù)測模型對待預(yù)測文本進(jìn)行預(yù)測,以獲取預(yù)測結(jié)果。
11、第三方面,本申請?zhí)峁┮环N電子設(shè)備,所述電子設(shè)備包括:存儲器,用于存儲計算機(jī)程序;處理器,所述處理器用于執(zhí)行所述存儲器存儲的計算機(jī)程序,以使所述電子設(shè)備執(zhí)行如第一方面中任一項所述的古文標(biāo)點預(yù)測方法。
12、第四方面,本申請?zhí)峁┮环N計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)第一方面中任一項所述的古文標(biāo)點預(yù)測方法。
1.一種古文標(biāo)點預(yù)測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的古文標(biāo)點預(yù)測方法,其特征在于,對所述訓(xùn)練數(shù)據(jù)進(jìn)行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓(xùn)練數(shù)據(jù)集包括:
3.根據(jù)權(quán)利要求1所述的古文標(biāo)點預(yù)測方法,其特征在于,所述訓(xùn)練數(shù)據(jù)集包括至少一個待檢索文本,利用最小哈希算法構(gòu)建索引庫,以獲取所述待檢索文本的參考文本包括:
4.根據(jù)權(quán)利要求3所述的古文標(biāo)點預(yù)測方法,其特征在于,利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進(jìn)行檢索,獲取所述待檢索文本的參考文本包括:
5.根據(jù)權(quán)利要求1所述的古文標(biāo)點預(yù)測方法,其特征在于,包括:
6.根據(jù)權(quán)利要求1所述的古文標(biāo)點預(yù)測方法,其特征在于,包括:
7.根據(jù)權(quán)利要求1所述的古文標(biāo)點預(yù)測方法,其特征在于,利用所述參考文本和所述訓(xùn)練數(shù)據(jù)集的原始文本對初始語言模型進(jìn)行訓(xùn)練,以獲取古文標(biāo)點預(yù)測模型包括:
8.一種古文標(biāo)點預(yù)測系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7任一項所述的古文標(biāo)點預(yù)測方法。