本發(fā)明涉及自然語言處理,尤其涉及一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備。
背景技術(shù):
1、隨著基于大語言模型問答應(yīng)用的普及,越來越多的用戶通過上傳一份或多份文檔,基于大語言模型進(jìn)行提問。大語言模型在進(jìn)行響應(yīng)時(shí),需要在文檔中定位與問題相關(guān)的語義片段,再進(jìn)行回答。因此,對于文檔進(jìn)行切分是至關(guān)重要的。
2、現(xiàn)有技術(shù)中,通常采用基于固定長度的文檔切片方式,無法保證切分片段的語義完整性,經(jīng)常將句子切斷,導(dǎo)致切分后的片段無法包含完整語義。
3、為改善上述文檔切分方式,還可利用深度學(xué)習(xí)技術(shù)對文檔進(jìn)行語義切分。但是,基于深度學(xué)習(xí)技術(shù)進(jìn)行文檔語義切分,需要進(jìn)行高成本的文本標(biāo)注和訓(xùn)練,文檔切分方式復(fù)雜。并且,在文檔所屬行業(yè)類型不同時(shí),可能還需要重新進(jìn)行訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備,以通過簡便的切分方式對文檔切分,最大程度保留完整語義信息。
2、根據(jù)本發(fā)明的一方面,提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法,該方法包括:
3、獲取待切分文檔,并識別所述待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;
4、根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;
5、其中,所述文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;
6、根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;
7、若是,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;
8、若否,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果。
9、根據(jù)本發(fā)明的另一方面,提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分裝置,該裝置包括:
10、內(nèi)容識別模塊,用于獲取待切分文檔,并識別所述待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;
11、文檔標(biāo)題集確定模塊,用于根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;
12、其中,所述文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;
13、條件判斷模塊,用于根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;
14、循環(huán)判斷模塊,用于若當(dāng)前文檔段落滿足預(yù)設(shè)切片條件,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;
15、當(dāng)前切分結(jié)果生成模塊,用于若當(dāng)前文檔段落不滿足預(yù)設(shè)切片條件,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果。
16、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
17、至少一個處理器;以及
18、與所述至少一個處理器通信連接的存儲器;其中,
19、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。
20、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。
21、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。
22、本發(fā)明實(shí)施例的技術(shù)方案,通過獲取待切分文檔,并識別待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;其中,文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;若是,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;若否,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果,解決了文檔的切分問題,通過無監(jiān)督的簡便切分方式,保證語切分片段的語義完整性,最大程度保留語義信息,有利于快速確定切分結(jié)果的語義。
23、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:
8.一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。