国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備與流程

      文檔序號:39621953發(fā)布日期:2024-10-11 13:42閱讀:15來源:國知局
      基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備與流程

      本發(fā)明涉及自然語言處理,尤其涉及一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備。


      背景技術(shù):

      1、隨著基于大語言模型問答應(yīng)用的普及,越來越多的用戶通過上傳一份或多份文檔,基于大語言模型進(jìn)行提問。大語言模型在進(jìn)行響應(yīng)時(shí),需要在文檔中定位與問題相關(guān)的語義片段,再進(jìn)行回答。因此,對于文檔進(jìn)行切分是至關(guān)重要的。

      2、現(xiàn)有技術(shù)中,通常采用基于固定長度的文檔切片方式,無法保證切分片段的語義完整性,經(jīng)常將句子切斷,導(dǎo)致切分后的片段無法包含完整語義。

      3、為改善上述文檔切分方式,還可利用深度學(xué)習(xí)技術(shù)對文檔進(jìn)行語義切分。但是,基于深度學(xué)習(xí)技術(shù)進(jìn)行文檔語義切分,需要進(jìn)行高成本的文本標(biāo)注和訓(xùn)練,文檔切分方式復(fù)雜。并且,在文檔所屬行業(yè)類型不同時(shí),可能還需要重新進(jìn)行訓(xùn)練。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備,以通過簡便的切分方式對文檔切分,最大程度保留完整語義信息。

      2、根據(jù)本發(fā)明的一方面,提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法,該方法包括:

      3、獲取待切分文檔,并識別所述待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;

      4、根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;

      5、其中,所述文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;

      6、根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;

      7、若是,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;

      8、若否,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果。

      9、根據(jù)本發(fā)明的另一方面,提供了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分裝置,該裝置包括:

      10、內(nèi)容識別模塊,用于獲取待切分文檔,并識別所述待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;

      11、文檔標(biāo)題集確定模塊,用于根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;

      12、其中,所述文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;

      13、條件判斷模塊,用于根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;

      14、循環(huán)判斷模塊,用于若當(dāng)前文檔段落滿足預(yù)設(shè)切片條件,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;

      15、當(dāng)前切分結(jié)果生成模塊,用于若當(dāng)前文檔段落不滿足預(yù)設(shè)切片條件,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果。

      16、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:

      17、至少一個處理器;以及

      18、與所述至少一個處理器通信連接的存儲器;其中,

      19、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。

      20、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。

      21、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。

      22、本發(fā)明實(shí)施例的技術(shù)方案,通過獲取待切分文檔,并識別待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;其中,文檔標(biāo)題集中包括文檔名稱以及與文檔段落對應(yīng)的各層級文檔標(biāo)題;根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;若是,則更新當(dāng)前文檔段落以及下一文檔段落,并返回根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件步驟;若否,則根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果,解決了文檔的切分問題,通過無監(jiān)督的簡便切分方式,保證語切分片段的語義完整性,最大程度保留語義信息,有利于快速確定切分結(jié)果的語義。

      23、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。



      技術(shù)特征:

      1.一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件,包括:

      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件,包括:

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)上一切分結(jié)果至所述當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,以及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果,包括:

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,

      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:

      8.一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分裝置,其特征在于,包括:

      9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

      10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法。


      技術(shù)總結(jié)
      本發(fā)明實(shí)施例公開了一種基于文檔標(biāo)題層級結(jié)構(gòu)的文檔內(nèi)容切分方法、裝置及設(shè)備。該方法包括:獲取待切分文檔,并識別待切分文檔中的文檔名稱、各層級文檔標(biāo)題、以及文檔段落;根據(jù)各文檔段落在文檔中所處的章節(jié)位置,確定與各文檔段落對應(yīng)的文檔標(biāo)題集;根據(jù)待切分文檔的上一切分結(jié)果、當(dāng)前文檔段落以及下一文檔段落,確定當(dāng)前文檔段落是否滿足預(yù)設(shè)切片條件;若是,則更新當(dāng)前文檔段落以及下一文檔段落繼續(xù)判斷;若否,則根據(jù)上一切分結(jié)果至當(dāng)前文檔段落的上一文檔段落之間的段落內(nèi)容,及對應(yīng)的文檔標(biāo)題集,生成當(dāng)前切分結(jié)果。該方法切分方式簡便、可以保證切分片段的語義完整性,最大程度保留語義信息,有利于快速確定切分結(jié)果的語義。

      技術(shù)研發(fā)人員:紀(jì)傳俊,楊慧宇,張蕓,焦嘉烽,陽建林
      受保護(hù)的技術(shù)使用者:達(dá)觀數(shù)據(jù)有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1