国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端與流程

      文檔序號(hào):40378746發(fā)布日期:2024-12-20 12:01閱讀:4來(lái)源:國(guó)知局
      長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端與流程

      本申請(qǐng)涉及計(jì)算機(jī),尤其涉及一種長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端。


      背景技術(shù):

      1、面對(duì)包括各種文檔的知識(shí)庫(kù),為了提升信息檢索的效率與準(zhǔn)確性,構(gòu)建高效、精準(zhǔn)的索引系統(tǒng)成為了不可或缺的一環(huán)。這一過(guò)程中,文檔解析的準(zhǔn)確性影響著文檔索引的準(zhǔn)確性。通常來(lái)說(shuō),文檔解析都是遵循著一套精心設(shè)計(jì)的規(guī)則與模式,將連續(xù)的文本流切割成一塊塊易于處理與理解的片段。然而,這種直接的解析方式,在應(yīng)對(duì)長(zhǎng)文本時(shí)卻逐漸顯露出其局限性。長(zhǎng)文本的內(nèi)部結(jié)構(gòu)復(fù)雜多變,上下文之間的關(guān)聯(lián)往往跨越了多個(gè)段落乃至章節(jié)。因此傳統(tǒng)的固定模式的解析方法,存在著容易割裂長(zhǎng)文本的連貫性與邏輯性的問題,那么在解析長(zhǎng)文本時(shí),就需要更加靈活的方法來(lái)適應(yīng)長(zhǎng)文本的特點(diǎn)。


      技術(shù)實(shí)現(xiàn)思路

      1、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端,可以解決相關(guān)技術(shù)中難以完整、準(zhǔn)確地解析長(zhǎng)文本的技術(shù)問題。

      2、第一方面,本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析方法,該方法包括:

      3、識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;

      4、根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;

      5、從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;

      6、將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。

      7、第二方面,本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析裝置,該裝置包括:

      8、標(biāo)題識(shí)別模塊,用于識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;

      9、段落拆分模塊,用于根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;

      10、語(yǔ)義整合模塊,用于從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;

      11、向量生成模塊,用于將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。

      12、第三方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于由處理器加載并執(zhí)行上述的方法的步驟。

      13、第四方面,本申請(qǐng)實(shí)施例提供一種終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述的方法的步驟。

      14、本申請(qǐng)一些實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:

      15、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法,識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。由于標(biāo)題是對(duì)文檔層次的準(zhǔn)確劃分,因此標(biāo)題中包含了文檔的上下文關(guān)聯(lián)關(guān)系,那么通過(guò)長(zhǎng)文本的標(biāo)題生成目錄信息,再基于各級(jí)目錄將整個(gè)文檔拆分為符合模型輸入的長(zhǎng)度要求的文本段落,實(shí)現(xiàn)了更合理的文本段落劃分。進(jìn)一步地,繼續(xù)根據(jù)其上級(jí)目錄中包含的上下文信息對(duì)長(zhǎng)文本信息進(jìn)行整合,這樣結(jié)合了文本的原本語(yǔ)義和目錄標(biāo)題語(yǔ)義,讓文本段落的語(yǔ)義信息更加豐富;再將具有豐富語(yǔ)義信息的各文本段落輸入向量模型,使得模型能夠?qū)ζ溥M(jìn)行更準(zhǔn)確的理解和處理,從而得到了向量模型對(duì)各文本段落輸出的富含語(yǔ)義信息的向量序列。



      技術(shù)特征:

      1.一種長(zhǎng)文本解析方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將所述待解析長(zhǎng)文本劃分為多個(gè)文本段落,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述按照各標(biāo)題將所述待解析長(zhǎng)文本拆分為多個(gè)文本片段,包括:

      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述目標(biāo)文本片段拆分為多個(gè)符合所述輸入長(zhǎng)度要求的文本段落,包括:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目錄信息為具有樹形數(shù)據(jù)結(jié)構(gòu)的目錄樹,所述目錄樹中以各標(biāo)題作為節(jié)點(diǎn)、以各標(biāo)題之間的級(jí)別關(guān)系作為連接節(jié)點(diǎn)的邊。

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,包括:

      7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述得到所述向量模型對(duì)各文本段落輸出的向量特征之后,還包括:

      8.一種長(zhǎng)文本解析裝置,其特征在于,所述裝置包括:

      9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項(xiàng)的所述方法的步驟。

      10.一種終端,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7任一項(xiàng)所述方法的步驟。


      技術(shù)總結(jié)
      本申請(qǐng)公開了一種長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端。識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。由于通過(guò)長(zhǎng)文本的標(biāo)題將整個(gè)文檔拆分為文本段落,對(duì)文本段落實(shí)現(xiàn)了更合理的劃分。繼續(xù)根據(jù)其上級(jí)目錄中的包含的上下文信息對(duì)長(zhǎng)文本信息進(jìn)行整合,讓文本段落的語(yǔ)義信息更加豐富,在此基礎(chǔ)上就可以讓模型對(duì)其進(jìn)行更準(zhǔn)確的理解和處理。

      技術(shù)研發(fā)人員:梁博,楊亦威,康博
      受保護(hù)的技術(shù)使用者:北京奇虎科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1