長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端與流程

文檔序號(hào)：40378746發(fā)布日期：2024-12-20 12:01閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及計(jì)算機(jī)，尤其涉及一種長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端。

背景技術(shù)：

1、面對(duì)包括各種文檔的知識(shí)庫(kù)，為了提升信息檢索的效率與準(zhǔn)確性，構(gòu)建高效、精準(zhǔn)的索引系統(tǒng)成為了不可或缺的一環(huán)。這一過(guò)程中，文檔解析的準(zhǔn)確性影響著文檔索引的準(zhǔn)確性。通常來(lái)說(shuō)，文檔解析都是遵循著一套精心設(shè)計(jì)的規(guī)則與模式，將連續(xù)的文本流切割成一塊塊易于處理與理解的片段。然而，這種直接的解析方式，在應(yīng)對(duì)長(zhǎng)文本時(shí)卻逐漸顯露出其局限性。長(zhǎng)文本的內(nèi)部結(jié)構(gòu)復(fù)雜多變，上下文之間的關(guān)聯(lián)往往跨越了多個(gè)段落乃至章節(jié)。因此傳統(tǒng)的固定模式的解析方法，存在著容易割裂長(zhǎng)文本的連貫性與邏輯性的問題，那么在解析長(zhǎng)文本時(shí)，就需要更加靈活的方法來(lái)適應(yīng)長(zhǎng)文本的特點(diǎn)。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端，可以解決相關(guān)技術(shù)中難以完整、準(zhǔn)確地解析長(zhǎng)文本的技術(shù)問題。

2、第一方面，本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析方法，該方法包括：

3、識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題，基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息；

4、根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落；

5、從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄，分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄；

6、將整合后的各文本段落輸入向量模型，得到向量模型對(duì)各文本段落輸出的向量特征。

7、第二方面，本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析裝置，該裝置包括：

8、標(biāo)題識(shí)別模塊，用于識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題，基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息；

9、段落拆分模塊，用于根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落；

10、語(yǔ)義整合模塊，用于從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄，分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄；

11、向量生成模塊，用于將整合后的各文本段落輸入向量模型，得到向量模型對(duì)各文本段落輸出的向量特征。

12、第三方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令，指令適于由處理器加載并執(zhí)行上述的方法的步驟。

13、第四方面，本申請(qǐng)實(shí)施例提供一種終端，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述的方法的步驟。

14、本申請(qǐng)一些實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括：

15、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法，識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題，基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息；根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落；從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄，分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄；將整合后的各文本段落輸入向量模型，得到向量模型對(duì)各文本段落輸出的向量特征。由于標(biāo)題是對(duì)文檔層次的準(zhǔn)確劃分，因此標(biāo)題中包含了文檔的上下文關(guān)聯(lián)關(guān)系，那么通過(guò)長(zhǎng)文本的標(biāo)題生成目錄信息，再基于各級(jí)目錄將整個(gè)文檔拆分為符合模型輸入的長(zhǎng)度要求的文本段落，實(shí)現(xiàn)了更合理的文本段落劃分。進(jìn)一步地，繼續(xù)根據(jù)其上級(jí)目錄中包含的上下文信息對(duì)長(zhǎng)文本信息進(jìn)行整合，這樣結(jié)合了文本的原本語(yǔ)義和目錄標(biāo)題語(yǔ)義，讓文本段落的語(yǔ)義信息更加豐富；再將具有豐富語(yǔ)義信息的各文本段落輸入向量模型，使得模型能夠?qū)ζ溥M(jìn)行更準(zhǔn)確的理解和處理，從而得到了向量模型對(duì)各文本段落輸出的富含語(yǔ)義信息的向量序列。

技術(shù)特征：

1.一種長(zhǎng)文本解析方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將所述待解析長(zhǎng)文本劃分為多個(gè)文本段落，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述按照各標(biāo)題將所述待解析長(zhǎng)文本拆分為多個(gè)文本片段，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述目標(biāo)文本片段拆分為多個(gè)符合所述輸入長(zhǎng)度要求的文本段落，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目錄信息為具有樹形數(shù)據(jù)結(jié)構(gòu)的目錄樹，所述目錄樹中以各標(biāo)題作為節(jié)點(diǎn)、以各標(biāo)題之間的級(jí)別關(guān)系作為連接節(jié)點(diǎn)的邊。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述得到所述向量模型對(duì)各文本段落輸出的向量特征之后，還包括：

8.一種長(zhǎng)文本解析裝置，其特征在于，所述裝置包括：

9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令，所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項(xiàng)的所述方法的步驟。

10.一種終端，其特征在于，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)公開了一種長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端。識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題，基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息；根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落；從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄，分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄；將整合后的各文本段落輸入向量模型，得到向量模型對(duì)各文本段落輸出的向量特征。由于通過(guò)長(zhǎng)文本的標(biāo)題將整個(gè)文檔拆分為文本段落，對(duì)文本段落實(shí)現(xiàn)了更合理的劃分。繼續(xù)根據(jù)其上級(jí)目錄中的包含的上下文信息對(duì)長(zhǎng)文本信息進(jìn)行整合，讓文本段落的語(yǔ)義信息更加豐富，在此基礎(chǔ)上就可以讓模型對(duì)其進(jìn)行更準(zhǔn)確的理解和處理。

技術(shù)研發(fā)人員：梁博,楊亦威,康博
受保護(hù)的技術(shù)使用者：北京奇虎科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁博,楊亦威,康博
技術(shù)所有人：北京奇虎科技有限公司
我是此專利的發(fā)明人

上一篇：一種具有輸送功能的回收機(jī)構(gòu)的制作方法
上一篇：一種廢礦物油蒸餾用浮閥及塔板的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端與流程

長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端與流程