本申請(qǐng)涉及計(jì)算機(jī),尤其涉及一種長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端。
背景技術(shù):
1、面對(duì)包括各種文檔的知識(shí)庫(kù),為了提升信息檢索的效率與準(zhǔn)確性,構(gòu)建高效、精準(zhǔn)的索引系統(tǒng)成為了不可或缺的一環(huán)。這一過(guò)程中,文檔解析的準(zhǔn)確性影響著文檔索引的準(zhǔn)確性。通常來(lái)說(shuō),文檔解析都是遵循著一套精心設(shè)計(jì)的規(guī)則與模式,將連續(xù)的文本流切割成一塊塊易于處理與理解的片段。然而,這種直接的解析方式,在應(yīng)對(duì)長(zhǎng)文本時(shí)卻逐漸顯露出其局限性。長(zhǎng)文本的內(nèi)部結(jié)構(gòu)復(fù)雜多變,上下文之間的關(guān)聯(lián)往往跨越了多個(gè)段落乃至章節(jié)。因此傳統(tǒng)的固定模式的解析方法,存在著容易割裂長(zhǎng)文本的連貫性與邏輯性的問題,那么在解析長(zhǎng)文本時(shí),就需要更加靈活的方法來(lái)適應(yīng)長(zhǎng)文本的特點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法、裝置、存儲(chǔ)介質(zhì)以及終端,可以解決相關(guān)技術(shù)中難以完整、準(zhǔn)確地解析長(zhǎng)文本的技術(shù)問題。
2、第一方面,本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析方法,該方法包括:
3、識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;
4、根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;
5、從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;
6、將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。
7、第二方面,本申請(qǐng)實(shí)施例提供一種長(zhǎng)文本解析裝置,該裝置包括:
8、標(biāo)題識(shí)別模塊,用于識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;
9、段落拆分模塊,用于根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;
10、語(yǔ)義整合模塊,用于從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;
11、向量生成模塊,用于將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。
12、第三方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于由處理器加載并執(zhí)行上述的方法的步驟。
13、第四方面,本申請(qǐng)實(shí)施例提供一種終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述的方法的步驟。
14、本申請(qǐng)一些實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:
15、本申請(qǐng)?zhí)峁┮环N長(zhǎng)文本解析方法,識(shí)別待解析長(zhǎng)文本中的至少一個(gè)標(biāo)題,基于各標(biāo)題生成待解析長(zhǎng)文本的目錄信息;根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將待解析長(zhǎng)文本劃分為多個(gè)文本段落;從目錄信息中確定各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄;將整合后的各文本段落輸入向量模型,得到向量模型對(duì)各文本段落輸出的向量特征。由于標(biāo)題是對(duì)文檔層次的準(zhǔn)確劃分,因此標(biāo)題中包含了文檔的上下文關(guān)聯(lián)關(guān)系,那么通過(guò)長(zhǎng)文本的標(biāo)題生成目錄信息,再基于各級(jí)目錄將整個(gè)文檔拆分為符合模型輸入的長(zhǎng)度要求的文本段落,實(shí)現(xiàn)了更合理的文本段落劃分。進(jìn)一步地,繼續(xù)根據(jù)其上級(jí)目錄中包含的上下文信息對(duì)長(zhǎng)文本信息進(jìn)行整合,這樣結(jié)合了文本的原本語(yǔ)義和目錄標(biāo)題語(yǔ)義,讓文本段落的語(yǔ)義信息更加豐富;再將具有豐富語(yǔ)義信息的各文本段落輸入向量模型,使得模型能夠?qū)ζ溥M(jìn)行更準(zhǔn)確的理解和處理,從而得到了向量模型對(duì)各文本段落輸出的富含語(yǔ)義信息的向量序列。
1.一種長(zhǎng)文本解析方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各標(biāo)題以及向量模型的輸入長(zhǎng)度要求將所述待解析長(zhǎng)文本劃分為多個(gè)文本段落,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述按照各標(biāo)題將所述待解析長(zhǎng)文本拆分為多個(gè)文本片段,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述目標(biāo)文本片段拆分為多個(gè)符合所述輸入長(zhǎng)度要求的文本段落,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目錄信息為具有樹形數(shù)據(jù)結(jié)構(gòu)的目錄樹,所述目錄樹中以各標(biāo)題作為節(jié)點(diǎn)、以各標(biāo)題之間的級(jí)別關(guān)系作為連接節(jié)點(diǎn)的邊。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別整合各文本段落以及各文本段落對(duì)應(yīng)的目標(biāo)上級(jí)目錄,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述得到所述向量模型對(duì)各文本段落輸出的向量特征之后,還包括:
8.一種長(zhǎng)文本解析裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項(xiàng)的所述方法的步驟。
10.一種終端,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7任一項(xiàng)所述方法的步驟。