本申請涉及文件分割,特別是涉及一種知識文件分割處理方法、裝置、存儲介質(zhì)及處理器。
背景技術(shù):
1、隨著信息技術(shù)的發(fā)展,知識管理已經(jīng)成為各種企業(yè)、團(tuán)體、組織中提高工作效率、提高產(chǎn)能以及促進(jìn)創(chuàng)新發(fā)展的關(guān)鍵。在自動化執(zhí)行知識管理時,常需要對知識文件進(jìn)行處理,但是由于一些知識文件比較龐大,增加了單個處理任務(wù)的復(fù)雜性,進(jìn)而導(dǎo)致處理速度低,處理效率低。如何提升知識文件的處理效率,進(jìn)而提升知識管理效能,是本領(lǐng)域當(dāng)前亟需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、基于上述問題,本申請?zhí)峁┝艘环N知識文件分割處理方法、裝置、存儲介質(zhì)及處理器,目的是提升對知識文件的處理效率,方便知識管理。
2、本申請實(shí)施例公開了如下技術(shù)方案:
3、本申請第一方面提供了一種知識文件分割處理方法,該方法包括:
4、基于待處理知識文件的數(shù)據(jù)量,將所述待處理知識文件分割為多個知識文件塊,并將分割得到的所述多個知識文件塊緩存至預(yù)先創(chuàng)建的知識文件塊加載庫中;
5、從所述知識文件塊加載庫加載所述多個知識文件塊,并按照所述多個知識文件塊的分割順序構(gòu)造與所述多個知識文件塊一一對應(yīng)的多個文件塊分割任務(wù);
6、采用多個線程分批異步執(zhí)行所述多個文件塊分割任務(wù)對所述多個知識文件塊進(jìn)行分割,直至所述多個文件塊分割任務(wù)執(zhí)行完畢,得到所述待處理知識文件對應(yīng)的知識文檔集合;所述知識文檔集合中包含多個知識文檔,每個知識文檔作為所對應(yīng)的知識文件塊的分割結(jié)果。
7、在一種可選實(shí)現(xiàn)方式中,所述采用多個線程分批異步執(zhí)行所述多個文件塊分割任務(wù)對所述多個知識文件塊進(jìn)行分割,包括:
8、啟動多個線程,利用所述待處理知識文件對應(yīng)的知識分割策略分批異步執(zhí)行所述多個文件塊分割任務(wù),以對所述多個知識文件塊進(jìn)行分割;所述知識分割策略是根據(jù)所述待處理知識文件的文件類型和/或業(yè)務(wù)需求配置的。
9、在一種可選實(shí)現(xiàn)方式中,知識文件分割處理方法還包括:
10、響應(yīng)于所述待處理文件的業(yè)務(wù)需求變化,重新配置所述待處理知識文件對應(yīng)的知識分割策略;
11、從所述知識文件塊加載庫加載所述多個知識文件塊;
12、啟動多個線程,利用為所述待處理知識文件最新配置的知識分割策略分批異步執(zhí)行所述多個文件塊分割任務(wù),以對所述多個知識文件塊重新進(jìn)行分割,直至所述多個文件塊分割任務(wù)執(zhí)行完畢,得到所述待處理知識文件對應(yīng)的最新知識文檔集合。
13、在一種可選實(shí)現(xiàn)方式中,知識文件分割處理方法還包括:
14、依據(jù)所述多個知識文件塊的分割順序,為所述多個知識文件塊分配不同的標(biāo)識信息用以區(qū)分不同的知識文件塊;
15、構(gòu)建所述多個知識文件塊各自的標(biāo)識信息與所述待處理知識文件的關(guān)聯(lián)關(guān)系;
16、所述得到所述待處理知識文件對應(yīng)的知識文檔集合,包括:
17、將分割得到的知識文檔與所對應(yīng)的知識文件塊的標(biāo)識信息進(jìn)行關(guān)聯(lián);
18、根據(jù)所述多個知識文件塊各自的標(biāo)識信息與所述待處理知識文件的關(guān)聯(lián)關(guān)系,以及知識文檔與標(biāo)識信息的關(guān)聯(lián)關(guān)系,將各知識文檔按照所述分割順序整合到所述待處理知識文件對應(yīng)的知識文檔集合中。
19、在一種可選實(shí)現(xiàn)方式中,線程利用所述待處理知識文件對應(yīng)的知識分割策略執(zhí)行文件塊分割任務(wù),以對知識文件塊進(jìn)行分割,包括:
20、由線程將所執(zhí)行的文件塊分割任務(wù)對應(yīng)的知識文件塊轉(zhuǎn)換為文本內(nèi)容;
21、利用所述待處理知識文件對應(yīng)的知識分割策略對所述文本內(nèi)容進(jìn)行分割,得到分割結(jié)果。
22、在一種可選實(shí)現(xiàn)方式中,根據(jù)所述待處理知識文件的文件類型和/或業(yè)務(wù)需求配置所述待處理知識文件對應(yīng)的知識分割策略,包括:
23、獲取所述待處理知識文件的文件類型信息和業(yè)務(wù)需求信息;
24、基于文件類型信息與推薦知識分割策略的對應(yīng)關(guān)系,展示所述待處理知識文件的文件類型信息對應(yīng)的推薦知識分割策略;以及,基于業(yè)務(wù)需求信息與推薦知識分割策略的對應(yīng)關(guān)系,展示所述待處理知識文件的業(yè)務(wù)需求信息對應(yīng)的推薦知識分割策略;
25、響應(yīng)于用戶針對所展示的推薦知識分割策略的觸發(fā)操作,為所述待處理知識文件配置受觸發(fā)的推薦知識分割策略作為所述待處理知識文件對應(yīng)的知識分割策略。
26、在一種可選實(shí)現(xiàn)方式中,為所述待處理知識文件配置的知識分割策略為以下策略中之一或者為以下策略中多種策略的組合:
27、按照章節(jié)分割,按照段落分割,按照句子分割,按照分隔符分割,按照字?jǐn)?shù)分割。
28、本申請第二方面提供了一種知識文件分割處理裝置,該裝置包括:
29、第一分割模塊,用于基于待處理知識文件的數(shù)據(jù)量,將所述待處理知識文件分割為多個知識文件塊;
30、緩存模塊,用于將分割得到的所述多個知識文件塊緩存至預(yù)先創(chuàng)建的知識文件塊加載庫中;
31、加載模塊,用于從所述知識文件塊加載庫加載所述多個知識文件塊;
32、任務(wù)構(gòu)造模塊,用于按照所述多個知識文件塊的分割順序構(gòu)造與所述多個知識文件塊一一對應(yīng)的多個文件塊分割任務(wù);
33、第二分割模塊,用于采用多個線程分批異步執(zhí)行所述多個文件塊分割任務(wù)對所述多個知識文件塊進(jìn)行分割,直至所述多個文件塊分割任務(wù)執(zhí)行完畢,得到所述待處理知識文件對應(yīng)的知識文檔集合;所述知識文檔集合中包含多個知識文檔,每個知識文檔作為所對應(yīng)的知識文件塊的分割結(jié)果。
34、本申請第三方面提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序被處理器運(yùn)行時,實(shí)現(xiàn)如第一方面任一實(shí)現(xiàn)方式中介紹的知識文件分割處理方法。
35、本申請第四方面提供了一種處理器,用于運(yùn)行計算機(jī)程序,所述計算機(jī)程序運(yùn)行時執(zhí)行如第一方面任一實(shí)現(xiàn)方式介紹的知識文件分割處理方法。
36、相較于現(xiàn)有技術(shù),本申請具有以下有益效果:
37、本申請中,對待處理知識文件進(jìn)行了前后兩個階段的分割。第一階段中,基于待處理知識文件的數(shù)據(jù)量,將待處理知識文件分割為多個知識文件塊;第二階段中,對經(jīng)過分割得到的多個知識文件塊進(jìn)一步分割,得到多個知識文檔。本方案在執(zhí)行第一階段的分割時,將待處理知識文件分割得到多個知識文件塊后,將多個知識文件塊緩存到了預(yù)先創(chuàng)建的知識文件塊加載庫中,從而當(dāng)再次需要對同一個待處理知識文件進(jìn)行分割時,不需要對其重復(fù)分割為知識文件塊的形式,直接從知識文件塊加載庫中加載該知識文件的相關(guān)知識文件塊即可。以緩存知識文件塊的方式避免了對同一個待處理知識文件在第一階段的重復(fù)分割,提升了文件分割整體流程的分割速度和分割效率。此外,本方案在執(zhí)行第二階段的分割時,采用多個線程分批異步執(zhí)行文件塊分割任務(wù),有效提升了對多個知識文件塊的分割效率,從而也能夠從整體上提升對知識文件的分割速度和分割效率。通過提升對知識文件的分割速度和分割效率,相應(yīng)地,能夠更加方便基于這些知識文件分割得到的知識文檔集合進(jìn)行知識管理,提升知識管理效能。
1.一種知識文件分割處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用多個線程分批異步執(zhí)行所述多個文件塊分割任務(wù)對所述多個知識文件塊進(jìn)行分割,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,線程利用所述待處理知識文件對應(yīng)的知識分割策略執(zhí)行文件塊分割任務(wù),以對知識文件塊進(jìn)行分割,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述待處理知識文件的文件類型和/或業(yè)務(wù)需求配置所述待處理知識文件對應(yīng)的知識分割策略,包括:
7.根據(jù)權(quán)利要求2或6所述的方法,其特征在于,為所述待處理知識文件配置的知識分割策略為以下策略中之一或者為以下策略中多種策略的組合:
8.一種知識文件分割處理裝置,其特征在于,包括:
9.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序被處理器運(yùn)行時,實(shí)現(xiàn)如權(quán)利要求1-7中任一項所述的知識文件分割處理方法。
10.一種處理器,其特征在于,用于運(yùn)行計算機(jī)程序,所述計算機(jī)程序運(yùn)行時執(zhí)行如權(quán)利要求1-7中任一項所述的知識文件分割處理方法。