本發(fā)明涉及文本處理,特別是涉及一種目標(biāo)文本的確定方法及系統(tǒng)。
背景技術(shù):
1、隨著科技的快速發(fā)展以及互聯(lián)網(wǎng)技術(shù)的普及,文本文件的數(shù)量與日俱增,在處理和分析大量文本數(shù)據(jù)時,如何快速有效地評估文本的重要性或評估文本是否是高價值文本就顯得尤為重要。
2、現(xiàn)有技術(shù)中,通常利用信息檢索和信息分類技術(shù)對文本文件進(jìn)行篩選,以最常見的詞頻-逆向文件頻率方法為例,通過構(gòu)造與篩選條件相關(guān)的關(guān)鍵詞,計算該關(guān)鍵詞在各個文本中的出現(xiàn)頻率,以及包含該關(guān)鍵詞的文本數(shù)量在整個文本數(shù)據(jù)庫中的占比來判斷各個文本在這個關(guān)鍵詞下的重要性,繼而篩選出重要性高的若干個文本文件,這種評估方法只能應(yīng)用于完整性較高的文本,且評估方式較為單一,準(zhǔn)確性較低。
技術(shù)實現(xiàn)思路
1、針對上述技術(shù)問題,本發(fā)明提供一種目標(biāo)文本的確定方法及系統(tǒng),以實現(xiàn)對文本的準(zhǔn)確有效評估。
2、根據(jù)本發(fā)明的第一方面,提供了一種目標(biāo)文本的確定方法,所述方法包括如下步驟:
3、s100,從接收到的初始文本列表集中獲取每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和初始文本片段集。
4、s200,將每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和初始文本片段集輸入至預(yù)設(shè)的語言處理模型中,獲取到每一初始文本對應(yīng)的關(guān)鍵文本。
5、s300,根據(jù)若干個初始文本、每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和每一初始文本對應(yīng)的關(guān)鍵文本,獲取到每一初始文本對應(yīng)的文本權(quán)重。
6、s400,當(dāng)存在初始文本對應(yīng)的文本權(quán)重大于預(yù)設(shè)的文本權(quán)重閾值時,將對應(yīng)文本權(quán)重大于預(yù)設(shè)的文本權(quán)重閾值的初始文本確定為目標(biāo)文本。
7、根據(jù)本發(fā)明的第二方面,提供了一種目標(biāo)文本的確定系統(tǒng),所述系統(tǒng)包括:
8、關(guān)鍵詞和文本片段獲取模塊,用于從接收到的初始文本列表集中獲取每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和初始文本片段集。
9、關(guān)鍵文本獲取模塊,用于將每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和初始文本片段集輸入至預(yù)設(shè)的語言處理模型中,獲取到每一初始文本對應(yīng)的關(guān)鍵文本。
10、文本權(quán)重獲取模塊,用于根據(jù)若干個初始文本、每一初始文本對應(yīng)的初始文本關(guān)鍵詞集和每一初始文本對應(yīng)的關(guān)鍵文本,獲取到每一初始文本對應(yīng)的文本權(quán)重。
11、目標(biāo)文本確定模塊,用于當(dāng)存在初始文本對應(yīng)的文本權(quán)重大于預(yù)設(shè)的文本權(quán)重閾值時,將對應(yīng)文本權(quán)重大于預(yù)設(shè)的文本權(quán)重閾值的初始文本確定為目標(biāo)文本。
12、本發(fā)明與現(xiàn)有技術(shù)相比具有明顯的有益效果,借由上述技術(shù)方案,本發(fā)明提供的一種目標(biāo)文本的確定方法及系統(tǒng)可達(dá)到相當(dāng)?shù)募夹g(shù)進(jìn)步性及實用性,并具有產(chǎn)業(yè)上的廣泛利用價值,其至少具有以下有益效果:
13、本發(fā)明提供了一種目標(biāo)文本的確定方法,首先從接收的每一初始文本中獲取到若干個初始文本關(guān)鍵詞和標(biāo)準(zhǔn)化處理后的若干個初始文本片段,并一同輸入至語言處理模型中輸出關(guān)鍵文本,通過這一方式生成的關(guān)鍵文本為邏輯連貫且完整性高的標(biāo)準(zhǔn)文本,通過自然語言查詢和字符識別獲取關(guān)鍵文本和初始文本分別對應(yīng)的參數(shù)信息,計算得到每一初始文本的文本權(quán)重,且當(dāng)初始文本對應(yīng)的文本權(quán)重大于預(yù)設(shè)的文本權(quán)重閾值時,將初始文本確定為目標(biāo)文本,通過初始文本和經(jīng)標(biāo)準(zhǔn)化處理的關(guān)鍵文本兩者參數(shù)相結(jié)合的方式,充分利用了文本的結(jié)構(gòu)和內(nèi)容信息來對文本的重要性進(jìn)行全面評估,使得計算出的初始文本的文本權(quán)重更加準(zhǔn)確,能夠快速有效地篩選出所需的目標(biāo)文本,有利于大量文本數(shù)據(jù)的處理和分析。
1.一種目標(biāo)文本的確定方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的目標(biāo)文本的確定方法,其特征在于,在步驟s100中包括如下步驟:
3.根據(jù)權(quán)利要求2所述的目標(biāo)文本的確定方法,其特征在于,在步驟s100中還包括如下步驟:
4.根據(jù)權(quán)利要求1所述的目標(biāo)文本的確定方法,其特征在于,所述初始文本對應(yīng)的文本權(quán)重符合如下條件:
5.根據(jù)權(quán)利要求1所述的目標(biāo)文本的確定方法,其特征在于,在步驟s400中通過如下步驟獲取預(yù)設(shè)的文本權(quán)重閾值:
6.一種目標(biāo)文本的確定系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6所述的目標(biāo)文本的確定系統(tǒng),其特征在于,所述關(guān)鍵詞和文本片段獲取模塊包括:
8.根據(jù)權(quán)利要求7所述的目標(biāo)文本的確定系統(tǒng),其特征在于,所述關(guān)鍵詞和文本片段獲取模塊還包括:
9.根據(jù)權(quán)利要求6所述的目標(biāo)文本的確定系統(tǒng),其特征在于,所述目標(biāo)文本確定模塊包括: