本發(fā)明屬于關(guān)鍵詞抽取領(lǐng)域,更具體地,涉及一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法。
背景技術(shù):
1、關(guān)鍵詞抽取方法能夠從文檔中抽取重要的關(guān)鍵詞語,使讀者可以迅速獲知文檔的核心內(nèi)容,因此被廣泛應(yīng)用于信息檢索、文本分類和文本聚類等領(lǐng)域。關(guān)鍵詞提取本質(zhì)上是一個排序問題,而不是分類問題(jiang等人2009;zhangetal.2017)。將關(guān)鍵詞提取作為排序任務(wù),就是構(gòu)建一個函數(shù),該函數(shù)將候選關(guān)鍵詞的特征映射為關(guān)鍵度分?jǐn)?shù)(即成為關(guān)鍵詞的概率)。
2、最新文獻呈現(xiàn)出將神經(jīng)網(wǎng)絡(luò)引入排序任務(wù)的趨勢。sarkar等人(2010)采用由候選關(guān)鍵詞的頻率、idf、長度和位置信息組成的特征集訓(xùn)練多層感知器神經(jīng)網(wǎng)絡(luò)。mu等人(2020)首先在bert上獲去候選關(guān)鍵詞基礎(chǔ),用bi-lstm提取候選關(guān)鍵詞的特征向量,然后使用包含sigmoid激活函數(shù)的全連接前饋網(wǎng)絡(luò)對候選者進行排名。xiong等人(2019)使用詞嵌入、位置嵌入和視覺特征(如位置、字體大小和html-dom特征等)來表征候選關(guān)鍵詞,應(yīng)用基于卷積transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)對候選關(guān)鍵詞內(nèi)部詞語之間的相互作用進行建模,并使用前饋層對候選關(guān)鍵詞進行排名。
3、但現(xiàn)有關(guān)鍵詞抽取方法尚未從理論上厘清不同子語域與詞語關(guān)鍵度之間的互動關(guān)系,尚未對區(qū)分詞語關(guān)鍵度的句法、語義、篇章等層面特征的統(tǒng)計信息進行系統(tǒng)分析和整合,尚未找到適用于各子語域的有效的關(guān)鍵詞抽取一般方法,關(guān)鍵詞抽取精度仍然不能滿足各類應(yīng)用需求,有待進一步研究。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的缺陷和改進需求,本發(fā)明提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法,其目的在于提高關(guān)鍵詞抽取的精度。
2、為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法,包括:
3、構(gòu)建候選關(guān)鍵詞識別模型:基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到,其中,每個訓(xùn)練樣本包括一個n元子串對應(yīng)的特征以及該n元子串在其所在文本中是否為關(guān)鍵詞的標(biāo)簽;每個n元子串為由其所在文本中連續(xù)的n個詞所組成的詞片段;每個n元子串對應(yīng)的特征為判斷句法完整性所獲取的該n元子串的詞形句法信息;
4、構(gòu)建候選關(guān)鍵詞的關(guān)鍵度表征模型:基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到,其中,每個訓(xùn)練樣本包括一個候選關(guān)鍵詞t對應(yīng)的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征以及該候選關(guān)鍵詞的關(guān)鍵度標(biāo)簽;獨立型關(guān)鍵性特征包括子語域類型τd和候選關(guān)鍵詞長度ιt,依賴型關(guān)鍵性特征包括啟發(fā)式特征獨特性特征和代表性特征所述關(guān)鍵度表征模型表示為
5、所述候選關(guān)鍵詞識別模型和所述關(guān)鍵度表征模型構(gòu)成關(guān)鍵度判斷模型,完成構(gòu)建,其中,該關(guān)鍵度判斷模型在訓(xùn)練文本所屬的語言社區(qū)內(nèi)共享。
6、進一步,所述候選關(guān)鍵詞識別模型的具體訓(xùn)練方式為:
7、s1、構(gòu)建訓(xùn)練樣本集,包括正樣本集和負樣本集,每個樣本包括一個n元子串對應(yīng)的特征向量以及該n元子串在目標(biāo)文本中是否為關(guān)鍵詞的標(biāo)簽;正樣本數(shù)量和負樣本數(shù)量均為p;
8、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別模型,當(dāng)?shù)螖?shù)達到輪次閾值時,重新獲取p個負樣本構(gòu)成新的負樣本集;采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)識別模型從新的負樣本集中將正樣本識別出并刪除,得到更新后的負樣本集;該更新后的負樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集;基于新的訓(xùn)練樣本集重復(fù)執(zhí)行該步驟,直至得到迭代終止條件,完成候選關(guān)鍵詞識別模型的訓(xùn)練。
9、進一步,所述候選關(guān)鍵詞識別模型的網(wǎng)絡(luò)結(jié)構(gòu)包括四個部分:
10、第一個部分為嵌入層,用于將輸入的詞形句法特征轉(zhuǎn)換為嵌入形式;第二個部分包括兩個卷積層、兩個最大池化層和一個transformer編碼器,用于捕獲詞形句法模式;第三個部分包括兩個線性層和一個非線性激活層,用于將詞形句法模式轉(zhuǎn)換為二進制概率向量,所述二進制概率向量包括結(jié)構(gòu)非完好概率i-prob和結(jié)構(gòu)完好概率w-prob;第四個部分為識別單元,用于計算每個n元子串對應(yīng)的所述二進制概率向量中結(jié)構(gòu)完好概率和結(jié)構(gòu)非完好概率的差值ω=(w-prob)-(i-prob),并將ω大于0對應(yīng)的n元子串作為候選關(guān)鍵詞。
11、進一步,所述候選關(guān)鍵詞的關(guān)鍵度表征模型的具體訓(xùn)練方式為:
12、s1、構(gòu)建訓(xùn)練樣本集,包括正樣本集和負樣本集,每個樣本包括一個候選關(guān)鍵詞對應(yīng)的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征以及該候選關(guān)鍵詞在其所在文本中的關(guān)鍵度標(biāo)簽;正樣本的關(guān)鍵度標(biāo)簽為1,負樣本的關(guān)鍵度為0,負樣本數(shù)量為正樣本數(shù)量p的θ倍;
13、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)排序模型,當(dāng)?shù)螖?shù)達到輪次閾值時,采用抽樣方法重新獲取p×θ個負樣本構(gòu)成新的負樣本集;采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)排序模型從新的負樣本集中將正樣本識別出并刪除,得到更新后的負樣本集;該更新后的負樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集;基于新的訓(xùn)練樣本集重復(fù)該步驟,直至得到迭代終止條件,完成神經(jīng)網(wǎng)絡(luò)識別模型的訓(xùn)練。
14、進一步,所述候選關(guān)鍵詞的關(guān)鍵度表征模型的網(wǎng)絡(luò)結(jié)構(gòu)包括:
15、第一個部分為兩個嵌入層和一個點積單元,兩個嵌入層分別用于將子語域類型和候選關(guān)鍵詞長度轉(zhuǎn)化為嵌入形式,點積單元用于將依賴型關(guān)鍵性特征與子語域類型和候選關(guān)鍵詞長度的嵌入形式進行點積;
16、第二個部分包括兩個transformer編碼器、三個卷積層和三個池化層,用于捕獲關(guān)鍵度信息;
17、第三個部分包括一個線性層,用于基于關(guān)鍵度信息,計算每個候選關(guān)鍵詞對應(yīng)的負關(guān)鍵度評分n-score和正關(guān)鍵度評分p-score,并將每個候選關(guān)鍵詞對應(yīng)的正關(guān)鍵度評分和負關(guān)鍵度評分的差值r=(p-score)-(n-score),作為該候選關(guān)鍵詞的關(guān)鍵度。
18、進一步,所述啟發(fā)式特征包括:大小寫關(guān)鍵值,首現(xiàn)位置關(guān)鍵值,頻次關(guān)鍵值,以及語境多樣性關(guān)鍵值;
19、所述獨特性特征包括:tf-idf關(guān)鍵值,有效差異關(guān)鍵值,詞語獨特性關(guān)鍵值;
20、所述代表性特征包括:散度,基于詞語的個性化中心性指標(biāo),以及基于主題的中心性指標(biāo)。
21、進一步,所述大小寫關(guān)鍵值表示為:式中,n為候選關(guān)鍵詞t在其所在文本中出現(xiàn)的次數(shù),ti為候選關(guān)鍵詞t在其所在文本中的第i個實例,mt為候選關(guān)鍵詞t中的詞數(shù)量,即候選關(guān)鍵詞t對應(yīng)的元數(shù)n的取值;為ti中大寫詞的個數(shù);
22、所述首現(xiàn)位置關(guān)鍵值表示為:式中,為候選關(guān)鍵詞t在d中首次出現(xiàn)的位置,ns,d為d中句子的總數(shù)量;
23、所述頻次關(guān)鍵值表示為:式中,nt為候選關(guān)鍵詞t的頻率,為候選關(guān)鍵詞t所屬n元子串的平均頻率,σngram為候選關(guān)鍵詞t所屬n元子串的標(biāo)準(zhǔn)差;
24、所述tf-idf關(guān)鍵值stf-idf表示為:式中,d|為用于構(gòu)建訓(xùn)練樣本集的參考語料庫中文本的數(shù)量,dj為參考語料庫中的包含候選關(guān)鍵詞t的第j個文本;
25、所述有效差異關(guān)鍵值seffect-size表示為:式中,為候選關(guān)鍵詞t在d中的概率,為候選關(guān)鍵詞t在參考語料庫中的概率;
26、所述散度ssentence-dispersion表示為:式中,ct為候選關(guān)鍵詞t在d中出現(xiàn)的句子數(shù),nd為d中出現(xiàn)的句子數(shù);
27、所述基于詞語的個性化中心性指標(biāo)是通過圖的方式獲取得到,包括位置排序關(guān)鍵值、tf-idf排序關(guān)鍵值、詞語排序關(guān)鍵值以及簡單排序關(guān)鍵值;
28、所述基于主題的中心性指標(biāo)是通過圖計算方式獲取得,包括特征向量中心性得分、接近中心性得分以及介數(shù)中心性得分。
29、本發(fā)明還提供一種關(guān)鍵詞抽取方法,包括:
30、對目標(biāo)文本依次進行規(guī)范化處理、依存句法分析,以生成n元子串列表,每個n元子串為由目標(biāo)文本中連續(xù)的n個詞所組成的詞片段;
31、獲取如上所述的方法所構(gòu)建的所述目標(biāo)文本所屬語言社區(qū)的關(guān)鍵度判斷模型,采用其中的候選關(guān)鍵詞識別模型,從所述n元子串列表中識別出候選關(guān)鍵詞,每個候選關(guān)鍵詞為一個n元子串;
32、計算每個候選關(guān)鍵詞的如上所述的方法中所述的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征;
33、采用所述關(guān)鍵度判斷模型中的關(guān)鍵度表征模型,基于每個候選關(guān)鍵詞的關(guān)鍵度;
34、基于關(guān)鍵度對各個候選關(guān)鍵詞進行排序,基于所述排序的結(jié)果,結(jié)合實際需要,完成關(guān)鍵詞抽取。
35、進一步,還包括:
36、對所有候選關(guān)鍵詞進行聚類;
37、根據(jù)每個類中候選關(guān)鍵詞的最大關(guān)鍵度,對各類進行排序,根據(jù)排序結(jié)果,結(jié)合實際需要,確定前k個類中最大關(guān)鍵度對應(yīng)的候選關(guān)鍵詞,作為最終的關(guān)鍵詞抽取結(jié)果。
38、本發(fā)明還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法的步驟。
39、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案,能夠取得以下有益效果:
40、(1)本發(fā)明將有監(jiān)督關(guān)鍵詞提取視為關(guān)鍵詞排序任務(wù),提出語言社區(qū)共享關(guān)鍵度判斷模式的斷言,并據(jù)此提出排序任務(wù)的形式化模型,即基于卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)框架。進一步,本發(fā)明提出的關(guān)鍵度判斷模型包括候選關(guān)鍵詞識別模型和關(guān)鍵度表征模型,關(guān)于關(guān)鍵度表征模型,創(chuàng)造性將其設(shè)計為也就是,給定文檔d中一個候選關(guān)鍵詞t,其關(guān)鍵度計算依賴于兩類特征:獨立型特征和依賴型特征。獨立型特征影響依賴型特征,依賴型特征的取值會沿著獨立型特征維度發(fā)生變化。上式指定了兩類獨立型特征:子語域類型(τd)和候選關(guān)鍵詞長度(ιt),它們對三種依賴型特征類型具有相互傳遞的影響(用乘法號x表示)。三種依賴型特征分別為:啟發(fā)式特證獨特性特征和代表性特征本發(fā)明在理論上提出了上述關(guān)鍵度判斷模型,基于模型的關(guān)鍵度計算,在特定語言社區(qū)共享,用于斷文本中的關(guān)鍵詞,這種通過神經(jīng)網(wǎng)絡(luò)的方法將社區(qū)所共享的關(guān)鍵度表征模型模擬出來,極大提高了關(guān)鍵詞抽取的精度和效率。
41、(2)本發(fā)明還提出了提出基于正樣本標(biāo)簽缺失學(xué)習(xí)相關(guān)研究的訓(xùn)練策略。由于關(guān)鍵詞是與否是個體主觀判斷的結(jié)果,訓(xùn)練集中不可避免地包含無標(biāo)簽正樣本,即另一個體可能標(biāo)識為關(guān)鍵詞的候選關(guān)鍵詞,基于此,本優(yōu)選方式提出的基于正樣本標(biāo)簽缺失學(xué)習(xí)方式,保證了模型訓(xùn)練精度。