一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法

文檔序號：40389647發(fā)布日期：2024-12-20 12:12閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于關(guān)鍵詞抽取領(lǐng)域，更具體地，涉及一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法。

背景技術(shù)：

1、關(guān)鍵詞抽取方法能夠從文檔中抽取重要的關(guān)鍵詞語，使讀者可以迅速獲知文檔的核心內(nèi)容，因此被廣泛應(yīng)用于信息檢索、文本分類和文本聚類等領(lǐng)域。關(guān)鍵詞提取本質(zhì)上是一個排序問題，而不是分類問題(jiang等人2009；zhangetal.2017)。將關(guān)鍵詞提取作為排序任務(wù)，就是構(gòu)建一個函數(shù)，該函數(shù)將候選關(guān)鍵詞的特征映射為關(guān)鍵度分?jǐn)?shù)(即成為關(guān)鍵詞的概率)。

2、最新文獻呈現(xiàn)出將神經(jīng)網(wǎng)絡(luò)引入排序任務(wù)的趨勢。sarkar等人(2010)采用由候選關(guān)鍵詞的頻率、idf、長度和位置信息組成的特征集訓(xùn)練多層感知器神經(jīng)網(wǎng)絡(luò)。mu等人(2020)首先在bert上獲去候選關(guān)鍵詞基礎(chǔ)，用bi-lstm提取候選關(guān)鍵詞的特征向量，然后使用包含sigmoid激活函數(shù)的全連接前饋網(wǎng)絡(luò)對候選者進行排名。xiong等人(2019)使用詞嵌入、位置嵌入和視覺特征(如位置、字體大小和html-dom特征等)來表征候選關(guān)鍵詞，應(yīng)用基于卷積transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)對候選關(guān)鍵詞內(nèi)部詞語之間的相互作用進行建模，并使用前饋層對候選關(guān)鍵詞進行排名。

3、但現(xiàn)有關(guān)鍵詞抽取方法尚未從理論上厘清不同子語域與詞語關(guān)鍵度之間的互動關(guān)系，尚未對區(qū)分詞語關(guān)鍵度的句法、語義、篇章等層面特征的統(tǒng)計信息進行系統(tǒng)分析和整合，尚未找到適用于各子語域的有效的關(guān)鍵詞抽取一般方法，關(guān)鍵詞抽取精度仍然不能滿足各類應(yīng)用需求，有待進一步研究。

技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的缺陷和改進需求，本發(fā)明提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法，其目的在于提高關(guān)鍵詞抽取的精度。

2、為實現(xiàn)上述目的，按照本發(fā)明的一個方面，提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法，包括：

3、構(gòu)建候選關(guān)鍵詞識別模型：基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到，其中，每個訓(xùn)練樣本包括一個n元子串對應(yīng)的特征以及該n元子串在其所在文本中是否為關(guān)鍵詞的標(biāo)簽；每個n元子串為由其所在文本中連續(xù)的n個詞所組成的詞片段；每個n元子串對應(yīng)的特征為判斷句法完整性所獲取的該n元子串的詞形句法信息；

4、構(gòu)建候選關(guān)鍵詞的關(guān)鍵度表征模型：基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到，其中，每個訓(xùn)練樣本包括一個候選關(guān)鍵詞t對應(yīng)的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征以及該候選關(guān)鍵詞的關(guān)鍵度標(biāo)簽；獨立型關(guān)鍵性特征包括子語域類型τd和候選關(guān)鍵詞長度ιt，依賴型關(guān)鍵性特征包括啟發(fā)式特征獨特性特征和代表性特征所述關(guān)鍵度表征模型表示為

5、所述候選關(guān)鍵詞識別模型和所述關(guān)鍵度表征模型構(gòu)成關(guān)鍵度判斷模型，完成構(gòu)建，其中，該關(guān)鍵度判斷模型在訓(xùn)練文本所屬的語言社區(qū)內(nèi)共享。

6、進一步，所述候選關(guān)鍵詞識別模型的具體訓(xùn)練方式為：

7、s1、構(gòu)建訓(xùn)練樣本集，包括正樣本集和負樣本集，每個樣本包括一個n元子串對應(yīng)的特征向量以及該n元子串在目標(biāo)文本中是否為關(guān)鍵詞的標(biāo)簽；正樣本數(shù)量和負樣本數(shù)量均為p；

8、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別模型，當(dāng)?shù)螖?shù)達到輪次閾值時，重新獲取p個負樣本構(gòu)成新的負樣本集；采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)識別模型從新的負樣本集中將正樣本識別出并刪除，得到更新后的負樣本集；該更新后的負樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集；基于新的訓(xùn)練樣本集重復(fù)執(zhí)行該步驟，直至得到迭代終止條件，完成候選關(guān)鍵詞識別模型的訓(xùn)練。

9、進一步，所述候選關(guān)鍵詞識別模型的網(wǎng)絡(luò)結(jié)構(gòu)包括四個部分：

10、第一個部分為嵌入層，用于將輸入的詞形句法特征轉(zhuǎn)換為嵌入形式；第二個部分包括兩個卷積層、兩個最大池化層和一個transformer編碼器，用于捕獲詞形句法模式；第三個部分包括兩個線性層和一個非線性激活層，用于將詞形句法模式轉(zhuǎn)換為二進制概率向量，所述二進制概率向量包括結(jié)構(gòu)非完好概率i-prob和結(jié)構(gòu)完好概率w-prob；第四個部分為識別單元，用于計算每個n元子串對應(yīng)的所述二進制概率向量中結(jié)構(gòu)完好概率和結(jié)構(gòu)非完好概率的差值ω＝(w-prob)-(i-prob)，并將ω大于0對應(yīng)的n元子串作為候選關(guān)鍵詞。

11、進一步，所述候選關(guān)鍵詞的關(guān)鍵度表征模型的具體訓(xùn)練方式為：

12、s1、構(gòu)建訓(xùn)練樣本集，包括正樣本集和負樣本集，每個樣本包括一個候選關(guān)鍵詞對應(yīng)的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征以及該候選關(guān)鍵詞在其所在文本中的關(guān)鍵度標(biāo)簽；正樣本的關(guān)鍵度標(biāo)簽為1，負樣本的關(guān)鍵度為0，負樣本數(shù)量為正樣本數(shù)量p的θ倍；

13、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)排序模型，當(dāng)?shù)螖?shù)達到輪次閾值時，采用抽樣方法重新獲取p×θ個負樣本構(gòu)成新的負樣本集；采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)排序模型從新的負樣本集中將正樣本識別出并刪除，得到更新后的負樣本集；該更新后的負樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集；基于新的訓(xùn)練樣本集重復(fù)該步驟，直至得到迭代終止條件，完成神經(jīng)網(wǎng)絡(luò)識別模型的訓(xùn)練。

14、進一步，所述候選關(guān)鍵詞的關(guān)鍵度表征模型的網(wǎng)絡(luò)結(jié)構(gòu)包括：

15、第一個部分為兩個嵌入層和一個點積單元，兩個嵌入層分別用于將子語域類型和候選關(guān)鍵詞長度轉(zhuǎn)化為嵌入形式，點積單元用于將依賴型關(guān)鍵性特征與子語域類型和候選關(guān)鍵詞長度的嵌入形式進行點積；

16、第二個部分包括兩個transformer編碼器、三個卷積層和三個池化層，用于捕獲關(guān)鍵度信息；

17、第三個部分包括一個線性層，用于基于關(guān)鍵度信息，計算每個候選關(guān)鍵詞對應(yīng)的負關(guān)鍵度評分n-score和正關(guān)鍵度評分p-score，并將每個候選關(guān)鍵詞對應(yīng)的正關(guān)鍵度評分和負關(guān)鍵度評分的差值r＝(p-score)-(n-score)，作為該候選關(guān)鍵詞的關(guān)鍵度。

18、進一步，所述啟發(fā)式特征包括：大小寫關(guān)鍵值，首現(xiàn)位置關(guān)鍵值，頻次關(guān)鍵值，以及語境多樣性關(guān)鍵值；

19、所述獨特性特征包括：tf-idf關(guān)鍵值，有效差異關(guān)鍵值，詞語獨特性關(guān)鍵值；

20、所述代表性特征包括：散度，基于詞語的個性化中心性指標(biāo)，以及基于主題的中心性指標(biāo)。

21、進一步，所述大小寫關(guān)鍵值表示為：式中，n為候選關(guān)鍵詞t在其所在文本中出現(xiàn)的次數(shù)，ti為候選關(guān)鍵詞t在其所在文本中的第i個實例，mt為候選關(guān)鍵詞t中的詞數(shù)量，即候選關(guān)鍵詞t對應(yīng)的元數(shù)n的取值；為ti中大寫詞的個數(shù)；

22、所述首現(xiàn)位置關(guān)鍵值表示為：式中，為候選關(guān)鍵詞t在d中首次出現(xiàn)的位置，ns,d為d中句子的總數(shù)量；

23、所述頻次關(guān)鍵值表示為：式中，nt為候選關(guān)鍵詞t的頻率，為候選關(guān)鍵詞t所屬n元子串的平均頻率，σngram為候選關(guān)鍵詞t所屬n元子串的標(biāo)準(zhǔn)差；

24、所述tf-idf關(guān)鍵值stf-idf表示為：式中，d|為用于構(gòu)建訓(xùn)練樣本集的參考語料庫中文本的數(shù)量，dj為參考語料庫中的包含候選關(guān)鍵詞t的第j個文本；

25、所述有效差異關(guān)鍵值seffect-size表示為：式中，為候選關(guān)鍵詞t在d中的概率，為候選關(guān)鍵詞t在參考語料庫中的概率；

26、所述散度ssentence-dispersion表示為：式中，ct為候選關(guān)鍵詞t在d中出現(xiàn)的句子數(shù)，nd為d中出現(xiàn)的句子數(shù)；

27、所述基于詞語的個性化中心性指標(biāo)是通過圖的方式獲取得到，包括位置排序關(guān)鍵值、tf-idf排序關(guān)鍵值、詞語排序關(guān)鍵值以及簡單排序關(guān)鍵值；

28、所述基于主題的中心性指標(biāo)是通過圖計算方式獲取得，包括特征向量中心性得分、接近中心性得分以及介數(shù)中心性得分。

29、本發(fā)明還提供一種關(guān)鍵詞抽取方法，包括：

30、對目標(biāo)文本依次進行規(guī)范化處理、依存句法分析，以生成n元子串列表，每個n元子串為由目標(biāo)文本中連續(xù)的n個詞所組成的詞片段；

31、獲取如上所述的方法所構(gòu)建的所述目標(biāo)文本所屬語言社區(qū)的關(guān)鍵度判斷模型，采用其中的候選關(guān)鍵詞識別模型，從所述n元子串列表中識別出候選關(guān)鍵詞，每個候選關(guān)鍵詞為一個n元子串；

32、計算每個候選關(guān)鍵詞的如上所述的方法中所述的獨立型關(guān)鍵性特征和依賴型關(guān)鍵性特征；

33、采用所述關(guān)鍵度判斷模型中的關(guān)鍵度表征模型，基于每個候選關(guān)鍵詞的關(guān)鍵度；

34、基于關(guān)鍵度對各個候選關(guān)鍵詞進行排序，基于所述排序的結(jié)果，結(jié)合實際需要，完成關(guān)鍵詞抽取。

35、進一步，還包括：

36、對所有候選關(guān)鍵詞進行聚類；

37、根據(jù)每個類中候選關(guān)鍵詞的最大關(guān)鍵度，對各類進行排序，根據(jù)排序結(jié)果，結(jié)合實際需要，確定前k個類中最大關(guān)鍵度對應(yīng)的候選關(guān)鍵詞，作為最終的關(guān)鍵詞抽取結(jié)果。

38、本發(fā)明還提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法的步驟。

39、總體而言，通過本發(fā)明所構(gòu)思的以上技術(shù)方案，能夠取得以下有益效果：

40、(1)本發(fā)明將有監(jiān)督關(guān)鍵詞提取視為關(guān)鍵詞排序任務(wù)，提出語言社區(qū)共享關(guān)鍵度判斷模式的斷言，并據(jù)此提出排序任務(wù)的形式化模型，即基于卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)框架。進一步，本發(fā)明提出的關(guān)鍵度判斷模型包括候選關(guān)鍵詞識別模型和關(guān)鍵度表征模型，關(guān)于關(guān)鍵度表征模型，創(chuàng)造性將其設(shè)計為也就是，給定文檔d中一個候選關(guān)鍵詞t，其關(guān)鍵度計算依賴于兩類特征：獨立型特征和依賴型特征。獨立型特征影響依賴型特征，依賴型特征的取值會沿著獨立型特征維度發(fā)生變化。上式指定了兩類獨立型特征：子語域類型(τd)和候選關(guān)鍵詞長度(ιt)，它們對三種依賴型特征類型具有相互傳遞的影響(用乘法號x表示)。三種依賴型特征分別為：啟發(fā)式特證獨特性特征和代表性特征本發(fā)明在理論上提出了上述關(guān)鍵度判斷模型，基于模型的關(guān)鍵度計算，在特定語言社區(qū)共享，用于斷文本中的關(guān)鍵詞，這種通過神經(jīng)網(wǎng)絡(luò)的方法將社區(qū)所共享的關(guān)鍵度表征模型模擬出來，極大提高了關(guān)鍵詞抽取的精度和效率。

41、(2)本發(fā)明還提出了提出基于正樣本標(biāo)簽缺失學(xué)習(xí)相關(guān)研究的訓(xùn)練策略。由于關(guān)鍵詞是與否是個體主觀判斷的結(jié)果，訓(xùn)練集中不可避免地包含無標(biāo)簽正樣本，即另一個體可能標(biāo)識為關(guān)鍵詞的候選關(guān)鍵詞，基于此，本優(yōu)選方式提出的基于正樣本標(biāo)簽缺失學(xué)習(xí)方式，保證了模型訓(xùn)練精度。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐旭日
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種封箱膠帶用的放置架的制作方法
上一篇：一種土壤污染防治設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法