一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化方法

文檔序號(hào)：8319243閱讀：201來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文檔元數(shù)據(jù)抽取，尤其涉及一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，屬于自然語(yǔ)言處理領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的發(fā)展，電子文件已經(jīng)成為現(xiàn)代工作、生活不可或缺的重要信息載體，人們的工作和生活驅(qū)動(dòng)了電子文件信息的生成和流轉(zhuǎn)，產(chǎn)生了大量的電子文件。
[0003] 然而隨著時(shí)間的推移，電子文件迅速增加，數(shù)量已經(jīng)不能完全統(tǒng)計(jì)。根據(jù)國(guó)家檔案局2006年的調(diào)查，中央機(jī)關(guān)電子文件數(shù)量高達(dá)1. 5億余份，總量達(dá)75TB。2006年我國(guó)中央機(jī)關(guān)及其直屬企事業(yè)單位生成的電子文件數(shù)量比2005年增長(zhǎng)了 18. 9%，其數(shù)量占文件總數(shù) 的72. 7%，如何對(duì)我國(guó)政府公文類(lèi)電子文件進(jìn)行有效的管理和利用成了一個(gè)日益嚴(yán)峻的問(wèn) 題。使用普通元數(shù)據(jù)抽取方法抽取領(lǐng)域性非常強(qiáng)的文檔時(shí)往往存在抽取速度慢、效果差的問(wèn)題。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明公開(kāi)了一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，解決了在使用普通元數(shù)據(jù)抽取方法抽取領(lǐng)域性非常強(qiáng)的文檔時(shí)抽取速度慢、效果差的問(wèn)題。
[0005] 為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采取的技術(shù)方案是：第一步：針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板；第二步：根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要；第三步：人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
[0006] 進(jìn)一步地，針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板包括以下步驟： A. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重，句子得分項(xiàng)包括句子相似度得分項(xiàng)，句子在文中的位置得分項(xiàng)，基于詞權(quán)重的句子詞權(quán)重值得分項(xiàng)； B. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)定在文中不同位置的句子、段落的權(quán)重值； C. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)收集整理相關(guān)的詞庫(kù)及對(duì)應(yīng)的詞權(quán)重值； D. 根據(jù)不同領(lǐng)域設(shè)定摘要信息抽取權(quán)重的比例。
[0007] 進(jìn)一步地，根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要包括以下步驟： A. 導(dǎo)入領(lǐng)域摘要模板； B. 從文檔中抽取文檔正文數(shù)據(jù)； C. 使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句，切分句子，并記錄句子在文中的位置； D. 使用相似度算法對(duì)每個(gè)句子計(jì)算分值； E. 對(duì)已經(jīng)切分完成的句子使用中文分詞算法，進(jìn)行中文分詞； F. 對(duì)分詞得到的詞進(jìn)行詞頻統(tǒng)計(jì)，得到詞的權(quán)重值； G. 分詞得到的詞在對(duì)應(yīng)的詞庫(kù)中進(jìn)行匹配，如果匹配到相關(guān)的詞，并且在詞庫(kù)中對(duì)應(yīng) 的權(quán)重值大于目前計(jì)算的到的詞權(quán)重值，則增加該詞的權(quán)重值，如果在詞庫(kù)中對(duì)應(yīng)的權(quán)重值小于目前計(jì)算的到的詞權(quán)重值，則降低該詞的權(quán)重值； H. 根據(jù)句子中詞的權(quán)重值計(jì)算基于詞權(quán)重的句子詞權(quán)重值； I. 根據(jù)領(lǐng)域摘要模板中設(shè)定的在文中不同位置的句子的權(quán)重計(jì)算句子的位置權(quán)重值； J. 根據(jù)領(lǐng)域摘要模板中設(shè)定的句子相似度權(quán)重值，句子位置權(quán)重值，句子詞權(quán)重值之間的權(quán)重關(guān)系計(jì)算句子權(quán)重值； K. 將得到的句子權(quán)重值從高到低排序； L. 根據(jù)領(lǐng)域摘要模板中設(shè)定的摘要權(quán)重比例輸出摘要信息。
[0008] 進(jìn)一步地，人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板包括以下步驟： A. 人工對(duì)得到的摘要信息與文章進(jìn)行對(duì)比，判斷摘要信息與文章是否匹配；如果摘要不完整，則增加部分摘要，如果摘要過(guò)多，則刪除部分摘要； B. 使用斷句算法，將摘要中被修改的句子或者段落進(jìn)行斷句，得到句子； C. 得到句子在文章中的對(duì)應(yīng)位置； D. 根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)，增加或減少步驟B得到的句子在文章中對(duì)應(yīng)位置在模板中的權(quán)重值； E. 使用中文分詞算法對(duì)步驟B得到的句子進(jìn)行分詞處理，得到詞； F. 將所得到的詞與領(lǐng)域摘要模板的詞庫(kù)進(jìn)行匹配； G. 如果匹配到對(duì)應(yīng)的詞，則根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)相應(yīng)的增加或者減少摘要模板詞庫(kù)中對(duì)應(yīng)的詞權(quán)重； H. 重新得到領(lǐng)域摘要模板。
[0009] 進(jìn)一步地，對(duì)于增加部分摘要的情況，將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù) 中的權(quán)重增加或者在領(lǐng)域摘要模板詞庫(kù)中增加未錄入的新詞，將領(lǐng)域摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重增加。
[0010] 進(jìn)一步地，對(duì)于刪除部分摘要的情況，將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù) 中的權(quán)重降低，將摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重降低。
[0011] 本發(fā)明方法使用人工生成領(lǐng)域摘要模板的方式，保證了不同領(lǐng)域的文檔自動(dòng)摘要的抽取速度效率與抽取摘要的正確性；在摘要生成后采用人工參與的、人工識(shí)別的方式影響優(yōu)化本方法自動(dòng)摘要的抽取速度效率與抽取摘要的正確性。在具有較強(qiáng)領(lǐng)域性的文檔摘要抽取方面抽取速度快，效果好。
【附圖說(shuō)明】
[0012] 圖1是本方法的總體流程示意圖。
[0013] 圖2是領(lǐng)域摘要模板示意圖。
[0014] 圖3是領(lǐng)域摘要自動(dòng)抽取流程示意圖。
[0015] 圖4是領(lǐng)域摘要模板自動(dòng)優(yōu)化過(guò)程示意圖。
【具體實(shí)施方式】
[0016] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0017] 圖1是本方法的總體流程示意圖。如圖1所示，本發(fā)明的不同領(lǐng)域文檔摘要自動(dòng) 抽取及自動(dòng)優(yōu)化的方法主要包括以下步驟：第一步：針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板；第二步：根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要；第三步：人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
[0018] 經(jīng)人工優(yōu)化的領(lǐng)域摘要模板可用在隨后的文檔摘要自動(dòng)抽取中。
[0019] 圖2是領(lǐng)域摘要模板示意圖。如圖2所示，領(lǐng)域摘要模版的一個(gè)示例如下：根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重。如：句子相似度得分項(xiàng) 權(quán)重：30% ;句子在文中位置得分項(xiàng)權(quán)重：25% ;基于詞權(quán)重的句子權(quán)重值得分項(xiàng)權(quán)重：45%。
[0020] 文中不同位置權(quán)重值設(shè)置：在第一段落第一句權(quán)重30% ;在第一段落最后一句權(quán) 重：50% ;在最后一段最后一句權(quán)重20%。
[0021] 摘要信息權(quán)重比例5%。
[0022] 優(yōu)化步長(zhǎng)：1%。
[0023] 圖3是領(lǐng)域摘要自動(dòng)抽取流程示意圖。如圖3所示，根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要的一個(gè)示例如下： 1 :導(dǎo)入領(lǐng)域摘要模板。
[0024] 2 :從文檔中抽取文檔正文數(shù)據(jù)。
[0025] 3:使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句，切分句子，并記錄句子在文中的位置，如：第一段第一句；第一段第二句；第一段第三句；以此類(lèi)推。
[0026] 4:使用相似度算法對(duì)每個(gè)句子計(jì)算分值，相似度越高的句子得分越高，得到每個(gè) 句子的相似度分值，如：第一段第一句，90 ;第一段第二句，50 ;第一段第三句，30 ;以此類(lèi)推。
[0027] 5:對(duì)已經(jīng)切分完成的句子使用中文分詞算法，進(jìn)行中文分詞。如：第一段第一句，得到中文分詞：分詞1、分詞2、分詞3、分詞4、分詞5、分詞6;以此類(lèi)推。
[0028] 6 :對(duì)分詞得到的詞在本文中講行詞頻統(tǒng)計(jì),得到詞的權(quán)重值。如：
【主權(quán)項(xiàng)】
1. 一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于包括w下步驟： A. 針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板； B. 根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要； C. 人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
2. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于；針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板包括W下步驟： A. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重，句子得分項(xiàng)包括句子相似度得分項(xiàng)，句子在文中的位置得分項(xiàng)，基于詞權(quán)重的句子詞權(quán)重值得分項(xiàng)； B. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)定在文中不同位置的句子、段落的權(quán)重值； C. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)收集整理相關(guān)的詞庫(kù)及對(duì)應(yīng)的詞權(quán)重值； D. 根據(jù)不同領(lǐng)域設(shè)定摘要信息抽取權(quán)重的比例。
3. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于：根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要包括W下步驟： A. 導(dǎo)入領(lǐng)域摘要模板； B. 從文檔中抽取文檔正文數(shù)據(jù)； C. 使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句，切分句子，并記錄句子在文中的位置； D. 使用相似度算法對(duì)每個(gè)句子計(jì)算分值； E. 對(duì)已經(jīng)切分完成的句子使用中文分詞算法，進(jìn)行中文分詞； F. 對(duì)分詞得到的詞進(jìn)行詞頻統(tǒng)計(jì)，得到詞的權(quán)重值； G. 分詞得到的詞在對(duì)應(yīng)的詞庫(kù)中進(jìn)行匹配，如果匹配到相關(guān)的詞，并且在詞庫(kù)中對(duì)應(yīng) 的權(quán)重值大于目前計(jì)算的到的詞權(quán)重值，則增加該詞的權(quán)重值，如果在詞庫(kù)中對(duì)應(yīng)的權(quán)重值小于目前計(jì)算的到的詞權(quán)重值，則降低該詞的權(quán)重值； H. 根據(jù)句子中詞的權(quán)重值計(jì)算基于詞權(quán)重的句子詞權(quán)重值； I. 根據(jù)領(lǐng)域摘要模板中設(shè)定的在文中不同位置的句子的權(quán)重計(jì)算句子的位置權(quán)重值； J. 根據(jù)領(lǐng)域摘要模板中設(shè)定的句子相似度權(quán)重值，句子位置權(quán)重值，句子詞權(quán)重值之間的權(quán)重關(guān)系計(jì)算句子權(quán)重值； K. 將得到的句子權(quán)重值從高到低排序； L. 根據(jù)領(lǐng)域摘要模板中設(shè)定的摘要權(quán)重比例輸出摘要信息。
4. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于；人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板包括W下步驟： A. 人工對(duì)得到的摘要信息與文章進(jìn)行對(duì)比，判斷摘要信息與文章是否匹配；如果摘要不完整，則增加部分摘要，如果摘要過(guò)多，則刪除部分摘要； B. 使用斷句算法，將摘要中被修改的句子或者段落進(jìn)行斷句，得到句子； C. 得到句子在文章中的對(duì)應(yīng)位置； D. 根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)，增加或減少步驟B得到的句子在文章中對(duì)應(yīng)位置在模板中的權(quán)重值； E. 使用中文分詞算法對(duì)步驟B得到的句子進(jìn)行分詞處理，得到詞； F. 將所得到的詞與領(lǐng)域摘要模板的詞庫(kù)進(jìn)行匹配； G. 如果匹配到對(duì)應(yīng)的詞，則根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)相應(yīng)的增加或者減少摘要模板詞庫(kù)中對(duì)應(yīng)的詞權(quán)重； H. 重新得到領(lǐng)域摘要模板。
5. 根據(jù)權(quán)利要求4所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于；對(duì)于增加部分摘要的情況，將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù)中的權(quán)重增加或者在領(lǐng)域摘要模板詞庫(kù)中增加未錄入的新詞，將領(lǐng)域摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重增加。
6. 根據(jù)權(quán)利要求4所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，其特征在于；對(duì)于刪除部分摘要的情況，將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù)中的權(quán)重降低，將摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重降低。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法，該方法包括：第一步：針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板；第二步：根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要；第三步：人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。本發(fā)明方法使用人工生成領(lǐng)域摘要模板的方式，保證了不同領(lǐng)域的文檔自動(dòng)摘要的抽取速度效率與抽取摘要的正確性；在摘要生成后采用人工參與的、人工識(shí)別的方式影響優(yōu)化本方法自動(dòng)摘要的抽取速度效率與抽取摘要的正確性。在具有較強(qiáng)領(lǐng)域性的文檔摘要抽取方面抽取速度快，效果好。
【IPC分類(lèi)】G06F17-27, G06F17-30
【公開(kāi)號(hào)】CN104636431
【申請(qǐng)?zhí)枴緾N201410845152
【發(fā)明人】張曉東, 王玉, 傅文斌, 殷建琳
【申請(qǐng)人】南京新模式軟件集成有限公司
【公開(kāi)日】2015年5月20日
【申請(qǐng)日】2014年12月31日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張曉東;王玉;傅文斌;殷建琳;
技術(shù)所有人：南京新模式軟件集成有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本摘要抽取神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化方法