一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文檔元數(shù)據(jù)抽取,尤其涉及一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自 動(dòng)優(yōu)化的方法,屬于自然語(yǔ)言處理領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的發(fā)展,電子文件已經(jīng)成為現(xiàn)代工作、生活不可或缺的重要信息載 體,人們的工作和生活驅(qū)動(dòng)了電子文件信息的生成和流轉(zhuǎn),產(chǎn)生了大量的電子文件。
[0003] 然而隨著時(shí)間的推移,電子文件迅速增加,數(shù)量已經(jīng)不能完全統(tǒng)計(jì)。根據(jù)國(guó)家檔案 局2006年的調(diào)查,中央機(jī)關(guān)電子文件數(shù)量高達(dá)1. 5億余份,總量達(dá)75TB。2006年我國(guó)中央 機(jī)關(guān)及其直屬企事業(yè)單位生成的電子文件數(shù)量比2005年增長(zhǎng)了 18. 9%,其數(shù)量占文件總數(shù) 的72. 7%,如何對(duì)我國(guó)政府公文類(lèi)電子文件進(jìn)行有效的管理和利用成了一個(gè)日益嚴(yán)峻的問(wèn) 題。使用普通元數(shù)據(jù)抽取方法抽取領(lǐng)域性非常強(qiáng)的文檔時(shí)往往存在抽取速度慢、效果差的 問(wèn)題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明公開(kāi)了一種不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,解決了在使用 普通元數(shù)據(jù)抽取方法抽取領(lǐng)域性非常強(qiáng)的文檔時(shí)抽取速度慢、效果差的問(wèn)題。
[0005] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取的技術(shù)方案是: 第一步:針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板; 第二步:根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要; 第三步:人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
[0006] 進(jìn)一步地,針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板包括以下步驟: A. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重,句子得分項(xiàng)包括句子 相似度得分項(xiàng),句子在文中的位置得分項(xiàng),基于詞權(quán)重的句子詞權(quán)重值得分項(xiàng); B. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)定在文中不同位置的句子、段落的權(quán)重值; C. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)收集整理相關(guān)的詞庫(kù)及對(duì)應(yīng)的詞權(quán)重值; D. 根據(jù)不同領(lǐng)域設(shè)定摘要信息抽取權(quán)重的比例。
[0007] 進(jìn)一步地,根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要包括以下步驟: A. 導(dǎo)入領(lǐng)域摘要模板; B. 從文檔中抽取文檔正文數(shù)據(jù); C. 使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句,切分句子,并記錄句子在文 中的位置; D. 使用相似度算法對(duì)每個(gè)句子計(jì)算分值; E. 對(duì)已經(jīng)切分完成的句子使用中文分詞算法,進(jìn)行中文分詞; F. 對(duì)分詞得到的詞進(jìn)行詞頻統(tǒng)計(jì),得到詞的權(quán)重值; G. 分詞得到的詞在對(duì)應(yīng)的詞庫(kù)中進(jìn)行匹配,如果匹配到相關(guān)的詞,并且在詞庫(kù)中對(duì)應(yīng) 的權(quán)重值大于目前計(jì)算的到的詞權(quán)重值,則增加該詞的權(quán)重值,如果在詞庫(kù)中對(duì)應(yīng)的權(quán)重 值小于目前計(jì)算的到的詞權(quán)重值,則降低該詞的權(quán)重值; H. 根據(jù)句子中詞的權(quán)重值計(jì)算基于詞權(quán)重的句子詞權(quán)重值; I. 根據(jù)領(lǐng)域摘要模板中設(shè)定的在文中不同位置的句子的權(quán)重計(jì)算句子的位置權(quán)重 值; J. 根據(jù)領(lǐng)域摘要模板中設(shè)定的句子相似度權(quán)重值,句子位置權(quán)重值,句子詞權(quán)重值之 間的權(quán)重關(guān)系計(jì)算句子權(quán)重值; K. 將得到的句子權(quán)重值從高到低排序; L. 根據(jù)領(lǐng)域摘要模板中設(shè)定的摘要權(quán)重比例輸出摘要信息。
[0008] 進(jìn)一步地,人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板包括以下步驟: A. 人工對(duì)得到的摘要信息與文章進(jìn)行對(duì)比,判斷摘要信息與文章是否匹配;如果摘要 不完整,則增加部分摘要,如果摘要過(guò)多,則刪除部分摘要; B. 使用斷句算法,將摘要中被修改的句子或者段落進(jìn)行斷句,得到句子; C. 得到句子在文章中的對(duì)應(yīng)位置; D. 根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng),增加或減少步驟B得到的句子在文章中對(duì)應(yīng)位置 在模板中的權(quán)重值; E. 使用中文分詞算法對(duì)步驟B得到的句子進(jìn)行分詞處理,得到詞; F. 將所得到的詞與領(lǐng)域摘要模板的詞庫(kù)進(jìn)行匹配; G. 如果匹配到對(duì)應(yīng)的詞,則根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)相應(yīng)的增加或者減少摘要 模板詞庫(kù)中對(duì)應(yīng)的詞權(quán)重; H. 重新得到領(lǐng)域摘要模板。
[0009] 進(jìn)一步地,對(duì)于增加部分摘要的情況,將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù) 中的權(quán)重增加或者在領(lǐng)域摘要模板詞庫(kù)中增加未錄入的新詞,將領(lǐng)域摘要模板中句子在文 章中的對(duì)應(yīng)位置的權(quán)重增加。
[0010] 進(jìn)一步地,對(duì)于刪除部分摘要的情況,將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù) 中的權(quán)重降低,將摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重降低。
[0011] 本發(fā)明方法使用人工生成領(lǐng)域摘要模板的方式,保證了不同領(lǐng)域的文檔自動(dòng)摘要 的抽取速度效率與抽取摘要的正確性;在摘要生成后采用人工參與的、人工識(shí)別的方式影 響優(yōu)化本方法自動(dòng)摘要的抽取速度效率與抽取摘要的正確性。在具有較強(qiáng)領(lǐng)域性的文檔摘 要抽取方面抽取速度快,效果好。
【附圖說(shuō)明】
[0012] 圖1是本方法的總體流程示意圖。
[0013] 圖2是領(lǐng)域摘要模板示意圖。
[0014] 圖3是領(lǐng)域摘要自動(dòng)抽取流程示意圖。
[0015] 圖4是領(lǐng)域摘要模板自動(dòng)優(yōu)化過(guò)程示意圖。
【具體實(shí)施方式】
[0016] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0017] 圖1是本方法的總體流程示意圖。如圖1所示,本發(fā)明的不同領(lǐng)域文檔摘要自動(dòng) 抽取及自動(dòng)優(yōu)化的方法主要包括以下步驟: 第一步:針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板; 第二步:根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要; 第三步:人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
[0018] 經(jīng)人工優(yōu)化的領(lǐng)域摘要模板可用在隨后的文檔摘要自動(dòng)抽取中。
[0019] 圖2是領(lǐng)域摘要模板示意圖。如圖2所示,領(lǐng)域摘要模版的一個(gè)示例如下: 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重。如:句子相似度得分項(xiàng) 權(quán)重:30% ;句子在文中位置得分項(xiàng)權(quán)重:25% ;基于詞權(quán)重的句子權(quán)重值得分項(xiàng)權(quán)重:45%。
[0020] 文中不同位置權(quán)重值設(shè)置:在第一段落第一句權(quán)重30% ;在第一段落最后一句權(quán) 重:50% ;在最后一段最后一句權(quán)重20%。
[0021] 摘要信息權(quán)重比例5%。
[0022] 優(yōu)化步長(zhǎng):1%。
[0023] 圖3是領(lǐng)域摘要自動(dòng)抽取流程示意圖。如圖3所示,根據(jù)領(lǐng)域摘要模板自動(dòng)抽取 摘要的一個(gè)示例如下: 1 :導(dǎo)入領(lǐng)域摘要模板。
[0024] 2 :從文檔中抽取文檔正文數(shù)據(jù)。
[0025] 3:使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句,切分句子,并記錄句子 在文中的位置,如: 第一段第一句;第一段第二句;第一段第三句;以此類(lèi)推。
[0026] 4:使用相似度算法對(duì)每個(gè)句子計(jì)算分值,相似度越高的句子得分越高,得到每個(gè) 句子的相似度分值,如: 第一段第一句,90 ;第一段第二句,50 ;第一段第三句,30 ;以此類(lèi)推。
[0027] 5:對(duì)已經(jīng)切分完成的句子使用中文分詞算法,進(jìn)行中文分詞。如: 第一段第一句,得到中文分詞:分詞1、分詞2、分詞3、分詞4、分詞5、分詞6;以此類(lèi)推。
[0028] 6 :對(duì)分詞得到的詞在本文中講行詞頻統(tǒng)計(jì),得到詞的權(quán)重值。如:
【主權(quán)項(xiàng)】
1. 一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征在于包括w下步 驟: A. 針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板; B. 根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要; C. 人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。
2. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征 在于;針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板包括W下步驟: A. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)置不同的句子得分項(xiàng)的權(quán)重,句子得分項(xiàng)包括句子 相似度得分項(xiàng),句子在文中的位置得分項(xiàng),基于詞權(quán)重的句子詞權(quán)重值得分項(xiàng); B. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)設(shè)定在文中不同位置的句子、段落的權(quán)重值; C. 根據(jù)不同領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)收集整理相關(guān)的詞庫(kù)及對(duì)應(yīng)的詞權(quán)重值; D. 根據(jù)不同領(lǐng)域設(shè)定摘要信息抽取權(quán)重的比例。
3. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征 在于:根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要包括W下步驟: A. 導(dǎo)入領(lǐng)域摘要模板; B. 從文檔中抽取文檔正文數(shù)據(jù); C. 使用斷句算法對(duì)提取的文檔正文數(shù)據(jù)進(jìn)行分段與斷句,切分句子,并記錄句子在文 中的位置; D. 使用相似度算法對(duì)每個(gè)句子計(jì)算分值; E. 對(duì)已經(jīng)切分完成的句子使用中文分詞算法,進(jìn)行中文分詞; F. 對(duì)分詞得到的詞進(jìn)行詞頻統(tǒng)計(jì),得到詞的權(quán)重值; G. 分詞得到的詞在對(duì)應(yīng)的詞庫(kù)中進(jìn)行匹配,如果匹配到相關(guān)的詞,并且在詞庫(kù)中對(duì)應(yīng) 的權(quán)重值大于目前計(jì)算的到的詞權(quán)重值,則增加該詞的權(quán)重值,如果在詞庫(kù)中對(duì)應(yīng)的權(quán)重 值小于目前計(jì)算的到的詞權(quán)重值,則降低該詞的權(quán)重值; H. 根據(jù)句子中詞的權(quán)重值計(jì)算基于詞權(quán)重的句子詞權(quán)重值; I. 根據(jù)領(lǐng)域摘要模板中設(shè)定的在文中不同位置的句子的權(quán)重計(jì)算句子的位置權(quán)重 值; J. 根據(jù)領(lǐng)域摘要模板中設(shè)定的句子相似度權(quán)重值,句子位置權(quán)重值,句子詞權(quán)重值之 間的權(quán)重關(guān)系計(jì)算句子權(quán)重值; K. 將得到的句子權(quán)重值從高到低排序; L. 根據(jù)領(lǐng)域摘要模板中設(shè)定的摘要權(quán)重比例輸出摘要信息。
4. 根據(jù)權(quán)利要求1所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征 在于;人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板包括W下步驟: A. 人工對(duì)得到的摘要信息與文章進(jìn)行對(duì)比,判斷摘要信息與文章是否匹配;如果摘要 不完整,則增加部分摘要,如果摘要過(guò)多,則刪除部分摘要; B. 使用斷句算法,將摘要中被修改的句子或者段落進(jìn)行斷句,得到句子; C. 得到句子在文章中的對(duì)應(yīng)位置; D. 根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng),增加或減少步驟B得到的句子在文章中對(duì)應(yīng)位置 在模板中的權(quán)重值; E. 使用中文分詞算法對(duì)步驟B得到的句子進(jìn)行分詞處理,得到詞; F. 將所得到的詞與領(lǐng)域摘要模板的詞庫(kù)進(jìn)行匹配; G. 如果匹配到對(duì)應(yīng)的詞,則根據(jù)領(lǐng)域摘要模板中的優(yōu)化步長(zhǎng)相應(yīng)的增加或者減少摘要 模板詞庫(kù)中對(duì)應(yīng)的詞權(quán)重; H. 重新得到領(lǐng)域摘要模板。
5. 根據(jù)權(quán)利要求4所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征 在于;對(duì)于增加部分摘要的情況,將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù)中的權(quán)重增加 或者在領(lǐng)域摘要模板詞庫(kù)中增加未錄入的新詞,將領(lǐng)域摘要模板中句子在文章中的對(duì)應(yīng)位 置的權(quán)重增加。
6. 根據(jù)權(quán)利要求4所述的針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,其特征 在于;對(duì)于刪除部分摘要的情況,將相應(yīng)句子對(duì)應(yīng)的詞在領(lǐng)域摘要模板詞庫(kù)中的權(quán)重降低, 將摘要模板中句子在文章中的對(duì)應(yīng)位置的權(quán)重降低。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種針對(duì)不同領(lǐng)域文檔摘要自動(dòng)抽取及自動(dòng)優(yōu)化的方法,該方法包括:第一步:針對(duì)不同領(lǐng)域人工生成領(lǐng)域摘要模板;第二步:根據(jù)領(lǐng)域摘要模板自動(dòng)抽取摘要;第三步:人工干預(yù)優(yōu)化摘要及領(lǐng)域摘要模板。本發(fā)明方法使用人工生成領(lǐng)域摘要模板的方式,保證了不同領(lǐng)域的文檔自動(dòng)摘要的抽取速度效率與抽取摘要的正確性;在摘要生成后采用人工參與的、人工識(shí)別的方式影響優(yōu)化本方法自動(dòng)摘要的抽取速度效率與抽取摘要的正確性。在具有較強(qiáng)領(lǐng)域性的文檔摘要抽取方面抽取速度快,效果好。
【IPC分類(lèi)】G06F17-27, G06F17-30
【公開(kāi)號(hào)】CN104636431
【申請(qǐng)?zhí)枴緾N201410845152
【發(fā)明人】張曉東, 王玉, 傅文斌, 殷建琳
【申請(qǐng)人】南京新模式軟件集成有限公司
【公開(kāi)日】2015年5月20日
【申請(qǐng)日】2014年12月31日