本發(fā)明涉及人工智能,特別涉及一種面向情報數(shù)據(jù)關(guān)鍵知識智能提取的方法和系統(tǒng)。
背景技術(shù):
1、技術(shù)情報具有高度的時效性和專業(yè)性,涵蓋最新的科研成果、技術(shù)動態(tài)、行業(yè)趨勢等。隨著互聯(lián)網(wǎng)的快速發(fā)展和信息爆炸,技術(shù)情報存在于海量的互聯(lián)網(wǎng)資訊信息中,由于信息量巨大且分散,獲取和利用這些有價值的數(shù)據(jù)面臨著巨大的挑戰(zhàn)。技術(shù)情報的時效性要求非常高??蒲谐晒⒓夹g(shù)動態(tài)和行業(yè)趨勢等信息需要及時獲取和處理,以便相關(guān)領(lǐng)域的專業(yè)人員能夠迅速作出反應(yīng),跟蹤最新的發(fā)展動態(tài)。互聯(lián)網(wǎng)信息雖然豐富多樣,但其中包含了大量的噪音和無關(guān)信息,專業(yè)性較強的技術(shù)情報往往隱藏在龐大的信息海洋中。如何高效、準確地從海量互聯(lián)網(wǎng)資訊中篩選、歸納和總結(jié)出關(guān)鍵的技術(shù)情報,不僅需要強大的自然語言處理和機器學(xué)習(xí)技術(shù)支持,還需要一套高效的信息過濾和分類系統(tǒng),來提高情報的利用率,這對于提升科研和產(chǎn)業(yè)的競爭力具有重要意義。
2、cn112667821a公開了一種基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法,包括步驟1:爬取百科的分類數(shù)據(jù),將上述的分類數(shù)據(jù)視作概念數(shù)據(jù),將爬取后的分類數(shù)據(jù)添加到圖數(shù)據(jù)庫中,同時建立概念之間的從屬關(guān)系;步驟2:迭代批量讀取、處理百科數(shù)據(jù),所述的百科數(shù)據(jù)是百科詞條的集合,提取出百科詞條中的同一實體名稱的多種表述,所述的同一實體名稱的多種表述稱之為同義詞,將這些同義詞添加到圖數(shù)據(jù)庫中,同時建立實體名稱和它的同義詞之間的關(guān)系;步驟3:使用elasticsearch創(chuàng)建擴展實體的搜索庫,在elasticsearch中,創(chuàng)建索引,配置中文分詞引擎,將所有的百科數(shù)據(jù)導(dǎo)入elasticsearch中,創(chuàng)建擴展實體的搜索庫;步驟4:解析處理百科數(shù)據(jù),提取實體信息,添加更新同義詞數(shù)據(jù),采用規(guī)則和文本分類的方法過濾軍事實體,添加更新軍事類實體信息到圖數(shù)據(jù)庫中,建立實體與概念之間的關(guān)系,處理軍事實體信息關(guān)聯(lián)的擴展實體信息,搜索獲取擴展實體信息,判斷類別,添加擴展信息到圖數(shù)據(jù)庫,建立實體與拓展實體之間的關(guān)系;步驟5:獲取輸入的實體查詢或問句,解析查詢語句,查詢問句的同義詞,通過實體識別獲取問句的實體提及,擴展實體提及,解析出關(guān)系相關(guān)的關(guān)鍵詞,匹配查詢圖數(shù)據(jù)庫,計算問句與實體屬性或關(guān)系詞的相關(guān)度,返回排序最高并高于閾值的實體或?qū)傩孕畔ⅰ?/p>
3、cn115878811a公開了一種基于事理圖譜的軍事情報智能分析及推演方法,步驟一:事理圖譜自動構(gòu)建事理圖譜的構(gòu)建過程包括數(shù)據(jù)采集與清洗、事件邏輯抽取、多模態(tài)數(shù)據(jù)融合以及事理規(guī)則學(xué)習(xí)四部分內(nèi)容;1)數(shù)據(jù)采集與清洗;數(shù)據(jù)采集時,從數(shù)據(jù)源進行引接,并進行高并發(fā)實時采集,然后對采集的數(shù)據(jù)進行清洗,包括通過定制化數(shù)據(jù)清洗模型,去除無關(guān)內(nèi)容,將待處理的文本轉(zhuǎn)化為進一步分析所需要的輸入格式數(shù)據(jù);2)事件邏輯抽??;構(gòu)建wasserstein生成式對抗網(wǎng)絡(luò)模型針對清洗后的數(shù)據(jù),對主題事件、屬性和邏輯關(guān)系進行自動抽取,形成邏輯關(guān)系嵌入向量,以挖掘現(xiàn)實世界中的事理知識信息;3)多模態(tài)數(shù)據(jù)融合;通過使用多模態(tài)聯(lián)合網(wǎng)絡(luò)化合成表示將所抽取的不同來源、不同手段、不同結(jié)構(gòu)的數(shù)據(jù)進行統(tǒng)一的表征與管理,得到多模態(tài)統(tǒng)一表征網(wǎng)絡(luò);4)事件規(guī)則學(xué)習(xí);事件規(guī)則學(xué)習(xí)是面向所述多模態(tài)統(tǒng)一表征網(wǎng)絡(luò),通過一定的認知推理方法,挖掘事件網(wǎng)絡(luò)模型之間的邏輯關(guān)系,從而使得網(wǎng)絡(luò)以人類認知理解方式進行推理,實現(xiàn)事件認知圖譜的應(yīng)用;在事件規(guī)則學(xué)習(xí)過程中,針對多模態(tài)統(tǒng)一表征網(wǎng)絡(luò),首先使用transformer的編碼器結(jié)構(gòu)提取文本的嵌入向量,使用cnn方法提取圖像的嵌入向量,形成事件圖譜的嵌入向量,然后融合事件邏輯抽取的邏輯關(guān)系嵌入向量,形成多模態(tài)嵌入表征,從而完成異構(gòu)網(wǎng)絡(luò)模型間的語義及時空關(guān)聯(lián),實現(xiàn)事理規(guī)則的學(xué)習(xí)及推理,得到多模態(tài)事理圖譜,多模態(tài)事理圖譜包含圖片、文本含有的事件、實體信息以及事件之間的邏輯關(guān)系;步驟二:以事件為中心的演化推斷基于所構(gòu)建的多模態(tài)事理圖譜,通過對歷史事件的復(fù)盤分析,將實戰(zhàn)數(shù)據(jù)進行多方位的仿真推演,形成仿真推演模型,仿真推演過程包括戰(zhàn)場環(huán)境、兵力部署、作戰(zhàn)能力、動態(tài)目標這些關(guān)鍵要素信息的推演;通過結(jié)合事件信息及推演過程得到的戰(zhàn)場環(huán)境、兵力部署、作戰(zhàn)能力、動態(tài)目標這些關(guān)鍵要素,并引入時間維度信息,構(gòu)建時序事件圖譜,在時序事件圖譜的基礎(chǔ)上,根據(jù)客觀實體和事件建立事件表征模型,事件表征模型中包含事件的基本要素以及影響事件發(fā)展的關(guān)鍵要素,然后將歷史案例擬合結(jié)果與真實結(jié)果對比,優(yōu)化所述仿真推演模型,最后預(yù)測出未來事件的不同發(fā)展趨勢;其中,通過結(jié)合步驟一得到的多模態(tài)事理圖譜、所述時序事件圖譜的方式進行事件推理預(yù)測;首先應(yīng)用多模態(tài)事理圖譜進行推理:對于發(fā)生的新事件,計算其與多模態(tài)事理圖譜中各個節(jié)點的相似度,找到多模態(tài)事理圖譜中與該新事件最相似的節(jié)點;然后,根據(jù)與新事件最相似的節(jié)點在多模態(tài)事理圖譜中的泛化節(jié)點,進而推演該新事件基于多模態(tài)事理圖譜的后續(xù)的演化方向;在完成基于多模態(tài)事理圖譜的推理后,根據(jù)時序事件圖譜,將對未來事件預(yù)測的任務(wù),抽象為對時序事件圖譜未來狀態(tài)的推理任務(wù),其中,通過對歷史事件信息進行循環(huán)編碼、對時序事件圖譜中的相鄰事件的信息進行聚合,通過聚合的歷史事件、時序相鄰事件以及同時發(fā)生事件,推斷出關(guān)于所有事件的聯(lián)合概率分布,從而預(yù)測未來事件發(fā)生的概率;最終,對于基于多模態(tài)事理圖譜和時序事件圖譜的事件推理結(jié)果,通過概率融合的方式獲取最終的事件推理結(jié)果。
4、cn115408532a公開了一種面向開源情報的武器裝備知識圖譜構(gòu)建方法,獲取軍事文本數(shù)據(jù),對所述軍事文本數(shù)據(jù)進行預(yù)處理,得到標準化的軍事文本數(shù)據(jù);根據(jù)所述標準化的軍事文本數(shù)據(jù)確定待訓(xùn)練的軍事文本數(shù)據(jù),對所述待訓(xùn)練的軍事文本數(shù)據(jù)進行標注處理,分別得到待訓(xùn)練的武器裝備實體識別數(shù)據(jù)集、待訓(xùn)練的武器裝備屬性提取數(shù)據(jù)集及待訓(xùn)練的武器裝備實體鏈接數(shù)據(jù)集;將所述待訓(xùn)練武器裝備實體識別數(shù)據(jù)集輸入至對應(yīng)的模型進行訓(xùn)練處理,得到訓(xùn)練后的實體識別模型;將所述待訓(xùn)練的武器裝備屬性提取數(shù)據(jù)集輸入至對應(yīng)的模型進行訓(xùn)練處理,得到訓(xùn)練后的關(guān)系抽取模型;將所述待訓(xùn)練的武器裝備實體鏈接數(shù)據(jù)集輸入至對應(yīng)的模型進行訓(xùn)練處理,得到訓(xùn)練后的實體鏈接模型;基于所述實體識別模型與所述關(guān)系抽取模型對所述標準化的軍事文本數(shù)據(jù)分別進行武器裝備識別及武器裝備屬性提取操作,得到武器裝備實體數(shù)據(jù)集及對應(yīng)的武器裝備屬性數(shù)據(jù)集;基于實體鏈接模型,將所述武器裝備實體數(shù)據(jù)集與武器裝備知識圖譜中已有的實體進行實體鏈接,得到目標候選實體數(shù)據(jù)集,根據(jù)所述目標候選實體數(shù)據(jù)集及所述武器裝備屬性數(shù)據(jù)集確定武器裝備的目標屬性數(shù)據(jù)集,將所述目標屬性數(shù)據(jù)集存入數(shù)據(jù)庫,得到武器裝備知識圖譜。
5、cn112307768a公開了一種面向人工智能科技企業(yè)的情報監(jiān)控方法,情報自主訂閱模塊:用于描述企業(yè)對情報監(jiān)控的需求;技術(shù)情報自動采集模塊:用于提高情報采集的準確性和全面性;技術(shù)情報監(jiān)控分析模塊:用于根據(jù)企業(yè)的訂閱需求,自動進行情報內(nèi)容采集、篩選、清晰、匯總;語義網(wǎng)構(gòu)建模塊:用于對采集得到的情報內(nèi)容進行深度分析和挖掘;情報自主訂閱模塊連接語義網(wǎng)構(gòu)建模塊,語義網(wǎng)構(gòu)建模塊還連接技術(shù)情報自動采集模塊,技術(shù)情報自動采集模塊還連接技術(shù)情報監(jiān)控分析模塊。
6、目前,針對海量的互聯(lián)網(wǎng)信息數(shù)據(jù),用戶需要閱讀和分析、處理大量互聯(lián)網(wǎng)信息情報,難以自動過濾掉無關(guān)或低質(zhì)量的信息,且難以迅速、準確地獲取與其需求高度相關(guān)信息,進而導(dǎo)致數(shù)據(jù)的利用率低。
技術(shù)實現(xiàn)思路
1、長期實踐發(fā)現(xiàn),互聯(lián)網(wǎng)信息的產(chǎn)生和更新速度極快,面對海量數(shù)據(jù)時,不僅要求高時效性,需在第一時間篩選并獲取相關(guān)技術(shù)情報,還需剔除噪聲信息,提取有效內(nèi)容。用戶往往需要耗費大量時間和精力去篩選、解讀和處理這些情報。由于缺乏有效的方法來過濾無關(guān)或低質(zhì)量的內(nèi)容,用戶難以快速且精準地找到與其需求緊密相關(guān)的信息,最終導(dǎo)致數(shù)據(jù)的利用效率和利用率均不高。
2、有鑒于此,本發(fā)明旨在提出一種面向情報數(shù)據(jù)關(guān)鍵知識智能提取的方法包括:
3、步驟s1,從互聯(lián)網(wǎng)獲取第一信息數(shù)據(jù),所述第一信息數(shù)據(jù)至少包括新聞資訊、文檔信息、多媒體信息;
4、步驟s2,將所述第一信息進行數(shù)據(jù)預(yù)處理過程,得到第二信息數(shù)據(jù)并采用詞袋模型和\或tf-idf進行向量化得到第三信息數(shù)據(jù),根據(jù)預(yù)設(shè)標簽從所述第三信息數(shù)據(jù)中提取詞匯;
5、步驟s3,將所述詞匯根據(jù)出現(xiàn)的頻率進行統(tǒng)計,根據(jù)頻率統(tǒng)計從高到低進行排序,選取預(yù)設(shè)數(shù)量的詞匯,作為關(guān)鍵詞;
6、步驟s4,向生成式語言模型中輸入所述第三信息數(shù)據(jù),約簡生成摘要數(shù)據(jù);
7、步驟s5,將所述第三信息數(shù)據(jù)輸入機器學(xué)習(xí)模型進行情感傾向分析,得到文本情感傾向數(shù)據(jù);
8、步驟s6,根據(jù)所述第三信息數(shù)據(jù)構(gòu)建知識圖譜,并將詞匯、關(guān)鍵詞、摘要數(shù)據(jù)、文本情感傾向數(shù)據(jù)進行結(jié)構(gòu)化并可視化顯示。
9、在一個實施例中,所述預(yù)處理過程包括對圖像數(shù)據(jù)和\或視頻數(shù)據(jù)轉(zhuǎn)變?yōu)槲谋緮?shù)據(jù)
10、在一個實施例中,所述預(yù)處理過程還包括對文本數(shù)據(jù)中的詞匯進行數(shù)據(jù)清洗和標準化處理。
11、在一個實施例中,所述預(yù)設(shè)標簽包括xml格式的結(jié)構(gòu)化標簽庫。
12、在一個實施例中,根據(jù)所述預(yù)設(shè)標簽遍歷計算所述第三信息數(shù)據(jù),提取詞匯后根據(jù)所述預(yù)設(shè)標簽進行分類存儲。
13、在一個實施例中,所述機器學(xué)習(xí)模型包括bert或lstm模型。
14、本發(fā)明還提供了一種根據(jù)上述的面向情報數(shù)據(jù)關(guān)鍵知識智能提取的方法的系統(tǒng),所述系統(tǒng)包括,
15、數(shù)據(jù)采集單元,用于從互聯(lián)網(wǎng)獲取第一信息數(shù)據(jù),所述第一信息數(shù)據(jù)至少包括新聞資訊、文檔信息、多媒體信息;
16、預(yù)處理單元,用于將所述第一信息進行數(shù)據(jù)預(yù)處理過程,得到第二信息數(shù)據(jù),采用詞袋模型和\或tf-idf進行向量化得到第三信息數(shù)據(jù),根據(jù)預(yù)設(shè)標簽從所述第三信息數(shù)據(jù)中提取詞匯;
17、詞頻單元,用于將所述詞匯進行詞匯出現(xiàn)的頻率進行統(tǒng)計,根據(jù)頻率統(tǒng)計從高到低進行排序,選取預(yù)設(shè)數(shù)量的詞匯,作為關(guān)鍵詞;
18、摘要單元,用于向生成式語言模型中輸入所述第三信息數(shù)據(jù),約簡生成摘要數(shù)據(jù);
19、文本情感分析單元,用于將所述第三信息數(shù)據(jù)輸入機器學(xué)習(xí)模型進行情感傾向分析,得到文本情感傾向數(shù)據(jù);
20、知識圖譜單元,用于根據(jù)所述第三信息數(shù)據(jù)構(gòu)建知識圖譜,并將詞匯、關(guān)鍵詞、摘要數(shù)據(jù)、文本情感傾向數(shù)據(jù)進行結(jié)構(gòu)化并可視化顯示。
21、在一個實施例中,所述預(yù)處理單元包括標準化模塊,用于對文本數(shù)據(jù)中的詞匯進行數(shù)據(jù)清洗和標準化處理。
22、本發(fā)明提供了一種電子設(shè)備,至少一個處理器;以及
23、與所述至少一個處理器通信連接的存儲器;其中,
24、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述的方法。
25、本發(fā)明提供了一種機器可讀存儲介質(zhì),該機器可讀存儲介質(zhì)上存儲有指令,該指令用于使得機器執(zhí)行本技術(shù)如上述的方法。
26、本發(fā)明公開的面向情報數(shù)據(jù)關(guān)鍵知識智能提取的方法,通過獲取原始數(shù)據(jù),將原始數(shù)據(jù)預(yù)處理后進行向量化,根據(jù)預(yù)設(shè)標簽從向量空間提取詞匯,提取詞匯進行頻率統(tǒng)計,得到關(guān)鍵詞;再由生成式語言模型約簡生成摘要數(shù)據(jù),并且通過機器學(xué)習(xí)模型進行情感傾向分析,通過構(gòu)建知識圖譜,最終能夠提取詞匯、關(guān)鍵詞、摘要數(shù)據(jù)、文本情感傾向數(shù)據(jù)等多個維度類別的結(jié)構(gòu)化知識數(shù)據(jù)并可視化顯示。本發(fā)明還公開了一種系統(tǒng),該方法和系統(tǒng)不僅能夠自動地、智能地、實時地將互聯(lián)網(wǎng)產(chǎn)生的多種類型的數(shù)據(jù),轉(zhuǎn)變?yōu)槲谋緮?shù)據(jù),再通過預(yù)設(shè)標簽、生成式語言模型、機器學(xué)習(xí)模型以及知識圖譜的方式處理,過濾無關(guān)噪聲或低質(zhì)量的內(nèi)容,快速約簡且精準地提取與用戶需求緊密相關(guān)的信息,進而提高數(shù)據(jù)的利用效率和利用率。
27、本發(fā)明的其它特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。