本發(fā)明涉及科技大數(shù)據(jù)畫像領(lǐng)域,具體涉及一種多視角的科技數(shù)據(jù)畫像系統(tǒng)及其方法。
背景技術(shù):
1、科技數(shù)據(jù)畫像被視為一種能夠整合并分析多源科技信息,全貌呈現(xiàn)科技實(shí)力并提供價(jià)值見解的有效手段。通過數(shù)字化分析廣泛采集的多源科技數(shù)據(jù),科技數(shù)據(jù)畫像能夠?qū)崿F(xiàn)對科技實(shí)力的全面評估和比較,揭示不同領(lǐng)域的優(yōu)勢和短板。同時(shí),利用標(biāo)簽化技術(shù)洞察科技實(shí)力的特征,有助于發(fā)現(xiàn)隱藏在數(shù)據(jù)中的重要規(guī)律和趨勢。目前,現(xiàn)有公開的科技指標(biāo)體系為構(gòu)建科技數(shù)據(jù)畫像提供了重要的數(shù)據(jù)支撐和分析視角。在構(gòu)建科技數(shù)據(jù)畫像的基本思路中,必須回顧和綜合現(xiàn)有公開的科技大數(shù)據(jù)指標(biāo)體系,全面分析獲取相關(guān)數(shù)據(jù),通過數(shù)據(jù)的標(biāo)簽化處理和選擇性篩選,構(gòu)建符合實(shí)際需求的科技數(shù)字畫像。然而,科技數(shù)據(jù)的種類繁多,來源廣泛且數(shù)據(jù)量龐大,如何有效整合大數(shù)據(jù)處理、數(shù)據(jù)挖掘和人工智能技術(shù)建立科技數(shù)據(jù)畫像成為一項(xiàng)重要挑戰(zhàn)。尤其,如何通過將領(lǐng)域知識、數(shù)據(jù)科學(xué)技術(shù)和決策分析方法有機(jī)結(jié)合,從不同的視角實(shí)現(xiàn)跨領(lǐng)域跨學(xué)科的科技數(shù)據(jù)交叉分析與理解成為重要挑戰(zhàn)。綜上所述,目前在相關(guān)領(lǐng)域內(nèi)缺少一種多視角的科技數(shù)據(jù)畫像方法及其系統(tǒng)的研究,即在建立全貌數(shù)據(jù)的基礎(chǔ)上提供多視角的科技數(shù)據(jù)畫像建模、分析和應(yīng)用的一體化解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出一種多視角的科技數(shù)據(jù)畫像系統(tǒng)及其方法,以從多視角描繪科技實(shí)力概貌,提供領(lǐng)域細(xì)粒度的科技價(jià)值見解支持。
2、實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:一種多視角的科技數(shù)據(jù)畫像系統(tǒng),包括科技指標(biāo)集成評估模塊、科技熱點(diǎn)標(biāo)簽標(biāo)注模塊、科技圖譜構(gòu)建分析模塊、科技競合態(tài)勢感知模塊、科技畫像多維展現(xiàn)模塊,其中:
3、科技指標(biāo)集成評估模塊用于構(gòu)建科技指標(biāo)畫像。從科技投入、產(chǎn)出和效益維度建立三級科技指標(biāo)體系,通過“德爾菲法”確定各層級指標(biāo)相對重要程度,并采用幾何分析法進(jìn)行指標(biāo)量化排名,實(shí)現(xiàn)多維度的科技競爭力橫/縱向?qū)Ρ确治觥?/p>
4、科技熱點(diǎn)標(biāo)簽標(biāo)注模塊用于構(gòu)建科技熱點(diǎn)畫像。通過textrank算法并行地從大量科技文本數(shù)據(jù)提取科技關(guān)鍵詞,通過科技關(guān)鍵詞與科技主題詞向量編碼的相似度映射建立科技主題詞庫,通過構(gòu)建科技熱點(diǎn)標(biāo)簽預(yù)測模型并基于科技主題詞庫構(gòu)建樣本集訓(xùn)練,以標(biāo)簽詞云的形式展現(xiàn)未來一段時(shí)間內(nèi)的科技熱點(diǎn)。
5、科技圖譜構(gòu)建分析模塊用于構(gòu)建科技圖譜畫像。通過知識圖譜建模和科技實(shí)體關(guān)系抽取,建立科技實(shí)體之間聯(lián)系,通過科技圖譜關(guān)聯(lián)分析、科技圖譜時(shí)序分析以及科技圖譜時(shí)空分析,發(fā)現(xiàn)科技實(shí)體之間潛在關(guān)系,呈現(xiàn)科技實(shí)體全生命周期演變,并展示科技實(shí)體之間的時(shí)空關(guān)聯(lián)。
6、科技競合態(tài)勢感知模塊用于構(gòu)建科技領(lǐng)域畫像。通過抽析智庫文本提取核心觀點(diǎn)內(nèi)容,監(jiān)測最新關(guān)鍵科技領(lǐng)域動(dòng)向,通過構(gòu)建貿(mào)易競合態(tài)勢網(wǎng)絡(luò)計(jì)算進(jìn)口依存度和貿(mào)易穩(wěn)定指數(shù),揭示關(guān)鍵領(lǐng)域資源的競合態(tài)勢。
7、科技畫像多維展現(xiàn)模塊提供統(tǒng)一用戶門戶,用于科技指標(biāo)畫像、科技熱點(diǎn)畫像、科技圖譜畫像、科技領(lǐng)域畫像的綜合展現(xiàn)。
8、進(jìn)一步的,所述科技指標(biāo)集成評估模塊包括科技指標(biāo)評價(jià)體系構(gòu)建模塊、多維度科技競爭力指數(shù)排名模塊和科技指標(biāo)畫像構(gòu)建模塊,其中:
9、科技指標(biāo)評價(jià)體系構(gòu)建模塊,由科技發(fā)展環(huán)境指數(shù)、科技發(fā)展資源指數(shù)、科技創(chuàng)新產(chǎn)出指數(shù)、科技與產(chǎn)業(yè)安全指數(shù)、科技綜合貢獻(xiàn)指數(shù)共5個(gè)一級指標(biāo)構(gòu)成;一級指標(biāo)能相應(yīng)分解為多個(gè)二級指標(biāo),表示為;二級指標(biāo)由多個(gè)可直接量化的三級指標(biāo)構(gòu)成,表示為;
10、指標(biāo)體系由公式(1a)進(jìn)行量化;
11、?(1a);
12、s.t.
13、?(1b);
14、其中,i,j,k分別表示一級指標(biāo)、二級指標(biāo)和三級指標(biāo)的序號,和表示三級指標(biāo)的最大值和最小值;和表示相應(yīng)的三級指標(biāo)和二級指標(biāo)的權(quán)重系數(shù);表示一級指標(biāo)所包含的二級指標(biāo)的數(shù)量,表示二級指標(biāo)所包含的三級指標(biāo)的數(shù)量;
15、多維度科技競爭力指數(shù)排名模塊,從科技發(fā)展環(huán)境指數(shù)、科技發(fā)展資源指數(shù)、科技創(chuàng)新產(chǎn)出指數(shù)、科技與產(chǎn)業(yè)安全指數(shù)、科技綜合貢獻(xiàn)指數(shù)5個(gè)指標(biāo)維度,實(shí)現(xiàn)科技競爭力指數(shù)排名;
16、科技指標(biāo)畫像構(gòu)建模塊,從科技發(fā)展環(huán)境指數(shù)、科技發(fā)展資源指數(shù)、科技創(chuàng)新產(chǎn)出指數(shù)、科技與產(chǎn)業(yè)安全指數(shù)、科技綜合貢獻(xiàn)指數(shù)5個(gè)指標(biāo)維度,以圖表結(jié)合數(shù)值分析的方法,對不同評估對象同一時(shí)間段內(nèi)的一級評估指標(biāo)排名進(jìn)行橫向?qū)Ρ?,通過一級指標(biāo)逐級“下鉆”二級指標(biāo)和三級指標(biāo)進(jìn)行不同評估對象不同時(shí)間段內(nèi)不同指標(biāo)維度的橫/縱向?qū)Ρ取?/p>
17、進(jìn)一步的,二級指標(biāo)權(quán)重系數(shù)和三級指標(biāo)權(quán)重系數(shù)的求解過程為:
18、首先采用“德爾菲法”確定相應(yīng)層級任意兩個(gè)指標(biāo)與之間的相對重要程度,分別表示相比于同等重要、稍微重要、重要、比較重要、非常重要;然后構(gòu)建指標(biāo)相對重要性比較矩陣,采用公式(2)幾何分析法進(jìn)行指標(biāo)權(quán)重計(jì)算;
19、?(2);
20、其中,表示各層級任意指標(biāo)的權(quán)重系數(shù),d表示相應(yīng)層級的指標(biāo)維度。
21、進(jìn)一步的,所述科技指標(biāo)畫像構(gòu)建模塊通過折線圖展示同一評估對象不同指標(biāo)值隨時(shí)間的排名變化趨勢,通過雷達(dá)圖展示不同評估對象在同一指標(biāo)維度的排名比較,通過熱力圖展示評估對象最近幾個(gè)時(shí)間段內(nèi)在不同指標(biāo)維度的變化情況。
22、進(jìn)一步的,所述科技熱點(diǎn)標(biāo)簽標(biāo)注模塊包括科技主題詞庫構(gòu)建模塊、科技熱點(diǎn)標(biāo)簽預(yù)測模塊和科技熱點(diǎn)詞云標(biāo)注模塊,其中:
23、科技主題詞庫構(gòu)建模塊,首先,以論文、專利、智庫、報(bào)告為科技文本數(shù)據(jù)源,并行化構(gòu)建科技文本關(guān)鍵詞關(guān)系圖g,科技文本關(guān)鍵詞關(guān)系圖g以科技關(guān)鍵詞作為節(jié)點(diǎn),以科技關(guān)鍵詞在文本中的共現(xiàn)關(guān)系作為邊,其中共現(xiàn)關(guān)系僅當(dāng)兩個(gè)科技關(guān)鍵詞在同一文本中的共現(xiàn)頻率大于閾值時(shí)建立一條關(guān)系邊;然后采用textrank算法對科技文本關(guān)鍵詞關(guān)系圖g的科技關(guān)鍵詞進(jìn)行排名,生成(科技關(guān)鍵詞,評分)集合;接著,利用word2vec對科技文本關(guān)鍵詞關(guān)系圖g中的科技關(guān)鍵詞進(jìn)行詞向量編碼,計(jì)算科技關(guān)鍵詞與科技主題詞的相似度,并用相似度最大的科技主題詞替代科技關(guān)鍵詞以實(shí)現(xiàn)標(biāo)準(zhǔn)化處理;最后,對相同科技主題詞的不同科技關(guān)鍵詞進(jìn)行評分累加聚合,取評分排名前k的主題詞作為科技熱點(diǎn)標(biāo)簽,形成科技主題詞庫;
24、科技熱點(diǎn)標(biāo)簽預(yù)測模塊,用于預(yù)測未來一段時(shí)間內(nèi)可能成為被評估對象科技熱點(diǎn)的標(biāo)簽,科技熱點(diǎn)標(biāo)簽預(yù)測模型由三層lstm網(wǎng)絡(luò)級聯(lián),并在最后增加一層具有softmax激活函數(shù)的32節(jié)點(diǎn)的全連接層,輸入為前m個(gè)階段科技主題詞嵌入編碼序列,輸出為下一階段科技主題詞的概率;采用論文、專利、智庫、報(bào)告科技文本構(gòu)建的科技主題詞庫構(gòu)建訓(xùn)練樣本集{([嵌入編碼序列],科技主題詞)},以增量訓(xùn)練的方式微調(diào)科技熱點(diǎn)標(biāo)簽預(yù)測模型網(wǎng)絡(luò)結(jié)構(gòu),通過折扣系數(shù)優(yōu)化樣本訓(xùn)練損失以改進(jìn)模型性能,其中為樣本所屬時(shí)間段的序號,q為時(shí)間段劃分的數(shù)量;
25、科技熱點(diǎn)詞云標(biāo)注模塊,根據(jù)科技熱點(diǎn)標(biāo)簽預(yù)測模型輸出的科技熱點(diǎn)標(biāo)簽概率值調(diào)整標(biāo)簽的大小和顏色,形成一個(gè)以科技主題詞為視覺元素的云狀圖像,展現(xiàn)未來時(shí)間段內(nèi)評估對象的科技領(lǐng)域熱點(diǎn)。
26、進(jìn)一步的,所述科技圖譜構(gòu)建分析模塊包括科技圖譜構(gòu)建模塊和科技知識關(guān)聯(lián)挖掘模塊,其中:
27、科技圖譜構(gòu)建模塊,首先集成科技項(xiàng)目、科技快報(bào)、科技基金三類非結(jié)構(gòu)化的科技文本數(shù)據(jù),使用bert預(yù)訓(xùn)練模型對輸入科技文本進(jìn)行編碼,提取文本的語義信息,生成每個(gè)單詞的語義特征向量序列,p為文本中單詞的數(shù)量;然后,使用雙向lstm網(wǎng)絡(luò)進(jìn)一步處理bert預(yù)訓(xùn)練模的輸出,捕捉詞語之間的上下文依賴關(guān)系,得到增強(qiáng)的語義特征向量序列,并且,將雙向lstm網(wǎng)絡(luò)的輸出作為條件隨機(jī)場的輸入,識別文本中的科技實(shí)體邊界和類型,并根據(jù)類型篩選出科技實(shí)體及屬性信息,其中科技實(shí)體包括科技組織、科技基金、科技項(xiàng)目、科技人才;接著,抽取科技實(shí)體關(guān)系,科技實(shí)體關(guān)系通過科技實(shí)體在文本中的共現(xiàn)關(guān)系以及科技實(shí)體之間語義特征向量的相似度來確定,即如果兩個(gè)科技實(shí)體在同一上下文中共現(xiàn)的頻率超過閾值且語義特征向量的相似度超過閾值,則兩個(gè)科技實(shí)體之間存在關(guān)系邊;最后將識別出的科技實(shí)體和科技實(shí)體關(guān)系存儲到圖數(shù)據(jù)庫或關(guān)系型數(shù)據(jù)庫中,構(gòu)建完整的科技圖譜;
28、科技知識關(guān)聯(lián)挖掘模塊,通過科技圖譜關(guān)聯(lián)分析、科技圖譜時(shí)序分析、科技圖譜時(shí)空分析三種方法,從科技圖譜中發(fā)現(xiàn)科技實(shí)體和事件之間的潛在關(guān)系,其中科技圖譜關(guān)聯(lián)分析通過查詢科技圖譜多跳關(guān)系,形成關(guān)注對象的子圖,通過對科技實(shí)體直接、間接關(guān)聯(lián)的其他實(shí)體進(jìn)行查看,獲取科技實(shí)體之間隱藏的關(guān)聯(lián)關(guān)系;科技圖譜時(shí)序分析通過科技實(shí)體的存續(xù)時(shí)間以及科技實(shí)體關(guān)系的起止時(shí)間動(dòng)態(tài)呈現(xiàn),以及起止時(shí)間范圍內(nèi)任意時(shí)刻的科技圖譜狀態(tài)回放,呈現(xiàn)科技實(shí)體全生命周期演變過程;科技圖譜時(shí)空分析通過將科技圖譜按照科技實(shí)體的地理位置信息關(guān)聯(lián)展示到三維地球,展示科技實(shí)體之間的時(shí)空關(guān)聯(lián)關(guān)系。
29、進(jìn)一步的,所述科技競合態(tài)勢感知模塊包括關(guān)鍵領(lǐng)域動(dòng)向監(jiān)測模塊、關(guān)鍵領(lǐng)域資源競合態(tài)勢分析模塊和關(guān)鍵領(lǐng)域畫像構(gòu)建模塊,其中:
30、關(guān)鍵科技領(lǐng)域動(dòng)向監(jiān)測模塊通過對關(guān)鍵領(lǐng)域智庫報(bào)告進(jìn)行收集,形成智庫文本庫,通過開源大語言模型實(shí)現(xiàn)智庫快報(bào)內(nèi)容框架、摘要與核心觀點(diǎn)的自動(dòng)提取,以地圖形式展示關(guān)鍵領(lǐng)域的區(qū)域分布,鼠標(biāo)懸停顯示的關(guān)鍵領(lǐng)域最新智庫快報(bào)核心觀點(diǎn)內(nèi)容;
31、關(guān)鍵科技領(lǐng)域資源競合態(tài)勢分析模塊,以資源儲產(chǎn)情況和貿(mào)易往來為基礎(chǔ)構(gòu)建貿(mào)易競合態(tài)勢網(wǎng)絡(luò),在貿(mào)易競合態(tài)勢網(wǎng)絡(luò)中通過計(jì)算進(jìn)口依存度展示對貿(mào)易進(jìn)口的依賴程度,通過計(jì)算貿(mào)易穩(wěn)定指數(shù)即網(wǎng)絡(luò)結(jié)構(gòu)熵來衡量貿(mào)易的穩(wěn)定性,以分析產(chǎn)業(yè)鏈供應(yīng)鏈的貿(mào)易競爭和合作態(tài)勢;
32、關(guān)鍵科技領(lǐng)域畫像構(gòu)建模塊,對集成電路、大容量電池產(chǎn)業(yè)所涉及的重要礦產(chǎn)資源貿(mào)易競合態(tài)勢網(wǎng)絡(luò)分析,針對礦產(chǎn)資源需求的產(chǎn)量、儲量數(shù)據(jù)形成資源畫像,展示礦產(chǎn)資源的分布情況,以分析關(guān)鍵礦產(chǎn)潛在競合關(guān)系。
33、一種多視角的科技數(shù)據(jù)畫像方法,基于所述的多視角的科技數(shù)據(jù)畫像系統(tǒng),實(shí)現(xiàn)多視角的科技數(shù)據(jù)畫像,具體為:
34、利用科技指標(biāo)集成評估模塊實(shí)現(xiàn)科技指標(biāo)畫像的構(gòu)建,從科技投入、產(chǎn)出和效益維度建立三級科技指標(biāo)體系,通過“德爾菲法”確定各層級指標(biāo)相對重要程度,并采用幾何分析法進(jìn)行指標(biāo)量化排名,實(shí)現(xiàn)多維度的科技競爭力橫/縱向?qū)Ρ确治觯?/p>
35、利用科技熱點(diǎn)標(biāo)簽標(biāo)注模塊構(gòu)建科技熱點(diǎn)畫像,通過textrank算法并行地從科技文本數(shù)據(jù)提取科技關(guān)鍵詞,通過科技關(guān)鍵詞與科技主題詞向量編碼的相似度映射建立科技主題詞庫,通過構(gòu)建科技熱點(diǎn)標(biāo)簽預(yù)測模型并基于科技主題詞庫構(gòu)建樣本集訓(xùn)練,以標(biāo)簽詞云的形式展現(xiàn)未來一段時(shí)間內(nèi)的科技熱點(diǎn);
36、利用科技圖譜構(gòu)建分析模塊構(gòu)建科技圖譜畫像,通過知識圖譜建模和科技實(shí)體關(guān)系抽取,建立科技實(shí)體之間聯(lián)系,通過科技圖譜關(guān)聯(lián)分析、科技圖譜時(shí)序分析以及科技圖譜時(shí)空分析,確定科技實(shí)體之間潛在關(guān)系,呈現(xiàn)科技實(shí)體全生命周期演變,并展示科技實(shí)體之間的時(shí)空關(guān)聯(lián);
37、利用科技競合態(tài)勢感知模塊構(gòu)建科技領(lǐng)域畫像,通過抽析智庫文本提取核心觀點(diǎn)內(nèi)容,監(jiān)測最新關(guān)鍵科技領(lǐng)域動(dòng)向,通過構(gòu)建貿(mào)易競合態(tài)勢網(wǎng)絡(luò)計(jì)算進(jìn)口依存度和貿(mào)易穩(wěn)定指數(shù),揭示關(guān)鍵領(lǐng)域資源的競合態(tài)勢;
38、利用科技畫像多維展現(xiàn)模塊統(tǒng)一用戶門戶,用于科技指標(biāo)畫像、科技熱點(diǎn)畫像、科技圖譜畫像、科技領(lǐng)域畫像的綜合展現(xiàn)。
39、一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)施所述的多視角的科技數(shù)據(jù)畫像方法,實(shí)現(xiàn)多視角的科技數(shù)據(jù)畫像。
40、一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)施所述的多視角的科技數(shù)據(jù)畫像方法,實(shí)現(xiàn)多視角的科技數(shù)據(jù)畫像。
41、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:1)提出一種多視角的科技數(shù)據(jù)畫像方法,拓展了科技發(fā)展態(tài)勢分析的廣度與深度。2)提供一種科技數(shù)據(jù)畫像價(jià)值見解系統(tǒng),從應(yīng)用的角度實(shí)現(xiàn)了視角化的科技概貌分析及博弈研判,提升了科技大數(shù)據(jù)分析的效率。3)基于以上效果,本發(fā)明在工程應(yīng)用中能夠?qū)崿F(xiàn)多模態(tài)科技大數(shù)據(jù)的快速集成與畫像呈現(xiàn),具有較強(qiáng)的可操作性和實(shí)用價(jià)值。