本發(fā)明涉及技術(shù)評(píng)價(jià),尤其涉及一種基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法。
背景技術(shù):
1、當(dāng)前科研立項(xiàng)論證主要以同行評(píng)議為主導(dǎo)結(jié)合申報(bào)材料的方式進(jìn)行,該方法屬于基于專家經(jīng)驗(yàn)的定性分析存在相應(yīng)弊端。首先,同行評(píng)議的結(jié)果往往取決于評(píng)審專家的個(gè)人知識(shí)、經(jīng)驗(yàn)、觀點(diǎn)和偏見(jiàn),可能導(dǎo)致評(píng)估結(jié)果的主觀性較強(qiáng),缺乏統(tǒng)一的標(biāo)準(zhǔn)和客觀性。其次,評(píng)審人員的選擇的公正性和合理性難以保證。最后,已經(jīng)享有盛譽(yù)和資源的學(xué)者更容易獲得認(rèn)可和支持,而新興學(xué)者或邊緣領(lǐng)域的學(xué)者則可能面臨更多的困難和挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是要提供一種基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法。旨在通過(guò)先進(jìn)的語(yǔ)義理解的專利聚類方法,提供一個(gè)全面且高效的科研立項(xiàng)篩選方法,幫助快速篩選科研立項(xiàng)項(xiàng)目。
2、為達(dá)到上述目的,本發(fā)明是按照以下技術(shù)方案實(shí)施的:
3、本發(fā)明包括以下步驟:
4、s1:獲取專利數(shù)據(jù),利用預(yù)訓(xùn)練的chinese-bert模型對(duì)專利文本進(jìn)行向量化處理;
5、s2:利用umap算法對(duì)專利文本特征向量進(jìn)行降維處理,并通過(guò)k-means++算法對(duì)降維后的特征向量進(jìn)行聚類分析,識(shí)別出專業(yè)技術(shù)主題和技術(shù)功效主題;
6、s3:去除停用詞,將同一聚類類別的文檔合并為一個(gè)文本單元,運(yùn)用tf-idf算法計(jì)算每個(gè)詞的重要性,從而提取出每個(gè)聚類的主題關(guān)鍵詞;
7、s4:基于聚類結(jié)果構(gòu)建“技術(shù)-功效”矩陣,通過(guò)計(jì)算技術(shù)生命周期、技術(shù)創(chuàng)新性評(píng)價(jià)及市場(chǎng)競(jìng)爭(zhēng)力評(píng)估,得出科研項(xiàng)目的定量篩選結(jié)果。
8、本發(fā)明的有益效果是:
9、本發(fā)明是一種基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)以下關(guān)鍵技術(shù)點(diǎn)實(shí)現(xiàn)了基于專利態(tài)勢(shì)分析的定量科研立項(xiàng):
10、(1)本發(fā)明旨在全面、客觀、定量地開(kāi)展科研立項(xiàng)分析工作,避免了目前主流的同行評(píng)議等方法中的主觀性判斷導(dǎo)致的不確定性。是一種同時(shí)又兼顧技術(shù)、市場(chǎng)和技術(shù)發(fā)展階段三個(gè)層面的輔助分析手段。
11、(2)本發(fā)明采用了先進(jìn)的預(yù)訓(xùn)練模型,這些模型已經(jīng)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練,能夠更好地捕捉文本中的深層次語(yǔ)義信息,顯著提高了對(duì)專利文檔語(yǔ)義理解的準(zhǔn)確性。此外,在將專利摘要文本轉(zhuǎn)換為向量后,本發(fā)明運(yùn)用高效的聚類算法對(duì)這些向量進(jìn)行分析,自動(dòng)識(shí)別出專利文本中的專業(yè)技術(shù)主題,為用戶提供更為精準(zhǔn)的技術(shù)領(lǐng)域劃分。
12、通過(guò)以上兩種技術(shù),得到技術(shù)-功效矩陣,最后計(jì)算出創(chuàng)新性評(píng)價(jià)。
1.一種基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,其特征在于:所述步驟s1具體為:選取經(jīng)過(guò)清洗后的專利文本數(shù)據(jù),對(duì)文本進(jìn)行分詞并創(chuàng)建掩碼語(yǔ)言的輸入格式,再使用chinese-bert模型進(jìn)行領(lǐng)域適應(yīng)微調(diào)操作,接著利用微調(diào)后的chinese-bert模型將專利摘要和技術(shù)功效語(yǔ)段轉(zhuǎn)換為密集的向量表示,文本經(jīng)過(guò)chinese-bert模型計(jì)算之后,得到文本的表示為:
3.根據(jù)權(quán)利要求2所述的基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,其特征在于:所述步驟s2具體為:
4.根據(jù)權(quán)利要求3所述的基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,其特征在于:所述步驟s3中tf-idf算法公式如下:
5.根據(jù)權(quán)利要求4所述的基于專利態(tài)勢(shì)分析的定量科研立項(xiàng)篩選方法,其特征在于:所述步驟s4中技術(shù)創(chuàng)新性評(píng)價(jià):采用chinese-bert模型將科研項(xiàng)目創(chuàng)新點(diǎn)、專業(yè)技術(shù)主題以及技術(shù)功效主題文本向量化,并通過(guò)計(jì)算向量間余弦相似度來(lái)度量項(xiàng)目創(chuàng)新點(diǎn)與技術(shù)點(diǎn)之間的相似度,并選取與創(chuàng)新點(diǎn)相似度最高的技術(shù)點(diǎn)的主題作為該項(xiàng)目的研究細(xì)分方向,并定量計(jì)算科研項(xiàng)目創(chuàng)新性評(píng)價(jià)指標(biāo)q2,中間分值采用插值法計(jì)算,計(jì)算公式為: