1.一種基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其包括以下步驟:
在第一步驟(S1)中,確定用于機(jī)器學(xué)習(xí)的原始專利數(shù)據(jù),其中,所述原始專利數(shù)據(jù)排除人工干預(yù)的內(nèi)容;
在第二步驟(S2)中,機(jī)器學(xué)習(xí)每一篇所述原始專利數(shù)據(jù)并生成基于機(jī)器理解的特征文件;
在第三步驟(S3)中,每一篇所述原始專利數(shù)據(jù)對(duì)應(yīng)唯一的所述特征文件,基于所述特征文件對(duì)原始專利數(shù)據(jù)歸類;
在第四步驟(S4)中,建立與所述原始專利數(shù)據(jù)對(duì)應(yīng)的專利數(shù)據(jù)庫,其中,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),基于對(duì)所述專利數(shù)據(jù)庫中的所述特征文件數(shù)據(jù)處理以映射對(duì)應(yīng)的原始專利數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第二步驟(S2)中,所述機(jī)器學(xué)習(xí)包括詞頻統(tǒng)計(jì)、文檔結(jié)構(gòu)與類型統(tǒng)計(jì)、時(shí)間統(tǒng)計(jì)和/或關(guān)聯(lián)統(tǒng)計(jì)。
3.根據(jù)權(quán)利要求2所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第二步驟(S2)中,所述詞頻統(tǒng)計(jì)包括對(duì)所述原始專利數(shù)據(jù)的詞素頻率統(tǒng)計(jì)和/或常見詞統(tǒng)計(jì),所述特征文件包括詞素頻次和/或常見詞頻次。
4.根據(jù)權(quán)利要求3所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第四步驟(S4)中,對(duì)所述特征文件數(shù)據(jù)處理時(shí),對(duì)詞素頻率統(tǒng)計(jì)和常見詞統(tǒng)計(jì)進(jìn)行優(yōu)先級(jí)選擇。
5.根據(jù)權(quán)利要求3所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第二步驟(S2)中,通過機(jī)器學(xué)習(xí)判斷是否存在若干詞素或者常見詞的重復(fù)的關(guān)聯(lián)情形以進(jìn)行關(guān)聯(lián)統(tǒng)計(jì)。
6.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第四步驟(S4)中,所述特征文件的數(shù)據(jù)處理基于數(shù)據(jù)處理時(shí)間采用分級(jí)策略或者基于相關(guān)度建立查找表。
7.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第一步驟(S1)中,所述原始專利數(shù)據(jù)包括流程變更數(shù)據(jù)和費(fèi)用繳納數(shù)據(jù),所述人工干預(yù)的內(nèi)容為分類號(hào);
在第二步驟(S2)中,所述文檔結(jié)構(gòu)與類型統(tǒng)計(jì)包括換行統(tǒng)計(jì)、空格統(tǒng)計(jì)、標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)和/或特殊符號(hào)集統(tǒng)計(jì),所述特殊符號(hào)集包括公式、圖標(biāo)和/或基因序列等,所述特征文件包括換行頻次、空格頻次、標(biāo)點(diǎn)符號(hào)頻次和/或特殊符號(hào)集頻次。
8.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,其特征在于:
在第二步驟(S2)中,所述關(guān)聯(lián)統(tǒng)計(jì)包括對(duì)經(jīng)由若干同族申請(qǐng)數(shù)據(jù)建立的關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)。
9.一種實(shí)施根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的處理系統(tǒng),所述處理系統(tǒng)包括存儲(chǔ)原始專利數(shù)據(jù)的存儲(chǔ)模塊(1)和機(jī)器學(xué)習(xí)所述原始專利數(shù)據(jù)的處理器(2),其特征在于:所述處理器(2)包括用于提取詞素、常見詞、換行、空格和/或標(biāo)點(diǎn)符號(hào)的提取模塊(3)、用于機(jī)器學(xué)習(xí)原始專利數(shù)據(jù)的機(jī)器學(xué)習(xí)模塊(4)、用于分類的分類器(5)和用于篩選排序的處理模塊(6),連接提取模塊(3)的所述機(jī)器學(xué)習(xí)模塊(4)生成特征文件,所述分類器(5)基于所述特征文件對(duì)所述原始專利數(shù)據(jù)分類,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),所述處理模塊(6)處理所述特征文件且映射對(duì)應(yīng)的原始專利數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的處理系統(tǒng),其特征在于:所述機(jī)器學(xué)習(xí)模塊(4)包括用于關(guān)聯(lián)分析的關(guān)聯(lián)模塊(7)。