一種專利信息管理的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明主要涉及一種專利信息管理的方法,尤其是通過專利公告公布網(wǎng)站的頁面信息抓取、分析、整理和建檔的方法。
【背景技術(shù)】
[0002]目前,知識產(chǎn)權(quán)的信息獲取大多基于通過相關(guān)部門所公開的數(shù)據(jù)接口來實(shí)現(xiàn)知識產(chǎn)權(quán)信息的同步,或者通過復(fù)雜的運(yùn)算與抓取而獲得信息量較少的信息。此方法對于經(jīng)常性的、大數(shù)據(jù)的企業(yè)知識產(chǎn)權(quán)的信息獲取顯得難以勝任,并且應(yīng)用成本高,風(fēng)險(xiǎn)大,不利于中小中介服務(wù)機(jī)構(gòu)推廣應(yīng)用。
[0003]專利公告的信息,尤其是建立企業(yè)研發(fā)信用體系,更顯得非常重要,同時(shí)也是中介服務(wù)機(jī)構(gòu)提尚自身服務(wù)質(zhì)量的有力支持。
【發(fā)明內(nèi)容】
[0004]為了解決上述問題,本發(fā)明提出了一種基于專利公眾公開的登記或變更公告數(shù)據(jù)的頁面級別的通過getHTTPPage方法的抓取技術(shù),再結(jié)合標(biāo)記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過上述信息碼之間的對比,在相應(yīng)程序下生成第三信息碼,然后依對應(yīng)的方法寫入第一知識產(chǎn)權(quán)信息庫和第二知識產(chǎn)權(quán)信息庫,以備不同的場合使用的一種專利信息管理的方法。
[0005]—種專利信息管理的方法,其主要包含以下步驟:
步驟S102,在企業(yè)信息庫中讀出企業(yè)名稱的待查數(shù)據(jù);
步驟S103,將步驟S102所讀出的企業(yè)名稱通過函數(shù)轉(zhuǎn)為UTF8編碼方式進(jìn)行數(shù)據(jù)編碼;
步驟S104,在步驟S103生成的對應(yīng)編碼方式的數(shù)據(jù)后,通過URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,并輸出為第一變量;
步驟S105,以上述第一變量作為對應(yīng)的URL的對應(yīng)參數(shù)值生成第一 URL ;
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一 URL,獲得第一 URL對應(yīng)的頁面的HTML格式的數(shù)據(jù)源碼供步驟S107進(jìn)行標(biāo)記截??;
步驟S107,通過S106獲得的HTML格式的數(shù)據(jù)源碼,通過以“〈title〉”標(biāo)記開始和“〈/title〉”標(biāo)記結(jié)束生成第一信息碼;通過如下標(biāo)記截取生成第二信息碼:開始標(biāo)記為“ sop-totalCount ”,結(jié)束標(biāo)記為 “ </span〉] ” ;
當(dāng)?shù)谝恍畔⒋a的值為空時(shí),返回S102步驟,同時(shí)檢查網(wǎng)絡(luò)是否正常;當(dāng)?shù)诙畔⒋a為空時(shí),跳過步驟S108和S109,并設(shè)置第三信息碼的值為“0” ;當(dāng)?shù)诙畔⒋a不為空時(shí),執(zhí)行步驟S108 ;
步驟S108,生成第三信息碼:第二信息碼不為空時(shí),第三信息碼通過第二信息碼去雜質(zhì)后剩下數(shù)字獲得;
步驟S109,當(dāng)?shù)诙畔⒋a不為空時(shí),將第一信息碼、第二信息碼和第三信息碼的信息,以及相應(yīng)的輔助數(shù)據(jù)對應(yīng)存貯在擁有專利申請的企業(yè)信息庫中;
將所有數(shù)據(jù)執(zhí)行步驟S110存入專利企業(yè)信息總表,同時(shí)返回步驟S101將已經(jīng)成功檢索的記錄的進(jìn)行已執(zhí)行的標(biāo)記然后,返回步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
[0006]執(zhí)行步驟S102前執(zhí)行步驟S101進(jìn)行企業(yè)信息查詢中,進(jìn)行企業(yè)類型、企業(yè)名稱、企業(yè)成立時(shí)間、企業(yè)注冊資金和企業(yè)注冊地址的一種條件或者多個(gè)條件組合檢索篩選出所需要檢索的數(shù)據(jù)。
[0007]其特征包括,所述的步驟S110還可以通過將數(shù)據(jù)存貯在步驟S101所述的企業(yè)信息表對應(yīng)的字段中,同時(shí)將相應(yīng)的執(zhí)行標(biāo)記字段的值標(biāo)記為已執(zhí)行,然后步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
[0008]步驟S109所述的輔助數(shù)據(jù)包括通過步驟S102所讀出的企業(yè)名稱傳遞而獲得企業(yè)名稱,通過步驟S107和步驟S108追加獲取當(dāng)前的系統(tǒng)時(shí)間。
[0009]在執(zhí)行步驟S102前,通過設(shè)置一定數(shù)量的采樣數(shù)據(jù)進(jìn)行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權(quán)類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權(quán)的一定量的企業(yè),采樣走完整個(gè)流程,查看相關(guān)采集是否正常,此步驟確定網(wǎng)絡(luò)是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設(shè)置的數(shù)據(jù)編碼方式是否正確。
[0010]步驟S103所述的編碼方式,當(dāng)官方機(jī)構(gòu)公布的數(shù)據(jù)對應(yīng)的編碼發(fā)生變更時(shí),本方法將根據(jù)實(shí)際所發(fā)生的變化變更編碼方式。
[0011]步驟S104所述的URL中,當(dāng)官方機(jī)構(gòu)公布時(shí)采用的URL進(jìn)行加密發(fā)布時(shí),本方法將根據(jù)實(shí)際情況進(jìn)行數(shù)據(jù)加密編碼。
[0012]步驟S104所述的URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,其加密編碼根據(jù)實(shí)際情況進(jìn)行一次加密、二次和多次加密。
【附圖說明】
[0013]圖1 一種專利信息管理的方法流程圖。
【具體實(shí)施方式】
[0014]—種專利信息管理的方法,其主要包含以下步驟:
步驟S101,進(jìn)行企業(yè)信息查詢中,進(jìn)行企業(yè)類型等條件檢索篩選出所需要檢索的數(shù)據(jù)。
[0015]步驟S102,在企業(yè)信息庫中讀出企業(yè)名稱的待查數(shù)據(jù),設(shè)變量為“aa”。
[0016]步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過函數(shù)轉(zhuǎn)為UTF8方式進(jìn)行數(shù)據(jù)編碼。
[0017]其中UTF8編碼的需要在文件頭加入以下代碼段:
〈script language=〃javaScript,, runat=〃Server〃>funct1n ce(str)
{
return encodeURIComponent(str)
}
</script)〈head〉
<meta http-equiv=〃Content_Type〃 content=〃text/html; charset=UTF8〃>
<meta http-equiv=〃Content_Language〃 content=〃zh_cn〃>
步驟S104,在步驟S103生成的對應(yīng)編碼方式的數(shù)據(jù)后,通過URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,并輸出為第一變量,其中軟件著作權(quán)公告信息中,第一變量為明文,不進(jìn)行加密WRLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,其加密編碼根據(jù)實(shí)際情況進(jìn)行一次加密、二次和多次加密,其中一次加密的bb=ce (〃〃&aa&〃〃),兩次加密的方式為cc= ce (〃〃&bb&〃〃),多次加密的方法類似。
[0018]步驟S105,以上述第一變量作為對應(yīng)的URL的對應(yīng)參數(shù)值生成第一 URL,使用ASP開發(fā)語言表達(dá)如下:第一變量假設(shè)為cname,專利公告發(fā)布網(wǎng)站假設(shè)為www.abcde.com:
http://ww