本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,特別是涉及一種基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法及其處理系統(tǒng)。
背景技術(shù):
當(dāng)前,創(chuàng)新成為中國(guó)經(jīng)濟(jì)轉(zhuǎn)型的主要要素,而專利制度是創(chuàng)新轉(zhuǎn)型的重要組成部分。專利制度的一大好處,就是能夠通過(guò)按照有規(guī)律揭示的方式,將人類文明中與技術(shù)有關(guān)的文件呈獻(xiàn)給所有人,理論上如果能夠有效運(yùn)轉(zhuǎn)這個(gè)制度,就可以使得技術(shù)的演進(jìn)基本不存在任何重復(fù)勞動(dòng),讓技術(shù)一個(gè)一個(gè)腳步的穩(wěn)定前進(jìn)。然而,即使專利數(shù)據(jù)已經(jīng)是一種很有規(guī)律的文體要求的方式出現(xiàn),但是當(dāng)專利數(shù)據(jù)的量級(jí)大到一定程度的時(shí)候,提供數(shù)據(jù)完備性反而變得不重要,如何能夠讓需要的數(shù)據(jù)呈現(xiàn)到需要的人眼前變成了更重要的問(wèn)題。
當(dāng)前解決這個(gè)問(wèn)題的辦法,雖然使用了計(jì)算機(jī)進(jìn)行數(shù)據(jù)整理,但是總體而言,計(jì)算機(jī)只是一種數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算的手段,實(shí)際上對(duì)這些數(shù)據(jù)進(jìn)行分類和篩選,主要還是要依據(jù)人為參與。這種專利數(shù)據(jù)的歸集整理也誕生了一個(gè)行業(yè),就是專利數(shù)據(jù)分析?,F(xiàn)有的專利數(shù)據(jù)分析行業(yè),基本是從自然語(yǔ)言處理和語(yǔ)義分析等角度出發(fā),最主要的數(shù)據(jù)處理方式是基于若干種大方向,包括:分類號(hào)篩選、關(guān)鍵詞同義詞篩選、語(yǔ)義分析、語(yǔ)素關(guān)聯(lián)關(guān)系分析等角度去篩選和處理。也有很多號(hào)稱是使用了大數(shù)據(jù)方式來(lái)處理專利數(shù)據(jù)的專利數(shù)據(jù)供應(yīng)商,但是一個(gè)核心的問(wèn)題是,由于這些專利數(shù)據(jù)處理辦法都是基于分類號(hào)、關(guān)鍵詞、同義詞、同族申請(qǐng)等這樣的關(guān)系來(lái)搭建的,那么就很難回應(yīng)一個(gè)問(wèn)題。如果這些分類號(hào)、關(guān)鍵詞、同義詞本身就存在由于人為參與造成的偏差,如何能夠確保得到一個(gè)可靠的數(shù)據(jù)處理結(jié)果。
此外,由于數(shù)據(jù)的處理必須要基于有經(jīng)驗(yàn)的工作人員的智力投入,那么無(wú)論是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí)對(duì)數(shù)據(jù)庫(kù)的優(yōu)化,還是對(duì)某個(gè)特定數(shù)據(jù)搜索目標(biāo)進(jìn)行搜尋的時(shí)候,這些工作都需要有經(jīng)驗(yàn)的工作人員的人工干預(yù)。前者典型的例子,就是專利數(shù)據(jù)的人工分類,無(wú)論國(guó)際分類號(hào)還是區(qū)域分類號(hào)(日本、歐洲、美國(guó)等區(qū)域范圍內(nèi)的分類)。后者典型的例子,就是在實(shí)施一項(xiàng)專利創(chuàng)造性檢索的時(shí)候,需要由有經(jīng)驗(yàn)的人員來(lái)首先分析目標(biāo),篩選關(guān)鍵詞、同義詞,并且根據(jù)結(jié)果對(duì)關(guān)鍵詞進(jìn)行進(jìn)一步調(diào)整等步驟。這就導(dǎo)致了專利數(shù)據(jù)的處理受限于人力投入,存在數(shù)據(jù)處理能力的瓶頸,難以充分發(fā)揮電腦計(jì)算能力的優(yōu)勢(shì)。
最后,由于上述專利數(shù)據(jù)的處理,無(wú)論是在數(shù)據(jù)預(yù)處理階段還是在數(shù)據(jù)應(yīng)用階段,都需要人工干預(yù),也就意味著,不同的人就一定會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)不同的處理結(jié)果,并且不同的人所實(shí)施的工作相互之間也并不存在任何明顯的關(guān)聯(lián)和幫助,并不能充分發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì)。
事實(shí)上,由于專利數(shù)據(jù)庫(kù)經(jīng)過(guò)長(zhǎng)年發(fā)展,這個(gè)技術(shù)領(lǐng)域基本成為一項(xiàng)高投入、低競(jìng)爭(zhēng)的行業(yè),所以現(xiàn)有的大型專利數(shù)據(jù)庫(kù)開發(fā)公司傾向于充分利用自身多年發(fā)展中整理下來(lái)得到的現(xiàn)有數(shù)據(jù)庫(kù),所以這些主體寧愿投入大量人力、物力、財(cái)力去完善已有數(shù)據(jù),但是難以從自身角度出發(fā)革命性的改變專利數(shù)據(jù)的處理方式。同時(shí),專利數(shù)據(jù)庫(kù)的使用方,一則是通常沒(méi)有能力對(duì)專利基礎(chǔ)數(shù)據(jù)在數(shù)據(jù)處理方式上進(jìn)行革命性的改變,另外則是專利數(shù)據(jù)庫(kù)的使用方往往傾向于培養(yǎng)自己的專業(yè)團(tuán)隊(duì),利用專利數(shù)據(jù)庫(kù)為技術(shù)開發(fā)人員進(jìn)行服務(wù),所以為了凸顯專業(yè)服務(wù)團(tuán)隊(duì)的服務(wù)水平和能力,反而有意無(wú)意的會(huì)為專利數(shù)據(jù)庫(kù)的使用搭建使用門檻,強(qiáng)調(diào)專利數(shù)據(jù)庫(kù)并不是任何人都能很好使用的工具,需要有經(jīng)驗(yàn)、有專業(yè)水平的人才能很好的使用,得到最佳結(jié)果。
換句話說(shuō),專利數(shù)據(jù)處理這個(gè)技術(shù)領(lǐng)域自身不存在改進(jìn)的動(dòng)力,讓專利數(shù)據(jù)處理擺脫所謂有經(jīng)驗(yàn)的人的限制,成為一種普通人無(wú)需培訓(xùn)就能使用的技術(shù)。
參考機(jī)器翻譯的發(fā)展歷史可知,最早人們認(rèn)為用機(jī)器來(lái)完成翻譯任務(wù)的最直接的解決方式,就是訓(xùn)練機(jī)器學(xué)會(huì)理解人的一種語(yǔ)言,然后借助機(jī)器永不疲倦的工作能力,從一種語(yǔ)言出發(fā),學(xué)會(huì)所有語(yǔ)言,最終讓機(jī)器作為中介完成不同語(yǔ)種的互譯。通俗的說(shuō),機(jī)器就好像是一個(gè)同傳翻譯,只是這個(gè)同傳翻譯現(xiàn)在的情況,詞匯量是無(wú)限的,但是理解能力始終有問(wèn)題。然而后來(lái),谷歌翻譯充分利用網(wǎng)絡(luò)時(shí)代產(chǎn)生的大數(shù)據(jù),提出了一種新的思路,就是機(jī)器完全不需要讀懂和理解人的語(yǔ)言,機(jī)器作為一個(gè)翻譯者,只要知道A語(yǔ)言應(yīng)該對(duì)應(yīng)B語(yǔ)言即可,換句話說(shuō),機(jī)器這個(gè)翻譯者其實(shí)不是一個(gè)同傳翻譯,他雖然把一種語(yǔ)言變成了另一種語(yǔ)言,但是其實(shí)他也不知道這兩句話到底什么意思,他只是通過(guò)大量數(shù)據(jù)量的訓(xùn)練得知,就應(yīng)該這么轉(zhuǎn)換。由于可參考數(shù)據(jù)量的足夠多,谷歌翻譯采用機(jī)器翻譯的這種思路所實(shí)現(xiàn)的翻譯效果,開始逐漸明顯超越了原有,基于自然語(yǔ)言的翻譯方案。換句話說(shuō),讓機(jī)器按照機(jī)器的思路去解決問(wèn)題,不要強(qiáng)求機(jī)器按照人的想法去思考問(wèn)題,從而解放了機(jī)器的信息處理能力,充分發(fā)揮了機(jī)器的信息處理特點(diǎn)。這就是基于數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用方式,并且也成為了當(dāng)前人工智能的發(fā)展熱點(diǎn)。
具體到專利數(shù)據(jù)處理而言,本申請(qǐng)發(fā)明人注意到,由于當(dāng)下的專利數(shù)據(jù)庫(kù)本身存在積累了幾十年甚至上百年的人工分類成果,各國(guó)各組織都投入了大量精力去對(duì)已有專利數(shù)據(jù)進(jìn)行了深加工。所以目前的專利數(shù)據(jù)庫(kù)應(yīng)用方法和處理方法都是集中于對(duì)這些數(shù)據(jù)的精度重新整理,比如進(jìn)行分類號(hào)優(yōu)化、進(jìn)行關(guān)鍵檢索詞的梳理、建立同義詞庫(kù)、建立多國(guó)申請(qǐng)文件管理、進(jìn)行專利申請(qǐng)文件的權(quán)重分析和梳理等。但是歸根結(jié)底,當(dāng)前專利數(shù)據(jù)庫(kù)開發(fā)者們,還是囿于已有的知識(shí)結(jié)構(gòu),不能革命性的改變數(shù)據(jù)使用的思路,導(dǎo)致專利數(shù)據(jù)的開發(fā)利用目前基本處于停滯階段。雖然不同的專利數(shù)據(jù)開發(fā)商都聲稱自己掌握了獨(dú)特的、經(jīng)過(guò)優(yōu)化的專利數(shù)據(jù)庫(kù),但是實(shí)際上這些專利數(shù)據(jù)庫(kù)的所謂優(yōu)化,還是由不同的專利數(shù)據(jù)開發(fā)商基于自身的技術(shù)人員團(tuán)隊(duì)的能力所實(shí)施的,這種優(yōu)化完全依賴于這些技術(shù)人員的人為干預(yù),其效果如何其實(shí)難以判斷。
專利文獻(xiàn)CN101334784 A公開的一種計(jì)算機(jī)輔助報(bào)告與知識(shí)庫(kù)產(chǎn)生方法包括如下步驟:1.1)、服務(wù)器端系統(tǒng)接收用戶搜索信息的請(qǐng)求,在互聯(lián)網(wǎng)及第三方數(shù)據(jù)庫(kù)中搜索與用戶搜索需求匹配的所有結(jié)構(gòu)化及非結(jié)構(gòu)化網(wǎng)頁(yè)和網(wǎng)站,并將搜索的結(jié)果分類、去重、整理后返回給用戶的客戶端數(shù)字終端系統(tǒng);1.2)、服務(wù)器端系統(tǒng)記錄用戶的搜索行為、主動(dòng)監(jiān)測(cè)信息源的更新情況并實(shí)時(shí)捕捉、歸類更新的信息,在用戶登錄時(shí)提醒用戶信息源的更新情況,同時(shí)對(duì)用戶郵箱發(fā)出提醒郵件;1.3)、用戶在搜索得到的結(jié)果中挑選需要的信息采集到系統(tǒng)中,系統(tǒng)利用知識(shí)挖掘方法,生成報(bào)告并導(dǎo)出文件;1.4)、服務(wù)器端系統(tǒng)對(duì)用戶的行為進(jìn)行機(jī)器學(xué)習(xí),并主動(dòng)發(fā)掘用戶的搜索需求,提示用戶需要搜索的信息點(diǎn)。該專利大大提高了用戶搜索、采集、分類信息的效率,并為企業(yè)的決策部門和管理者提供多種途徑、更便捷的企業(yè)決策工具,但該專利無(wú)法處理海量的專利數(shù)據(jù),特別是找出相識(shí)度高的參考專利。
專利文獻(xiàn)CN103593474 A公開的一種基于深度學(xué)習(xí)的圖像檢索排序方法包括以下步驟:步驟1,提取查詢對(duì)象和訓(xùn)練數(shù)據(jù)庫(kù)中所有圖像的底層特征;步驟2,對(duì)于所述步驟1提取得到的查詢對(duì)象和訓(xùn)練數(shù)據(jù)庫(kù)中所有圖像的底層特征,通過(guò)深度網(wǎng)絡(luò)進(jìn)行高層語(yǔ)義學(xué)習(xí)和特征融合,得到查詢對(duì)象與訓(xùn)練數(shù)據(jù)庫(kù)中的所有圖像形成的多個(gè)查詢對(duì)象-圖像對(duì)的高層特征,以及所述深度網(wǎng)絡(luò)的初定參數(shù);步驟3,對(duì)于所述查詢對(duì)象-圖像對(duì)的高層特征分別進(jìn)行線性回歸,得到所述查詢對(duì)象-圖像對(duì)的排序分?jǐn)?shù)S(X,Q);步驟4,根據(jù)所述查詢對(duì)象-圖像對(duì)的排序分?jǐn)?shù)得到與所述查詢對(duì)象相關(guān)的所述訓(xùn)練數(shù)據(jù)集中的圖像的排序列表,將該排序列表與所述訓(xùn)練數(shù)據(jù)集中各圖像的真實(shí)的排序列表進(jìn)行比較,得到與所述查詢對(duì)象相關(guān)的圖像對(duì)Xi,Xj的成對(duì)損失值;步驟5,基于所述成對(duì)損失值,對(duì)所述深度網(wǎng)絡(luò)的初定參數(shù)進(jìn)行調(diào)整,得到所述深度網(wǎng)絡(luò)的最終參數(shù);步驟6,對(duì)于新的查詢對(duì)象,按照所述步驟1計(jì)算得到新的查詢對(duì)象的底部特征Q′;步驟7,基于所述新的查詢對(duì)象的底部特征Q′,利用所述步驟5得到新的查詢對(duì)象對(duì)應(yīng)的所述深度網(wǎng)絡(luò),在測(cè)試數(shù)據(jù)集中進(jìn)行搜索,得到與所述新的查詢對(duì)象相關(guān)的圖像列表。該專利可以對(duì)返回的圖像序列進(jìn)行排序,但該專利的圖像處理方法不適用于專利數(shù)據(jù)的文檔處理,特別是找出相識(shí)度高的參考專利。
專利文獻(xiàn)CN101290626 A公開的一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法按以下步驟進(jìn)行:(1)收集領(lǐng)域文本和非領(lǐng)域文本作為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料;(2)文本的預(yù)處理:分詞,去除停用詞,詞頻統(tǒng)計(jì),文檔頻率統(tǒng)計(jì);首先對(duì)文本進(jìn)行中文分詞處理,采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn),并在此基礎(chǔ)上借助于領(lǐng)域詞庫(kù),進(jìn)行領(lǐng)域詞分詞處理,并進(jìn)行領(lǐng)域詞標(biāo)識(shí),文本分詞完成后,去掉文本中經(jīng)常出現(xiàn)的“了”、“呢”、“的”、“怎樣”等停用詞,然后掃描文檔,統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率;(3)去掉DF值小于一定閾值的詞選取分類特征空間,并采用TFIDF方法進(jìn)行特征權(quán)重計(jì)算;在文本預(yù)處理完成后,初步利用文檔頻率去掉低頻詞,選取1000個(gè)特征詞,構(gòu)成分類特征空間;特征詞的權(quán)重計(jì)算采用改進(jìn)TFIDF=TF×log(m÷(m+k)×N)方法,其中TF表示某一特征項(xiàng)的詞頻,m表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,k表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率,N表示全部文檔數(shù);(4)在步驟(3)的基礎(chǔ)上選取特征空間并擴(kuò)展領(lǐng)域術(shù)語(yǔ)到特征空間,形成分類特征空間并采用改進(jìn)TFIDF方法進(jìn)行特征權(quán)重計(jì)算;即將領(lǐng)域詞庫(kù)中出現(xiàn)的所有領(lǐng)域術(shù)語(yǔ)直接擴(kuò)展到分類特征空間中;(5)在步驟(3)的基礎(chǔ)上選取分類特征空間,并利用改進(jìn)TFIDF方法結(jié)合領(lǐng)域知識(shí)關(guān)系對(duì)特征權(quán)重進(jìn)行計(jì)算和調(diào)整;即通過(guò)DF方法獲取特征空間后,利用“知網(wǎng)”中領(lǐng)域術(shù)語(yǔ)與特征詞之間的相關(guān)性對(duì)特征詞權(quán)重進(jìn)行調(diào)整,在有限的特征空間內(nèi)對(duì)特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果;(6)利用不同特征空間選擇及特征權(quán)重計(jì)算方法,用SVM機(jī)器學(xué)習(xí)算法,訓(xùn)練文本分類器,構(gòu)建領(lǐng)域文本分類模型,并對(duì)領(lǐng)域文本進(jìn)行文本分類實(shí)驗(yàn)驗(yàn)證。該專利進(jìn)行文本分類的準(zhǔn)確率比改進(jìn)TFIDF方法提高4個(gè)百分點(diǎn)。但該專利無(wú)法對(duì)詞素進(jìn)行統(tǒng)計(jì)以及針對(duì)專利數(shù)據(jù)中章節(jié)結(jié)構(gòu)進(jìn)行深度學(xué)習(xí)。
現(xiàn)有專利數(shù)據(jù)處理方法中,用以對(duì)專利數(shù)據(jù)進(jìn)行整理的關(guān)鍵信息比如:分類號(hào)、關(guān)鍵詞等數(shù)據(jù)是由人為參與,對(duì)原始專利文件數(shù)據(jù)進(jìn)行閱讀和理解得出的,這種基于主觀上可能存在閱讀差異的工作方式,必然導(dǎo)致專利數(shù)據(jù)的最終準(zhǔn)確性受到干擾。當(dāng)前無(wú)論后期專利數(shù)據(jù)庫(kù)整理時(shí),如何通過(guò)各種算法去優(yōu)化、篩選專利數(shù)據(jù),但是這些算法都是基于分類號(hào)、關(guān)鍵詞的經(jīng)驗(yàn)公式算法,既然基礎(chǔ)都可能存在問(wèn)題,那么現(xiàn)在各種專利數(shù)據(jù)庫(kù)公司提出的各種算法,無(wú)論是關(guān)聯(lián)分析還是語(yǔ)義分析,都存在準(zhǔn)確率上的瓶頸。
在背景技術(shù)部分中公開的上述信息僅僅用于增強(qiáng)對(duì)本發(fā)明背景的理解,因此可能包含不構(gòu)成在本國(guó)中本領(lǐng)域普通技術(shù)人員公知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)注意到上述問(wèn)題,提出一種完全不依賴人工干預(yù)的專利數(shù)據(jù)處理方法及其處理系統(tǒng),所謂完全不依賴人工干預(yù)是指,在這種專利數(shù)據(jù)處理方法中,不僅在數(shù)據(jù)預(yù)處理階段,完全不采用可能存在干擾的人為指定分類號(hào)信息、關(guān)鍵詞優(yōu)化信息;而且在數(shù)據(jù)使用階段,也可能完全不需要由特定人去歸納關(guān)鍵詞信息。
本發(fā)明的目的是通過(guò)以下技術(shù)方案予以實(shí)現(xiàn)。
根據(jù)本發(fā)明的一方面,一種基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法包括以下步驟。
在第一步驟中,確定用于機(jī)器學(xué)習(xí)的原始專利數(shù)據(jù),其中,所述原始專利數(shù)據(jù)排除人工干預(yù)的內(nèi)容。
在第二步驟中,機(jī)器學(xué)習(xí)每一篇所述原始專利數(shù)據(jù)并生成基于機(jī)器理解的特征文件。
在第三步驟中,每一篇所述原始專利數(shù)據(jù)對(duì)應(yīng)唯一的所述特征文件,基于所述特征文件對(duì)原始專利數(shù)據(jù)歸類。
在第四步驟中,建立與所述原始專利數(shù)據(jù)對(duì)應(yīng)的專利數(shù)據(jù)庫(kù),其中,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),基于對(duì)所述專利數(shù)據(jù)庫(kù)中的所述特征文件數(shù)據(jù)處理以映射對(duì)應(yīng)的原始專利數(shù)據(jù)。
本申請(qǐng)中的原始專利數(shù)據(jù)是指由專利申請(qǐng)人原始提交的文獻(xiàn)數(shù)據(jù)以及該專利申請(qǐng)?jiān)谡麄€(gè)生命周期中按照工作流程,不受人為主觀因素干擾而自然形成的客觀數(shù)據(jù)。典型的包括:原始專利申請(qǐng)文本的內(nèi)容和歷次審查意見和答復(fù)意見、修改文本的客觀內(nèi)容,還可以包括:專利申請(qǐng)?jiān)谏芷谥薪?jīng)歷的各種流程管理程序的內(nèi)容與時(shí)間節(jié)點(diǎn)等客觀數(shù)據(jù)。而人工干預(yù)內(nèi)容是指處于提升原始專利數(shù)據(jù)的處理和使用效率目的,由不特定人針對(duì)海量專利數(shù)據(jù)進(jìn)行各種人工方式的分類和數(shù)據(jù)優(yōu)化,包括但不限于:人工進(jìn)行分類并賦予分類號(hào)的工作,人為設(shè)定同義詞庫(kù)優(yōu)化檢索的工作;人為定義專利文獻(xiàn)的關(guān)鍵檢索詞用于優(yōu)化檢索的工作等等。
在本發(fā)明中,對(duì)所述專利數(shù)據(jù)庫(kù)中的所述特征文件數(shù)據(jù)處理至少包括對(duì)特征文件進(jìn)行比較、篩選和/或排序以找到如相似度高的特征文件作為目標(biāo)文件,該目標(biāo)文件映射的原始專利數(shù)據(jù)則是最終獲得的專利文獻(xiàn)。
優(yōu)選地,在第二步驟中,所述機(jī)器學(xué)習(xí)包括詞頻統(tǒng)計(jì)、文檔結(jié)構(gòu)與類型統(tǒng)計(jì)、時(shí)間統(tǒng)計(jì)和/或關(guān)聯(lián)統(tǒng)計(jì)。
優(yōu)選地,在第二步驟中,所述詞頻統(tǒng)計(jì)包括對(duì)所述原始專利數(shù)據(jù)的詞素頻率統(tǒng)計(jì)和/或常見詞統(tǒng)計(jì),所述特征文件包括詞素頻次和/或常見詞頻次。
優(yōu)選地,在第四步驟中,對(duì)所述特征文件數(shù)據(jù)處理時(shí),對(duì)詞素頻率統(tǒng)計(jì)和常見詞統(tǒng)計(jì)進(jìn)行優(yōu)先級(jí)選擇。
優(yōu)選地,在第二步驟中,所述文檔結(jié)構(gòu)與類型統(tǒng)計(jì)包括換行統(tǒng)計(jì)、空格統(tǒng)計(jì)和/或標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì),所述特征文件包括換行頻次、空格頻次和/或標(biāo)點(diǎn)符號(hào)頻次。
優(yōu)選地,在第二步驟中,通過(guò)機(jī)器學(xué)習(xí)判斷是否存在若干詞素或者常見詞的重復(fù)的關(guān)聯(lián)情形以進(jìn)行關(guān)聯(lián)統(tǒng)計(jì)。
優(yōu)選地,在第四步驟中,所述特征文件的數(shù)據(jù)處理基于數(shù)據(jù)處理時(shí)間采用分級(jí)策略或者基于相關(guān)度建立查找表。
優(yōu)選地,在第一步驟中,所述原始專利數(shù)據(jù)包括流程變更數(shù)據(jù)和費(fèi)用繳納數(shù)據(jù),所述人工干預(yù)的內(nèi)容為分類號(hào),
在第二步驟中,所述文檔結(jié)構(gòu)與類型統(tǒng)計(jì)包括換行統(tǒng)計(jì)、空格統(tǒng)計(jì)、標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)和/或特殊符號(hào)集統(tǒng)計(jì),所述特殊符號(hào)集包括公式、圖標(biāo)和/或基因序列等,所述特征文件包括換行頻次、空格頻次、標(biāo)點(diǎn)符號(hào)頻次和/或特殊符號(hào)集頻次。
優(yōu)選地,在第二步驟中,所述關(guān)聯(lián)統(tǒng)計(jì)包括對(duì)經(jīng)由若干同族申請(qǐng)數(shù)據(jù)建立的關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)。
根據(jù)本發(fā)明的另一方面,一種實(shí)施所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的處理系統(tǒng)包括存儲(chǔ)原始專利數(shù)據(jù)的存儲(chǔ)模塊和機(jī)器學(xué)習(xí)所述原始專利數(shù)據(jù)的處理器,所述處理器包括用于提取詞素、常見詞、換行、空格和/或標(biāo)點(diǎn)符號(hào)的提取模塊、用于機(jī)器學(xué)習(xí)原始專利數(shù)據(jù)的機(jī)器學(xué)習(xí)模塊、用于分類的分類器和用于篩選排序的處理模塊,連接提取模塊(3)的所述機(jī)器學(xué)習(xí)模塊(4)生成特征文件,所述分類器(5)基于所述特征文件對(duì)所述原始專利數(shù)據(jù)分類,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),所述處理模塊(6)處理所述特征文件且映射對(duì)應(yīng)的原始專利數(shù)據(jù)。
優(yōu)選地,所述機(jī)器學(xué)習(xí)模塊包括用于關(guān)聯(lián)分析的關(guān)聯(lián)模塊。
本申請(qǐng)的優(yōu)勢(shì)在于:
首先,本申請(qǐng)發(fā)明人提出的這種專利數(shù)據(jù)處理方法,完全基于有客觀規(guī)律專利原始文件數(shù)據(jù)進(jìn)行客觀的數(shù)據(jù)分析和分類整合,在使用這些經(jīng)過(guò)整理的專利數(shù)據(jù)時(shí),也不需要特定人參與,完全排除了人工干預(yù)可能導(dǎo)致的數(shù)據(jù)不穩(wěn)定或者數(shù)據(jù)污染。換句話說(shuō),本申請(qǐng)?zhí)岢龅膶@麛?shù)據(jù)處理方法,基本刷新了現(xiàn)有基于自然語(yǔ)言處理的工作思路,而是純粹從機(jī)器理解數(shù)據(jù)的角度去出發(fā)。本申請(qǐng)發(fā)明人認(rèn)為,用機(jī)器去讀取和分析專利數(shù)據(jù)的時(shí)候,機(jī)器不需要按照人的思維方式去讀懂這些專利數(shù)據(jù),機(jī)器只需要按照機(jī)器的方式來(lái)對(duì)這些專利數(shù)據(jù)進(jìn)行歸類,然后在使用者需要的時(shí)候,把結(jié)果提供給使用者即可。
其次,本申請(qǐng)發(fā)明人提出的這種專利數(shù)據(jù)處理方法,基于海量的有規(guī)律的專利文獻(xiàn)來(lái)建立數(shù)據(jù)關(guān)聯(lián),由于專利文獻(xiàn)本身的特點(diǎn),其規(guī)律性較強(qiáng),所以基于當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì)思路,隨著本申請(qǐng)專利數(shù)據(jù)處理方法所處理的專利數(shù)據(jù)越多,那么本申請(qǐng)專利數(shù)據(jù)處理方法得到的結(jié)論就越準(zhǔn)確,相較于傳統(tǒng)專利數(shù)據(jù)處理方法可能因?yàn)槿斯じ深A(yù)而導(dǎo)致數(shù)據(jù)準(zhǔn)確性存在難以逾越的天花板而言,本申請(qǐng)的專利數(shù)據(jù)處理方法所處理的專利數(shù)據(jù),處理的越多越準(zhǔn)確。
最后,本申請(qǐng)的專利數(shù)據(jù)處理方法,由于不需要人工干預(yù)就能完成,所以在數(shù)據(jù)應(yīng)用的效率和便捷性上,都擺脫了人力的束縛。對(duì)于普通人來(lái)說(shuō)就能很好的使用該專利數(shù)據(jù),同時(shí),對(duì)于有經(jīng)驗(yàn)的專業(yè)人士而言,也可以將該專利數(shù)據(jù)作為初篩結(jié)果,來(lái)進(jìn)行進(jìn)一步分析。換句話說(shuō),在本申請(qǐng)的專利數(shù)據(jù)處理方法雖然從底層開始就不同于現(xiàn)有的專利數(shù)據(jù)處理方法,但是同樣也可以兼容現(xiàn)有專利數(shù)據(jù)處理方法的成果。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠使得本發(fā)明的技術(shù)手段更加清楚明白,達(dá)到本領(lǐng)域技術(shù)人員可依照說(shuō)明書的內(nèi)容予以實(shí)施的程度,并且為了能夠讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,下面以本發(fā)明的具體實(shí)施方式進(jìn)行舉例說(shuō)明。
附圖說(shuō)明
通過(guò)學(xué)習(xí)下文優(yōu)選的具體實(shí)施方式中的詳細(xì)描述,本發(fā)明各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。說(shuō)明書附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。顯而易見地,下面描述的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。而且在整個(gè)附圖中,用相同的附圖標(biāo)記表示相同的部件。
在附圖中:
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的步驟示意圖;
圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的實(shí)施基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的處理系統(tǒng)的結(jié)構(gòu)示意圖。
以下結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的解釋。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本發(fā)明的具體實(shí)施例。雖然附圖中顯示了本發(fā)明的具體實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本發(fā)明而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本發(fā)明,并且能夠?qū)⒈景l(fā)明的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
需要說(shuō)明的是,在說(shuō)明書及權(quán)利要求當(dāng)中使用了某些詞匯來(lái)指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可以理解,技術(shù)人員可能會(huì)用不同名詞來(lái)稱呼同一個(gè)組件。本說(shuō)明書及權(quán)利要求并不以名詞的差異來(lái)作為區(qū)分組件的方式,而是以組件在功能上的差異來(lái)作為區(qū)分的準(zhǔn)則。如在通篇說(shuō)明書及權(quán)利要求當(dāng)中所提及的“包含”或“包括”為一開放式用語(yǔ),故應(yīng)解釋成“包含但不限定于”。說(shuō)明書后續(xù)描述為實(shí)施本發(fā)明的較佳實(shí)施方式,然所述描述乃以說(shuō)明書的一般原則為目的,并非用以限定本發(fā)明的范圍。本發(fā)明的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
為便于對(duì)本發(fā)明實(shí)施例的理解,下面將結(jié)合附圖以幾個(gè)具體實(shí)施例為例做進(jìn)一步的解釋說(shuō)明,且各個(gè)附圖并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。
圖1為本發(fā)明的一個(gè)實(shí)施例的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的步驟示意圖,本發(fā)明實(shí)施例將結(jié)合圖1進(jìn)行具體說(shuō)明。
如圖1所示,本發(fā)明的一個(gè)實(shí)施例提供了一種基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法,基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法包括以下步驟:
在第一步驟S1中,確定用于機(jī)器學(xué)習(xí)的原始專利數(shù)據(jù),其中,所述原始專利數(shù)據(jù)排除人工干預(yù)的內(nèi)容。
在第二步驟S2中,機(jī)器學(xué)習(xí)每一篇所述原始專利數(shù)據(jù)并生成基于機(jī)器理解的特征文件。
進(jìn)一步地,所述機(jī)器學(xué)習(xí)包括詞頻統(tǒng)計(jì)、文檔結(jié)構(gòu)與類型統(tǒng)計(jì)、時(shí)間統(tǒng)計(jì)和/或關(guān)聯(lián)統(tǒng)計(jì)。
在第三步驟S3中,每一篇所述原始專利數(shù)據(jù)對(duì)應(yīng)唯一的所述特征文件,基于所述特征文件對(duì)原始專利數(shù)據(jù)歸類。
在第四步驟S4中,建立與所述原始專利數(shù)據(jù)對(duì)應(yīng)的專利數(shù)據(jù)庫(kù),其中,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),基于對(duì)所述專利數(shù)據(jù)庫(kù)中的所述特征文件數(shù)據(jù)處理以映射對(duì)應(yīng)的原始專利數(shù)據(jù)。
在本發(fā)明的處理方法中,專利數(shù)據(jù)是一種有規(guī)律的數(shù)據(jù),在某個(gè)區(qū)域內(nèi)使用某種特定語(yǔ)言,并且呈現(xiàn)一定格式和問(wèn)題的規(guī)律。以中國(guó)專利數(shù)據(jù)為例,中國(guó)專利數(shù)據(jù)包括:發(fā)明、實(shí)用新型、外觀設(shè)計(jì)三種類型;發(fā)明名稱、發(fā)明內(nèi)容、具體實(shí)施例、說(shuō)明書附圖……等不同部分;申請(qǐng)日、授權(quán)日……等流程信息。原始專利數(shù)據(jù)是指由專利申請(qǐng)人原始提交的文獻(xiàn)數(shù)據(jù)以及該專利申請(qǐng)?jiān)谡麄€(gè)生命周期中按照工作流程,不受人為主觀因素干擾而自然形成的客觀數(shù)據(jù)。典型的包括:原始專利申請(qǐng)文本的內(nèi)容和歷次審查意見和答復(fù)意見、修改文本的客觀內(nèi)容,還可以包括專利申請(qǐng)?jiān)谏芷谥薪?jīng)歷的各種流程管理程序的內(nèi)容與時(shí)間節(jié)點(diǎn)等客觀數(shù)據(jù)。人工干預(yù)內(nèi)容是指處于提升原始專利數(shù)據(jù)的處理和使用效率目的,由不特定人針對(duì)海量專利數(shù)據(jù)進(jìn)行各種人工方式的分類和數(shù)據(jù)優(yōu)化,包括但不限于:人工進(jìn)行分類并賦予分類號(hào)的工作,人為設(shè)定同義詞庫(kù)優(yōu)化檢索的工作;人為定義專利文獻(xiàn)的關(guān)鍵檢索詞用于優(yōu)化檢索的工作等等。
本發(fā)明是一種完全基于機(jī)器思維的專利數(shù)據(jù)處理方法,所以所述原始專利數(shù)據(jù)排除了人工干預(yù)的內(nèi)容,例如典型的,排除分類號(hào)數(shù)據(jù),分類號(hào)通常是由分類員人工分類,本發(fā)明的處理方法禁用了這些與人工干預(yù)有關(guān)的內(nèi)容,所述原始專利數(shù)據(jù)均是未經(jīng)人工干預(yù)的內(nèi)容。排除所述人工干預(yù)的內(nèi)容并不意味著必須刪除人工干預(yù)的內(nèi)容,而是在本發(fā)明的處理過(guò)程中不采用人工干預(yù)的內(nèi)容。當(dāng)本發(fā)明的處理完成后,如需進(jìn)一步篩選,仍然可以適用人工干預(yù)的內(nèi)容進(jìn)行進(jìn)一步處理。
本發(fā)明的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法純粹基于原始專利文件數(shù)據(jù),進(jìn)行原始數(shù)據(jù)為基礎(chǔ)的深度學(xué)習(xí),對(duì)于比較低的數(shù)據(jù)量而言,這種方式準(zhǔn)確性不夠,但是由于專利數(shù)據(jù)數(shù)量大、文體規(guī)律性強(qiáng),文件針對(duì)性強(qiáng),本申請(qǐng)的專利數(shù)據(jù)處理方法能夠隨著系統(tǒng)“跑數(shù)據(jù)量”的增加,而不斷提高數(shù)據(jù)精度??傊?,本發(fā)明的處理方法直接從機(jī)器的角度去看待和理解專利原始數(shù)據(jù),不考慮自然語(yǔ)言理解與轉(zhuǎn)換分析的問(wèn)題,極大提高了工作效率,排除了人為干擾,并且具有更高的發(fā)展前景。
在一個(gè)實(shí)施例中,首先,確定作為機(jī)器分析的原始數(shù)據(jù)。該原始數(shù)據(jù)要求排除經(jīng)過(guò)人為干預(yù)的內(nèi)容,典型的,排除分類號(hào)數(shù)據(jù)這樣,通常是由審查部門的分類員,根據(jù)閱讀原始申請(qǐng)文件之后的理解結(jié)果所確定的數(shù)據(jù);基于該原始數(shù)據(jù),由電腦實(shí)施機(jī)器閱讀,對(duì)該原始數(shù)據(jù)從機(jī)器角度進(jìn)行理解,包括詞頻統(tǒng)計(jì)、文檔結(jié)構(gòu)與類型統(tǒng)計(jì)、時(shí)間信息統(tǒng)計(jì)、關(guān)聯(lián)詞統(tǒng)計(jì)等等;根據(jù)對(duì)原始數(shù)據(jù)的機(jī)器閱讀結(jié)果,生成了該原始數(shù)據(jù)的機(jī)器理解的特征文件;基于每一篇專利原始數(shù)據(jù)的機(jī)器理解特征文件來(lái)對(duì)這些專利原始數(shù)據(jù)歸類。經(jīng)過(guò)上述處理之后,實(shí)際上機(jī)器理解的特征文件成為了每一篇專利原始數(shù)據(jù)在本申請(qǐng)專利數(shù)據(jù)庫(kù)中的身份特征,每一篇專利原始數(shù)據(jù)對(duì)應(yīng)一個(gè)唯一的機(jī)器理解特征文件。本發(fā)明的專利數(shù)據(jù)處理方法則是基于這些海量的機(jī)器理解特征文件,將其建立成與原始專利數(shù)據(jù)對(duì)應(yīng)的專利數(shù)據(jù)庫(kù)。根據(jù)數(shù)據(jù)使用需要、數(shù)據(jù)使用頻率、數(shù)據(jù)庫(kù)處理每一篇機(jī)器理解特征文件所需要的系統(tǒng)時(shí)間,將這些機(jī)器理解特征文件分成若干的組來(lái)歸納存儲(chǔ)。單獨(dú)的機(jī)器理解特征文件,對(duì)于使用者來(lái)說(shuō),基本沒(méi)有任何意義,因?yàn)檫@些機(jī)器理解特征文件,顧名思義是以機(jī)器能夠理解的方式存在,而并不考慮使用者從人的角度是否能夠看懂。但是當(dāng)使用者提出需求的時(shí)候,機(jī)器能夠基于這些機(jī)器理解特征文件來(lái)猜出使用者的需求所對(duì)應(yīng)的哪篇或者哪部分專利文獻(xiàn)在哪兒,并提供給使用者。
根據(jù)上述思路,按照最易于本領(lǐng)域技術(shù)人員理解的方式,提供一個(gè)實(shí)施例來(lái)幫助將本申請(qǐng)闡述的更明白。為了闡述簡(jiǎn)便,這里采用最簡(jiǎn)便的機(jī)器閱讀方式來(lái)進(jìn)行說(shuō)明。本發(fā)明優(yōu)選的實(shí)施方式中,在第二步驟S2中,所述詞頻統(tǒng)計(jì)包括對(duì)所述原始專利數(shù)據(jù)的詞素頻率統(tǒng)計(jì)和/或常見詞統(tǒng)計(jì),所述特征文件包括詞素頻次和/或常見詞頻次。
詞素是從詞或詞干的直接成分的角度來(lái)確定的音義結(jié)合體,它不一定是最小的音義結(jié)合成分;而詞內(nèi)的語(yǔ)素只從是否最小的音義結(jié)合成分來(lái)確定。假設(shè)機(jī)器閱讀的方式就是單純的詞素頻率統(tǒng)計(jì),經(jīng)過(guò)機(jī)器閱讀后,將當(dāng)前海量專利原始數(shù)據(jù)均處理成了具有對(duì)應(yīng)機(jī)器理解特征文件的專利數(shù)據(jù)庫(kù)。
此時(shí)用戶提出一篇專利申請(qǐng)A,希望系統(tǒng)能夠自動(dòng)提供與該專利申請(qǐng)最相近或者最相關(guān)的參考文獻(xiàn)。那么系統(tǒng)只需要直接按照機(jī)器閱讀的方式去處理專利申請(qǐng)A,并且得到該專利申請(qǐng)A的機(jī)器理解特征文件A1,在本實(shí)施例中,該機(jī)器理解特征文件A1僅使用詞素頻率統(tǒng)計(jì)的方式得到其機(jī)器理解特征包括:的192處、得87處、……、車79處、電240處、……、技88處、……。接下來(lái),系統(tǒng)將與上述機(jī)器理解特征文件A1最為接近的那些機(jī)器理解特征文件所對(duì)應(yīng)專利提供給用戶即可。
僅從上述比對(duì)方式來(lái)看,這樣提供給用戶的專利原始數(shù)據(jù)很可能并非用戶需要的,很可能是不準(zhǔn)確的,但是可以肯定的是,這種方法首先是完全不需要人工干預(yù)的。然而,本申請(qǐng)的上述方法的準(zhǔn)確性,很容易通過(guò)強(qiáng)化機(jī)器閱讀深度的方式來(lái)解決。
下面通過(guò)實(shí)施例來(lái)說(shuō)明上述問(wèn)題。本申請(qǐng)實(shí)施例是在上述實(shí)施例的基礎(chǔ)上,在其機(jī)器閱讀的方式中進(jìn)一步加入了常見詞的詞頻統(tǒng)計(jì)分析。同樣的,系統(tǒng)在進(jìn)行機(jī)器閱讀的時(shí)候,不僅做了詞素頻率統(tǒng)計(jì),還對(duì)中文中常見詞的詞頻進(jìn)行了統(tǒng)計(jì),那么這樣得出的機(jī)器理解特征中,就增加了新的維度,并且形成了新的機(jī)器理解特征,包括:汽車62處、電子35處、無(wú)人駕駛18處、……技術(shù)46處、……。
本發(fā)明優(yōu)選的實(shí)施方式中,在第四步驟S4中,對(duì)所述特征文件數(shù)據(jù)處理時(shí),對(duì)詞素頻率統(tǒng)計(jì)和常見詞統(tǒng)計(jì)進(jìn)行優(yōu)先級(jí)選擇。
系統(tǒng)在進(jìn)行機(jī)器理解特征文件匹配的時(shí)候,對(duì)于詞素統(tǒng)計(jì)的匹配和常用詞統(tǒng)計(jì)的匹配進(jìn)行優(yōu)先級(jí)選擇,比如可以優(yōu)先按照常用詞統(tǒng)計(jì)匹配的結(jié)果來(lái)進(jìn)行比對(duì),其次按照詞素統(tǒng)計(jì)的匹配結(jié)果來(lái)進(jìn)行排序。在進(jìn)行了如上比對(duì)之后,將最為匹配的結(jié)果提供給用戶。此時(shí),本領(lǐng)域技術(shù)人員可以想象,該提供結(jié)果的精度已經(jīng)大大提高。請(qǐng)注意,上述常見詞的篩選中,同樣可以分級(jí)設(shè)置匹配結(jié)果認(rèn)定的優(yōu)先級(jí),比如雖然“技術(shù)”或者“技術(shù)人員”這樣的詞在專利原始文件中,肯定屬于常見詞,但是在實(shí)施匹配的時(shí)候,這樣的常見詞的匹配度的權(quán)重可適度放低。另外,所謂常見詞的選擇,也并不需要人為指定,同樣可以經(jīng)由機(jī)器閱讀訓(xùn)練得到。比如將某一專業(yè)公司在其專業(yè)領(lǐng)域的100件原始專利文件數(shù)據(jù),經(jīng)由機(jī)器閱讀和分析,就能得出在某個(gè)專業(yè)領(lǐng)域的常見詞結(jié)構(gòu)。具體方法,可以讓機(jī)器統(tǒng)計(jì)在同一段落中,先后兩個(gè)字組成的組合,重復(fù)出現(xiàn)的頻率;然后繼續(xù)統(tǒng)計(jì)先后三個(gè)字組成的組合,重復(fù)出現(xiàn)的頻率;對(duì)于明顯出現(xiàn)頻率較高的組合,設(shè)定為常見詞。請(qǐng)注意,在大規(guī)模數(shù)據(jù)訓(xùn)練去確定常見詞的時(shí)候,常見詞的產(chǎn)生結(jié)果,可能并不符合自然語(yǔ)言的習(xí)慣,但是這屬于機(jī)器閱讀理解的合理范疇。比如:在專利文獻(xiàn)中可能頻繁出現(xiàn)“對(duì)本領(lǐng)域技術(shù)人員而言”這樣的字組合,那么經(jīng)過(guò)統(tǒng)計(jì)之后,很可能“對(duì)本”這兩個(gè)字的組合也成為了備選的常用詞。但是,此時(shí)不應(yīng)用人基于自然語(yǔ)言理解的思維方式,來(lái)排除機(jī)器閱讀理解的依據(jù)。某些情況下,機(jī)器閱讀純粹通過(guò)統(tǒng)計(jì)規(guī)律總結(jié)出來(lái)的匹配結(jié)果,可能按照與人的自然理解思路不一致的方式,最終得出了正常需要的結(jié)果。
本發(fā)明優(yōu)選的實(shí)施方式中,在第二步驟S2中,所述文檔結(jié)構(gòu)與類型統(tǒng)計(jì)包括換行統(tǒng)計(jì)、空格統(tǒng)計(jì)、標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)和/或特殊符號(hào)集統(tǒng)計(jì),所述特殊符號(hào)集包括公式、圖標(biāo)和/或基因序列等,所述特征文件包括換行頻次、空格頻次、標(biāo)點(diǎn)符號(hào)頻次和/或特殊符號(hào)集頻次。下面進(jìn)一步說(shuō)明機(jī)器閱讀理解的其他維度和優(yōu)勢(shì)。實(shí)施例中,機(jī)器閱讀理解的實(shí)施方式還可以進(jìn)一步包括由換行、空格、標(biāo)點(diǎn)符號(hào)、特殊符號(hào)計(jì)算公式等所確定的文檔結(jié)構(gòu)、章節(jié)關(guān)系等。如果放到人的自然語(yǔ)言理解的范疇下,標(biāo)點(diǎn)符號(hào)反應(yīng)的是段落章節(jié)關(guān)系、計(jì)算公式的出現(xiàn)反映了該方案是否更偏向工程還是算法,都代表了某一個(gè)特定專利文獻(xiàn)的特性,但是往往是不可分析的。但是對(duì)于機(jī)器理解閱讀而言,只要從機(jī)器理解角度出發(fā),這些維度也同樣是具備價(jià)值的。標(biāo)點(diǎn)符號(hào)的統(tǒng)計(jì)數(shù)量或者標(biāo)點(diǎn)符號(hào)與專利原始文字的比較數(shù)量,也可以稱為機(jī)器理解特征文件的一部分,從而反映出專利原始數(shù)據(jù)的特性。
本發(fā)明優(yōu)選的實(shí)施方式中,在第二步驟S2中,通過(guò)機(jī)器學(xué)習(xí)判斷是否存在若干詞素或者常見詞的重復(fù)的關(guān)聯(lián)情形以進(jìn)行關(guān)聯(lián)統(tǒng)計(jì)。下面通過(guò)實(shí)施例來(lái)說(shuō)明機(jī)器閱讀理解專利原始數(shù)據(jù)的N元關(guān)聯(lián)模型問(wèn)題。上述各個(gè)實(shí)施例提出了分別依據(jù)詞素、常見詞、標(biāo)點(diǎn)符號(hào)、特殊符號(hào)計(jì)算公式等維度,來(lái)建立機(jī)器理解特征文件的方案。實(shí)際上還可以結(jié)合這些不同維度,來(lái)建立機(jī)器理解特征文件。比如,先通過(guò)標(biāo)點(diǎn)符號(hào)、換號(hào)符號(hào)等確定一些文字組合的邊界,換成自然語(yǔ)言理解的話,其實(shí)就是可以判斷出完整的一句話或者完整的一段話。如果結(jié)合格式特征,還能判斷出一個(gè)權(quán)利要求或者一段完整的附圖說(shuō)明文字。這些內(nèi)容因?yàn)榫哂写_定的結(jié)構(gòu)特征,所以能夠被識(shí)別?;谶@樣識(shí)別出來(lái)的一段內(nèi)容,可以進(jìn)行詞素或者常見詞的N元關(guān)聯(lián)分析。舉例來(lái)說(shuō),如果是N=3的三元關(guān)聯(lián)分析,那么可以通過(guò)機(jī)器閱讀方式,判斷是否存在若干詞素或者常見詞的重復(fù)的關(guān)聯(lián)出現(xiàn)的情形,統(tǒng)計(jì)這種關(guān)聯(lián)出現(xiàn)的情形的頻率,就形成了三元關(guān)聯(lián)分析的統(tǒng)計(jì)基礎(chǔ),并且構(gòu)成了機(jī)器理解特征文件的一部分?;谶@樣的N元關(guān)聯(lián)分析的機(jī)器理解特征文件的對(duì)比,某些情況下,能夠更準(zhǔn)確的反映出用戶所需要的數(shù)據(jù)結(jié)果。本發(fā)明優(yōu)選的實(shí)施方式中,在第四步驟S4中,所述特征文件的數(shù)據(jù)處理基于數(shù)據(jù)處理時(shí)間采用分級(jí)策略。下面通過(guò)實(shí)施例來(lái)說(shuō)明,機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)的多層級(jí)使用方式。由于數(shù)據(jù)處理能力的不斷提升,實(shí)際上機(jī)器學(xué)習(xí)的能力邊界,還看不到明顯上限。但是基于用戶面對(duì)的物理現(xiàn)實(shí)情形,當(dāng)前的數(shù)據(jù)處理能力是存在上限的。對(duì)于海量的專利原始數(shù)據(jù)來(lái)說(shuō),僅是簡(jiǎn)單進(jìn)行基于詞素的頻次統(tǒng)計(jì)分析,和建立機(jī)器理解特征文件,可能是一個(gè)很小的工作量。但是隨著加強(qiáng)機(jī)器學(xué)習(xí)的難度和數(shù)據(jù)處理的要求,通過(guò)機(jī)器學(xué)習(xí)產(chǎn)生機(jī)器理解特征文件的工作資源消耗,將成為一個(gè)需要考慮的問(wèn)題。此時(shí),可綜合考慮工作資源消耗情況,采用分級(jí)的策略。比如,使用低工作資源消耗的機(jī)器數(shù)據(jù)處理方式來(lái)實(shí)施初級(jí)的文件篩選,如此排除明顯不符合要求的干擾數(shù)據(jù);然后在通過(guò)排除干擾降低了待處理數(shù)據(jù)量的情況下,實(shí)施消耗較高工作資源的機(jī)器數(shù)據(jù)處理方式完成較高級(jí)的文件篩選。上述分級(jí)的策略,當(dāng)然不限于僅初級(jí)和較高級(jí)這樣的兩級(jí)的具體方式,可以根據(jù)實(shí)際需要,進(jìn)行適當(dāng)?shù)牟呗詣澐帧;跀?shù)據(jù)處理時(shí)間來(lái)分級(jí)建立特征文件分類表是其中一種方式,比如對(duì)于數(shù)據(jù)庫(kù)硬件配置而言,如果平均跑完500個(gè)文件建立500份特征文件,需要1分鐘的話,那么為了工作效率,可以考慮按照500左右的數(shù)據(jù)規(guī)模來(lái)將特征文件分類標(biāo)記建立查找表。另外,也可以采取根據(jù)相關(guān)度來(lái)建立查找表的方式。比如在并非一個(gè)即時(shí)的查詢需求,而是對(duì)專利數(shù)據(jù)庫(kù)進(jìn)行全部數(shù)據(jù)的處理,也就是跑整個(gè)庫(kù)這樣的需求時(shí),一般是安排在閑時(shí),做充分的數(shù)據(jù)處理,此時(shí),不考慮響應(yīng)問(wèn)題,可以按照特征文件的相關(guān)度,來(lái)對(duì)專利文獻(xiàn)進(jìn)行分類標(biāo)記??梢岳斫?,這樣處理的最終結(jié)果,對(duì)于那些專利文獻(xiàn)分布比較密集的領(lǐng)域,自然會(huì)形成包含有較大數(shù)量特征文件的類別,而對(duì)于那些專利文獻(xiàn)比較少的技術(shù)領(lǐng)域,自然會(huì)形成數(shù)量比較小的類別。
本發(fā)明優(yōu)選的實(shí)施方式中,在第一步驟S1中,所述原始專利數(shù)據(jù)包括流程變更數(shù)據(jù)和費(fèi)用繳納數(shù)據(jù),所述人工干預(yù)的內(nèi)容為分類號(hào),在第四步驟S4中,所述特征文件數(shù)據(jù)處理的最后處理步驟為分類號(hào)篩選。下面通過(guò)實(shí)施例進(jìn)一步說(shuō)明,對(duì)于結(jié)果的多種應(yīng)用可能。本申請(qǐng)的純粹基于專利原始數(shù)據(jù)的數(shù)據(jù)整理方法,也并不排斥傳統(tǒng)的基于分類號(hào)、同義詞等方式的專利數(shù)據(jù)庫(kù)方法。在通過(guò)本申請(qǐng)方法整理篩選得到的專利原始數(shù)據(jù)中,該專利信息是完整的,同樣具備分類號(hào)等數(shù)據(jù)。換句話說(shuō),本申請(qǐng)僅是在機(jī)器學(xué)習(xí)和分析,建立機(jī)器理解特征文件的時(shí)候,不采用可能存在干擾的分類號(hào)等數(shù)據(jù),但是并不破壞原始專利數(shù)據(jù)的完整性,因此完全可以在本申請(qǐng)方法篩選出來(lái)的結(jié)果中,結(jié)合使用常規(guī)的關(guān)鍵詞、分類號(hào)等進(jìn)一步篩選方式,來(lái)鎖定目標(biāo)。同樣的,通過(guò)傳統(tǒng)的專利數(shù)據(jù)庫(kù)方法得到的專利數(shù)據(jù),也同樣可以采用本申請(qǐng)方法來(lái)實(shí)施進(jìn)一步的數(shù)據(jù)處理和篩選。
下面通過(guò)實(shí)施例來(lái)說(shuō)明,本申請(qǐng)數(shù)據(jù)應(yīng)用入口的優(yōu)越性。在前述實(shí)施例中已經(jīng)提到,本申請(qǐng)方案的優(yōu)勢(shì)之一在于,不需要人為總結(jié)關(guān)鍵詞、提取分類號(hào),這樣的人工干預(yù)和貢獻(xiàn),才能進(jìn)行需求提交。本申請(qǐng)完全可以直接把一篇文獻(xiàn)、期刊這樣的內(nèi)容提供給系統(tǒng),就讓系統(tǒng)給你出一份最相關(guān)的結(jié)果。類似的,對(duì)于普通用戶而言,甚至可以不設(shè)置任何限制的,讓用戶任意描述自己需要知道的對(duì)象,讓系統(tǒng)根據(jù)用戶的描述來(lái)猜測(cè)用戶需要的目標(biāo),舉例來(lái)說(shuō):用戶輸入“一種能夠不需要司機(jī)就能開動(dòng)的汽車”這樣非常主觀的文字描述,系統(tǒng)也能通過(guò)機(jī)器閱讀的方式理解,并且提供給用戶一個(gè)適當(dāng)?shù)拇鸢浮O旅嫱ㄟ^(guò)實(shí)施例8來(lái)說(shuō)明,本申請(qǐng)機(jī)器學(xué)習(xí)的累積優(yōu)勢(shì)。如上所述,由于每一次機(jī)器學(xué)習(xí)之后,都會(huì)基于原始專利數(shù)據(jù),形成對(duì)應(yīng)的機(jī)器理解特征文件。并且隨著機(jī)器學(xué)習(xí)的原始專利數(shù)據(jù)越多,本申請(qǐng)系統(tǒng)所總結(jié)出來(lái)的維度、常見詞、關(guān)聯(lián)關(guān)系等就越豐富,對(duì)應(yīng)的機(jī)器從機(jī)器角度對(duì)原始專利數(shù)據(jù)的理解就更深刻,從而能夠不斷提高整個(gè)系統(tǒng)提供分析結(jié)果的準(zhǔn)確性。
本發(fā)明優(yōu)選的實(shí)施方式中,在第二步驟S2中,所述關(guān)聯(lián)統(tǒng)計(jì)包括對(duì)經(jīng)由若干同族申請(qǐng)數(shù)據(jù)建立的關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)。
下面通過(guò)實(shí)施例說(shuō)明,不同語(yǔ)種的專利文獻(xiàn)的處理。本發(fā)明的上述實(shí)施例雖然都是以中國(guó)專利文獻(xiàn)作為基礎(chǔ)進(jìn)行的說(shuō)明,但是實(shí)際上任何一種語(yǔ)言,如果不從自然語(yǔ)言角度分析,對(duì)于機(jī)器來(lái)說(shuō)都是一樣的,僅是一堆符號(hào)的組合,所以都可以采用類似的方式來(lái)實(shí)施專利數(shù)據(jù)處理。換句話說(shuō),本發(fā)明的方案并不受專利文獻(xiàn)的語(yǔ)種限制,對(duì)于不同的語(yǔ)種都能進(jìn)行預(yù)處理和應(yīng)用。僅是在具體進(jìn)行專利數(shù)據(jù)應(yīng)用的時(shí)候,要對(duì)同語(yǔ)種的專利文件進(jìn)行匹配和比較。但是,由于專利文獻(xiàn)存在豐富同族申請(qǐng)關(guān)系和關(guān)聯(lián)申請(qǐng)關(guān)系,通過(guò)某一篇或者某幾篇專利文獻(xiàn),來(lái)在不同語(yǔ)種的專利原始數(shù)據(jù)庫(kù)的對(duì)應(yīng)機(jī)器理解特征文件之間建立關(guān)聯(lián)也是可以實(shí)現(xiàn)的。換句話說(shuō),本發(fā)明的方案可以通過(guò)若干同族申請(qǐng)來(lái)建立關(guān)聯(lián)點(diǎn)。由于同族申請(qǐng)數(shù)據(jù)、PCT指定數(shù)據(jù)等,都是不受人為干擾而確定的原始數(shù)據(jù)。機(jī)器閱讀理解過(guò)程中,比如只要確定中國(guó)和美國(guó)專利申請(qǐng)中,在某一個(gè)領(lǐng)域中存在100件同族申請(qǐng),就可以將對(duì)應(yīng)的分組的機(jī)器理解特征文件建立足夠的匹配關(guān)聯(lián)。具體來(lái)說(shuō):在中國(guó)專利原始數(shù)據(jù)中進(jìn)行機(jī)器理解分析之后,得出一千篇專利文獻(xiàn)基于具有相近匹配度的機(jī)器理解特征文件被分類到甲組的時(shí)候,然后在美國(guó)專利原始數(shù)據(jù)中進(jìn)行機(jī)器理解分析之后,得出一千兩百篇專利文獻(xiàn)基于具有相近匹配度的機(jī)器理解特征文件被分類到乙組的時(shí)候,系統(tǒng)比較甲組和乙組的文獻(xiàn)發(fā)現(xiàn),中間存在共同的一百篇申請(qǐng),是同族申請(qǐng),則系統(tǒng)可以認(rèn)定中國(guó)專利甲組與美國(guó)專利乙組之間存在一個(gè)高關(guān)聯(lián)度的匹配關(guān)系。上述一千、一千兩百、一百這樣的數(shù)字僅是一個(gè)示例,事實(shí)上這種數(shù)字的指定,任何人也分析不出來(lái)選定為多少更為合適,對(duì)于電腦來(lái)說(shuō),通過(guò)設(shè)定為5/10/50/100/500/1000這樣常規(guī)的,具有一定數(shù)據(jù)量間隔的,便于電腦拍數(shù)據(jù)的實(shí)驗(yàn)安排,即可嘗試得到最佳數(shù)據(jù)范圍。也就是說(shuō),基于機(jī)器學(xué)習(xí)的專利原始數(shù)據(jù)處理方法,對(duì)于不同語(yǔ)種的專利文獻(xiàn)也是可以同樣實(shí)施分析的,并且這種分析同樣完全不需要任何人工干預(yù),只需要充分發(fā)揮機(jī)器的運(yùn)算能力,即可實(shí)現(xiàn)更優(yōu)的數(shù)據(jù)處理結(jié)果。
最后,通過(guò)實(shí)施例來(lái)說(shuō)明,專利原始數(shù)據(jù)的機(jī)器處理結(jié)果還可以是針對(duì)其他內(nèi)容的。上述專利原始數(shù)據(jù)主要是以專利申請(qǐng)文件的內(nèi)容為例進(jìn)行說(shuō)明的。實(shí)際上專利原始數(shù)據(jù)還可以包括其他任何與人的主觀影響無(wú)關(guān)的數(shù)據(jù),包括流程變更數(shù)據(jù)、費(fèi)用繳納數(shù)據(jù)等。從邏輯層面理解來(lái)說(shuō),一件專利的任何信息,包括流程數(shù)據(jù)也能反饋出有價(jià)值的內(nèi)容,比如經(jīng)常發(fā)生轉(zhuǎn)移、變更、質(zhì)押的專利可能更加貼近商用、學(xué)校申請(qǐng)的專利可能公開更加充分等。這些信息的價(jià)值對(duì)于傳統(tǒng)的專利數(shù)據(jù)分析系統(tǒng)而言,很難利用上,但是對(duì)于本申請(qǐng)這樣純粹基于大數(shù)據(jù)和機(jī)器理解的數(shù)據(jù)分析系統(tǒng)而言,將這些流程數(shù)據(jù)作為一個(gè)分析維度,也有可能有助于將最貼近用戶需求的結(jié)果呈現(xiàn)給用戶。還是那句話,對(duì)于較小樣本量級(jí)的數(shù)據(jù)分析來(lái)說(shuō),這種統(tǒng)計(jì)可能沒(méi)有價(jià)值,但是對(duì)于極大樣本分析的情況下,超大數(shù)據(jù)統(tǒng)計(jì)級(jí)別背后,機(jī)器所閱讀理解出來(lái)的內(nèi)容,可能對(duì)分析結(jié)果產(chǎn)生預(yù)料不到的優(yōu)化結(jié)果。另外,本申請(qǐng)雖然是以專利原始數(shù)據(jù)為基礎(chǔ)進(jìn)行的說(shuō)明,實(shí)際上本申請(qǐng)的數(shù)據(jù)分析處理辦法也可以適用于相關(guān)的,排除了人為影響信息干擾的完整數(shù)據(jù)。比如:期刊數(shù)據(jù)、論文數(shù)據(jù)等。
圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的實(shí)施基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的處理系統(tǒng)的結(jié)構(gòu)示意圖,一種實(shí)施根據(jù)所述的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)處理方法的處理系統(tǒng)包括存儲(chǔ)原始專利數(shù)據(jù)的存儲(chǔ)模塊1和機(jī)器學(xué)習(xí)所述原始專利數(shù)據(jù)的處理器2,所述處理器2包括用于提取詞素、常見詞、換行、空格和/或標(biāo)點(diǎn)符號(hào)的提取模塊3、用于機(jī)器學(xué)習(xí)原始專利數(shù)據(jù)的機(jī)器學(xué)習(xí)模塊4、用于分類的分類器5和用于篩選排序的處理模塊6。連接提取模塊3的所述機(jī)器學(xué)習(xí)模塊4生成特征文件,所述分類器5基于所述特征文件對(duì)所述原始專利數(shù)據(jù)分類,根據(jù)數(shù)據(jù)處理需求、數(shù)據(jù)處理頻率和/或數(shù)據(jù)處理時(shí)間對(duì)所述特征文件歸納存儲(chǔ),當(dāng)提出數(shù)據(jù)處理需求時(shí),所述處理模塊6理所述特征文件且映射對(duì)應(yīng)的原始專利數(shù)據(jù)。在一個(gè)實(shí)施例中,所述機(jī)器學(xué)習(xí)模塊4包括用于關(guān)聯(lián)分析的關(guān)聯(lián)模塊7。
在一個(gè)實(shí)施例中,處理器2可以是通用處理器、數(shù)字信號(hào)處理器、專用集成電路ASIC,現(xiàn)場(chǎng)可編程門陣列FPGA、模擬電路或數(shù)字電路。存儲(chǔ)模塊1可以是易失性存儲(chǔ)器或非易失性存儲(chǔ)器。存儲(chǔ)器可以包括一個(gè)或多個(gè)只讀存儲(chǔ)器ROM、隨機(jī)存取存儲(chǔ)器RAM、快閃存儲(chǔ)器、電子可擦除可編程只讀存儲(chǔ)器EEPROM或其它類型的存儲(chǔ)器。
在一個(gè)實(shí)施例中,提取模塊3采用加權(quán)挖掘算法,對(duì)原始專利數(shù)據(jù)進(jìn)行詞素、常見詞挖掘,得到采用加權(quán)計(jì)算法對(duì)詞素、常見詞的頻次、出現(xiàn)的位置、詞長(zhǎng)等因素,對(duì)詞素、常見詞進(jìn)行加權(quán)運(yùn)算,得到各個(gè)詞素、常見詞的權(quán)值,再依據(jù)權(quán)值大小,對(duì)詞素、常見詞進(jìn)行提煉優(yōu)化,排除權(quán)值較小的詞素、常見詞。
在一個(gè)實(shí)施例中,機(jī)器學(xué)習(xí)模塊4包括SVM機(jī)器學(xué)習(xí)算法。
在一個(gè)實(shí)施例中,處理模塊6進(jìn)行加權(quán)排序運(yùn)算,最終確定特征文件的相關(guān)度排序。
在一個(gè)實(shí)施例中,關(guān)聯(lián)模塊7找出詞素、常見詞、換行、空格和/或標(biāo)點(diǎn)符號(hào)的關(guān)聯(lián)度以及關(guān)聯(lián)度分析。
在本發(fā)明中,申請(qǐng)人通過(guò)詞素頻率、常見詞頻率、標(biāo)點(diǎn)符號(hào)與特殊符號(hào)統(tǒng)計(jì)、文章結(jié)構(gòu)與章節(jié)關(guān)系、N元關(guān)聯(lián)分析等維度,提供了一種純粹基于專利原始數(shù)據(jù),不受任何基于人的自然語(yǔ)言理解角度的干擾的,機(jī)器學(xué)習(xí)和分析的方法。這種處理方法及其處理系統(tǒng),由于完全不同于現(xiàn)有的基于人的角度去要求機(jī)器分析,僅從信源與信道的通信角度去處理專利數(shù)據(jù)問(wèn)題,把專利數(shù)據(jù)當(dāng)成一種通信數(shù)據(jù)處理的問(wèn)題來(lái)處理,發(fā)揮了當(dāng)前大數(shù)據(jù)和信息處理能力的優(yōu)勢(shì),是未來(lái)專利數(shù)據(jù)處理與分析技術(shù)的發(fā)展方向。
盡管以上結(jié)合附圖對(duì)本發(fā)明的實(shí)施方案進(jìn)行了描述,但本發(fā)明并不局限于上述的具體實(shí)施方案和應(yīng)用領(lǐng)域,上述的具體實(shí)施方案僅僅是示意性的、指導(dǎo)性的,而不是限制性的。本領(lǐng)域的普通技術(shù)人員在本說(shuō)明書的啟示下和在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍的情況下,還可以做出很多種的形式,這些均屬于本發(fā)明保護(hù)之列。