一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法
【專利摘要】本申請(qǐng)?zhí)峁┮环N專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法,包括:步驟1:文本的預(yù)處理;步驟2:識(shí)別專利發(fā)明的主題類型;步驟3:提取候選關(guān)鍵短語(yǔ)并進(jìn)行短語(yǔ)過(guò)濾;步驟4:對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行權(quán)重計(jì)算并選出關(guān)鍵短語(yǔ)。
【專利說(shuō)明】—種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息處理技術(shù),更具體地,涉及一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法。
【背景技術(shù)】
[0002]隨著專利文獻(xiàn)數(shù)量的迅速增長(zhǎng),專利文獻(xiàn)專業(yè)和社會(huì)化查詢?nèi)找嫫毡?,?shí)現(xiàn)專利文獻(xiàn)數(shù)據(jù)的查全率和查準(zhǔn)率成為專利文獻(xiàn)信息檢索的難點(diǎn)和重點(diǎn)。長(zhǎng)期以來(lái),利用原始專利數(shù)據(jù)來(lái)完成的專利信息的檢索,往往使得查全率和查準(zhǔn)率很差并且通常會(huì)相互矛盾。由于專利文獻(xiàn)原始信息來(lái)源于 申請(qǐng)人:的原始提交資料,往往存在大量相關(guān)的技術(shù)資料和引用技術(shù),使得在檢索過(guò)程中,為了保證查全率,就會(huì)引入過(guò)多文件,出現(xiàn)大量的噪音數(shù)據(jù)或者噪音文獻(xiàn)。而為了保證查準(zhǔn)率,就會(huì)限制過(guò)多的條件并且加載較為嚴(yán)格的檢索要求,往往會(huì)丟失很多有用的檢索結(jié)果。
[0003]為了解決這個(gè)問(wèn)題,通用的方法就是對(duì)于專利文獻(xiàn)進(jìn)行前期的數(shù)據(jù)加工,在全面了解專利技術(shù)的基礎(chǔ)上,按照一定的加工規(guī)則對(duì)于文獻(xiàn)進(jìn)行區(qū)分和標(biāo)引,而使得數(shù)據(jù)較為集中和降低數(shù)據(jù)量。并且通過(guò)整理之后,提取的文獻(xiàn)信息還保證和技術(shù)主題相關(guān)。但是,由于數(shù)據(jù)加工需要耗費(fèi)大量的時(shí)間、人力和財(cái)力,建設(shè)成本非常之高,加工效率目前也不盡如人意。
[0004]但是目前缺乏專業(yè)、精準(zhǔn)的標(biāo)引工具,大部分都是通過(guò)手工標(biāo)引來(lái)提高準(zhǔn)確率,使得標(biāo)引工作在目前日益增加的專利申請(qǐng)量面前更是難以滿足需要。中國(guó)發(fā)明專利CN1818906A提供了一種專利文獻(xiàn)的標(biāo)引方法,該方法通過(guò)建立技術(shù)分類和關(guān)鍵詞對(duì)應(yīng),并且提供通過(guò)修正來(lái)提高準(zhǔn)確率,但是該方法還是依賴于人工,沒(méi)有實(shí)現(xiàn)完全自動(dòng),并且該方法處理的數(shù)據(jù)較大,難以實(shí)用。
【發(fā)明內(nèi)容】
[0005]為克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提出一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提出了一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法,包括:步驟1:文本的預(yù)處理;步驟2:識(shí)別專利發(fā)明的主題類型;步驟3:提取候選關(guān)鍵短語(yǔ)并進(jìn)行短語(yǔ)過(guò)濾;步驟4:對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行權(quán)重計(jì)算并選出關(guān)鍵短語(yǔ)。
[0007]本發(fā)明通過(guò)選取3000篇專利文獻(xiàn)為訓(xùn)練集對(duì)上述方法構(gòu)建的實(shí)驗(yàn)系統(tǒng)進(jìn)行訓(xùn)練,另選取100篇專利文獻(xiàn)為測(cè)試集,根據(jù)上述本發(fā)明涉及的方法,對(duì)每篇專利文檔提取15個(gè)關(guān)鍵短語(yǔ)。同時(shí),使用現(xiàn)有的基于統(tǒng)計(jì)的方法提取相同數(shù)量關(guān)鍵短語(yǔ)作為對(duì)比。同時(shí),人工對(duì)同樣的100篇專利文獻(xiàn)提取關(guān)鍵短語(yǔ),人工提取的關(guān)鍵短語(yǔ)作為判定提取的關(guān)鍵短語(yǔ)是否正確的標(biāo)準(zhǔn)。使用上述數(shù)據(jù)計(jì)算方法的準(zhǔn)確率,使用公式如下:
[0008]測(cè)試方法提取的關(guān)鍵短語(yǔ)的數(shù)量X 100%
[0009]人工提取的關(guān)鍵短語(yǔ)的數(shù)量X 100%
[0010]實(shí)驗(yàn)結(jié)果如下:使用本發(fā)明涉及的方法的準(zhǔn)確率為95.24%,使用傳統(tǒng)方法的準(zhǔn)確率為81.61%。使用本發(fā)明涉及的方法的召回率為85.5%,使用傳統(tǒng)方法的召回率為84.2%??梢?jiàn),使用本發(fā)明涉及的方法,明顯提高了關(guān)鍵短語(yǔ)的抽取準(zhǔn)確率,召回率也略有提高,對(duì)專利文獻(xiàn)的關(guān)鍵短語(yǔ)提取顯示了較好的效果。
【專利附圖】
【附圖說(shuō)明】
[0011]圖1為根據(jù)本發(fā)明的專利文獻(xiàn)自動(dòng)抽取關(guān)鍵短語(yǔ)方法的流程圖;
[0012]圖2為根據(jù)本發(fā)明的專利文獻(xiàn)自動(dòng)抽取關(guān)鍵短語(yǔ)方法提取出的關(guān)鍵短語(yǔ)-文本域關(guān)聯(lián)的不意圖。
[0013]為了能明確實(shí)現(xiàn)本發(fā)明的實(shí)施例的結(jié)構(gòu),在圖中標(biāo)注了特定的尺寸、結(jié)構(gòu)和器件,但這僅為示意需要,并非意圖將本發(fā)明限定在該特定尺寸、結(jié)構(gòu)、器件和環(huán)境中,根據(jù)具體需要,本領(lǐng)域的普通技術(shù)人員可以將這些器件和環(huán)境進(jìn)行調(diào)整或者修改,所進(jìn)行的調(diào)整或者修改仍然包括在后附的權(quán)利要求的范圍中。
【具體實(shí)施方式】
[0014]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明提供的一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法進(jìn)行詳細(xì)描述。
[0015]在以下的描述中,將描述本發(fā)明的多個(gè)不同的方面,然而,對(duì)于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,可以僅僅利用本發(fā)明的一些或者全部結(jié)構(gòu)或者流程來(lái)實(shí)施本發(fā)明。為了解釋的明確性而言,闡述了特定的數(shù)目、配置和順序,但是很明顯,在沒(méi)有這些特定細(xì)節(jié)的情況下也可以實(shí)施本發(fā)明。在其他情況下,為了不混淆本發(fā)明,對(duì)于一些眾所周知的特征將不再進(jìn)行詳細(xì)闡述。
[0016]在本說(shuō)明書(shū)中使用的術(shù)語(yǔ)僅用于更好的理解本發(fā)明的實(shí)施方案的目的,不用于限制本發(fā)明。本說(shuō)明書(shū)中使用的“一個(gè)”、“一種”、“該”也可以包括復(fù)數(shù)形式,除非上下文明確指出。
[0017]術(shù)語(yǔ)“短語(yǔ)”,是指包括由一個(gè)及以上單詞構(gòu)成的名詞性短語(yǔ)、以及嵌套了短語(yǔ)的名詞性結(jié)構(gòu),本發(fā)明的“短語(yǔ)”最小單位是單個(gè)詞,是廣義的短語(yǔ)概念。
[0018]圖1示出根據(jù)本發(fā)明的一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法的流程圖,如圖1所示,該方法包括:步驟1:文本的預(yù)處理,包括文本域標(biāo)注、分句、分詞、詞性標(biāo)注等;步驟2:識(shí)別專利發(fā)明的主題類型;步驟3:提取候選關(guān)鍵短語(yǔ)并進(jìn)行短語(yǔ)過(guò)濾;步驟4:權(quán)重計(jì)算并選出關(guān)鍵短語(yǔ)。
[0019]其中,步驟I用于文本域的識(shí)別和分句、詞性標(biāo)注等預(yù)處理。進(jìn)一步,步驟I包括:步驟11、識(shí)別專利文獻(xiàn)各文本域;步驟12、對(duì)專利全文進(jìn)行分句,根據(jù)需要進(jìn)行分詞處理,分詞后進(jìn)行詞性標(biāo)注;步驟13、對(duì)于文本特殊位置進(jìn)行識(shí)別。
[0020]其中,步驟11中,識(shí)別專利文獻(xiàn)各文本域,包括識(shí)別權(quán)利要求書(shū)、說(shuō)明書(shū)、說(shuō)明書(shū)摘要、【專利附圖】
【附圖說(shuō)明】、
【發(fā)明內(nèi)容】
等文本域;優(yōu)選的,各文本域可以進(jìn)一步細(xì)分識(shí)別,例如
【發(fā)明內(nèi)容】
進(jìn)而可以分為所要解決的技術(shù)問(wèn)題、技術(shù)方案和有益效果。識(shí)別后以標(biāo)簽標(biāo)注,例如,〈Claims>〈/Claims>0
[0021]其中,步驟I中,識(shí)別文本域的方法可以包括:對(duì)于XML格式存儲(chǔ)的專利文檔,使用專利文檔原有的XML標(biāo)簽進(jìn)行分析;對(duì)純文本格式存儲(chǔ)的專利文檔,對(duì)全文進(jìn)行內(nèi)容的識(shí)另|J,通過(guò)識(shí)別各文本域標(biāo)題來(lái)識(shí)別,識(shí)別方法可以是模板規(guī)則等常用方法。
[0022]其中,步驟12中,對(duì)專利全文進(jìn)行分句,根據(jù)需要進(jìn)行分詞處理,例如中文、日語(yǔ)等沒(méi)有明顯分詞標(biāo)志的語(yǔ)種。分詞后進(jìn)行詞性標(biāo)注。上述處理均可以采用本領(lǐng)域常用的現(xiàn)
有工具。
[0023]其中,步驟13中,對(duì)于各文本域中的特殊位置的識(shí)別,例如獨(dú)立權(quán)利要求、從屬權(quán)利要求、權(quán)利要求主題名稱、【專利附圖】
【附圖說(shuō)明】、獨(dú)立權(quán)利要求前序、特征部分,從屬權(quán)利要求引用、限定部分進(jìn)行進(jìn)一步的識(shí)別處理。其中,識(shí)別方法可以包括XML標(biāo)簽加規(guī)則匹配或模板匹配的方法。
[0024]例如,
[0025]2.根據(jù)權(quán)利要求1所述的保溫壺,其特征在于,所述保溫壺具有一個(gè)帶密封墊圈的蓋子。
[0026]通過(guò)模板匹配,得出“根據(jù)權(quán)利要求1所述的保溫壺”為引用部分,“所述保溫壺具有一個(gè)帶密封墊圈的蓋子”為限定部分。
[0027]其中,步驟2中,識(shí)別專利發(fā)明的主題類型,專利按技術(shù)主題類型分為產(chǎn)品發(fā)明、方法發(fā)明。根據(jù)發(fā)明類型的不同,抽取關(guān)鍵詞應(yīng)當(dāng)有不同的側(cè)重點(diǎn),經(jīng)過(guò)對(duì)專利文獻(xiàn)的深入分析,本申請(qǐng)?jiān)O(shè)置了以下具有關(guān)鍵短語(yǔ)提取側(cè)重點(diǎn)的主要類型:一、方法類型:1.制備方法(有機(jī)物、組合物、食品等的制備);2.加工方法(成形、紡織等);3.建筑方法;4.使用方法;
5.信息的處理和傳輸方法;二、產(chǎn)品類型:1.制造的物品;2.織物;3.建筑物;三、設(shè)備類型:1.工藝設(shè)備;2. 機(jī)器;3.工具;4.操作儀器;四、材料:1.化合物、組合物、微生物;2.生活用品材料;3.建筑、工程材料;五、應(yīng)用類型:已知產(chǎn)品新用途、轉(zhuǎn)用發(fā)明等。
[0028]步驟2主要用于對(duì)待提取關(guān)鍵短語(yǔ)的專利文獻(xiàn)進(jìn)行技術(shù)主題類型分析,其中包括:步驟21、對(duì)于技術(shù)主題類型的分析訓(xùn)練;步驟22、獲取發(fā)明名稱、分詞、詞性標(biāo)注信息、核心詞;步驟23、基于經(jīng)過(guò)訓(xùn)練后的分類器,通過(guò)特征詞表、核心詞概率和核心詞文檔概率以及核心詞本身作為特征,標(biāo)注技術(shù)主題類型。
[0029]其中,步驟21的技術(shù)主題類型分析方法的訓(xùn)練步驟包括:
[0030]步驟211、選取I萬(wàn)篇以上專利文檔作為訓(xùn)練語(yǔ)料,從著錄項(xiàng)目中獲取發(fā)明名稱和獨(dú)立權(quán)利要求的主題名稱及其分詞、詞性標(biāo)注信息。其中,獨(dú)立權(quán)利要求的主題名稱,可通過(guò)現(xiàn)有技術(shù)識(shí)別出獨(dú)立權(quán)利要求,再通過(guò)模板等常用方法獲取其主題名稱。例如,一種音頻特征提取方法,其特征在于:…,則獲取主題名稱為“音頻特征提取方法”。
[0031]步驟212、獲取核心詞。其中,如果發(fā)明名稱是兩個(gè)或多個(gè)并列短語(yǔ),分別獲取每個(gè)短語(yǔ)的核心詞。例如:一種音頻特征提取方法和系統(tǒng),應(yīng)分別獲取“方法”、“系統(tǒng)”兩個(gè)核心詞。獲取獨(dú)立權(quán)利要求的主題名稱核心詞,例如:音頻特征提取方法,應(yīng)獲取“方法”。核心詞獲取采用常用的工具。
[0032]步驟213、對(duì)上述訓(xùn)練人工標(biāo)注其技術(shù)主題類型,標(biāo)注為前述劃分的5種類型。
[0033]步驟214、根據(jù)步驟213的標(biāo)注結(jié)果,分別建立上述5種技術(shù)主題類型的特征詞表。即,根據(jù)每篇文檔被人工標(biāo)注的技術(shù)主題類型,將其核心詞存入相應(yīng)技術(shù)主題類型的特征詞表中。同時(shí),計(jì)算核心詞概率,即該核心詞在每種類型中出現(xiàn)的概率;以及核心詞文檔概率,即出現(xiàn)該核心詞的文檔在上述選取的作為訓(xùn)練語(yǔ)料的專利文檔集中出現(xiàn)的概率。將上述概率存儲(chǔ)并與對(duì)應(yīng)核心詞關(guān)聯(lián)。[0034]步驟215、使用常用的自動(dòng)分類方法作為技術(shù)類型分類方法,對(duì)待分類的專利文檔主題名稱進(jìn)行分類。其中自動(dòng)分類方法包括條件隨機(jī)場(chǎng)方法,k近鄰法、決策樹(shù)、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)或者支持向量機(jī)(SVM)等。使用上述步驟211-步驟214收集的訓(xùn)練語(yǔ)料對(duì)分類器進(jìn)行訓(xùn)練。
[0035]步驟22中,對(duì)新專利文檔進(jìn)行技術(shù)主題分類的步驟包括:使用步驟211和步驟212的方法獲取發(fā)明名稱、分詞、詞性標(biāo)注信息、核心詞。
[0036]步驟23包括以經(jīng)過(guò)步驟215訓(xùn)練后的分類器,使用步驟214中獲得的特征詞表、核心詞概率和核心詞文檔概率以及核心詞本身作為特征,標(biāo)注技術(shù)主題類型,然后將標(biāo)注的技術(shù)主題類型進(jìn)行存儲(chǔ)。
[0037]步驟2的方法比人工添加規(guī)則的方法適應(yīng)性好,對(duì)于一些發(fā)明名稱和權(quán)利要求主題名稱比較模糊的情況也能很好的進(jìn)行分類。由于專利的發(fā)明名稱和權(quán)利要求主題名稱撰寫方式繁多,例如,“用于中藥煎煮鍋的防燙型倒藥架”、“一種棋盤和棋子自動(dòng)定位識(shí)別棋”、“一種Asial型口蹄疫病毒抗原”,如果使用模板或規(guī)則的方法要全面覆蓋這樣各異的名稱,就需要針對(duì)大量產(chǎn)品名稱撰寫規(guī)則模板,造成規(guī)則、模板的數(shù)量過(guò)多。同時(shí),如果為了提高模板的匹配效率,將模板撰寫得比較寬泛,例如:[名詞短語(yǔ)]+棋,又容易帶入一些噪聲。
[0038]其中,步驟3中,提取候選關(guān)鍵短語(yǔ)并進(jìn)行短語(yǔ)過(guò)濾。其中,步驟3的方法包括:步驟31、提取候選的關(guān)鍵短語(yǔ);步驟32、提取后對(duì)停用短語(yǔ)和低信息度短語(yǔ)進(jìn)行過(guò)濾。
[0039]候選短語(yǔ)是作為關(guān)鍵短語(yǔ)的候選,以便進(jìn)一步對(duì)其進(jìn)行權(quán)重計(jì)算等處理的短語(yǔ)。其中,步驟31中獲取候選短語(yǔ)的方法有詞表法、規(guī)則方法、模板方法和前后指示詞方法。
[0040]其中,詞表法中,詞表是預(yù)先人工編撰或用統(tǒng)計(jì)方法收集的專利關(guān)鍵短語(yǔ)。短語(yǔ)按照短語(yǔ)詞長(zhǎng)度降序排列,以首詞為索引進(jìn)行編撰。在待抽取關(guān)鍵短語(yǔ)的專利經(jīng)過(guò)分詞之后,對(duì)分詞的結(jié)果的每個(gè)詞,均在上述詞表中進(jìn)行搜索,當(dāng)索引中含有相同詞時(shí),從該詞位置起,按照長(zhǎng)度由長(zhǎng)至短依次進(jìn)行匹配。匹配成功則將候選短語(yǔ)儲(chǔ)存留用。重復(fù)該步驟直到搜索完待抽取關(guān)鍵短語(yǔ)的專利中每個(gè)詞。
[0041]其中,規(guī)則方法中,先使用n-gram法對(duì)分詞后的詞語(yǔ)進(jìn)行組合,以便從中篩選候選短語(yǔ),選取1-η長(zhǎng)度的所有組合作為候選的短語(yǔ)。η可以根據(jù)經(jīng)驗(yàn)選擇,η優(yōu)選5。利用詞性標(biāo)注的結(jié)果和根據(jù)語(yǔ)法現(xiàn)象預(yù)先設(shè)定的規(guī)則進(jìn)行提取,例如,提取名詞+名詞、形容詞+名詞、形容詞+名詞+名詞,具體規(guī)則可以為下表1例子中所示。下表1僅作為示例不用于限制本發(fā)明,所述規(guī)則可以是Ι-m個(gè)詞的組合,優(yōu)選m=4。根據(jù)以下規(guī)則保留的n-gram短語(yǔ)作為候選短語(yǔ)等待進(jìn)一步處理。
[0042]表1
【權(quán)利要求】
1.一種專利文獻(xiàn)關(guān)鍵短語(yǔ)自動(dòng)提取方法,包括: 步驟1:進(jìn)行文本域的預(yù)處理; 步驟2:識(shí)別專利發(fā)明的主題類型; 步驟3:提取候選關(guān)鍵短語(yǔ)并進(jìn)行短語(yǔ)過(guò)濾; 步驟4:對(duì)過(guò)濾后的候選關(guān)鍵短語(yǔ)進(jìn)行權(quán)重計(jì)算并選出關(guān)鍵短語(yǔ)。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟I包括: 步驟11、識(shí)別專利文獻(xiàn)各文本域; 步驟12、對(duì)專利全文進(jìn)行分句,根據(jù)需要進(jìn)行分詞處理,分詞后進(jìn)行詞性標(biāo)注; 步驟13、對(duì)于文本特殊位置進(jìn)行識(shí)別。
3.根據(jù)權(quán)利要求2所述的方法,其中,步驟11中,識(shí)別專利文獻(xiàn)各文本域,包括識(shí)別權(quán)利要求書(shū)、說(shuō)明書(shū)、說(shuō)明書(shū)摘要、【專利附圖】
【附圖說(shuō)明】或者
【發(fā)明內(nèi)容】
的文本域;其中,步驟13中,對(duì)于各文本域中的特殊位置進(jìn)行識(shí)別。
4.根據(jù)權(quán)利要求1 所述的方法,其中,步驟2包括: 步驟21、對(duì)于技術(shù)主題類型進(jìn)行分類訓(xùn)練,獲取分類器; 步驟22、獲取發(fā)明名稱、分詞、詞性標(biāo)注信息、核心詞; 步驟23、基于經(jīng)過(guò)訓(xùn)練后的分類器,通過(guò)特征詞表、核心詞概率和核心詞文檔概率以及核心詞本身作為特征,標(biāo)注技術(shù)主題類型。
5.根據(jù)權(quán)利要求4所述的方法,其中,步驟21包括: 步驟211、選取I萬(wàn)篇以上專利文檔作為訓(xùn)練語(yǔ)料,從著錄項(xiàng)目中獲取發(fā)明名稱和獨(dú)立權(quán)利要求的主題名稱及其分詞、詞性標(biāo)注信息; 步驟212、獲取核心詞; 步驟213、對(duì)上述訓(xùn)練人工標(biāo)注其技術(shù)主題類型; 步驟214、根據(jù)技術(shù)主題類型的標(biāo)注結(jié)果,分別建立上述技術(shù)主題類型的特征詞表;步驟215、使用自動(dòng)分類方法作為技術(shù)類型分類方法,對(duì)待分類的專利文檔主題名稱進(jìn)行分類,獲取分類器。
6.根據(jù)權(quán)利要求5所述的方法,其中,步驟22中,對(duì)新專利文檔進(jìn)行技術(shù)主題分類的步驟包括:使用步驟211和步驟212的方法獲取發(fā)明名稱、分詞、詞性標(biāo)注信息、核心詞; 步驟23包括以經(jīng)過(guò)步驟215訓(xùn)練后的分類結(jié)果,使用步驟214中獲得的特征詞表、核心詞概率和核心詞文檔概率以及核心詞本身作為特征,標(biāo)注技術(shù)主題類型,然后將標(biāo)注的技術(shù)主題類型進(jìn)行存儲(chǔ)。
7.根據(jù)權(quán)利要求1所述的方法,其中,步驟3包括: 步驟31、使用詞表法、規(guī)則方法、模板方法或者前后指示詞方法來(lái)提取候選關(guān)鍵短語(yǔ); 步驟32、提取后對(duì)停用短語(yǔ)和低信息度短語(yǔ)進(jìn)行過(guò)濾。
8.根據(jù)權(quán)利要求1所述的方法,其中,步驟4中,權(quán)重計(jì)算包括頻率權(quán)重和IPC權(quán)重; 步驟4還包括計(jì)算權(quán)重的修正因子,該修正因子包括位置因子、文本域因子。
9.根據(jù)權(quán)利要求8所述的方法,其中,步驟4中,計(jì)算頻率權(quán)重包括統(tǒng)計(jì)與短語(yǔ)頻率等統(tǒng)計(jì)信息相關(guān)的權(quán)重,計(jì)算方法包括TF-1DF、TFC、ITC或者TF-1WF法。
10.根據(jù)權(quán)利要求8所 述的方法,其中,步驟4中,位置因子是短語(yǔ)首次出現(xiàn)的位置帶來(lái)的權(quán)重影響,位置因子分為文本位置因子和專利位置因子,文本位置因子是指因關(guān)鍵短語(yǔ)出現(xiàn)在文檔的不同位置帶來(lái)的對(duì)權(quán)重的影響,專利位置因子是指由于專利特殊撰寫格式帶來(lái)的對(duì)權(quán)重的影響;其中,文本域因子是指短語(yǔ)位于專利文獻(xiàn)不同文本域?qū)ζ錂?quán)重的影響。
11.根據(jù)權(quán)利要求1所述的方法,其中,步驟4還包括: 提取出關(guān)鍵詞后,將關(guān)鍵詞-文本域信息進(jìn)行關(guān)聯(lián)顯示;或者 提取出關(guān)鍵短語(yǔ)后,根據(jù)所述【技術(shù)領(lǐng)域】-近義詞表,顯示與提取出來(lái)的關(guān)鍵短語(yǔ)相似的技術(shù)術(shù)語(yǔ),作為近似檢索詞推薦給查詢者。
12.根據(jù)權(quán)利要求11所述的方法,其中,顯示與提取出來(lái)的關(guān)鍵短語(yǔ)相似的技術(shù)術(shù)語(yǔ)的步驟包括:根據(jù)待標(biāo)引文檔的IPC分類號(hào),定位到所屬【技術(shù)領(lǐng)域】-近義詞表的相關(guān)【技術(shù)領(lǐng)域】,如果該【技術(shù)領(lǐng)域】中僅存在一個(gè)詞義,同時(shí)顯示出該關(guān)鍵詞的相關(guān)【技術(shù)領(lǐng)域】共使用者參考;或者 如果存在多個(gè)詞義,則 根據(jù)現(xiàn)有方法使用【技術(shù)領(lǐng)域】-近義詞表分別對(duì)每個(gè)詞義與其他關(guān)鍵短語(yǔ)以短語(yǔ)為元素構(gòu)建詞匯鏈,計(jì)算詞的集聚特征值,計(jì)算后取集聚特征值最大的詞義。
【文檔編號(hào)】G06F17/27GK103885934SQ201410056332
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2014年2月19日 優(yōu)先權(quán)日:2014年2月19日
【發(fā)明者】任智軍, 張威, 李進(jìn), 楊婧, 張江濤, 肖湘 申請(qǐng)人:中國(guó)專利信息中心