專利名稱:一種迭代式概念屬性名稱自動(dòng)獲取方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能計(jì)算機(jī)領(lǐng)域中的大規(guī)模知識(shí)獲取領(lǐng)域,尤其涉及一種迭代式的概念屬性名稱自動(dòng)獲取方法和系統(tǒng)。
背景技術(shù):
任何概念詞都有一定的語義。但是概念詞僅是一個(gè)特殊的術(shù)語,其直接表達(dá)語義的能力非常弱,因此我們必須借助其他類型的知識(shí)進(jìn)一 步表達(dá)或者刻畫概念詞所蘊(yùn)涵的語義。概念的屬性就是一種此類的知識(shí)。一般認(rèn)為,屬性是一種概念內(nèi)涵的載體。一個(gè)屬性描述了概念的一個(gè)特征或性質(zhì);通過屬性,我們可以區(qū)分不同的概念,發(fā)現(xiàn)它們之間的差異。因此,屬性具備描述概念和鑒別概念的功能。每個(gè)概念都有一組用于鑒別和修飾的屬性,這些屬性在文本中表現(xiàn)為不同的屬性名稱。屬性名稱是表示屬性的專有名詞,大多數(shù)屬性名稱都能起到見名知義的作用。我們可以通過獲取較常用的概念-屬性名稱的搭配,給出概念的關(guān)鍵屬性集合。有了這個(gè)集合,我們就具備描述概念和鑒別概念的能力。另外,屬性名稱獲取也是屬性值獲取的前一步工作。為方便理解屬性的含義,下面我們給出一個(gè)例子對(duì)地域類的概念“中國”,它有一些屬性名稱“人口總數(shù)”、“人口數(shù)量”、“國土面積”、“GDP”等等。其中“人口總數(shù)”和“人口數(shù)量”具有相同的語義,它們所表達(dá)的那個(gè)特定的語義就是“人口總數(shù)”和“人口數(shù)量”所對(duì)應(yīng)的屬性,而“人口總數(shù)”和“人口數(shù)量”則是那個(gè)屬性的具體的載體——屬性名稱。通過給出的這些具體的屬性名稱,我們就能從屬性這個(gè)角度去認(rèn)識(shí)概念“中國”,同時(shí)也能在這個(gè)角度上將“中國”和其他類型的概念(比如植物類的概念“蘋果”)區(qū)分開來。另外,對(duì)“中國”的“國土面積”這個(gè)屬性名稱而言,它有一個(gè)屬性值960萬平方公里,屬性值獲取也是一類重要的知識(shí)獲取,而獲取屬性值的前提工作是獲取概念的屬性名稱。在不致混淆的情況下,本發(fā)明的下文中,為了簡化陳述,我們都直接使用屬性來簡稱屬性名稱。中文屬性主要包括數(shù)量型、定性型、角色型三種類型。目前的屬性獲取除了耗時(shí)耗力地手工獲取外,在計(jì)算機(jī)自動(dòng)或半自動(dòng)獲取方面,依據(jù)語料數(shù)據(jù)的來源,主要包括基于結(jié)構(gòu)化數(shù)據(jù)源的提取,如Web查詢?nèi)罩?;基于半結(jié)構(gòu)化的Web網(wǎng)頁的提取,如從網(wǎng)頁表格或表單中提取,從Wikipedia Articles中提?。灰约盎诙鄶?shù)據(jù)源的提取?;诮Y(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)源的方法因其語料結(jié)構(gòu)規(guī)整簡短,具有一定的規(guī)律性,針對(duì)性強(qiáng),主要采用弱文法和統(tǒng)計(jì)的方式進(jìn)行提取,具有較高的準(zhǔn)確率,但由于數(shù)據(jù)源的規(guī)模有限,因此召回率普遍不高?;诙鄶?shù)據(jù)源的方法主要是將結(jié)構(gòu)化與非結(jié)構(gòu)數(shù)據(jù)交叉迭代起來獲取,首先從結(jié)構(gòu)化數(shù)據(jù)中獲取準(zhǔn)確率較高的結(jié)果作為種子屬性,然后使用種子屬性從非結(jié)構(gòu)化文本中迭代獲取更多的屬性。這種方法相比單一語料來源,綜合考慮了準(zhǔn)確率和召回率,但獲取方法相對(duì)更加復(fù)雜,且結(jié)果屬性的好壞和屬性類型過多依賴于種子?,F(xiàn)有技術(shù)方法的結(jié)果數(shù)量一般都在100以內(nèi),且偏重用Top N結(jié)果的準(zhǔn)確率,而忽略了真實(shí)屬性集合的龐大和多樣性。實(shí)際上,每種類型的概念,其真實(shí)的屬性集合一般遠(yuǎn)遠(yuǎn)超過了他們獲取得到的數(shù)量,且屬性類型豐富多樣,其中很多屬性盡管不是很常見,但在某個(gè)領(lǐng)域卻很重要(比如,對(duì)類型“國家”來說,“貨幣供應(yīng)量增長率”,“淡水人均擁有量”就是不常見但是分別在經(jīng)濟(jì)和環(huán)境領(lǐng)域卻很重要的屬性),而他們的方法一般無法獲取到這種不常見的屬性,也就無法滿足構(gòu)建大型知識(shí)庫的需求。因此,迫切需要一種概念屬性的大規(guī)模自動(dòng)獲取方法和系統(tǒng),從而提高目前屬性獲取的效率和效果。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明的目的是公開一種迭代式的概念屬性名稱自動(dòng)獲取方法 和系統(tǒng),是解決上述現(xiàn)有技術(shù)的無法迭代獲取,召回率不高和類型覆蓋不全面的問題,提出了一種從非結(jié)構(gòu)化Web網(wǎng)頁中基于前后綴迭代的屬性獲取方法及系統(tǒng)?,F(xiàn)有技術(shù)的獲取方法只能得到為數(shù)不多的屬性,而對(duì)于每個(gè)概念來說,其實(shí)際的屬性數(shù)量卻遠(yuǎn)遠(yuǎn)超越了他們能獲取到的數(shù)量,我們的方法能獲取到龐大的屬性數(shù)量,相比現(xiàn)有技術(shù)的結(jié)果,我們的結(jié)果更接近于真實(shí)的屬性數(shù)量;現(xiàn)有技術(shù)的方法側(cè)重于屬性的獲取,而對(duì)于獲取結(jié)果的驗(yàn)證,卻不甚重視,我們的方法不僅重視獲取,也更重視結(jié)果的驗(yàn)證,因此本方法不僅具有較高的召回率,也具有很高的準(zhǔn)確率。非結(jié)構(gòu)化數(shù)據(jù)源由于結(jié)構(gòu)復(fù)雜多樣,獲取較其他數(shù)據(jù)源更困難,但它卻具有語料開放豐富等優(yōu)點(diǎn)。本發(fā)明公開一種迭代式概念屬性名稱自動(dòng)獲取方法,包括如下步驟步驟1,將需要獲取的概念名稱,建立屬性空間,所述屬性空間包含以屬性構(gòu)成的概念名稱;步驟2,從屬性空間中選擇屬性前綴和/或?qū)傩院缶Y,從網(wǎng)頁中提取候選屬性;步驟3,采用基于相似性的驗(yàn)證模型對(duì)候選屬性進(jìn)行驗(yàn)證,通過迭代方式擴(kuò)充屬性前綴和/或?qū)傩院缶Y。所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟I還包括如下步驟步驟21,屬性空間由屬性構(gòu)成;每個(gè)概念有一組屬性,這些屬性構(gòu)成了此概念的屬性空間,表達(dá)屬性本質(zhì)的屬性元為中心屬性元,修飾其它屬性元的屬性元為修飾性屬性元;中心屬性元不修飾任何屬性元;在一個(gè)屬性中,除中心屬性元以外的屬性元都是修飾性屬性元;步驟22,出現(xiàn)在結(jié)尾的中心屬性元,定義為屬性后綴,出現(xiàn)在開頭的修飾性屬性元,定義為屬性前綴。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟3之后還包括步驟4,從候選屬性進(jìn)行驗(yàn)證后,得到正確屬性;步驟5,對(duì)正確屬性提取新的屬性前綴、屬性后綴,然后繼續(xù)從步驟2開始執(zhí)行。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟3中擴(kuò)充屬性前綴、屬性后綴還包括如下步驟
步驟31,將得到的正確屬性作為種子,加入到集合Seeds中;步驟32,從Seeds中訓(xùn)練新的后綴,加入到新生廣的屬性后綴集合SUFnew中;步驟33,從Seeds中訓(xùn)練新的前綴,加入到新生產(chǎn)的屬性前綴集合PREnew中;步驟34,如果SUFnew為空,且PREnew為 空,則獲取結(jié)束;否則執(zhí)行步驟35 ;步驟35,使用SUFnew從網(wǎng)頁中獲取概念的候選屬性,并賦值給As',其中As'表示候選屬性的集合;步驟36,驗(yàn)證As ^,得到的正確屬性賦值給As,并將As加入到屬性空間中,其中As表示經(jīng)過驗(yàn)證后的正確屬性的集合;步驟37,從As中訓(xùn)練新的前綴,加入到PREnew中;步驟38,使用PREnew從網(wǎng)頁中獲取概念的候選屬性,并賦值給As';步驟,39,驗(yàn)證As',得到的正確屬性賦值給As,并將As加入到屬性空間屬性空間中;步驟310,清空 PREnew ;步驟311,從As中訓(xùn)練新的后綴,加入到SUFnew中;轉(zhuǎn)步驟34。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟32、步驟311還包括如下步驟步驟41,清空 SUFnew ;步驟42,從輸入?yún)?shù)的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果輸入?yún)?shù)中的屬性都取完,則轉(zhuǎn)步驟46 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟43 ;步驟43,得到A的結(jié)尾詞,標(biāo)記為屬性元AE ;步驟44,如果AE已經(jīng)被當(dāng)做后綴使用過,則轉(zhuǎn)步驟42 ;否則執(zhí)行步驟45 ;步驟45 :如果AE在后綴詞典中,則將AE加入到SUFnew ;否則如果AE在輸入?yún)?shù)中作為結(jié)尾詞的頻率大于等于閾值s,也將AE加入到SUFnew ;轉(zhuǎn)步驟42 ;步驟46 :返回 SUFnew。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟33、步驟37還包括如下步驟步驟51,清空 PREnew ;步驟52,從輸入?yún)?shù)Input的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果Input中的屬性都取完,則轉(zhuǎn)步驟56.否則,標(biāo)記取到的屬性為A,執(zhí)行步驟53 ;步驟53,得到A的開頭詞,標(biāo)記為AE ;步驟54,如果AE已經(jīng)被當(dāng)做前綴使用過,則轉(zhuǎn)步驟52 ;否則執(zhí)行步驟55 ;步驟55,如果AE在前綴詞典中,則將AE加入到PREnew ;否則如果AE在輸入?yún)?shù)中作為開頭詞的頻率大于等于閾值S,也將AE加入到PREnew ;轉(zhuǎn)步驟52 ;步驟56,返回 PREnew。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟35還包括如下步驟步驟61,從SUFnew的第I個(gè)屬性后綴起,所述SUFnew中為屬性后綴,順序地取出下一個(gè)屬性后綴;如果SUFnew中的屬性后綴都取完,則轉(zhuǎn)步驟64 ;否則,標(biāo)記取到的屬性后綴為SUF,執(zhí)行步驟62 ;步驟62,從基于后綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ;步驟63,從Corpus中提取候選屬性,將這些候選屬性加入到As'中;轉(zhuǎn)步驟61 ;
步驟64,返回 As'。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟38還包括如下步驟步驟71,從PREnew的第I個(gè)屬性前綴起,其中PREnew中為屬性前綴,順序地取出下一個(gè)屬性前綴;如果PREnew中的屬性前綴都取完,則轉(zhuǎn)步驟74.否則,標(biāo)記取到的屬性前綴為PRE,執(zhí)行步驟72 ;步驟72,從基于前綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ;步驟73,從Corpus中提取候選屬性,將這些候選屬性加入到As'中,轉(zhuǎn)步驟71 ; 步驟74,返回 As'。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟36、步驟39還包括如下步驟步驟81,對(duì)候選屬性As'進(jìn)行預(yù)處理,得到As";所述As"是經(jīng)過預(yù)處理以后,得到的候選屬性集合;步驟82,對(duì)As"進(jìn)行驗(yàn)證,得到驗(yàn)證后的正確屬性As。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟3中基于相似性的驗(yàn)證模型還包括如下步驟步驟91,在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁被相同的屬性元所依存,那么AE1, AE2之間的相似度較高;反之,則相似度越低;步驟92,在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁修飾相同的屬性元,那么AE1和AE2之間的相似度較高;反之,則相似度越低;步驟93,在屬性元相似度基礎(chǔ)上,以依存對(duì)相似度作為屬性元依存對(duì)之間相似程度的定量表示。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟93還包括如下步驟步驟94,對(duì)于與屬性A有相似關(guān)系的A',若A中的依存對(duì)P能在A'中找到相似的依存對(duì)P',則構(gòu)造從P到P'的映射,稱這個(gè)過程為屬性對(duì)齊;步驟95,判斷正確屬性的強(qiáng)弱程度,使用定量指標(biāo)屬性置信度;步驟96,由A'推導(dǎo)出A的屬性置信度D (A' — A)。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟96還包括如下步驟步驟97,生成屬性置信度 I A1 (A) =D(Ai —A),其中 i = arg Inaxi Sim (Ai, A);步驟98,生成依存對(duì)的置信度I =D1 (P) = D(Ai-P);步驟99,生成屬性置信度 2 D2 (A) = arg Inaxi D (Ai — A);步驟910,生成依存對(duì)的置信度2 =D2⑵=Brgmaxi D (Ai — P);步驟911,生成屬性置信度3 ..D3(A) = YjI0^-DiAi 4 A),其中,t為劃分個(gè)數(shù);
.I SimPair(A ,A) I一加權(quán)系數(shù)2 ~I pair^ I~ ; SimPair (Ai, A)表示Ai與A相似對(duì)的個(gè)數(shù);Pair(A)表示A中依存對(duì)的數(shù)量;選擇t最小化原則進(jìn)行劃分;同時(shí),若t最小時(shí)存在多個(gè)劃分,選擇D3 (A)最大化進(jìn)行劃分。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟82還包括如下步驟步驟121,將Seeds中的所有種子屬性的置信度D標(biāo)記為I ;步驟122,將Seeds和候選屬性As"加入到集合T ;
步驟123,為T構(gòu)造屬性空間圖G ;步驟124,從與Seeds相鄰的候選屬性開始,對(duì)所述圖G做廣度優(yōu)先搜索,計(jì)算As"中所有候選屬性的置信度D。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟123還包括如下步驟步驟131,初始化所述圖G為空; 步驟132,從T的第I個(gè)屬性起,順序地取出下一個(gè)屬性。如果T中的屬性都取完,則結(jié)束步驟123 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟133 ;步驟133,在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性。如果已經(jīng)取不到屬性,則轉(zhuǎn)步驟132 ;否則標(biāo)記當(dāng)前取到的屬性為k',執(zhí)行步驟134 ;步驟134,如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析;步驟135,如果G中不存在節(jié)點(diǎn)V,則在G中為V增加一個(gè)節(jié)點(diǎn),并對(duì)V做屬性元分解和依存關(guān)系解析;步驟136,如果A和V相似,則構(gòu)造從A到V的無向邊;轉(zhuǎn)步驟132。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟123還包括步驟141 :初始化G為空;步驟142 :從T的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果T中的屬性都取完,則結(jié)束步驟123 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟143 ;步驟143 :在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性。如果已經(jīng)取不到屬性,則轉(zhuǎn)步驟142 ;否則標(biāo)記當(dāng)前取到的屬性為k',執(zhí)行步驟144 ;步驟144 :如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析;步驟145 :從A的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);如果A中的依存對(duì)都取完,則轉(zhuǎn)步驟147 ;否則,標(biāo)記取到的依存對(duì)為Pair,執(zhí)行步驟146 ;步驟146 :如果G中存在Pair,則構(gòu)造從Pair到A的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值S,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A的無向邊;步驟147 :如果G中不存在節(jié)點(diǎn)V,則在G中為V增加一個(gè)節(jié)點(diǎn),并對(duì)V做屬性元分解和依存關(guān)系解析;步驟148 =WAi的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);如果Ai中的依存對(duì)都取完,則轉(zhuǎn)步驟1410 ;否則,標(biāo)記取到的依存對(duì)為P,執(zhí)行步驟149 ;步驟149 :如果G中存在Pair,則構(gòu)造從Pair到V的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值s,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A'的無向邊;步驟1410 :如果A和A'相似,則構(gòu)造從A到V的無向邊;轉(zhuǎn)步驟142。所述的迭代式概念屬性名稱自動(dòng)獲取方法,步驟3中對(duì)于候選屬性進(jìn)行驗(yàn)證還包括
步驟151,對(duì)于出現(xiàn)在屬性中 的子序列,如果子序列是屬性依存樹上的二元依存關(guān)系,則子序列為屬性元序列;步驟152,屬性元序列的個(gè)數(shù)為
權(quán)利要求
1.一種迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,包括如下步驟 步驟I,將需要獲取的概念名稱,建立屬性空間,所述屬性空間包含以屬性構(gòu)成的概念名稱; 步驟2,從屬性空間中選擇屬性前綴和/或?qū)傩院缶Y,從網(wǎng)頁中提取候選屬性; 步驟3,采用基于相似性的驗(yàn)證模型對(duì)候選屬性進(jìn)行驗(yàn)證,通過迭代方式擴(kuò)充屬性前綴和/或?qū)傩院缶Y。
2.如權(quán)利要求I所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟I還包括如下步驟 步驟21,屬性空間由屬性構(gòu)成;每個(gè)概念有一組屬性,這些屬性構(gòu)成了此概念的屬性 空間,表達(dá)屬性本質(zhì)的屬性元為中心屬性元,修飾其它屬性元的屬性元為修飾性屬性元;中心屬性元不修飾任何屬性元;在一個(gè)屬性中,除中心屬性元以外的屬性元都是修飾性屬性元; 步驟22,出現(xiàn)在結(jié)尾的中心屬性元,定義為屬性后綴,出現(xiàn)在開頭的修飾性屬性元,定義為屬性前綴。
3.如權(quán)利要求I所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟3之后還包括 步驟4,從候選屬性進(jìn)行驗(yàn)證后,得到正確屬性; 步驟5,對(duì)正確屬性提取新的屬性前綴、屬性后綴,然后繼續(xù)從步驟2開始執(zhí)行。
4.如權(quán)利要求3所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟3中擴(kuò)充屬性前綴、屬性后綴還包括如下步驟 步驟31,將得到的正確屬性作為種子,加入到集合Seeds中; 步驟32,從Seeds中訓(xùn)練新的后綴,加入到新生廣的屬性后綴集合SUFnew中; 步驟33,從Seeds中訓(xùn)練新的前綴,加入到新生產(chǎn)的屬性前綴集合PREnew中; 步驟34,如果SUFnew為空,且PREnew為空,則獲取結(jié)束;否則執(zhí)行步驟35 ; 步驟35,使用SUFnew從網(wǎng)頁中獲取概念的候選屬性,并賦值給As',其中As'表示候選屬性的集合; 步驟36,驗(yàn)證As',得到的正確屬性賦值給As,并將As加入到屬性空間中,其中As表示經(jīng)過驗(yàn)證后的正確屬性的集合; 步驟37,從As中訓(xùn)練新的前綴,加入到PREnew中; 步驟38,使用PREnew從網(wǎng)頁中獲取概念的候選屬性,并賦值給As'; 步驟,39,驗(yàn)證As',得到的正確屬性賦值給As,并將As加入到屬性空間屬性空間中; 步驟310,清空PREnew ; 步驟311,從As中訓(xùn)練新的后綴,加入到SUFnew中;轉(zhuǎn)步驟34。
5.如權(quán)利要求4所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟32、步驟311還包括如下步驟 步驟41,清空SUFnew ; 步驟42,從輸入?yún)?shù)的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果輸入?yún)?shù)中的屬性都取完,則轉(zhuǎn)步驟46 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟43 ; 步驟43,得到A的結(jié)尾詞,標(biāo)記為屬性元AE ;步驟44,如果AE已經(jīng)被當(dāng)做后綴使用過,則轉(zhuǎn)步驟42 ;否則執(zhí)行步驟45 步驟45 :如果AE在后綴詞典中,則將AE加入到SUFnew ;否則如果AE在輸入?yún)?shù)中作為結(jié)尾詞的頻率大于等于閾值s,也將AE加入到SUFnew ;轉(zhuǎn)步驟42 ; 步驟46 :返回SUFnew。
6.如權(quán)利要求4所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟33、步驟37還包括如下步驟 步驟51,清空PREnew ; 步驟52,從輸入?yún)?shù)Input的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果Input中的屬性都取完,則轉(zhuǎn)步驟56.否則,標(biāo)記取到的屬性為A,執(zhí)行步驟53 ; 步驟53,得到A的開頭詞,標(biāo)記為AE ; 步驟54,如果AE已經(jīng)被當(dāng)做前綴使用過,則轉(zhuǎn)步驟52 ;否則執(zhí)行步驟55 ; 步驟55,如果AE在前綴詞典中,則將AE加入到PREnew ;否則如果AE在輸入?yún)?shù)中作為開頭詞的頻率大于等于閾值s,也將AE加入到PREnew ;轉(zhuǎn)步驟52 ; 步驟56,返回PREnew。
7.如權(quán)利要求4所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟35還包括如下步驟 步驟61,從SUFnew的第I個(gè)屬性后綴起,所述SUFnew中為屬性后綴,順序地取出下一個(gè)屬性后綴;如果SUFnew中的屬性后綴都取完,則轉(zhuǎn)步驟64 ;否則,標(biāo)記取到的屬性后綴為SUF,執(zhí)行步驟62 ; 步驟62,從基于后綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ; 步驟63,從Corpus中提取候選屬性,將這些候選屬性加入到As'中;轉(zhuǎn)步驟61 ; 步驟64,返回As' ο
8.如權(quán)利要求4所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟38還包括如下步驟 步驟71,從PREnew的第I個(gè)屬性前綴起,其中PREnew中為屬性前綴,順序地取出下一個(gè)屬性前綴;如果PREnew中的屬性前綴都取完,則轉(zhuǎn)步驟74.否則,標(biāo)記取到的屬性前綴為PRE,執(zhí)行步驟72 ; 步驟72,從基于前綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ; 步驟73,從Corpus中提取候選屬性,將這些候選屬性加入到As'中,轉(zhuǎn)步驟71 ; 步驟74,返回As'。
9.如權(quán)利要求4所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟36、步驟39還包括如下步驟 步驟81,對(duì)候選屬性As'進(jìn)行預(yù)處理,得到As";所述As"是經(jīng)過預(yù)處理以后,得到的候選屬性集合; 步驟82,對(duì)As "進(jìn)行驗(yàn)證,得到驗(yàn)證后的正確屬性As。
10.如權(quán)利要求2所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟3中基于相似性的驗(yàn)證模型還包括如下步驟步驟91,在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁被相同的屬性元所依存,那么AE1, AE2之間的相似度較高;反之,則相似度越低; 步驟92,在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁修飾相同的屬性元,那么AE1和AE2之間的相似度較高;反之,則相似度越低; 步驟93,在屬性元相似度基礎(chǔ)上,以依存對(duì)相似度作為屬性元依存對(duì)之間相似程度的定量表示。
11.如權(quán)利要求10所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟93還包括如下步驟 步驟94,對(duì)于與屬性A有相似關(guān)系的Ai,若A中的依存對(duì)P能在Ai中找到相似的依存對(duì)P,則構(gòu)造從P到P的映射,稱這個(gè)過程為屬性對(duì)齊; 步驟95,判斷正確屬性的強(qiáng)弱程度,使用定量指標(biāo)屬性置信度; 步驟96,由A'推導(dǎo)出A的屬性置信度D(A' — A)。
12.如權(quán)利要求11所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟96還包括如下步驟 步驟 97,生成屬性置信度 I A1 (A) = D(Ai — A),其中 i = arg Iiiaxi Sim(Ai, A); 步驟98,生成依存對(duì)的置信度I =D1⑵=D (Ai — P); 步驟99,生成屬性置信度2 =D2(A) = arg Hiaxi D (Ai — A); 步驟910,生成依存對(duì)的置信度2 =D2(P) = arg Hiaxi D (Ai — P); 步驟911,生成屬性置信度3 ..D3(A) = YjI0^-DiAi -^A),其中,t為劃分個(gè)數(shù); .I SimPair(A , A) I 加權(quán)系數(shù)2 = \Pair[A)\ ; SimPair (Ai, A)表示Ai與A相似對(duì)的個(gè)數(shù); Pair(A)表示A中依存對(duì)的數(shù)量;選擇t最小化原則進(jìn)行劃分;同時(shí),若t最小時(shí)存在多個(gè)劃分,選擇D3 (A)最大化進(jìn)行劃分。
13.如權(quán)利要求9所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟82還包括如下步驟 步驟121,將Seeds中的所有種子屬性的置信度D標(biāo)記為I ; 步驟122,將Seeds和候選屬性As"加入到集合T ; 步驟123,為T構(gòu)造屬性空間圖G ; 步驟124,從與Seeds相鄰的候選屬性開始,對(duì)所述圖G做廣度優(yōu)先搜索,計(jì)算As "中所有候選屬性的置信度D。
14.如權(quán)利要求13所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟123還包括如下步驟 步驟131,初始化所述圖G為空; 步驟132,從T的第I個(gè)屬性起,順序地取出下一個(gè)屬性。如果T中的屬性都取完,則結(jié)束步驟123 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟133 ; 步驟133,在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性。如果已經(jīng)取不到屬性,則轉(zhuǎn)步驟132 ;否則標(biāo)記當(dāng)前取到的屬性為k',執(zhí)行步驟134 ; 步驟134,如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析;步驟135,如果G中不存在節(jié)點(diǎn)Ai,則在G中為Ai增加一個(gè)節(jié)點(diǎn),并對(duì)Ai做屬性元分解和依存關(guān)系解析; 步驟136,如果A和V相似,則構(gòu)造從A到V的無向邊;轉(zhuǎn)步驟132。
15.如權(quán)利要求13所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟123還包括 步驟141 :初始化G為空; 步驟142 :從T的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果T中的屬性都取完,則結(jié)束步驟123 ;否則,標(biāo)記取到的屬性為A,執(zhí)行步驟143 ; 步驟143 :在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性。如果已經(jīng)取不到屬性,則轉(zhuǎn)步驟142 ;否則標(biāo)記當(dāng)前取到的屬性為k',執(zhí)行步驟144 ; 步驟144 :如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析; 步驟145 :從A的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);如果A中的依存對(duì)都取完,則轉(zhuǎn)步驟147 ;否則,標(biāo)記取到的依存對(duì)為Pair,執(zhí)行步驟146 ; 步驟146 :如果G中存在Pair,則構(gòu)造從Pair到A的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值s,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A的無向邊; 步驟147 :如果G中不存在節(jié)點(diǎn)Ai,則在G中為Ai增加一個(gè)節(jié)點(diǎn),并對(duì)Ai做屬性元分解和依存關(guān)系解析; 步驟148 :從Ai的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);如果Ai中的依存對(duì)都取完,則轉(zhuǎn)步驟1410 ;否則,標(biāo)記取到的依存對(duì)為P,執(zhí)行步驟149 ; 步驟149 :如果G中存在Pair,則構(gòu)造從Pair到V的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值s,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A1的無向邊; 步驟1410:如果A和V相似,則構(gòu)造從A到V的無向邊;轉(zhuǎn)步驟142。
16.如權(quán)利要求2所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟3中對(duì)于候選屬性進(jìn)行驗(yàn)證還包括 步驟151,對(duì)于出現(xiàn)在屬性中的子序列,如果子序列是屬性依存樹上的二元依存關(guān)系,則子序列為屬性元序列; 步驟152,屬性元序列的個(gè)數(shù)為巧-1),L1,其中N為屬性元屬性的個(gè)數(shù)。
17.如權(quán)利要求16所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟152還包括 步驟161,出現(xiàn)在屬性中的子序列,如果子序列對(duì)應(yīng)于屬性的屬性元依存樹上的一棵子樹,則子序列為前向?qū)傩栽蛄?;子序列分解為{S1; S2, . . . Sn, AE},其中,S為子序列,η為正整數(shù),{S1; S2, . . . SJ對(duì)應(yīng)于以屬性元AE為父節(jié)點(diǎn);其前向?qū)傩栽蛄械膫€(gè)數(shù)
18.如權(quán)利要求17所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟162之后還包括 步驟171,生成屬性元序列置信度I =D1(S) = D(Si — S),其中i = arg Iiiaxi Sim (Si,S); 步驟172,生成屬性元序列置信度2 =D2(S) = arg Hiaxi D (Si — S)。
19.如權(quán)利要求18所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟161還包括 前向?qū)傩栽蛄杏?jì)算其置信度D(S)的步驟為 步驟181 :如果子序列只有兩個(gè)屬性元,則能夠直接計(jì)算D(S),然后轉(zhuǎn)步驟1812 ;否則,執(zhí)行步驟182 ; 步驟182 :置D (S)為O ; 假設(shè)子序列有k個(gè)屬性元,其中k > 2 ;子序列對(duì)應(yīng)的依存樹的根為HS),且依存樹的根的子樹分別為C1, C2,…匕;其中,η為正整數(shù); 步驟183 :置i = I ; 步驟184 :如果i大于n,則轉(zhuǎn)步驟1812 ;否則執(zhí)行步驟185 ; 步驟185 :找到一個(gè)最大值t,使得屬性元序列AES (Ci, Ci+1. . . Ci+t,r(S))在Table2中存在相似的序列,如果存在t,則在Table2找到最相似的序列,標(biāo)記為AESl,轉(zhuǎn)步驟186 ;否則如果不存在t,則轉(zhuǎn)步驟188; 步驟186 :使用AESl計(jì)算AES (Ci, Ci+1. . . Ci+t,r⑶)的置信度,標(biāo)記其為e,將該值存儲(chǔ)在Table2中,計(jì)算
20.如權(quán)利要求18所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,步驟162還包括 對(duì)屬性元子序列S,令屬性元子序列的屬性元個(gè)數(shù)為N,其中N為正整數(shù),采用后向?qū)傩栽蛄杏?jì)算其置信度D (S)的步驟為 步驟191 :置k = N ; 步驟192 :如果k小于2,則轉(zhuǎn)步驟196 ;否則,執(zhí)行步驟193 ; 步驟193 :為子序列找到一個(gè)長度為k的子序列Stl,保證這個(gè)子序列在Table2中存在相似的序列;如果子序列存在這樣的子序列Stl,則繼續(xù)在Table2找到與Stl那個(gè)最相似的序列,標(biāo)記為AESl,轉(zhuǎn)步驟194 ;否則如果找不到Stl,則轉(zhuǎn)步驟195 ; 步驟194 :使用AESl計(jì)算Stl的置信度,標(biāo)記其為Cltl,將其存儲(chǔ)在Table2中;轉(zhuǎn)步驟196 ; 步驟195 :置k = k-Ι ;轉(zhuǎn)步驟192 ; 步驟196 :為剩下的屬性元集合(S-Stl),找到一個(gè)最大子集M (Me(S-SJ),保證M中得每個(gè)屬性元在Stl中都能找到有依存關(guān)系的屬性元。那么μ和(S-Stl)構(gòu)成了 ImI棵依存子樹{S1;S2,. . . S|M|},調(diào)用后向?qū)傩栽蛄械挠?jì)算這些子樹對(duì)應(yīng)屬性元序列的置信度,令其為W1,d2,. . . d|M|};
21.一種迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,包括 建立屬性空間模塊,用于將需要獲取的概念名稱,建立屬性空間,所述屬性空間包含以屬性構(gòu)成的概念名稱; 屬性前后綴模塊,用于從屬性空間中選擇屬性前綴和/或?qū)傩院缶Y,從網(wǎng)頁中提取候選屬性; 擴(kuò)充屬性模塊,用于采用基于相似性的驗(yàn)證模型對(duì)候選屬性進(jìn)行驗(yàn)證,通過迭代方式擴(kuò)充屬性前綴和/或?qū)傩院缶Y。
22.如權(quán)利要求21所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,建立屬性空間模塊還包括 屬性元模塊,用于屬性空間由屬性構(gòu)成;每個(gè)概念有一組屬性,這些屬性構(gòu)成了此概念的屬性空間,表達(dá)屬性本質(zhì)的屬性元為中心屬性元,修飾其它屬性元的屬性元為修飾性屬性元;中心屬性元不修飾任何屬性元;在一個(gè)屬性中,除中心屬性元以外的屬性元都是修飾性屬性元; 屬性元定義模塊,用于出現(xiàn)在結(jié)尾的中心屬性元,定義為屬性后綴,出現(xiàn)在開頭的修飾性屬性元,定義為屬性前綴。
23.如權(quán)利要求21所述的迭代式概念屬性名稱自動(dòng)獲取方法,其特征在于,還包括 正確屬性模塊,用于從候選屬性進(jìn)行驗(yàn)證后,得到正確屬性; 前后綴提取模塊,用于對(duì)正確屬性提取新的屬性前綴、屬性后綴,然后繼續(xù)從屬性前后綴模塊開始執(zhí)行。
24.如權(quán)利要求23所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,擴(kuò)充屬性模塊還包括 建立種子模塊,用于將得到的正確屬性作為種子,加入到集合Seeds中; 種子中訓(xùn)練后綴模塊,用于從Seeds中訓(xùn)練新的后綴,加入到新生產(chǎn)的屬性后綴集合SUFnew 中; 種子中訓(xùn)練前綴模塊,用于從Seeds中訓(xùn)練新的前綴,加入到新生產(chǎn)的屬性前綴集合PREnew 中; 獲取結(jié)束模塊,用于如果SUFnew為空,且PREnew為空,則獲取結(jié)束; 獲取后綴候選屬性模塊,用于使用SUFnew從網(wǎng)頁中獲取概念的候選屬性,并加入到As1中,其中As'表示候選屬性的集合; 正確屬性賦值模塊,用于驗(yàn)證As',得到的正確屬性賦值給As,并將As加入到屬性空間中,其中As表示經(jīng)過驗(yàn)證后的正確屬性的集合; 正確屬性中訓(xùn)練前綴模塊,用于從As中訓(xùn)練新的前綴,加入到PREnew中; 獲取前綴候選屬性模塊,用于使用PREnew從網(wǎng)頁中獲取概念的候選屬性,并加入到As'中; 清空前綴模塊,用于清空PREnew ; 正確屬性中訓(xùn)練后綴模塊,用于從As中訓(xùn)練新的后綴,加入到SUFnew中。
25.如權(quán)利要求24所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,種子中訓(xùn)練后綴1旲塊、正確屬性中訓(xùn)練后綴1旲塊,還包括 訓(xùn)練后綴模塊,用于清空SUFnew ;從輸入?yún)?shù)的第I個(gè)屬性起,順序地取出下一個(gè)屬性;如果輸入?yún)?shù)中的屬性都取完,則返回SUFnew.否則,標(biāo)記取到的屬性為A,得到A的結(jié)尾詞,標(biāo)記為屬性元AE ;得到A的結(jié)尾詞,標(biāo)記為屬性元AE ;判斷AE是否已經(jīng)被當(dāng)做后綴使用過;如果AE在后綴詞典中,則將AE加入到SUFnew ;否則如果AE在輸入?yún)?shù)中作為結(jié)尾詞的頻率大于等于閾值S,也將AE加入到SUFnew ;返回SUFnew。
26.如權(quán)利要求24所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,種子中訓(xùn)練前綴模塊、正確屬性中訓(xùn)練前綴模塊還包括 訓(xùn)練前綴模塊,用于清空PREnew ;從輸入?yún)?shù)的第I個(gè)屬性起,順序地取出下一個(gè)屬性,如果Input中的屬性都取完,則返回PREnew,否則,標(biāo)記取到的屬性為A,得到A的開頭詞,標(biāo)記為AE ;判斷AE是否已經(jīng)被當(dāng)做前綴使用過;如果AE在前綴詞典中,則將AE加入到PREnew ;否則如果AE在輸入?yún)?shù)中作為開頭詞的頻率大于等于閾值s,也將AE加入到PREnew ;返回 PREnew。
27.如權(quán)利要求24所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,獲取后綴候選屬性模塊還包括 后綴提取模塊,用于從SUFnew的第I個(gè)屬性起,順序地取出下一個(gè)屬性;判斷SUFnew中的屬性是否都取完,標(biāo)記取到的屬性為SUF,從基于后綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ;從Corpus中提取候選屬性,將這些候選屬性加入到As'中;返回As'。
28.如權(quán)利要求24所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,獲取前綴候選屬性模塊還包括 前綴提取模塊,用于從PREnew的第I個(gè)屬性起,順序地取出下一個(gè)屬性;判斷PREnew中的屬性是否都取完,標(biāo)記取到的屬性為PRE,從基于前綴的獲取模式庫中提取模式,生成一組搜索引擎支持的模式,使用這些模式,自動(dòng)地依次從搜索引擎中尋找,得到獲取語料Corpus ;從Corpus中提取候選屬性,將這些候選屬性加入到As'中,返回As'。
29.如權(quán)利要求24所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,正確屬性賦值模塊還包括 預(yù)處理模塊,用于對(duì)候選屬性As'進(jìn)行預(yù)處理,得到As";所述As"是經(jīng)過預(yù)處理以后,得到的候選屬性集合;對(duì)八8"進(jìn)行驗(yàn)證,得到驗(yàn)證后的正確屬性As。
30.如權(quán)利要求22所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,擴(kuò)充屬性模塊還包括 屬性元依存模塊,用于在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁被相同的屬性元所依存,那么AE1, AE2之間的相似度較高;反之,則相似度越低; 屬性元修飾模塊,用于在概念的屬性空間中,如果在屬性空間中兩個(gè)屬性元AE1和AE2頻繁修飾相同的屬性元,那么AE1和AE2之間的相似度較高;反之,則相似度越低; 依存對(duì)模塊,用于在屬性元相似度基礎(chǔ)上,以依存對(duì)相似度作為屬性元依存對(duì)之間相似程度的定量表示。
31.如權(quán)利要求30所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,依存對(duì)模塊還包括 屬性對(duì)齊模塊,用于對(duì)于與屬性A有相似關(guān)系的A',若A中的依存對(duì)P能在A'中找到相似的依存對(duì)P,則構(gòu)造從P到P的映射,稱這個(gè)過程為屬性對(duì)齊; 屬性置信度模塊,用于判斷正確屬性的強(qiáng)弱程度,使用定量指標(biāo)屬性置信度; 置信度推導(dǎo)模塊,用于由A'推導(dǎo)出A的屬性置信度D(A' — A)。
32.如權(quán)利要求31所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,屬性對(duì)齊模塊還包括 置信度推導(dǎo)模塊,用于生成屬性置信度I =D1(A) = D(Ai — A),其中i = arg max,Sim (Ai, A); 生成依存對(duì)的置信度I =D1 (P) = D(Ai-P);生成屬性的直 η度 2 :D2 (A) = arg Iiiaxi D (Ai — A); 生成依存對(duì)的置信度2 =D2 (P) = arg Hiaxi D (Ai — P); 生成屬性置信度
33.如權(quán)利要求29所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,預(yù)處理模塊還包括 構(gòu)造空間圖模塊,用于將Seeds中的所有種子屬性的置信度D標(biāo)記為I J^Seeds和候選屬性As"加入到集合T ;為T構(gòu)造屬性空間圖G ;從與Seeds相鄰的候選屬性開始,對(duì)所述圖G做廣度優(yōu)先搜索,計(jì)算As"中所有候選屬性的置信度D。
34.如權(quán)利要求33所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,構(gòu)造空間圖模塊還包括 空間圖建立模塊,用于初始化所述圖G為空;從T的第I個(gè)屬性起,順序地取出下一個(gè)屬性。判斷T中的屬性是否都取完,標(biāo)記取到的屬性為A,在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性,判斷是否取完,標(biāo)記當(dāng)前取到的屬性為A',如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析;如果G中不存在節(jié)點(diǎn)A',則在G中為A'增加一個(gè)節(jié)點(diǎn),并對(duì)A'做屬性元分解和依存關(guān)系解析;如果A和A'相似,則構(gòu)造從A到A'的無向邊。
35.如權(quán)利要求33所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,構(gòu)造空間圖模塊還包括 依據(jù)置信度空間圖建立模塊,用于初始化G為空;從1~的第I個(gè)屬性起,順序地取出下一個(gè)屬性,判斷T中的屬性是否都取完,標(biāo)記取到的屬性為A,在T中,從A的下一個(gè)屬性起,依次順序地向下取下一個(gè)屬性,判斷是否取完,標(biāo)記當(dāng)前取到的屬性為A',如果G中不存在節(jié)點(diǎn)A,則在G中為A增加一個(gè)節(jié)點(diǎn),并對(duì)A做屬性元分解和依存關(guān)系解析;從A的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);判斷A中的依存對(duì)是否都取完,標(biāo)記取到的依存對(duì)為Pair,如果G中存在Pair,則構(gòu)造從Pair到A的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值S,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A的無向邊;如果G中不存在節(jié)點(diǎn)A',則在G中為A'增加一個(gè)節(jié)點(diǎn),并對(duì)A'做屬性元分解和依存關(guān)系解析;從A'的第I個(gè)依存對(duì)起,順序地取出下一個(gè)依存對(duì);判斷A'中的依存對(duì)是否都取完,標(biāo)記取到的依存對(duì)為P,如果G中存在Pair,則構(gòu)造從Pair到Ai的無向邊;否則,在Tablel中查找Pair的2個(gè)屬性元的位置概率,如果找不到,則計(jì)算并存入到Tablel中;如果這兩個(gè)概率都大于閾值S,則在G中為Pair增加一個(gè)節(jié)點(diǎn),并置Pair的置信度為ASS,構(gòu)造從Pair到A'的無向邊;如果A和A'相似,則構(gòu)造從A到A'的無向邊。
36.如權(quán)利要求22所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,擴(kuò)展屬性模塊還包括 屬性元序列模塊,用于對(duì)出現(xiàn)在屬性中的子序列,如果子序列是屬性依存樹上的二元依存關(guān)系,則子序列為屬性元序列; 序列個(gè)數(shù)模塊,用于屬性元序列的個(gè)數(shù)為/(#)e,其中N為屬性元屬性的個(gè)數(shù)。
37.如權(quán)利要求36所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,序列個(gè)數(shù)模塊還包括 前向?qū)傩栽蛄心K,用于出現(xiàn)在屬性中的子序列,如果子序列對(duì)應(yīng)于屬性的屬性元依存樹上的一棵子樹,則子序列為前向?qū)傩栽蛄?;子序列分解為{Si,S2, . . . Sn, ΑΕ},其中,S為子序列,η為正整數(shù),{S1; S2, . . . SJ對(duì)應(yīng)于以屬性元AE為父節(jié)點(diǎn);其前向?qū)傩栽蛄械膫€(gè)數(shù)人(#)e N-\N{N~l),其中F為前向?qū)傩栽蛄校琋為屬性元屬性的個(gè)數(shù); 后向?qū)傩栽蛄心K,用于對(duì)屬性的屬性元子序列,如果子序列包含中心屬性元,則子序列為后向?qū)傩栽蛄惺菑膶傩缘囊来鏄渲?,任意屬性元到根?jié)點(diǎn)的路徑集合構(gòu)成的序列;其后向?qū)傩栽蛄械膫€(gè)數(shù)fB(N) e其中B為后向?qū)傩栽蛄?,N為屬性元屬性的個(gè)數(shù)。
38.如權(quán)利要求37所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,還包括 生成序列置信度模塊,用于生成屬性元序列置信度I =D1 (S) = D(Si — S),其中i = argIiiaxi Sim (Si, S);生成屬性元序列置信度 2 D2 (S) = arg Iiiaxi D (Si — S)。
39.如權(quán)利要求37所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,前向?qū)傩栽蛄心K還包括 前向?qū)傩栽蛄兄眯哦扔?jì)算模塊,用于如果子序列只有兩個(gè)屬性元,則能夠直接計(jì)算D(S),置D(S)為O ;假設(shè)子序列有k個(gè)屬性元,其中k > 2 ;子序列對(duì)應(yīng)的依存樹的根為r (S),且依存樹的根的子樹分別為C1, C2,…匕;其中,η為正整數(shù);置i = I ;判斷i是否大于n,找到一個(gè)最大值t,使得屬性元序列AES (Ci;Ci+1. . . Ci+t,r (S))在Table2中存在相似的序列,判斷是否存在t,則在Table2找到最相似的序列,標(biāo)記為AESl,使用AESl計(jì)算AES (Ci,Ci+1. . . Ci+t, r(S))的置信度,標(biāo)記其為e,將該值存儲(chǔ)在Table2中,計(jì)算將結(jié)果 k-1累加到D(S)上;置i = i+t+Ι ;調(diào)用前向?qū)傩栽蛄羞f歸的計(jì)算AES(Ci) AES(Ci, r(S)) IciI-I的置信度值,令其分別為P1和P2,將其存儲(chǔ)在Table2中;計(jì)算ΡγΡ2·~#,將其結(jié)果作為序列D(AES(Ci, r(S)))的置信度,并將它存儲(chǔ)在Table2中;計(jì)算&i.p ·ρ將結(jié)果累加 k-1 1 2IlJD(S)上;置i = i+1 ^fD(S)作為S的置信度,將其存儲(chǔ)在Tab I e2中;返回D(S); 其中, Σμ k I和W為加權(quán)系數(shù),為折減系數(shù); k-i k-ι\c, I Hci)表示(Ci)對(duì)應(yīng)的依存樹的根節(jié)點(diǎn); 若AES(Ci; r(S))的置信度的值為且AES(Ci; r(S))在子序列中的依存對(duì)中占的比重為
40.如權(quán)利要求37所述的迭代式概念屬性名稱自動(dòng)獲取系統(tǒng),其特征在于,后向?qū)傩栽蛄心K還包括 后向?qū)傩栽蛄兄眯哦扔?jì)算模塊,用于對(duì)屬性元子序列S,令屬性元子序列的屬性元個(gè)數(shù)為N,其中N為正整數(shù),置k = N ;判斷k是否小于2,為子序列找到一個(gè)長度為k的子序列Stl,保證這個(gè)子序列在Table2中存在相似的序列;如果子序列存在這樣的子序列Stl,判斷繼續(xù)在Table2找到與Stl那個(gè)最相似的序列,標(biāo)記為AESl,否則如果找不到Stl,使用AESl計(jì)算S0的置信度,標(biāo)記其為Cltl,將其存儲(chǔ)在Table2中;置k = k-1 ;為剩下的屬性元集合(S-Stl),找到一個(gè)最大子集M(Me (S-SJ),保證M中得每個(gè)屬性元在Stl中都能找到有依存關(guān)系的屬性兀。那么M和(S-Stl)構(gòu)成了 |M|棵依存子樹{S1; S2, · · · S|M|},調(diào)用后向?qū)傩载P蛄械挠?jì)算這些子樹對(duì)應(yīng)屬性元序列的置信度,令其為W1, d2,. . . d|M|};計(jì)算;^(Cii,
全文摘要
本發(fā)明公開一種迭代式概念屬性名稱自動(dòng)獲取方法和系統(tǒng),其特征在于,所述方法包括如下步驟步驟1,將需要獲取的概念名稱,建立屬性空間,所述屬性空間包含以屬性構(gòu)成的概念名稱;步驟2,從屬性空間中選擇的屬性前綴和/或?qū)傩院缶Y,從網(wǎng)頁中提取候選屬性;步驟3,采用基于相似性的驗(yàn)證模型對(duì)候選屬性進(jìn)行驗(yàn)證,通過迭代方式擴(kuò)充屬性集合。
文檔編號(hào)G06F17/30GK102637202SQ20121006845
公開日2012年8月15日 申請(qǐng)日期2012年3月15日 優(yōu)先權(quán)日2012年3月15日
發(fā)明者曹存根, 汪平仄 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所