1.一種版式文檔中腳注識別方法,其步驟為:
1)從版式文檔中抽取底層信息;
2)根據(jù)該底層信息從該版式文檔中識別出候選腳注區(qū)域;
3)將識別出的每一候選腳注區(qū)域構(gòu)造一特征向量,然后對特征向量進(jìn)行聚類,根據(jù)聚類結(jié)果確定一目標(biāo)特征向量,計(jì)算目標(biāo)特征向量與每一候選腳注區(qū)域的特征向量之間的相似度,剔除相似度小于設(shè)定閾值的候選腳注區(qū)域。
2.一種版式文檔中腳注與腳注引用的關(guān)聯(lián)方法,其步驟為:
1)從版式文檔中抽取底層信息;
2)根據(jù)該底層信息從該版式文檔中識別出候選腳注區(qū)域;
3)將識別出的每一候選腳注區(qū)域構(gòu)造一特征向量,然后對特征向量進(jìn)行聚類,根據(jù)聚類結(jié)果確定一目標(biāo)特征向量,計(jì)算目標(biāo)特征向量與每一候選腳注區(qū)域的特征向量之間的相似度,剔除相似度小于設(shè)定閾值的候選腳注區(qū)域;
4)對經(jīng)步驟3)篩選后得到的候選腳注區(qū)域中的腳注條目進(jìn)行分割;
5)將分割后得到的腳注條目的序號與該版式文檔的正文中的腳注序號進(jìn)行匹配,如果序號對應(yīng)則將該腳注條目與對應(yīng)腳注序號建立關(guān)聯(lián)。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述底層信息包括:字符及其字體、大小、位置信息,路徑信息,平均文本行間距信息。
4.如權(quán)利要求1或2所述的方法,其特征在于,根據(jù)設(shè)定的腳注區(qū)域特征從該版式文檔中識別出候選腳注區(qū)域;其中,設(shè)定的腳注區(qū)域特征包括:位于版式文檔頁面底端、與正文區(qū)域具有視覺分隔、條目編號遵循頁面內(nèi)獨(dú)立編號方式或者頁面間連續(xù)編號方式以及條目采用相同的字體字號。
5.如權(quán)利要求1或2所述的方法,其特征在于,從該版式文檔中識別出候選腳注區(qū)域的方法為:首先利用正則表達(dá)式篩選出以數(shù)字或設(shè)定特殊符號開頭的文本行,記滿足正則表達(dá)式的文本行集合為CTL;然后設(shè)L={l1,l2,…,ln}為該版式文檔當(dāng)前頁面一個(gè)分欄中已排序的所有文本行,檢查是否存在兩個(gè)連續(xù)文本行l(wèi)i,li+1滿足li+1∈CTL,并且li+1的序號N滿足0<N-NMax<λ1或者0<N<λ2,對于滿足條件的兩個(gè)文本行l(wèi)i,li+1,如果li,li+1之間存在視覺分隔區(qū),且位于li+1下方的所有文本行,即文本行集合{li+1,li+2,…,ln}使用相同風(fēng)格的主體字,則將{li+1,li+2,…,ln}構(gòu)成的文本行區(qū)域作為一個(gè)候選腳注區(qū)域;其中NMax是當(dāng)前頁面之前找到的最大的腳注序號,λ1、λ2為兩設(shè)定閾值。
6.如權(quán)利要求1或2所述的方法,其特征在于,所述目標(biāo)特征向量為聚類結(jié)果中最大的簇的中心點(diǎn)。
7.如權(quán)利要求6所述的方法,其特征在于,根據(jù)候選腳注區(qū)與版式文檔正文的視覺分隔區(qū)類型、字體相對大小,候選腳注區(qū)中的序號類型、字體類型構(gòu)造所述特征向量。
8.如權(quán)利要求2所述的方法,其特征在于,所述腳注條目進(jìn)行分割的方法為:對于候選腳注區(qū)域中的文本行,找出以聚類結(jié)果中的序號模式開始的文本行,然后依次將每一個(gè)文本行合并到之前最近的腳注條目起始行,形成一腳注條目。
9.如權(quán)利要求2所述的方法,其特征在于,所述腳注序號的識別方法為:將正文中位于文本行中線以上且字體小于頁面主體字的數(shù)字或用于腳注序號的特殊符號識別為腳注序號。
10.如權(quán)利要求2所述的方法,其特征在于,如果該版式文檔的當(dāng)前頁面正文中未識別出腳注序號,但是存在候選腳注區(qū)域;或者識別出的腳注序號與候選腳注區(qū)域的序號沒有匹配結(jié)果,則剔除該候選腳注區(qū)域。
11.如權(quán)利要求2所述的方法,其特征在于,如果該版式文檔的當(dāng)前頁面正文中有多個(gè)腳注序號與候選腳注區(qū)域中的同一序號匹配,則采用基于SVM的公式定位方法,排除位于公式中的腳注序號;如果經(jīng)過排除后仍有多個(gè)腳注序號與候選腳注區(qū)域中的同一序號匹配,則將這些腳注序號全部與匹配的序號建立鏈接對應(yīng);如果該版式文檔的當(dāng)前頁面正文中沒有候選腳注區(qū)域但存在腳注序號,則降低步驟3)中的設(shè)定閾值,重復(fù)步驟3)~5)。