一種列表識別方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明所述的列表識別方法及系統(tǒng),對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖元;對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片;針對所述分割片構(gòu)造出無向圖;根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征;根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型;調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。這樣以機器學(xué)習(xí)的方式可以識別列表首行和列表續(xù)行的上下文關(guān)系,最終實現(xiàn)對版式文檔的列表的版面分析及理解,即使列表首行的前導(dǎo)符號變化多樣,也能進行識別,提高了版式文檔中列表識別的準確性。
【專利說明】一種列表識別方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子文檔格式轉(zhuǎn)換【技術(shù)領(lǐng)域】,具體地說是一種列表識別方法與系統(tǒng)。
【背景技術(shù)】
[0002] 根據(jù)版式文檔的生成過程,文檔是數(shù)據(jù)和結(jié)構(gòu)的集合,具體包括內(nèi)容數(shù)據(jù)、物理結(jié) 構(gòu)和邏輯結(jié)構(gòu)。文檔分析是對文檔物理結(jié)構(gòu)進行抽取,而文檔理解則是在物理結(jié)構(gòu)和邏輯 結(jié)構(gòu)之間建立映射關(guān)系。在實際應(yīng)用中,移動設(shè)備的可讀性需求使物理和邏輯結(jié)構(gòu)的恢復(fù) 尤為重要。頁面內(nèi)列表的檢測及識別是文檔理解的重點之一。列表具有其獨立的邏輯功 能,需要對其進行物理劃分和邏輯標簽標定。但列表從視覺上與正文文本段的特征十分近 似,且列表首行的前導(dǎo)符號變化多樣,列表續(xù)行不具備明顯的可區(qū)分性特征,根據(jù)規(guī)則的方 法其識別效果不能滿足實際需求。
[0003] 列表是文檔的重要組成部分,如何準確地識別列表及其列表中的內(nèi)容,對版式文 檔的分析尤其重要?,F(xiàn)有技術(shù)中有一些識別并轉(zhuǎn)換版式文檔中列表的方法,如使用一組規(guī) 則來檢測基于矢量圖形的文檔中的至少一個列表。模式檢測邏輯標識可能開始列表的各字 符、符號、數(shù)字、字母和/或圖像。另外的模式檢測邏輯確定列表是否存在。該系統(tǒng)可以標 識和分析標項目符號的列表、標號的或標字母的列表、以及作為兩者的任意組合的嵌套列 表。該方案的不足在于沒有考慮列表的鄰域信息,鄰域信息包括文本模式、縮進基本、標點、 對齊等特征,當文檔頁面中存在多個列表時,該方案不能識別列表續(xù)行和列表首行的上下 文關(guān)系,文檔整體的識別效果不理想。
【發(fā)明內(nèi)容】
[0004] 為此,為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中的列表識別方法不能識 別列表續(xù)行和列表首行的上下文關(guān)系,從而提出一種可以識別列表首行和續(xù)行的基于概率 圖模型的列表識別方法。
[0005] 為解決上述技術(shù)問題,本發(fā)明的提供一種列表識別方法與系統(tǒng)。
[0006] 一種列表識別方法,包括以下步驟:
[0007] 對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖元;
[0008] 對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片;
[0009] 針對所述分割片構(gòu)造出無向圖;
[0010] 根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征;
[0011] 根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征,訓(xùn) 練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型;
[0012] 調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
[0013] 所述的列表識別方法,所述根據(jù)所述縮進特征、所述分割片的局部特征以及分割 片之間的鄰域關(guān)系特征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型的過程中,所述 學(xué)習(xí)模型為條件隨機場模型,過程包括:
[0014] 提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉(zhuǎn)化為偽 概率,作為條件隨機場模型的一元特征函數(shù);
[0015] 根據(jù)無向圖鄰域關(guān)系,提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
[0016] 所述的列表識別方法,所述對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并 得到分割片的過程中,將文本行中連續(xù)的文本分割到一個分割片中。
[0017] 所述的列表識別方法,所述提取頁面內(nèi)分割文本行時,采用聚類方法。
[0018] 所述的列表識別方法,在所述針對所述分割片構(gòu)造出無向圖的過程中,根據(jù)所述 分割片的鄰域關(guān)系構(gòu)造無向圖。
[0019] 所述的列表識別方法,在所述構(gòu)造無向圖的過程中,采用最小生成樹方法構(gòu)造無 向圖。
[0020] 所述的列表識別方法,所述根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征 的過程,包括檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0021] 所述的列表識別方法,所述分割片的局部特征包括分割片的長寬比、歸一化面積、 縮進級別、圖像紋理特征。
[0022] 所述的列表識別方法,所述提取所述無向圖中每個分割片的局部特征,進行分類, 然后將分類得分轉(zhuǎn)化為偽概率的過程,包括:通過SVM分類器進行分類,選擇RBF徑向基核 函數(shù),將分類得分轉(zhuǎn)化為偽概率。
[0023] 所述的列表識別方法,所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他 前導(dǎo)符號縮進是否一致。
[0024] 一種列表識別系統(tǒng),包括:
[0025] 提取單元:對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖 元;
[0026] 分割單元:對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片;
[0027] 構(gòu)造單元:針對所述分割片構(gòu)造出無向圖;
[0028] 檢測單元:根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征;
[0029] 建模單元:根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān) 系特征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型;
[0030] 調(diào)用單元:調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
[0031] 所述的列表識別系統(tǒng),所述學(xué)習(xí)模型為條件隨機場模型,所述建模單元中,包括:
[0032] 第一特征提取子單元:提取所述無向圖中每個分割片的局部特征,進行分類,然后 將分類得分轉(zhuǎn)化為偽概率,作為條件隨機場模型的一元特征函數(shù);
[0033] 第二特征提取子單元:根據(jù)無向圖鄰域關(guān)系,提取分割片之間的鄰域關(guān)系特征作 為二元特征函數(shù)。
[0034] 所述的列表識別系統(tǒng),所述分割單元中,將文本行中連續(xù)的文本分割到一個分割 片中。
[0035] 所述的列表識別系統(tǒng),所述提取頁面內(nèi)分割文本行時,采用聚類方法。
[0036] 所述的列表識別系統(tǒng),所述構(gòu)造單元中,根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖。
[0037] 所述的列表識別系統(tǒng),所述構(gòu)造單元中,在所述構(gòu)造無向圖時,采用最小生成樹方 法構(gòu)造無向圖。
[0038] 所述的列表識別系統(tǒng),所述檢測單元中,檢測所述前導(dǎo)符號縮進級別、縮進量以及 與其他前導(dǎo)符號縮進是否一致。
[0039] 所述的列表識別系統(tǒng),所述分割片的局部特征包括分割片的長寬比、歸一化面積、 縮進級別、圖像紋理特征。
[0040] 所述的列表識別系統(tǒng),所述第一特征提取子單元中,通過SVM分類器進行分類,選 擇RBF徑向基核函數(shù),將分類得分轉(zhuǎn)化為偽概率。
[0041] 所述的列表識別系統(tǒng),所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他 前導(dǎo)符號縮進是否一致。
[0042] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點:
[0043] ( 1)本發(fā)明所述的列表識別方法及系統(tǒng),對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解 析和分析,提取頁面內(nèi)基本圖元;對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得 到分割片;針對所述分割片構(gòu)造出無向圖;根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮 進特征;根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征,訓(xùn)練 學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型;調(diào)用所述列表識別模型對所需的文檔進行列 表識別,得到識別結(jié)果。這樣對列表進行抽取,并根據(jù)其邏輯功能進行邏輯標簽的標定,以 機器學(xué)習(xí)的方式不僅可以識別列表,還能識別列表首行和列表續(xù)行的上下文關(guān)系,最終實 現(xiàn)對版式文檔的列表的版面分析及理解,即使列表首行的前導(dǎo)符號變化多樣,也能通過對 列表邏輯功能的分析進行識別,提高了版式文檔中列表識別的準確性。
[0044] (2)本發(fā)明所述的列表識別方法,采用條件隨機場模型,根據(jù)由分割片局部特征 獲得一元特征函數(shù)、分割片之間的鄰域關(guān)系特征作為二元特征函數(shù),訓(xùn)練條件隨機場模型 (CRF),多特征設(shè)計分為一元局部特征和二元鄰域特征。一元特征主要來自分割片本身的特 征,二元特征主要來自無向圖的鄰居分割片的關(guān)系特征。CRF模型的目標函數(shù)為負對數(shù)自然 函數(shù)。利用多特征以及各種上下文信息可以極大地減少標注分類的不確定性和模糊性對最 終標記的負面影響。
[0045] (3)本發(fā)明所述的列表識別方法,對文本進行分割時,將文本行中連續(xù)的文本分割 到一個分割片中,根據(jù)文本圖元、圖像圖元一級繪制操作圖元來進行分割,獲得分割片,將 有具有較多相關(guān)性的圖元分在同一個分割片中,為無向圖的構(gòu)造以及分割片特征的提取奠 定基礎(chǔ)。
[0046] (4)本發(fā)明所述的列表識別方法,所述無向圖構(gòu)造步驟中,根據(jù)所述分割片的鄰域 關(guān)系構(gòu)造無向圖,這樣在無向圖中可以體現(xiàn)出分割片的相對位置關(guān)系,通過其鄰居的位置 關(guān)系來生成無向圖,采用最小生成樹方法或三角剖分構(gòu)造無向圖,由于無向圖可以很好的 表示鄰域關(guān)系特征,為提取分割片的局部特征和鄰域關(guān)系特征創(chuàng)造了方便,保證了提取特 征的準確性和高效性。
[0047] (5)本發(fā)明所述的列表識別方法,在所述檢測步驟中,檢測所述前導(dǎo)符號縮進級 另IJ、縮進量以及與其他前導(dǎo)符號縮進是否一致,這樣獲得了所述前導(dǎo)符號的特征,可以更好 的訓(xùn)練和識別前導(dǎo)符號,便于更好的識別和提取列表。
【專利附圖】
【附圖說明】
[0048] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合 附圖,對本發(fā)明作進一步詳細的說明,其中
[0049] 圖1是本發(fā)明的列表識別方法的一個實施例的流程圖;
[0050] 圖2是本發(fā)明的列表識別方法的另一個實施例的流程圖;
[0051] 圖3是本發(fā)明的列表識別方法的另一個實施例的MST最小生成樹不意圖;
[0052] 圖4是本發(fā)明所述的列表識別方法的一個實施例中列表單元和表注的邏輯標簽 示意圖。
【具體實施方式】
[0053] 實施例1
[0054] 本實施例提供一種列表識別方法,如圖1所示,包括以下步驟:
[0055] (1)對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖元。此處 采用現(xiàn)有技術(shù)中的分析工具可以提取并獲得頁面內(nèi)的基本圖元。所述基本圖元中包括了文 本圖元、圖像圖元以及繪制操作信息等。
[0056] (2)對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片。此步驟中, 將文本行中連續(xù)的文本分割到一個分割片中。根據(jù)各個基本圖元的屬性基于周圍圖元的關(guān) 系進行合理的分割,得到分割片。提取頁面內(nèi)分割文本行時,采用聚類方法通過聚類分析的 手段獲得頁面內(nèi)分割問本行。
[0057] (3)針對所述分割片構(gòu)造出無向圖。此時,利用所述分割片的鄰域關(guān)系,采用最小 生成樹方法構(gòu)造無向圖。鄰域關(guān)系也就是與其周圍的分割片的鄰居關(guān)系,位置關(guān)系信息等 鄰域關(guān)系息。
[0058] (4)根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征,即檢測所述前導(dǎo)符號縮 進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致,得到的縮進特征包括前導(dǎo)符號縮進級 另IJ、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0059] (5)根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征, 訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型。此處的訓(xùn)練模型可以選擇條件隨機場模 型,也可以選擇結(jié)構(gòu)化的支持向量機模型(structural SVM),或者其他可以學(xué)習(xí)的模型,通 過上述特征進行訓(xùn)練,機器通過自學(xué)習(xí)的方式,建立列表識別模型。該方法采用一種可學(xué)習(xí) 的模型繼續(xù)訓(xùn)練,提高了模型的可訓(xùn)練程度,從而可以提高建模的效率和精度,保證了列表 識別的準確性。
[0060] (6)調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
[0061] 本發(fā)明所述的識別方法,以機器學(xué)習(xí)的方式不僅可以識別列表,還能識別列表首 行和列表續(xù)行的上下文關(guān)系,最終實現(xiàn)對版式文檔的列表的版面分析及理解,即使列表首 行的前導(dǎo)符號變化多樣,也能通過對列表邏輯功能的分析進行識別,提高了版式文檔中列 表識別的準確性。。
[0062] 作為其他可以替換的實時方式,在所述步驟(5)建立列表識別模型的過程中,所述 學(xué)習(xí)模型可以選擇條件隨機場模型,此處建模的過程為:
[0063] 提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉(zhuǎn)化為偽 概率,作為條件隨機場模型的一元特征函數(shù)。本實施例中,所述分割片的局部特征包括分割 片的長寬比、歸一化面積、縮進級別、圖像紋理特征,將這些特征通過SVM分類器進行分類, 選擇RBF徑向基核函數(shù),將分類得分轉(zhuǎn)化為偽概率,從而獲得一元特征函數(shù)。
[0064] 并根據(jù)無向圖鄰域關(guān)系,提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。然 后將所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征輸入所述條件 隨機場模型中,然后獲得模型參數(shù),并建立了列表識別模型。
[0065] 實施例2 :
[0066] 本實施例提供一種列表識別系統(tǒng),包括:
[0067] 提取單元:對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖 J Li 〇
[0068] 分割單元:對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片。所 述提取頁面內(nèi)分割文本行時,采用聚類方法。將文本行中連續(xù)的文本分割到一個分割片中。 [0069] 構(gòu)造單元:針對所述分割片構(gòu)造出無向圖。根據(jù)所述分割片的鄰域關(guān)系,采用最小 生成樹方法構(gòu)造無向圖。
[0070] 檢測單元:根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征,即檢測所述前導(dǎo) 符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致,得到的縮進特征包括前導(dǎo)符號 縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。。
[0071] 建模單元:根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān) 系特征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型。
[0072] 調(diào)用單元:調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
[0073] 作為優(yōu)選的實施方式,所述建模單元中,所述學(xué)習(xí)模型為條件隨機場模型,所述建 模單元還包括:
[0074] 第一特征提取子單元:提取所述無向圖中每個分割片的局部特征,進行分類,然后 將分類得分轉(zhuǎn)化為偽概率,作為條件隨機場模型的一元特征函數(shù)。所述分割片的局部特征 包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。所述分割片的局部特征通過 SVM分類器進行分類,選擇RBF徑向基核函數(shù),將分類得分轉(zhuǎn)化為偽概率
[0075] 第二特征提取子單元:根據(jù)無向圖鄰域關(guān)系,提取分割片
[0076] 之間的鄰域關(guān)系特征作為二元特征函數(shù)。
[0077] 實施例3 :
[0078] 本實施例所述的列表識別系統(tǒng)對應(yīng)的列表識別方法流程圖如圖2所示,包括以下 步驟:
[0079] ( 1)提取步驟:通過解析引擎對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析,提取頁面 內(nèi)的基本圖元,包括文本圖元、圖像圖元以及繪制操作。所述文本圖元包括文本編碼、字體 類型、字體顏色、字體大小等;所述圖像圖元包括自然圖像和合成圖像;所述繪制操作圖元 信息包括繪制線、繪制圖形操作信息。
[0080] (2)分割步驟:對所述文本圖元、圖像圖元以及繪制操作圖元進行聚類,分割頁面 內(nèi)容,并得到分割片。此處采用聚類分析的方法提取頁面內(nèi)分割文本行,如采用XY-cut方 法。分割片根據(jù)其文本圖元、圖像圖元、繪制操作圖元的區(qū)域類型獲得。
[0081] (3)無向圖構(gòu)造步驟:針對所述分割片構(gòu)造出無向圖。根據(jù)所述分割片的鄰域關(guān) 系構(gòu)造,所述鄰域關(guān)系是指分割片與其周圍的分割片的鄰居關(guān)系,在此采用最小生成樹的 方法構(gòu)造無向圖。
[0082] 最小生成樹(Minimum Spanning Tree, MST)方法及原理具體為:一個有η個結(jié)點 的連通圖的生成樹是原圖的極小連通子圖,且包含原圖中的所有η個結(jié)點,并且有保持圖 連通的最少的邊。在一給定的無向圖G= (V,Ε)中,(u,V)代表連接頂點u與頂點V的邊(即), 而w (u,V)代表此邊的權(quán)重,若存在T為E的子集(S卩)且為無循環(huán)圖,使得的w (T)最小,則 此T為G的最小生成樹。
[0083]
【權(quán)利要求】
1. 一種列表識別方法,其特征在于,包括以下步驟: 對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖元; 對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片; 針對所述分割片構(gòu)造出無向圖; 根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征; 根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征,訓(xùn)練學(xué) 習(xí)模型,獲得模型參數(shù),建立列表識別模型; 調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的列表識別方法,其特征在于,所述根據(jù)所述縮進特征、所述分 割片的局部特征以及分割片之間的鄰域關(guān)系特征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表 識別模型的過程中,所述學(xué)習(xí)模型為條件隨機場模型,過程包括: 提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉(zhuǎn)化為偽概率, 作為條件隨機場模型的一元特征函數(shù); 根據(jù)無向圖鄰域關(guān)系,提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
3. 根據(jù)權(quán)利要求1或2所述的列表識別方法,其特征在于,所述對所述基本圖元進行分 害I],提取頁面內(nèi)分割文本行,并得到分割片的過程中,將文本行中連續(xù)的文本分割到一個分 害片中。
4. 根據(jù)權(quán)利要求1或2或3所述的列表識別方法,其特征在于,所述提取頁面內(nèi)分割文 本行時,采用聚類方法。
5. 根據(jù)權(quán)利要求1-4中任一權(quán)利要求所述的列表識別方法,其特征在于,在所述針對 所述分割片構(gòu)造出無向圖的過程中,利用所述分割片的鄰域關(guān)系構(gòu)造無向圖。
6. 根據(jù)權(quán)利要求1-5中任一權(quán)利要求所述的列表識別方法,其特征在于,在所述構(gòu)造 無向圖的過程中,采用最小生成樹方法或三角剖分方法構(gòu)造無向圖。
7. 根據(jù)權(quán)利要求1-6中任一權(quán)利要求所述的列表識別方法,其特征在于,所述根據(jù)所 述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征的過程,包括檢測所述前導(dǎo)符號縮進級別、縮 進量以及與其他前導(dǎo)符號縮進是否一致。
8. 根據(jù)權(quán)利要求1-7中任一權(quán)利要求所述的列表識別方法,其特征在于,所述分割片 的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
9. 根據(jù)權(quán)利要求2-8中任一權(quán)利要求所述的列表識別方法,其特征在于,所述提取所 述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉(zhuǎn)化為偽概率的過程,包 括:通過SVM分類器進行分類,選擇RBF徑向基核函數(shù),將分類得分轉(zhuǎn)化為偽概率。
10. 根據(jù)權(quán)利要求1-9中任一權(quán)利要求所述的列表識別方法,其特征在于,所述縮進特 征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
11. 一種列表識別系統(tǒng),其特征在于,包括: 提取單元:對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析,提取頁面內(nèi)基本圖元; 分割單元:對所述基本圖元進行分割,提取頁面內(nèi)分割文本行,并得到分割片; 構(gòu)造單元:針對所述分割片構(gòu)造出無向圖; 檢測單元:根據(jù)所述基本圖元的屬性,檢測前導(dǎo)符號的縮進特征; 建模單元:根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特 征,訓(xùn)練學(xué)習(xí)模型,獲得模型參數(shù),建立列表識別模型; 調(diào)用單元:調(diào)用所述列表識別模型對所需的文檔進行列表識別,得到識別結(jié)果。
12. 根據(jù)權(quán)利要求11所述的列表識別系統(tǒng),其特征在于, 所述學(xué)習(xí)模型為條件隨機場模型,所述建模單元中,包括: 第一特征提取子單元:提取所述無向圖中每個分割片的局部特征,進行分類,然后將分 類得分轉(zhuǎn)化為偽概率,作為條件隨機場模型的一元特征函數(shù); 第二特征提取子單元:根據(jù)無向圖鄰域關(guān)系,提取分割片之間的鄰域關(guān)系特征作為二 元特征函數(shù)。
13. 根據(jù)權(quán)利要求11或12所述的列表識別系統(tǒng),其特征在于,所述分割單元中,將文本 行中連續(xù)的文本分割到一個分割片中。
14. 根據(jù)權(quán)利要求11或12或13所述的列表識別系統(tǒng),其特征在于,所述提取頁面內(nèi)分 割文本行時,采用聚類方法。
15. 根據(jù)權(quán)利要求11-14中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述構(gòu)造 單元中,根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖。
16. 根據(jù)權(quán)利要求11-15中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述構(gòu)造 單元中,在所述構(gòu)造無向圖時,采用最小生成樹方法或三角剖分方法構(gòu)造無向圖。
17. 根據(jù)權(quán)利要求11-16中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述檢測 單元中,檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
18. 根據(jù)權(quán)利要求11-17中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述分割 片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
19. 根據(jù)權(quán)利要求12-18中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述第一 特征提取子單元中,通過SVM分類器進行分類,選擇RBF徑向基核函數(shù),將分類得分轉(zhuǎn)化為 偽概率。
20. 根據(jù)權(quán)利要求11-19中任一權(quán)利要求所述的列表識別系統(tǒng),其特征在于,所述縮進 特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
【文檔編號】G06K9/20GK104517106SQ201310455068
【公開日】2015年4月15日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】許燦輝, 湯幟, 徐劍波, 陶欣 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司