一種列表識別方法與系統(tǒng)的制作方法

文檔序號：6514019閱讀：152來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種列表識別方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明所述的列表識別方法及系統(tǒng)，對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；針對所述分割片構(gòu)造出無向圖；根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型；調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。這樣以機器學(xué)習(xí)的方式可以識別列表首行和列表續(xù)行的上下文關(guān)系，最終實現(xiàn)對版式文檔的列表的版面分析及理解，即使列表首行的前導(dǎo)符號變化多樣，也能進行識別，提高了版式文檔中列表識別的準確性。
【專利說明】一種列表識別方法與系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子文檔格式轉(zhuǎn)換【技術(shù)領(lǐng)域】，具體地說是一種列表識別方法與系統(tǒng)。

【背景技術(shù)】
[0002] 根據(jù)版式文檔的生成過程，文檔是數(shù)據(jù)和結(jié)構(gòu)的集合，具體包括內(nèi)容數(shù)據(jù)、物理結(jié) 構(gòu)和邏輯結(jié)構(gòu)。文檔分析是對文檔物理結(jié)構(gòu)進行抽取，而文檔理解則是在物理結(jié)構(gòu)和邏輯結(jié)構(gòu)之間建立映射關(guān)系。在實際應(yīng)用中，移動設(shè)備的可讀性需求使物理和邏輯結(jié)構(gòu)的恢復(fù) 尤為重要。頁面內(nèi)列表的檢測及識別是文檔理解的重點之一。列表具有其獨立的邏輯功能，需要對其進行物理劃分和邏輯標簽標定。但列表從視覺上與正文文本段的特征十分近似，且列表首行的前導(dǎo)符號變化多樣，列表續(xù)行不具備明顯的可區(qū)分性特征，根據(jù)規(guī)則的方法其識別效果不能滿足實際需求。
[0003] 列表是文檔的重要組成部分，如何準確地識別列表及其列表中的內(nèi)容，對版式文檔的分析尤其重要?，F(xiàn)有技術(shù)中有一些識別并轉(zhuǎn)換版式文檔中列表的方法，如使用一組規(guī) 則來檢測基于矢量圖形的文檔中的至少一個列表。模式檢測邏輯標識可能開始列表的各字符、符號、數(shù)字、字母和/或圖像。另外的模式檢測邏輯確定列表是否存在。該系統(tǒng)可以標識和分析標項目符號的列表、標號的或標字母的列表、以及作為兩者的任意組合的嵌套列表。該方案的不足在于沒有考慮列表的鄰域信息，鄰域信息包括文本模式、縮進基本、標點、對齊等特征，當文檔頁面中存在多個列表時，該方案不能識別列表續(xù)行和列表首行的上下文關(guān)系，文檔整體的識別效果不理想。

【發(fā)明內(nèi)容】

[0004] 為此，為此，本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中的列表識別方法不能識別列表續(xù)行和列表首行的上下文關(guān)系，從而提出一種可以識別列表首行和續(xù)行的基于概率圖模型的列表識別方法。
[0005] 為解決上述技術(shù)問題，本發(fā)明的提供一種列表識別方法與系統(tǒng)。
[0006] 一種列表識別方法，包括以下步驟：
[0007] 對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；
[0008] 對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；
[0009] 針對所述分割片構(gòu)造出無向圖；
[0010] 根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；
[0011] 根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn) 練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型；
[0012] 調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
[0013] 所述的列表識別方法，所述根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型的過程中，所述學(xué)習(xí)模型為條件隨機場模型，過程包括：
[0014] 提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)；
[0015] 根據(jù)無向圖鄰域關(guān)系，提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
[0016] 所述的列表識別方法，所述對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片的過程中，將文本行中連續(xù)的文本分割到一個分割片中。
[0017] 所述的列表識別方法，所述提取頁面內(nèi)分割文本行時，采用聚類方法。
[0018] 所述的列表識別方法，在所述針對所述分割片構(gòu)造出無向圖的過程中，根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖。
[0019] 所述的列表識別方法，在所述構(gòu)造無向圖的過程中，采用最小生成樹方法構(gòu)造無向圖。
[0020] 所述的列表識別方法，所述根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征的過程，包括檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0021] 所述的列表識別方法，所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
[0022] 所述的列表識別方法，所述提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率的過程，包括：通過SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率。
[0023] 所述的列表識別方法，所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0024] 一種列表識別系統(tǒng)，包括：
[0025] 提取單元：對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；
[0026] 分割單元：對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；
[0027] 構(gòu)造單元：針對所述分割片構(gòu)造出無向圖；
[0028] 檢測單元：根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；
[0029] 建模單元：根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān) 系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型；
[0030] 調(diào)用單元：調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
[0031] 所述的列表識別系統(tǒng)，所述學(xué)習(xí)模型為條件隨機場模型，所述建模單元中，包括：
[0032] 第一特征提取子單元：提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)；
[0033] 第二特征提取子單元：根據(jù)無向圖鄰域關(guān)系，提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
[0034] 所述的列表識別系統(tǒng)，所述分割單元中，將文本行中連續(xù)的文本分割到一個分割片中。
[0035] 所述的列表識別系統(tǒng)，所述提取頁面內(nèi)分割文本行時，采用聚類方法。
[0036] 所述的列表識別系統(tǒng)，所述構(gòu)造單元中，根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖。
[0037] 所述的列表識別系統(tǒng)，所述構(gòu)造單元中，在所述構(gòu)造無向圖時，采用最小生成樹方法構(gòu)造無向圖。
[0038] 所述的列表識別系統(tǒng)，所述檢測單元中，檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0039] 所述的列表識別系統(tǒng)，所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
[0040] 所述的列表識別系統(tǒng)，所述第一特征提取子單元中，通過SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率。
[0041] 所述的列表識別系統(tǒng)，所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0042] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點：
[0043] ( 1)本發(fā)明所述的列表識別方法及系統(tǒng)，對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；針對所述分割片構(gòu)造出無向圖；根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型；調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。這樣對列表進行抽取，并根據(jù)其邏輯功能進行邏輯標簽的標定，以機器學(xué)習(xí)的方式不僅可以識別列表，還能識別列表首行和列表續(xù)行的上下文關(guān)系，最終實現(xiàn)對版式文檔的列表的版面分析及理解，即使列表首行的前導(dǎo)符號變化多樣，也能通過對列表邏輯功能的分析進行識別，提高了版式文檔中列表識別的準確性。
[0044] (2)本發(fā)明所述的列表識別方法，采用條件隨機場模型，根據(jù)由分割片局部特征獲得一元特征函數(shù)、分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)，訓(xùn)練條件隨機場模型 (CRF)，多特征設(shè)計分為一元局部特征和二元鄰域特征。一元特征主要來自分割片本身的特征，二元特征主要來自無向圖的鄰居分割片的關(guān)系特征。CRF模型的目標函數(shù)為負對數(shù)自然函數(shù)。利用多特征以及各種上下文信息可以極大地減少標注分類的不確定性和模糊性對最終標記的負面影響。
[0045] (3)本發(fā)明所述的列表識別方法，對文本進行分割時，將文本行中連續(xù)的文本分割到一個分割片中，根據(jù)文本圖元、圖像圖元一級繪制操作圖元來進行分割，獲得分割片，將有具有較多相關(guān)性的圖元分在同一個分割片中，為無向圖的構(gòu)造以及分割片特征的提取奠定基礎(chǔ)。
[0046] (4)本發(fā)明所述的列表識別方法，所述無向圖構(gòu)造步驟中，根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖，這樣在無向圖中可以體現(xiàn)出分割片的相對位置關(guān)系，通過其鄰居的位置關(guān)系來生成無向圖，采用最小生成樹方法或三角剖分構(gòu)造無向圖，由于無向圖可以很好的表示鄰域關(guān)系特征，為提取分割片的局部特征和鄰域關(guān)系特征創(chuàng)造了方便，保證了提取特征的準確性和高效性。
[0047] (5)本發(fā)明所述的列表識別方法，在所述檢測步驟中，檢測所述前導(dǎo)符號縮進級另IJ、縮進量以及與其他前導(dǎo)符號縮進是否一致，這樣獲得了所述前導(dǎo)符號的特征，可以更好的訓(xùn)練和識別前導(dǎo)符號，便于更好的識別和提取列表。

【專利附圖】

【附圖說明】
[0048] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解，下面根據(jù)本發(fā)明的具體實施例并結(jié)合附圖，對本發(fā)明作進一步詳細的說明，其中
[0049] 圖1是本發(fā)明的列表識別方法的一個實施例的流程圖；
[0050] 圖2是本發(fā)明的列表識別方法的另一個實施例的流程圖；
[0051] 圖3是本發(fā)明的列表識別方法的另一個實施例的MST最小生成樹不意圖；
[0052] 圖4是本發(fā)明所述的列表識別方法的一個實施例中列表單元和表注的邏輯標簽示意圖。

【具體實施方式】
[0053] 實施例1
[0054] 本實施例提供一種列表識別方法，如圖1所示，包括以下步驟：
[0055] (1)對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元。此處采用現(xiàn)有技術(shù)中的分析工具可以提取并獲得頁面內(nèi)的基本圖元。所述基本圖元中包括了文本圖元、圖像圖元以及繪制操作信息等。
[0056] (2)對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片。此步驟中，將文本行中連續(xù)的文本分割到一個分割片中。根據(jù)各個基本圖元的屬性基于周圍圖元的關(guān) 系進行合理的分割，得到分割片。提取頁面內(nèi)分割文本行時，采用聚類方法通過聚類分析的手段獲得頁面內(nèi)分割問本行。
[0057] (3)針對所述分割片構(gòu)造出無向圖。此時，利用所述分割片的鄰域關(guān)系，采用最小生成樹方法構(gòu)造無向圖。鄰域關(guān)系也就是與其周圍的分割片的鄰居關(guān)系，位置關(guān)系信息等鄰域關(guān)系息。
[0058] (4)根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征，即檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致，得到的縮進特征包括前導(dǎo)符號縮進級另IJ、縮進量以及與其他前導(dǎo)符號縮進是否一致。
[0059] (5)根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型。此處的訓(xùn)練模型可以選擇條件隨機場模型，也可以選擇結(jié)構(gòu)化的支持向量機模型（structural SVM)，或者其他可以學(xué)習(xí)的模型，通過上述特征進行訓(xùn)練，機器通過自學(xué)習(xí)的方式，建立列表識別模型。該方法采用一種可學(xué)習(xí) 的模型繼續(xù)訓(xùn)練，提高了模型的可訓(xùn)練程度，從而可以提高建模的效率和精度，保證了列表識別的準確性。
[0060] (6)調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
[0061] 本發(fā)明所述的識別方法，以機器學(xué)習(xí)的方式不僅可以識別列表，還能識別列表首行和列表續(xù)行的上下文關(guān)系，最終實現(xiàn)對版式文檔的列表的版面分析及理解，即使列表首行的前導(dǎo)符號變化多樣，也能通過對列表邏輯功能的分析進行識別，提高了版式文檔中列表識別的準確性。。
[0062] 作為其他可以替換的實時方式，在所述步驟（5)建立列表識別模型的過程中，所述學(xué)習(xí)模型可以選擇條件隨機場模型，此處建模的過程為：
[0063] 提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)。本實施例中，所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征，將這些特征通過SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率，從而獲得一元特征函數(shù)。
[0064] 并根據(jù)無向圖鄰域關(guān)系，提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。然后將所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征輸入所述條件隨機場模型中，然后獲得模型參數(shù)，并建立了列表識別模型。
[0065] 實施例2 :
[0066] 本實施例提供一種列表識別系統(tǒng)，包括：
[0067] 提取單元：對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖 J Li 〇
[0068] 分割單元：對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片。所述提取頁面內(nèi)分割文本行時，采用聚類方法。將文本行中連續(xù)的文本分割到一個分割片中。 [0069] 構(gòu)造單元：針對所述分割片構(gòu)造出無向圖。根據(jù)所述分割片的鄰域關(guān)系，采用最小生成樹方法構(gòu)造無向圖。
[0070] 檢測單元：根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征，即檢測所述前導(dǎo) 符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致，得到的縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。。
[0071] 建模單元：根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān) 系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型。
[0072] 調(diào)用單元：調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
[0073] 作為優(yōu)選的實施方式，所述建模單元中，所述學(xué)習(xí)模型為條件隨機場模型，所述建模單元還包括：
[0074] 第一特征提取子單元：提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)。所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。所述分割片的局部特征通過 SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率
[0075] 第二特征提取子單元：根據(jù)無向圖鄰域關(guān)系，提取分割片
[0076] 之間的鄰域關(guān)系特征作為二元特征函數(shù)。
[0077] 實施例3 :
[0078] 本實施例所述的列表識別系統(tǒng)對應(yīng)的列表識別方法流程圖如圖2所示，包括以下步驟：
[0079] ( 1)提取步驟：通過解析引擎對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析，提取頁面內(nèi)的基本圖元，包括文本圖元、圖像圖元以及繪制操作。所述文本圖元包括文本編碼、字體類型、字體顏色、字體大小等；所述圖像圖元包括自然圖像和合成圖像；所述繪制操作圖元信息包括繪制線、繪制圖形操作信息。
[0080] (2)分割步驟：對所述文本圖元、圖像圖元以及繪制操作圖元進行聚類，分割頁面內(nèi)容，并得到分割片。此處采用聚類分析的方法提取頁面內(nèi)分割文本行，如采用XY-cut方法。分割片根據(jù)其文本圖元、圖像圖元、繪制操作圖元的區(qū)域類型獲得。
[0081] (3)無向圖構(gòu)造步驟：針對所述分割片構(gòu)造出無向圖。根據(jù)所述分割片的鄰域關(guān) 系構(gòu)造，所述鄰域關(guān)系是指分割片與其周圍的分割片的鄰居關(guān)系，在此采用最小生成樹的方法構(gòu)造無向圖。
[0082] 最小生成樹（Minimum Spanning Tree, MST)方法及原理具體為：一個有η個結(jié)點的連通圖的生成樹是原圖的極小連通子圖，且包含原圖中的所有η個結(jié)點，并且有保持圖連通的最少的邊。在一給定的無向圖G= (V，Ε)中，（u，V)代表連接頂點u與頂點V的邊(即)，而w (u，V)代表此邊的權(quán)重，若存在T為E的子集（S卩）且為無循環(huán)圖，使得的w (T)最小，則此T為G的最小生成樹。
[0083]

【權(quán)利要求】
1. 一種列表識別方法，其特征在于，包括以下步驟：對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；針對所述分割片構(gòu)造出無向圖；根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué) 習(xí)模型，獲得模型參數(shù)，建立列表識別模型；調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的列表識別方法，其特征在于，所述根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型的過程中，所述學(xué)習(xí)模型為條件隨機場模型，過程包括：提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)；根據(jù)無向圖鄰域關(guān)系，提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
3. 根據(jù)權(quán)利要求1或2所述的列表識別方法，其特征在于，所述對所述基本圖元進行分害I]，提取頁面內(nèi)分割文本行，并得到分割片的過程中，將文本行中連續(xù)的文本分割到一個分害片中。
4. 根據(jù)權(quán)利要求1或2或3所述的列表識別方法，其特征在于，所述提取頁面內(nèi)分割文本行時，采用聚類方法。
5. 根據(jù)權(quán)利要求1-4中任一權(quán)利要求所述的列表識別方法，其特征在于，在所述針對所述分割片構(gòu)造出無向圖的過程中，利用所述分割片的鄰域關(guān)系構(gòu)造無向圖。
6. 根據(jù)權(quán)利要求1-5中任一權(quán)利要求所述的列表識別方法，其特征在于，在所述構(gòu)造無向圖的過程中，采用最小生成樹方法或三角剖分方法構(gòu)造無向圖。
7. 根據(jù)權(quán)利要求1-6中任一權(quán)利要求所述的列表識別方法，其特征在于，所述根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征的過程，包括檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
8. 根據(jù)權(quán)利要求1-7中任一權(quán)利要求所述的列表識別方法，其特征在于，所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
9. 根據(jù)權(quán)利要求2-8中任一權(quán)利要求所述的列表識別方法，其特征在于，所述提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率的過程，包括：通過SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率。
10. 根據(jù)權(quán)利要求1-9中任一權(quán)利要求所述的列表識別方法，其特征在于，所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
11. 一種列表識別系統(tǒng)，其特征在于，包括：提取單元：對原始版式文檔內(nèi)的元數(shù)據(jù)信息進行解析和分析，提取頁面內(nèi)基本圖元；分割單元：對所述基本圖元進行分割，提取頁面內(nèi)分割文本行，并得到分割片；構(gòu)造單元：針對所述分割片構(gòu)造出無向圖；檢測單元：根據(jù)所述基本圖元的屬性，檢測前導(dǎo)符號的縮進特征；建模單元：根據(jù)所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關(guān)系特征，訓(xùn)練學(xué)習(xí)模型，獲得模型參數(shù)，建立列表識別模型；調(diào)用單元：調(diào)用所述列表識別模型對所需的文檔進行列表識別，得到識別結(jié)果。
12. 根據(jù)權(quán)利要求11所述的列表識別系統(tǒng)，其特征在于，所述學(xué)習(xí)模型為條件隨機場模型，所述建模單元中，包括：第一特征提取子單元：提取所述無向圖中每個分割片的局部特征，進行分類，然后將分類得分轉(zhuǎn)化為偽概率，作為條件隨機場模型的一元特征函數(shù)；第二特征提取子單元：根據(jù)無向圖鄰域關(guān)系，提取分割片之間的鄰域關(guān)系特征作為二元特征函數(shù)。
13. 根據(jù)權(quán)利要求11或12所述的列表識別系統(tǒng)，其特征在于，所述分割單元中，將文本行中連續(xù)的文本分割到一個分割片中。
14. 根據(jù)權(quán)利要求11或12或13所述的列表識別系統(tǒng)，其特征在于，所述提取頁面內(nèi)分割文本行時，采用聚類方法。
15. 根據(jù)權(quán)利要求11-14中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述構(gòu)造單元中，根據(jù)所述分割片的鄰域關(guān)系構(gòu)造無向圖。
16. 根據(jù)權(quán)利要求11-15中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述構(gòu)造單元中，在所述構(gòu)造無向圖時，采用最小生成樹方法或三角剖分方法構(gòu)造無向圖。
17. 根據(jù)權(quán)利要求11-16中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述檢測單元中，檢測所述前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
18. 根據(jù)權(quán)利要求11-17中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
19. 根據(jù)權(quán)利要求12-18中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述第一特征提取子單元中，通過SVM分類器進行分類，選擇RBF徑向基核函數(shù)，將分類得分轉(zhuǎn)化為偽概率。
20. 根據(jù)權(quán)利要求11-19中任一權(quán)利要求所述的列表識別系統(tǒng)，其特征在于，所述縮進特征包括前導(dǎo)符號縮進級別、縮進量以及與其他前導(dǎo)符號縮進是否一致。
【文檔編號】G06K9/20GK104517106SQ201310455068
【公開日】2015年4月15日申請日期:2013年9月29日優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】許燦輝, 湯幟, 徐劍波, 陶欣申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許燦輝;湯幟;徐劍波;陶欣;
技術(shù)所有人：北大方正集團有限公司;北京方正阿帕比技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

系統(tǒng)識別的常用方法相關(guān)技術(shù)

車牌識別系統(tǒng)相關(guān)技術(shù)

人臉識別系統(tǒng)相關(guān)技術(shù)

江西車牌識別系統(tǒng)b2b相關(guān)技術(shù)

納稅人識別號查詢系統(tǒng)相關(guān)技術(shù)

視覺識別系統(tǒng)相關(guān)技術(shù)

人臉識別門禁系統(tǒng)相關(guān)技術(shù)

車牌識別停車場系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種列表識別方法與系統(tǒng)的制作方法