国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種針對全框線表格的表格區(qū)域識別提取方法及系統(tǒng)

      文檔序號:40398623發(fā)布日期:2024-12-20 12:22閱讀:12來源:國知局
      本發(fā)明涉及表格檢測和表格結(jié)構(gòu)識別,尤其涉及一種針對全框線表格的表格區(qū)域識別提取方法及系統(tǒng)。
      背景技術(shù)
      ::1、表格區(qū)域文本內(nèi)容識別提取的工作主要集中在表格區(qū)域檢測、表格結(jié)構(gòu)識別和文本字符內(nèi)容識別等方面。目前主流的方法如下:一、使用基于啟發(fā)式規(guī)則或者簡單的機器學(xué)習(xí)算法,依賴于圖像預(yù)處理和文檔分析獲得的線條、文本塊等視覺信息,或者依賴于pdf編碼中自帶的一些文字信息來檢測表格所在區(qū)域并完成表格結(jié)構(gòu)識別;二、將表格檢測作為語義分割或目標(biāo)檢測領(lǐng)域的一個具體應(yīng)用,使用深度學(xué)習(xí)方法進行表格檢測。由于表格的特殊結(jié)構(gòu),因此既可以將行列作為目標(biāo)檢測的對象,也可以將行之間和列之間的分隔符作為目標(biāo)檢測的對象,使用目標(biāo)檢測、圖像分割和圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法進行表格結(jié)構(gòu)識別。2、現(xiàn)有技術(shù)存在的缺點在于:(1)基于啟發(fā)式規(guī)則的表格識別方法設(shè)計起來較為復(fù)雜,在各種場景的表格識別中難以獲得較高的準(zhǔn)確度,而且魯棒性相對較差;(2)深度學(xué)習(xí)方法中針對表格行與列的目標(biāo)檢測與識別在表格結(jié)構(gòu)上取得了很高的識別準(zhǔn)確率,但是對于表格中包含的文本內(nèi)容,單純的整行或整列識別效果不佳;(3)目前,表格檢測和結(jié)構(gòu)識別的研究大多針對pdf或html等結(jié)構(gòu)性文檔,在結(jié)構(gòu)性文檔中表格的位置結(jié)構(gòu)和文本內(nèi)容均有對應(yīng)編碼顯示。隨著手機和掃描儀廣泛用于拍攝和上傳文件,提取受限于無結(jié)構(gòu)文檔圖像中的表格形式信息的需求變得更加迫切。這包括在圖像中準(zhǔn)確檢測表格區(qū)域,并隨后檢測和提取檢測到的表格的行和列中的信息,使得識別提取變得更加困難。此外目前已有的表格檢測識別方法最終的識別結(jié)果只能以準(zhǔn)確率或者命令行的形式顯示,這對操作人員來說帶來了極大的不便,既不能直接使用也不能在此基礎(chǔ)上更新修改表格數(shù)據(jù)。技術(shù)實現(xiàn)思路1、本發(fā)明的目的在于,克服現(xiàn)有技術(shù)存在的技術(shù)缺陷,解決非結(jié)構(gòu)性文檔圖像中表格區(qū)域檢測和結(jié)構(gòu)識別準(zhǔn)確率不高的問題、表格所含文本內(nèi)容識別效果不佳的問題、表格區(qū)域識別提取結(jié)果無法以結(jié)構(gòu)性文檔形式保存顯示的問題,提出一種針對全框線表格的表格區(qū)域識別提取方法及系統(tǒng)。2、為了解決上述技術(shù)問題,本發(fā)明提出一種針對全框線表格的表格區(qū)域識別提取方法,包括如下步驟:3、s1、生成表格文檔圖像數(shù)據(jù)集;4、s2、構(gòu)建tdem端到端深度學(xué)習(xí)模型,包括由vgg-19預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)構(gòu)成的圖像共享編碼層、列區(qū)域識別解碼層和表格總區(qū)域識別解碼層,圖片通過圖像共享編碼層后分別輸入列區(qū)域識別解碼層和表格區(qū)域識別解碼層兩個不同分支,得到表格總區(qū)域和列區(qū)域的掩膜;5、s3、將表格文檔圖像數(shù)據(jù)集中圖像轉(zhuǎn)化為圖像像素水平投影分布直方圖,通過像素水平累加值確定每條行分隔線的縱坐標(biāo);6、s4、進行模型訓(xùn)練,將表格圖像輸入到訓(xùn)練好的模型中,使用tesseract光學(xué)字符識別進行文檔圖像中表格區(qū)域文本內(nèi)容的識別提取并使用excel的格式展示。7、進一步地,所述生成表格文檔圖像數(shù)據(jù)集包括:8、將包含有全框線表格的文檔由pdf/html格式轉(zhuǎn)變?yōu)閖pg、png或者bmp的圖像格式,將轉(zhuǎn)換后的文檔圖像收集整理成全框線表格文檔圖像數(shù)據(jù)集。9、進一步地,所述tdem端到端深度學(xué)習(xí)模型中,圖像共享編碼層具體為:10、將vgg-19的全連接層替換為兩個卷積層,兩個卷積層均使用relu激活函數(shù),然后是一個0.8的丟棄率的丟棄層,之后附加解碼器網(wǎng)絡(luò)的兩個不同分支。11、進一步地,所述列區(qū)域識別解碼層包括:卷積層conv7?column和1x1卷積conv8column層,在1x1卷積conv8?column層之后帶有relu激活函數(shù)和與圖像共享編碼層相同丟棄概率的丟棄層,使用分數(shù)步幅卷積對特征圖進行上采樣;上采樣的特征圖與圖像共享編碼層第四池化層相結(jié)合,然后再與相同維度的圖像共享編碼層第三池化層相結(jié)合,然后將特征圖放大到原始圖像尺寸。12、進一步地,所述表格總區(qū)域識別解碼層使用了額外的1x1卷積層conv7?table,onv7?table層的輸出使用分數(shù)步幅卷積進行放大,并與相同維度的圖像共享編碼層第四池化層相結(jié)合,組合特征圖再次被放大,然后與圖像共享編碼層第三池化層相結(jié)合,然后將特征圖放大到原始圖像尺寸。13、進一步地,所述通過像素水平累加值確定每條行分隔線的縱坐標(biāo)具體為:14、讓n表示表格區(qū)域圖像像素的行數(shù),對于1≤i≤n,選擇滿足a(i)>minhor的所有i,并將它們存儲在數(shù)組h[y]中;閾值minhor通過max(a(i))*p確定;15、基于閾值linehor進一步過濾h[y],如果幾個坐標(biāo)之間的差值小于linehor,那么選擇中值作為行分隔線的最終垂直坐標(biāo),并將最終垂直坐標(biāo)存儲在數(shù)組finlh[y]中;16、其中i代表正在進行像素水平投影累加計算的圖像行數(shù),1≤i≤n,m表示表格區(qū)域圖像像素的列數(shù),uij代表表格區(qū)域每個像素點的值,p是一個超參數(shù),閾值linehor代表行分隔線的最大粗細值;17、其中超參數(shù)和閾值的取值方式為:通過對比輸出的預(yù)測表格行分隔線位置與原表格文本圖像中表格真實的行分割線所在位置,觀察預(yù)測行分割線是否存在與真實行分割線不匹配的問題,進而調(diào)整超參數(shù)和閾值。18、進一步地,所述模型訓(xùn)練過程中,圖像共享編碼層從列區(qū)域識別解碼層和表格區(qū)域識別解碼層接收到的梯度反復(fù)訓(xùn)練,而列區(qū)域識別解碼層和表格區(qū)域識別解碼層則獨立訓(xùn)練。19、根據(jù)說明書的另一方面,本發(fā)明提供了一種針對全框線表格的表格區(qū)域識別提取系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)集生成模塊,表格列與總區(qū)域識別模塊、表格行區(qū)域識別模塊,訓(xùn)練模塊和光學(xué)字符識別模塊;20、所述數(shù)據(jù)集生成模塊用于生成表格文檔圖像數(shù)據(jù)集;21、所述表格列與總區(qū)域識別模塊使用tdem端到端深度學(xué)習(xí)模型輸出表格總區(qū)域和列區(qū)域的掩膜;22、表格行區(qū)域識別模塊將表格文檔圖像數(shù)據(jù)集中圖像轉(zhuǎn)化為圖像像素水平投影分布直方圖,通過像素水平累加值確定每條行分隔線的縱坐標(biāo);23、訓(xùn)練模塊用于訓(xùn)練tdem端到端深度學(xué)習(xí)模型和表格行區(qū)域識別模塊中的算法,24、所述光學(xué)字符識別模塊進行文檔圖像中表格區(qū)域文本內(nèi)容的識別提取并使用excel的格式展示。25、根據(jù)說明書的另一方面,本發(fā)明提供了一種針對全框線表格的表格區(qū)域識別提取裝置,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)所述的一種針對全框線表格的表格區(qū)域識別提取方法。26、根據(jù)說明書的另一方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),其上存儲有程序,所述程序被處理器執(zhí)行時,實現(xiàn)所述的一種針對全框線表格的表格區(qū)域識別提取方法。27、有益效果:28、本發(fā)明將不同格式的非結(jié)構(gòu)性文檔統(tǒng)一保存為圖像格式,避免了因格式不同而導(dǎo)致識別算法應(yīng)用受到限制的問題。29、針對包含表格的文檔圖像設(shè)計了基于單元格分割方式的表格區(qū)域識別提取模型,解決表格識別中對圖像中表格結(jié)構(gòu)和文本內(nèi)容識別困難的問題。30、本發(fā)明利用表格檢測和表格結(jié)構(gòu)識別這兩個相互依賴的任務(wù)之間的內(nèi)在關(guān)聯(lián),即表格和列有公共的區(qū)域,對表格區(qū)域的準(zhǔn)確定位可以極大地提高列檢測的結(jié)果。本發(fā)明模型利用一個基礎(chǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用預(yù)訓(xùn)練的vgg-19特征進行初始化。模型共享vgg-19的編碼層用于表格和列檢測器,而兩個任務(wù)的解碼器是分開的。共享的公共層從表格和列檢測器接收到的梯度反復(fù)訓(xùn)練,而解碼器則獨立訓(xùn)練。然后利用有關(guān)基本數(shù)據(jù)類型的語義信息進一步提升模型性能。實現(xiàn)表格區(qū)域和表格列區(qū)域精確檢測識別,解決了傳統(tǒng)方法無法同時既準(zhǔn)確檢測表格區(qū)域又精確識別表格結(jié)構(gòu)的問題。31、本發(fā)明的識別提取結(jié)果用excel的格式展現(xiàn)給操作人員,直觀明了易于修改。相對于傳統(tǒng)基于啟發(fā)式的表格檢測識別方法通常采用人工設(shè)計的規(guī)則對文檔中的表格區(qū)域進行篩選和識別,本發(fā)明在獲取表格結(jié)構(gòu)與文本內(nèi)容特征時,將會大大降低產(chǎn)生誤差和錯誤的概率,減少造成誤差傳播或累積,大大提升表格區(qū)域文本內(nèi)容識別提取的效果。當(dāng)前第1頁12當(dāng)前第1頁12
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1