国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種表單圖像分類方法

      文檔序號:8922916閱讀:373來源:國知局
      一種表單圖像分類方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于文檔分類與模式識別技術(shù)領(lǐng)域,具體涉及一種基于距離測量的表單圖 像分類方法。
      【背景技術(shù)】
      [0002] 當(dāng)前,在很多業(yè)務(wù)(如銀行、保險、統(tǒng)計等)中,大量的中文表單通過打印/復(fù)印等 形式生成后,傳遞給客戶進行打印填寫或手工填寫,因而導(dǎo)致大量的中文表單以紙質(zhì)形式 存在,給后期的表單自動化處理帶來了許多挑戰(zhàn)與困難。另一方面,為了使辦公更加自動 化,進而能夠從表單中抽取挖掘出有用的信息,對表單自動化處理的需求日益強烈。
      [0003] 表單的自動化處理通常包括紙質(zhì)表單的掃描、讀入、分類、版面分析、識別和編輯 等一系列過程。其中表單分類是表單自動化處理流程中非常關(guān)鍵的步驟,能夠?qū)Π婷娣?析和識別過程進行指導(dǎo),從而使處理流程更加自動化。表單分類的粒度往往因業(yè)務(wù)場景而 不同,文獻"DimensionalityReductionandFeatureSelectionMethodsforScript IdentificationonDocumentImages,inINFORMATIONTECHNOLOGYININDUSTRY" 僅針 對語言進行分類,文獻"ACompleteLogoDetection/RecognitionSystemforDocument Image,inDocumentAnalysisSystems(DAS), 201411thIAPRInternationalWorkshop on.IEEE"根據(jù)是否有印章和商標(biāo)進行分類。本發(fā)明處理的是版面相似中文表單的分類問 題,分類目標(biāo)是將采用不同表單模板的表單區(qū)分開來,即同一類的表單除用戶填寫區(qū)域外 均完全相同。
      [0004] 在銀行和保險等機構(gòu)中,有大量的相似業(yè)務(wù)存在,如"取款"和"存款";另外還有隸 屬于不同銀行或保險機構(gòu)的同一種業(yè)務(wù),如不同銀行的匯款單。這一類中文表單模板通常 有國家的標(biāo)準(zhǔn)設(shè)計要求,因此他們的版面設(shè)計幾乎完全相同,差別只體現(xiàn)在表單標(biāo)題中的 業(yè)務(wù)名稱或銀行名稱和標(biāo)志上。
      [0005] 目前絕大部分表單分類方法都是從表單圖像直接進行特征的提取,有的提取全局 的特征,有的提取局部的線條等結(jié)構(gòu)特征。但是這些方法都不適用于版面相似表單的分類, 因為對于這類表單,這些方法所提取出的特征,尤其是結(jié)構(gòu)特征,幾乎都是相似的特征,區(qū) 分度很小。所以這一類方法在進行表單分類時,常常會被表單的結(jié)構(gòu)相似性所迷惑,從而取 得較差的分類效果。
      [0006] 在實際應(yīng)用當(dāng)中,需要進行分類的中文表單絕大部分是已經(jīng)由用戶填寫好(打印 填寫或手寫填寫)的表單。由于表單的類別差異僅體現(xiàn)在表單版面部分的差異上,與用戶 所填信息無關(guān)。因此對于表單分類任務(wù)而言,可以認為用戶填寫信息是噪聲信息。在此前 提下,版面相似表單的分類主要有以下兩個挑戰(zhàn):
      [0007] 1.用戶所填信息的隨機性。用戶所填信息相對于固定的表單版面是完全因人而異 的,并且同一種類表單的用戶所填信息也不盡相同。因此在提取全局特征時,用戶所填信息 的位置變化以及字體變化等會引起全局特征的變化,造成分類錯誤。
      [0008] 2.中文表單版面部分的區(qū)分信息過少。由于版面相似表單的類別差異只體現(xiàn)在表 單版面部分的差異信息上(如前文所提到的表單標(biāo)題和銀行標(biāo)志等等),差異信息非常有 限,往往只靠標(biāo)題中幾個字符的差別確定表單的種類,但這些差別又會被用戶填寫信息的 差異所掩蓋,導(dǎo)致分類出現(xiàn)錯誤。因此如何最大化地利用這類有限的差異信息成為了版面 相似表單分類的關(guān)鍵和挑戰(zhàn)。在這種情況下,使用單純的歐氏距離進行計算,同類表單之間 的距離很有可能大于不同類表單之間的距離。
      [0009] 表單分類作為表單識別的關(guān)鍵步驟,已經(jīng)引起研宄者的廣泛關(guān)注,大量的表單分 類方法被相繼提出,其中主要的方法類型包括三種,即基于全局特征提取的方法、基于結(jié)構(gòu) 特征的版面分析方法和基于分層特征表達的方法。
      [0010] 1,在全局特征提取方面,有基于字數(shù)、單元格和Haar特征等的方法。文獻 "Imageclassification:Classifyingdistributionsofvisualfeatures.InPattern Recognition. "提出了一種類Haar特征的方法,并使用潛在條件獨立(LatentConditional Independent,LCI)模型來進行表單分類。文獻"Formidentificationbasedoncell structure.InICPR"提出了一種點集匹配技術(shù),將表單中單元格的中心標(biāo)記成點,然后再 對不同的表單進行點集匹配。
      [0011] 2,對表單結(jié)構(gòu)特征的提取也是表單分類中非常有效的手段。文獻"Form classificationusingdpmatching.Proceedingsofthe2000ACMsymposium onAppliedcomputing"提出了基于表單中線段提取的方法,文獻"Businessform classificationusingstrings.InPatternRecognition." 則將線段和文本表不成字符 串進行分類。這一類的方法針對具有明顯結(jié)構(gòu)性版面的表單,取得了較好的效果。
      [0012] 3,對表單特征進行分層表達也是具有較高分類準(zhǔn)確率并且計算復(fù)雜度較低的方 法t文獻"Ahierarchicalrepresentationofformdocumentsforidentificationand retrieval.InInternationalJournalonDocumentAnalysisandRecognition. " 提出 了一種基于X-Y樹的分層方法來表示表單中的矩形結(jié)構(gòu)。文獻"Fine-graineddocument genreclassificationusingfirstorderrandomgraphs.DocumentAnalysisand Recognition"則將表單的物理版面信息提取成多層XY樹,并編碼成固定長度的特征向量, 然后使用神經(jīng)網(wǎng)絡(luò)模型和多層感知機進行分類。
      [0013] 然而,上述方法難以處理相似表單,從相似表單中提取的特征也非常相似,因此往 往將具有相似版面的表單判斷為同一類,從而導(dǎo)致分類錯誤。
      [0014] 另外,文獻"層次型金融票據(jù)圖像分類方法"提出了利用0CR(0pticalCharacter Recognition)識別標(biāo)題從而進行表單分類的方法,并應(yīng)用于金融票據(jù)中,取得了較好的效 果。然而,OCR技術(shù)在表單識別中對表單模板有較大的依賴性,而且錯誤的識別結(jié)果將直接 影響分類正確率;另外基于OCR的方法需要識別大量無關(guān)信息,比較耗時,效率較低。
      [0015] 為此,文獻"Identificationofverysimilarfilled-informswithareject option.InICDAR. "提出了專門針對相似表單的分類算法,該算法首先檢測出相似表單的 標(biāo)志區(qū)域,再用基于距離度量的方法對該區(qū)域進行模板匹配。但是該算法要求利用空白表 單來提取標(biāo)志區(qū)域。在實際應(yīng)用中,由于保密性和安全原因,空白表單通常難以獲取,因此 該方法在實際應(yīng)用時,適用性較弱。
      [0016] 最新的相關(guān)研宄中,文獻"Businessformsclassificationusingearth mover'sdistance,inDocumentAnalysisSystems(DAS) " 等人提出一種基于EMD(Earth Mover'sDistance)的表單分類方法。該方法是利用表單二值化后的連通域面積和連通域 像素點位置信息,將表單灰度圖轉(zhuǎn)化為彩色圖的一種偽彩色編碼算法。實驗證明,該算法 對用戶所填信息的位置變化具有很好的魯棒性,對表單的整體位置偏移也有穩(wěn)定的分類效 果。但是,該算法將表單的標(biāo)題等區(qū)分性信息與其它信息等同處理,未有效利用該類區(qū)分性 信息,導(dǎo)致最
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1