国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于OCR的編碼方法與流程

      文檔序號(hào):39621493發(fā)布日期:2024-10-11 13:41閱讀:13來(lái)源:國(guó)知局
      一種用于OCR的編碼方法與流程

      本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)領(lǐng)域,特別涉及一種用于ocr的編碼方法。


      背景技術(shù):

      1、字符級(jí)識(shí)別方法:屬于完全監(jiān)督模式,基于cnn的方法對(duì)每個(gè)字符進(jìn)行獨(dú)立預(yù)測(cè)?;舅悸肥菍?duì)n×n大小的圖片不斷卷積和下采樣并擴(kuò)展通道層的維度,直到特征圖變成1×1×c,其中c是通道維度,最后映射成1×v字典長(zhǎng)度的向量,作為字符分類的概率向量。另外,對(duì)字符級(jí)別識(shí)別模型的微調(diào)完全依賴于字典概率的重分配,每次微調(diào)的結(jié)果會(huì)導(dǎo)致不同字符間的正確率出現(xiàn)波動(dòng)。

      2、ctc方法:使用crnn將輸入圖片下采樣并切分為固定為1的切片,例如原始圖片經(jīng)過(guò)歸一化后維度是h×w×3,經(jīng)過(guò)卷積和下采樣后維度變?yōu)?×w/4×c,其中寬度方向的維度w_1=w/4,即為切片的數(shù)量。w/4事實(shí)上是根據(jù)最小字符的寬度確定的,這里假設(shè)最小的字符寬度是4個(gè)像素,若下采樣的比例小于1/4,則有概率會(huì)丟失寬度小的字符。這樣一來(lái),寬度大的字符,每個(gè)字符就會(huì)占據(jù)多個(gè)重復(fù)的切片,ctc的原理就是根據(jù)去重后的最大轉(zhuǎn)移概率得到字符序列。事實(shí)上ctc指的是loss的計(jì)算方式,從損失函數(shù)的設(shè)計(jì)角度上,ctc屬于弱監(jiān)督訓(xùn)練,收斂速度比單字符方法慢一些,但對(duì)樣本的支持種類更多,例如支持序列中帶空格的情況。ctc模型的微調(diào)效果一般會(huì)優(yōu)于字符級(jí)模型,因?yàn)橘|(zhì)量的提升不僅依賴于字典概率的重分配,也依賴于序列的聯(lián)合校正,調(diào)優(yōu)方式多一些。

      3、trocr方法:使用beit+roberta對(duì)原始圖片進(jìn)行編解碼。beit是一種自監(jiān)督訓(xùn)練出來(lái)的圖像token分類編碼模型,推理時(shí)將圖片切分成n×n的網(wǎng)格,每個(gè)網(wǎng)格大小為16×16,為每個(gè)網(wǎng)格預(yù)測(cè)一個(gè)token?id,訓(xùn)練時(shí)需要把每個(gè)token?id映射為與目標(biāo)近似的網(wǎng)格,可以認(rèn)為beit是一種網(wǎng)格聚類。當(dāng)然,在trocr里面,不會(huì)真的去預(yù)測(cè)圖像的token?id,因?yàn)閠oken?id是離散化的信息,既無(wú)法計(jì)算梯度又損失了太多信息,trocr利用beit獲得token的編碼向量并作為解碼器(roberta)的輸入,再解碼出目標(biāo)序列。由于采用了序列到序列的編解碼方法,編碼序列和解碼序列長(zhǎng)度不要求一致,并且每個(gè)解碼過(guò)程中的token都可能與整個(gè)編碼序列全局相關(guān),因此trocr屬于更弱的監(jiān)督訓(xùn)練,收斂速度比較慢,但支持的樣本種類比單字符級(jí)和ctc方法更多,例如支持印章識(shí)別。

      4、對(duì)三種不同技術(shù)的ocr的總結(jié)如下:

      5、


      技術(shù)實(shí)現(xiàn)思路

      1、如圖1所示,單字符識(shí)別方法:對(duì)近似字或不清晰的字識(shí)別精度較差,缺乏聯(lián)合校正能力,不能識(shí)別空格。由于采用全監(jiān)督模式,數(shù)據(jù)標(biāo)注成本高,每個(gè)字符需要標(biāo)出位置和內(nèi)容。

      2、ctc方法:由于ctc方式在編碼階段,高和寬采用不同的采樣率,因此只適用于特定方向的文本圖片。另外,ctc損失函數(shù)假定每個(gè)切片具有唯一分類,因此每個(gè)切片只能屬于某一個(gè)字符,不支持多行、上下標(biāo)、帶分式(如公式)、印章等復(fù)雜布局的圖片,也不支持位置輸出。

      3、如圖2所示,trocr方法:理論上解碼器即可以輸出字符分類結(jié)果,理論上也能輸出位置回歸結(jié)果,但trocr直接沿用beit和roberta預(yù)訓(xùn)練模型,沒(méi)有對(duì)模型進(jìn)行修改,存在以下問(wèn)題:

      4、·trocr采用非等比伸縮的方式將圖片歸一化到固定維度,對(duì)于長(zhǎng)寬比例懸殊的圖片,歸一化后會(huì)嚴(yán)重失真。

      5、·beit的預(yù)訓(xùn)練目標(biāo)是最小化像素級(jí)誤差,類似于低通濾波,而ocr需要識(shí)別筆劃信息(屬于高頻信息),預(yù)訓(xùn)練目標(biāo)不能滿足ocr的需要。

      6、·roberta只支持字符解碼,在沒(méi)對(duì)其輸出結(jié)構(gòu)進(jìn)行修改的情況下,不能輸出位置信息。

      7、·roberta的token字典空間大部分用于英文單詞編碼,每個(gè)中文字符需要用3個(gè)token表示,如果需要支持單字符解碼,英文單詞的編碼空間將會(huì)浪費(fèi),而中文的編碼長(zhǎng)度過(guò)長(zhǎng),會(huì)導(dǎo)致整體解碼序列太長(zhǎng),增加了內(nèi)存使用量并且影響精度。

      8、為了解決上述技術(shù)問(wèn)題,本發(fā)明提出了如下解決方案:

      9、一種用于ocr的編碼方法,其特征在于,包括如下步驟:

      10、步驟1,采集圖片信息時(shí),根據(jù)所述圖片大小按需要切分網(wǎng)格的維度;

      11、步驟2,將反映位置的信息作為所述圖片的位置編碼;

      12、步驟3,將具備混合語(yǔ)義的編碼單元輸出給解碼器進(jìn)行處理。

      13、優(yōu)選地,在所述步驟1之前還包括0-1預(yù)處理步驟,將所述圖片分為預(yù)定大小的區(qū)塊并使得每個(gè)區(qū)域重疊期望的比例,然后在編碼后特征層拼接,從而使得每個(gè)圖片區(qū)域padding的寬/高小于等于預(yù)設(shè)的值。

      14、優(yōu)選地,在所述步驟3中的編碼單元包括resnet圖像特征編碼、featurepyramidnetwork多分辨率特征混合(fpn)和rotary+transformer。

      15、優(yōu)選地,resnet采用bottleneck子結(jié)構(gòu),網(wǎng)絡(luò)維度是768,層數(shù)設(shè)置為[3,4,6,3,2],其中最后三層對(duì)應(yīng)的降采樣率分別為resnet最終為每張圖片輸出最后三層特征圖。

      16、優(yōu)選地,fpn沿用maskrcnn中對(duì)于多層不同分辨率的特征圖的處理方法:采用featurepyramidnetwork,將低分辨率的特征層插值后混合到高分辨率的特征層上,最后形成三個(gè)特征層,并將這三個(gè)特征層展開(kāi)成l×768,作為transformer編碼器的輸入,其中

      17、優(yōu)選地,在rotary+transformer中,roformer是利用rotary編碼在自相關(guān)階段對(duì)點(diǎn)乘向量xi,xj各乘上一個(gè)對(duì)應(yīng)位置的旋轉(zhuǎn)矩陣,即rixi·rjxj,最終效果等同于由于fpn輸出的網(wǎng)格具有二維位置,需要在roformer基礎(chǔ)上做修改,修改方式是將768分為即4×3×64,其中維度3對(duì)應(yīng)層級(jí)、高、寬三級(jí)索引,用l,h,w表示,l∈{0,1,2},因此旋轉(zhuǎn)矩陣分為rl,rh,rw三個(gè),點(diǎn)乘邏輯如下:

      18、

      19、優(yōu)選地,在所述步驟3中,所述解碼器采用bert相同結(jié)構(gòu)的解碼器。

      20、優(yōu)選地,所述解碼器采用2維中心坐標(biāo)加8維相對(duì)坐標(biāo)的方式來(lái)表示位置向量。

      21、優(yōu)選地,對(duì)于公式和印章,將位置標(biāo)簽全部設(shè)置為0,計(jì)算loss時(shí),遇到全0的位置編碼,則不計(jì)算其loss。

      22、優(yōu)選地,所述預(yù)定大小為512×512,所述期望的比例為1/8,所述預(yù)設(shè)的值為448。

      23、本發(fā)明涉及的業(yè)內(nèi)術(shù)語(yǔ)的定義(如果有英文縮寫的請(qǐng)給出中文解釋和英文全稱):

      24、rotary:旋轉(zhuǎn)編碼,具體解釋參考[2104.09864]roformer:enhanced?transformerwith?rotary?position?embedding(arxiv.org)。

      25、decoder:將特征解碼為任務(wù)相關(guān)的輸出。本文中涉及的decoder將向量轉(zhuǎn)換為文本和位置。

      26、ctc:(connectionist?temporal?classification,連接時(shí)序分類),接在神經(jīng)網(wǎng)絡(luò)的最后一層,用于序列學(xué)習(xí),使得模型可以輸出全局最優(yōu)的序列,而非局部最優(yōu)的元素組成的序列。

      27、ocr:(optical?character?recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。

      28、roberta:與bert相同的網(wǎng)絡(luò)結(jié)構(gòu),屬于雙向編碼型transformer,只是在訓(xùn)練機(jī)制和tokenizer設(shè)計(jì)上略有不同,可參考[1907.11692]roberta:a?robustly?optimized?bertpretraining?approach(arxiv.org)。

      29、因此本發(fā)明實(shí)現(xiàn)了如下效果:

      30、(1)對(duì)輸入圖片使用動(dòng)態(tài)維度,適應(yīng)不同長(zhǎng)寬比例的圖片,并降低內(nèi)存使用量。

      31、(2)采用resnet+fpn+rotarytransformer三級(jí)編碼,其中resnet確保了圖像編碼具有二維空間上的視野,fpn使多種分辨率的特征互相融合,rotarytransformer使全局卷積后的圖像編碼具有位置特征。

      32、(3)解碼器使用字符級(jí)tokenizer,使中英文編碼長(zhǎng)度一致(每個(gè)字符一個(gè)id)。

      33、(4)位置解碼采用中心坐標(biāo)加四角偏移的方式編碼,降低了位置回歸的收斂誤差。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1