国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種字符識(shí)別方法和裝置的制造方法

      文檔序號(hào):8412883閱讀:229來(lái)源:國(guó)知局
      一種字符識(shí)別方法和裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種字符識(shí)別方法和裝置。
      【背景技術(shù)】
      [0002]數(shù)字圖片包括多種多樣的信息,例如證件圖片中包含持件人的個(gè)人信息,數(shù)字圖像中包含風(fēng)景、人像等。很多場(chǎng)景下需要計(jì)算機(jī)直接能夠讀出其中的文字信息,這就需要進(jìn)行OCR(optical character recognit1n)光學(xué)字符識(shí)別,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字處理成文本格式,而如何準(zhǔn)確地通過(guò)識(shí)別軟件進(jìn)行文字處理,則是目前進(jìn)行OCR文字識(shí)別的重要技術(shù)課題。
      [0003]隨著我國(guó)信息化建設(shè)的全面開(kāi)展,OCR文字識(shí)別技術(shù)誕生20余年來(lái),經(jīng)歷從實(shí)驗(yàn)室技術(shù)到產(chǎn)品的轉(zhuǎn)變,目前已經(jīng)進(jìn)步行業(yè)應(yīng)用開(kāi)發(fā)的成熟階段。相比發(fā)達(dá)國(guó)家的廣泛應(yīng)用情況,OCR文字識(shí)別技術(shù)在國(guó)內(nèi)各行各業(yè)的應(yīng)用還有著廣闊的空間。隨著國(guó)家信息化建設(shè)進(jìn)入內(nèi)容建設(shè)階段,為OCR文字識(shí)別技術(shù)開(kāi)創(chuàng)了一個(gè)全新的行業(yè)應(yīng)用局面。
      [0004]拍攝或掃描出的圖片中的字體,如一張包含證件的圖片,則可以獲得人物相關(guān)信息,為人物檢索、個(gè)人信息庫(kù)更新、人物相關(guān)度查詢等任務(wù)提供了良好的數(shù)據(jù)來(lái)源,而各類(lèi)圖像中包含的文字大多具有不同的字體、大小及復(fù)雜的拍攝方位,而目前現(xiàn)有技術(shù)中采用的識(shí)別方法,對(duì)于拍攝場(chǎng)景發(fā)生或者拍攝角度發(fā)生變化的文字的應(yīng)變能力低,識(shí)別效率不理想。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明提供一種字符識(shí)別方法和裝置,以解決上述問(wèn)題。
      [0006]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法,包括步驟:
      [0007]步驟A,采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
      [0008]步驟B,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征;
      [0009]步驟C,利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
      [0010]其中,所述步驟A采集包含待識(shí)別字符的字符圖像包括步驟:采集字符的不同方位角度、不同場(chǎng)景的圖像。
      [0011]其中,所述步驟A中進(jìn)行字符圖像預(yù)處理包括步驟:對(duì)字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
      [0012]其中,所述步驟B中進(jìn)行OCR識(shí)別包括步驟:通過(guò)Tesseract-OCR和traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
      [0013]運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存。
      [0014]其中,所述步驟C之后包括步驟:
      [0015]分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像。
      [0016]本發(fā)明實(shí)施例還提供一種字符識(shí)別裝置,包括預(yù)處理模塊、存儲(chǔ)模塊、識(shí)別模塊和訓(xùn)練t吳塊;
      [0017]所述預(yù)處理模塊,用于采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
      [0018]所述存儲(chǔ)模塊,用于將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ);
      [0019]所述識(shí)別模塊,用于采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征;
      [0020]所述訓(xùn)練模塊,用于利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
      [0021]其中,所述預(yù)處理模塊,用于采集字符的不同方位角度、不同場(chǎng)景的圖像。
      [0022]其中,所述預(yù)處理模塊,用于對(duì)字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
      [0023]其中,所述識(shí)別模塊,用于通過(guò)Tesseract-OCR和traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
      [0024]運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存。
      [0025]其中,還包括分布式控制模塊,用于分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像。
      [0026]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法和裝置,采集包含待識(shí)別字符的字符圖像進(jìn)行預(yù)處理;將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,這樣基于在線更新的方式,不斷增加字符特征池中的訓(xùn)練數(shù)據(jù),以更新識(shí)別模型,增加同一字符的多方位特征,能夠?qū)ν蛔址亩嘟嵌然蛘叨鄨?chǎng)景下的圖片具備較好的適應(yīng)性,從而識(shí)別效率提尚。
      【附圖說(shuō)明】
      [0027]圖1為本發(fā)明實(shí)施例提供的字符識(shí)別方法的流程示意圖;
      [0028]圖2為本發(fā)明實(shí)施例提供的字符識(shí)別裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0029]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法和裝置。
      [0030]參見(jiàn)圖1所示,作為一種可實(shí)施方式,該方法包括步驟:
      [0031]步驟S110,采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理。
      [0032]優(yōu)選地,采用Android設(shè)備進(jìn)行圖像采集,在客戶端進(jìn)行字符圖像預(yù)處理,其中包括圖像二值化、噪聲去除、圖像傾斜校正等,處理后的圖像作為OCR字符識(shí)別的數(shù)據(jù)輸入。
      [0033]步驟S111,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征。
      [0034]優(yōu)選地,采用基于web的分布式、高并發(fā)和海量數(shù)據(jù)處理的云計(jì)算架構(gòu),將預(yù)處理后的圖像上傳至云端;存儲(chǔ)到非結(jié)構(gòu)關(guān)系的數(shù)據(jù)庫(kù),同時(shí)分發(fā)至OCR識(shí)別模塊,識(shí)別后將結(jié)果和字符特征存儲(chǔ)至數(shù)據(jù)庫(kù);建立字符特征池,增加同一字符的多方位特征。
      [0035]采用分布式處理方法,借助更新后的字符特征池重新訓(xùn)練字符訓(xùn)練,更新OCR語(yǔ)言庫(kù)。
      [0036]步驟S112,利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
      [0037]即,OCR識(shí)別模塊采用了更新迭代的方法,同一個(gè)字符的特征池里逐漸增加了不同場(chǎng)景中表現(xiàn)出的特征。
      [0038]例如,更新一次數(shù)據(jù)庫(kù)的過(guò)程如下:
      [0039]I)采集字符的不同方位角度的圖像,作為識(shí)別語(yǔ)言庫(kù)更新迭代的樣本集;
      [0040]2)對(duì)樣本集內(nèi)所有圖像進(jìn)行預(yù)處理、傾斜矯正、字符分割等,得到二值化圖像;
      [0041]3)通過(guò)Tesseract-OCR引擎和Google開(kāi)源的中英文traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
      [0042]4)校正識(shí)別結(jié)果,運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存;
      [0043]5)存儲(chǔ)圖像和文字校正結(jié)果至非關(guān)系型數(shù)據(jù)庫(kù),作為字符多個(gè)方位的特征。
      [0044]優(yōu)選地,隨著圖片信息和字符信息等數(shù)據(jù)量的不斷增加,云端的負(fù)擔(dān)將逐漸加重,在實(shí)際操作中采用分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像,即通過(guò)云計(jì)算中的分布式處理很好的解決了這一問(wèn)題。
      [0045]本發(fā)明涉及OCR識(shí)別算法、非結(jié)
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1