一種字符識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種字符識(shí)別方法和裝置。
【背景技術(shù)】
[0002]數(shù)字圖片包括多種多樣的信息,例如證件圖片中包含持件人的個(gè)人信息,數(shù)字圖像中包含風(fēng)景、人像等。很多場(chǎng)景下需要計(jì)算機(jī)直接能夠讀出其中的文字信息,這就需要進(jìn)行OCR(optical character recognit1n)光學(xué)字符識(shí)別,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字處理成文本格式,而如何準(zhǔn)確地通過(guò)識(shí)別軟件進(jìn)行文字處理,則是目前進(jìn)行OCR文字識(shí)別的重要技術(shù)課題。
[0003]隨著我國(guó)信息化建設(shè)的全面開(kāi)展,OCR文字識(shí)別技術(shù)誕生20余年來(lái),經(jīng)歷從實(shí)驗(yàn)室技術(shù)到產(chǎn)品的轉(zhuǎn)變,目前已經(jīng)進(jìn)步行業(yè)應(yīng)用開(kāi)發(fā)的成熟階段。相比發(fā)達(dá)國(guó)家的廣泛應(yīng)用情況,OCR文字識(shí)別技術(shù)在國(guó)內(nèi)各行各業(yè)的應(yīng)用還有著廣闊的空間。隨著國(guó)家信息化建設(shè)進(jìn)入內(nèi)容建設(shè)階段,為OCR文字識(shí)別技術(shù)開(kāi)創(chuàng)了一個(gè)全新的行業(yè)應(yīng)用局面。
[0004]拍攝或掃描出的圖片中的字體,如一張包含證件的圖片,則可以獲得人物相關(guān)信息,為人物檢索、個(gè)人信息庫(kù)更新、人物相關(guān)度查詢等任務(wù)提供了良好的數(shù)據(jù)來(lái)源,而各類(lèi)圖像中包含的文字大多具有不同的字體、大小及復(fù)雜的拍攝方位,而目前現(xiàn)有技術(shù)中采用的識(shí)別方法,對(duì)于拍攝場(chǎng)景發(fā)生或者拍攝角度發(fā)生變化的文字的應(yīng)變能力低,識(shí)別效率不理想。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種字符識(shí)別方法和裝置,以解決上述問(wèn)題。
[0006]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法,包括步驟:
[0007]步驟A,采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
[0008]步驟B,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征;
[0009]步驟C,利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
[0010]其中,所述步驟A采集包含待識(shí)別字符的字符圖像包括步驟:采集字符的不同方位角度、不同場(chǎng)景的圖像。
[0011]其中,所述步驟A中進(jìn)行字符圖像預(yù)處理包括步驟:對(duì)字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
[0012]其中,所述步驟B中進(jìn)行OCR識(shí)別包括步驟:通過(guò)Tesseract-OCR和traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
[0013]運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存。
[0014]其中,所述步驟C之后包括步驟:
[0015]分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像。
[0016]本發(fā)明實(shí)施例還提供一種字符識(shí)別裝置,包括預(yù)處理模塊、存儲(chǔ)模塊、識(shí)別模塊和訓(xùn)練t吳塊;
[0017]所述預(yù)處理模塊,用于采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
[0018]所述存儲(chǔ)模塊,用于將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ);
[0019]所述識(shí)別模塊,用于采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征;
[0020]所述訓(xùn)練模塊,用于利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
[0021]其中,所述預(yù)處理模塊,用于采集字符的不同方位角度、不同場(chǎng)景的圖像。
[0022]其中,所述預(yù)處理模塊,用于對(duì)字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
[0023]其中,所述識(shí)別模塊,用于通過(guò)Tesseract-OCR和traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
[0024]運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存。
[0025]其中,還包括分布式控制模塊,用于分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像。
[0026]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法和裝置,采集包含待識(shí)別字符的字符圖像進(jìn)行預(yù)處理;將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,這樣基于在線更新的方式,不斷增加字符特征池中的訓(xùn)練數(shù)據(jù),以更新識(shí)別模型,增加同一字符的多方位特征,能夠?qū)ν蛔址亩嘟嵌然蛘叨鄨?chǎng)景下的圖片具備較好的適應(yīng)性,從而識(shí)別效率提尚。
【附圖說(shuō)明】
[0027]圖1為本發(fā)明實(shí)施例提供的字符識(shí)別方法的流程示意圖;
[0028]圖2為本發(fā)明實(shí)施例提供的字符識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0029]本發(fā)明實(shí)施例提供了一種字符識(shí)別方法和裝置。
[0030]參見(jiàn)圖1所示,作為一種可實(shí)施方式,該方法包括步驟:
[0031]步驟S110,采集包含待識(shí)別字符的字符圖像,進(jìn)行字符圖像預(yù)處理。
[0032]優(yōu)選地,采用Android設(shè)備進(jìn)行圖像采集,在客戶端進(jìn)行字符圖像預(yù)處理,其中包括圖像二值化、噪聲去除、圖像傾斜校正等,處理后的圖像作為OCR字符識(shí)別的數(shù)據(jù)輸入。
[0033]步驟S111,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲(chǔ),同時(shí)采用OCR識(shí)別模型進(jìn)行OCR識(shí)別,識(shí)別后將識(shí)別結(jié)果和字符特征存儲(chǔ)至字符特征池中對(duì)應(yīng)的字符下,增加同一字符的多方位特征。
[0034]優(yōu)選地,采用基于web的分布式、高并發(fā)和海量數(shù)據(jù)處理的云計(jì)算架構(gòu),將預(yù)處理后的圖像上傳至云端;存儲(chǔ)到非結(jié)構(gòu)關(guān)系的數(shù)據(jù)庫(kù),同時(shí)分發(fā)至OCR識(shí)別模塊,識(shí)別后將結(jié)果和字符特征存儲(chǔ)至數(shù)據(jù)庫(kù);建立字符特征池,增加同一字符的多方位特征。
[0035]采用分布式處理方法,借助更新后的字符特征池重新訓(xùn)練字符訓(xùn)練,更新OCR語(yǔ)言庫(kù)。
[0036]步驟S112,利用更新后的字符特征池重新訓(xùn)練OCR識(shí)別模型。
[0037]即,OCR識(shí)別模塊采用了更新迭代的方法,同一個(gè)字符的特征池里逐漸增加了不同場(chǎng)景中表現(xiàn)出的特征。
[0038]例如,更新一次數(shù)據(jù)庫(kù)的過(guò)程如下:
[0039]I)采集字符的不同方位角度的圖像,作為識(shí)別語(yǔ)言庫(kù)更新迭代的樣本集;
[0040]2)對(duì)樣本集內(nèi)所有圖像進(jìn)行預(yù)處理、傾斜矯正、字符分割等,得到二值化圖像;
[0041]3)通過(guò)Tesseract-OCR引擎和Google開(kāi)源的中英文traindeddata對(duì)處理后的二值圖像進(jìn)行字符識(shí)別;
[0042]4)校正識(shí)別結(jié)果,運(yùn)用jTessBoxEditor校正識(shí)別結(jié)果并保存;
[0043]5)存儲(chǔ)圖像和文字校正結(jié)果至非關(guān)系型數(shù)據(jù)庫(kù),作為字符多個(gè)方位的特征。
[0044]優(yōu)選地,隨著圖片信息和字符信息等數(shù)據(jù)量的不斷增加,云端的負(fù)擔(dān)將逐漸加重,在實(shí)際操作中采用分布式計(jì)算同步處理識(shí)別校正不同方位的字符圖像,即通過(guò)云計(jì)算中的分布式處理很好的解決了這一問(wèn)題。
[0045]本發(fā)明涉及OCR識(shí)別算法、非結(jié)