字符識(shí)別方法和字符識(shí)別系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種票據(jù)的字符識(shí)別方法和字符識(shí)別系統(tǒng)。該字符識(shí)別方法包括以下步驟:利用用戶終端獲取待識(shí)別票據(jù)的圖像;將圖像上傳至服務(wù)器,其中,服務(wù)器包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,基本識(shí)別庫和擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,并且,基本識(shí)別庫中的字符樣本的數(shù)量小于擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量;調(diào)用基本識(shí)別庫,對(duì)圖像進(jìn)行基本字符識(shí)別;確定識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率;當(dāng)識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),將圖像存儲(chǔ)到第一存儲(chǔ)區(qū),當(dāng)識(shí)別錯(cuò)誤率大于第一閾值時(shí),將圖像存儲(chǔ)到第二存儲(chǔ)區(qū);對(duì)于存儲(chǔ)在第二存儲(chǔ)區(qū)的圖像,調(diào)用擴(kuò)展識(shí)別庫,對(duì)圖像進(jìn)行擴(kuò)展字符識(shí)別。
【專利說明】
字符識(shí)別方法和字符識(shí)別系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像處理,特別涉及一種票據(jù)的字符識(shí)別方法和字符識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]0CR(0ptical Character Recognit1n)光學(xué)字符識(shí)別,更多的涉及信息技術(shù)及自動(dòng)化方面,目前應(yīng)用廣泛的有汽車牌照的識(shí)別、銀行等財(cái)務(wù)辦公的票據(jù)識(shí)別、及部分名片識(shí)別的應(yīng)用等。在車牌及銀行票據(jù)方面的識(shí)別更多的需要硬件設(shè)備的輔助支持,例如專業(yè)的掃描儀及拍照設(shè)備。
[0003]常規(guī)OCR識(shí)別,只是識(shí)別排列組合有限的車牌及相對(duì)比較統(tǒng)一規(guī)范的銀行票據(jù)。因?yàn)樽R(shí)別圖像的內(nèi)容相對(duì)固定簡(jiǎn)單。
[0004]例如,車牌識(shí)別,排列組合英文大寫字母加上O到9的數(shù)字即可,內(nèi)容相對(duì)簡(jiǎn)單,系統(tǒng)的不斷優(yōu)化學(xué)習(xí)過程相對(duì)容易。
[0005]銀行票據(jù)的識(shí)別,通過硬件設(shè)備掃描儀進(jìn)行相對(duì)高質(zhì)量的圖像掃碼進(jìn)而得到清晰的圖像光學(xué)信息,同時(shí)銀行的財(cái)務(wù)票據(jù)的格式相對(duì)統(tǒng)一固定,故此模板相對(duì)一致,與車牌識(shí)別相似只要完成固定的系統(tǒng)優(yōu)化即可得到相對(duì)高識(shí)別率的結(jié)果。
[0006]由于識(shí)別系統(tǒng)對(duì)識(shí)別內(nèi)容的完整性、清晰度及制式化的模板要求,故此在更為廣泛的個(gè)人應(yīng)用上存在缺陷及瓶頸,同時(shí)因?yàn)橛布O(shè)備的使用及個(gè)人應(yīng)用的非固定性局限著識(shí)別的廣泛應(yīng)用。
[0007]例如,隨著人們生活水平的提高,超市購物變得越發(fā)普及,超市購物憑證(下稱超市小票)中記載了大量的消費(fèi)者消費(fèi)信息,這些數(shù)據(jù)對(duì)于商家或第三方進(jìn)行分析非常重要。然而,目前主要是通過人工收集和錄入這些信息,非常耗時(shí)耗力,而將OCR應(yīng)用到超市小票識(shí)別上會(huì)遇到很多問題。
[0008]這是因?yàn)槌行∑钡腛CR識(shí)別存在很多技術(shù)難點(diǎn)。
[0009]—方面,超市小票的打印存在很多不確定因素。比如說,有些超市采用的是針式打印而有些采用的墨式打印。針式打印小票的OCR識(shí)別率較高,而墨式打印,因?yàn)槭悄瑫?huì)穿透紙張,造成字體不清楚。如果紙張質(zhì)量不好,識(shí)別率很難令人滿意。而且,用戶對(duì)超市小票的不當(dāng)保管可能會(huì)造成褶皺,這對(duì)識(shí)別造成了影響。此外,利用現(xiàn)有的掃描設(shè)備來獲取超市小票的圖像存在諸多不便之處,隨著移動(dòng)終端的普及,更希望用戶通過自己的移動(dòng)終端進(jìn)行拍照來獲取超市小票的圖像進(jìn)行字符識(shí)別。但是在這種情況下,移動(dòng)終端的成像元件的分辨率、拍攝時(shí)的光照條件、用戶手部的抖動(dòng)等,均會(huì)造成所獲取的圖像的不清楚,給識(shí)別帶來了更多的難題。
[0010]另一方面,在通過采集小票圖像進(jìn)行OCR識(shí)別從而統(tǒng)計(jì)消費(fèi)者的各項(xiàng)消費(fèi)數(shù)據(jù)的情況下,由于小票數(shù)量非常巨大,對(duì)于識(shí)別引擎造成了很大的壓力,導(dǎo)致識(shí)別效率低下。上述因素造成了 OCR在超市小票識(shí)別方面普及率很低。
【發(fā)明內(nèi)容】
[0011]本發(fā)明針對(duì)OCR在超市小票識(shí)別方面的難題,提供了一種票據(jù)的字符識(shí)別方法和字符識(shí)別系統(tǒng)。
[0012]根據(jù)本發(fā)明的第一方面,一種票據(jù)的字符識(shí)別方法包括以下步驟:圖像獲取步驟,利用用戶終端獲取待識(shí)別票據(jù)的圖像;圖像上傳步驟,將所述待識(shí)別票據(jù)的圖像上傳至服務(wù)器,其中,所述服務(wù)器包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,并且,所述基本識(shí)別庫中的字符樣本的數(shù)量小于所述擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量;基本字符識(shí)別步驟,調(diào)用所述基本識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述基本識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述基本字符識(shí)別;識(shí)別錯(cuò)誤率計(jì)算步驟,確定識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,所述識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比;圖像存儲(chǔ)步驟,當(dāng)所述識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第一存儲(chǔ)區(qū),當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū);擴(kuò)展字符識(shí)別步驟,對(duì)于存儲(chǔ)在所述第二存儲(chǔ)區(qū)的所述待識(shí)別票據(jù)的圖像,調(diào)用所述擴(kuò)展識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述圖像進(jìn)行所述擴(kuò)展字符識(shí)別。
[0013]根據(jù)本發(fā)明的第二方面,所述擴(kuò)展識(shí)別庫中比所述基本識(shí)別庫中多出的字符樣本包含對(duì)應(yīng)字符的異常形態(tài),用于識(shí)別所述待識(shí)別票據(jù)的圖像中的異常字符。
[0014]根據(jù)本發(fā)明的第三方面,在所述擴(kuò)展字符識(shí)別步驟中,對(duì)于存儲(chǔ)在所述第二存儲(chǔ)區(qū)中的所述待識(shí)別票據(jù)的圖像,在調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率小于等于所述第一閾值,則將所述待識(shí)別票據(jù)的圖像從所述第二存儲(chǔ)區(qū)轉(zhuǎn)移到所述第一存儲(chǔ)區(qū)。
[0015]根據(jù)本發(fā)明的第四方面,所述擴(kuò)展字符識(shí)別步驟還包括:如果識(shí)別錯(cuò)誤率小于等于所述第一閾值,則將成功識(shí)別的所述待識(shí)別票據(jù)的圖像中的異常字符作為字符樣本補(bǔ)充到所述基本識(shí)別庫中。
[0016]根據(jù)本發(fā)明的第五方面,所述服務(wù)器還包括第三存儲(chǔ)區(qū),并且所述圖像存儲(chǔ)步驟還包括:當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值且小于第二閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū),當(dāng)所述識(shí)別錯(cuò)誤率大于所述第二閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第三存儲(chǔ)區(qū),其中,所述第二閾值大于所述第一閾值,其中,所述第二閾值大于所述第一閾值,并且所述擴(kuò)展字符識(shí)別步驟還包括:對(duì)于存儲(chǔ)在所述第三存儲(chǔ)區(qū)的所述待識(shí)別票據(jù)的圖像,調(diào)用所述擴(kuò)展識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述擴(kuò)展字符識(shí)別。
[0017]根據(jù)本發(fā)明的第六方面,在所述擴(kuò)展字符識(shí)別步驟中,對(duì)于存儲(chǔ)在所述第三存儲(chǔ)區(qū)中的所述待識(shí)別票據(jù)的圖像,在每次調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率大于所述第一閾值且小于等于所述第二閾值,則將所述待識(shí)別票據(jù)的圖像從所述第三存儲(chǔ)區(qū)轉(zhuǎn)移到所述第二存儲(chǔ)區(qū)。
[0018]根據(jù)本發(fā)明的第七方面,所述擴(kuò)展字符識(shí)別步驟還包括:如果識(shí)別錯(cuò)誤率大于所述第一閾值且小于等于所述第二閾值,則將成功識(shí)別的所述待識(shí)別票據(jù)的圖像中的異常字符作為字符樣本補(bǔ)充到所述擴(kuò)展識(shí)別庫中。
[0019]根據(jù)本發(fā)明的第八方面,在所述擴(kuò)展字符識(shí)別步驟中,反復(fù)調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別。
[0020]根據(jù)本發(fā)明的第九方面,所述票據(jù)為超市購物小票。
[0021]根據(jù)本發(fā)明的第十方面,所述用戶終端為移動(dòng)終端。
[0022]根據(jù)本發(fā)明的第十一方面,一種票據(jù)的字符識(shí)別系統(tǒng),用于對(duì)從用戶終端接收的待識(shí)別票據(jù)的圖像進(jìn)行字符識(shí)別,該字符識(shí)別系統(tǒng)包括:存儲(chǔ)模塊,其包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,所述基本識(shí)別庫中的字符樣本的數(shù)量小于所述擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量;識(shí)別模塊,其調(diào)用所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫,通過分別將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述基本字符識(shí)別和所述擴(kuò)展字符識(shí)別;控制模塊,其確定所述基本字符識(shí)別中識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,所述識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比,當(dāng)所述識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),所述控制模塊將所述圖像存儲(chǔ)到所述第一存儲(chǔ)區(qū)中,當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值時(shí),所述控制模塊將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū)中。
[0023]本發(fā)明的字符識(shí)別方法和字符識(shí)別系統(tǒng)通過采用異步識(shí)別處理,能夠提高票據(jù)的識(shí)別率,提高識(shí)別速度,并且即使票據(jù)數(shù)量巨大、拍照條件各異、票據(jù)材質(zhì)、印刷質(zhì)量不同,也能夠快速準(zhǔn)確地進(jìn)行識(shí)別。
【附圖說明】
[0024]附圖與文字描述一起用來對(duì)本發(fā)明的實(shí)施方式作進(jìn)一步的說明。其中:
[0025]圖1示出了本發(fā)明的字符識(shí)別方法的總體流程圖。
[0026]圖2示出了本發(fā)明的字符識(shí)別方法的異步識(shí)別處理的流程圖。
[0027]圖3示出了本發(fā)明的字符識(shí)別系統(tǒng)的框圖;
[0028]圖4A示出了存儲(chǔ)在第一存儲(chǔ)區(qū)中的票據(jù)圖像的例子;
[0029]圖4B示出了圖4A中的票據(jù)圖像的識(shí)別結(jié)果;
[0030]圖5A示出了存儲(chǔ)在第二存儲(chǔ)區(qū)中的票據(jù)圖像的例子;
[0031 ]圖5B示出了圖4A中的票據(jù)圖像的識(shí)別結(jié)果;
[0032]圖6A示出了存儲(chǔ)在第三存儲(chǔ)區(qū)中的票據(jù)圖像的例子;
[0033]圖6B示出了圖5A中的票據(jù)圖像的識(shí)別結(jié)果;
[0034]圖7示出了無法識(shí)別的票據(jù)圖像的例子。
【具體實(shí)施方式】
[0035]為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明提供的字符識(shí)別方法和字符識(shí)別系統(tǒng)進(jìn)行詳細(xì)描述。在這些附圖中,對(duì)于相同或者相當(dāng)?shù)臉?gòu)成要素,標(biāo)注相同標(biāo)號(hào)。以下僅為本發(fā)明的字符識(shí)別方法和字符識(shí)別系統(tǒng)的最佳實(shí)施方式,本發(fā)明并不僅限于下述步驟和結(jié)構(gòu)。
[0036]首先參照?qǐng)D1,圖1示出了本發(fā)明的字符識(shí)別方法的總體流程圖。在本文中,以超市小票為例進(jìn)行說明,但是應(yīng)當(dāng)理解,本發(fā)明也可以應(yīng)用于其他票據(jù)。
[0037]本發(fā)明的字符識(shí)別方法包括以下步驟:圖像獲取步驟S100,利用用戶終端拍攝待識(shí)別超市小票的圖像;圖像上傳步驟S102,將待識(shí)別超市小票的圖像上傳至服務(wù)器,其中,服務(wù)器包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,基本識(shí)別庫和擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,并且,基本識(shí)別庫中的字符樣本的數(shù)量小于擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量;基本字符識(shí)別步驟S104,調(diào)用基本識(shí)別庫,通過將待識(shí)別超市小票的圖像與存儲(chǔ)在基本識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)待識(shí)別超市小票的圖像進(jìn)行基本字符識(shí)別;識(shí)別錯(cuò)誤率計(jì)算步驟S106,確定識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,所述識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比;圖像存儲(chǔ)步驟S108,當(dāng)識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),將待識(shí)別超市小票的圖像存儲(chǔ)到第一存儲(chǔ)區(qū),當(dāng)識(shí)別錯(cuò)誤率大于第一閾值時(shí),將待識(shí)別超市小票的圖像存儲(chǔ)到第二存儲(chǔ)區(qū);擴(kuò)展字符識(shí)別步驟S110,對(duì)于存儲(chǔ)在第二存儲(chǔ)區(qū)的待識(shí)別超市小票的圖像,調(diào)用擴(kuò)展識(shí)別庫,通過將待識(shí)別超市小票的圖像與存儲(chǔ)在擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)圖像進(jìn)行擴(kuò)展字符識(shí)別。
[0038]如上所述,用戶上傳的超市小票圖像,由于例如褶皺、打印不清楚或拍照抖動(dòng)等原因,可能包含處于異常形態(tài)的字符。但是這種圖像的比例并不是特別高。這種情況下,通過調(diào)用基本識(shí)別庫可以對(duì)大部分的小票圖像進(jìn)行較好的識(shí)別。而對(duì)于那些通過調(diào)用基本識(shí)別庫無法識(shí)別的小票圖像,進(jìn)一步通過調(diào)用擴(kuò)展識(shí)別庫進(jìn)行識(shí)別。
[0039]在本發(fā)明中,擴(kuò)展識(shí)別庫中比基本識(shí)別庫中多出的字符樣本包含對(duì)應(yīng)字符的異常形態(tài),用于識(shí)別所述待識(shí)別超市小票的圖像中的異常字符。
[0040]通過先利用字符樣本數(shù)量較少的基本識(shí)別庫進(jìn)行字符識(shí)別,然后利用字符樣本數(shù)量較多并且包含異常形態(tài)字符的擴(kuò)展識(shí)別庫進(jìn)行字符識(shí)別,可以最大程度地提高識(shí)別效率,同時(shí)降低識(shí)別引擎的處理壓力。
[0041]再參照?qǐng)D1,在擴(kuò)展字符識(shí)別步驟SllO中,對(duì)于存儲(chǔ)在第二存儲(chǔ)區(qū)中的待識(shí)別超市小票的圖像,在調(diào)用擴(kuò)展識(shí)別庫進(jìn)行擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率小于等于第一閾值,則將待識(shí)別超市小票的圖像從第二存儲(chǔ)區(qū)轉(zhuǎn)移到第一存儲(chǔ)區(qū)。
[0042]也就是說,經(jīng)過擴(kuò)展字符識(shí)別達(dá)到了特定標(biāo)準(zhǔn)(例如,識(shí)別錯(cuò)誤率小于等于第一閾值)的圖像可以被轉(zhuǎn)移到第一存儲(chǔ)區(qū)中。優(yōu)選地,第一存儲(chǔ)區(qū)中存儲(chǔ)的是被視為成功識(shí)別的圖像。第一閾值可以為0%,或者接近0%的任意值,例如5%,10%等。
[0043]圖1中的擴(kuò)展字符識(shí)別步驟SI10還包括:如果識(shí)別錯(cuò)誤率小于等于第一閾值,則將成功識(shí)別的待識(shí)別小票圖像中的異常字符作為字符樣本補(bǔ)充到基本識(shí)別庫中。
[0044]通過不斷地?cái)U(kuò)充基本識(shí)別庫,可以提高后續(xù)字符識(shí)別處理的效率。
[0045]本發(fā)明的這種將待識(shí)別票據(jù)圖像分為兩檔,分別使用基本識(shí)別庫和擴(kuò)展識(shí)別庫進(jìn)行識(shí)別的方法可以稱為“異步識(shí)別”。
[0046]應(yīng)當(dāng)注意,以上僅僅對(duì)服務(wù)器只包括第一存儲(chǔ)區(qū)和第二存儲(chǔ)區(qū)的情形進(jìn)行了說明。然而,根據(jù)情況,服務(wù)器還可以包括第三存儲(chǔ)區(qū)或更多存儲(chǔ)區(qū)。也就是說,本發(fā)明的異步識(shí)別可以為三檔或更多檔。
[0047]在三檔的情況下,服務(wù)器還包括第三存儲(chǔ)區(qū),并且圖像存儲(chǔ)步驟S108還包括:當(dāng)識(shí)別錯(cuò)誤率大于第一閾值且小于第二閾值時(shí),將待識(shí)別小票圖像存儲(chǔ)到第二存儲(chǔ)區(qū),當(dāng)識(shí)別錯(cuò)誤率大于第二閾值時(shí),將待識(shí)別小票圖像存儲(chǔ)到第三存儲(chǔ)區(qū),其中,第二閾值大于第一閾值。
[0048]也就是說,在三擋的情況下,通過兩個(gè)閾值對(duì)待識(shí)別小票圖像進(jìn)行分類。成功識(shí)別的放入第一存儲(chǔ)區(qū),其他的根據(jù)識(shí)別錯(cuò)誤率分別放入第二存儲(chǔ)區(qū)和第三存儲(chǔ)區(qū)。
[0049]這種情況下,擴(kuò)展字符識(shí)別步驟SllO還包括:對(duì)于存儲(chǔ)在第三存儲(chǔ)區(qū)的待識(shí)別超市小票的圖像,調(diào)用擴(kuò)展識(shí)別庫,通過將待識(shí)別超市小票的圖像與存儲(chǔ)在擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)待識(shí)別超市小票的圖像進(jìn)行擴(kuò)展字符識(shí)別。
[0050]此外,在擴(kuò)展字符識(shí)別步驟SllO中,對(duì)于存儲(chǔ)在第三存儲(chǔ)區(qū)中的待識(shí)別超市小票的圖像,在調(diào)用擴(kuò)展識(shí)別庫進(jìn)行擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率大于第一閾值且小于等于第二閾值,則將待識(shí)別超市小票的圖像從第三存儲(chǔ)區(qū)轉(zhuǎn)移到第二存儲(chǔ)區(qū)。
[0051]也就是說,經(jīng)過擴(kuò)展字符識(shí)別,如果將識(shí)別錯(cuò)誤率降低到了滿足放入第二存儲(chǔ)區(qū)的標(biāo)準(zhǔn),則將對(duì)應(yīng)圖像從第三存儲(chǔ)區(qū)轉(zhuǎn)移到第二存儲(chǔ)區(qū)。
[0052]這里,擴(kuò)展字符識(shí)別步驟SllO還包括:如果識(shí)別錯(cuò)誤率大于第一閾值且小于等于第二閾值,則將成功識(shí)別的小票圖像中的異常字符作為字符樣本補(bǔ)充到擴(kuò)展識(shí)別庫中。
[0053]也就是說,不斷地?cái)U(kuò)充擴(kuò)展識(shí)別庫,這樣可以提高后續(xù)字符識(shí)別處理的效率。
[0054]在擴(kuò)展字符識(shí)別步驟SlOO中,可以反復(fù)調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別。
[0055]此外,圖像獲取步驟SlOO中,用戶終端可以是具備拍攝功能的移動(dòng)終端,例如手機(jī)、平板電腦、PDA等。在這種情況下,用戶拍攝超市小票的圖像就尤其方便,可以隨時(shí)隨地進(jìn)行拍攝、上傳。
[0056]下面參照?qǐng)D2和圖3,結(jié)合具體實(shí)施例對(duì)本發(fā)明的字符識(shí)別方法和字符識(shí)別系統(tǒng)做進(jìn)一步的說明。
[0057]圖2示出了本發(fā)明的字符識(shí)別方法的異步識(shí)別處理的流程圖。圖3示出了本發(fā)明的字符識(shí)別系統(tǒng)的框圖。
[0058]在圖2的流程圖中,待識(shí)別小票的圖像被分別放入三個(gè)存儲(chǔ)區(qū)。也就是說,異步識(shí)別分為三擋進(jìn)行。
[0059]如圖3所示,本發(fā)明的字符識(shí)別系統(tǒng)100包括用戶終端600和服務(wù)器700。服務(wù)器700包括存儲(chǔ)模塊701、識(shí)別模塊702和控制模塊703。存儲(chǔ)模塊701包括基本識(shí)別庫706、擴(kuò)展識(shí)別庫708以及第一存儲(chǔ)區(qū)200、第二存儲(chǔ)區(qū)202和第三存儲(chǔ)區(qū)204?;咀R(shí)別庫706和擴(kuò)展識(shí)別庫708中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本?;咀R(shí)別庫706中的字符樣本的數(shù)量小于擴(kuò)展識(shí)別庫708中的字符樣本。
[0060]注意,在圖3中,存儲(chǔ)模塊701包括三個(gè)存儲(chǔ)區(qū)。但是,這只是本發(fā)明的最佳實(shí)施方式,存儲(chǔ)模塊701只包括第一存儲(chǔ)區(qū)200和第二存儲(chǔ)區(qū)202也是可行的。雖然如此,下面仍以圖3為例進(jìn)行說明。
[0061]如圖2和圖3所示,首先服務(wù)器700的識(shí)別模塊702調(diào)用基本識(shí)別庫706進(jìn)行基本字符識(shí)別(圖1的S106)。然后,控制模塊703計(jì)算識(shí)別錯(cuò)誤率(圖1的S108),根據(jù)識(shí)別錯(cuò)誤率執(zhí)行以下操作:確定是否識(shí)別正確(S108a)、確定識(shí)別錯(cuò)誤率是否小于等于30%(S108b)、確定識(shí)別錯(cuò)誤率是否小于100%,S卩,是否能夠進(jìn)行識(shí)別(S108c)。這里,第一閾值和第二閾值分別采用了 0%和30%。當(dāng)然,本領(lǐng)域技術(shù)人員可以根據(jù)需要,靈活設(shè)置第一閾值和第二閾值。而步驟SlOSc中的閾值不必為100%,也可以設(shè)定為非常高,接近于100%,目的是找出很難進(jìn)行正常識(shí)別的異常小票圖像。
[0062]如果步驟SlOSa中確定結(jié)果為是,S卩,正確識(shí)別了小票,則控制模塊703將小票圖像存儲(chǔ)至存儲(chǔ)模塊701的第一存儲(chǔ)區(qū)200。例如,參照?qǐng)D4,圖4A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像很容易成功識(shí)別。圖4B的左側(cè)是被識(shí)別的圖像,其中被框線框住的是識(shí)別區(qū)域,白色背景顯示的數(shù)字是識(shí)別字符結(jié)果。圖4B的右側(cè)示出了所提取的識(shí)別字符。
[0063]返回圖2,如果步驟S108a中確定結(jié)果為否,則控制模塊703繼續(xù)進(jìn)行S108b的確定。
[0064]如果步驟SlOSb中確定結(jié)果為是,S卩,識(shí)別錯(cuò)誤率小于等于30%,則控制模塊703將小票圖像存儲(chǔ)至存儲(chǔ)模塊701的第二存儲(chǔ)區(qū)202。例如,參照?qǐng)D5,圖5A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像會(huì)有部分內(nèi)容無法正確識(shí)別。圖5B的左側(cè)是被識(shí)別的圖像,其中被框線框住的是識(shí)別區(qū)域,白色背景顯示的數(shù)字是識(shí)別字符結(jié)果。圖5B的右側(cè)示出了所提取的識(shí)別字符。由于將小票圖像中的實(shí)收數(shù)額55識(shí)別為總價(jià),所以出現(xiàn)了識(shí)別錯(cuò)誤。對(duì)于這種小票圖像,可以存儲(chǔ)至存儲(chǔ)模塊701的第二存儲(chǔ)區(qū)202繼續(xù)進(jìn)行識(shí)別。
[0065]返回圖2,如果步驟S108b中確定結(jié)果為否,則控制模塊703繼續(xù)進(jìn)行S108c的確定。
[0066]如果步驟SlOSc中確定結(jié)果為是,S卩,識(shí)別錯(cuò)誤率小于100% (同時(shí)大于30%),則控制模塊703將小票圖像存儲(chǔ)至存儲(chǔ)模塊701的第三存儲(chǔ)區(qū)204。例如,參照?qǐng)D6,圖6A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像會(huì)有部分內(nèi)容無法正確識(shí)別。圖6B的左側(cè)是被識(shí)別的圖像,其中被框線框住的是識(shí)別區(qū)域,白色背景顯示的數(shù)字是識(shí)別字符結(jié)果。圖6B的右側(cè)示出了所提取的識(shí)別字符。由于小票圖像中的多處內(nèi)容出現(xiàn)了識(shí)別錯(cuò)誤,所以,對(duì)于這種小票圖像,可以存儲(chǔ)至存儲(chǔ)模塊701的第三存儲(chǔ)區(qū)204繼續(xù)進(jìn)行識(shí)別。
[0067]如果步驟SlOSc中確定結(jié)果為否,S卩,根本無法識(shí)別,則控制模塊703停止對(duì)小票圖像進(jìn)行處理。這種情況下,有可能是用戶的手機(jī)的成像元件的故障造成的,或者可能是票據(jù)時(shí)間太久,打印內(nèi)容被磨損的程度太嚴(yán)重,或者也可能就是用戶胡亂拍攝或者誤操作而上傳的圖像。例如,圖7給出了這種小票圖像的例子。對(duì)于此類圖像,可以停止進(jìn)行識(shí)別處理,例如,可以將其丟棄。
[0068]在本發(fā)明的異步識(shí)別處理中,對(duì)于存儲(chǔ)在存儲(chǔ)模塊701的第一存儲(chǔ)區(qū)200中的小票圖像,控制模塊703可以直接提取字符內(nèi)容(步驟S112)。而對(duì)于存儲(chǔ)在存儲(chǔ)模塊701的第二存儲(chǔ)區(qū)202和第三存儲(chǔ)區(qū)204中的小票圖像,控制模塊703需要調(diào)用擴(kuò)展識(shí)別庫708繼續(xù)進(jìn)行識(shí)別。下面具體進(jìn)行說明。
[0069]服務(wù)器700的控制模塊703調(diào)用擴(kuò)展識(shí)別庫708對(duì)存儲(chǔ)在存儲(chǔ)模塊701的第三存儲(chǔ)區(qū)204中的圖像進(jìn)行擴(kuò)展字符識(shí)別(步驟S114),計(jì)算識(shí)別錯(cuò)誤率(步驟S206),如果識(shí)別錯(cuò)誤率小于等于30% (步驟S206為是),則控制模塊703將對(duì)應(yīng)圖像從存儲(chǔ)模塊701的第三存儲(chǔ)區(qū)204轉(zhuǎn)移到第二存儲(chǔ)區(qū)202。
[0070]另外,服務(wù)器700的控制模塊703調(diào)用擴(kuò)展識(shí)別庫708對(duì)存儲(chǔ)在第二存儲(chǔ)區(qū)202中的圖像進(jìn)行擴(kuò)展字符識(shí)別(步驟S114),計(jì)算識(shí)別錯(cuò)誤率(步驟S206),如果識(shí)別正確(步驟S208為是),則控制模塊703將對(duì)應(yīng)圖像從存儲(chǔ)模塊701的第二存儲(chǔ)區(qū)202轉(zhuǎn)移到第一存儲(chǔ)區(qū)200。
[0071]需要注意的是,步驟S114中的擴(kuò)展字符識(shí)別可以反復(fù)進(jìn)行。例如,可以按照預(yù)定的周期進(jìn)行,比如每小時(shí)進(jìn)行一次。
[0072]如上所述,本發(fā)明的異步識(shí)別首先調(diào)用基本識(shí)別庫對(duì)圖像進(jìn)行處理,根據(jù)識(shí)別錯(cuò)誤率將圖像分為三檔以上,歸入對(duì)應(yīng)的存儲(chǔ)區(qū),只有第一存儲(chǔ)區(qū)中的圖像是識(shí)別正確的,其他存儲(chǔ)區(qū)中的圖像的識(shí)別錯(cuò)誤率逐漸增大。然后調(diào)用擴(kuò)展識(shí)別庫對(duì)除了第一存儲(chǔ)區(qū)以外的所有存儲(chǔ)區(qū)中的圖像進(jìn)行反復(fù)識(shí)別,一旦發(fā)現(xiàn)識(shí)別錯(cuò)誤率達(dá)到了上一級(jí)的標(biāo)準(zhǔn),就將該圖像上移一檔。最后一檔中如果實(shí)在無法識(shí)別,可以停止進(jìn)行識(shí)別。
[0073]在本發(fā)明中,基本識(shí)別庫706中的字符樣本的數(shù)量小于擴(kuò)展識(shí)別庫中708的字符樣本的數(shù)量。因此,在小票圖像的數(shù)量非常大的情況下,首先調(diào)用字符樣本數(shù)量小的基本識(shí)別庫706進(jìn)行識(shí)別,然后再調(diào)用擴(kuò)展識(shí)別庫708對(duì)無法正確識(shí)別的小票圖像進(jìn)行識(shí)別。
[0074]本發(fā)明的這種異步識(shí)別處理,相比現(xiàn)有技術(shù)的同步識(shí)別處理,能夠提高識(shí)別速度,降低識(shí)別引擎的處理壓力。
[0075]下面結(jié)合圖4至圖7具體說明圖2中對(duì)小票圖像的分類。
[0076]圖4A示出了存儲(chǔ)在第一存儲(chǔ)區(qū)200中的小票圖像的例子。圖4B示出了圖4A中的小票圖像的識(shí)別結(jié)果。
[0077]如圖4A和圖4B所示,對(duì)于打印清楚且用戶拍攝清楚的小票圖像,可以準(zhǔn)確地識(shí)別出圖像中的字符內(nèi)容。對(duì)于這種情況,可以隨時(shí)提取字符內(nèi)容,對(duì)其中的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)、加工或分析。
[0078]圖5A示出了存儲(chǔ)在第二存儲(chǔ)區(qū)202中的小票圖像的例子。圖5B示出了圖5A中的小票圖像的識(shí)別結(jié)果。
[0079]如圖5A和圖5B所示,對(duì)于打印不太清楚或者用戶拍攝不太清楚的小票圖像,可能會(huì)存在一定程度的識(shí)別錯(cuò)誤,實(shí)際錯(cuò)誤率小于等于30%。例如,如圖5所示,將小票中的“實(shí)收”項(xiàng)目識(shí)別為總價(jià),但是其他內(nèi)容均識(shí)別正確。對(duì)于這種情況,可以調(diào)用擴(kuò)展識(shí)別庫708反復(fù)進(jìn)行識(shí)別,直到識(shí)別準(zhǔn)確為止。當(dāng)然,這里的識(shí)別準(zhǔn)確可以是滿足一定閾值,而不必為識(shí)別錯(cuò)誤率0%。例如,可以認(rèn)為識(shí)別錯(cuò)誤率10%即表示準(zhǔn)確識(shí)別。
[0080]圖6A示出了存儲(chǔ)在第三存儲(chǔ)區(qū)204中的小票圖像的例子。圖6B示出了圖6A中的小票圖像的識(shí)別結(jié)果。
[0081]如圖6A和圖6B所示,相比圖5的情況,識(shí)別結(jié)果中,識(shí)別錯(cuò)誤率更高,例如,實(shí)際錯(cuò)誤率大于30%。例如,小票圖像左側(cè)下方的“018316”被錯(cuò)誤地識(shí)別為“0183.6”。而且,對(duì)應(yīng)的價(jià)格“21.80”被錯(cuò)誤地識(shí)別為“80” ο
[0082]對(duì)于這種情況,類似于圖5A和圖5B的情況,可以調(diào)用擴(kuò)展識(shí)別庫708反復(fù)進(jìn)行識(shí)另Ij,直到識(shí)別錯(cuò)誤率小于等于30%為止。當(dāng)然,這里優(yōu)選采用30%作為第二閾值,但是也可以采用其他值作為第二閾值。例如,可以采用識(shí)別錯(cuò)誤率40%、50%等。
[0083]圖7示出了無法識(shí)別的小票圖像的例子。
[0084]如圖7所示,由于小票自身原因或者用戶拍攝原因,造成小票圖像無法識(shí)別,這種情況下,人工介入來進(jìn)行確定。人工介入包括人工識(shí)別小票圖像,對(duì)于能夠識(shí)別的,將識(shí)別結(jié)果補(bǔ)充到擴(kuò)展識(shí)別庫中,以便完善隨后的字符識(shí)別。對(duì)于不能夠識(shí)別的,可以丟棄該小票圖像。這種不能識(shí)別的圖像有可能是用戶誤操作所致,也可能是小票打印質(zhì)量太差所致。
[0085]以上參照?qǐng)D1至圖7對(duì)本發(fā)明的字符識(shí)別方法和字符識(shí)別系統(tǒng)進(jìn)行了說明。
[0086]需要注意的是,在本發(fā)明的字符識(shí)別方法和字符識(shí)別系統(tǒng)中,進(jìn)行識(shí)別之前,可以對(duì)圖像進(jìn)行預(yù)處理,包括將圖像灰度化、二值化、噪聲去除、傾斜校正、字符切割以達(dá)到統(tǒng)一格式。
[0087]另外,可以將存儲(chǔ)在第二存儲(chǔ)區(qū)202中的小票圖像分為若干個(gè)層級(jí),層級(jí)劃分的原則可以是識(shí)別率。針對(duì)不同層級(jí),處理邏輯存在差異。例如,對(duì)于層級(jí)高(識(shí)別率高)的圖像,只需要識(shí)別指定區(qū)域或指定字段,對(duì)于層級(jí)低(識(shí)別率低)的圖像,還需要再次進(jìn)行圖像處理,提升圖像的清晰度,以便增大識(shí)別率。這樣可以進(jìn)一步提高識(shí)別效率,降低識(shí)別引擎的處理壓力。
[0088]另外,如上所述,基本識(shí)別庫76和擴(kuò)展識(shí)別庫708都是動(dòng)態(tài)更新的。
[0089]例如,參照?qǐng)D2,在步驟S206和S208中,如果確定結(jié)果為是,則控制模塊703將得到的關(guān)鍵識(shí)別元素補(bǔ)充到擴(kuò)展識(shí)別庫708中。同樣,如果步驟SlOSa中確定結(jié)果為是,則控制模塊703將得到的關(guān)鍵識(shí)別元素補(bǔ)充到基本識(shí)別庫706中。
[0090]另外,如上所述,如果步驟SlOSc中確定結(jié)果為否,從而進(jìn)行人工介入,根據(jù)人工分析判斷的結(jié)果,如果的確無法識(shí)別,則可以丟棄該小票圖像,而如果可以識(shí)別出某些元素,則可以將這些關(guān)鍵識(shí)別元素補(bǔ)充到擴(kuò)展識(shí)別庫708中。
[0091]因此,隨著小票識(shí)別數(shù)量的不斷增大,基本識(shí)別庫706和擴(kuò)展識(shí)別庫708中的字符樣本數(shù)量也隨著增大,進(jìn)一步增大了后續(xù)小票識(shí)別的識(shí)別率。
[0092]以上對(duì)本發(fā)明的字符識(shí)別方法進(jìn)行了詳細(xì)說明。下面對(duì)本發(fā)明的字符識(shí)別系統(tǒng)進(jìn)行說明。
[0093]參照?qǐng)D3,用戶可以利用移動(dòng)終端600拍攝超市小票的圖像。這里,移動(dòng)終端可以是具備拍攝功能的手機(jī)。然后,超市小票的圖像被上傳至服務(wù)器700。
[0094]然后,服務(wù)器700的識(shí)別模塊702調(diào)用基本識(shí)別庫706,通過將圖像與存儲(chǔ)在基本識(shí)別庫706中的字符樣本進(jìn)行比較,對(duì)圖像進(jìn)行字符識(shí)別??刂颇K703確定識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比。
[0095]當(dāng)識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),控制模塊703將圖像存儲(chǔ)到服務(wù)器700的第一存儲(chǔ)區(qū)200中,當(dāng)識(shí)別錯(cuò)誤率大于第一閾值且小于第二閾值時(shí),控制模塊703將圖像存儲(chǔ)到服務(wù)器700的第二存儲(chǔ)區(qū)202中,而當(dāng)識(shí)別錯(cuò)誤率大于第二閾值時(shí),控制模塊703將圖像存儲(chǔ)到服務(wù)器700的第三存儲(chǔ)區(qū)204中。
[0096]也就是說,根據(jù)識(shí)別錯(cuò)誤率將圖像分為三類,分別歸入對(duì)應(yīng)的存儲(chǔ)區(qū)。
[0097]對(duì)于存儲(chǔ)在存儲(chǔ)模塊701的第二存儲(chǔ)區(qū)202和第三存儲(chǔ)區(qū)204中的圖像,識(shí)別模塊702反復(fù)調(diào)用擴(kuò)展識(shí)別庫708,通過將圖像與存儲(chǔ)在擴(kuò)展識(shí)別庫708中的字符樣本進(jìn)行比較,對(duì)圖像進(jìn)行擴(kuò)展字符識(shí)別。
[0098]下面詳細(xì)說明服務(wù)器700的操作。首先服務(wù)器700的識(shí)別模塊702調(diào)用存儲(chǔ)模塊701中的基本識(shí)別庫706進(jìn)行基本字符識(shí)別。然后,控制模塊703確定識(shí)別錯(cuò)誤率(圖1的S108),根據(jù)識(shí)別錯(cuò)誤率執(zhí)行以下操作:確定是否識(shí)別正確(S108a)、確定識(shí)別錯(cuò)誤率是否小于等于30% (S108b)、確定識(shí)別錯(cuò)誤率是否小于100% (S108c)。這里,圖1中的第一閾值和第二閾值分別采用了0%和30%。當(dāng)然,本領(lǐng)域技術(shù)人員可以根據(jù)需要,靈活設(shè)置第一閾值和第二閾值。
[0099]如果步驟SlOSa中確定結(jié)果為是,S卩,正確識(shí)別了小票,則控制模塊703將小票圖像存儲(chǔ)至服務(wù)器700的第一存儲(chǔ)區(qū)200。如果步驟S108a中確定結(jié)果為否,則控制模塊703繼續(xù)進(jìn)行S108b的確定。
[0100]如果步驟SlOSb中確定結(jié)果為是,S卩,識(shí)別錯(cuò)誤率小于等于30%,則控制模塊703將小票圖像存儲(chǔ)至第二存儲(chǔ)區(qū)202。如果步驟S108b中確定結(jié)果為否,則控制模塊703繼續(xù)進(jìn)行S108c的確定。
[0101]如果步驟S108C中確定結(jié)果為是,S卩,識(shí)別錯(cuò)誤率小于100%,則控制模塊703將小票圖像存儲(chǔ)至第三存儲(chǔ)區(qū)204。如果步驟SlOSc中確定結(jié)果為否,則停止對(duì)小票圖像進(jìn)行識(shí)別處理。
[0102]在本發(fā)明的異步識(shí)別處理中,對(duì)于存儲(chǔ)在第一存儲(chǔ)區(qū)200中的小票圖像,可以直接提取字符內(nèi)容(步驟S112)。而對(duì)于存儲(chǔ)在第二存儲(chǔ)區(qū)202和第三存儲(chǔ)區(qū)204中的小票圖像,需要調(diào)用擴(kuò)展識(shí)別庫反復(fù)進(jìn)行識(shí)別。下面具體進(jìn)行說明。
[0103]識(shí)別模塊702調(diào)用擴(kuò)展識(shí)別庫708對(duì)存儲(chǔ)在第三存儲(chǔ)區(qū)204中的圖像進(jìn)行擴(kuò)展字符識(shí)別(步驟S110)。
[0104]控制模塊703計(jì)算識(shí)別錯(cuò)誤率(步驟S206)。如果識(shí)別錯(cuò)誤率小于等于30% (步驟S206為是),則控制模塊703將對(duì)應(yīng)圖像從第三存儲(chǔ)區(qū)204轉(zhuǎn)移到第二存儲(chǔ)區(qū)202。
[0105]同時(shí),識(shí)別模塊702調(diào)用擴(kuò)展識(shí)別庫708對(duì)存儲(chǔ)在第二存儲(chǔ)區(qū)202中的圖像進(jìn)行擴(kuò)展字符識(shí)別(步驟S110)。
[0106]控制模塊703計(jì)算識(shí)別錯(cuò)誤率(步驟S206)。如果識(shí)別正確(步驟S208為是),則控制模塊703將對(duì)應(yīng)圖像從第二存儲(chǔ)區(qū)202轉(zhuǎn)移到第一存儲(chǔ)區(qū)200。
[0107]在本發(fā)明中,基本識(shí)別庫706中的字符樣本的數(shù)量小于擴(kuò)展識(shí)別庫708中的字符樣本的數(shù)量。并且擴(kuò)展識(shí)別庫708中包含了異常形態(tài)字符的字符樣本。因此,通過至少兩檔的異步識(shí)別處理,原本無法識(shí)別或者識(shí)別率低的圖像能夠得到很好的識(shí)別。并且,在小票圖像的數(shù)量非常大的情況下,首先調(diào)用字符樣本數(shù)量小的基本識(shí)別庫706進(jìn)行識(shí)別,然后再調(diào)用擴(kuò)展識(shí)別庫708對(duì)無法正確識(shí)別的小票圖像進(jìn)行識(shí)別,這種異步識(shí)別處理,通過采用多線程處理,相比現(xiàn)有技術(shù)的同步識(shí)別,能夠提高識(shí)別速度、降低識(shí)別引擎的處理壓力。
[0108]以上結(jié)合【具體實(shí)施方式】對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明。應(yīng)理解的是,以上僅僅是出于例示的目的介紹了本發(fā)明的【具體實(shí)施方式】,并不是要限制本發(fā)明。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種票據(jù)的字符識(shí)別方法,包括以下步驟: 圖像獲取步驟,利用用戶終端獲取待識(shí)別票據(jù)的圖像; 圖像上傳步驟,將所述待識(shí)別票據(jù)的圖像上傳至服務(wù)器,其中,所述服務(wù)器包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,所述基本識(shí)別庫中的字符樣本的數(shù)量小于所述擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量; 基本字符識(shí)別步驟,調(diào)用所述基本識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述基本識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述基本字符識(shí)別; 識(shí)別錯(cuò)誤率計(jì)算步驟,確定識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,所述識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比; 圖像存儲(chǔ)步驟,當(dāng)所述識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第一存儲(chǔ)區(qū),當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū); 擴(kuò)展字符識(shí)別步驟,對(duì)于存儲(chǔ)在所述第二存儲(chǔ)區(qū)的所述待識(shí)別票據(jù)的圖像,調(diào)用所述擴(kuò)展識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述圖像進(jìn)行所述擴(kuò)展字符識(shí)別。2.根據(jù)權(quán)利要求1所述的字符識(shí)別方法,其中, 所述擴(kuò)展識(shí)別庫中比所述基本識(shí)別庫中多出的字符樣本包含對(duì)應(yīng)字符的異常形態(tài),用于識(shí)別所述待識(shí)別票據(jù)的圖像中的異常字符。3.根據(jù)權(quán)利要求2所述的字符識(shí)別方法,其中, 在所述擴(kuò)展字符識(shí)別步驟中,對(duì)于存儲(chǔ)在所述第二存儲(chǔ)區(qū)中的所述待識(shí)別票據(jù)的圖像,在調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率小于等于所述第一閾值,則將所述待識(shí)別票據(jù)的圖像從所述第二存儲(chǔ)區(qū)轉(zhuǎn)移到所述第一存儲(chǔ)區(qū)。4.根據(jù)權(quán)利要求3所述的字符識(shí)別方法,其中,所述擴(kuò)展字符識(shí)別步驟還包括:對(duì)于存儲(chǔ)在所述第二存儲(chǔ)區(qū)中的所述待識(shí)別票據(jù)的圖像,如果識(shí)別錯(cuò)誤率小于等于所述第一閾值,則將成功識(shí)別的所述待識(shí)別票據(jù)的圖像中的異常字符作為字符樣本補(bǔ)充到所述基本識(shí)別庫中。5.根據(jù)權(quán)利要求2所述的字符識(shí)別方法,其中,所述服務(wù)器還包括第三存儲(chǔ)區(qū),并且 所述圖像存儲(chǔ)步驟還包括:當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值且小于第二閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū),當(dāng)所述識(shí)別錯(cuò)誤率大于所述第二閾值時(shí),將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第三存儲(chǔ)區(qū),其中,所述第二閾值大于所述第一閾值,并且 所述擴(kuò)展字符識(shí)別步驟還包括:對(duì)于存儲(chǔ)在所述第三存儲(chǔ)區(qū)的所述待識(shí)別票據(jù)的圖像,調(diào)用所述擴(kuò)展識(shí)別庫,通過將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述擴(kuò)展字符識(shí)別。6.根據(jù)權(quán)利要求5所述的字符識(shí)別方法,其中, 在所述擴(kuò)展字符識(shí)別步驟中,對(duì)于存儲(chǔ)在所述第三存儲(chǔ)區(qū)中的所述待識(shí)別票據(jù)的圖像,在調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別之后,計(jì)算識(shí)別錯(cuò)誤率,如果識(shí)別錯(cuò)誤率大于所述第一閾值且小于等于所述第二閾值,則將所述待識(shí)別票據(jù)的圖像從所述第三存儲(chǔ)區(qū)轉(zhuǎn)移到所述第二存儲(chǔ)區(qū)。7.根據(jù)權(quán)利要求6所述的字符識(shí)別方法,其中,所述擴(kuò)展字符識(shí)別步驟還包括:對(duì)于存儲(chǔ)在所述第三存儲(chǔ)區(qū)的所述待識(shí)別票據(jù)的圖像,如果識(shí)別錯(cuò)誤率大于所述第一閾值且小于等于所述第二閾值,則將成功識(shí)別的所述待識(shí)別票據(jù)的圖像中的異常字符作為字符樣本補(bǔ)充到所述擴(kuò)展識(shí)別庫中。8.根據(jù)權(quán)利要求1或5所述的字符識(shí)別方法,其中,在所述擴(kuò)展字符識(shí)別步驟中,反復(fù)調(diào)用所述擴(kuò)展識(shí)別庫進(jìn)行所述擴(kuò)展字符識(shí)別。9.根據(jù)權(quán)利要求2至7中任意一項(xiàng)所述的字符識(shí)別方法,其中,所述票據(jù)為超市購物小西 ο10.根據(jù)權(quán)利要求2至7中任意一項(xiàng)所述的字符識(shí)別方法,其中,所述用戶終端為移動(dòng)終端。11.一種票據(jù)的字符識(shí)別系統(tǒng),用于對(duì)從用戶終端接收的待識(shí)別票據(jù)的圖像進(jìn)行字符識(shí)別,該字符識(shí)別系統(tǒng)包括: 存儲(chǔ)模塊,其包括基本識(shí)別庫、擴(kuò)展識(shí)別庫以及至少第一和第二存儲(chǔ)區(qū),其中,所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中分別存儲(chǔ)有用于基本字符識(shí)別和擴(kuò)展字符識(shí)別的字符樣本,所述基本識(shí)別庫中的字符樣本的數(shù)量小于所述擴(kuò)展識(shí)別庫中的字符樣本的數(shù)量; 識(shí)別模塊,其調(diào)用所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫,通過分別將所述待識(shí)別票據(jù)的圖像與存儲(chǔ)在所述基本識(shí)別庫和所述擴(kuò)展識(shí)別庫中的字符樣本進(jìn)行比較,對(duì)所述待識(shí)別票據(jù)的圖像進(jìn)行所述基本字符識(shí)別和所述擴(kuò)展字符識(shí)別; 控制模塊,其確定所述基本字符識(shí)別中識(shí)別錯(cuò)誤的字符數(shù)量,計(jì)算識(shí)別錯(cuò)誤率,所述識(shí)別錯(cuò)誤率為識(shí)別錯(cuò)誤的字符數(shù)量與所識(shí)別的字符總數(shù)之比,當(dāng)所述識(shí)別錯(cuò)誤率小于等于第一閾值時(shí),所述控制模塊將所述圖像存儲(chǔ)到所述第一存儲(chǔ)區(qū)中,當(dāng)所述識(shí)別錯(cuò)誤率大于所述第一閾值時(shí),所述控制模塊將所述待識(shí)別票據(jù)的圖像存儲(chǔ)到所述第二存儲(chǔ)區(qū)中。
【文檔編號(hào)】G06K9/32GK105956590SQ201610269949
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月27日
【發(fā)明人】任威倫, 金燕, 李保城, 趙輝, 馮利光, 孫順博
【申請(qǐng)人】泰合鼎川物聯(lián)科技(北京)股份有限公司