本申請(qǐng)涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,特別是涉及一種打標(biāo)數(shù)據(jù)的收集方法、裝置以及證件識(shí)別系統(tǒng)。
背景技術(shù):
字符識(shí)別系統(tǒng)是指用于識(shí)別字符信息真假的系統(tǒng),如身份證字符識(shí)別系統(tǒng)、營(yíng)業(yè)執(zhí)照字符識(shí)別系統(tǒng)、護(hù)照字符識(shí)別系統(tǒng)等。以身份證字符識(shí)別系統(tǒng)為例,該系統(tǒng)識(shí)別用戶身份證圖像中的關(guān)鍵信息,如姓名、身份證號(hào)碼等字符,以驗(yàn)證用戶身份證圖像的真實(shí)性。
字符識(shí)別系統(tǒng)主要依賴于字符識(shí)別算法來(lái)實(shí)現(xiàn)身份識(shí)別,因此字符識(shí)別算法的性能好壞直接影響到該系統(tǒng)的識(shí)別性能的高低,在實(shí)際操作中,常通過(guò)人工打標(biāo)的方式來(lái)收集打標(biāo)數(shù)據(jù),利用打標(biāo)數(shù)據(jù)訓(xùn)練得到更加準(zhǔn)確的字符識(shí)別模型,優(yōu)化該字符識(shí)別算法,使字符識(shí)別系統(tǒng)的性能更優(yōu)。在訓(xùn)練過(guò)程中,打標(biāo)數(shù)據(jù)越多、越真實(shí),訓(xùn)練得到的字符識(shí)別模型的準(zhǔn)確性越高、可靠性越高。
目前,這種人工打標(biāo)的方式,需要投入大量的人工成本和時(shí)間成本,打標(biāo)數(shù)據(jù)的收集效率較低,從而限制了字符識(shí)別系統(tǒng)性能的優(yōu)化。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種打標(biāo)數(shù)據(jù)的收集方法和裝置,提供了線上、自動(dòng)收集打標(biāo)數(shù)據(jù)的方式,這種自動(dòng)收集方式,能夠節(jié)省人力成本和時(shí)間成本,能夠促進(jìn)字符識(shí)別系統(tǒng)的優(yōu)化。
另外,本發(fā)明還提供了一種證件識(shí)別系統(tǒng),既能夠?qū)崿F(xiàn)對(duì)證件的識(shí)別,又能夠?qū)崿F(xiàn)打標(biāo)數(shù)據(jù)的自動(dòng)收集。
本發(fā)明第一方面提供了一種打標(biāo)數(shù)據(jù)的收集方法,所述方法包括:
利用圖像字符識(shí)別系統(tǒng)識(shí)別圖片上的文本信息;
驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;
如果一致,則對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
可選的,所述方法還包括:
如果不一致,則計(jì)算所述文本信息與可信數(shù)據(jù)源的信息之間的相似度,并判斷相似度是否落入預(yù)設(shè)的置信度區(qū)間;
如果是,則轉(zhuǎn)入執(zhí)行所述步驟:對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片。
可選的,所述方法還包括:
保存所述打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)用作所述圖像字符識(shí)別系統(tǒng)的機(jī)器識(shí)別模型的訓(xùn)練樣本。
可選的,在保存所述打標(biāo)數(shù)據(jù)之前,所述方法還包括:
對(duì)所述打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理。
可選的,對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片,包括:
采用文本行定位算法定位所述圖片中的文本區(qū)域;
采用切字算法將文本區(qū)域切割成至少一個(gè)包含單個(gè)字符的單元圖片。
本發(fā)明第二方面提供了一種打標(biāo)數(shù)據(jù)的收集裝置,所述裝置包括:
識(shí)別單元,用于識(shí)別圖片上的文本信息;
驗(yàn)證單元,用于驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,觸發(fā)分割單元;
所述分割單元,用于對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
標(biāo)記單元,用于針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
可選的,所述裝置還包括:
計(jì)算單元;則所述驗(yàn)證單元在驗(yàn)證結(jié)果不一致時(shí),觸發(fā)所述計(jì)算單元;
所述計(jì)算單元,用于計(jì)算所述文本信息與可信數(shù)據(jù)源的信息之間的相似度,并判斷相似度是否落入預(yù)設(shè)的置信度區(qū)間;如果是,觸發(fā)所述分割單元。
可選的,所述裝置還包括:
保存單元,用于保存所述打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)用作所述識(shí)別單元的機(jī)器識(shí)別模型的訓(xùn)練樣本。
可選的,所述裝置還包括:
脫敏單元,用于對(duì)所述打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理;
則所述保存單元,具體用于保存所述脫敏單元脫敏處理后的打標(biāo)數(shù)據(jù)。
可選的,所述分割單元,包括:
定位子單元,用于采用文本行定位算法定位所述圖片中的文本區(qū)域;
切割子單元,用于采用切字算法將文本區(qū)域切割成至少一個(gè)包含單個(gè)字符的單元圖片。
本發(fā)明第三方面提供了一種證件識(shí)別系統(tǒng),所述系統(tǒng)包括:
圖像字符識(shí)別單元,用于識(shí)別待識(shí)別圖片中的文本信息;
信息驗(yàn)證單元,用于驗(yàn)證所述圖像識(shí)別單元識(shí)別的文本信息與證件數(shù)據(jù)庫(kù)中的信息是否一致,若一致,則驗(yàn)證所述待識(shí)別圖片為真實(shí)圖片;
分割單元,用于對(duì)所述信息驗(yàn)證單元驗(yàn)證的真實(shí)圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
標(biāo)記單元,用于針對(duì)所述單元圖片,利用與該單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括所述單元圖片及所述單元圖片的標(biāo)記文本信息,所述打標(biāo)數(shù)據(jù)用作所述圖像字符識(shí)別單元的機(jī)器識(shí)別模型的訓(xùn)練樣本。
本發(fā)明提供的技術(shù)方案與現(xiàn)有技術(shù)相比,其具有如下有益效果:
本發(fā)明提供的技術(shù)方案,利用圖像字符識(shí)別系統(tǒng)識(shí)別圖片上的文本信息;驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,表明圖片上的文本信息是真實(shí)的,則對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;這樣,圖像字符識(shí)別系統(tǒng)可以實(shí)時(shí)的、不間斷的為后續(xù)打標(biāo)數(shù)據(jù)的收集提供可靠的數(shù)據(jù)基礎(chǔ)。然后針對(duì)所述單元圖片,利用與所述 單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。因此,本發(fā)明提供的技術(shù)方案基于圖像字符識(shí)別系統(tǒng)和可信數(shù)據(jù)源驗(yàn)證圖片的真實(shí)性,通過(guò)對(duì)這些真實(shí)圖片進(jìn)行切割、標(biāo)記得到打標(biāo)數(shù)據(jù),整個(gè)過(guò)程不再需要人工參與,能夠節(jié)省人工成本和時(shí)間成本,從而能夠促進(jìn)系統(tǒng)性能的改進(jìn)和優(yōu)化。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集方法實(shí)施例1的流程圖;
圖2是本發(fā)明提供的打標(biāo)數(shù)據(jù)的示意圖;
圖3是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集方法實(shí)施例2的流程圖;
圖4是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集裝置實(shí)施例1的流程圖;
圖5是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集裝置實(shí)施例2的結(jié)構(gòu)圖;
圖6是本發(fā)明提供的一種證件識(shí)別系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)描述。
方法實(shí)施例
請(qǐng)參閱圖1,圖1是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集方法實(shí)施例1的流程圖,該方法可以由用戶機(jī)器來(lái)執(zhí)行,例如個(gè)人的PC機(jī),也可以由各種類型的網(wǎng)站服務(wù)器來(lái)執(zhí)行,例如Web服務(wù)器,或者APP服務(wù)器。如圖1所示該方法包括:
步驟101:利用圖像字符識(shí)別系統(tǒng)識(shí)別圖片上的文本信息。
步驟102:驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,執(zhí)行步驟103-105。
在本發(fā)明實(shí)施例中,圖像字符識(shí)別系統(tǒng)是指用于識(shí)別圖像上文本信息的系統(tǒng),如身份證字符識(shí)別系統(tǒng)、營(yíng)業(yè)執(zhí)照字符識(shí)別系統(tǒng)、護(hù)照字符識(shí)別系統(tǒng)等。
在本發(fā)明實(shí)施例中,可信數(shù)據(jù)源是指存儲(chǔ)真實(shí)數(shù)據(jù)信息或已經(jīng)過(guò)校驗(yàn)的數(shù)據(jù)信息的數(shù)據(jù)庫(kù),例如公安網(wǎng)等官方數(shù)據(jù)。如公安系網(wǎng)內(nèi)儲(chǔ)存用戶身份證信息的數(shù)據(jù)庫(kù),或者,用于儲(chǔ)存用戶護(hù)照信息的數(shù)據(jù)庫(kù),或者,用于儲(chǔ)存企業(yè)營(yíng)業(yè)執(zhí)照信息的數(shù)據(jù)庫(kù)。
為了便于解釋說(shuō)明,下文僅以身份證字符識(shí)別系統(tǒng)為例對(duì)本發(fā)明實(shí)施例進(jìn)行示例性說(shuō)明。
舉例說(shuō)明:身份證字符識(shí)別系統(tǒng)根據(jù)不同的業(yè)務(wù)需求,可以識(shí)別用戶身份證圖片中不同的文本信息,如可以識(shí)別身份證圖片上的姓名、身份證號(hào)、出生、民族、性別、住址、簽發(fā)機(jī)關(guān)、有效期限等文本信息。
一般情況下,身份證字符識(shí)別系統(tǒng)接收用戶上傳的圖片,先驗(yàn)證圖片種類,如驗(yàn)證圖片是否為指定的身份證種類,如驗(yàn)證圖片是否為身份證的人臉面;在驗(yàn)證通過(guò)之后,身份證字符識(shí)別系統(tǒng)基于文字識(shí)別算法采用的文字識(shí)別模型,提取圖片上的文本信息。在得到文本信息之后,驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致。
例如:驗(yàn)證身份證圖片上的姓名、身份證號(hào)與公安網(wǎng)的信息是否一致,具體是:驗(yàn)證身份證圖片上的姓名、身份證號(hào)與公安網(wǎng)的信息的字符個(gè)數(shù)是否一致且多數(shù)字符是否一致,如果是,則認(rèn)定身份證圖片上的文本信息與公安網(wǎng)的信息是一致的,驗(yàn)證結(jié)果是一致的,說(shuō)明身份證圖片是真實(shí)圖片,該圖片上的文本信息是真實(shí)可靠的;如果否,則認(rèn)定身份證圖片上的文本信息與公安網(wǎng)的信息是不一致的,驗(yàn)證結(jié)果是不一致的,說(shuō)明身份證圖片是虛假圖片,該圖片上的文本信息是不真實(shí)、不可信的。
通過(guò)圖像字符識(shí)別系統(tǒng)和可信數(shù)據(jù)源能夠驗(yàn)證出圖片上文本信息是否是真實(shí)可靠的,這樣就會(huì)后續(xù)打標(biāo)數(shù)據(jù)的收集打好數(shù)據(jù)基礎(chǔ),接下來(lái)對(duì)真實(shí)的圖片進(jìn)行處理。
步驟103:則對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片。
在具體實(shí)現(xiàn)時(shí),步驟103可以包括:
采用文本行定位算法定位所述圖片中的文本區(qū)域;
采用切字算法將文本區(qū)域切割成至少一個(gè)包含單個(gè)字符的單元圖片。
下面以身份證字符識(shí)別系統(tǒng)識(shí)別身份證圖片中的姓名、身份證號(hào)為例,對(duì)步驟103的具體實(shí)現(xiàn)過(guò)程進(jìn)行說(shuō)明。
先采用文本行定位算法定位身份證圖片中的姓名、身份證號(hào)的文本區(qū)域;然后采用切字算法將這些文本區(qū)域切割成至少一個(gè)包含單個(gè)字符的單元圖片。
例如,用戶上傳的身份證圖片中姓名是“張三”,則先定位到姓名文本區(qū)域,然后將“張三”文本區(qū)域切割成“張”和“三”兩個(gè)包含字符的單元圖片。
再例如,用戶上傳的身份證圖片中身份證號(hào)是“110123201510100334”則先定位到身份證文本區(qū)域,然后將“110123201510100334”文本區(qū)域切割成18個(gè)包含單個(gè)數(shù)字的單元圖片。
步驟104:針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
以上文示例中的單元圖片“張”、“三”為例,對(duì)步驟104進(jìn)行示例性說(shuō)明。
請(qǐng)參閱圖2,圖2示出的灰色底的攜帶“張”的單元圖片1和灰色底的攜帶“三”的單元圖片2;單元圖片1右側(cè)的文字“張”和單元圖片2右側(cè)的文字“三”都是可信數(shù)據(jù)源中信息;利用文字“張”、“三”分別對(duì)單元圖片1和單元圖片2進(jìn)行標(biāo)記,得到打標(biāo)數(shù)據(jù)。從上述方法實(shí)施例1可以看出,本發(fā)明通過(guò)圖像字符識(shí)別系統(tǒng)和可信數(shù)據(jù)源來(lái)識(shí)別圖片上文本信息的真實(shí)性;如果真實(shí),則對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。則對(duì)該圖片進(jìn)行切割得到包含字符的小圖片;因此,本發(fā)明提供的技術(shù)方案基于圖像字符識(shí)別系統(tǒng)和可信數(shù)據(jù)源驗(yàn)證 圖片的真實(shí)性,通過(guò)對(duì)這些真實(shí)圖片進(jìn)行切割、標(biāo)記以得到打標(biāo)數(shù)據(jù),整個(gè)過(guò)程不再需要人工參與,能夠節(jié)省人工成本和時(shí)間成本,從而能夠促進(jìn)系統(tǒng)性能的改進(jìn)和優(yōu)化。
為了進(jìn)一步提高打標(biāo)數(shù)據(jù)的收集效率,本發(fā)明還提供了另一種收集方法。下面結(jié)合圖3對(duì)該方法進(jìn)行解釋說(shuō)明。
請(qǐng)參閱圖3,圖3是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集方法實(shí)施例2的流程圖,該方法包括:
步驟301:利用圖像字符識(shí)別系統(tǒng)識(shí)別圖片上的文本信息;
步驟302:驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,執(zhí)行步驟303和304;如果不一致,執(zhí)行步驟305。
步驟303:對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
步驟304:針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
步驟305:計(jì)算所述文本信息與可信數(shù)據(jù)源的信息之間的相似度,并判斷相似度是否落入預(yù)設(shè)的置信度區(qū)間;如果是,執(zhí)行步驟303和304。
其中,步驟301-304與上述實(shí)施例中步驟101-104相同,可以參照上文描述,此處不再贅述。
其中,在步驟301中,圖像字符識(shí)別系統(tǒng)可能因?yàn)橛脩羯蟼鞯膱D片格式無(wú)法識(shí)別、圖片不清楚等原因,導(dǎo)致識(shí)別出的文本信息與可信數(shù)據(jù)源的信息不一致,但這些圖片卻很有可能就是真實(shí)可靠的?;诖耍景l(fā)明進(jìn)一步的利用步驟305來(lái)進(jìn)一步衡量圖片的真實(shí)性和可信度。
其中,在步驟305中,通過(guò)所述文本信息與可信數(shù)據(jù)源的信息之間的相似度來(lái)衡量圖片的可靠性;如果,相似度落入了預(yù)設(shè)的置信度區(qū)間,表明該該圖片是可信的。那么該圖片就可以作為后續(xù)打標(biāo)數(shù)據(jù)的數(shù)據(jù)基礎(chǔ),進(jìn)而通過(guò)步驟303和304來(lái)收集打標(biāo)數(shù)據(jù)。
本發(fā)明方法實(shí)施例2與方法實(shí)施例1相比,其在方法實(shí)施例1的基礎(chǔ)上,增加了通過(guò)相似度進(jìn)一步衡量驗(yàn)證結(jié)果不一致的圖片的可信度,將可信度滿足需求的圖片也作為打標(biāo)數(shù)據(jù)的數(shù)據(jù)基礎(chǔ),這樣就擴(kuò)展了打標(biāo)數(shù)據(jù)的數(shù)據(jù)源, 能夠進(jìn)一步提高打標(biāo)數(shù)據(jù)的收集效率和質(zhì)量。另外,在上述方法實(shí)施例1或方法實(shí)施例2的基礎(chǔ)上,還可以增加如下步驟:
保存所述打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)用作所述圖像字符識(shí)別單元的機(jī)器識(shí)別模型的訓(xùn)練樣本。
另外,還考慮到圖像字符識(shí)別系統(tǒng)識(shí)別的圖片會(huì)涉及到用戶私密信息,如用戶身份證圖片攜帶有用戶姓名、身份證號(hào)等私密信息等;為了保證這些私密信息在打標(biāo)數(shù)據(jù)收集過(guò)程中安全性,防止私密信息的泄露。基于此,在上述保存所述打標(biāo)數(shù)據(jù)之前,還可以對(duì)所述打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理,則保存脫敏處理后的打標(biāo)數(shù)據(jù)。脫敏處理可以采取對(duì)所述打標(biāo)數(shù)據(jù)進(jìn)行隨機(jī)命名等方式。
針對(duì)“對(duì)打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理”步驟,下面給出兩種可實(shí)現(xiàn)的方式。
一種實(shí)現(xiàn)方式是,對(duì)所述打標(biāo)數(shù)據(jù)中的多個(gè)所述單元圖片和所述單元圖片的標(biāo)記文本信息進(jìn)行隨機(jī)排序。
一般情況下,針對(duì)一個(gè)圖片收集到的打標(biāo)數(shù)據(jù)都是按照順序排序的。例如,針對(duì)身份證圖片收集到的打標(biāo)數(shù)據(jù)是姓名、身份證號(hào)中各個(gè)字符的單元圖片和單元圖片的標(biāo)記文本信息。如姓名“張”、“三”這些打標(biāo)數(shù)據(jù)都是順序排列的。這樣,非法份子竊取這些打標(biāo)數(shù)據(jù)后,可以直接恢復(fù)出特定用戶的私密信息,如用戶姓名“張三”。為了防止在打標(biāo)數(shù)據(jù)收集過(guò)程中泄露私密信息。則對(duì)打標(biāo)數(shù)據(jù)中多個(gè)單元圖片和單元圖片的標(biāo)記文本信息進(jìn)行隨機(jī)排序,尤其是在打標(biāo)數(shù)據(jù)量比較大的情況,就很難從這些打標(biāo)數(shù)據(jù)中恢復(fù)出特定用戶的私密信息,從而保證了用戶私密信息的安全性。
另一種實(shí)現(xiàn)方式是,對(duì)打標(biāo)數(shù)據(jù)進(jìn)行加密。
采用這種方式對(duì)打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理,最終保存的是打標(biāo)數(shù)據(jù)的密文,這樣,防止非法份子直接從數(shù)據(jù)庫(kù)中竊取用戶私密信息,增加了破解難度。當(dāng)然,在本發(fā)明中脫敏處理并不局限于以上兩種方式,還可以采用其他脫敏方式進(jìn)行處理。
裝置實(shí)施例
與上述一種打標(biāo)數(shù)據(jù)的收集方法相對(duì)應(yīng),本申請(qǐng)實(shí)施例還提供了一種打標(biāo)數(shù)據(jù)的收集裝置。
請(qǐng)參閱圖4,圖4是本發(fā)明提供的一種打標(biāo)數(shù)據(jù)的收集裝置實(shí)施例1的結(jié)構(gòu)圖。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。該裝置包括:
識(shí)別單元401,用于識(shí)別圖片上的文本信息;
其中識(shí)別單元可以是利用圖像字符識(shí)別系統(tǒng)識(shí)別圖片上的文本信息。
驗(yàn)證單元402,用于驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,觸發(fā)分割單元403;
所述分割單元403,用于對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
標(biāo)記單元404,用于針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
另外,本發(fā)明還提供了另一種打標(biāo)數(shù)據(jù)的收集裝置,具體請(qǐng)參閱圖5示出的一種打標(biāo)數(shù)據(jù)的收集裝置實(shí)施例2的結(jié)構(gòu)圖。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。該裝置包括:
識(shí)別單元501,用于識(shí)別圖片上的文本信息;
驗(yàn)證單元502,用于驗(yàn)證識(shí)別到的所述文本信息是否與可信數(shù)據(jù)源的信息一致;如果一致,觸發(fā)分割單元503;如果不一致,觸發(fā)計(jì)算單元505;
所述分割單元503,用于對(duì)所述圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
標(biāo)記單元504,用于針對(duì)所述單元圖片,利用與所述單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到所述單元圖片的打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括:所述單元圖片和所述單元圖片的標(biāo)記文本信息。
計(jì)算單元505,用于計(jì)算所述文本信息與可信數(shù)據(jù)源的信息之間的相似度,并判斷相似度是否落入預(yù)設(shè)的置信度區(qū)間;如果是,觸發(fā)所述分割單元503和標(biāo)記單元504。
在上述圖4或圖5所示裝置的基礎(chǔ)上,所述裝置還可以包括:
保存單元,用于保存所述打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)用作識(shí)別單元501的機(jī)器識(shí)別模型的訓(xùn)練樣本。
更進(jìn)一步的,在上述圖4或圖5所示裝置的基礎(chǔ)上,所述裝置還可以包括:
脫敏單元,用于對(duì)所述打標(biāo)數(shù)據(jù)進(jìn)行脫敏處理;
則所述保存單元,具體用于保存脫敏處理后的打標(biāo)數(shù)據(jù)。
可選的,所述脫敏單元具體用于:對(duì)所述打標(biāo)數(shù)據(jù)中的多個(gè)所述單元圖片和所述單元圖片的標(biāo)記文本信息進(jìn)行隨機(jī)排序。
在上述圖4或圖5所示裝置中,所述分割單元,可以包括:
定位子單元,用于采用文本行定位算法定位所述圖片中的文本區(qū)域;
切割子單元,用于采用切字算法將文本區(qū)域切割成至少一個(gè)包含單個(gè)字符的單元圖片。
本發(fā)明提供的裝置,基于圖像字符識(shí)別系統(tǒng)和可信數(shù)據(jù)源驗(yàn)證圖片的真實(shí)性,通過(guò)對(duì)這些真實(shí)圖片進(jìn)行切割、標(biāo)記以得到打標(biāo)數(shù)據(jù),整個(gè)過(guò)程不再需要人工參與,能夠節(jié)省人工成本和時(shí)間成本,從而能夠促進(jìn)系統(tǒng)性能的改進(jìn)和優(yōu)化。
本發(fā)明還提供了一種證件識(shí)別系統(tǒng),下面結(jié)合圖6對(duì)該系統(tǒng)進(jìn)行解釋說(shuō)明。
請(qǐng)參閱圖6,圖6是本發(fā)明提供的一種證件識(shí)別系統(tǒng)的結(jié)構(gòu)圖,如圖6所示,該系統(tǒng)可以包括:
圖像字符識(shí)別單元601,用于識(shí)別待識(shí)別圖片中的文本信息;
信息驗(yàn)證單元602,用于驗(yàn)證所述圖像識(shí)別單元識(shí)別的文本信息與證件數(shù)據(jù)庫(kù)中的信息是否一致,若一致,則驗(yàn)證所述待識(shí)別圖片為真實(shí)圖片;
分割單元603,用于對(duì)所述信息驗(yàn)證單元驗(yàn)證的真實(shí)圖片進(jìn)行切割,得到至少一個(gè)包含單個(gè)字符的單元圖片;
標(biāo)記單元604,用于針對(duì)所述單元圖片,利用與該單元圖片中包含的字符相對(duì)應(yīng)的文本信息進(jìn)行標(biāo)記,得到打標(biāo)數(shù)據(jù),所述打標(biāo)數(shù)據(jù)包括所述單元圖片及所述單元圖片的標(biāo)記文本信息,所述打標(biāo)數(shù)據(jù)用作所述圖像字符識(shí)別單元的機(jī)器識(shí)別模型的訓(xùn)練樣本。
在圖6所示系統(tǒng)的基礎(chǔ)上,還可以包括:
計(jì)算單元,用于計(jì)算所述文本信息與可信數(shù)據(jù)源的信息之間的相似度, 并判斷相似度是否落入預(yù)設(shè)的置信度區(qū)間;如果是,觸發(fā)所述分割單元和標(biāo)記單元。這樣,能夠進(jìn)一步地將一些可信度較高的圖片作為打標(biāo)數(shù)據(jù)的基礎(chǔ),從而提高打標(biāo)數(shù)據(jù)的收集效率。
本發(fā)明提供的證件識(shí)別系統(tǒng),一方面利用圖像字符識(shí)別單元和信息驗(yàn)證單元對(duì)圖片進(jìn)行驗(yàn)證;另一方面,利用分割單元和標(biāo)記單元對(duì)驗(yàn)證的真實(shí)圖片進(jìn)行切割、標(biāo)記以得到打標(biāo)數(shù)據(jù),該打標(biāo)數(shù)據(jù)能夠用作圖像字符識(shí)別單元的機(jī)器識(shí)別模型的訓(xùn)練樣本,以對(duì)圖像字符識(shí)別單元進(jìn)行進(jìn)一步優(yōu)化。因此,該證據(jù)識(shí)別系統(tǒng)既能夠驗(yàn)證圖片的真實(shí)性,又能夠自動(dòng)收集打標(biāo)數(shù)據(jù),為系統(tǒng)的自優(yōu)化打好基礎(chǔ)。
所述領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述到的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性、機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),可以采用軟件功能單元的形式實(shí)現(xiàn)。
需要說(shuō)明的是,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的 程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
以上對(duì)本申請(qǐng)所提供的一種打標(biāo)數(shù)據(jù)的收集方法、裝置以及證件識(shí)別系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。