本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種理賠單據(jù)的字符識(shí)別方法及服務(wù)器。
背景技術(shù):
隨著大眾保險(xiǎn)意識(shí)的增強(qiáng)、購買保險(xiǎn)的客戶群大幅增多,保險(xiǎn)公司需處理的客戶理賠申請(qǐng)?jiān)絹碓蕉?,保險(xiǎn)公司作業(yè)人員需錄入的理賠單據(jù)影像也越來越多,以致于錄單作業(yè)人員的人力緊張,同時(shí),經(jīng)常會(huì)出現(xiàn)錄單錯(cuò)誤。為了有效減少錄單錯(cuò)誤、提高錄單效率,目前,有些保險(xiǎn)公司在錄單作業(yè)過程中引入ocr(opticalcharacterrecognition,光學(xué)字符識(shí)別)技術(shù),以自動(dòng)識(shí)別出理賠單據(jù)影像的字符以填充到對(duì)應(yīng)的輸入欄位中。
然而,現(xiàn)有的利用ocr技術(shù)進(jìn)行理賠單據(jù)影像字符的識(shí)別方案僅利用自身的識(shí)別引擎對(duì)整個(gè)理賠單據(jù)影像中的字符進(jìn)行統(tǒng)一識(shí)別,并未考慮理賠單據(jù)框架格式對(duì)識(shí)別精度的影響,也并未考慮單據(jù)中的框線對(duì)字符識(shí)別的干涉,使得現(xiàn)有的識(shí)別方案的識(shí)別精度不高,需要耗費(fèi)大量的人力、物力進(jìn)行校驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種理賠單據(jù)的字符識(shí)別方法及服務(wù)器,旨在提高理賠單據(jù)的識(shí)別精度。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種理賠單據(jù)的字符識(shí)別方法,所述方法包括以下步驟:
服務(wù)器在收到待識(shí)別字符的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域;
調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)分析出的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符。
優(yōu)選地,所述調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析的步驟包括:
調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出可利用光學(xué)字符識(shí)別引擎識(shí)別的第一分割區(qū)域和不可利用光學(xué)字符識(shí)別引擎識(shí)別的第二分割區(qū)域;
所述利用預(yù)先確定的識(shí)別規(guī)則對(duì)分析出的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別的步驟還包括:
利用預(yù)先確定的光學(xué)字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第一分割區(qū)域中的字符,并調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第二分割區(qū)域中的字符。
優(yōu)選地,所述預(yù)先確定的分析模型為卷積神經(jīng)網(wǎng)絡(luò)模型,所述預(yù)先確定的分析模型的訓(xùn)練過程如下:
a、針對(duì)預(yù)先確定的理賠單據(jù)框架格式,獲取預(yù)設(shè)數(shù)量的基于該理賠單據(jù)框架格式的理賠單據(jù)影像樣本;
b、對(duì)每一個(gè)理賠單據(jù)影像樣本按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,并確定出各個(gè)理賠單據(jù)影像樣本中利用光學(xué)字符識(shí)別引擎識(shí)別錯(cuò)誤的第三分割區(qū)域和利用光學(xué)字符識(shí)別引擎識(shí)別正確的第四分割區(qū)域;
c、將所有第三分割區(qū)域歸入第一訓(xùn)練集,將所有第四分割區(qū)域歸入第二訓(xùn)練集;
d、分別從所述第一訓(xùn)練集和所述第二訓(xùn)練集中提取出第一預(yù)設(shè)比例的分割區(qū)域作為待訓(xùn)練的分割區(qū)域,并將所述第一訓(xùn)練集和所述第二訓(xùn)練集中剩余的分割區(qū)域作為待驗(yàn)證的分割區(qū)域;
e、利用提取的各個(gè)待訓(xùn)練的分割區(qū)域進(jìn)行模型訓(xùn)練,以生成所述預(yù)先確定的分析模型,并利用各個(gè)待驗(yàn)證的分割區(qū)域?qū)ι傻乃鲱A(yù)先確定的分析模型進(jìn)行驗(yàn)證;
f、若驗(yàn)證通過率大于或等于預(yù)設(shè)閾值,則訓(xùn)練完成,或者,若驗(yàn)證通過率小于預(yù)設(shè)閾值,則增加理賠單據(jù)影像樣本的數(shù)量,并重復(fù)執(zhí)行上述步驟a、b、c、d、e,直至驗(yàn)證通過率大于或等于預(yù)設(shè)閾值。
優(yōu)選地,所述預(yù)先確定的識(shí)別模型為長短期記憶lstm模型,所述預(yù)先確定的識(shí)別模型的訓(xùn)練過程如下:
獲取預(yù)設(shè)數(shù)量的分割區(qū)域樣本,對(duì)各個(gè)分割區(qū)域樣本以該分割區(qū)域樣本所含字符來進(jìn)行標(biāo)注;
將預(yù)設(shè)數(shù)量的分割區(qū)域樣本按照預(yù)設(shè)比例分為第一數(shù)據(jù)集和第二數(shù)據(jù)集,并將所述第一數(shù)據(jù)集作為訓(xùn)練集,將所述第二數(shù)據(jù)集作為測試集;
將所述第一數(shù)據(jù)集送入lstm網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,每隔預(yù)設(shè)時(shí)間,使用訓(xùn)練得到的模型對(duì)所述第二數(shù)據(jù)集中的分割區(qū)域樣本進(jìn)行字符識(shí)別,并將識(shí)別的字符與該分割區(qū)域樣本的標(biāo)注進(jìn)行比對(duì),以計(jì)算識(shí)別的字符和標(biāo)注的誤差;
若訓(xùn)練得到的模型識(shí)別字符的誤差出現(xiàn)發(fā)散,則調(diào)整預(yù)設(shè)的訓(xùn)練參數(shù)并重新訓(xùn)練,直至使得訓(xùn)練得到的模型識(shí)別字符的誤差能夠收斂;
若訓(xùn)練得到的模型識(shí)別字符的誤差收斂,則結(jié)束模型訓(xùn)練,將生成的模型作為訓(xùn)練好的所述預(yù)先確定的識(shí)別模型。
優(yōu)選地,所述分割區(qū)域是由該理賠單據(jù)框架格式的框線所圍成的最小單位的區(qū)域,且所述分割區(qū)域?yàn)椴话蚓€的區(qū)域。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種理賠單據(jù)的字符識(shí)別服務(wù)器,所述字符識(shí)別服務(wù)器包括:
分割模塊,用于在收到待識(shí)別字符的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域;
識(shí)別模塊,用于調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)分析出的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符。
優(yōu)選地,所述識(shí)別模塊還用于:
調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出可利用光學(xué)字符識(shí)別引擎識(shí)別的第一分割區(qū)域和不可利用光學(xué)字符識(shí)別引擎識(shí)別的第二分割區(qū)域;
利用預(yù)先確定的光學(xué)字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第一分割區(qū)域中的字符,并調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第二分割區(qū)域中的字符。
優(yōu)選地,所述預(yù)先確定的分析模型為卷積神經(jīng)網(wǎng)絡(luò)模型,所述預(yù)先確定的分析模型的訓(xùn)練過程如下:
a、針對(duì)預(yù)先確定的理賠單據(jù)框架格式,獲取預(yù)設(shè)數(shù)量的基于該理賠單據(jù)框架格式的理賠單據(jù)影像樣本;
b、對(duì)每一個(gè)理賠單據(jù)影像樣本按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,并確定出各個(gè)理賠單據(jù)影像樣本中利用光學(xué)字符識(shí)別引擎識(shí)別錯(cuò)誤的第三分割區(qū)域和利用光學(xué)字符識(shí)別引擎識(shí)別正確的第四分割區(qū)域;
c、將所有第三分割區(qū)域歸入第一訓(xùn)練集,將所有第四分割區(qū)域歸入第二訓(xùn)練集;
d、分別從所述第一訓(xùn)練集和所述第二訓(xùn)練集中提取出第一預(yù)設(shè)比例的分割區(qū)域作為待訓(xùn)練的分割區(qū)域,并將所述第一訓(xùn)練集和所述第二訓(xùn)練集中剩余的分割區(qū)域作為待驗(yàn)證的分割區(qū)域;
e、利用提取的各個(gè)待訓(xùn)練的分割區(qū)域進(jìn)行模型訓(xùn)練,以生成所述預(yù)先確定的分析模型,并利用各個(gè)待驗(yàn)證的分割區(qū)域?qū)ι傻乃鲱A(yù)先確定的分析模型進(jìn)行驗(yàn)證;
f、若驗(yàn)證通過率大于或等于預(yù)設(shè)閾值,則訓(xùn)練完成,或者,若驗(yàn)證通過率小于預(yù)設(shè)閾值,則增加理賠單據(jù)影像樣本的數(shù)量,并重復(fù)執(zhí)行上述步驟a、b、c、d、e,直至驗(yàn)證通過率大于或等于預(yù)設(shè)閾值。
優(yōu)選地,所述預(yù)先確定的識(shí)別模型為長短期記憶lstm模型,所述預(yù)先確定的識(shí)別模型的訓(xùn)練過程如下:
獲取預(yù)設(shè)數(shù)量的分割區(qū)域樣本,對(duì)各個(gè)分割區(qū)域樣本以該分割區(qū)域樣本所含字符來進(jìn)行標(biāo)注;
將預(yù)設(shè)數(shù)量的分割區(qū)域樣本按照預(yù)設(shè)比例分為第一數(shù)據(jù)集和第二數(shù)據(jù)集,并將所述第一數(shù)據(jù)集作為訓(xùn)練集,將所述第二數(shù)據(jù)集作為測試集;
將所述第一數(shù)據(jù)集送入lstm網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,每隔預(yù)設(shè)時(shí)間,使用訓(xùn)練得到的模型對(duì)所述第二數(shù)據(jù)集中的分割區(qū)域樣本進(jìn)行字符識(shí)別,并將識(shí)別的字符與該分割區(qū)域樣本的標(biāo)注進(jìn)行比對(duì),以計(jì)算識(shí)別的字符和標(biāo)注的誤差;
若訓(xùn)練得到的模型識(shí)別字符的誤差出現(xiàn)發(fā)散,則調(diào)整預(yù)設(shè)的訓(xùn)練參數(shù)并重新訓(xùn)練,直至使得訓(xùn)練得到的模型識(shí)別字符的誤差能夠收斂;
若訓(xùn)練得到的模型識(shí)別字符的誤差收斂,則結(jié)束模型訓(xùn)練,將生成的模型作為訓(xùn)練好的所述預(yù)先確定的識(shí)別模型。
優(yōu)選地,所述分割區(qū)域是由該理賠單據(jù)框架格式的框線所圍成的最小單位的區(qū)域,且所述分割區(qū)域?yàn)椴话蚓€的區(qū)域。
本發(fā)明提出的理賠單據(jù)的字符識(shí)別方法及服務(wù)器,在對(duì)理賠單據(jù)影像進(jìn)行字符識(shí)別前,按照該理賠單據(jù)框架格式的框線排布對(duì)其進(jìn)行區(qū)域分割,利用預(yù)先確定的識(shí)別規(guī)則對(duì)該理賠單據(jù)的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以分別識(shí)別出各個(gè)分割區(qū)域中的字符。由于考慮到理賠單據(jù)框架格式對(duì)識(shí)別精度的影響,在進(jìn)行字符識(shí)別前先按照理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,再針對(duì)各個(gè)分割區(qū)域來進(jìn)行字符識(shí)別,避免了在對(duì)整個(gè)理賠單據(jù)影像中的字符進(jìn)行統(tǒng)一識(shí)別時(shí)單據(jù)中的框線對(duì)字符識(shí)別的影響及干涉,能有效提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
附圖說明
圖1為本發(fā)明理賠單據(jù)的字符識(shí)別方法第一實(shí)施例的流程示意圖;
圖2為本發(fā)明理賠單據(jù)的字符識(shí)別方法第二實(shí)施例的流程示意圖;
圖3為本發(fā)明理賠單據(jù)的字符識(shí)別服務(wù)器第一實(shí)施例的功能模塊示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
具體實(shí)施方式
為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種理賠單據(jù)的字符識(shí)別方法。
參照?qǐng)D1,圖1為本發(fā)明理賠單據(jù)的字符識(shí)別方法第一實(shí)施例的流程示意圖。
在第一實(shí)施例中,該理賠單據(jù)的字符識(shí)別方法包括:
步驟s10,服務(wù)器在收到待識(shí)別字符的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域;
本實(shí)施例中,服務(wù)器可以接收用戶發(fā)出的包含待識(shí)別字符的理賠單據(jù)影像的字符識(shí)別請(qǐng)求,例如,接收用戶通過手機(jī)、平板電腦、自助終端設(shè)備等終端發(fā)送的字符識(shí)別請(qǐng)求,如接收用戶在手機(jī)、平板電腦、自助終端設(shè)備等終端中預(yù)先安裝的客戶端上發(fā)送來的字符識(shí)別請(qǐng)求,或接收用戶在手機(jī)、平板電腦、自助終端設(shè)備等終端中的瀏覽器系統(tǒng)上發(fā)送來的字符識(shí)別請(qǐng)求。
服務(wù)器在收到待識(shí)別字符識(shí)別的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,理賠單據(jù)影像中按照其框架格式排布有橫向或豎向的框線,以組成各項(xiàng)輸入欄供用戶填寫相關(guān)信息。本實(shí)施例中,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域。例如,在一種實(shí)施方式中,由于一般不同類型的保險(xiǎn)均對(duì)應(yīng)有不同的單據(jù)格式模板,因此,可預(yù)先根據(jù)用戶上傳的單據(jù)類型(可能不同的保險(xiǎn)有不同的單據(jù)格式),獲取到對(duì)應(yīng)的單據(jù)模板,然后根據(jù)模板的格式來分割。如可根據(jù)收到的待識(shí)別字符的理賠單據(jù)影像的單據(jù)類型,找到該理賠單據(jù)影像對(duì)應(yīng)的單據(jù)模板,然后根據(jù)其對(duì)應(yīng)的單據(jù)模板進(jìn)行區(qū)域分割。該分割區(qū)域是由該理賠單據(jù)框架格式的框線所圍成的最小單位的區(qū)域,且該分割區(qū)域?yàn)椴话蚓€的區(qū)域,以避免后續(xù)在對(duì)每一分割區(qū)域進(jìn)行字符識(shí)別時(shí)框線對(duì)識(shí)別精度的干涉及影響,該分割區(qū)域類似于excel表格的每個(gè)方格,excel表格的每個(gè)方格即是最小區(qū)域內(nèi)不包含框線的區(qū)域。
步驟s20,調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)分析出的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符。
在按照該理賠單據(jù)框架格式的框線排布對(duì)理賠單據(jù)影像進(jìn)行區(qū)域分割得到一個(gè)或多個(gè)分割區(qū)域后,可調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符,也即理賠單據(jù)影像中的字符。例如,可利用預(yù)先確定的分析模型分析各個(gè)分割區(qū)域所適用的識(shí)別模型或識(shí)別方式,再根據(jù)分析出的結(jié)果針對(duì)各個(gè)分割區(qū)域利用適合各個(gè)分割區(qū)域自身的識(shí)別模型或識(shí)別方式來進(jìn)行字符識(shí)別,以提高字符識(shí)別的準(zhǔn)確率。如針對(duì)不同的分割區(qū)域,可分析出字符識(shí)別的方式為利用光學(xué)字符識(shí)別引擎進(jìn)行識(shí)別,也可以用其他識(shí)別引擎或訓(xùn)練的識(shí)別模型來進(jìn)行識(shí)別,在此不做限定。識(shí)別出各個(gè)分割區(qū)域中的字符,還可將各個(gè)分割區(qū)域中的字符自動(dòng)填充、錄入至與該理賠單據(jù)影像對(duì)應(yīng)的電子理賠單據(jù)的各相應(yīng)輸入欄位中。
本實(shí)施例在對(duì)理賠單據(jù)影像進(jìn)行字符識(shí)別前,按照該理賠單據(jù)框架格式的框線排布對(duì)其進(jìn)行區(qū)域分割,利用預(yù)先確定的識(shí)別規(guī)則對(duì)該理賠單據(jù)的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以分別識(shí)別出各個(gè)分割區(qū)域中的字符。由于考慮到理賠單據(jù)框架格式對(duì)識(shí)別精度的影響,在進(jìn)行字符識(shí)別前先按照理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,再針對(duì)各個(gè)分割區(qū)域來進(jìn)行字符識(shí)別,避免了在對(duì)整個(gè)理賠單據(jù)影像中的字符進(jìn)行統(tǒng)一識(shí)別時(shí)單據(jù)中的框線對(duì)字符識(shí)別的影響及干涉,能有效提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
如圖2所示,本發(fā)明第二實(shí)施例提出一種理賠單據(jù)的字符識(shí)別方法,在上述實(shí)施例的基礎(chǔ)上,所述步驟s20包括:
步驟s201,調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出可利用光學(xué)字符識(shí)別引擎識(shí)別的第一分割區(qū)域和不可利用光學(xué)字符識(shí)別引擎識(shí)別的第二分割區(qū)域;
步驟s202,利用預(yù)先確定的光學(xué)字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第一分割區(qū)域中的字符,并調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第二分割區(qū)域中的字符。
本實(shí)施例中,在按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割得到一個(gè)或多個(gè)分割區(qū)域后,在對(duì)獲得的分割區(qū)域進(jìn)行識(shí)別之前,還調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出無需深度識(shí)別的第一分割區(qū)域和需要深度識(shí)別的第二分割區(qū)域。例如,以當(dāng)前自身的識(shí)別引擎為ocr字符識(shí)別引擎為例進(jìn)行說明,可將ocr字符識(shí)別引擎能正確識(shí)別或識(shí)別率高的區(qū)域作為無需深度識(shí)別的區(qū)域,即利用當(dāng)前自身的ocr字符識(shí)別引擎即可對(duì)該區(qū)域的字符進(jìn)行正確的識(shí)別,無需借助其他識(shí)別方式。將ocr字符識(shí)別引擎無法識(shí)別或識(shí)別率低的區(qū)域作為需要深度識(shí)別的區(qū)域,即利用當(dāng)前自身的ocr字符識(shí)別引擎無法對(duì)該區(qū)域的字符進(jìn)行正確的識(shí)別,需借助其他識(shí)別方式如經(jīng)訓(xùn)練過的識(shí)別模型來進(jìn)行字符識(shí)別。
在分析出該理賠單據(jù)影像中可利用ocr字符識(shí)別引擎進(jìn)行正確識(shí)別的第一分割區(qū)域和不可利用ocr字符識(shí)別引擎識(shí)別的第二分割區(qū)域之后,即可針對(duì)分析出的第一分割區(qū)域和第二分割區(qū)域采取不同的識(shí)別方式進(jìn)行字符識(shí)別。利用預(yù)先確定的ocr字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以正確識(shí)別出各個(gè)所述第一分割區(qū)域中的字符。調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以正確識(shí)別出各個(gè)所述第二分割區(qū)域中的字符,該預(yù)先確定的識(shí)別模型可以是針對(duì)大量分割區(qū)域樣本進(jìn)行訓(xùn)練好的識(shí)別模型,也可以是比自身的ocr字符識(shí)別引擎識(shí)別方式更復(fù)雜、識(shí)別效果更好的識(shí)別引擎,在此不做限定。
進(jìn)一步地,在其他實(shí)施例中,所述預(yù)先確定的分析模型為卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡稱cnn)模型,所述預(yù)先確定的分析模型的訓(xùn)練過程如下:
a、針對(duì)預(yù)先確定的理賠單據(jù)框架格式,獲取預(yù)設(shè)數(shù)量(例如,50萬個(gè))的基于該理賠單據(jù)框架格式的理賠單據(jù)影像樣本;
b、對(duì)每一個(gè)理賠單據(jù)影像樣本按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,并確定出各個(gè)理賠單據(jù)影像樣本中ocr字符識(shí)別引擎識(shí)別錯(cuò)誤的第三分割區(qū)域和ocr字符識(shí)別引擎識(shí)別正確的第四分割區(qū)域;
c、將所有第三分割區(qū)域歸入第一訓(xùn)練集,將所有第四分割區(qū)域歸入第二訓(xùn)練集;
d、分別從第一訓(xùn)練集和第二訓(xùn)練集中提取出第一預(yù)設(shè)比例(例如,80%)的分割區(qū)域作為待訓(xùn)練的分割區(qū)域,并將第一訓(xùn)練集和第二訓(xùn)練集中剩余的分割區(qū)域作為待驗(yàn)證的分割區(qū)域;
e、利用提取的各個(gè)待訓(xùn)練的分割區(qū)域進(jìn)行模型訓(xùn)練,以生成所述預(yù)先確定的分析模型,并利用各個(gè)待驗(yàn)證的分割區(qū)域?qū)ι傻乃鲱A(yù)先確定的分析模型進(jìn)行驗(yàn)證;
f、若驗(yàn)證通過率大于等于預(yù)設(shè)閾值(例如,98%),則訓(xùn)練完成,或者,若驗(yàn)證通過率小于預(yù)設(shè)閾值,則增加理賠單據(jù)影像樣本的數(shù)量,并重復(fù)執(zhí)行所述步驟a、b、c、d、e,直至驗(yàn)證通過率大于或等于預(yù)設(shè)閾值。
本實(shí)施例中利用經(jīng)大量理賠單據(jù)影像樣本訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行分割區(qū)域分析,能夠準(zhǔn)確分析出理賠單據(jù)的各個(gè)分割區(qū)域中可利用ocr字符識(shí)別引擎來正確識(shí)別字符的第一分割區(qū)域和無法利用ocr字符識(shí)別引擎來正確識(shí)別字符的第二分割區(qū)域,以便后續(xù)針對(duì)第一分割區(qū)域和第二分割區(qū)域分別采用不同的識(shí)別方式來進(jìn)行準(zhǔn)確的字符識(shí)別操作,從而提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
進(jìn)一步地,在其他實(shí)施例中,所述預(yù)先確定的識(shí)別模型為長短期記憶(longshort-termmemory,簡稱lstm)模型,所述預(yù)先確定的識(shí)別模型的訓(xùn)練過程如下:
獲取預(yù)設(shè)數(shù)量(例如,10萬)的區(qū)域樣本,該區(qū)域樣本可以是歷史數(shù)據(jù)中對(duì)若干理賠單據(jù)按照其框架格式的框線排布進(jìn)行區(qū)域分割后的分割區(qū)域樣本。在一種實(shí)施方式中,可統(tǒng)一將分割區(qū)域樣本中的字體設(shè)置為黑色,背景設(shè)置為白色,以便于進(jìn)行字符識(shí)別。并將各個(gè)分割區(qū)域樣本進(jìn)行標(biāo)注,如可將各個(gè)分割區(qū)域樣本的名稱命名為該分割區(qū)域樣本所包含的字符以進(jìn)行標(biāo)注。
將預(yù)設(shè)數(shù)量的分割區(qū)域樣本按照預(yù)設(shè)比例(例如,8:2)分為第一數(shù)據(jù)集和第二數(shù)據(jù)集,將第一數(shù)據(jù)集作為訓(xùn)練集,將第二數(shù)據(jù)集作為測試集,其中,第一數(shù)據(jù)集的樣本數(shù)量比例大于或者等于第二數(shù)據(jù)集的樣本數(shù)量比例。
將第一數(shù)據(jù)集送入lstm網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,每隔預(yù)設(shè)時(shí)間(例如每30分鐘或每進(jìn)行1000次迭代),對(duì)模型使用第二數(shù)據(jù)集進(jìn)行測試,以評(píng)估當(dāng)前訓(xùn)練的模型效果。例如,在測試時(shí),可使用訓(xùn)練得到的模型對(duì)第二數(shù)據(jù)集中的分割區(qū)域樣本進(jìn)行字符識(shí)別,并將利用訓(xùn)練得到的模型對(duì)分割區(qū)域樣本的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注進(jìn)行比對(duì),以計(jì)算出訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差。具體地,在計(jì)算誤差時(shí),可采用編輯距離作為計(jì)算標(biāo)準(zhǔn),其中,編輯距離(editdistance),又稱levenshtein距離,是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符,一般來說,編輯距離越小,兩個(gè)串的相似度越大。因此,在以編輯距離作為計(jì)算標(biāo)準(zhǔn)來計(jì)算訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差時(shí),計(jì)算得到的誤差越小,說明訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的相似度越大;相反,計(jì)算得到的誤差越大,說明訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的相似度越小。
由于該分割區(qū)域樣本的標(biāo)注為該分割區(qū)域樣本的名稱也即該分割區(qū)域樣本所包含的字符,因此,計(jì)算出的訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差即為訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本所包含的字符之間的誤差,能反映出訓(xùn)練得到的模型識(shí)別出的字符與正確的字符之間的誤差。記錄每一次對(duì)訓(xùn)練的模型使用第二數(shù)據(jù)集進(jìn)行測試的誤差,并分析誤差的變化趨勢(shì),若分析測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差出現(xiàn)發(fā)散,則調(diào)整訓(xùn)練參數(shù)如activation函數(shù)、lstm層數(shù)、輸入輸出的變量維度等,并重新訓(xùn)練,使測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差能夠收斂。當(dāng)分析測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差收斂后,則結(jié)束模型訓(xùn)練,將生成的訓(xùn)練模型作為訓(xùn)練好的所述預(yù)先確定的識(shí)別模型。
本實(shí)施例中,針對(duì)ocr字符識(shí)別引擎無法識(shí)別的區(qū)域,采用訓(xùn)練好的lstm模型進(jìn)行識(shí)別,由于lstm模型為經(jīng)大量分割區(qū)域樣本訓(xùn)練過的,且對(duì)分割區(qū)域樣本的字符識(shí)別的誤差收斂的模型,配合lstm模型自身的長期記憶功能使該lstm模型在識(shí)別分割區(qū)域中的字符時(shí),能利用模型記住的長期信息如上下文信息等,更加準(zhǔn)確地識(shí)別出分割區(qū)域中的字符,從而進(jìn)一步提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
本發(fā)明進(jìn)一步提供一種理賠單據(jù)的字符識(shí)別服務(wù)器。
參照?qǐng)D3,圖3為本發(fā)明理賠單據(jù)的字符識(shí)別服務(wù)器第一實(shí)施例的功能模塊示意圖。
在第一實(shí)施例中,該理賠單據(jù)的字符識(shí)別服務(wù)器包括:
分割模塊01,用于在收到待識(shí)別字符的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域;
本實(shí)施例中,服務(wù)器可以接收用戶發(fā)出的包含待識(shí)別字符的理賠單據(jù)影像的字符識(shí)別請(qǐng)求,例如,接收用戶通過手機(jī)、平板電腦、自助終端設(shè)備等終端發(fā)送的字符識(shí)別請(qǐng)求,如接收用戶在手機(jī)、平板電腦、自助終端設(shè)備等終端中預(yù)先安裝的客戶端上發(fā)送來的字符識(shí)別請(qǐng)求,或接收用戶在手機(jī)、平板電腦、自助終端設(shè)備等終端中的瀏覽器系統(tǒng)上發(fā)送來的字符識(shí)別請(qǐng)求。
服務(wù)器在收到待識(shí)別字符識(shí)別的理賠單據(jù)影像后,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,理賠單據(jù)影像中按照其框架格式排布有橫向或豎向的框線,以組成各項(xiàng)輸入欄供用戶填寫相關(guān)信息。本實(shí)施例中,按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,獲得一個(gè)或多個(gè)分割區(qū)域。例如,在一種實(shí)施方式中,由于一般不同類型的保險(xiǎn)均對(duì)應(yīng)有不同的單據(jù)格式模板,因此,可預(yù)先根據(jù)用戶上傳的單據(jù)類型(可能不同的保險(xiǎn)有不同的單據(jù)格式),獲取到對(duì)應(yīng)的單據(jù)模板,然后根據(jù)模板的格式來分割。如可根據(jù)收到的待識(shí)別字符的理賠單據(jù)影像的單據(jù)類型,找到該理賠單據(jù)影像對(duì)應(yīng)的單據(jù)模板,然后根據(jù)其對(duì)應(yīng)的單據(jù)模板進(jìn)行區(qū)域分割。該分割區(qū)域是由該理賠單據(jù)框架格式的框線所圍成的最小單位的區(qū)域,且該分割區(qū)域?yàn)椴话蚓€的區(qū)域,以避免后續(xù)在對(duì)每一分割區(qū)域進(jìn)行字符識(shí)別時(shí)框線對(duì)識(shí)別精度的干涉及影響,該分割區(qū)域類似于excel表格的每個(gè)方格,excel表格的每個(gè)方格即是最小區(qū)域內(nèi)不包含框線的區(qū)域。
識(shí)別模塊02,用于調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)分析出的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符。
在按照該理賠單據(jù)框架格式的框線排布對(duì)理賠單據(jù)影像進(jìn)行區(qū)域分割得到一個(gè)或多個(gè)分割區(qū)域后,可調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,并利用預(yù)先確定的識(shí)別規(guī)則對(duì)各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)分割區(qū)域中的字符,也即理賠單據(jù)影像中的字符。例如,可利用預(yù)先確定的分析模型分析各個(gè)分割區(qū)域所適用的識(shí)別模型或識(shí)別方式,再根據(jù)分析出的結(jié)果針對(duì)各個(gè)分割區(qū)域利用適合各個(gè)分割區(qū)域自身的識(shí)別模型或識(shí)別方式來進(jìn)行字符識(shí)別,以提高字符識(shí)別的準(zhǔn)確率。如針對(duì)不同的分割區(qū)域,可分析出字符識(shí)別的方式為利用光學(xué)字符識(shí)別引擎進(jìn)行識(shí)別,也可以用其他識(shí)別引擎或訓(xùn)練的識(shí)別模型來進(jìn)行識(shí)別,在此不做限定。識(shí)別出各個(gè)分割區(qū)域中的字符,還可將各個(gè)分割區(qū)域中的字符自動(dòng)填充、錄入至與該理賠單據(jù)影像對(duì)應(yīng)的電子理賠單據(jù)的各相應(yīng)輸入欄位中。
本實(shí)施例在對(duì)理賠單據(jù)影像進(jìn)行字符識(shí)別前,按照該理賠單據(jù)框架格式的框線排布對(duì)其進(jìn)行區(qū)域分割,利用預(yù)先確定的識(shí)別規(guī)則對(duì)該理賠單據(jù)的各個(gè)分割區(qū)域分別進(jìn)行字符識(shí)別,以分別識(shí)別出各個(gè)分割區(qū)域中的字符。由于考慮到理賠單據(jù)框架格式對(duì)識(shí)別精度的影響,在進(jìn)行字符識(shí)別前先按照理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,再針對(duì)各個(gè)分割區(qū)域來進(jìn)行字符識(shí)別,避免了在對(duì)整個(gè)理賠單據(jù)影像中的字符進(jìn)行統(tǒng)一識(shí)別時(shí)單據(jù)中的框線對(duì)字符識(shí)別的影響及干涉,能有效提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
進(jìn)一步地,在上述實(shí)施例的基礎(chǔ)上,上述識(shí)別模塊02還用于:
調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出可利用光學(xué)字符識(shí)別引擎識(shí)別的第一分割區(qū)域和不可利用光學(xué)字符識(shí)別引擎識(shí)別的第二分割區(qū)域;
利用預(yù)先確定的光學(xué)字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第一分割區(qū)域中的字符,并調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以識(shí)別出各個(gè)所述第二分割區(qū)域中的字符。
本實(shí)施例中,在按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割得到一個(gè)或多個(gè)分割區(qū)域后,在對(duì)獲得的分割區(qū)域進(jìn)行識(shí)別之前,還調(diào)用預(yù)先確定的分析模型對(duì)獲得的各個(gè)分割區(qū)域進(jìn)行分析,以分析出無需深度識(shí)別的第一分割區(qū)域和需要深度識(shí)別的第二分割區(qū)域。例如,以當(dāng)前自身的識(shí)別引擎為ocr字符識(shí)別引擎為例進(jìn)行說明,可將ocr字符識(shí)別引擎能正確識(shí)別或識(shí)別率高的區(qū)域作為無需深度識(shí)別的區(qū)域,即利用當(dāng)前自身的ocr字符識(shí)別引擎即可對(duì)該區(qū)域的字符進(jìn)行正確的識(shí)別,無需借助其他識(shí)別方式。將ocr字符識(shí)別引擎無法識(shí)別或識(shí)別率低的區(qū)域作為需要深度識(shí)別的區(qū)域,即利用當(dāng)前自身的ocr字符識(shí)別引擎無法對(duì)該區(qū)域的字符進(jìn)行正確的識(shí)別,需借助其他識(shí)別方式如經(jīng)訓(xùn)練過的識(shí)別模型來進(jìn)行字符識(shí)別。
在分析出該理賠單據(jù)影像中可利用ocr字符識(shí)別引擎進(jìn)行正確識(shí)別的第一分割區(qū)域和不可利用ocr字符識(shí)別引擎識(shí)別的第二分割區(qū)域之后,即可針對(duì)分析出的第一分割區(qū)域和第二分割區(qū)域采取不同的識(shí)別方式進(jìn)行字符識(shí)別。利用預(yù)先確定的ocr字符識(shí)別引擎對(duì)各個(gè)所述第一分割區(qū)域進(jìn)行字符識(shí)別,以正確識(shí)別出各個(gè)所述第一分割區(qū)域中的字符。調(diào)用預(yù)先確定的識(shí)別模型對(duì)各個(gè)所述第二分割區(qū)域進(jìn)行字符識(shí)別,以正確識(shí)別出各個(gè)所述第二分割區(qū)域中的字符,該預(yù)先確定的識(shí)別模型可以是針對(duì)大量分割區(qū)域樣本進(jìn)行訓(xùn)練好的識(shí)別模型,也可以是比自身的ocr字符識(shí)別引擎識(shí)別方式更復(fù)雜、識(shí)別效果更好的識(shí)別引擎,在此不做限定。
進(jìn)一步地,在其他實(shí)施例中,所述預(yù)先確定的分析模型為卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡稱cnn)模型,所述預(yù)先確定的分析模型的訓(xùn)練過程如下:
a、針對(duì)預(yù)先確定的理賠單據(jù)框架格式,獲取預(yù)設(shè)數(shù)量(例如,50萬個(gè))的基于該理賠單據(jù)框架格式的理賠單據(jù)影像樣本;
b、對(duì)每一個(gè)理賠單據(jù)影像樣本按照該理賠單據(jù)框架格式的框線排布進(jìn)行區(qū)域分割,并確定出各個(gè)理賠單據(jù)影像樣本中ocr字符識(shí)別引擎識(shí)別錯(cuò)誤的第三分割區(qū)域和ocr字符識(shí)別引擎識(shí)別正確的第四分割區(qū)域;
c、將所有第三分割區(qū)域歸入第一訓(xùn)練集,將所有第四分割區(qū)域歸入第二訓(xùn)練集;
d、分別從第一訓(xùn)練集和第二訓(xùn)練集中提取出第一預(yù)設(shè)比例(例如,80%)的分割區(qū)域作為待訓(xùn)練的分割區(qū)域,并將第一訓(xùn)練集和第二訓(xùn)練集中剩余的分割區(qū)域作為待驗(yàn)證的分割區(qū)域;
e、利用提取的各個(gè)待訓(xùn)練的分割區(qū)域進(jìn)行模型訓(xùn)練,以生成所述預(yù)先確定的分析模型,并利用各個(gè)待驗(yàn)證的分割區(qū)域?qū)ι傻乃鲱A(yù)先確定的分析模型進(jìn)行驗(yàn)證;
f、若驗(yàn)證通過率大于等于預(yù)設(shè)閾值(例如,98%),則訓(xùn)練完成,或者,若驗(yàn)證通過率小于預(yù)設(shè)閾值,則增加理賠單據(jù)影像樣本的數(shù)量,并重復(fù)執(zhí)行所述步驟a、b、c、d、e,直至驗(yàn)證通過率大于或等于預(yù)設(shè)閾值。
本實(shí)施例中利用經(jīng)大量理賠單據(jù)影像樣本訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行分割區(qū)域分析,能夠準(zhǔn)確分析出理賠單據(jù)的各個(gè)分割區(qū)域中可利用ocr字符識(shí)別引擎來正確識(shí)別字符的第一分割區(qū)域和無法利用ocr字符識(shí)別引擎來正確識(shí)別字符的第二分割區(qū)域,以便后續(xù)針對(duì)第一分割區(qū)域和第二分割區(qū)域分別采用不同的識(shí)別方式來進(jìn)行準(zhǔn)確的字符識(shí)別操作,從而提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
進(jìn)一步地,在其他實(shí)施例中,所述預(yù)先確定的識(shí)別模型為長短期記憶(longshort-termmemory,簡稱lstm)模型,所述預(yù)先確定的識(shí)別模型的訓(xùn)練過程如下:
獲取預(yù)設(shè)數(shù)量(例如,10萬)的區(qū)域樣本,該區(qū)域樣本可以是歷史數(shù)據(jù)中對(duì)若干理賠單據(jù)按照其框架格式的框線排布進(jìn)行區(qū)域分割后的分割區(qū)域樣本。在一種實(shí)施方式中,可統(tǒng)一將分割區(qū)域樣本中的字體設(shè)置為黑色,背景設(shè)置為白色,以便于進(jìn)行字符識(shí)別。并將各個(gè)分割區(qū)域樣本進(jìn)行標(biāo)注,如可將各個(gè)分割區(qū)域樣本的名稱命名為該分割區(qū)域樣本所包含的字符以進(jìn)行標(biāo)注。
將預(yù)設(shè)數(shù)量的分割區(qū)域樣本按照預(yù)設(shè)比例(例如,8:2)分為第一數(shù)據(jù)集和第二數(shù)據(jù)集,將第一數(shù)據(jù)集作為訓(xùn)練集,將第二數(shù)據(jù)集作為測試集,其中,第一數(shù)據(jù)集的樣本數(shù)量比例大于或者等于第二數(shù)據(jù)集的樣本數(shù)量比例。
將第一數(shù)據(jù)集送入lstm網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,每隔預(yù)設(shè)時(shí)間(例如每30分鐘或每進(jìn)行1000次迭代),對(duì)模型使用第二數(shù)據(jù)集進(jìn)行測試,以評(píng)估當(dāng)前訓(xùn)練的模型效果。例如,在測試時(shí),可使用訓(xùn)練得到的模型對(duì)第二數(shù)據(jù)集中的分割區(qū)域樣本進(jìn)行字符識(shí)別,并將利用訓(xùn)練得到的模型對(duì)分割區(qū)域樣本的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注進(jìn)行比對(duì),以計(jì)算出訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差。具體地,在計(jì)算誤差時(shí),可采用編輯距離作為計(jì)算標(biāo)準(zhǔn),其中,編輯距離(editdistance),又稱levenshtein距離,是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符,一般來說,編輯距離越小,兩個(gè)串的相似度越大。因此,在以編輯距離作為計(jì)算標(biāo)準(zhǔn)來計(jì)算訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差時(shí),計(jì)算得到的誤差越小,說明訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的相似度越大;相反,計(jì)算得到的誤差越大,說明訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的相似度越小。
由于該分割區(qū)域樣本的標(biāo)注為該分割區(qū)域樣本的名稱也即該分割區(qū)域樣本所包含的字符,因此,計(jì)算出的訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本的標(biāo)注的誤差即為訓(xùn)練得到的模型的字符識(shí)別結(jié)果與該分割區(qū)域樣本所包含的字符之間的誤差,能反映出訓(xùn)練得到的模型識(shí)別出的字符與正確的字符之間的誤差。記錄每一次對(duì)訓(xùn)練的模型使用第二數(shù)據(jù)集進(jìn)行測試的誤差,并分析誤差的變化趨勢(shì),若分析測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差出現(xiàn)發(fā)散,則調(diào)整訓(xùn)練參數(shù)如activation函數(shù)、lstm層數(shù)、輸入輸出的變量維度等,并重新訓(xùn)練,使測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差能夠收斂。當(dāng)分析測試時(shí)的訓(xùn)練模型對(duì)分割區(qū)域樣本的字符識(shí)別的誤差收斂后,則結(jié)束模型訓(xùn)練,將生成的訓(xùn)練模型作為訓(xùn)練好的所述預(yù)先確定的識(shí)別模型。
本實(shí)施例中,針對(duì)ocr字符識(shí)別引擎無法識(shí)別的區(qū)域,采用訓(xùn)練好的lstm模型進(jìn)行識(shí)別,由于lstm模型為經(jīng)大量分割區(qū)域樣本訓(xùn)練過的,且對(duì)分割區(qū)域樣本的字符識(shí)別的誤差收斂的模型,配合lstm模型自身的長期記憶功能使該lstm模型在識(shí)別分割區(qū)域中的字符時(shí),能利用模型記住的長期信息如上下文信息等,更加準(zhǔn)確地識(shí)別出分割區(qū)域中的字符,從而進(jìn)一步提高對(duì)理賠單據(jù)中字符的識(shí)別精度。
需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件來實(shí)現(xiàn),但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上參照附圖說明了本發(fā)明的優(yōu)選實(shí)施例,并非因此局限本發(fā)明的權(quán)利范圍。上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
本領(lǐng)域技術(shù)人員不脫離本發(fā)明的范圍和實(shí)質(zhì),可以有多種變型方案實(shí)現(xiàn)本發(fā)明,比如作為一個(gè)實(shí)施例的特征可用于另一實(shí)施例而得到又一實(shí)施例。凡在運(yùn)用本發(fā)明的技術(shù)構(gòu)思之內(nèi)所作的任何修改、等同替換和改進(jìn),均應(yīng)在本發(fā)明的權(quán)利范圍之內(nèi)。