用于識別電子文件中的專用區(qū)域的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于識別專用區(qū)域的方法,更具體地,涉及用于識別電子文件中的專用區(qū)域的方法。
【背景技術(shù)】
[0002]目前,隨著計(jì)算機(jī)和網(wǎng)絡(luò)應(yīng)用的日益廣泛以及不同領(lǐng)域的業(yè)務(wù)種類的日益豐富,識別電子文件(例如金融領(lǐng)域中的電子合同文本)中的專用區(qū)域(例如,需要填寫的區(qū)域,諸如簽名區(qū)域)變得越來越重要。
[0003]在現(xiàn)有的技術(shù)方案中,用戶需要在提交電子文件后手動地逐一標(biāo)識出各個(gè)專用區(qū)域(例如,需要填寫的區(qū)域,諸如簽名區(qū)域),以供后續(xù)處理。
[0004]上述現(xiàn)有技術(shù)存在如下問題:由于需要手動地逐一標(biāo)識出各個(gè)專用區(qū)域,故效率較低,并且易于出錯(cuò)。
[0005]因此,存在如下需求:提供具有高的處理效率和準(zhǔn)確性的用于識別電子文件中的專用區(qū)域的方法。
【發(fā)明內(nèi)容】
[0006]為了解決上述現(xiàn)有技術(shù)方案所存在的問題,本發(fā)明提出了具有高的處理效率和準(zhǔn)確性的用于識別電子文件中的專用區(qū)域的方法。
[0007]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種用于識別電子文件中的專用區(qū)域的方法,所述用于識別電子文件中的專用區(qū)域的方法包括下列步驟:
(Al)接收上傳的目標(biāo)電子文件;
(A2)根據(jù)預(yù)設(shè)的關(guān)鍵字列表搜索所述目標(biāo)電子文件中的關(guān)鍵字,并確定搜索出的關(guān)鍵字的大小和位置;
(A3)基于所確定的每個(gè)關(guān)鍵字的大小和位置限定與其相關(guān)聯(lián)的候選專用區(qū)域。
[0008]在上面所公開的方案中,優(yōu)選地,所述步驟(A2)進(jìn)一步包括:確定所述目標(biāo)電子文件的格式,并且使用與所述目標(biāo)電子文件的格式相匹配的分析工具搜索所述目標(biāo)電子文件中的關(guān)鍵字。
[0009]在上面所公開的方案中,優(yōu)選地,所述步驟(A2)進(jìn)一步包括:在搜索到關(guān)鍵字后,以所述電子文件的當(dāng)前頁的最左下角為坐標(biāo)系的原點(diǎn)記錄該關(guān)鍵字的最后一個(gè)字c的右上角坐標(biāo)(xkl, ykt)和右下角坐標(biāo)(xkl, ykb),由此所述字c的高度h為ykt_ykb。
[0010]在上面所公開的方案中,優(yōu)選地,所述步驟(A2)進(jìn)一步包括:針對每個(gè)搜索出的關(guān)鍵字,以如下方式通過逐步掃描所述關(guān)鍵字后的區(qū)域的內(nèi)容動態(tài)地識別所述電子文件的排版格式來確定和劃分與所述關(guān)鍵字相關(guān)聯(lián)的專用區(qū)域:
(I)從所述字c位置開始逐步向右移動掃描,每步移動的距離為h/t_step,其中t_step是移動寬度因子,在每步移動掃描完成之后判斷當(dāng)前位置至上一次停止移動掃描的位置之間的范圍內(nèi)是否存在字符和標(biāo)點(diǎn)符號;
(2)如果在所述范圍內(nèi)存在豎線,則計(jì)算該豎線的高度,如果該豎線的高度小于h,則確定其為噪音,否則,確定其為表格豎線,并且記錄該豎線的橫坐標(biāo)位置Xvl,隨后再次逐步向右移動掃描,并且如果再次移動掃描得到的豎線的高度大于等于h,則再次記錄該豎線的橫坐標(biāo)的位置Xvr,并且將候選專用區(qū)域劃定為四個(gè)頂點(diǎn)(2*xvl- xkl, ykt)、(2*xv「xkl,ykb)、(xvr-xvl+ Xki, ykt)和(xvr-xvl+ xkl, ykb)所構(gòu)成的矩形區(qū)域;
(3)如果在所述范圍內(nèi)存在字符,并且之前沒有掃描到豎線,則記錄該字符的左上角的橫坐標(biāo)位置Xkr,并將候選專用區(qū)域劃定為四個(gè)頂點(diǎn)(Xkl+w, ykt)、(xkl+w, ykb)、(Xkr-W, ykt)和(xkl~w,ykb)構(gòu)成的矩形區(qū)域,其中w為字符間隔寬度因子;
(4)如果移動掃描持續(xù)至頁面右邊邊緣,并且之前沒有掃描到字符,則將候選專用區(qū)域劃定為四個(gè)頂點(diǎn)(xkl+w, ykt)、(xkl+w, ykb)、(xr_w,ykt)和(xr_w,ykb)構(gòu)成的矩形區(qū)域,其中&是文檔右邊邊緣的橫坐標(biāo)位置,w是字符間隔寬度因子;
(5)計(jì)算所述候選專用區(qū)域的矩形的長度和寬度,并計(jì)算長寬比,如果計(jì)算出的長寬比低于預(yù)定的閥值th_p,則判斷此候選專用區(qū)域是不適合的專用區(qū)域,并放棄該區(qū)域,而如果該候選專用區(qū)域的長寬比低于所述預(yù)定的閥值th_p,則進(jìn)一步掃描以四個(gè)頂點(diǎn)(O,ykb+vs)、(O, 2*ykb+vs_ykt)、(xr_w, ykb+vs)和(xr_w, 2*ykb+vs_ykt)構(gòu)成的矩形區(qū)域,如果該區(qū)域不存在字符,則劃定該區(qū)域?yàn)楹蜻x專用區(qū)域,其中vs是所述電子文件的行間距。
[0011]在上面所公開的方案中,優(yōu)選地,所述方法進(jìn)一步包括:(A4)將所確定的候選專用區(qū)域通過顯示器呈現(xiàn)至用戶,以致使得用戶能夠?qū)λ龊蜻x專用區(qū)域進(jìn)行確認(rèn)、和/或修改、和/或添加、和/或刪除操作,并提交和保存最終結(jié)果。
[0012]本發(fā)明所公開的用于識別電子文件中的專用區(qū)域的方法具有下列優(yōu)點(diǎn):由于能夠自動地識別與特定關(guān)鍵字相關(guān)聯(lián)的候選專用區(qū)域,故顯著地提高了電子文件的處理效率和準(zhǔn)確性。
【附圖說明】
[0013]結(jié)合附圖,本發(fā)明的技術(shù)特征以及優(yōu)點(diǎn)將會被本領(lǐng)域技術(shù)人員更好地理解,其中:
圖1是根據(jù)本發(fā)明的實(shí)施例的用于識別電子文件中的專用區(qū)域的方法的流程圖。
【具體實(shí)施方式】
[0014]圖1是根據(jù)本發(fā)明的實(shí)施例的用于識別電子文件中的專用區(qū)域的方法的流程圖。如圖1所示,本發(fā)明所公開的用于識別電子文件中的專用區(qū)域的方法包括下列步驟:(Al)接收上傳的目標(biāo)電子文件;(A2)根據(jù)預(yù)設(shè)的關(guān)鍵字列表(例如,簽名欄的區(qū)域關(guān)鍵字包括:“簽名:”、“用戶名:”等等,日期欄的區(qū)域關(guān)鍵字包括“日期:”、“年月日:”等等)搜索所述目標(biāo)電子文件中的關(guān)鍵字,并確定搜索出的關(guān)鍵字的大小和位置;(A3)基于所確定的每個(gè)關(guān)鍵字的大小和位置限定與其相關(guān)聯(lián)的候選專用區(qū)域。
[0015]優(yōu)選地,在本發(fā)明所公開的用于識別電子文件中的專用區(qū)域的方法中,所述步驟(A2)進(jìn)一步包括:確定所述目標(biāo)電子文件的格式,并且使用與所述目標(biāo)電子文件的格式相匹配的分析工具搜索所述目標(biāo)電子文件中的關(guān)鍵字(例如,針對Word和PDF文檔時(shí),采用相關(guān)文檔格式的開發(fā)包,針對其他圖片格式時(shí),采用OCR工具)。
[0016]優(yōu)選地,在本發(fā)明所公開的用于識別電子文件中的專用區(qū)域的方法中,所述步驟(A2)進(jìn)一步包括:在搜索到關(guān)鍵字后,以所述電子文件的當(dāng)前頁的最左下角為坐標(biāo)系的原點(diǎn)記錄該關(guān)鍵字的最后一個(gè)字c的右上角坐標(biāo)(xkl,ykt)和右下角坐標(biāo)(xkl,ykb),由此所述字c的高度h為ykt_ykb。
[0017]優(yōu)選地,在本發(fā)明所公開的用于識別電子文件中的專用區(qū)域的方法中,所述步驟(A2)進(jìn)一步包括:針對每個(gè)搜索出的關(guān)鍵字,以如下方式通過逐步掃描所述關(guān)鍵字后的區(qū)域的內(nèi)容動態(tài)地識別所述電子文件的排版格式(例如,待確定的專用區(qū)域位于表格、下劃線以及換行處等等)來確定和劃分與所述關(guān)鍵字相關(guān)聯(lián)的專用區(qū)域:(I)從所述字c位置開始逐步向右移動掃描,每步移動的距離為h/t_step,其中t_step是移動寬度因子(其值從O到無窮大,并且數(shù)值越大,移動的寬度越小,并且越是能夠準(zhǔn)確定位字符的位置,同時(shí)計(jì)算量也越大,反之亦然),在每步移動掃描完成之后判斷當(dāng)前位置