本發(fā)明屬于光學字符識別,具體的說是一種基于融合檢測的底稿圖像識別系統(tǒng)及方法。
背景技術:
1、光學字符識別一般包括圖像預處理、文本檢測和文本識別過程,其中文本檢測方法中比較流行的是基于像素分割的方法和基于回歸的方法。底稿圖像包含金融場景下的各類文本圖像,如銀行流水、發(fā)票、憑證和各類證件照等,打印質量也各不相同,存在拍照、掃描和pdf打印等。因此,底稿圖像中的文本行尺寸、形狀和頁面排版多變,字體也各不相同,存在小字、透字、文本粘連等問題,由于其場景的復雜性,使用現(xiàn)有的單一文本檢測模型很難達到較好的文本檢測效果,從而導致整體識別質量差。
2、基于像素分割的文本檢測方法通常借鑒物體語義分割和實例分割的思想,利用全卷積神經網絡對圖像中的每個像素點進行文本和非文本分類,從而得到文本區(qū)域掩碼圖,然后通過一些像素聚合的后處理方式將屬于同一文本的文本像素點聚合在一起得到最后的文本實例邊界框,這類方法中比較典型的算法有psenet、pan、msr和dbnet等?;诨貧w的文本檢測方法主要是基于以深度學習為基礎的目標檢測技術或者實例分割技術,它將文本視為一種通用目標然后直接檢測出整個文本實例,此類方法通常是直接回歸出水平矩形或者多方向的任意形狀多邊形以解決文本檢測的問題,這類方法中比較典型的算法有text-boxes、east和yolo等?;谙袼胤指畹姆椒ǖ闹饕獌?yōu)勢在于對文本邊界的預測比較精準,能夠適應于各種形狀的文本,同時有較強的抗噪聲干擾能力;同時它也存在一些缺陷,如無法檢測重疊文本和對小目標不敏感等?;诨貧w的方法的主要優(yōu)勢在于能夠準確檢測重疊文本、對小目標的檢測效果較好;同時它的缺陷在于不適用于文本行角度、形狀存在多樣性的場景。
3、如公開號為cn116935405a的中國專利公開了一種基于ocr和nlp提取客戶文檔掃描件內服務條款方法,步驟如下:1)、服務器獲取用戶上傳的掃描件;2)、將掃描件轉換為jpg格式的圖片;3)、使用dbnet網絡識別圖片中包含文字的行;4)、將識別出包含文字的行轉換為獨立的圖片;5)、將包含文字的獨立的圖片轉換為標準化圖片;6)、將標準化圖片交給文字識別網絡,識別出文字;7)、識別出的文字中的標題、段落,切換為正文;8)、識別文檔中的表格,切換為正文;9)、提取出文檔中的服務內容和對工程師要求,切換為正文;10)、進行關鍵詞搜索,并規(guī)范化提取內容。該發(fā)明通過系統(tǒng)自動化減少技術人員和業(yè)務人員的溝通成本和時間成本,快速定位客戶所要的服務內容。
4、如公開號為cn118314563a的中國專利公開了一種基于旋轉框體的文本檢測方法,屬于文本檢測領域。所述方法包括:s1、獲取圖片數(shù)據(jù)集,并對其進行預處理;s2、構造基于改進yolov8s-obb算法得到的文本檢測模型;s3、將所述步驟s1預處理后的圖片數(shù)據(jù)集輸入所述步驟s2的文本檢測模型中進行迭代,得到最優(yōu)的文本檢測模型;s4、使用所述最優(yōu)的文本檢測模型對所述步驟s1預處理后的圖片數(shù)據(jù)集進行文本檢測。該發(fā)明通過改進的yolov8s-obb算法生成可旋轉的文字檢測框體,解決了交通標志牌等目標因圖像角度問題所導致的檢測框無法全覆蓋的問題,同時有效提高檢測準確度。
5、上述專利的缺陷:1)無法處理重疊文本,會導致后續(xù)識別結果錯誤;2)對于長文本檢測效果不夠好,不能適用于底稿文本識別場景。
技術實現(xiàn)思路
1、針對現(xiàn)有技術的不足,本發(fā)明提出了一種基于融合檢測的底稿圖像識別系統(tǒng)及方法,主要包括旋轉校正、檢測模塊和圖像文字識別,其中檢測模塊使用了基于分割的文本檢測方法和基于回歸的文本檢測方法,并將二者的檢測結果融合,最后輸出底稿圖像中的所有文本行的位置。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、一種基于融合檢測的底稿圖像識別方法,包括以下具體步驟:
4、獲取底稿圖像,并對獲取的底稿圖像進行預處理;
5、對預處理后的底稿圖像進行角度識別,并進行旋轉校正處理;
6、對旋轉校正后的底稿圖像中的文本位置進行識別;
7、根本識別出的底稿圖像中的文本位置,對底稿圖像中文本內容進行識別。
8、具體的,所述對預處理后的底稿圖像進行角度識別,包括:
9、使用預先標注角度值的底稿圖像數(shù)據(jù)集來訓練mobilenet-v3模型,在模型訓練完成后,得到底稿朝向識別模型;
10、設定獲取的底稿圖像為i(x,y),將底稿圖像i(x,y)輸入至底稿朝向識別模型中,得到底稿圖像i(x,y)的朝向角度;
11、將底稿圖像i(x,y)從空間域轉換到頻率域,生成頻譜,生成頻譜的具體公式為:
12、,
13、其中,f(u,v)表示頻率域中頻率為(u,v)的頻譜值,u表示頻率域中的水平頻率分量,v表示頻率域中的垂直頻率分量,i(i,j)表示底稿圖像中坐標位置為(i,j)的灰度值,m表示底稿圖像i(x,y)的寬度,n表示底稿圖像i(x,y)的高度,表示虛數(shù)單位,且滿足=-1,e表示指數(shù)函數(shù);
14、在底稿圖像i(x,y)的頻率域中進行自適應徑向投影,提取底稿圖像i(x,y)的傾斜角度。
15、具體的,所述提取底稿圖像i(x,y)的傾斜角度,包括:
16、計算頻率域中頻率為(u,v)的幅度值,計算公式為:
17、,
18、其中,a(u,v)表示頻率域中頻率為(u,v)的幅度值,re(f(u,v))表示頻率域中頻率為(u,v)的實部,im(f(u,v))表示頻率域中頻率為(u,v)的虛部;
19、對頻率域中頻譜的幅度進行徑向投影,轉化為極坐標表示,并在不同角度進行投影求和,得到投影值,投影求和的具體公式為:
20、,
21、其中,表示頻率域中頻譜的幅度在角度上的投影值,表示投影角度,r表示徑向距離,r表示頻率域中頻譜的最大半徑;
22、對底稿圖像i(x,y)的傾斜角度進行檢測,具體公式為:,其中,argmax表示使投影值達到最大值的角度,表示底稿圖像i(x,y)的傾斜角度。
23、具體的,所述旋轉校正處理,包括:
24、根據(jù)提取的底稿圖像i(x,y)的傾斜角度,對底稿圖像i(x,y)進行旋轉校正,具體公式為:
25、,
26、其中,表示旋轉校正后的底稿圖像。
27、具體的,所述對旋轉校正后的金融領域的底稿圖像中的文本位置進行識別,包括:
28、獲取底稿圖像公共數(shù)據(jù)集,人工標注底稿圖像公共數(shù)據(jù)集中的文本行位置信息;
29、使用含有文本行位置標注信息的底稿圖像公共數(shù)據(jù)集訓練第一文本檢測模型和第二文本檢測模型,得到訓練好的第一文本檢測模型和第二文本檢測模型;
30、將旋轉校正后的金融領域的底稿圖像分別輸入至第一文本檢測模型和第二文本檢測模型,得到第一文本行位置的預測結果和第二文本行位置的預測結果;
31、設定第一文本行位置的預測結果中的一個檢測框為a,第二文本行位置的預測結果中的一個檢測框為b,計算檢測框a和b之間的ious值,計算公式為:
32、,
33、其中,ious表示檢測框a和b之間的ious值,areaa表示檢測框a的面積,areab表示檢測框b的面積,areac表示檢測框c的面積;
34、計算出第一文本行位置的預測結果中的檢測框和第二文本行位置的預測結果中的檢測框之間的ious,得到ious集合ious_map,ious_map[p,q]表示第一文本行位置的預測結果中的第p個檢測框和第二文本行位置的預測結果中的第q個檢測框之間的ious;
35、利用融合策略,對ious_map中的檢測框進行篩選判斷。
36、具體的,所述融合策略,包括:
37、第二文本行位置的預測結果中的檢測框檢測到單字符文本,若第一文本行位置的預測結果中的檢測框都不與單字符文本檢測框相交,且單字符文本檢測框的寬高比小于1.5,第一文本行位置的預測結果不包含單字符文本檢測框,則將單字符文本檢測框加入至第一文本行位置的預測結果中;
38、若第一文本行位置的預測結果中的檢測框對應第二文本行位置的預測結果中若干個檢測框,則刪除第一文本行位置的預測結果中的檢測框,并將第二文本行位置的預測結果中若干個檢測框加入至第一文本行位置的預測結果中。
39、一種基于融合檢測的底稿圖像識別系統(tǒng),其用于實現(xiàn)所述的一種基于融合檢測的底稿圖像識別方法,包括:圖像獲取模塊,旋轉校正模塊,位置識別模塊和文本識別模塊;
40、所述圖像獲取模塊,用于獲取底稿圖像,并對獲取的底稿圖像進行預處理;
41、所述旋轉校正模塊,用于對預處理后的底稿圖像進行角度識別,并進行旋轉校正處理;
42、所述位置識別模塊,用于對旋轉校正后的底稿圖像中的文本位置進行識別;
43、所述文本識別模塊,用于根本識別出的底稿圖像中的文本位置,對底稿圖像中文本內容進行識別。
44、具體的,所述旋轉校正模塊包括角度識別單元和旋轉校正單元,
45、所述角度識別單元,用于對預處理后的底稿圖像進行角度識別;
46、所述旋轉校正單元,用于根據(jù)識別出的底稿圖像朝向角度,對底稿圖像進行旋轉校正。
47、一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)一種基于融合檢測的底稿圖像識別方法的步驟。
48、一種計算機可讀存儲介質,其上存儲有計算機指令,當計算機指令運行時執(zhí)行一種基于融合檢測的底稿圖像識別方法的步驟。
49、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
50、1.本發(fā)明提出一種基于融合檢測的底稿圖像識別方法,通過融合多種檢測方法,可以綜合各自的優(yōu)點,減少單一方法的缺陷,提高底稿圖像的識別精度。
51、2.本發(fā)明提出一種基于融合檢測的底稿圖像識別方法,該方法適用于各種復雜的底稿圖像識別場景,包括但不限于金融領域的底稿圖像等。
52、3.本發(fā)明提出一種基于融合檢測的底稿圖像識別方法,通過綜合分析多種檢測結果,可以有效減少誤識別的概率,提高整體系統(tǒng)的準確性。