街景圖像中的文字標(biāo)牌檢測與定位方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及街景圖像中的文字標(biāo)牌檢測與定位方法。
【背景技術(shù)】
[0002] 文字標(biāo)牌檢測與定位是自然場景中文字識別的一個重要部分,屬于模式識別領(lǐng) 域。文字識別可以廣泛應(yīng)用在汽車的自動駕駛、機器人導(dǎo)航以及盲人輔助定位等諸多方面, 所以文字標(biāo)牌檢測為自然場景中進一步的文字識別提供了很好的基礎(chǔ),具有一定的實用 性。
[0003] 由于文字標(biāo)牌所包含的文字在大小、形狀、字體、顏色和排列的多樣性,以及復(fù)雜 背景、光照變換、幾何失真和模糊的影響,使得準(zhǔn)確的文字檢測、定位和識別就變得很困難。 文字檢測和定位的準(zhǔn)確性會直接影響文字的識別率,所以,很多算法都致力于文字標(biāo)牌的 檢測和定位。目前對于文字標(biāo)牌的檢測率并不理想,并且大多數(shù)研究只針對于交通標(biāo)牌的 檢測與識別,對于其它文字標(biāo)牌檢測與識別的研究很少。
[0004] 在目前可見的研究文獻中,大多采用分類器進行交通標(biāo)牌的檢測和識別,最好的 方法是采用詞袋模型(BoW)。但傳統(tǒng)的詞袋模型的一個致命缺陷是它將圖像視為局部特征 的無序集合,即對局部特征之間的空間關(guān)系完全不予考慮,從而限制了特征的描述能力,降 低了圖像分類的準(zhǔn)確性。BoW模型的中的字典學(xué)習(xí)方法K-Means也存在以下缺陷:需要事 先依據(jù)經(jīng)驗指定聚類的類別數(shù)。若類別數(shù)過小,會對數(shù)據(jù)造成欠分割,降低字典的區(qū)分能 力;若類別數(shù)過大,會造成樣本空間過分割,也會增加后續(xù)分類的復(fù)雜度。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種街景圖像中的文字標(biāo)牌檢測與定位方法,解決了現(xiàn)有技 術(shù)中存在的對文字標(biāo)牌特征描述不全面、聚類方法不能自適應(yīng)地決定聚類中心個數(shù)造成的 文字標(biāo)牌檢測率低的技術(shù)問題。
[0006] 本發(fā)明所采用的技術(shù)方案為:街景圖像中的文字標(biāo)牌檢測與定位方法,包括文字 標(biāo)牌分類器的訓(xùn)練過程和文字標(biāo)牌的檢測與定位過程。
[0007] 本發(fā)明的特點還在于,
[0008] 文字標(biāo)牌分類器的訓(xùn)練過程,包括以下步驟:
[0009] 步驟1 :采集一定數(shù)量的街景圖像,作為字典學(xué)習(xí)的樣本圖像集;
[0010] 步驟2 :將獲取的街景圖像輸入計算機,提取街景圖像的SIFT特征,得到SIFT特 征集FeajwV7I ;
[0011] 步驟3 :用SGONG聚類方法對SIFT特征集&,進行學(xué)習(xí),得到聚類中心, 即字典D = [D1, D2,......,DJ,其中C為字典中的詞匯的個數(shù),即聚類的類別個數(shù);
[0012] 步驟4 :在街景圖像樣本圖像集/_〃·《/〃.ΓΛ中隨機選取部分文字標(biāo)牌圖像作 為正樣本圖像集,選取部分除文字標(biāo)牌以外的場景圖像作為負(fù)樣本圖像集 ,合并正、負(fù)樣本圖集,得到SVM訓(xùn)練圖像集,其圖像的張數(shù)為
【主權(quán)項】
1. 街景圖像中的文字標(biāo)牌檢測與定位方法,其特征在于,其包括文字標(biāo)牌分類器的訓(xùn) 練過程和文字標(biāo)牌的檢測與定位過程。
2. 根據(jù)權(quán)利要求1所述的街景圖像中的文字標(biāo)牌檢測與定位方法,其特征在于,文字 標(biāo)牌分類器的訓(xùn)練過程,包括W下步驟: 步驟1;采集一定數(shù)量的街景圖像,作為字典學(xué)習(xí)的樣本圖像集/_wu'n.r\; 步驟2 ;將獲取的街景圖像輸入計算機,提取街景圖像的SIFT特征,得到SIFT特征集 Fea train\ ? 步驟3 ;用SGONG聚類方法對SIFT特征集,進行學(xué)習(xí),得到聚類中也,即字 典D =巧。〇2,......,DJ,其中C為字典中的詞匯的個數(shù),即聚類的類別個數(shù); 步驟4 ;在街景圖像樣本圖像集/ _ 中隨機選取部分文字標(biāo)牌圖像作為 正樣本圖像集,選取部分除文字標(biāo)牌W外的場景圖像作為負(fù)樣本圖像集 ,合并正、負(fù)樣本圖集,得到SVM訓(xùn)練圖像集,其圖像的張數(shù)為
a是比例因子; 步驟5 ;提取圖像集J_sw!"|W|中圖像/_sv咪心1的顏色直方圖向量巧LCo//f,其 組成的集合化s_Col即為圖像的顏色特征集化a_Col,其中,!' = 1,2...,AC:;'; 步驟6 ;提取圖像集中圖像ixw'的SIFT直方圖向量版_湖口戸,其 組成的集合化sJ5ha即為圖像的形狀特征集化aJ5ha,其中,= 1,2...,AC ; 步驟7:將顏色直方圖向量/?^_曰〇/產(chǎn)與SIFT直方圖向量如合并為 的顏色和形狀直方圖向量版_湖旅〇//,其集合構(gòu)成向量集化s_ 化aCol,即為圖像的形狀和顏色描述特征集化a_^aCol,具體描述為下式:
步驟8 ;生成灰度文字標(biāo)牌的分類器S_Classifer和彩色文字標(biāo)牌的分類器SC_ Classifer,具體過程如下: 采用SVM分類器學(xué)習(xí)圖像的形狀特征集化aJ5ha,生成灰度文字標(biāo)牌的分類器S_ Classifer-即灰度文字標(biāo)牌的分類器,該分類器的線性分類函數(shù)是fi (X) = WiTx+bi,其中 Wi,bi為學(xué)習(xí)得到的參數(shù); 采用SVM分類器學(xué)習(xí)圖像的形狀和有顏色描述特征集化aJ^haCol,生成彩色文字標(biāo) 牌的分類器SC_Classifer-即彩色文字標(biāo)牌分類器,該分類器的線性分類函數(shù)是f2 (X)= WaTx+ba,其中*2, bg為學(xué)習(xí)得到的參數(shù)。
3. 根據(jù)權(quán)利要求2所述的街景圖像中的文字標(biāo)牌檢測與定位方法,其特征在于,文字
標(biāo)牌的檢測和定位過程包括w下步驟: 步驟1 ;選取一定數(shù)目的街景圖像作為測試圖像集I_test,圖像的張數(shù)為iV;:;'; 步驟2 ;滑動窗檢測,具體過程如下: 用M2*N2大小的窗在每個測試圖像上進行滑動檢測,若滑動窗所在的圖像區(qū)域為灰度 圖像,則采用文字標(biāo)牌分類器的訓(xùn)練過程中獲取SIFT直方圖向量的方法獲取圖像區(qū)域的 SIFT直方圖向量,用S_Classifier判斷是否為文字標(biāo)牌,若滑動窗所在的圖像區(qū)域為彩色 圖像,則采用文字標(biāo)牌分類器的訓(xùn)練過程中獲取顏色和形狀直方圖向量的方法得到該圖像 區(qū)域的顏色和形狀直方圖向量,用SC_Classifier判斷是否為文字標(biāo)牌; 步驟3 ;文字標(biāo)牌的定位,具體過程如下: 將所有檢測到的文字標(biāo)牌圖像區(qū)域用矩形框標(biāo)記出來,合并相交的矩形框,合并后的 矩形框區(qū)域即檢測到的文字標(biāo)牌區(qū)域。
4.根據(jù)權(quán)利要求2所述的街景圖像中的文字標(biāo)牌檢測與定位方法,其特征在于,步驟 3中用SGONG聚類方法對SIFT特征集進行學(xué)習(xí),得到聚類中也,即字典D = 扣1,〇2,......,DJ的方法如下: 3. 1,首先初始化SGONG字典學(xué)習(xí)過程的相關(guān)參數(shù): (1)神經(jīng)元權(quán)重系數(shù)為 Wi= [Wi,。,. . . Wi,k-1]T,i = 0, 1,. . .,C-1,C 為每一步輸出的 神經(jīng)元個數(shù),開始訓(xùn)練前c的初始值為2, k為神經(jīng)元維數(shù),該里是SIFT特征維數(shù),為128 ; 似為每一個神經(jīng)元i定義兩個累計誤差巧和馬,其中巧"表示神經(jīng)元i的全部量 化誤差,巧為移除神經(jīng)元i產(chǎn)生的增量誤差; (3) N康示被劃分到神經(jīng)元i的輸入向量個數(shù),N 表示連續(xù)有多少個特征矢量被劃分 到該神經(jīng)元,該神經(jīng)元就訓(xùn)練完畢,該變量也為時間周期變量;max-Nodes代表輸出的神經(jīng) 元最大個數(shù),Max^。代表最大的橫向連接數(shù),max-epoch代表迭代次數(shù); 3. 2,開始訓(xùn)練: 在SIFT特征集八,中隨機選取兩個向量作為初始的神經(jīng)元wni和wri2,開始迭 代訓(xùn)練SG0NG神經(jīng)網(wǎng)絡(luò),迭代算法的具體步驟為: (1) 將累積誤差巧哺巧2>值設(shè)置為0 ; (2) 從_/ra/n'L隨機選取一個向量,作為輸入向量Xj; (3) 對于輸入的矢量Xj.,從神經(jīng)元中選擇最佳匹配和次匹配