級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和圖像檢測方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和圖像檢測方法、裝置及系統(tǒng),其中,所述訓(xùn)練方法包括:將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),N為大于或等于2的整數(shù);分別將N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。在將訓(xùn)練結(jié)果傳播至各級卷積神經(jīng)網(wǎng)絡(luò)時,能夠調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù),使得級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時能夠達(dá)到神經(jīng)網(wǎng)絡(luò)參數(shù)的全局優(yōu)化。
【專利說明】
級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和圖像檢測方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像數(shù)據(jù)處理領(lǐng)域,具體涉及一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和圖像檢測方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]物體檢測即對于輸入的圖片,精確地檢測出所有某類物體的位置,在計算機(jī)視覺和模式識別領(lǐng)域中占有重要地位。
[0003]傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的物體檢測方法,首先在圖片上選出一系列位置、大小不同的待檢測區(qū)域,然后將該區(qū)域直接輸入一個卷積神經(jīng)網(wǎng)絡(luò),得到分類結(jié)果。通過適當(dāng)設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),可以讓計算機(jī)直接學(xué)習(xí)出圖片中的隱藏特征,避免了人工設(shè)計特征,能更廣泛地應(yīng)用到各種類別物體的檢測中。但是由于卷積神經(jīng)網(wǎng)絡(luò)的計算時間往往比人工設(shè)計特征的計算時間長許多,因此在檢測時會面臨檢測速度與檢測效果不可兼得的矛盾。
[0004]對于基于卷積神經(jīng)網(wǎng)絡(luò)的物體檢測方法,目前常見的是單級多層卷積神經(jīng)網(wǎng)絡(luò)。由于分類效果較好的單級卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜,檢測每個區(qū)域的時間較長,如果在選擇待檢測區(qū)域時采用全面覆蓋圖片的滑動窗口選擇法,則檢測速度較慢;如果采用針對圖片某些特征設(shè)計的算法選擇最可能包含物體的少量區(qū)域,則檢測速度有所提高,但在選擇區(qū)域階段可能漏掉某些包含物體的區(qū)域。對于物體檢測問題,由于數(shù)據(jù)標(biāo)注非常耗費(fèi)人力、時間,數(shù)據(jù)集中往往負(fù)樣本很多,正樣本很少。在訓(xùn)練時,由于正負(fù)樣本分布不均衡,訓(xùn)練效果往往較差。
[0005]級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)通過使用小型的、復(fù)雜度遞增的多級多層神經(jīng)網(wǎng)絡(luò),可以在使用滑動窗口選擇法的同時提高檢測速度,并對不同級的網(wǎng)絡(luò)提供不同比例的正負(fù)樣本訓(xùn)練,在一定程度上緩解上述的兩個問題。但是在傳統(tǒng)的級聯(lián)網(wǎng)絡(luò)中,不同級的神經(jīng)網(wǎng)絡(luò)通常分開訓(xùn)練,只能使每一級神經(jīng)網(wǎng)絡(luò)達(dá)到局部優(yōu)化,多級多層神經(jīng)網(wǎng)絡(luò)的整體性能不理想。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實(shí)施例提供一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練和檢測方案。
[0007]根據(jù)第一方面,本發(fā)明實(shí)施例提供了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,包括:
[0008]將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),N為大于或等于2的整數(shù);分別將N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng);將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0009]可選地,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:根據(jù)第I級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出,得到第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量;根據(jù)第η級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出和第n-1級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,得到第η級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,其中,11為正整數(shù),且1<η彡N。
[0010]可選地,第I級卷積神經(jīng)網(wǎng)絡(luò)的最后一層為卷積層;第2至N級卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的最后一層均為全連接層。
[0011]可選地,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失;將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),包括:至少對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失進(jìn)行加權(quán)求和,得到N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失。
[0012]可選地,至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失,包括:分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失函數(shù)和回歸邊界框真值損失;至少對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失進(jìn)行加權(quán)求和,得到N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失,包括:對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失函數(shù)和/或回歸邊界框真值損失進(jìn)行加權(quán)求和,得到N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失。
[0013]可選地,第i級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸小于第j級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,i和j為正整數(shù),且l<i<j<N。
[0014]本發(fā)明實(shí)施例還提供了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置,包括:
[0015]學(xué)習(xí)數(shù)據(jù)獲取單元,用于將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),所述N為大于或等于2的整數(shù);訓(xùn)練單元,用于分別將所述N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,所述N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與所述N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng);回傳單元,用于將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0016]可選地,訓(xùn)練單元包括:第一向量單元,用于根據(jù)第I級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出,得到所述第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量;第二向量單元,用于根據(jù)第η級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出和所述第η-1級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,得到第η級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,其中,所述η為正整數(shù),且1<η<Ν。
[0017]可選地,所述訓(xùn)練單元包括:本級損失求取單元,用于至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失;全局損失求取單元,用于至少對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失進(jìn)行加權(quán)求和,得到所述N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失。
[0018]本發(fā)明實(shí)施例還提供了一種計算機(jī)存儲介質(zhì),存儲了用于實(shí)現(xiàn)本發(fā)明實(shí)施例提供的任一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的計算機(jī)可讀取的指令。例如,所述指令包括:將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù)的指令,N為大于或等于2的整數(shù);分別將N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的指令,其中,N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng);將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)的指令。
[0019]本發(fā)明實(shí)施例還提供了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),包括:
[0020]圖像獲取裝置,用于獲取待學(xué)習(xí)圖像的圖像數(shù)據(jù);存儲器,用于存儲程序;處理器,接收待學(xué)習(xí)圖像的圖像數(shù)據(jù),用于執(zhí)行程序以實(shí)現(xiàn)上述訓(xùn)練方法中的操作。
[0021]根據(jù)第二方面,本發(fā)明實(shí)施例提供了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法,包括:
[0022]獲取待檢測圖像的圖像數(shù)據(jù);將待檢測圖像的圖像數(shù)據(jù)作為上述的訓(xùn)練方法建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果。
[0023]可選地,在獲取待檢測圖像的圖像數(shù)據(jù)之后,還包括:將圖像數(shù)據(jù)劃分成多個區(qū)域得到各個區(qū)域的圖像數(shù)據(jù);將待檢測圖像的圖像數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果,包括:分別將各個區(qū)域的圖像數(shù)據(jù)依次作為神經(jīng)網(wǎng)絡(luò)模型的輸入對各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測,得到各個區(qū)域的檢測結(jié)果。
[0024]可選地,對待檢測圖像進(jìn)行檢測包括:在神經(jīng)網(wǎng)絡(luò)模型的N級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的至少一級神經(jīng)網(wǎng)絡(luò)中對圖像數(shù)據(jù)進(jìn)行分類得分計算;將至少一級卷積神經(jīng)網(wǎng)絡(luò)的分類得分的計算值與至少一預(yù)定分值進(jìn)行比較,并根據(jù)至少一比較結(jié)果確定圖像數(shù)據(jù)是否包含目標(biāo)對象。
[0025]可選地,在獲取待檢測圖像的圖像數(shù)據(jù)之后,還包括:將圖像數(shù)據(jù)的尺寸壓縮成符合第η級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,η為正整數(shù),且I彡η彡N-1;將待檢測圖像的圖像數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果,包括:將壓縮后的圖像數(shù)據(jù)輸入第η級卷積神經(jīng)網(wǎng)絡(luò);通過第η級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的圖像數(shù)據(jù)進(jìn)行第一分類得分計算;如果第一分類得分小于第一預(yù)定分值,則判斷為圖像數(shù)據(jù)不包含目標(biāo)對象。
[0026]可選地,如果第一分類得分大于或等于第一預(yù)定分值,則還包括:將圖像數(shù)據(jù)的尺寸壓縮成符合第η+1級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸;將壓縮后的圖像數(shù)據(jù)輸入第η+1級卷積神經(jīng)網(wǎng)絡(luò);通過第η+1級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的圖像數(shù)據(jù)進(jìn)行第二分類得分計算;如果第二分類得分小于第二預(yù)定分值,則判斷為圖像數(shù)據(jù)不包含目標(biāo)對象。
[0027]可選地,如果第二分類得分大于或等于第二預(yù)定分值,并且η= Ν_1時,則判斷為圖像數(shù)據(jù)包含目標(biāo)物體。
[0028]可選地,在判斷圖像數(shù)據(jù)包含目標(biāo)物體之后,還包括:輸出包含目標(biāo)物體的圖像數(shù)據(jù)的特征信息。
[0029]本發(fā)明實(shí)施例還提供了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置,包括:
[0030]圖像數(shù)據(jù)獲取單元,用于獲取待檢測圖像的圖像數(shù)據(jù);檢測單元,用于將所述待檢測圖像的圖像數(shù)據(jù)作為上述的訓(xùn)練裝置建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對所述待檢測圖像進(jìn)行檢測,得到所述待檢測圖像的檢測結(jié)果。
[0031]可選地,還包括:區(qū)域劃分單元,用于將所述圖像數(shù)據(jù)劃分成多個區(qū)域得到各個區(qū)域的圖像數(shù)據(jù);所述檢測單元用于分別將所述各個區(qū)域的圖像數(shù)據(jù)依次作為所述神經(jīng)網(wǎng)絡(luò)模型的輸入對所述各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測,得到所述各個區(qū)域的檢測結(jié)果。
[0032]可選地,所述檢測單元包括:分類得分單元,用于在所述神經(jīng)網(wǎng)絡(luò)模型的N級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的至少一級神經(jīng)網(wǎng)絡(luò)中對所述圖像數(shù)據(jù)進(jìn)行分類得分計算;比較單元,用于將至少一級卷積神經(jīng)網(wǎng)絡(luò)的分類得分的計算值與至少一預(yù)定分值進(jìn)行比較,并根據(jù)至少一比較結(jié)果確定所述圖像數(shù)據(jù)是否包含目標(biāo)對象。
[0033]可選地,還包括:壓縮單元,用于將所述圖像數(shù)據(jù)的尺寸壓縮成符合第η級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,η為正整數(shù),且I彡η彡N-1;所述檢測單元用于將壓縮后的所述圖像數(shù)據(jù)輸入所述第η級卷積神經(jīng)網(wǎng)絡(luò);第一分類得分單元,用于通過所述第η級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的所述圖像數(shù)據(jù)進(jìn)行第一分類得分計算;判斷單元,用于如果所述第一分類得分小于第一預(yù)定分值,則判斷為所述圖像數(shù)據(jù)不包含目標(biāo)對象。
[0034]本發(fā)明實(shí)施例還提供了一種計算機(jī)存儲介質(zhì),存儲了用于實(shí)現(xiàn)本發(fā)明實(shí)施例提供的任一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法的計算機(jī)可讀取的指令。例如,所述指令包括:用于獲取待檢測圖像的圖像數(shù)據(jù)的指令;用于將待檢測圖像的圖像數(shù)據(jù)作為上述的訓(xùn)練方法建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果的指令。
[0035]本發(fā)明實(shí)施例還提供了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測系統(tǒng),包括:
[0036]圖像獲取裝置,用于獲取待檢測圖像的圖像數(shù)據(jù);存儲器,用于存儲程序;處理器,接收待檢測圖像的圖像數(shù)據(jù),用于執(zhí)行程序以實(shí)現(xiàn)上述檢測方法中的操作。
[0037]根據(jù)第三方面,本發(fā)明實(shí)施例提供了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),包括:
[0038]級聯(lián)的N級卷積神經(jīng)網(wǎng)絡(luò),N級卷積神經(jīng)網(wǎng)絡(luò)的用于接收N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),用于分別對N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù)進(jìn)行訓(xùn)練/檢測,N為大于或等于2的整數(shù);各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果相關(guān)聯(lián),關(guān)聯(lián)后的訓(xùn)練結(jié)果被回傳至各級卷積神經(jīng)網(wǎng)絡(luò)。
[0039]本發(fā)明實(shí)施例提供的技術(shù)方案,將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種輸入?yún)^(qū)域的圖像數(shù)據(jù),并分別輸入至N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò),而后,對N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,至少一訓(xùn)練結(jié)果關(guān)聯(lián),因此,在將訓(xùn)練結(jié)果傳播至各級卷積神經(jīng)網(wǎng)絡(luò)時,能夠調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù),使得級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時能夠達(dá)到神經(jīng)網(wǎng)絡(luò)參數(shù)的全局優(yōu)化。
【附圖說明】
[0040]為了更清楚地說明本發(fā)明【具體實(shí)施方式】或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對【具體實(shí)施方式】或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0041]圖1為本發(fā)明實(shí)施例1中一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法流程圖;
[0042]圖2為本發(fā)明實(shí)施例1中一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置原理框圖;
[0043]圖3為本發(fā)明實(shí)施例2中一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法流程圖;
[0044]圖4為本發(fā)明實(shí)施例2中另一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法流程圖;
[0045]圖5為本發(fā)明實(shí)施例2中一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置原理框圖;
[0046]圖6示意性地示出了適于用來實(shí)現(xiàn)本申請實(shí)施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0047]下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0048]此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。
[0049]實(shí)施例1
[0050]為了實(shí)現(xiàn)多級神經(jīng)網(wǎng)絡(luò)全局最優(yōu)訓(xùn)練,本實(shí)施例公開了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,請參考圖1,為該級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法流程圖,該方法包括如下步驟:
[0051]步驟S110,獲取待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)。在具體實(shí)施例中,可以用滑動窗口選擇法選擇待學(xué)習(xí)圖像的至少局部區(qū)域作為該圖像的學(xué)習(xí)區(qū)域。在可選的實(shí)施例中,每個學(xué)習(xí)區(qū)域可以用例如方形的邊界框圈出,并根據(jù)與圖像中物體區(qū)域邊界框真值的重合度,來標(biāo)記該學(xué)習(xí)區(qū)域是否包含帶檢測物體,以便于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練。在本實(shí)施例中,可以將各個學(xué)習(xí)區(qū)域調(diào)成為預(yù)設(shè)的標(biāo)準(zhǔn)尺寸大小,例如48*48,需要說明的是,本實(shí)施例及下述實(shí)施例中,在未作特別申明的情況下,具體的數(shù)值對本實(shí)施例的技術(shù)方案不構(gòu)成限制,應(yīng)當(dāng)理解為便于本領(lǐng)域技術(shù)人員理解技術(shù)方案而舉的示例。
[0052]步驟S120,將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種輸入?yún)^(qū)域的圖像數(shù)據(jù)。本實(shí)施例中,N種輸入?yún)^(qū)域兩兩之間具有不同的尺寸,N為大于等于2的整數(shù)。在可選的實(shí)施例中,可以對待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別進(jìn)行壓縮,從而得到N中輸入?yún)^(qū)域的圖像數(shù)據(jù)。
[0053]步驟S130,分別將N種輸入?yún)^(qū)域的圖像數(shù)據(jù)輸入至N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)。在本實(shí)施例中,N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級分別與N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域一一對應(yīng)。級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)具有不同級網(wǎng)絡(luò)結(jié)構(gòu),不同級之間輸入數(shù)據(jù)的屬性類型(例如不同級的輸入數(shù)據(jù)分別對應(yīng)不同大小的輸入?yún)^(qū)域的數(shù)據(jù))不同,為實(shí)現(xiàn)針對同一學(xué)習(xí)區(qū)域的數(shù)據(jù)學(xué)習(xí),需要將該學(xué)習(xí)區(qū)域的圖像數(shù)據(jù)分別處理(處理手段可包括但不限于壓縮、采樣等)成符合各級神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)尺寸。在本實(shí)施例中,共有N級卷積神經(jīng)網(wǎng)絡(luò)級聯(lián),因此,需要有N種輸入?yún)^(qū)域的圖像數(shù)據(jù),每一級卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)一種輸入?yún)^(qū)域。在優(yōu)選的實(shí)施例中,第i級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸小于第j級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,i和j為正整數(shù),且l<i<j<N。下文以N=3為例進(jìn)行說明,第I級輸入?yún)^(qū)域的尺寸為例如12*12、第2級輸入?yún)^(qū)域的尺寸為例如24*24、第3級輸入?yún)^(qū)域的尺寸為例如48*48,需要說明的是,本實(shí)施例中,并未限制不同級輸入?yún)^(qū)域的尺寸之間滿足某種倍數(shù)關(guān)系??梢詫⒂刹襟ESllO獲取的預(yù)設(shè)區(qū)域的尺寸分別調(diào)成為12*12、24*24和48*48,以分別作為上述三級級聯(lián)神經(jīng)網(wǎng)絡(luò)的輸入?yún)^(qū)域。本實(shí)施例中,將前級卷積神經(jīng)網(wǎng)絡(luò)的輸入?yún)^(qū)域的尺寸減小,能夠提高前級神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率,而將后級卷積神經(jīng)網(wǎng)絡(luò)的輸入?yún)^(qū)域的尺寸變大,以滿足后級網(wǎng)絡(luò)判斷精細(xì)度的需求,采用不同尺寸的輸入?yún)^(qū)域,使得各級卷積神經(jīng)網(wǎng)絡(luò)能夠權(quán)衡效率和判斷的精細(xì)度。
[0054]步驟S140,對N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在具體實(shí)施例中,可以根據(jù)經(jīng)驗(yàn)或需要來確定各級神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。例如:在確保召回率的情況下,可以適當(dāng)減少卷積層,以提高計算速度。當(dāng)輸入?yún)^(qū)域的尺寸越大,則訓(xùn)練時精細(xì)度越高,相應(yīng)的計算復(fù)雜程度也提高,此時,可以適當(dāng)減少卷積層。以N= 3為例進(jìn)行說明:第I級神經(jīng)網(wǎng)絡(luò)(例如12net神經(jīng)網(wǎng)絡(luò))輸入?yún)^(qū)域的尺寸例如為12*12,包括例如3個卷積層、2個池化層,其中,卷積層輸出圖像為輸入圖像與卷積核的卷積,卷積核的參數(shù)可由訓(xùn)練調(diào)整;池化層輸出圖像的每個像素點(diǎn)為輸入圖像某個區(qū)域的平均值。12net的輸出由最后一個卷積層的輸出,計算得到第I級神經(jīng)網(wǎng)絡(luò)的本級損失lossO。第2級神經(jīng)網(wǎng)絡(luò)(例如24net神經(jīng)網(wǎng)絡(luò))輸入?yún)^(qū)域的尺寸例如為24*24,包括例如I個卷積層、I個池化層和I個全連接層,24net的輸出由全連接層輸出,計算得到第2級神經(jīng)網(wǎng)絡(luò)的本級損失10SS1。第3級神經(jīng)網(wǎng)絡(luò)(例如48net神經(jīng)網(wǎng)絡(luò))輸入?yún)^(qū)域的尺寸例如為48*48,包括例如2個卷積層、2個池化層和I個全連接層,48net的輸出由全連接層輸出,計算得到第3級神經(jīng)網(wǎng)絡(luò)的本級損失loss2。在優(yōu)選的實(shí)施例中,各級神經(jīng)網(wǎng)絡(luò)還可以利用回歸邊界框真值的損失函數(shù)計算本級輸入?yún)^(qū)域回歸邊界框真值損失,例如12net的回歸邊界框真值bbox 1ssO、24net的回歸邊界框真值bbox 1ssl以及48net的回歸邊界框真值bbox loss20
[0055]步驟S150,根據(jù)訓(xùn)練結(jié)果調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。具體地,將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。本實(shí)施例中,訓(xùn)練結(jié)果中,各級卷積神經(jīng)網(wǎng)絡(luò)至少有一個參數(shù)相關(guān)聯(lián),通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果可以調(diào)整各層網(wǎng)絡(luò)的參數(shù),從而,使得該神經(jīng)網(wǎng)絡(luò)向全局最優(yōu)靠近。在可選的實(shí)施例中,該相關(guān)聯(lián)的參數(shù)為各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失,各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失函數(shù)和/或回歸邊界框真值損失進(jìn)行加權(quán)求和,得到N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失loss,具體地,N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失loss至少由各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失加權(quán)求和得到,可選地,在加權(quán)求和時,可以對各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失(1ssO、loss I和loss2)以及各級的回歸邊界框真值的損失(bbox 1ssO、bbox 1ssl和bbox loss2)進(jìn)行。在具體實(shí)施例中,具體的加權(quán)系數(shù)可以根據(jù)經(jīng)驗(yàn)和/或?qū)嶒?yàn)來確定。
[0056]為了實(shí)現(xiàn)各級卷積神經(jīng)網(wǎng)絡(luò)損失函數(shù)相關(guān)聯(lián),在可選的實(shí)施例中,在執(zhí)行步驟S140對N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,可以進(jìn)一步包括:根據(jù)第I級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出,得到第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量;根據(jù)第η級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出和第η-1級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,得到第η級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,其中,η為正整數(shù),且1<η<Ν。在具體實(shí)施例中,根據(jù)得到的本級卷積神經(jīng)網(wǎng)絡(luò)的特征向量可以得到預(yù)測標(biāo)簽,而后至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失,具體地,可以利用神經(jīng)網(wǎng)絡(luò)的損失函數(shù)及回歸邊界框真值的損失函數(shù)基于預(yù)測標(biāo)簽和真實(shí)標(biāo)簽計算本級損失。將該計算得到的損失反向傳播至神經(jīng)網(wǎng)絡(luò)的相應(yīng)位置,可以對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化調(diào)整。具體地,以3級聯(lián)的神經(jīng)網(wǎng)絡(luò)為例進(jìn)行說明,其中,第I級卷積神經(jīng)網(wǎng)絡(luò)的最后一層為卷積層,該卷積層的輸出為第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量Α;第2級卷積神經(jīng)網(wǎng)絡(luò),包括依次串接的卷積層、池化層和全連接層,第2級神經(jīng)網(wǎng)絡(luò)的最后一層為全連接層,該全連接層輸出特征向量B,而后與第I級神經(jīng)網(wǎng)絡(luò)的特征向量A相連得到第2級神經(jīng)網(wǎng)絡(luò)的特征向量A-B;第3級神經(jīng)網(wǎng)絡(luò)的最后一層為全連接層,該全連接層輸出特征向量C而后與第2級神經(jīng)網(wǎng)絡(luò)的特征向量A-B相連得到第3級神經(jīng)網(wǎng)絡(luò)的特征向量A-B-C。本實(shí)施例中,第I級卷積神經(jīng)網(wǎng)絡(luò)的最后一層為卷積層,第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量為該級卷積神經(jīng)網(wǎng)絡(luò)中最后一層卷積層的輸出,第2至N級卷積神經(jīng)網(wǎng)絡(luò)中每級卷積神經(jīng)網(wǎng)絡(luò)的最后一層為全連接層,在具體實(shí)施中,可以將卷積層輸出的特征向量調(diào)整成符合連接層連接的特征向量的數(shù)據(jù)格式。通過不同級的卷積神經(jīng)網(wǎng)絡(luò)的特征向量進(jìn)行連接,從而實(shí)現(xiàn)了各級神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行關(guān)聯(lián)。在本實(shí)施例中,對于不同級的卷積神經(jīng)網(wǎng)絡(luò),第I級卷積神經(jīng)網(wǎng)絡(luò)采用全卷積層進(jìn)行計算,可以節(jié)約計算量;而第2至N級的卷積神經(jīng)網(wǎng)絡(luò)最后一層為全連接層,可以實(shí)現(xiàn)正負(fù)樣本的判別。
[0057]本實(shí)施例還公開了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置,請參考圖2,為該級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置結(jié)構(gòu)示意框圖,該訓(xùn)練裝置包括:學(xué)習(xí)數(shù)據(jù)獲取單元110、訓(xùn)練單元120和回傳單元130,其中:
[0058]學(xué)習(xí)數(shù)據(jù)獲取單元110用于將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),N為大于或等于2的整數(shù);訓(xùn)練單元120用于分別將N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng);回傳單元130用于將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0059]在可選的實(shí)施例中,訓(xùn)練單元120包括:第一向量單元,用于根據(jù)第I級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出,得到第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量;第二向量單元,用于根據(jù)第η級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出和第η-1級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,得到第η級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,其中,η為正整數(shù),且1<η<Ν。
[0060]在可選的實(shí)施例中,訓(xùn)練單元120包括:本級損失求取單元,用于至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失;全局損失求取單元,用于至少對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失進(jìn)行加權(quán)求和,得到N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失。
[0061]本實(shí)施例還公開了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),包括:攝像裝置、存儲器和處理器,其中:
[0062]圖像獲取裝置,用于獲取待學(xué)習(xí)圖像的圖像數(shù)據(jù);存儲器,用于存儲程序;處理器,接收待學(xué)習(xí)圖像的圖像數(shù)據(jù),用于執(zhí)行程序以實(shí)現(xiàn)上述級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法中的操作。
[0063]本實(shí)施例提供的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法、裝置及系統(tǒng),將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種輸入?yún)^(qū)域的圖像數(shù)據(jù),并分別輸入至N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò),而后,對N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,至少一訓(xùn)練結(jié)果關(guān)聯(lián),因此,在將訓(xùn)練結(jié)果傳播至各級卷積神經(jīng)網(wǎng)絡(luò)時,能夠調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù),使得級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時能夠達(dá)到神經(jīng)網(wǎng)絡(luò)參數(shù)全局優(yōu)化。
[0064]實(shí)施例2
[0065]本實(shí)施例公開了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法,請參考圖3,為該基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法流程圖,該檢測方法包括如下步驟:
[0066]步驟S210,訓(xùn)練級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型。本實(shí)施例中,可以根據(jù)實(shí)施例1公開的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型。需要說明的是,本實(shí)施例中,步驟SlO是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時執(zhí)行,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,可不再執(zhí)行該步驟。
[0067]步驟S220,獲取待檢測圖像的圖像數(shù)據(jù)。在具體實(shí)施例中,可以預(yù)先對圖像數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的待檢測圖像的圖像數(shù)據(jù),可選地,可以將圖像數(shù)據(jù)的像素值減去某一數(shù)值,該數(shù)值可以是ImageNet數(shù)據(jù)集的均值,也可以是根據(jù)訓(xùn)練圖片集合計算出的均值。當(dāng)然,在其它可選實(shí)施例中,也可以預(yù)先對圖像數(shù)據(jù)進(jìn)行二值化的預(yù)處理。
[0068]步驟S230,對待檢測圖像的圖像數(shù)據(jù)進(jìn)行檢測,得到檢測結(jié)果。本實(shí)施例中,可以根據(jù)上述實(shí)施例的訓(xùn)練方法建立神經(jīng)網(wǎng)絡(luò)模型,而后,在獲得待檢測圖像的圖像數(shù)據(jù)之后,將該待檢測圖像的圖像數(shù)據(jù)作為該神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果。在可選的實(shí)施例中,在對待檢測圖像進(jìn)行檢測時,可以檢測待檢測圖像中目標(biāo)對象的位置信息(例如坐標(biāo)位置),目標(biāo)對象的位置信息可以作為檢測結(jié)果輸出。
[0069]需要說明的是,在具體實(shí)施例中,在首次進(jìn)行圖像檢測,執(zhí)行步驟S210訓(xùn)練建立得到級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)后,在后續(xù)的檢測過程中,可以不必再執(zhí)行步驟S210。
[0070]需要說明的是,步驟S220獲取的待檢測圖像的圖像數(shù)據(jù)可以為預(yù)設(shè)的標(biāo)準(zhǔn)尺寸大小,例如48*48。
[0071]當(dāng)然,步驟S220獲取的待檢測圖像的圖像數(shù)據(jù)也可以是其它尺寸,此時,在執(zhí)行步驟S220之后,可以將該獲取的待檢測圖像數(shù)據(jù)劃分成多個區(qū)域,以得到各個區(qū)域的圖像數(shù)據(jù),而后對各個區(qū)域分別進(jìn)行檢測,即分別將各個區(qū)域的圖像數(shù)據(jù)依次作為神經(jīng)網(wǎng)絡(luò)模型的輸入對各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測,得到各個區(qū)域的檢測結(jié)果。在可選的實(shí)施例中,在將獲取的待檢測圖像的圖像數(shù)據(jù)劃分成多個區(qū)域時,可以將各個區(qū)域調(diào)成為預(yù)設(shè)的標(biāo)準(zhǔn)尺寸大小,例如48*48。在具體實(shí)施例中,在執(zhí)行步驟S230時,應(yīng)當(dāng)分別將各個區(qū)域的圖像數(shù)據(jù)依次輸入神經(jīng)網(wǎng)絡(luò)模型,應(yīng)當(dāng)依次對各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測分別得到各個區(qū)域的檢測結(jié)果。
[0072]在具體實(shí)施例中,在進(jìn)行檢測時,可以通過分類得分的方式來檢測待檢測圖像是否包含目標(biāo)對象,具體地,在神經(jīng)網(wǎng)絡(luò)模型的N級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的至少一級神經(jīng)網(wǎng)絡(luò)中對圖像數(shù)據(jù)進(jìn)行分類得分計算,將至少一級卷積神經(jīng)網(wǎng)絡(luò)的分類得分的計算值與至少一預(yù)定分值進(jìn)行比較,并根據(jù)至少一比較結(jié)果確定圖像數(shù)據(jù)是否包含目標(biāo)對象。作為例子,如果分類得分小于預(yù)定分值,則判斷為特征組合不包含目標(biāo)對象。具體地,請參考圖4,在執(zhí)行步驟S220之后,還包括:
[0073]步驟S250,將圖像數(shù)據(jù)的尺寸壓縮成符合第η級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,η為正整數(shù),且1<η<Ν-1。例如,將步驟S220獲取的待檢測圖像的圖像數(shù)據(jù)壓縮成符合第I級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸(例如12*12)。
[0074]在執(zhí)行步驟S230時,可以包括:
[0075]步驟S231,將壓縮后的圖像數(shù)據(jù)輸入第η級卷積神經(jīng)網(wǎng)絡(luò)。譬如,將步驟S250壓縮成符合第I級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸(例如12*12)的待檢測圖像的圖像數(shù)據(jù)輸入至第I級卷積神經(jīng)網(wǎng)絡(luò)。
[0076]步驟S241,通過第η級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的圖像數(shù)據(jù)進(jìn)行第一分類得分計算。譬如,在將壓縮后的圖像數(shù)據(jù)輸入至第I級卷積神經(jīng)網(wǎng)絡(luò)后,可以得到第一分類得分,在本實(shí)施例中,通過該第I級神經(jīng)網(wǎng)絡(luò)最后一層的卷積層可以輸出該級卷積神經(jīng)網(wǎng)絡(luò)的分類得分cls score I。在具體實(shí)施例中,各級神經(jīng)網(wǎng)絡(luò)的特征向量中的某一元素表征了該級神經(jīng)網(wǎng)絡(luò)的分類得分,例如第I級神經(jīng)網(wǎng)絡(luò)的特征向量A中的某一元素表征了該分類得分clsscore I。需要說明的是,在具體實(shí)施例中,當(dāng)η為例如2時,則第一分類得分為第2級神經(jīng)網(wǎng)絡(luò)計算的分類得分cls score 2。
[0077]步驟S242,判斷第一分類得分是否小于第一預(yù)定分值。在具體實(shí)施例中,可以根據(jù)經(jīng)驗(yàn)來確定第一預(yù)定分值。如果步驟S242判斷第一分類得分小于第一預(yù)定分值,則判斷結(jié)果為圖像數(shù)據(jù)不包含目標(biāo)對象。
[0078]在可選的實(shí)施例中,如果步驟S242判斷第一分類得分大于或等于第一預(yù)定分值,則還包括:
[0079]步驟S243,將圖像數(shù)據(jù)的尺寸壓縮成符合第η+1級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸。譬如,當(dāng)η=1時,如果第I級分類得分cls score I小于該級預(yù)定值,則將圖像數(shù)據(jù)的尺寸壓縮成符合第2級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸(例如24*24);當(dāng)n = 2時,如果第2級分類得分cls score 2小于該級預(yù)定值,則將圖像數(shù)據(jù)的尺寸壓縮成符合第3級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸(例如48*48)。
[0080]步驟S244,將壓縮后的圖像數(shù)據(jù)輸入第η+1級卷積神經(jīng)網(wǎng)絡(luò)。
[0081]步驟S245,通過第η+1級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的圖像數(shù)據(jù)進(jìn)行第二分類得分計算。在將壓縮后的圖像數(shù)據(jù)輸入至各級卷積神經(jīng)網(wǎng)絡(luò)后,可以得到本級神經(jīng)網(wǎng)絡(luò)分類得分,當(dāng)η=1時,則第二分類得分為第2級神經(jīng)網(wǎng)絡(luò)計算的分類得分cls score 2;當(dāng)n = 2時,則第二分類得分為第3級神經(jīng)網(wǎng)絡(luò)計算的分類得分cls score 3。
[0082]步驟S246,判斷第二分類得分是否小于第二預(yù)定分值。在具體實(shí)施例中,可以根據(jù)經(jīng)驗(yàn)來確定第二預(yù)定分值。如果步驟S242判斷第二分類得分小于第二預(yù)定分值,則判斷結(jié)果為圖像數(shù)據(jù)不包含目標(biāo)對象。
[0083]在優(yōu)選的實(shí)施例中,執(zhí)行步驟S246時,如果第二分類得分大于或等于第二預(yù)定分值,并且n = N-1時,則判斷為圖像數(shù)據(jù)包含目標(biāo)對象。
[0084]在優(yōu)選的實(shí)施例中,當(dāng)判斷圖像數(shù)據(jù)包含目標(biāo)對象之后,還可以進(jìn)一步包括:輸出包含目標(biāo)對象的圖像數(shù)據(jù)的特征信息。在具體實(shí)施例中,可以根據(jù)預(yù)測的調(diào)整量微調(diào)待檢測區(qū)域邊界框的位置、大小。在將一張圖片的所有待檢測區(qū)域檢測完畢后,選出預(yù)測包含對象的區(qū)域,用例如非最大值抑制法去除重合度較高的區(qū)域。即為該檢測方法預(yù)測圖中目標(biāo)對象的位置與大小。
[0085]本實(shí)施例還公開了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置,請參考圖5,為該基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置結(jié)構(gòu)示意框圖,該檢測裝置包括:上述實(shí)施例的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置1、圖像數(shù)據(jù)獲取單元2和檢測單元3,其中:
[0086]圖像數(shù)據(jù)獲取單元2用于獲取待檢測圖像的圖像數(shù)據(jù);檢測單元,用于將待檢測圖像的圖像數(shù)據(jù)作為上述的訓(xùn)練裝置建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對待檢測圖像進(jìn)行檢測,得到待檢測圖像的檢測結(jié)果。
[0087]在可選的實(shí)施例中,該基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置還包括:區(qū)域劃分單元,用于將圖像數(shù)據(jù)劃分成多個區(qū)域得到各個區(qū)域的圖像數(shù)據(jù);檢測單元用于分別將各個區(qū)域的圖像數(shù)據(jù)依次作為神經(jīng)網(wǎng)絡(luò)模型的輸入對各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測,得到各個區(qū)域的檢測結(jié)果。
[0088]在優(yōu)選的實(shí)施例中,檢測單元包括:分類得分單元,用于在神經(jīng)網(wǎng)絡(luò)模型的N級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的至少一級神經(jīng)網(wǎng)絡(luò)中對圖像數(shù)據(jù)進(jìn)行分類得分計算;比較單元,用于將至少一級卷積神經(jīng)網(wǎng)絡(luò)的分類得分的計算值與至少一預(yù)定分值進(jìn)行比較,并根據(jù)至少一比較結(jié)果確定圖像數(shù)據(jù)是否包含目標(biāo)對象。
[0089]在優(yōu)選的實(shí)施例中,該基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置還包括:壓縮單元,用于將圖像數(shù)據(jù)的尺寸壓縮成符合第η級卷積神經(jīng)網(wǎng)絡(luò)輸入?yún)^(qū)域的尺寸,其中,η為正整數(shù),且I彡η彡N-1;檢測單元用于將壓縮后的圖像數(shù)據(jù)輸入第η級卷積神經(jīng)網(wǎng)絡(luò);第一分類得分單元,用于通過第η級卷積神經(jīng)網(wǎng)絡(luò)對壓縮后的圖像數(shù)據(jù)進(jìn)行第一分類得分計算;判斷單元,用于如果第一分類得分小于第一預(yù)定分值,則判斷為圖像數(shù)據(jù)不包含目標(biāo)對象。
[0090]本實(shí)施例還公開了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測系統(tǒng),包括:
[0091]圖像獲取裝置,用于獲取待學(xué)習(xí)圖像的圖像數(shù)據(jù);存儲器,用于存儲程序;處理器,接收待學(xué)習(xí)圖像的圖像數(shù)據(jù),用于執(zhí)行程序以實(shí)現(xiàn)上述檢測方法中的操作。
[0092]本實(shí)施例還公開了一種級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò),包括:級聯(lián)的N級卷積神經(jīng)網(wǎng)絡(luò),N級卷積神經(jīng)網(wǎng)絡(luò)的用于接收N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),用于分別對N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù)進(jìn)行訓(xùn)練/檢測,N為大于或等于2的整數(shù);各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果相關(guān)聯(lián),關(guān)聯(lián)后的訓(xùn)練結(jié)果被回傳至各級卷積神經(jīng)網(wǎng)絡(luò)。
[0093]本實(shí)施例提供的基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法、裝置及系統(tǒng),在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,將訓(xùn)練結(jié)果傳播至各級卷積神經(jīng)網(wǎng)絡(luò),調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù),使得級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時能夠達(dá)到神經(jīng)網(wǎng)絡(luò)參數(shù)的全局優(yōu)化。從而在利用該網(wǎng)絡(luò)進(jìn)行檢測時,可以在提高檢測速度的同時取得更好的檢測效果。
[0094]下面參考圖6,其示出了適于用來實(shí)現(xiàn)本申請實(shí)施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)600的結(jié)構(gòu)示意圖。
[0095]如圖6所示,計算機(jī)系統(tǒng)600包括中央處理單元(CPU)601,其可以根據(jù)存儲在只讀存儲器(R0M)602中的可執(zhí)行指令或者從存儲部分608加載到隨機(jī)訪問存儲器(RAM)603中的可執(zhí)行指令而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼PU601還可存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。CPU60UR0M602以及RAM603通過總線604彼此相連。輸入/輸出(I/O)接口 605也連接至總線604。
[0096]以下部件連接至I/O接口605:包括鍵盤、鼠標(biāo)等的輸入部分606 ;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚(yáng)聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口 605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分608。
[0097]特別地,根據(jù)本公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計算機(jī)軟件程序。例如,本公開的實(shí)施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)分別進(jìn)行圖像塊劃分以得到圖像塊集合的指令;根據(jù)圖像塊集合中的各圖像塊生成至少一個第一圖像塊組的指令;根據(jù)至少一個第一圖像塊組訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的指令;基于第一卷積神經(jīng)網(wǎng)絡(luò)對圖像塊集合中的各圖像塊進(jìn)行分類以得到至少一個第二圖像塊組的指令……。在這樣的實(shí)施例中,該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機(jī)程序被中央處理單元(CPU) 601執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。
[0098]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計算機(jī)程序產(chǎn)品的形式。
[0099]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0100]這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0101]這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實(shí)現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0102]顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
【主權(quán)項(xiàng)】
1.一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,包括: 將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),所述N為大于或等于2的整數(shù); 分別將所述N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,所述N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與所述N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng); 將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。2.如權(quán)利要求1所述的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,所述對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括: 根據(jù)第I級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出,得到所述第I級卷積神經(jīng)網(wǎng)絡(luò)的特征向量;根據(jù)第η級卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出和所述第η-1級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,得到第η級卷積神經(jīng)網(wǎng)絡(luò)的特征向量,其中,所述η為正整數(shù),且1<η<Ν。3.如權(quán)利要求1或2所述的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,其特征在于, 所述對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:至少分別求取各級卷積神經(jīng)網(wǎng)絡(luò)的本級損失; 將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),包括:至少對各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的本級損失進(jìn)行加權(quán)求和,得到所述N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的全局損失。4.一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法,其特征在于,包括: 獲取待檢測圖像的圖像數(shù)據(jù); 將所述待檢測圖像的圖像數(shù)據(jù)作為如權(quán)利要求1-3任意一項(xiàng)所述的訓(xùn)練方法建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對所述待檢測圖像進(jìn)行檢測,得到所述待檢測圖像的檢測結(jié)果。5.如權(quán)利要求4所述的基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測方法,其特征在于,在所述獲取待檢測圖像的圖像數(shù)據(jù)之后,還包括: 將所述圖像數(shù)據(jù)劃分成多個區(qū)域得到各個區(qū)域的圖像數(shù)據(jù); 將所述待檢測圖像的圖像數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入對所述待檢測圖像進(jìn)行檢測,得到所述待檢測圖像的檢測結(jié)果,包括:分別將所述各個區(qū)域的圖像數(shù)據(jù)依次作為所述神經(jīng)網(wǎng)絡(luò)模型的輸入對所述各個區(qū)域的圖像數(shù)據(jù)進(jìn)行檢測,得到所述各個區(qū)域的檢測結(jié)果。6.—種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練裝置,其特征在于,包括: 學(xué)習(xí)數(shù)據(jù)獲取單元,用于將待學(xué)習(xí)圖像至少局部區(qū)域的圖像數(shù)據(jù)分別處理成N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),所述N為大于或等于2的整數(shù); 訓(xùn)練單元,用于分別將所述N種輸入?yún)^(qū)域的圖像數(shù)據(jù)作為N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中各級卷積神經(jīng)網(wǎng)絡(luò)的輸入,對各級卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,所述N級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中的每一級卷積神經(jīng)網(wǎng)絡(luò)分別與所述N種輸入?yún)^(qū)域的一種輸入?yún)^(qū)域?qū)?yīng); 回傳單元,用于將各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果進(jìn)行關(guān)聯(lián),并將關(guān)聯(lián)后的訓(xùn)練結(jié)果回傳至各級卷積神經(jīng)網(wǎng)絡(luò)以調(diào)整各級神經(jīng)網(wǎng)絡(luò)的參數(shù)。7.—種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測裝置,其特征在于,包括: 圖像數(shù)據(jù)獲取單元,用于獲取待檢測圖像的圖像數(shù)據(jù); 檢測單元,用于將所述待檢測圖像的圖像數(shù)據(jù)作為如權(quán)利要求6所述的訓(xùn)練裝置建立的神經(jīng)網(wǎng)絡(luò)模型的輸入對所述待檢測圖像進(jìn)行檢測,得到所述待檢測圖像的檢測結(jié)果。8.一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),其特征在于,包括: 圖像獲取裝置,用于獲取待學(xué)習(xí)圖像的圖像數(shù)據(jù); 存儲器,用于存儲程序; 處理器,接收所述待學(xué)習(xí)圖像的圖像數(shù)據(jù),用于執(zhí)行所述程序以實(shí)現(xiàn)如權(quán)利要求1-3任意一項(xiàng)所述方法中的操作。9.一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的圖像檢測系統(tǒng),其特征在于,包括: 圖像獲取裝置,用于獲取待檢測圖像的圖像數(shù)據(jù); 存儲器,用于存儲程序; 處理器,接收所述待檢測圖像的圖像數(shù)據(jù),用于執(zhí)行所述程序以實(shí)現(xiàn)如權(quán)利要求4或5所述方法中的操作。10.一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),其特征在于,包括: 級聯(lián)的N級卷積神經(jīng)網(wǎng)絡(luò),所述N級卷積神經(jīng)網(wǎng)絡(luò)的用于接收N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù),用于分別對所述N種不同大小的輸入?yún)^(qū)域的圖像數(shù)據(jù)進(jìn)行訓(xùn)練/檢測,所述N為大于或等于2的整數(shù); 各級卷積神經(jīng)網(wǎng)絡(luò)分別輸出的至少一訓(xùn)練結(jié)果相關(guān)聯(lián),關(guān)聯(lián)后的訓(xùn)練結(jié)果被回傳至各級卷積神經(jīng)網(wǎng)絡(luò)。
【文檔編號】G06T7/00GK106096670SQ201610439342
【公開日】2016年11月9日
【申請日】2016年6月17日
【發(fā)明人】秦紅偉, 閆俊杰
【申請人】北京市商湯科技開發(fā)有限公司