本發(fā)明涉及圖像處理領(lǐng)域,具體地,涉及一種基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法。
背景技術(shù):
視覺(jué)是人類獲取外界信息的重要途徑,能夠帶給人更直觀、豐富的感觀體驗(yàn)。圖像目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)應(yīng)用中的關(guān)鍵問(wèn)題。其實(shí)現(xiàn)手段是:輸入一幅待處理的圖像,讓計(jì)算機(jī)從語(yǔ)義的角度理解靜態(tài)圖像、視頻,從中識(shí)別出事先指定類別的目標(biāo)(例如人類,動(dòng)物,交通工具等常見(jiàn)對(duì)象),并且指出目標(biāo)所處的位置,以及目標(biāo)的大小(通常用矩形邊框來(lái)表示)。
早期的研究主要是基于級(jí)聯(lián)結(jié)構(gòu)檢測(cè)模型。首先提取人臉的特征,然后利用積分圖和adaboost思想對(duì)提取的人臉特征進(jìn)行判別,取得了高效準(zhǔn)確的檢測(cè)效果。隨后學(xué)者們提出了一系列魯棒的特征,如haar-like,sift,hog。這些特征聯(lián)合bag-of-word,fishervector等模型,目標(biāo)檢測(cè)任務(wù)的準(zhǔn)確率和效率都有了較大提高。但是,這類模型往往依賴復(fù)雜的特征,其性能很大程度上取決于特征的優(yōu)化選擇,所以其發(fā)展陷入了瓶頸期,諸多改進(jìn)并沒(méi)有實(shí)質(zhì)性地提高目標(biāo)檢測(cè)的性能。
基于可變形部件模型的檢測(cè)模型這些年來(lái)頗有收獲,如基于hog特征的可變形部件的對(duì)象檢測(cè),不僅考慮了整個(gè)對(duì)象,還充分考慮了部件間的形變關(guān)系,進(jìn)一步提升了目標(biāo)檢測(cè)的性能。但是仍然存在不少問(wèn)題,對(duì)于遮擋,大幅度形變問(wèn)題,該模型有一定的局限性。
近年來(lái),深度學(xué)習(xí)受到學(xué)術(shù)和工程上的廣泛關(guān)注,“大數(shù)據(jù)+深度模型”成為了人工智能領(lǐng)域的熱搜詞。它的主要特點(diǎn)是通過(guò)設(shè)計(jì)多層的神經(jīng)網(wǎng)絡(luò),對(duì)輸入的多媒體數(shù)據(jù)進(jìn)行不同層次的抽象,最后進(jìn)行類別的預(yù)測(cè)和識(shí)別。深度學(xué)習(xí)被成功應(yīng)用于包括圖像識(shí)別領(lǐng)域,圖像檢測(cè)領(lǐng)域,并大幅度地提升了準(zhǔn)確度。目前基于區(qū)域的卷及神經(jīng)網(wǎng)絡(luò)(r-cnn)及其改進(jìn)已成為主流的目標(biāo)檢測(cè)器。r-cnn主要分為三個(gè)步驟,即:區(qū)域選擇,特征提取,分類器打分。基本框圖如圖1所示。
(1)區(qū)域提取:由于目標(biāo)對(duì)象可能出現(xiàn)在圖像的任何位置,而且目標(biāo)的大小、長(zhǎng)寬比例也不確定,首先需要選取初始可能包含對(duì)象的區(qū)域。傳統(tǒng)的區(qū)域選擇方法是基于滑動(dòng)窗口的策略。首先設(shè)定不同的尺度、長(zhǎng)寬比的窗口,然后對(duì)整幅圖像進(jìn)行遍歷滑動(dòng)。這種窮舉的策略雖然包含了目標(biāo)所有可能出現(xiàn)的位置,但是缺點(diǎn)也是顯而易見(jiàn)的:時(shí)間復(fù)雜度太高,產(chǎn)生冗余窗口太多,這也嚴(yán)重影響后續(xù)特征提取和分類的速度和性能。實(shí)際上,由于受到時(shí)間復(fù)雜度的問(wèn)題,滑動(dòng)窗口的長(zhǎng)寬比一般都是固定的設(shè)置幾個(gè),所以對(duì)于長(zhǎng)寬比浮動(dòng)較大的多類別目標(biāo)檢測(cè),即便是滑動(dòng)窗口遍歷也不能得到很好的區(qū)域。針對(duì)滑動(dòng)窗策略的不足,近年來(lái)學(xué)者提出了許多優(yōu)秀的區(qū)域選擇方法,主要可以分為:基于超像素的方法、基于窗口打分的方法,以及基于深度學(xué)習(xí)的方法,代表性的工作有:選擇性查找,edgebox,rpn等等。
(2)特征提?。禾崛D像區(qū)域特征的好壞直接影響到分類的準(zhǔn)確性。由于目標(biāo)的形態(tài)多樣性,光照變化多樣性,背景多樣性等因素使得設(shè)計(jì)一個(gè)魯棒的特征面臨著挑戰(zhàn)。傳統(tǒng)方法采用手動(dòng)設(shè)計(jì)的特征有sift特征,hog特征。近年來(lái)主流的方法均采用深度卷積提取特征,并取得了突飛猛進(jìn)的效果。
(3)分類器打分:將待測(cè)提取的圖像窗口的特征送入訓(xùn)練好的分類器中進(jìn)行分類,最終輸出圖像窗口的類別信息。目前比較常用的分類算法有svm、adaboost以及卷及神經(jīng)網(wǎng)絡(luò)。
一個(gè)非常好的目標(biāo)檢測(cè)系統(tǒng),需要滿足以下幾個(gè)條件:
1、較高的檢測(cè)準(zhǔn)確率;
2、較高的計(jì)算效率;
3、具有不同場(chǎng)景的泛化能力。
然而基于r-cnn及其改進(jìn)的模型在保證較高檢測(cè)準(zhǔn)確率的同時(shí),其計(jì)算速度并不理想。問(wèn)題在于預(yù)先獲取可能包含目標(biāo)的區(qū)域,然后再對(duì)每個(gè)候選目標(biāo)區(qū)域分類計(jì)算量比較大。所以無(wú)法滿足實(shí)時(shí)性準(zhǔn)確性目標(biāo)檢測(cè)的要求。
為了提高檢測(cè)速度,近年來(lái)學(xué)者提出了基于回歸方法的深度學(xué)習(xí)目標(biāo)檢測(cè)算法:yolo。給個(gè)一個(gè)輸入圖像,首先將圖像劃分成7*7的網(wǎng)格,對(duì)于每個(gè)網(wǎng)格,預(yù)測(cè)2個(gè)窗口(包括每個(gè)邊框是窗口的位置以及每個(gè)窗口區(qū)域在多個(gè)類別上的概率),然后根據(jù)閾值去除可能性比較低的目標(biāo)窗口,最后nms去除冗余窗口即可。
yolo將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換成一個(gè)回歸問(wèn)題,大大加快了檢測(cè)的速度。每個(gè)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)窗口時(shí)使用的是全圖信息,使得falsepositive比例大幅降低(充分的上下文信息)。然而,yolo沒(méi)有了可能包含對(duì)象區(qū)域選擇機(jī)制,只使用7*7的網(wǎng)格回歸使得目標(biāo)不能非常精準(zhǔn)的定位,導(dǎo)致了其檢測(cè)精度并不是很高。
當(dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)系統(tǒng)在精度和速度上較傳統(tǒng)方法都有很大提升。但是基于r-cnn及其改進(jìn)的模型在保證準(zhǔn)備率的同時(shí)速度較慢,而基于回歸方法的深度學(xué)習(xí)目標(biāo)檢測(cè)算法雖然速度很快,但是檢測(cè)精度卻不是很高。
綜上所述,本申請(qǐng)發(fā)明人在實(shí)現(xiàn)本申請(qǐng)發(fā)明技術(shù)方案的過(guò)程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問(wèn)題:
現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)系統(tǒng),存在無(wú)法同時(shí)保證目標(biāo)檢測(cè)精度和速度的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法,解決現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)系統(tǒng)存在的無(wú)法同時(shí)保證目標(biāo)檢測(cè)精度和速度的技術(shù)問(wèn)題,實(shí)現(xiàn)了方法設(shè)計(jì)合理,能夠達(dá)到同時(shí)保證目標(biāo)檢測(cè)精度和速度的技術(shù)效果。
為解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法,包括以下四個(gè)步驟:圖像網(wǎng)格劃分、網(wǎng)格區(qū)域特征提取、網(wǎng)格判斷及合并和邊框回歸,所述方法包括:
步驟1:將圖像進(jìn)行網(wǎng)格劃分;
步驟2:提取網(wǎng)格區(qū)域的特征;
步驟3:對(duì)網(wǎng)格進(jìn)行判斷及合并,具體為:首先,根據(jù)事先訓(xùn)練的回歸模型判斷每個(gè)網(wǎng)格是否屬于指定的目標(biāo)對(duì)象,然后根據(jù)各個(gè)網(wǎng)格所屬的對(duì)象類別,將網(wǎng)格合并組成初始對(duì)象窗口;
步驟4:利用邊框回歸方法對(duì)初始對(duì)象窗口進(jìn)行邊框回歸處理,從而得到更加準(zhǔn)確地對(duì)象窗口。
其中,本申請(qǐng)中的目標(biāo)檢測(cè)方法,在快速檢測(cè)的同時(shí),盡量減少精度的損失,以滿足工程應(yīng)用的需求。
進(jìn)一步的,所述步驟1具體為:輸入一張圖片,對(duì)圖像進(jìn)行歸一化處理,圖像尺寸大小為w×h,然后將圖像平均劃分為t×t的網(wǎng)格,即每個(gè)網(wǎng)格gt(t=1,...,t2)大小為:w/t×h/t。
進(jìn)一步的,所述步驟2具體為:首先將歸一化處理過(guò)的圖像輸入到卷積神經(jīng)網(wǎng)絡(luò),在最后一個(gè)卷積層的響應(yīng)譜上,每個(gè)網(wǎng)格區(qū)域內(nèi)做最大池化操作,獲得每個(gè)網(wǎng)格區(qū)域的特征。假設(shè)響應(yīng)譜有n個(gè)通道,則最終每個(gè)網(wǎng)格的特征維度是d維,即特征
進(jìn)一步的,所述利用邊框回歸方法對(duì)初始對(duì)象窗口進(jìn)行邊框回歸處理,具體包括:輸入初始生成的對(duì)象邊框的位置和大小,通過(guò)邏輯回歸的方法訓(xùn)練模型對(duì)邊框進(jìn)行回歸,預(yù)測(cè)真實(shí)檢測(cè)框的位置和大小。
進(jìn)一步的,所述步驟3具體包括:
定義c類目標(biāo)對(duì)象,則對(duì)于任一類別c∈{1,2,...,c},每個(gè)網(wǎng)格gt的標(biāo)簽yc(gt)為:
式(1)中,s(.)表示面積,即像素個(gè)數(shù);bc表示第c類的標(biāo)注邊框;yc(gt)=1表示網(wǎng)格gt屬于目標(biāo)c的內(nèi)部,否則屬于目標(biāo)c的外部;
在給定數(shù)據(jù)集上已知圖像標(biāo)注的對(duì)象邊框,按照式(1)得到每個(gè)網(wǎng)格的標(biāo)簽;設(shè)定損失函數(shù)為softmax回歸形式,則訓(xùn)練階段損失函數(shù)為:
式(2)中,(w,θ)分別表示cnn網(wǎng)絡(luò)參數(shù)和softmax參數(shù);n表示訓(xùn)練樣本個(gè)數(shù),
本申請(qǐng)?zhí)峁┑囊粋€(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
本發(fā)明能夠得到快速準(zhǔn)確的目標(biāo)檢測(cè)效果,在快速檢測(cè)的同時(shí),盡量減少精度的損失,以滿足工程應(yīng)用的需求,具體表現(xiàn)為:
1)步驟2可以得到具有類內(nèi)代表性、類間判別性的深度特征來(lái)表示各個(gè)網(wǎng)格區(qū)域。由于深度特征相比較傳統(tǒng)手動(dòng)設(shè)計(jì)的特征具有更好地表達(dá)對(duì)象的能力,近年來(lái)深度特征已廣泛應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域,并在性能上大大超越傳統(tǒng)的方法。類似于r-cnn改進(jìn)版本及yolo,步驟2采用同樣的方法提取各個(gè)區(qū)域的特征,首先把整幅歸一化過(guò)得圖像輸入到深度卷積神經(jīng)網(wǎng)絡(luò),然后在最后一個(gè)卷積層做每個(gè)網(wǎng)格區(qū)域的最大池化操作,進(jìn)而得到每個(gè)網(wǎng)絡(luò)區(qū)域的特征。很多當(dāng)前文獻(xiàn)證明深度網(wǎng)絡(luò)是對(duì)輸入的圖像進(jìn)行不同深度層次的抽象,最后一個(gè)卷積層輸出的每個(gè)響應(yīng)譜往往反映了對(duì)象的高層信息,比如對(duì)象的一個(gè)部件,這樣的深度特征提取操作,一方面能夠使特征更加具有代表性、判別性,另一方面能夠加快特征提取的速度,而不需要每個(gè)網(wǎng)格都要依次輸入到深度網(wǎng)絡(luò)。
2)步驟3首先可以準(zhǔn)確判斷每個(gè)區(qū)域是否屬于指定對(duì)象。這是因?yàn)橛?xùn)練階段根據(jù)數(shù)據(jù)庫(kù)標(biāo)注我們已知每個(gè)網(wǎng)格區(qū)域是否屬于對(duì)象類別,然后利用softmax形式的目標(biāo)函數(shù)進(jìn)行參數(shù)優(yōu)化,最終學(xué)習(xí)到參數(shù)之后測(cè)試階段我們可以準(zhǔn)確地判斷出每個(gè)區(qū)域所屬的對(duì)象類別。即使某個(gè)小的網(wǎng)格判斷有誤,通過(guò)多個(gè)網(wǎng)格合并聚集,同樣可以根據(jù)臨近區(qū)域的類別來(lái)消除對(duì)初始對(duì)象窗口的干擾,由于網(wǎng)格數(shù)量較少,可以高效計(jì)算每個(gè)網(wǎng)格的特征,最終步驟3可以得到較準(zhǔn)確,且數(shù)量較少的初始對(duì)象窗口,這樣大大減少了運(yùn)算代價(jià)。
3)邊框回歸往往作為當(dāng)前檢測(cè)框架的后處理操作,能夠得到更加精確的邊框位置,從而達(dá)到準(zhǔn)確的檢測(cè)效果。邊框回歸最早在可變形部件模型中提出,首先輸入初始生成的對(duì)象邊框的位置和大小,通過(guò)訓(xùn)練模型對(duì)邊框進(jìn)行回歸,最后預(yù)測(cè)真實(shí)檢測(cè)框的位置和大小。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明實(shí)施例的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定;
圖1是本申請(qǐng)中r-cnn系統(tǒng)流程示意圖;
圖2是本申請(qǐng)中基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法的流程示意圖。
具體實(shí)施方式
本發(fā)明提供了一種基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法,解決現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)系統(tǒng)存在的無(wú)法同時(shí)保證目標(biāo)檢測(cè)精度和速度的技術(shù)問(wèn)題,實(shí)現(xiàn)了方法設(shè)計(jì)合理,能夠達(dá)到同時(shí)保證目標(biāo)檢測(cè)精度和速度的技術(shù)效果。
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在相互不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述范圍內(nèi)的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
請(qǐng)參考圖2,本申請(qǐng)?zhí)峁┝艘环N基于網(wǎng)格判斷的快速目標(biāo)檢測(cè)方法,所述方法包括:
步驟1:將圖像進(jìn)行網(wǎng)格劃分;
步驟2:提取網(wǎng)格區(qū)域的特征;
步驟3:對(duì)網(wǎng)格進(jìn)行判斷及合并,具體為:首先,根據(jù)事先訓(xùn)練的回歸模型判斷每個(gè)網(wǎng)格是否屬于指定的目標(biāo)對(duì)象,然后根據(jù)各個(gè)網(wǎng)格所屬的對(duì)象類別,將網(wǎng)格合并組成初始對(duì)象窗口;
步驟4:利用邊框回歸方法對(duì)初始對(duì)象窗口進(jìn)行邊框回歸處理。具體為:輸入初始生成的對(duì)象邊框的位置和大小,通過(guò)邏輯回歸的方法訓(xùn)練模型對(duì)邊框進(jìn)行回歸,預(yù)測(cè)真實(shí)檢測(cè)框的位置和大小。
具體步驟如下:
(1)圖像網(wǎng)格劃分:輸入一張圖片,首先歸一化到尺寸大小為w×h,然后平均劃分為t×t的網(wǎng)格,即每個(gè)網(wǎng)格gt(t=1,...,t2)大小為:w/t×h/t。
(2)網(wǎng)格區(qū)域特征提?。菏紫劝颜鶊D像輸入到cnn網(wǎng)絡(luò)(可以是alexnet,googlenet,vgg),在最后一個(gè)卷積層的響應(yīng)譜上,每個(gè)網(wǎng)格區(qū)域內(nèi)做max-pooling。假設(shè)響應(yīng)譜有n個(gè)通道,則最終每個(gè)網(wǎng)格的特征維度是d維,即特征
(3)網(wǎng)絡(luò)判斷及合并:有了步驟2)提起的特征,接下來(lái)判斷每個(gè)網(wǎng)格是否屬于指定的目標(biāo)對(duì)象。
假設(shè)事先定義c類目標(biāo)對(duì)象,則對(duì)于任一類別c∈{1,2,...,c},每個(gè)網(wǎng)格gt的標(biāo)簽為:
式中,s(.)表示面積,即像素個(gè)數(shù);bc表示第c類的標(biāo)注邊框;yc(gt)=1表示網(wǎng)格gt屬于目標(biāo)c的內(nèi)部,否則屬于目標(biāo)c的外部。
在給定數(shù)據(jù)集上已知圖像標(biāo)注的對(duì)象邊框,即groundtruth,進(jìn)而按照式(1)得到每個(gè)網(wǎng)格的標(biāo)簽。設(shè)定損失函數(shù)為softmax回歸形式,則訓(xùn)練階段損失函數(shù)為:
式中(w,θ)分別表示cnn網(wǎng)絡(luò)參數(shù)和softmax參數(shù)。另外,n表示訓(xùn)練樣本個(gè)數(shù),
(4)邊框回歸:由于合并得到的初始對(duì)象窗口往往存在較大的定位偏差,可以采用邊框回歸的方法得到更加精確的結(jié)果。
本發(fā)明的關(guān)鍵點(diǎn)在于:提出一種高效準(zhǔn)確的目標(biāo)檢測(cè)算法,首先判斷劃分的網(wǎng)格是否屬于指定對(duì)象,然后將小的網(wǎng)格合并得到初始的對(duì)象邊框,進(jìn)而通過(guò)邊框回歸得到最終的較準(zhǔn)確的目標(biāo)邊框。該發(fā)明步驟(1),(2),(3)可以用于初始一般類對(duì)象窗口生成(objectness)的任務(wù)中。步驟(2)cnn網(wǎng)絡(luò)結(jié)構(gòu)可以用經(jīng)典的alexnet,vgg,googlenet網(wǎng)絡(luò),也可以用根據(jù)任務(wù)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)。步驟(3)可以用樸素的窗口合并,也可以通過(guò)聚類操作得到。
本發(fā)明能夠廣泛應(yīng)用于公共安全監(jiān)控。當(dāng)前很多場(chǎng)合(如校園、小區(qū)、停車場(chǎng)、銀行等)都裝有視頻監(jiān)控系統(tǒng),以便能夠?qū)梢傻奈锲泛腿藛T進(jìn)行監(jiān)控。另外,在智能交通系統(tǒng)中,除視頻錄像、車牌識(shí)別外,還需要大量的識(shí)別監(jiān)視跟蹤系統(tǒng),以保證車輛的安全行駛。
此外,從研究角度來(lái)看,目標(biāo)檢測(cè)作為高級(jí)圖像理解的前處理操作,在圖像理解中扮演了重要的角色??焖贉?zhǔn)確地檢測(cè)出圖像中目標(biāo)對(duì)象的類別和位置能夠?yàn)槔斫鈭D像提供更多的信息,如在一幅圖像中檢測(cè)出各個(gè)目標(biāo),能夠更好地理解目標(biāo)間的交互活動(dòng)。
上述本申請(qǐng)實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
本發(fā)明能夠得到快速準(zhǔn)確的目標(biāo)檢測(cè)效果,在快速檢測(cè)的同時(shí),盡量減少精度的損失,以滿足工程應(yīng)用的需求,具體表現(xiàn)為:
1)步驟2可以得到具有類內(nèi)代表性、類間判別性的深度特征來(lái)表示各個(gè)網(wǎng)格區(qū)域。由于深度特征相比較傳統(tǒng)手動(dòng)設(shè)計(jì)的特征具有更好地表達(dá)對(duì)象的能力,近年來(lái)深度特征已廣泛應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域,并在性能上大大超越傳統(tǒng)的方法。類似于r-cnn改進(jìn)版本及yolo,步驟2采用同樣的方法提取各個(gè)區(qū)域的特征,首先把整幅歸一化過(guò)得圖像輸入到深度卷積神經(jīng)網(wǎng)絡(luò),然后在最后一個(gè)卷積層做每個(gè)網(wǎng)格區(qū)域的最大池化操作,進(jìn)而得到每個(gè)網(wǎng)絡(luò)區(qū)域的特征。很多當(dāng)前文獻(xiàn)證明深度網(wǎng)絡(luò)是對(duì)輸入的圖像進(jìn)行不同深度層次的抽象,最后一個(gè)卷積層輸出的每個(gè)響應(yīng)譜往往反映了對(duì)象的高層信息,比如對(duì)象的一個(gè)部件,這樣的深度特征提取操作,一方面能夠使特征更加具有代表性、判別性,另一方面能夠加快特征提取的速度,而不需要每個(gè)網(wǎng)格都要依次輸入到深度網(wǎng)絡(luò)。
2)步驟3首先可以準(zhǔn)確判斷每個(gè)區(qū)域是否屬于指定對(duì)象。這是因?yàn)橛?xùn)練階段根據(jù)數(shù)據(jù)庫(kù)標(biāo)注我們已知每個(gè)網(wǎng)格區(qū)域是否屬于對(duì)象類別,然后利用softmax形式的目標(biāo)函數(shù)進(jìn)行參數(shù)優(yōu)化,最終學(xué)習(xí)到參數(shù)之后測(cè)試階段我們可以準(zhǔn)確地判斷出每個(gè)區(qū)域所屬的對(duì)象類別。即使某個(gè)小的網(wǎng)格判斷有誤,通過(guò)多個(gè)網(wǎng)格合并聚集,同樣可以根據(jù)臨近區(qū)域的類別來(lái)消除對(duì)初始對(duì)象窗口的干擾,由于網(wǎng)格數(shù)量較少,可以高效計(jì)算每個(gè)網(wǎng)格的特征,最終步驟3可以得到較準(zhǔn)確,且數(shù)量較少的初始對(duì)象窗口,這樣大大減少了運(yùn)算代價(jià)。
3)邊框回歸往往作為當(dāng)前檢測(cè)框架的后處理操作,能夠得到更加精確的邊框位置,從而達(dá)到準(zhǔn)確的檢測(cè)效果。邊框回歸最早在可變形部件模型中提出,首先輸入初始生成的對(duì)象邊框的位置和大小,通過(guò)訓(xùn)練模型對(duì)邊框進(jìn)行回歸,最后預(yù)測(cè)真實(shí)檢測(cè)框的位置和大小。
盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。