基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及人車分類【技術(shù)領(lǐng)域】,公開了基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng),通過搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器,在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像,檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理;再使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果,從而可以簡(jiǎn)便的構(gòu)造出神經(jīng)網(wǎng)絡(luò)系統(tǒng)作為分類器,使用不同的人、車樣本對(duì)該系統(tǒng)進(jìn)行訓(xùn)練,讓系統(tǒng)自動(dòng)學(xué)習(xí)樣本復(fù)雜的類條件密度,避免了人為假設(shè)類條件密度函數(shù)所帶來的問題。本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于現(xiàn)有的人車分類方面的方法優(yōu)勢(shì)在于,提高了分類的精度,并且在分類的速度上得到了提高。
【專利說明】基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及汽車分類【技術(shù)領(lǐng)域】,特別涉及基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng)。
【背景技術(shù)】
[0002]交通事故是導(dǎo)致行人死亡的一個(gè)主要因素之一,由于自行車騎車人和行人在交通事故中常常處于弱勢(shì)地位,一旦與機(jī)動(dòng)車發(fā)生交通事故,很容易受到傷害。因此,行人檢測(cè)技術(shù)成為近年來智能分析領(lǐng)域研宄中備受關(guān)注的研宄方向,尤其對(duì)于智能交通視頻分析領(lǐng)域,對(duì)目標(biāo)的分類和檢測(cè),對(duì)道路的管理和交通安全有至關(guān)重要的作用。
[0003]目前,目標(biāo)分類的主要方法有基于形狀模型匹配的方法、基于分類器的方法和利用梯度方向直方圖的方法。
[0004]其中,基于背景提取和形狀模型匹配的方法,該方法主要是通過對(duì)當(dāng)前圖像與參考背景的像素進(jìn)行逐個(gè)做差來得到運(yùn)動(dòng)目標(biāo),通過運(yùn)動(dòng)目標(biāo)與相應(yīng)已知目標(biāo)的形狀模型進(jìn)行匹配來進(jìn)行判別。這種方法的缺陷在于:行人具有的多態(tài)性和人和車輛的多樣性決定了通過模型匹配不能達(dá)到較理想的結(jié)果。
[0005]應(yīng)用Harr型特征的方法,該方法通過從大量訓(xùn)練樣本中提取Haar型特征,對(duì)這些特征進(jìn)行訓(xùn)練得到強(qiáng)分類器,最后通過強(qiáng)分類器來進(jìn)行目標(biāo)的識(shí)別和分類。Harr型特征檢測(cè)方法成功的應(yīng)用在人臉檢測(cè),速度很快,精度較高,已經(jīng)廣泛應(yīng)用,但是行人檢測(cè)不同于人臉檢測(cè),Harr特征主要是基于灰度分布的區(qū)域特征,人臉在這方面非常穩(wěn)定,所以有很高的檢測(cè)精度,但應(yīng)用于戶外公路行人和人和車輛時(shí),由于色彩多樣,光線、天氣變化等因素影響,行人和人和車輛圖像在灰度分布的區(qū)域上并沒有明顯的特征,因此利用Harr特征進(jìn)行分類也不能達(dá)到很好的效果。
[0006]利用梯度方向直方圖特征的方法,它提取了圖像中局部區(qū)域的梯度方向直方圖特征,通過對(duì)樣本中該特征進(jìn)行訓(xùn)練,然后用模式識(shí)別中的方法形成分類器,從而實(shí)現(xiàn)目標(biāo)檢測(cè)和分類。利用梯度直方圖的方法,它提取了圖像中局部區(qū)域的梯度方向直方圖特征,通過對(duì)樣本中該特征進(jìn)行訓(xùn)練,然后用模式識(shí)別中的方法形成分類器,從而實(shí)現(xiàn)行人檢測(cè)。它的獨(dú)特之處在于,HOG特征描述了圖像局部區(qū)域的梯度強(qiáng)度和梯度方向的分布情況,該分布情況能對(duì)局部對(duì)象外觀和形狀進(jìn)行很好的表征,事實(shí)證明能夠很好的應(yīng)用在行人檢測(cè)中,已經(jīng)成為目前主流的方法。但在實(shí)際應(yīng)用中,根據(jù)不同的場(chǎng)景,不同的相機(jī)架設(shè)的高度、角度,往往需要訓(xùn)練相應(yīng)的訓(xùn)練器;在實(shí)際監(jiān)控中需要實(shí)時(shí)對(duì)視頻序列進(jìn)行處理,并且需要對(duì)目標(biāo)進(jìn)行跟蹤,利用分類器并不能很好的滿足實(shí)時(shí)的要求,并且不同視頻場(chǎng)景不同,無法確定統(tǒng)一的檢測(cè)區(qū)域,在使用上帶來不便。
[0007]人車分類的目的就是在輸入的圖像中把將人和汽車進(jìn)行分類,
[0008]在對(duì)人車檢測(cè)性能進(jìn)行評(píng)價(jià)的時(shí)候,引入四個(gè)指標(biāo):檢測(cè)正確率(correct,rate),錯(cuò)誤報(bào)警率(false, alarm-rate),檢測(cè)速度(detectingspeed)以及魯棒性(robustness)。
[0009]檢測(cè)正確率,也即精度,就是被正確檢測(cè)到的人和車輛數(shù)目除以原圖像中包含的人和車輛數(shù)目。檢測(cè)正確率越高,說明檢測(cè)系統(tǒng)對(duì)人和車輛的接受能力越強(qiáng)。
[0010]檢測(cè)速度,大部分應(yīng)用領(lǐng)域需要在線實(shí)時(shí)地檢測(cè)人和車輛,如人和車輛跟蹤、可編程視頻監(jiān)控等。在檢測(cè)率和誤檢率達(dá)到滿意的前提下,檢測(cè)速度越快越好。目前,人車分類技術(shù)還不十分成熟,影響人車分類結(jié)果的不確定因素很多,比如說姿態(tài)的交化以及背景情況等等。雖然這些因素對(duì)于人類的視覺系統(tǒng)并不構(gòu)成太大的障礙,但是對(duì)現(xiàn)有的人車分類系統(tǒng)就提出了一定的挑戰(zhàn),因?yàn)閷?duì)于人車分類系統(tǒng)來說,它只能在一定的限制條件下才能取得較好的檢測(cè)效果,而且在檢測(cè)速度方面還有待于提高。
[0011]在實(shí)際應(yīng)用中,由于大多數(shù)都是面向?qū)崟r(shí)性處理,這要求人車分類算法便于實(shí)現(xiàn),精度要高,而且具有較快的檢測(cè)速度。目前的人車分類算法還不能較好地處理任意環(huán)境、光照和遮擋等變化條件,而且在檢測(cè)精度,檢測(cè)速度方面存在不足。
[0012]神經(jīng)網(wǎng)絡(luò)方法進(jìn)行人車分類的優(yōu)點(diǎn)是可以簡(jiǎn)便的構(gòu)造出神經(jīng)網(wǎng)絡(luò)系統(tǒng)作為分類器,使用不同人和車輛樣本對(duì)該系統(tǒng)進(jìn)行訓(xùn)練,讓系統(tǒng)自動(dòng)學(xué)習(xí)樣本復(fù)雜的類條件密度,這樣就避免了人為假設(shè)類條件密度函數(shù)所帶來的問題。
[0013]國內(nèi)對(duì)人車分類問題的研宄很多,多個(gè)大學(xué)、研宄機(jī)構(gòu)的人員已經(jīng)投入到人車分類這一領(lǐng)域的研宄當(dāng)中,并且也取得了一定的研宄成果。
[0014]南京郵電大學(xué)的孫寧,吳秦龍等,提出了一種基于深信度網(wǎng)絡(luò)的人車分類方法,該方法將訓(xùn)練圖像歸一化為灰度圖像,提取HOG算子,得到HOG特征直方圖,將灰度圖像拉直后與HOG特征直方圖串聯(lián),訓(xùn)練DBN,構(gòu)造基于DBN的人車分類網(wǎng)絡(luò);將待分類圖像進(jìn)行歸一化和HOG特征提取后,輸入基于DBN的人車分類網(wǎng)絡(luò)中分類。發(fā)明方法的深信度網(wǎng)絡(luò)具有多個(gè)隱含層,擁有比淺層網(wǎng)絡(luò)更加優(yōu)異的特征表達(dá)能力;將原始圖像和特征直方圖相結(jié)合作為輸入數(shù)據(jù),在保留圖像外觀信息的基礎(chǔ)上突出了局部梯度方向的統(tǒng)計(jì)信息;本發(fā)明對(duì)于光照、外觀大幅變化的人車圖像,仍可以獲得優(yōu)良的分類性能。
[0015]中國科學(xué)院計(jì)算技術(shù)研宄所的許濤,劉宏等,發(fā)明了一種運(yùn)動(dòng)目標(biāo)分類方法和系統(tǒng)。該方法包括下列步驟:提取運(yùn)動(dòng)目標(biāo)灰度圖像中的運(yùn)動(dòng)目標(biāo)的邊緣信息;根據(jù)所述邊緣信息,提取運(yùn)動(dòng)目標(biāo)邊緣上的直線信息;根據(jù)所述運(yùn)動(dòng)目標(biāo)的特點(diǎn),結(jié)合所述直線信息構(gòu)造分類特征;根據(jù)所述分類特征,對(duì)所述運(yùn)動(dòng)目標(biāo)進(jìn)行分類,確定運(yùn)動(dòng)目標(biāo)類型。其能夠?qū)z測(cè)出的運(yùn)動(dòng)目標(biāo)進(jìn)行正確分類,并獲得輸出結(jié)果,為智能監(jiān)控系統(tǒng)的后續(xù)處理提供基礎(chǔ)。
[0016]浙江捷尚視覺科技有限公司的尚凌輝等,發(fā)明了一種用于視頻偵查的快速視頻檢索系統(tǒng)和方法,目前的視頻檢索技術(shù)沒有充分挖掘智能技術(shù)的優(yōu)勢(shì),沒有發(fā)揮出應(yīng)有的功能,不適合實(shí)際的應(yīng)用。該發(fā)明具體是獲取視頻,包括視頻文件或視頻流,并進(jìn)行解碼;對(duì)解碼后的每幀圖像進(jìn)行分析預(yù)處理,提取運(yùn)動(dòng)目標(biāo)和目標(biāo)特征信息,存入數(shù)據(jù)庫;根據(jù)用戶的請(qǐng)求查詢數(shù)據(jù)庫,根據(jù)顏色、紋理、規(guī)則或拌線條件進(jìn)行特征匹配,檢索出感興趣目標(biāo),并將結(jié)果目標(biāo)列表進(jìn)行排序;將檢索出的目標(biāo)以濃縮視頻的形式進(jìn)行展示。該發(fā)明采用視頻運(yùn)動(dòng)目標(biāo)檢測(cè)、視頻濃縮和特征匹配等智能視頻分析技術(shù),完成對(duì)指定目標(biāo)或特征的檢索。
[0017]河海大學(xué)的王敏提出一種視頻監(jiān)控中的人車自動(dòng)分類方法,該方法通過三幀差分法和背景消減法相結(jié)合的運(yùn)動(dòng)目標(biāo)檢測(cè)方法檢測(cè)視頻中運(yùn)動(dòng)的人和車;對(duì)視頻中的每幀源圖像進(jìn)行預(yù)處理和定位分割后對(duì)其進(jìn)行特征提?。挥弥С窒蛄繖C(jī)對(duì)人車進(jìn)行學(xué)習(xí)和分類,最終達(dá)到人車分類的目的。發(fā)明方法既避免了采用三幀差分法造成運(yùn)動(dòng)對(duì)象的空洞現(xiàn)象,又可以解決背景消減法中的動(dòng)態(tài)背景更新問題,減少背景噪聲的干擾,可有效區(qū)別通道上的行人和人和車輛,減輕交通視頻監(jiān)控人員的工作負(fù)擔(dān),同時(shí)也提高了工作效率;對(duì)道路監(jiān)控,交警派遣等工作都有著重要意義。
[0018]北京環(huán)境特性研宄所的柴智,李香禎等,提出一種基于多特征融合的快速人車目標(biāo)分類方法,該方法包括以下步驟:獲取監(jiān)控視頻圖像,得到相鄰兩幀圖像的差分圖像并進(jìn)行圖像分割、去除噪點(diǎn)、填補(bǔ)空洞,形成目標(biāo)圖像;在目標(biāo)圖像上確定目標(biāo)區(qū)域,計(jì)算每個(gè)目標(biāo)區(qū)域的面積、外接矩形的面積、質(zhì)心坐標(biāo)和矩形飽和度;將相鄰兩幀圖像中面積差異小、質(zhì)心坐標(biāo)歐氏距離最近的兩個(gè)目標(biāo)區(qū)域判定為同一目標(biāo);若同一目標(biāo)穩(wěn)定出現(xiàn)若干幀以上,依據(jù)該目標(biāo)的面積、速度和矩形飽和度,判斷該目標(biāo)為人員或人和車輛。發(fā)明實(shí)現(xiàn)了運(yùn)動(dòng)目標(biāo)人車屬性的快速判別,分類準(zhǔn)確高、實(shí)時(shí)性好。
[0019]然而,現(xiàn)有的人車分類方法在分類的精度或速度上仍存在一定的不足,現(xiàn)有技術(shù)有待改進(jìn)和提尚。
【發(fā)明內(nèi)容】
[0020]有鑒于此,有必要針對(duì)現(xiàn)有人車分類中存在的問題,提供一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng),能提高分類精度和分類的速度。
[0021]為了達(dá)到上述目的,本發(fā)明采取了以下技術(shù)方案:
[0022]一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,包括如下步驟:
[0023]A、搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器;
[0024]B、在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像,檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理;再使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果。
[0025]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟B包括:
[0026]B1、讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域;
[0027]B2、采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理;
[0028]B3、利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
[0029]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟B2中具體包括:
[0030]用n*n大小的塊對(duì)運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理,然后依次移動(dòng)一個(gè)像素,得到若干圖片,再對(duì)所述若干圖片進(jìn)行縮放,轉(zhuǎn)換為像素值為44*44大小的圖片;其中,η為自然數(shù),其取值范圍在50—70之間。
[0031]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟B中分類結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
[0032]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟A包括:
[0033]Al、采用固定大小的卷積核去感知輸入圖像中的每一個(gè)神經(jīng)元、并對(duì)每個(gè)神經(jīng)元進(jìn)行第一加偏置處理,得到第一卷積層;
[0034]Α2、將第一卷積層的神經(jīng)元分組,對(duì)每組神經(jīng)元分別求和,并對(duì)求和后的神經(jīng)元進(jìn)行第一加權(quán)、第二加偏置處理后,使用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),得到第一特征映射圖,即第一下采樣層;
[0035]A3、對(duì)第一特征映射圖進(jìn)行卷積處理獲取第二卷積層;
[0036]A4、將第二卷積層的神經(jīng)元與輸入圖像中的神經(jīng)元連接形成神經(jīng)網(wǎng)絡(luò)輸出。
[0037]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟Al包括:
[0038]All、采用可訓(xùn)練的濾波器fx卷積一個(gè)輸入的圖像得到卷積特征map ;
[0039]A12、將卷積特征map加一個(gè)偏置bx,得到第一卷積層Cx。
[0040]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其中,所述步驟A2包括:
[0041]A21、對(duì)第一卷積層中每鄰域四個(gè)像素求和變?yōu)橐粋€(gè)像素得到標(biāo)量Wx+1;
[0042]A22、對(duì)標(biāo)量Wx+1加權(quán)、增加偏置b X+1處理;
[0043]A23、使用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),得到縮小四倍的第一特征映射圖 Sx+1。
[0044]一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其中,包括:
[0045]處理單元,用于搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器;
[0046]輸出單元,用于在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像、檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理,并使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果。
[0047]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其中,所述輸出單元進(jìn)一步包括:
[0048]提取子單元,用于讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域;
[0049]分塊子單元,用于采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理;
[0050]分類子單元,用于利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
[0051]所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其中,所述輸出單元中分類結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
[0052]有益效果:本發(fā)明基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng),通過搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器,在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像,檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理;再使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果,從而可以簡(jiǎn)便的構(gòu)造出神經(jīng)網(wǎng)絡(luò)系統(tǒng)作為分類器,使用不同的人、車樣本對(duì)該系統(tǒng)進(jìn)行訓(xùn)練,讓系統(tǒng)自動(dòng)學(xué)習(xí)樣本復(fù)雜的類條件密度,避免了人為假設(shè)類條件密度函數(shù)所帶來的問題。本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于現(xiàn)有的人車分類方面的方法優(yōu)勢(shì)在于,提高了分類的精度,并且在分類的速度上得到了提高。
【專利附圖】
【附圖說明】
[0053]圖1為本發(fā)明基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法的流程圖。
[0054]圖2為本發(fā)明基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法中神經(jīng)網(wǎng)絡(luò)的示意圖。
[0055]圖3為本發(fā)明基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法中步驟SlOO的過程示意圖。
[0056]圖4為本發(fā)明基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0057]本發(fā)明提供基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法和系統(tǒng),針對(duì)在復(fù)雜環(huán)境下,對(duì)人車進(jìn)行有效且精準(zhǔn)的分類,從而提高分類的精度和分類的速度。本發(fā)明可以應(yīng)用于大量的場(chǎng)合,交通監(jiān)控系統(tǒng),安防設(shè)備系統(tǒng)等。在人車分類方面有較高的精度,在檢測(cè)速度方面更快,這對(duì)于有些實(shí)時(shí)性的系統(tǒng)而言是至關(guān)重要的,具有巨大的應(yīng)用前景。
[0058]如圖1所示,本發(fā)明提供的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法包括如下步驟:
[0059]S100、搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器;
[0060]S200、在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像,檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理;再使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果。
[0061]其中,步驟SlOO為訓(xùn)練過程,在訓(xùn)練時(shí)搜集30萬個(gè)樣本,其中10萬張車輛圖片,10萬張人圖片,10萬張非人非車圖片,將這30萬張圖片經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到標(biāo)簽結(jié)果,即包括:人、車、非人非車。
[0062]步驟S200為測(cè)試過程,用來測(cè)試所使用的神經(jīng)網(wǎng)絡(luò)用于人車分類的精度、速度是否可靠。其過程包括:讀入視頻圖像,將讀入的視頻用基于光流方法的運(yùn)動(dòng)目標(biāo)檢測(cè)方法進(jìn)行檢測(cè),檢測(cè)提取出感興趣區(qū)域、并對(duì)圖像進(jìn)行分塊、分類器分類、得出檢測(cè)結(jié)果。本發(fā)明通過對(duì)經(jīng)過運(yùn)動(dòng)檢測(cè)以后的圖像進(jìn)行分塊處理,這樣可以加快測(cè)試的速度,對(duì)于降低測(cè)試時(shí)間有著至關(guān)重要的作用。
[0063]具體地,所述步驟S200包括:讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域;之后、采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理;再、利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
[0064]其中,在對(duì)圖像進(jìn)行分塊時(shí),使用n*n大小的塊對(duì)運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理,然后依次移動(dòng)一個(gè)像素,得到若干圖片,再對(duì)所述若干圖片進(jìn)行縮放,轉(zhuǎn)換為像素值為44*44大小的圖片;其中,η為自然數(shù),其取值范圍在50-70之間。然后,將這些得到的圖片當(dāng)做輸入,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
[0065]卷積神經(jīng)網(wǎng)絡(luò)也是本發(fā)明的一重點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)(CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當(dāng)前語音分析和圖像識(shí)別領(lǐng)域的研宄熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。
[0066]所述步驟SlOO包括:al、采用固定大小的卷積核去感知輸入圖像中的每一個(gè)神經(jīng)元、并對(duì)每個(gè)神經(jīng)元進(jìn)行第一加偏置處理,得到第一卷積層;a2、將第一卷積層的神經(jīng)元分組,對(duì)每組神經(jīng)元分別求和,并對(duì)求和后的神經(jīng)元進(jìn)行第一加權(quán)、第二加偏置處理后,使用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),得到第一特征映射圖,即第一下采樣層;a3、對(duì)第一特征映射圖進(jìn)行卷積處理獲取第二卷積層;a4、將第二卷積層的神經(jīng)元與輸入圖像中的神經(jīng)元連接形成神經(jīng)網(wǎng)絡(luò)輸出。
[0067]其中,所述步驟al為卷積過程,其包括:采用可訓(xùn)練的濾波器匕卷積一個(gè)輸入的圖像(第一階段是輸入的圖像,后面的階段就是卷積特征map 了)得到卷積特征map,將卷積特征map加一個(gè)偏置bx,得到第一卷積層Cx。
[0068]所述步驟a2為子采樣過程包括:每鄰域四個(gè)像素求和變?yōu)橐粋€(gè)像素得到標(biāo)量Wx+1,然后通過標(biāo)量Wx+1加權(quán),再增加偏置b x+1l,然后通過一個(gè)sigmoid激活函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),產(chǎn)生一個(gè)大概縮小四倍的第一特征映射圖Sx+1。所以從一個(gè)平面到下一個(gè)平面的映射可以看作是做卷積運(yùn)算,S-層可看作是模糊濾波器,起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測(cè)更多的特征信息。
[0069]以下結(jié)合圖2和圖3對(duì)卷積過程和子采樣過程進(jìn)行詳細(xì)說明:
[0070]用一個(gè)固定大小的卷積核去感知輸入圖像中的每一個(gè)神經(jīng)元(即每個(gè)像素),卷積后在第一卷積層Cl產(chǎn)生特征map,之后,使特征map中每組的四個(gè)像素再進(jìn)行求和,加權(quán)值,加偏置,通過一個(gè)Sigmoid函數(shù)得到第一下采樣層S2的特征map ;這些map再經(jīng)過卷積得到第二卷積層C3 ;這個(gè)層級(jí)結(jié)構(gòu)再和第一下采樣層S2 —樣產(chǎn)生到第二下采樣層S4 ;之后再將第二下采樣層S4的每一個(gè)特征map與卷積層C中的每一個(gè)神經(jīng)元連接,這樣可以防止過擬合的發(fā)生。最終,這些像素值被光柵化,并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。
[0071]一般地,卷積層C為特征提取層,用一個(gè)由權(quán)值組成的卷積核去感知前面一層的每個(gè)特征map,這就提取出了圖像的特征,并且生成該卷積層的特征map ;S層是下采樣層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射為一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響核函數(shù)小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。值得注意的是,在每一層使用的卷積核是完全一樣的,這樣就達(dá)到了權(quán)值共享的效果,使得整個(gè)網(wǎng)絡(luò)的復(fù)雜度大大降低。
[0072]本發(fā)明的卷積神經(jīng)網(wǎng)絡(luò)共有6層(不包含輸入層input),每層都包含可訓(xùn)練參數(shù)(連接權(quán)重),并且每個(gè)層有多個(gè)特征map,每個(gè)特征Map通過一種卷積核提取輸入的一種特征,然后每個(gè)特征Map有多個(gè)神經(jīng)元。
[0073]在本發(fā)明中,設(shè)定輸入圖像為44*44大小,第一卷積層Cl由6個(gè)特征map組成,特征map中每個(gè)神經(jīng)元與輸入中5*5的鄰域相連,特征map的大小為40*40,第一卷積層Cl有(40*40+1) *6 = 9606個(gè)可訓(xùn)練參數(shù)(權(quán)值和偏置值),與輸入層共有5*5*6*44*44 = 290400個(gè)連接。
[0074]S2層是一個(gè)下采樣層,有6個(gè)20*20大小的特征map。特征map中的每個(gè)單元與Cl中相對(duì)應(yīng)特征map的2*2鄰域相連接。S2層每個(gè)單元的4個(gè)輸入相加,乘以一個(gè)可訓(xùn)練參數(shù),再加上一個(gè)可訓(xùn)練偏置。通過sigmoid函數(shù)計(jì)算出結(jié)果??捎?xùn)練系數(shù)和偏置控制著sigmoid函數(shù)的非線性程度。每個(gè)單元的2*2感受野并不重疊,因此S2中每個(gè)特征圖的大小是Cl中特征圖大小的1/4 (行和列各1/2) ο S2層有(20*20+1) *6 = 2406個(gè)可訓(xùn)練參數(shù),與 Cl 層有 6*40*40*5*5 = 240000 個(gè)連接。
[0075]第二卷積層C3也是一個(gè)卷積層,它同樣通過5x5的卷積核去卷積層S2,然后得到的特征map就只有16*16個(gè)神經(jīng)元,每一個(gè)特征map對(duì)應(yīng)一種卷積核,所以它有16種不同的卷積核。這里需要注意的一點(diǎn)是:C3中的每個(gè)特征map是連接到S2中的所有6個(gè)或者幾個(gè)特征map的,表示本層的特征map是上一層提取到的特征map的不同組合。
[0076]最后,C3層與卷積層全連接,該卷積層由一個(gè)個(gè)的神經(jīng)元組成,本實(shí)驗(yàn)用200個(gè)神經(jīng)元,C3層中的每一個(gè)特征map都與該卷積層的每一個(gè)神經(jīng)元全連接。最后,將卷積層的200個(gè)神經(jīng)元與輸出層每一個(gè)標(biāo)簽全連接,加入一個(gè)卷積層的目的在于,防止過擬合的情況發(fā)生。
[0077]如圖2所示,在圖2中,Input大小為44*44的圖片;C1卷積層有6個(gè)40*40大小的特征map,S2下采樣層有6個(gè)20*20大小的特征map,C3層有16個(gè)16*16大小的特征map,卷積層有200個(gè)神經(jīng)元,最后的輸出層有三個(gè)標(biāo)簽:人(用I表示)、車(用2表示)、非人非車(用3表示);最后一層為Output層(輸出層),與前面的卷積層是全連接的,輸出即為 Hw, b (X).
[0078]綜上,本發(fā)明通過步驟SlOO的實(shí)施例提供的神經(jīng)網(wǎng)絡(luò)訓(xùn)練分類器,神經(jīng)網(wǎng)絡(luò)用于模式識(shí)別的主流是有監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)更多的是用于聚類分析。對(duì)于有監(jiān)督的模式識(shí)另IJ,由于任一樣本的類別是已知的,樣本在空間的分布不再是依據(jù)其自然分布傾向來劃分,而是要根據(jù)同類樣本在空間的分布及不同類樣本之間的分離程度找一種適當(dāng)?shù)目臻g劃分方法,或者找到一個(gè)分類邊界,使得不同類樣本分別位于不同的區(qū)域內(nèi)。這就需要一個(gè)長(zhǎng)時(shí)間且復(fù)雜的學(xué)習(xí)過程,不斷調(diào)整用以劃分樣本空間的分類邊界的位置,使盡可能少的樣本被劃分到非同類區(qū)域中。
[0079]卷積網(wǎng)絡(luò)在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系,而不需要任何輸入和輸出之間的精確數(shù)學(xué)表達(dá)式,只要用已知的模式對(duì)卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對(duì)之間的映射能力。卷積網(wǎng)絡(luò)執(zhí)行的是有監(jiān)督訓(xùn)練,所以其樣本集是由形如:(輸入向量,理想輸出向量)的向量對(duì)構(gòu)成的。所有這些向量對(duì),都應(yīng)該是來源于網(wǎng)絡(luò)即將模擬的系統(tǒng)的實(shí)際“運(yùn)行”結(jié)果。它們可以是從實(shí)際運(yùn)行系統(tǒng)中采集來的。在開始訓(xùn)練前,所有的權(quán)都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化,比如[0,I]之間分布的隨機(jī)數(shù)?!靶‰S機(jī)數(shù)”用來保證網(wǎng)絡(luò)不會(huì)因權(quán)值過大而進(jìn)入飽和狀態(tài),從而導(dǎo)致訓(xùn)練失??;“不同”用來保證網(wǎng)絡(luò)可以正常地學(xué)習(xí)。實(shí)際上,如果用相同的數(shù)去初始化權(quán)矩陣,則具有對(duì)稱性,導(dǎo)致每一層的卷積核都相同,則網(wǎng)絡(luò)無能力學(xué)習(xí)。
[0080]如圖4所示,本發(fā)明還相應(yīng)提供一種利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其包括:
[0081]處理單元10,用于搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器;
[0082]輸出單元20,用于在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像、檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理,并使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果。
[0083]其中,在本實(shí)施例中,所述輸出單元20進(jìn)一步包括:
[0084]提取子單元201,用于讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域;
[0085]分塊子單元202,用于采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理;
[0086]分類子單元203,用于利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
[0087]進(jìn)一步地,所述輸出單元20中分類結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
[0088]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于:包括如下步驟: A、搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器; B、在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像,檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理;再使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于,所述步驟B包括: B1、讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域; B2、采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理; B3、利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
3.根據(jù)權(quán)利要求2所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于,所述步驟B2中具體包括: 用n*n大小的塊對(duì)運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理,然后依次移動(dòng)一個(gè)像素,得到若干圖片,再對(duì)所述若干圖片進(jìn)行縮放,轉(zhuǎn)換為像素值為44*44大小的圖片;其中,η為自然數(shù),其取值范圍在50—70之間。
4.根據(jù)權(quán)利要求2所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于:所述步驟B中分類結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
5.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于:所述步驟A包括: Al、采用固定大小的卷積核去感知輸入圖像中的每一個(gè)神經(jīng)元、并對(duì)每個(gè)神經(jīng)元進(jìn)行第一加偏置處理,得到第一卷積層; Α2、將第一卷積層的神經(jīng)元分組,對(duì)每組神經(jīng)元分別求和,并對(duì)求和后的神經(jīng)元進(jìn)行第一加權(quán)、第二加偏置處理后,使用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),得到第一特征映射圖,即第一下采樣層; A3、對(duì)第一特征映射圖進(jìn)行卷積處理獲取第二卷積層; A4、將第二卷積層的神經(jīng)元與輸入圖像中的神經(jīng)元連接形成神經(jīng)網(wǎng)絡(luò)輸出。
6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于:所述步驟Al包括: All、采用可訓(xùn)練的濾波器fx卷積一個(gè)輸入的圖像得到卷積特征map ; A12、將卷積特征map加一個(gè)偏置bx,得到第一卷積層Cx。
7.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的方法,其特征在于,所述步驟A2包括: A21、對(duì)第一卷積層中每鄰域四個(gè)像素求和變?yōu)橐粋€(gè)像素得到標(biāo)量Wx+1; A22、對(duì)標(biāo)量Wx+1加權(quán)、增加偏置b X+1處理; A23、使用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),得到縮小四倍的第一特征映射圖Sx+10
8.一種基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其特征在于,包括: 處理單元,用于搜集若干張訓(xùn)練樣本,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述訓(xùn)練樣本進(jìn)行分類,得到包含標(biāo)簽結(jié)果的分類器; 輸出單元,用于在對(duì)人車進(jìn)行分類時(shí),讀入待測(cè)視頻圖像、檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)對(duì)圖像進(jìn)行分塊處理,并使用所述分類器對(duì)每塊圖像進(jìn)行分類處理得出檢測(cè)結(jié)果O
9.根據(jù)權(quán)利要求8所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其特征在于,所述輸出單元進(jìn)一步包括: 提取子單元,用于讀入視頻圖像,當(dāng)檢測(cè)到有運(yùn)動(dòng)物體的時(shí)候,提取出運(yùn)動(dòng)物體區(qū)域; 分塊子單元,用于采用固定大小的塊對(duì)該運(yùn)動(dòng)物體區(qū)域進(jìn)行分塊處理; 分類子單元,用于利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類得到分類結(jié)果。
10.根據(jù)權(quán)利要求9所述的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人車分類的系統(tǒng),其特征在于:所述輸出單元中分類結(jié)果包括:用于表示人的第一類分類結(jié)果、用于表示車的第二類分類結(jié)果和用于表示非人非車的第三類分類結(jié)果。
【文檔編號(hào)】G06N3/02GK104504395SQ201410788518
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月16日 優(yōu)先權(quán)日:2014年12月16日
【發(fā)明者】冷斌, 賀慶, 官冠, 胡歡, 蔣東國 申請(qǐng)人:廣州中國科學(xué)院先進(jìn)技術(shù)研究所