背景技術(shù):
本實(shí)施例涉及對象檢測以及對象檢測的機(jī)器學(xué)習(xí)。
對于機(jī)器學(xué)習(xí)的對象檢測而言,使用來自圖像的輸入特征以訓(xùn)練并且應(yīng)用檢測器。特征的質(zhì)量對于很多圖像分析任務(wù)的性能是關(guān)鍵的。科學(xué)家已經(jīng)利用對手頭的數(shù)據(jù)和任務(wù)的深入理解而提出了各種特征。例如,haar特征歸因于它們的廉價(jià)計(jì)算而被使用在器官檢測和分段中。局部二元模式(lbp)特征對于表示形狀或紋理而言是良好的,并且適合于人類重新標(biāo)識。對于所有任務(wù)或所有類型的數(shù)據(jù)而言沒有特征是優(yōu)化的。通常的是要求相當(dāng)大量的經(jīng)驗(yàn)以針對特定的應(yīng)用選擇良好的特征。
感測技術(shù)的演進(jìn)或者現(xiàn)有的感測技術(shù)上的變化偶爾使新的特征的設(shè)計(jì)成為必須。該處理通常是有挑戰(zhàn)性的,因?yàn)閿?shù)據(jù)生成的潛在物理學(xué)可能不容易理解。字典學(xué)習(xí)和稀疏編碼算法已經(jīng)被用于學(xué)習(xí)特征。例如,字典學(xué)習(xí)和稀疏編碼算法當(dāng)被應(yīng)用于自然圖像時(shí)學(xué)習(xí)類似gabor的模式。然而,歸因于字典原子的高相干性,該方法可能產(chǎn)生不穩(wěn)定的特征。換言之,如果存在看起來相似的多個(gè)字典原子,則稀疏碼可能在任何的這些原子之間跳轉(zhuǎn)。雖然這對于圖像重構(gòu)或圖像降噪應(yīng)用而言并不是問題,但是特征的不穩(wěn)定性對于學(xué)習(xí)良好的分類器或檢測器而言可能提出嚴(yán)重挑戰(zhàn)。
用以利用機(jī)器學(xué)習(xí)特征的另一方法使用自動(dòng)編碼器(ae)或受限制的玻爾茲曼機(jī)(rbm)。由于解碼步驟僅牽涉矩陣乘法,因此產(chǎn)生穩(wěn)定的特征。此外,ae或rbm通常是被堆棧的,以創(chuàng)建多層的深網(wǎng)絡(luò)。這種層級結(jié)構(gòu)可以在稍后的層處捕獲更抽象的特征。來自深網(wǎng)絡(luò)的最后的層的輸出被用作為所學(xué)習(xí)的特征。雖然可以使用有分辨力的訓(xùn)練來精細(xì)調(diào)諧網(wǎng)絡(luò),但是輸出可能不會捕獲所有有關(guān)的信息。這可能是由缺少所標(biāo)注的樣本或受困于不良的局部最小值的向后傳播優(yōu)化而引起的。此外,深網(wǎng)絡(luò)的完全連接的結(jié)構(gòu)使得難以在大圖像或體積的情況下進(jìn)行學(xué)習(xí)。例如,當(dāng)從100×100像素的彩色圖像學(xué)習(xí)1000個(gè)特征時(shí),網(wǎng)絡(luò)將具有大約30兆個(gè)自由參數(shù)。
技術(shù)實(shí)現(xiàn)要素:
提供了用于對象檢測的系統(tǒng)、方法以及計(jì)算機(jī)可讀介質(zhì)。所述對象檢測使用深的或多層的網(wǎng)絡(luò)以針對檢測圖像中的對象而學(xué)習(xí)特征。來自不同層的多個(gè)特征被聚合并且被用于訓(xùn)練用于對象的分類器。除了來自不同層的特征聚合以外或者作為對于來自不同層的特征聚合的替換,初始層可以具有用于圖像的不同的區(qū)域的分離的節(jié)點(diǎn),以減少自由參數(shù)的數(shù)量。學(xué)習(xí)對象檢測,或者應(yīng)用所學(xué)習(xí)的對象檢測器。
在第一方面中,提供了用于對象檢測的方法。獲得對象的圖像。定義多層特征學(xué)習(xí)網(wǎng)絡(luò)的多個(gè)順序特征層。提供從網(wǎng)絡(luò)的多個(gè)層接收特征的聚合器層。處理器使用對象的圖像來聯(lián)合地優(yōu)化所述多層特征學(xué)習(xí)網(wǎng)絡(luò)和所述聚合器層。處理器輸出由被優(yōu)化的多層特征學(xué)習(xí)網(wǎng)絡(luò)表示的所學(xué)習(xí)的特征的集合以及利用通過所述聚合器層而生成的特征以檢測對象的檢測器。所學(xué)習(xí)的特征的集合用于區(qū)分所述對象,并且所述檢測器用于對所述對象進(jìn)行分類。
在第二方面中,一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)已經(jīng)在其中存儲有表示由被編程的處理器可執(zhí)行以用于對象檢測的指令的數(shù)據(jù)。所述存儲介質(zhì)包括用于如下的指令:接收對象的圖像;通過所述處理器檢測具有從深網(wǎng)絡(luò)的隱藏層生成的特征的圖像中的對象,隱藏特征是從所聚合的不同的抽象層學(xué)習(xí)的,并且被由機(jī)器從不同的層輸入饋送到所述隱藏特征的機(jī)器學(xué)習(xí)分類器中作為特征矢量;以及輸出對象的檢測。
在第三方面中,提供了用于對象檢測的方法。對象的圖像被劃分為局部部分。機(jī)器訓(xùn)練特征節(jié)點(diǎn)的第一塊以重構(gòu)圖像的局部部分。機(jī)器訓(xùn)練第二屬性節(jié)點(diǎn)的第二塊以重構(gòu)特征節(jié)點(diǎn)。機(jī)器還訓(xùn)練第三屬性節(jié)點(diǎn)的第三塊以重構(gòu)第二屬性節(jié)點(diǎn)。機(jī)器訓(xùn)練特征聚合器以對對象進(jìn)行分類。利用第二和第三屬性節(jié)點(diǎn)作為輸入來訓(xùn)練特征聚合器。
可以單獨(dú)地或組合地使用以上所描述的各方面中的任何一個(gè)或多個(gè)。根據(jù)要被有關(guān)于隨附附圖來閱讀的優(yōu)選實(shí)施例的以下詳細(xì)描述,這些和其它方面、特征和優(yōu)點(diǎn)將變得明顯。本發(fā)明由隨后的權(quán)利要求限定,并且該部分中的內(nèi)容不應(yīng)當(dāng)被看作為對那些權(quán)利要求的限制。本發(fā)明的進(jìn)一步的方面和優(yōu)點(diǎn)被在下面結(jié)合優(yōu)選實(shí)施例來進(jìn)行討論,并且可以稍后被獨(dú)立地或組合地要求保護(hù)。
附圖說明
組件和各圖未必成比例,相反重點(diǎn)被放在圖解實(shí)施例的原理。此外,在各圖中,相同的參考標(biāo)號貫穿不同的視圖指定對應(yīng)的部分。
圖1是用于對象檢測訓(xùn)練的方法的一個(gè)實(shí)施例的流程圖示圖;
圖2示出用于使用機(jī)器學(xué)習(xí)的對象檢測的重新標(biāo)識的示例圖像;
圖3圖解具有用于圖像的局部部分的分離的所學(xué)習(xí)的特征和來自多個(gè)層的特征聚合器的深網(wǎng)絡(luò)的示例配置;
圖4是用于對象檢測應(yīng)用的方法的一個(gè)實(shí)施例的流程圖示圖;
圖5是示出用于使用不同的深網(wǎng)絡(luò)的重新標(biāo)識的累計(jì)匹配特性中的錯(cuò)誤率的圖線;以及
圖6是用于對象檢測的系統(tǒng)的一個(gè)實(shí)施例的框圖。
具體實(shí)施方式
一個(gè)或多個(gè)特征的質(zhì)量對于很多圖像分析任務(wù)是重要的。可以使用機(jī)器學(xué)習(xí)從原始數(shù)據(jù)構(gòu)造有用的特征。與人類相比,機(jī)器的涉入可以更好地區(qū)分或標(biāo)識有用的特征。給定用于圖像的大量可能的特征以及各種各樣的圖像源,機(jī)器學(xué)習(xí)方法比人工編程更魯棒。對特征進(jìn)行區(qū)分的機(jī)器學(xué)習(xí)可以被應(yīng)用于依賴于圖像分析(諸如人重新標(biāo)識或器官檢測)的各種產(chǎn)品。通過利用機(jī)器來學(xué)習(xí)區(qū)分特征并且訓(xùn)練分類器來提供對象檢測(無論是器官、人重新標(biāo)識還是其它對象)。
提供用于從原始圖像數(shù)據(jù)構(gòu)造特征的深網(wǎng)絡(luò)框架。并非僅使用預(yù)先編程的特征(諸如所提取的haar小波、色調(diào)飽和度值(hsv)直方圖或局部二元模式(lbp)),深網(wǎng)絡(luò)框架用于學(xué)習(xí)用于檢測(諸如用于識別或重新標(biāo)識的檢測)的特征。例如,在檢測中,在第一層中學(xué)習(xí)用于對象的各部分檢測的局部特征。局部特征可以被用于快速地?cái)[脫并非關(guān)注對象或?qū)ο筇匦缘拇罅咳菀椎暮蜻x??梢允褂迷谏罹W(wǎng)絡(luò)的稍后的層中學(xué)習(xí)的更抽象的特征來剪除更難的候選。利用具有任何數(shù)量的層或深度的深網(wǎng)絡(luò)來執(zhí)行學(xué)習(xí)處理。最后,來自多于一個(gè)的層(諸如兩個(gè)或更多個(gè)中間層)的所有或一些特征被聚合并且被直接饋送到分類器以用于最終預(yù)測。作為機(jī)器學(xué)習(xí)部分,分類器被與深網(wǎng)絡(luò)的其它層一起聯(lián)合地優(yōu)化。與利用預(yù)先編程的特征進(jìn)行的機(jī)器訓(xùn)練相比和/或與在沒有聚合或沒有局部到全局層的情況下利用深網(wǎng)絡(luò)來學(xué)習(xí)特征相比,這種聚合、局部到全局網(wǎng)絡(luò)結(jié)構(gòu)或這兩者可以提供更高效和/或更不易于出錯(cuò)的檢測。
圖1和圖4示出用于對象檢測的方法。對象的檢測可以是對象的屬性或區(qū)分特性的檢測。可以檢測部分或整個(gè)對象。用于對象檢測的方法可以是用以學(xué)習(xí)如何檢測對象的方法,或可以是用于檢測對象的方法。圖1針對對象檢測器的機(jī)器訓(xùn)練。圖4針對機(jī)器學(xué)習(xí)的對象檢測器的應(yīng)用。在這兩種情況下,機(jī)器(諸如處理器、計(jì)算機(jī)或服務(wù)器)實(shí)現(xiàn)一些或所有動(dòng)作。在一個(gè)實(shí)施例中,圖6的系統(tǒng)實(shí)現(xiàn)方法。用戶可以選擇用于利用處理器進(jìn)行的對象檢測器的應(yīng)用的圖像文件,或選擇用以從中學(xué)習(xí)特征的圖像和利用處理器的分類器。使用機(jī)器允許處理大容量(例如很多像素的圖像和/或很多圖像)的信息,由人類處置該大容量的信息可能是非高效的、由人類在所需要的時(shí)間幀中處置該大容量的信息可能是不現(xiàn)實(shí)的、或者該大容量的信息歸因于細(xì)微性和/或定時(shí)可能甚至不可能由人類來進(jìn)行處理。
以所示出的順序提供了方法,但是可以提供其它順序。對于圖1而言,動(dòng)作44和46可以被執(zhí)行為定義具有用于分類器的聚合器層的深網(wǎng)絡(luò)的一個(gè)動(dòng)作。
附加地,可以提供不同的或更少的動(dòng)作。例如,不提供圖1的動(dòng)作41和/或42。作為另一示例,不提供圖4的動(dòng)作56。在這兩個(gè)示例中,在沒有針對圖像的不同部分的分離的特征學(xué)習(xí)的情況下使用從不同的層直接到分類器中的特征聚合。還在其它示例中,提供用于捕獲圖像的動(dòng)作和/或使用所檢測的信息的動(dòng)作。
圖1示出用于在通過處理器學(xué)習(xí)區(qū)分對象或?qū)ο筇匦缘囊粋€(gè)或多個(gè)特征中的對象檢測的方法。特征可以由處理器使用以對對象或圖像進(jìn)行分類和/或由處理器使用以訓(xùn)練分類器。
在動(dòng)作40中,獲得對象的一個(gè)或多個(gè)圖像。通過數(shù)據(jù)傳送、捕獲和/或來自存儲器的加載來獲得圖像。獲得同一對象的任何數(shù)量的圖片(諸如對象的一個(gè)、兩個(gè)、幾十個(gè)或幾百個(gè)圖像)。圖像是在相同傳感器或不同傳感器的情況下的對象。圖像中可以包括一個(gè)立體圖中的對象或來自很多立體圖的對象。
圖像可以是任何對象(諸如器官、人或建筑)或多個(gè)對象(例如人群或多個(gè)器官)。在正性匹配基本事實(shí)(groudtruth)圖像中使用同一對象。替換地,在其中一般而言特征被訓(xùn)練以區(qū)分屬性或人的正性匹配基本事實(shí)圖像中使用很多不同的對象。
使用任何一個(gè)或多個(gè)傳感器來捕獲圖像。例如,使用x射線、計(jì)算機(jī)層析、熒光透視法、血管造影術(shù)、磁共振、超聲、正電子發(fā)射層析或單光子發(fā)射計(jì)算層析來捕獲器官的圖像??梢垣@得在相同或不同的設(shè)置(例如視場)中使用相同或不同的成像形態(tài)(即傳感器或傳感器的類型)的相同或不同的患者的多個(gè)圖像。醫(yī)學(xué)圖像中的關(guān)注對象可以是器官、囊腫、瘤、鈣化其它異常。
在一個(gè)實(shí)施例中,圖像是安全或區(qū)域監(jiān)控圖像,其中對象是個(gè)人或人群。從攝像機(jī)或其它視頻設(shè)備獲得圖像??梢砸愿鞣N方式(諸如,經(jīng)有線的或無線的網(wǎng)絡(luò)的傳送、從存儲器加載、直接饋送、或?qū)D像的其它存?。┇@得圖像。
圖像在不同時(shí)間來自不同的攝像機(jī)和/或相同的攝像機(jī)。所獲得的圖像表示相應(yīng)的攝像機(jī)的視場中的一個(gè)或多個(gè)人。隨著人典型地沿著普通行進(jìn)路徑行進(jìn)通過視頻監(jiān)測區(qū)域,不同的攝像機(jī)或相同的攝像機(jī)在不同的時(shí)間捕獲同一人。
各圖像一般地來自相同的時(shí)段(諸如,在彼此的幾分鐘或幾小時(shí)內(nèi))。時(shí)段覆蓋其間人可能穿著相同衣物和/或其間人處于被監(jiān)測區(qū)域內(nèi)的時(shí)間。可以使用更長或更短的時(shí)段,諸如在稍后的數(shù)小時(shí)、數(shù)天或數(shù)星期重新標(biāo)識已經(jīng)返回被監(jiān)測區(qū)域的同一人。
圖像可以是或可以不是同一人。例如,機(jī)場視頻監(jiān)測系統(tǒng)可以捕獲幾百或幾千個(gè)不同的人的圖像。一個(gè)圖像可以不包括人、包括一個(gè)或很多人。很多人中的一個(gè)可以是在不同圖像中所捕獲的同一人,或者圖像中的很多人中可以沒有任何人是同一人。對于訓(xùn)練而言,具有同一人的圖像以及不具有同一人的圖像以及給定圖像中的人中的哪些屬于同一人是已知的,并且被用作為基本事實(shí)。
圖像可以是區(qū)域或者可以被剪修。對于重新標(biāo)識或匹配而言,可以使用進(jìn)行配合以僅包圍任何圖像中的一人的矩形框。每個(gè)這樣的框可以被用作為圖像,從而具有很多人的圖片可以被用作為很多圖像。區(qū)域的圖像中的任何人被剪修從而所得到的人圖像至少主要表示僅一個(gè)人??梢允褂幂喞粜?,諸如其中檢測并且剪修人或特定人的一般邊界??梢允褂脤^(qū)域的圖像和/或?qū)€(gè)人的圖像的其它圖像處理,諸如低通、高通、帶通、定向或其它濾波。
圖2示出要被使用在用于重新標(biāo)識的訓(xùn)練中的示例圖像。左邊的兩行圖像示出要在其它圖像中被重新標(biāo)識的兩個(gè)人。右邊的圖像集合示出用于重新標(biāo)識的六個(gè)可能的候選。對于訓(xùn)練而言,已知的是,候選的第一圖像是匹配,而其它五個(gè)不是??梢允褂酶髷?shù)量的匹配和/或非匹配。
人重新標(biāo)識的任務(wù)是確定給定主體是否已經(jīng)出現(xiàn)在攝像機(jī)的網(wǎng)絡(luò)上,并且如果他或她出現(xiàn)則檢索該主體的有關(guān)圖像。歸因于跨各攝像機(jī)的視點(diǎn)、照度以及分辨率的改變,該問題是困難的。在先前的方法中,人重新標(biāo)識系統(tǒng)經(jīng)常包含兩個(gè)步驟。第一步驟是特征提取(諸如,提取hsv直方圖和lbp特征)。第二步驟學(xué)習(xí)分級函數(shù)(諸如使用基本事實(shí)以及hsv和lbp特征作為輸入來訓(xùn)練分類器)。
來自深網(wǎng)絡(luò)的所學(xué)習(xí)的特征可以與(例如預(yù)先編程的或人工地設(shè)計(jì)的)其它手動(dòng)設(shè)計(jì)的特征組合,以改進(jìn)性能。例如,采用3dhaar特征以在器官檢測任務(wù)中快速地消除容易的候選。從深網(wǎng)絡(luò)學(xué)習(xí)的特征可以被用在隨后階段中,以剪除不能通過haar特征檢測的困難候選。這種混合方法可以改進(jìn)檢測算法的速度和準(zhǔn)確度這兩者。
與傳統(tǒng)方法相比,使用深網(wǎng)絡(luò)可能是相對處理密集的。為了減少處理,對于動(dòng)作42-48而言,傳統(tǒng)方法可以與以下所使用的深網(wǎng)絡(luò)方法組合。在動(dòng)作41中,利用預(yù)先編程的特征來消除用于對象的匹配的候選。例如,hsv直方圖和/或lbp以及對應(yīng)的分類器用于排除并非是匹配的一個(gè)或多個(gè)圖像。在圖2的頂部行示例中,可以利用預(yù)先編程的特征使用機(jī)器訓(xùn)練的分類器將頂部行的第三、第五和第六圖像確定為并非是匹配。在圖2的底部行示例中,可以利用預(yù)先編程的特征使用機(jī)器訓(xùn)練的分類器將底部行的第三圖像確定為并非是匹配。在其它示例中,候選全都處于同一圖像中。在醫(yī)學(xué)環(huán)境中,haar小波特征可以被用于標(biāo)識圖像的并非為對象的區(qū)域。
作為消除的結(jié)果,深網(wǎng)絡(luò)具有更少的候選來應(yīng)用。在訓(xùn)練的情形中,傳統(tǒng)方法可以被用于減少訓(xùn)練數(shù)據(jù)或圖像。通過另一方法使用將通過的或未被消除的圖像來訓(xùn)練深網(wǎng)絡(luò)。動(dòng)作48的優(yōu)化在消除之后使用其余候選。
消除可以被構(gòu)建到深網(wǎng)絡(luò)中。來自早前的層(諸如初始層)的特征被用于剪除候選,從而針對這些候選的處理不對稍后的或更深的層造成負(fù)擔(dān)。更早前的層的特征對于用于在檢測問題中快速剪除容易的候選的計(jì)算可能是更快的。
在動(dòng)作42中,圖像中的每一個(gè)被劃分為子區(qū)域??梢允褂萌魏未笮?、形狀和/或數(shù)量的子區(qū)域。給定的圖像的各子區(qū)域是相同的大小和形狀的,或可以具有不同的大小和形狀。例如,圖像的中心(例如在醫(yī)學(xué)上的)或其它部分(例如人的剪修圖像的上部中心)可能更有可能包括對象或關(guān)注的對象的部分,從而更小或更大的子區(qū)域形成在圖像的該部分處。各子區(qū)域是相互排斥的,但是可以提供某種重疊。
圖3示出劃分圖像70的一個(gè)示例。給定的圖像被劃分為六個(gè)矩形局部部分。局部用于指示小于全部或并非全局的。局部部分要被分離地處置。針對每個(gè)局部部分獨(dú)立于來自其它局部部分的信息而學(xué)習(xí)至少一些特征。在替換的實(shí)施例中,不劃分圖像。相反地,圖像被作為整體來使用,或者從全局圖像學(xué)習(xí)特征。
在動(dòng)作44中,定義深網(wǎng)絡(luò)。定義是通過對學(xué)習(xí)的配置或編程來進(jìn)行的。層的數(shù)量、學(xué)習(xí)的類型以及網(wǎng)絡(luò)的其它特性由編程者或用戶控制。在其它實(shí)施例中,在學(xué)習(xí)期間由機(jī)器定義并且選擇一個(gè)或多個(gè)方面(例如節(jié)點(diǎn)的數(shù)量、層的數(shù)量或?qū)W習(xí)的類型)。在圖3的示例中,深架構(gòu)具有五個(gè)層,不包括聚合器。可以提供任何數(shù)量的層(諸如兩個(gè)、三個(gè)、四個(gè)或更多)。
多層特征學(xué)習(xí)網(wǎng)絡(luò)被定義為多個(gè)順序特征層。順序用于指示作為對下一層的輸入的可視圖像的一般流動(dòng),其中,來自該下一層的信息被饋送到下一層,并且依此類推直到輸出。例如,在圖3中,來自第一順序特征層72的輸出是饋送到第二順序特征層74的特征,來自第二順序特征層74的輸出是饋送到第三順序特征層76的第二特征,第三順序特征層76的輸出是饋送到第四順序特征層78的第三特征,并且第四順序特征層78的輸出是饋送到第五順序特征層80的第四特征。該處理繼續(xù),直到網(wǎng)絡(luò)到達(dá)想要的深度。所定義的層的數(shù)量可以基于試錯(cuò)。
各層可以僅前向饋送,或可以是雙向的,包括對先前的層的某種反饋。每個(gè)層的節(jié)點(diǎn)可以與先前的層或隨后的層的所有節(jié)點(diǎn)或僅節(jié)點(diǎn)的子集連接。
在層72-80內(nèi),提供任何數(shù)量的節(jié)點(diǎn)。例如,提供100個(gè)節(jié)點(diǎn)。可以針對不同的層72-80提供不同數(shù)量的節(jié)點(diǎn)(諸如層72的塊中的每一個(gè)中的10個(gè)節(jié)點(diǎn)、用于層74和76的100個(gè)節(jié)點(diǎn)、以及用于層78和80的更少的節(jié)點(diǎn))。稍后的或隨后的層可以具有更多、更少或相同數(shù)量的節(jié)點(diǎn)。一般而言,隨后的層具有更高抽象。例如,第一層提供來自圖像的特征,諸如一個(gè)節(jié)點(diǎn)或特征是圖像中所發(fā)現(xiàn)的線條。下一層組合線條,從而節(jié)點(diǎn)中的一個(gè)是角。下一層可以組合來自先前的層的特征(諸如角和線條的長度),從而節(jié)點(diǎn)提供形狀或構(gòu)建指示。
在重新標(biāo)識示例中,替代直接從低級特征尋找分級函數(shù),將低級特征用于預(yù)測稱為“屬性”的更高級的或更抽象的特征。屬性的示例是頭發(fā)顏色、襯衫顏色、性別、褲子、裙子、包或其它。所預(yù)測的屬性標(biāo)注被用于檢索主體的有關(guān)實(shí)例。例如,“尋找具有金色頭發(fā)和深色襯衫的人”。屬性可以導(dǎo)致更好的性能和如下的更直觀的檢索系統(tǒng):人類可以對該系統(tǒng)提供直接的輸入或詢問。作為特征的屬性是抽象的,并且其可以并不清楚什么低級特征(例如hsv色彩直方圖或lbp)對于屬性(如性別)是有關(guān)的。
定義深架構(gòu)以學(xué)習(xí)在不同抽象水平上的特征,而不是對特征預(yù)先編程或嘗試使特征與屬性相關(guān)。學(xué)習(xí)特征以重構(gòu)更低級的特征。例如,學(xué)習(xí)用于重構(gòu)圖像的特征。對于下一層而言,學(xué)習(xí)用于重構(gòu)先前的層的特征的特征,提供更高抽象。
深架構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)或深信念網(wǎng)絡(luò)(dbn),但可以使用其它深網(wǎng)絡(luò)。cnn學(xué)習(xí)前饋映射函數(shù),而dbn學(xué)習(xí)數(shù)據(jù)的生成模型。此外,cnn針對所有局部區(qū)域使用共享權(quán)重,而dbn是全連接網(wǎng)絡(luò)(即,針對圖像的所有區(qū)域具有不同的權(quán)重)。cnn的訓(xùn)練是通過向后傳播而是完全區(qū)分的。另一方面,dbn采用逐層的無監(jiān)測訓(xùn)練(例如,預(yù)先訓(xùn)練),后隨有具有向后傳播的區(qū)分細(xì)化(如果必要的話)。
層的每個(gè)節(jié)點(diǎn)表示特征。提供不同的節(jié)點(diǎn)以用于學(xué)習(xí)不同的特征??梢允褂萌魏螖?shù)量的節(jié)點(diǎn)。在圖3的示例中,每個(gè)框或?qū)?2-80一般表示多個(gè)節(jié)點(diǎn)。
機(jī)器使用任何構(gòu)建塊來學(xué)習(xí)節(jié)點(diǎn)的特征。例如,使用自動(dòng)編碼器(ae)或受限制的玻爾茲曼機(jī)(rbm)。圖3示出針對每個(gè)層72-80使用ae。ae線性地變換數(shù)據(jù),并且然后應(yīng)用非線性校正(如s形函數(shù))。ae的目標(biāo)函數(shù)是輸入圖像與使用所學(xué)習(xí)的特征的所重構(gòu)的圖像之間的期望均方差??梢允褂秒S機(jī)梯度下降或其它方法來訓(xùn)練ae,以通過機(jī)器學(xué)習(xí)導(dǎo)致最佳重構(gòu)的特征。
rbm的目標(biāo)函數(shù)是能量函數(shù)。精確計(jì)算與rbm關(guān)聯(lián)的似然率項(xiàng)是棘手的。因此,近似算法(諸如基于k步gibb采樣的對比散度或其它)被用于訓(xùn)練rbm以從特征重構(gòu)圖像。
對于高維輸入數(shù)據(jù)而言ae或rbm的訓(xùn)練傾向于過度擬合。采用稀疏性或降噪技術(shù)(例如稀疏降噪ae(sdae))以約束參數(shù)的自由度,并且強(qiáng)制學(xué)習(xí)數(shù)據(jù)內(nèi)的關(guān)注結(jié)構(gòu)。添加噪聲以訓(xùn)練圖像并且要求網(wǎng)絡(luò)重構(gòu)無噪聲圖像可以防止過度擬合。在隱藏層內(nèi)強(qiáng)制稀疏性(即,僅同時(shí)地激活隱藏層中的少數(shù)量的單元)也可以調(diào)整網(wǎng)絡(luò)。
圖3示出多層特征學(xué)習(xí)和聚合的網(wǎng)絡(luò)架構(gòu)的一個(gè)示例定義。在該示例中,網(wǎng)絡(luò)的框架是用于從原始輸入圖像自動(dòng)化地構(gòu)造有用的特征的深架構(gòu)。網(wǎng)絡(luò)使用局部到全局方法,其中,初始層72具有用于獨(dú)立地學(xué)習(xí)用于局部區(qū)域的特征的分離的塊,并且稍后的層74-80全局地對針對整個(gè)圖像70的特征進(jìn)行操作。第一順序特征層72被定義為用于圖像70的相應(yīng)的子區(qū)域的分離的局部特征學(xué)習(xí)器(例如ae的塊)。提供層72中的六個(gè)這樣的子區(qū)域以及對應(yīng)的六個(gè)分離地學(xué)習(xí)的或訓(xùn)練的節(jié)點(diǎn)或特征的集合。例如,圖像被劃分為多個(gè)16×16像素片塊。空間劃分有助于在利用大圖像的學(xué)習(xí)中減少計(jì)算負(fù)擔(dān)。例如,與全連接網(wǎng)絡(luò)(即,第一層是全局的)相比,自由變量的數(shù)量減少至少于十分之一。學(xué)習(xí)具有m個(gè)隱藏單元或節(jié)點(diǎn)(例如m=100)的稀疏降噪自動(dòng)編碼器(sdae)(即具有稀疏性和降噪正規(guī)化子的自動(dòng)編碼器)得以學(xué)習(xí),以良好地重構(gòu)每個(gè)區(qū)域。針對不同的局部區(qū)域?qū)W習(xí)不同濾波器??梢允褂闷渌鼣?shù)量的子區(qū)域和隱藏節(jié)點(diǎn)。
可以提供使用局部劃分的任何數(shù)量的層。圖3示出具有局部特征學(xué)習(xí)的僅一個(gè)層72。其它層(諸如第二層74)被定義為全局特征學(xué)習(xí)器,以用于從分離的局部特征學(xué)習(xí)器的輸出學(xué)習(xí)用于各圖像的整體的特征。例如,來自層72的所有局部sdae的輸出被聚合,并且被饋送到第二層74中的sdae。來自第二層74的輸出被饋送到第三層76中的另一sdae。在替換的實(shí)施例中,不使用局部到全局方法。
在圖1的動(dòng)作46中,提供聚合器層82。該聚合器層被定義為深網(wǎng)絡(luò)的部分,或者在對網(wǎng)絡(luò)進(jìn)行定義當(dāng)中被分離地處理。聚合器層82使用特征以進(jìn)行分類或檢測而不是提供重構(gòu)以學(xué)習(xí)特征。聚合器層82是終止特征學(xué)習(xí)網(wǎng)絡(luò)的分類器。例如,聚合器層82是概率提升樹、支撐矢量機(jī)或其它機(jī)器學(xué)習(xí)分類器。其它分類器可以包括單類或二元分類器、不同分類器的集合、級聯(lián)分類器、層級分類器、多類分類器、基于模型的分類器、基于機(jī)器學(xué)習(xí)的分類器,或者可以使用它們的組合。多類分類器包括cart、k最近鄰、神經(jīng)網(wǎng)絡(luò)(例如多層感知)、混合模型或其它??梢允褂眉m錯(cuò)輸出碼(ecoc)。
聚合器層82從多個(gè)特征層的節(jié)點(diǎn)接收特征。聚合器層82的輸入矢量包括直接來自多個(gè)不同層74-80的所有或一些特征以及對應(yīng)的抽象水平,而不是利用最抽象層80的特征進(jìn)行工作。例如,來自最后兩個(gè)、三個(gè)或四個(gè)層的特征被聚合。在圖3的示例中,聚合器層82從層74-80接收所有特征或節(jié)點(diǎn)輸出。在替換的實(shí)施例中,來自更少或更多的層72-80的特征被聚合。在其它替換的實(shí)施例中,使用比來自給定層的所有特征或節(jié)點(diǎn)輸出更少的特征或節(jié)點(diǎn)輸出,諸如其中特征并非是類或檢測的確定而是用于確定隨后的層的特征。
在圖1的動(dòng)作48中,使用對象的圖像來對多層特征學(xué)習(xí)網(wǎng)絡(luò)和聚合器層一起進(jìn)行訓(xùn)練。執(zhí)行機(jī)器學(xué)習(xí)以使用所定義的深架構(gòu)來訓(xùn)練各個(gè)層72-82。學(xué)習(xí)確定性的或允許重構(gòu)輸入的特征。類似地,學(xué)習(xí)提供由聚合器層82實(shí)現(xiàn)的檢測器的想要的結(jié)果或分類的特征。還學(xué)習(xí)分類器。
為了進(jìn)行訓(xùn)練以一起工作,聯(lián)合地優(yōu)化多層特征學(xué)習(xí)網(wǎng)絡(luò)和聚合器層的分類器。與用于分類的基本事實(shí)以及針對用于特征學(xué)習(xí)網(wǎng)絡(luò)的重構(gòu)的錯(cuò)誤有關(guān)的結(jié)果被向后投射,以對哪些特征工作得最佳進(jìn)行訓(xùn)練。使用從聚合器層82到特征層74-80中的多個(gè)層的向后投射以及各順序?qū)又g的向后投射(例如,80到78、78到76、76到74、以及74到72)造成與用于輸入圖像70的基本事實(shí)有關(guān)的所學(xué)習(xí)的特征或節(jié)點(diǎn)和分類器的細(xì)化。在訓(xùn)練中,網(wǎng)絡(luò)不僅將梯度從最后的層傳播到先前的層,而且還傳播到與聚合器層82連接的所有中間層,聯(lián)合地優(yōu)化整個(gè)網(wǎng)絡(luò)。聯(lián)合優(yōu)化造成分類器和特征學(xué)習(xí)網(wǎng)絡(luò)被一起訓(xùn)練以最佳地檢測對象(諸如,檢測對象的一個(gè)或多個(gè)特性)。
還可能的是連同學(xué)習(xí)分類器(諸如,連同學(xué)習(xí)屬性分類器)一起使用向后傳播來精細(xì)調(diào)諧網(wǎng)絡(luò)。例如,重構(gòu)錯(cuò)誤被用于向后投射,以用于訓(xùn)練用以在層72-80中進(jìn)行檢測的特征。然后利用或不利用其它層72-80的特征的細(xì)化來訓(xùn)練聚合器層82。所學(xué)習(xí)的特征被用于訓(xùn)練聚合器層82的一個(gè)或多個(gè)分類器。
在優(yōu)化期間,學(xué)習(xí)不同的區(qū)分特征。在圖3的示例中,機(jī)器訓(xùn)練特征節(jié)點(diǎn)的塊以重構(gòu)圖像的局部部分。機(jī)器還訓(xùn)練屬性節(jié)點(diǎn)的塊以重構(gòu)特征節(jié)點(diǎn),并且訓(xùn)練其它屬性節(jié)點(diǎn)的塊,以重構(gòu)先前的屬性節(jié)點(diǎn)。機(jī)器還諸如通過利用概率提升樹或支撐矢量機(jī)進(jìn)行訓(xùn)練來學(xué)習(xí)聚合器層的映射函數(shù)。特征聚合器被訓(xùn)練以使用來自多個(gè)其它層的特征作為輸入來對對象進(jìn)行分類。映射函數(shù)的訓(xùn)練與用于檢測的所有輸入特征或輸入特征的子集有關(guān)。例如,聚合器層學(xué)習(xí)映射函數(shù),以從來自多層特征學(xué)習(xí)網(wǎng)絡(luò)的多個(gè)層的節(jié)點(diǎn)的特征的任何組合預(yù)測21個(gè)屬性。學(xué)習(xí)可以僅指示來自要被用于分類的不同節(jié)點(diǎn)的特征的子集。
在動(dòng)作50中,輸出所學(xué)習(xí)的特征和檢測器。所學(xué)習(xí)的特征由被優(yōu)化的多層特征學(xué)習(xí)網(wǎng)絡(luò)表示。單獨(dú)的特征的集合形成用于將對象與其它對象進(jìn)行區(qū)分的特征或特征集合?;趶膱D像重構(gòu)對象而提供特征作為不同的抽象水平上的特征層的節(jié)點(diǎn)。節(jié)點(diǎn)定義被訓(xùn)練以提取特征的處理。
檢測器是用于對對象進(jìn)行分類的分類器。使用輸出特征,檢測器檢測對象的特性或?qū)傩浴@?,在人重新?biāo)識實(shí)施例中,輸出檢測器提供用于21個(gè)屬性的標(biāo)注。屬性是用于檢測匹配的特征。標(biāo)注可以是二元的(例如,對于屬性而言,“是”或“否”)或被分級的(諸如1-10的大?。L鎿Q地,檢測器對來自一個(gè)圖像的輸入人是否為另一圖像中的同一人進(jìn)行分類。檢測器可以使用來自早前的層的特征,以在檢測處理期間快速地拒絕不可能的候選。
一旦被訓(xùn)練,就輸出矩陣。矩陣表示用于特征和檢測器的所學(xué)習(xí)的算法。替換地,分離的矩陣被用于任何節(jié)點(diǎn)、層、網(wǎng)絡(luò)和/或檢測器。
當(dāng)新的傳感器被添加到系統(tǒng)(諸如,攝像機(jī)被添加到安全或居住監(jiān)控系統(tǒng))時(shí),用以使用的特征以及檢測器被訓(xùn)練,以用于與該攝像機(jī)一起使用。當(dāng)開發(fā)了新的類型的傳感器時(shí),可以從來自傳感器數(shù)據(jù)的該新的類型的傳感器訓(xùn)練特征和檢測。在其它實(shí)施例中,針對任何給定的匹配或檢測情況執(zhí)行訓(xùn)練。例如,在重新標(biāo)識中,要定位在其它圖像中的人的一個(gè)或多個(gè)圖像被用于學(xué)習(xí)特征并且訓(xùn)練檢測器。其它圖像可以于是被用于確定匹配與否。隨著人被定位,針對該人來具體地訓(xùn)練特征和檢測器。
一旦學(xué)習(xí)了特征并且訓(xùn)練了檢測器,就可以應(yīng)用特征和檢測器。定義一個(gè)或多個(gè)特征的矩陣被用于從輸入圖像進(jìn)行提取。檢測器使用來自圖像的所提取的特征,以將輸入圖像分類為表示對象或不表示對象。輸出可以是二元的“是/否”或者為是同一人的概率。輸出可以用于不同的屬性而非匹配或不匹配??梢蕴峁┲T如與替換的值關(guān)聯(lián)的概率或其它信息。
圖4是對象檢測應(yīng)用的一個(gè)實(shí)施例的流程圖。相同的處理器或不同的處理器應(yīng)用所學(xué)習(xí)的特征和檢測器。例如,一個(gè)或多個(gè)矩陣被傳送到另一處理器以用于該處理器進(jìn)行應(yīng)用。
在動(dòng)作54中,處理器接收對象的一個(gè)或多個(gè)圖像。圖像可以包括相同的對象或不同的對象。應(yīng)用用來確定對象或?qū)ο蟮奶匦允欠裣嗤?。從傳感器接收圖像作為可視信息。對于其它類型的傳感器而言,信息可以是數(shù)據(jù)而非圖像。
在動(dòng)作56中,在利用深網(wǎng)絡(luò)的隱藏特征進(jìn)行檢測之前,處理器利用預(yù)先編程的特征來限制候選。例如,處理器使用haar、hsv色彩直方圖、lbp、梯度和/或其它信息來應(yīng)用一個(gè)或多個(gè)分類器以確定每個(gè)圖像是否為對象,或確定圖像的不同部分是否為對象。然后可以僅對于其余的候選(例如圖像和/或圖像的部分)應(yīng)用所學(xué)習(xí)的多層網(wǎng)絡(luò)和分類器。
在動(dòng)作58中,使用深網(wǎng)絡(luò)的隱藏特征來檢測輸入圖像或圖像的部分是否表示對象。例如,所訓(xùn)練的ae或rbm塊被應(yīng)用于適當(dāng)?shù)妮斎?,以提取對?yīng)的特征。隱藏特征是從多層網(wǎng)絡(luò)中的不同的抽象層學(xué)習(xí)的特征節(jié)點(diǎn)。使用所學(xué)習(xí)的變換、非線性修正、能量函數(shù)或其它函數(shù),從圖像提取一個(gè)或多個(gè)輸入圖像的特征??梢允褂脤咏Y(jié)構(gòu)從那些所提取的特征提取其它更抽象的特征。取決于層的數(shù)量,從先前的層的特征提取其它特征。特征是表示相似性的量(諸如是對象中的特征的概率)的值(諸如二進(jìn)制值、整數(shù)值或分?jǐn)?shù)值)。
在一個(gè)實(shí)施例中,檢測包括針對圖像的不同子部分使用分離的隱藏特征。提取局部或子區(qū)域特定特征??梢蕴崛∈褂盟崛〉木植刻卣鞯钠渌卣鳎ɡ缛痔卣鳎?。
檢測使用來自不同的層的所提取的特征作為對聚合器的機(jī)器學(xué)習(xí)分類器的特征矢量或輸入。來自不同層的隱藏特征被聚合為對機(jī)器學(xué)習(xí)分類器的輸入特征矢量。分類器然后輸出檢測(諸如圖像是否為匹配、匹配的概率(例如人具有長袖襯衫的88%概率)、或者對象或?qū)ο蟮奶匦缘钠渌甘痉?/p>
在動(dòng)作60中,輸出檢測。輸出結(jié)果或所檢測的信息。例如,輸出是否存在匹配。作為另一示例,輸出針對一個(gè)或多個(gè)屬性的匹配的概率。可以針對對象或?qū)ο蟮牟糠州敵鋈魏涡畔⒒蚍诸?。例如,輸出針對很多(例?0個(gè)或更多個(gè))屬性的匹配的概率。
輸出是對于圖像的。例如,同時(shí)顯示基本事實(shí)圖像以及檢測所應(yīng)用于的圖像。檢測的結(jié)果指示是否存在匹配或其它檢測。在圖2的示例中,任何匹配的圖像被突出顯示(諸如被圍繞圖像放置的框)。在其它示例中,以不同的方式突出顯示匹配的屬性和/或突出顯示非匹配的屬性。
在用于重新標(biāo)識的訓(xùn)練和應(yīng)用的一個(gè)示例中,與使用hsv色彩直方圖和lbp的機(jī)器學(xué)習(xí)方法相比,使用來自分類器中的不同層的特征的局部到全局特征學(xué)習(xí)和聚合改進(jìn)屬性分類。viper數(shù)據(jù)集具有632個(gè)主體,從不同的視點(diǎn)來看,主體的每一個(gè)具有兩個(gè)圖像。利用具有第一層中的32個(gè)局部區(qū)域、來自3個(gè)最后的層的5個(gè)sdae塊以及聚合的l個(gè)層(例如,l=5,網(wǎng)絡(luò)大小18432-4800-3000-500-200-42)來定義網(wǎng)絡(luò)。使用來自深網(wǎng)絡(luò)的所學(xué)習(xí)的特征,級別-1檢索結(jié)果內(nèi)的34.2%的準(zhǔn)確度與使用級別提升方法(該方法使用hsv直方圖和lbp)的當(dāng)前現(xiàn)有技術(shù)狀況的15.2%比較。與現(xiàn)有技術(shù)狀況的40.6%和53.3%相比,級別-5和級別-10結(jié)果分別是52.1%和63.3%。
圖5示出針對不同方法的分級性能的比較,其中sae屬性和cnn屬性對應(yīng)于如下的多層特征聚合網(wǎng)絡(luò)的性能:所述網(wǎng)絡(luò)的構(gòu)建塊是sae和cnn,所述網(wǎng)絡(luò)針對人標(biāo)識任務(wù)使用添加有中間的所學(xué)習(xí)特征的屬性分類輸出。lbp-hsv-efm是現(xiàn)有技術(shù)方法的狀況,現(xiàn)有技術(shù)方法使用具有局部二元模式、色彩直方圖以及顯式特征映射技術(shù)的組合的級別提升算法。pca對應(yīng)于與支持矢量分級方法組合來使用主分量分析以產(chǎn)生特征。sae是在對于人重新標(biāo)識而言不使用屬性分類輸出的情況下的針對多層特征聚合網(wǎng)絡(luò)的結(jié)果。
可以僅使用最后的層的輸出作為用于分類器的輸入特征來執(zhí)行同一人重新標(biāo)識實(shí)驗(yàn)。與多層特征聚合相比,針對級別-1、級別-5以及級別-10準(zhǔn)確度分別下降到27.4%、49.4%以及58.2%。中間層的特征聚合可以一致地改進(jìn)性能。
在上面的一些示例中使用sdae。相同的網(wǎng)絡(luò)定義可以被用于從l個(gè)層(例如,l=5,網(wǎng)絡(luò)配置是5×5濾波器->2×2池化->5×5濾波器->3×3池化->21個(gè)輸出)的cnn網(wǎng)絡(luò)構(gòu)造特征。來自最后3個(gè)層的特征被聚合。針對級別-1、級別-5和級別-10結(jié)果準(zhǔn)確度可以是20.9%、46.8%以及61.8%。
在另一示例中,對比于hsv和lbp特征而使用所學(xué)習(xí)的特征的屬性分類執(zhí)行得更好。例如,在關(guān)于三個(gè)屬性“深色襯衫”、“深色底部”以及“男性”的級別提升方法的情況下,與hsv直方圖和lbp特征的20.5%、32.7%和46%相比,針對利用深網(wǎng)絡(luò)中的層聚合的局部到全局的錯(cuò)誤率分別是16%、27%和39.5%。
圖6示出用于人重新標(biāo)識中的對象檢測的系統(tǒng)。系統(tǒng)是主機(jī)計(jì)算機(jī)、控制站、工作站、服務(wù)器或用于人重新標(biāo)識的其它布置。系統(tǒng)包括顯示器14、存儲器16以及處理器18??梢蕴峁└郊拥?、不同的或更少的組件。系統(tǒng)用于訓(xùn)練,諸如使用來自監(jiān)測系統(tǒng)11的圖像作為基本事實(shí)。替換地,系統(tǒng)用于所學(xué)習(xí)的特征和分類器的應(yīng)用。在其它實(shí)施例中,監(jiān)測系統(tǒng)11和攝像機(jī)10被醫(yī)學(xué)成像器或其它傳感器替代。
顯示器14、處理器18和存儲器16可以是用于對來自視頻監(jiān)測系統(tǒng)11的攝像機(jī)10的圖像進(jìn)行圖像處理的計(jì)算機(jī)、服務(wù)器或其它系統(tǒng)的部分??梢允褂糜糜谙到y(tǒng)11的工作站或控制站。替換地,使用并非為視頻監(jiān)測系統(tǒng)11的部分的分離的或遠(yuǎn)程的設(shè)備。替代地,遠(yuǎn)程地執(zhí)行重新標(biāo)識。
在一個(gè)實(shí)施例中,處理器18和存儲器16是管控用于由作為客戶機(jī)的監(jiān)測系統(tǒng)11使用的重新標(biāo)識功能的服務(wù)器的部分。客戶機(jī)和服務(wù)器通過網(wǎng)絡(luò)(諸如內(nèi)聯(lián)網(wǎng)或互聯(lián)網(wǎng))互連??蛻魴C(jī)可以是視頻監(jiān)測系統(tǒng)11的計(jì)算機(jī),并且服務(wù)器可以由視頻監(jiān)測系統(tǒng)11的制造商、提供商、主機(jī)或創(chuàng)建者提供。
視頻監(jiān)測系統(tǒng)11包括多個(gè)攝像機(jī)10。攝像機(jī)被遍布于區(qū)域(諸如建筑、建筑的樓層、倉庫、校園、綜合樓、室外區(qū)域、表演場、機(jī)場、交通區(qū)域、樞紐、城市或隧道系統(tǒng))而分布。攝像機(jī)10被安裝并且連接到通信網(wǎng)絡(luò)。每個(gè)攝像機(jī)10捕獲區(qū)域的場景。視頻攝像機(jī)10可以遵循開放網(wǎng)絡(luò)視頻接口論壇(onvif)規(guī)范。攝像機(jī)視頻流被耦合到視頻處理單元,視頻處理單元被耦合到視頻存儲體以及視頻內(nèi)容分析(vca)模塊。vca模塊將加時(shí)間戳的視頻數(shù)據(jù)和元數(shù)據(jù)輸出到它們的相應(yīng)的存儲體。vca模塊根據(jù)算法來生成并且輸出元數(shù)據(jù)。視頻和元數(shù)據(jù)存儲體可以被實(shí)現(xiàn)為數(shù)字視頻記錄器(dvr)或網(wǎng)絡(luò)視頻記錄器(nvr),以用于存儲并且回放。對視頻數(shù)據(jù)進(jìn)行編碼并且存儲??梢耘c視頻一起存儲基于流的元數(shù)據(jù)??梢蕴峁┯糜谝曨l監(jiān)測的其它布置(諸如規(guī)則地捕獲靜止圖像而非視頻)。
顯示器14是crt、lcd、投影儀、等離子體、打印機(jī)、智能電話或其它現(xiàn)在已知的或稍后開發(fā)的顯示設(shè)備,以用于顯示圖像、屬性、重新標(biāo)識和/或?qū)ο髾z測信息。例如,顯示器14顯示兩個(gè)圖像、關(guān)于用于圖像的攝像機(jī)位置的信息、以及同一人是否處于這兩個(gè)圖像中的指示。顯示器14協(xié)助確認(rèn)匹配或重新標(biāo)識??梢蕴娲鼗蚋郊拥仫@示屬性信息。在訓(xùn)練環(huán)境中,顯示可以是網(wǎng)絡(luò)定義、特征信息、向后投射信息、聯(lián)合優(yōu)化信息或其它訓(xùn)練信息。
指令、網(wǎng)絡(luò)定義、特征、分類器、矩陣、輸出和/或其它信息存儲在非暫態(tài)計(jì)算機(jī)可讀存儲器(諸如存儲器16)中。存儲器16是外部存儲設(shè)備、ram、rom、數(shù)據(jù)庫和/或本地存儲器(例如固態(tài)驅(qū)動(dòng)器或硬驅(qū)動(dòng)器)。相同或不同的非暫態(tài)計(jì)算機(jī)可讀介質(zhì)可以被用于指令和其它數(shù)據(jù)??梢允褂糜商幚砥?8管理的并且駐留在存儲器(諸如硬盤、ram或可拆卸介質(zhì))上的數(shù)據(jù)庫管理系統(tǒng)(dbms)來實(shí)現(xiàn)存儲器16。替換地,存儲器16處于處理器18內(nèi)部(諸如緩存)。
在非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)或存儲器(諸如緩存、緩沖器、ram、可拆卸介質(zhì)、硬驅(qū)動(dòng)器或其它計(jì)算機(jī)可讀存儲介質(zhì)(諸如存儲器16))上提供用于實(shí)現(xiàn)在此所討論的訓(xùn)練或應(yīng)用處理、方法和/或技術(shù)中的對象檢測的指令。計(jì)算機(jī)可讀存儲介質(zhì)包括各種類型的易失性和非易失性存儲介質(zhì)。響應(yīng)于在計(jì)算機(jī)可讀存儲介質(zhì)之中或之上存儲的一個(gè)或多個(gè)指令集而執(zhí)行各圖中所圖解或在此所描述的功能、動(dòng)作或任務(wù)。功能、動(dòng)作或任務(wù)獨(dú)立于特定類型的指令集、存儲介質(zhì)、處理器或處理策略,并且可以由單獨(dú)地或組合地操作的軟件、硬件、集成電路、固件、和微代碼等執(zhí)行。
在一個(gè)實(shí)施例中,指令被存儲在可拆卸介質(zhì)設(shè)備上以用于由本地或遠(yuǎn)程系統(tǒng)讀取。在其它實(shí)施例中,指令被存儲在遠(yuǎn)程位置中以用于通過計(jì)算機(jī)網(wǎng)絡(luò)傳送。在又一實(shí)施例中,指令被存儲在給定的計(jì)算機(jī)、cpu、gpu或系統(tǒng)內(nèi)。因?yàn)殡S附各圖中所描繪的構(gòu)成系統(tǒng)組件和方法步驟中的一些可以被實(shí)現(xiàn)在軟件中,所以各系統(tǒng)組件(或處理步驟)之間的實(shí)際連接可以取決于對本實(shí)施例進(jìn)行編程的方式而不同。
程序可以被加載到包括任何合適的架構(gòu)的處理器18中并且由該處理器18執(zhí)行。類似地,處理策略可以包括多處理、多任務(wù)和并行處理等。在具有硬件(諸如一個(gè)或多個(gè)中央處理單元(cpu)、隨機(jī)存取存儲器(ram)和(多個(gè))輸入/輸出(i/o)接口)的計(jì)算機(jī)平臺上實(shí)現(xiàn)處理器18。計(jì)算機(jī)平臺還包括操作系統(tǒng)和微指令代碼。在此所描述的各種處理和功能可以是經(jīng)由操作系統(tǒng)執(zhí)行的微指令代碼的一部分或程序的一部分(或其組合)。替換地,處理器18是網(wǎng)絡(luò)中的一個(gè)或多個(gè)處理器。
處理器18被配置為獲得圖像。圖像可以是視場或從視場剪切出的人。處理器18可以執(zhí)行剪切。圖像的區(qū)域或劃分可以由處理器18描畫。
處理器18被配置為學(xué)習(xí)特征或提取所學(xué)習(xí)的特征。例如,多層特征學(xué)習(xí)網(wǎng)絡(luò)被定義并且被用于學(xué)習(xí)特征以重新標(biāo)識人。在不同的層處學(xué)習(xí)特征。在一個(gè)實(shí)施例中,學(xué)習(xí)局部特征和全局特征。可以通過應(yīng)用所學(xué)習(xí)的處理來提取所學(xué)習(xí)的特征。
處理器18被配置為基于所學(xué)習(xí)的特征而進(jìn)行分類。輸入特征以進(jìn)行學(xué)習(xí),以對輸入圖像進(jìn)行分類。使用基本事實(shí)和聯(lián)合優(yōu)化,利用對特征的學(xué)習(xí)來學(xué)習(xí)分類器。對于應(yīng)用而言,處理器18基于所輸入的所學(xué)習(xí)的特征來確定機(jī)器學(xué)習(xí)分類器的輸出。
可以一起地或分離地使用在此所描述的各種改進(jìn)。雖然已經(jīng)參照隨附附圖在此描述了本發(fā)明的說明性的實(shí)施例,但是要理解的是,本發(fā)明不限制于這些精確實(shí)施例,并且在不脫離本發(fā)明的范圍或精神的情況下,本領(lǐng)域技術(shù)人員可以在其中實(shí)行各種其它改變和修改。