国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      應(yīng)用到道路場景圖像的低保真分類器和高保真分類器的制作方法

      文檔序號(hào):11678133閱讀:505來源:國知局
      應(yīng)用到道路場景圖像的低保真分類器和高保真分類器的制造方法與工藝

      本發(fā)明涉及圖像處理系統(tǒng),并且更具體地涉及道路場景圖像的對(duì)象分類、檢測和/或定位的系統(tǒng)。



      背景技術(shù):

      輔助駕駛和自主駕駛技術(shù)的希望和潛力依靠快速和準(zhǔn)確分類、檢測和/或定位迎面而來的對(duì)象和/或周圍對(duì)象的能力。已經(jīng)用于支持提供快速和準(zhǔn)確分類、檢測和/或定位信息的各種技術(shù)包括無線電檢測與測距(雷達(dá))子系統(tǒng)和光檢測與測距(激光雷達(dá))子系統(tǒng)、聲音導(dǎo)航與測距(聲納)子系統(tǒng)以及圖像分析技術(shù)。關(guān)于圖像分析技術(shù),安裝在車輛上的攝像機(jī)可以捕捉用于數(shù)字處理的迎面而來的和/或周圍道路和/或環(huán)境場景的圖像。

      多年來,應(yīng)用于圖像分析的技術(shù)改進(jìn)——例如使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)——在圖像分析的準(zhǔn)確性上取得了令人印象深刻的改進(jìn)。然而,如cnn應(yīng)用的技術(shù)開發(fā)和部署兩者的計(jì)算強(qiáng)度大,在快速和準(zhǔn)確地提供分類、檢測和/或定位信息和/或靈活以及相應(yīng)地改進(jìn)分析技術(shù)的要求方面產(chǎn)生問題。能夠保持準(zhǔn)確性上的改進(jìn)同時(shí)成功控制計(jì)算需求的創(chuàng)新能夠被用于改進(jìn)分析開發(fā)。此外,這樣的創(chuàng)新可以在輔助和自主駕駛方面為提供檢測、分類和/或定位信息和/或在通過其它技術(shù)提供的類似信息中提供冗余和/或填充空白帶來收益。



      技術(shù)實(shí)現(xiàn)要素:

      根據(jù)本發(fā)明的一方面,提供一種系統(tǒng),包含:

      位于處理器集合上的低保真分類器,低保真分類器可操作用于在確定描述被分類對(duì)象的候選區(qū)域時(shí)從跨越圖像的下采樣版本的區(qū)域集合中選擇候選區(qū)域,圖像來自捕捉道路場景的固定于機(jī)動(dòng)車輛上的攝像機(jī);

      位于處理器集合上的高保真分類器,高保真分類器可操作用于驗(yàn)證圖像的高保真版本的小片中的被分類對(duì)象的描述,小片是從候選區(qū)域映射的,其中高保真分類器表明描述。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,其中:

      包含第一卷積神經(jīng)網(wǎng)絡(luò)(cnn)的低保真分類器是利用下采樣訓(xùn)練集合訓(xùn)練的,下采樣訓(xùn)練集合包含對(duì)象圖像的多個(gè)被標(biāo)記的下采樣版本,對(duì)象在表征被分類對(duì)象的類別中,被標(biāo)記的下采樣版本具有與區(qū)域集合中的區(qū)域的尺寸相稱的尺寸;以及

      包含第二cnn的高保真分類器是利用高分辨率訓(xùn)練集合訓(xùn)練的,高分辨率訓(xùn)練集合包含類別中的對(duì)象的圖像的多個(gè)帶標(biāo)記的高保真版本。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含分辨率模塊,分辨率模塊可操作用于產(chǎn)生下采樣訓(xùn)練集合中的下采樣版本,至少一些下采樣版本被下采樣至最低分辨率,在最低分辨率的下采樣版本的熵保持在閾值以上,該閾值是相對(duì)于該類別中的對(duì)象的圖像中的熵所限定的。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含下采樣模塊,下采樣模塊在處理器集合上實(shí)施并且可操作用于以下采樣因子產(chǎn)生來自固定在機(jī)動(dòng)車輛上的攝像機(jī)的圖像的下采樣版本,下采樣因子被確定用于在下采樣版本中保留來自攝像機(jī)的圖像中的熵的預(yù)定百分比。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,其中熵的預(yù)定百分比來自以百分之八十為中心并且在百分之八十以上和以下擴(kuò)展百分之五的范圍。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含:

      窗口模塊,窗口模塊可操作用于:

      針對(duì)區(qū)域集合而從下采樣版本中分離由完全滑過下采樣版本的至少一個(gè)窗口來框定的重疊區(qū)域,并且

      將重疊區(qū)域應(yīng)用到低保真分類器;以及

      映射模塊,映射模塊可操作用于將來自圖像的下采樣版本的候選區(qū)域映射到圖像的高保真版本的小片,以使候選區(qū)域和小片分別在下采樣版本和高保真版本中覆蓋圖像的共有扇區(qū)。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,其中:

      至少一個(gè)窗口包含具有第一尺寸的第一窗口,第一尺寸與第二窗口的第二尺寸不同,第一尺寸和第二尺寸兩者對(duì)應(yīng)于不同的比例,在圖像的下采樣版本中以該比例潛在地描述和檢測類別中的對(duì)象;

      區(qū)域集合包含第一重疊區(qū)域的第一區(qū)域子集合以及第二重疊區(qū)域的第二區(qū)域子集合,第一重疊區(qū)域具有與第一尺寸相稱的尺寸,第二重疊區(qū)域具有與第二尺寸相稱的尺寸;

      下采樣訓(xùn)練集合包含第一下采樣版本的第一下采樣子集合以及具有第二下采樣版本的第二下采樣子集合,第一下采樣版本具有與第一尺寸相稱的尺寸,第二下采樣版本具有與第二尺寸相稱的尺寸。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含:

      成像子系統(tǒng),成像子系統(tǒng)包含雷達(dá)檢測與測距(radar)子系統(tǒng)和光檢測與測距(lidar)子系統(tǒng)中的至少一個(gè);以及

      多級(jí)圖像分類系統(tǒng),多級(jí)圖像分類系統(tǒng)包含攝像機(jī)以及位于處理器集合上的低保真分類器和高保真分類器兩者;以及

      實(shí)施在處理器集合上的聚合模塊,聚合模塊可操作為使低保真分類器應(yīng)用于來自攝像機(jī)的圖像的下采樣版本的全部范圍,與應(yīng)用到區(qū)域集合相同,以提供冗余并且提供通過成像子系統(tǒng)提供的分類信息中缺失的遺漏分類信息。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含:

      圖像隊(duì)列,圖像隊(duì)列可操作用于使攝像機(jī)捕捉的迎面而來的道路場景的一系列圖像順序排隊(duì);

      位于處理器集合內(nèi)的至少一個(gè)圖像處理單元(gpu),至少一個(gè)圖像處理單元實(shí)施低保真分類器和高保真分類器中的至少一種;并且其中

      低保真分類器和高保真分類器兩者的參數(shù)被設(shè)置為相對(duì)于至少一個(gè)圖像處理單元的計(jì)算能力限定低保真分類器和高保真分類器的計(jì)算要求,實(shí)現(xiàn)以提供對(duì)一系列圖像中的分類信息的實(shí)時(shí)訪問的預(yù)定速率處理一系列的圖像。

      根據(jù)本發(fā)明的一方面,提供一種用于對(duì)象分類和定位的方法,包含:

      將圖像下采樣為圖像的下采樣版本;

      提取覆蓋下采樣版本的重疊區(qū)域的集合,重疊區(qū)域通過具有與該區(qū)域的尺寸相等尺寸的滑動(dòng)窗口來限定;

      從重疊區(qū)域集合中選擇潛在區(qū)域,包含第一卷積神經(jīng)網(wǎng)絡(luò)(cnn)的低保真分類器針對(duì)潛在區(qū)域表明對(duì)象存在的概率,對(duì)象屬于低保真分類器的可分類對(duì)象的類別;

      將從下采樣版本中選擇的潛在區(qū)域映射到圖像的高分辨率版本的扇區(qū)中;以及

      通過將扇區(qū)應(yīng)用到包含第二cnn的高保真分類器來確認(rèn)對(duì)象的存在,其中應(yīng)用扇區(qū)表明存在。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含:

      以圖像尺寸的集合來裁剪對(duì)象圖像的集合,根據(jù)檢測類別的集合利用分配給圖像的標(biāo)簽分類圖像集合中的圖像;

      下采樣圖像集合以產(chǎn)生帶標(biāo)簽圖像的下采樣集合;

      利用帶標(biāo)簽圖像的下采樣集合訓(xùn)練低保真分類器;以及

      利用圖像集合和為了訓(xùn)練的目的而選擇的可比圖像中的至少一個(gè)訓(xùn)練高保真分類器。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含:

      收集訓(xùn)練圖像集合,圖像集合描述位于各種位置的行人和包含在圖像集合內(nèi)的環(huán)境;

      并且根據(jù)檢測類別集合中的共有類別標(biāo)記訓(xùn)練集合。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含計(jì)算最大因子,利用最大因子下采樣圖像,以產(chǎn)生下采樣版本,同時(shí)保持下采樣版本中的熵與圖像中的熵的比率位于預(yù)定閾值水平以上。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含針對(duì)至少一個(gè)另外的潛在區(qū)域搜索還未應(yīng)用低保真分類器的重疊區(qū)域集合中的區(qū)域,同時(shí)通過將該扇區(qū)應(yīng)用到高保真分類器來確認(rèn)對(duì)象的存在。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含:

      通過固定到機(jī)動(dòng)車輛的攝像機(jī)以滿足預(yù)定閾值的幀速率捕捉迎面而來的道路場景的一系列圖像;以及

      通過在一系列圖像中的單獨(dú)圖像上以同樣滿足預(yù)定閾值的處理速率應(yīng)用權(quán)利要求10來處理一系列的圖像,預(yù)定閾值為機(jī)動(dòng)車輛的預(yù)定自主響應(yīng)提供足夠的時(shí)間,預(yù)定自主響應(yīng)針對(duì)一系列圖像中的分類信息。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法進(jìn)一步包含:

      從下采樣版本中分離縮放區(qū)域集合,縮放區(qū)域集合中的縮放區(qū)域具有與滑動(dòng)窗口的尺寸不同的尺寸并且與縮放滑動(dòng)窗口的縮放尺寸相稱;

      從縮放區(qū)域集合中選擇縮放區(qū)域,低保真分類器針對(duì)該縮放區(qū)域表明被低保真分類器分類的縮放對(duì)象存在的概率;

      將縮放區(qū)域映射到高分辨率版本的縮放扇區(qū);以及

      通過將縮放扇區(qū)應(yīng)用到高保真分類器來確認(rèn)縮放對(duì)象的存在,其中應(yīng)用縮放扇區(qū)產(chǎn)生存在的概率。

      根據(jù)本發(fā)明的一方面,提供一種圖像分析系統(tǒng),包含:

      位于至少一種存儲(chǔ)介質(zhì)上的至少一個(gè)數(shù)據(jù)庫,至少一個(gè)數(shù)據(jù)庫包含:

      第一數(shù)據(jù)集合,第一數(shù)據(jù)集合包含具有標(biāo)簽集合的標(biāo)簽的裁剪的下采樣圖像;

      第二數(shù)據(jù)集合,第二數(shù)據(jù)集合包含具有標(biāo)簽集合的標(biāo)簽的裁剪的高分辨率圖像;以及

      處理器集合,處理器集合實(shí)施:

      第一卷積神經(jīng)網(wǎng)絡(luò)(cnn),第一卷積神經(jīng)網(wǎng)絡(luò)可操作用于在第一數(shù)據(jù)集合上被訓(xùn)練以與標(biāo)簽集合相關(guān)地分類來自重疊區(qū)塊集合的區(qū)塊,重疊區(qū)塊跨越道路場景圖像的下采樣版本,該區(qū)塊尺寸與下采樣圖像的尺寸相稱;以及

      第二卷積神經(jīng)網(wǎng)絡(luò),第二卷積神經(jīng)網(wǎng)絡(luò)可操作用于在第二數(shù)據(jù)集合上被訓(xùn)練以與標(biāo)簽集合相關(guān)地以高保真度重新分類覆蓋該區(qū)塊的道路場景圖像的區(qū)域。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含分辨率模塊,分辨率模塊可操作用于產(chǎn)生位于第一數(shù)據(jù)集合中的下采樣圖像,第一數(shù)據(jù)集合包含下采樣到極限分辨率的完全下采樣圖像,極限分辨率被計(jì)算為能夠相對(duì)于初始裁剪圖像保持熵的至少預(yù)定百分比的分辨率的下限,對(duì)應(yīng)下采樣圖像是從初始裁剪圖像產(chǎn)生的。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含處理器集合,處理器集合實(shí)施:

      下采樣模塊,下采樣模塊可操作用于將道路場景圖像下采樣為低分辨率的圖像;

      應(yīng)用模塊,應(yīng)用模塊可操作用于:

      通過將低分辨率圖像的重疊區(qū)塊應(yīng)用到低保真分類器來徹底檢查由低分辨率圖像捕捉的全部視野;

      記錄潛在區(qū)塊的集合,低保真分類器在該潛在區(qū)塊內(nèi)標(biāo)識(shí)可根據(jù)標(biāo)簽集合分類的對(duì)象的潛在描述;以及

      確定模塊,確定模塊可操作用于:

      將潛在區(qū)塊集合投射到道路場景圖像的高保真版本上以產(chǎn)生候選區(qū)域集合;以及

      通過將高保真分類器應(yīng)用到候選區(qū)域的集合來確定被確認(rèn)的區(qū)域集合。

      根據(jù)本發(fā)明的一個(gè)實(shí)施例,該系統(tǒng)進(jìn)一步包含:

      攝像機(jī),攝像機(jī)可操作為安裝在機(jī)動(dòng)車輛上以捕捉一系列道路場景圖像;

      位于處理器集合內(nèi)的圖像處理單元(gpu),圖像處理單元實(shí)施第一卷積神經(jīng)網(wǎng)絡(luò)以利用gpu的平行處理能力,使第一卷積神經(jīng)網(wǎng)絡(luò)以為預(yù)定自主車輛響應(yīng)提供時(shí)間的速率處理一系列的道路場景圖像,預(yù)定自主車輛響應(yīng)針對(duì)被處理的一系列道路場景圖像中的分類信息。

      附圖說明

      為了容易地理解本發(fā)明的有利之處,通過參照附圖中示出的具體實(shí)施例呈現(xiàn)了更具體的說明。理解這些附圖僅描述典型的示例并且因此不認(rèn)為限制范圍,通過使用附圖,利用另外的特征和細(xì)節(jié)描述和說明了本發(fā)明,其中:

      圖1是根據(jù)示例的配備有用于捕捉輔助和/或自主駕駛技術(shù)中所使用的信息的各種技術(shù)的機(jī)動(dòng)車輛的描述,該機(jī)動(dòng)車輛包括用于捕捉迎面而來的道路場景的圖像的攝像機(jī);

      圖2是根據(jù)示例的描述卷積神經(jīng)網(wǎng)絡(luò)(cnn)中的前饋示例的示意性框圖;

      圖3a是根據(jù)現(xiàn)有技術(shù)的描述將cnn應(yīng)用于圖像的冗長詳盡的滑動(dòng)窗口方法以及用于減少實(shí)施時(shí)間的分段網(wǎng)格法的示意性框圖;

      圖3b是根據(jù)現(xiàn)有技術(shù)的描述選擇性方法的示意性框圖,該方法在應(yīng)用cnn時(shí)使用環(huán)境信息,該方法跳過應(yīng)用cnn的圖像部分以減少計(jì)算和時(shí)間;

      圖4是根據(jù)示例描述產(chǎn)生被分類對(duì)象的裁剪標(biāo)記圖像的低保真數(shù)據(jù)集合的示意性框圖,利用該低保真數(shù)據(jù)集合訓(xùn)練實(shí)施cnn的低保真分類器,低保真分類器作為多級(jí)圖像分析系統(tǒng)的第一級(jí);

      圖5是根據(jù)示例描述利用不同比例和分辨率的圖像的低保真數(shù)據(jù)集合訓(xùn)練低保真分類器的示意性框圖;

      圖6是根據(jù)示例描述用作多級(jí)圖像分析系統(tǒng)中第二級(jí)的高保真分類器的訓(xùn)練的示意性框圖,利用被分類對(duì)象的裁剪標(biāo)記高保真圖像的高保真數(shù)據(jù)集合來訓(xùn)練高保真分類器;

      圖7是根據(jù)示例的描述下采樣模塊的示意性框圖,下采樣模塊對(duì)圖像分析系統(tǒng)分析的道路場景測試圖像進(jìn)行下采樣;

      圖8是根據(jù)示例的將不同比例的滑動(dòng)窗口應(yīng)用于道路場景下采樣部分以分離應(yīng)用于低保真分類器的圖像的部分區(qū)段的示意性框圖;

      圖9是根據(jù)示例描述多級(jí)圖像分析系統(tǒng)的示意性框圖,其中實(shí)施第一cnn的低保真分類器將道路場景下采樣圖像的候選區(qū)塊識(shí)別為被高保真分類器確認(rèn)的潛在描述被分類對(duì)象,高保真分類器實(shí)施第二cnn,第二cnn被應(yīng)用到候選區(qū)塊的高保真版本,產(chǎn)生道路場景圖像中被分類對(duì)象的描述的分類、檢測和定位;

      圖10是根據(jù)示例的描述映射模塊的示意性框圖,映射模塊可操作用于將來自道路場景的下采樣圖像的區(qū)塊映射到圖像高保真版本的對(duì)應(yīng)扇區(qū)內(nèi);以及

      圖11是根據(jù)示例的利用多級(jí)圖像分析系統(tǒng)快速、準(zhǔn)確和全面分類、檢測和定位圖像中的對(duì)象的步驟的流程圖,多級(jí)圖像分析系統(tǒng)建立在實(shí)施一對(duì)cnn的低保真分類器和高保真分類器上。

      具體實(shí)施方式

      容易理解的是,如本發(fā)明附圖中總體描述和示出的本發(fā)明的部件可以以各種不同的配置設(shè)置和設(shè)計(jì)。因此,如附圖中所表示的下列更具體的說明并非意在限制要求保護(hù)的范圍,而僅僅是某些示例的表示。通過參照附圖更好地理解當(dāng)前描述的示例,其中相同的部分全部由相同的附圖標(biāo)記指代。在一些示例中,附圖中元件的具體示例可以由后面帶字母的標(biāo)識(shí)數(shù)字識(shí)別,其中對(duì)于相同標(biāo)識(shí)數(shù)字而言,在不同的圖中字母可以變化,表明具有相同或不同屬性的元件的不同示例。僅在說明書中利用數(shù)字引用的這樣的元件可以更普遍地指代一類這種元件和/或該類的代表示例。

      參照?qǐng)D1,示出了機(jī)動(dòng)車輛10。然而,本發(fā)明也可以應(yīng)用于其它車輛10。車輛10可以配備能夠感測和記錄信號(hào)的各種類型的工具,信號(hào)反應(yīng)各種對(duì)象、標(biāo)志、信號(hào)和/或與駕駛車輛10相關(guān)的類似物。這種設(shè)備的非限制性示例可以包括無線電檢測與測距(雷達(dá))子系統(tǒng)12和光檢測與測距(激光雷達(dá))子系統(tǒng)14。雷達(dá)子系統(tǒng)12、激光雷達(dá)子系統(tǒng)14或兩者以及潛在地另外的子系統(tǒng)可以是更廣義的成像子系統(tǒng)的一部分??梢悦靼椎氖牵囕v10可以裝備其它這樣的設(shè)備,例如聲音導(dǎo)航與測距(聲納)子系統(tǒng)。另外地,車輛10配備有攝像機(jī)16。

      雖然單個(gè)攝像機(jī)16示出位于車輛10車頂前緣附近,但可以在任何數(shù)量的位置處安裝任何數(shù)量的攝像機(jī)16,例如但不限于在車輛內(nèi)部儀表板上,以捕捉迎面而來的道路場景和/或周圍環(huán)境的圖像。這樣的攝像機(jī)16可以是利用數(shù)字圖像傳感器的數(shù)字?jǐn)z像機(jī),例如但不限于電荷耦合器件(ccd)和/或互補(bǔ)金屬氧化物半導(dǎo)體(cmos)。進(jìn)一步地,攝像機(jī)16可以是能夠以幀頻捕捉圖像的視頻攝像機(jī)。

      在一些示例中,幀頻可以超過每秒十四幀,潛在地超出每秒多幀,從而提供容許對(duì)輔助和/或自主駕駛技術(shù)的圖像特性中的信息作出響應(yīng)的足夠新的圖像。此外,攝像機(jī)16可以響應(yīng)于可見范圍內(nèi)和外兩者的各種波長和/或可以與它捕捉的圖像一起捕捉顏色信息。如安裝的攝像機(jī)裝置16的內(nèi)部分解圖中示出的,攝像機(jī)可以設(shè)置有光學(xué)系統(tǒng)18,例如但不限于,控制焦點(diǎn)、視野、放大倍率和/或類似參數(shù)的透鏡的單眼系統(tǒng)。

      可以分析通過這樣的攝像機(jī)16捕捉的圖像以呈現(xiàn)信息,例如分類、檢測和/或定位與輔助和自主駕駛系統(tǒng)相關(guān)的圖像中所描述的對(duì)象的信息。在一些示例中,這些信息可以與其它子系統(tǒng)的信息結(jié)合,子系統(tǒng)是例如但不限于雷達(dá)子系統(tǒng)12和/或激光雷達(dá)子系統(tǒng)14,從而提供冗余、填補(bǔ)空白和/或改進(jìn)統(tǒng)計(jì)準(zhǔn)確性。此外或可選地,為了實(shí)施信息輔助和/或自主駕駛系統(tǒng),可以單獨(dú)使用來自攝像機(jī)16的這樣的信息。然而,在駕駛系統(tǒng)中應(yīng)用這樣的信息之前,可以通過處理從圖形中提取該信息。

      參照?qǐng)D2,示出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(cnn)20處理來自攝像機(jī)16的圖像22a。雖然若干不同的方法——從基于規(guī)則的方法到不同類型的機(jī)器學(xué)習(xí)方法——已經(jīng)被用于圖像分析,但近些年來所沉浸的最準(zhǔn)確的方法涉及使用cnn20。在圖2中描述了處于處理來自攝像機(jī)16的數(shù)字或數(shù)字化圖像22a的各個(gè)階段的示例cnn20。

      cnn20可以在具有一個(gè)或多個(gè)卷積層26a-n的卷積部分24和神經(jīng)網(wǎng)絡(luò)部分28之間細(xì)分。在卷積部分24內(nèi)的卷積層26n可以包括一個(gè)或多個(gè)子層。這樣的子層的示例可以包括但不限于卷積子層30n、子采樣子層32n和/或非線性子層34n,不一定是處理順序。歸一化層提供這種子層另外的非限制性示例。卷積子層30n、子采樣子層32n和非線性子層34n中的每一個(gè)可以各自包括一個(gè)(但通常多于一個(gè))的卷積神經(jīng)元/節(jié)點(diǎn)36a-n、非線性神經(jīng)元/節(jié)點(diǎn)38a-n和/或子采樣神經(jīng)元/節(jié)點(diǎn)40a-n。

      以說明卷積部分24內(nèi)的前饋的方式,示出了示例圖像22a。通過cnn20處理的圖像22a提供為了實(shí)施輔助和/或自主駕駛的目而被分類、檢測和/或定位的停車標(biāo)志、重要對(duì)象的低分辨率描述。向cnn20的輸入層42a提供圖像22a。

      為了便于說明,示出具有交叉鑲嵌的黑和白的簡單灰度圖像22a。在另外的示例中,圖像22可以具有多個(gè)通道,如彩色圖像的情況。例如但并非限制,圖像22可以是紅-綠-藍(lán)(rgb)圖像22或者針對(duì)yuv顏色空間編碼的圖像22。在這樣的示例中,可以認(rèn)為單獨(dú)的圖像22是三維矩陣,其中前兩個(gè)維度被分配給像素的行和列,并且第三個(gè)維度被分配給顏色通道。能夠明白的是,第三個(gè)維度同樣可以用于其它類型的信息,例如使用多個(gè)攝像機(jī)16從多個(gè)角度捕捉道路場景情況下的立體信息。

      關(guān)于第一卷積層26a,在第一卷積子層30a,第一子層30a內(nèi)的每個(gè)卷積神經(jīng)元/節(jié)點(diǎn)36a-n的不同單獨(dú)子層過濾器或內(nèi)核46a-n可以與圖像22a-n卷積,第一子層30a的維度的二維權(quán)重/值比圖像22a的維度的那些更小。神經(jīng)元/節(jié)點(diǎn)36a-n的示例數(shù)量可以包括但不限于從四到四十的數(shù)值。在cnn20的訓(xùn)練過程期間,每個(gè)過濾器46a-n可以近似于被分類對(duì)象集合中的對(duì)象的約一個(gè)或多個(gè)特征,cnn20針對(duì)被分對(duì)象進(jìn)行訓(xùn)練。由于可以通過將圖像22a與第一層過濾器46卷積而使用卷積確定功能之間的相似處,因此可以產(chǎn)生特征圖,該特征圖表明在第一層過濾器46內(nèi)表示的特征在圖像22a的不同區(qū)域內(nèi)出現(xiàn)的各種程度。

      雖然可以在卷積神經(jīng)元/節(jié)點(diǎn)36a-n應(yīng)用不同形式的卷積,但在與圖2描述的灰度圖像22a一致的一些示例中,第一層過濾器46a-n中的每個(gè)權(quán)重/值可以乘以基礎(chǔ)值,該基礎(chǔ)值用于渲染其覆蓋的圖像22a,并且乘積可以在所得特征圖中的單個(gè)單元內(nèi)加和。因此,所得特征圖內(nèi)的每個(gè)像素可以視為圖像22一部分的點(diǎn)積,該部分維度等于應(yīng)用到其上的第一層過濾器46a-n的那些維度。

      在計(jì)算第一層過濾器46a-n和圖像22a的第一部分的點(diǎn)積之后,可以通過使第一層過濾器46相對(duì)于基礎(chǔ)圖像22a水平、豎直或兩者滑動(dòng)一個(gè)或多個(gè)像素,以及計(jì)算關(guān)于圖像22a新的對(duì)應(yīng)部分的另一點(diǎn)積來繼續(xù)卷積,新的對(duì)應(yīng)部分可以與第一部分重疊。對(duì)應(yīng)卷積神經(jīng)元/節(jié)點(diǎn)36可以繼續(xù)計(jì)算點(diǎn)積,將點(diǎn)積在所得的特征圖中以行和列排序直至第一層過濾器46已經(jīng)應(yīng)用于所有基礎(chǔ)圖像22a或在圖像22包括多個(gè)信息通道情況下的所有矩陣22a。因此,在不填充并且第一層過濾器46a-n針對(duì)每個(gè)點(diǎn)積僅滑動(dòng)一個(gè)像素的情況下,所得矩陣會(huì)使它的前兩個(gè)維度等于基礎(chǔ)圖像/矩陣的維度減去第一層過濾器46的維度在每個(gè)維度再加一。

      因此,相對(duì)于圖像22a的維度,較小的第一層過濾器46可以利用圖像22中相對(duì)高的局部信號(hào)相關(guān)性,而不需要承擔(dān)整個(gè)大范圍的低的相關(guān)性。此外,由于小的第一層過濾器46在圖像22a上滑過,識(shí)別特征的能力定位不變。通過提供多個(gè)第一層過濾器46a-n,可以針對(duì)若干不同特征產(chǎn)生特征圖。在圖像22具有產(chǎn)生三維或更多維度矩陣的多個(gè)圖像通道的示例中,第一層過濾器46a-n以及后續(xù)層過濾器46na-nn也可以設(shè)置為具有第三維度或更多。這樣的三維過濾器46可以針對(duì)圖像22的每個(gè)圖像通道提供單獨(dú)的二維過濾器。

      在一些示例中,可以包括非線性子層32a以將非線性函數(shù)應(yīng)用于卷積子層30a所產(chǎn)生的矩陣的數(shù)值中。所得的非線性容許另外的卷積層26b-n作出貢獻(xiàn),在前饋過程是純線性的情況下可以不這樣做。可以應(yīng)用的這種函數(shù)的非限制性示例包括s形函數(shù)和/或雙曲正切函數(shù)。

      也可以應(yīng)用第一子采樣子層34a中的子采樣神經(jīng)元/節(jié)點(diǎn)40a-n。在一些示例中,這樣的神經(jīng)元/節(jié)點(diǎn)40a-n可操作用于實(shí)施最大值池(max-pooling),其中所得矩陣的單元集合被單個(gè)單元代替,該單個(gè)單元具有與單元集合中單元的最大值相等的值。然而,可以實(shí)施其它形式的池,例如但不限于平均值池。池化為單個(gè)單元的單元數(shù)量可以包括但不限于四個(gè)到一個(gè)、九個(gè)到一個(gè)、十六個(gè)到一個(gè)等。不但可以使用子采樣子層34減少存儲(chǔ),它還可以提供局部的不變性和抗擾性。

      在圖2中示出了來自第一卷積層26a下游的卷積非線性映射以及子采樣特征圖48a-n的集合,采樣特征圖48a-n具有比初始圖像22a的維度更小的維度。在該點(diǎn)上,cnn20可以通過包括多個(gè)卷積層26a-n來提供深度學(xué)習(xí)的優(yōu)勢(shì)。這些卷積層26a-n可以分層設(shè)置,以通過越來越高水平或更抽象的特征的存在來確定卷積子層30內(nèi)的后續(xù)過濾器46。

      關(guān)于卷積層26之間的神經(jīng)元/節(jié)點(diǎn)的激活,由先前的卷積層26產(chǎn)生的特征圖48可以激活后續(xù)卷積層26內(nèi)的卷積神經(jīng)元/節(jié)點(diǎn)。在一些示例中,來自先前的卷積層26的每個(gè)特征圖48可以激活后續(xù)卷積層26的單獨(dú)的卷積神經(jīng)元/節(jié)點(diǎn)36。此外或可選地,在第一卷積層26a之后,所得的特征圖48可以在后續(xù)卷積層26內(nèi)結(jié)合。

      可以在單個(gè)卷積神經(jīng)元/節(jié)點(diǎn)30實(shí)施這樣的結(jié)合,其中對(duì)應(yīng)過濾器46可以具有至少三個(gè)維度,其中描述特征圖48數(shù)量的一個(gè)維度被組合。可以認(rèn)為這樣的過濾器46具有容積??梢允褂贸^三個(gè)維度,例如但不限于如圖像通道的屬性。結(jié)合先前特征圖所產(chǎn)生的特征圖48可以描述來自各種先前過濾器46的特征可以在圖像22的不同區(qū)域內(nèi)被結(jié)合的程度。在來自先前卷積層26的所得特征圖48被結(jié)合的情況下,來自先前卷積層26的所有的特征圖48在后續(xù)特征圖48中可以結(jié)合和/或先前特征圖48的一個(gè)或多個(gè)子集可以在一個(gè)或多個(gè)后續(xù)特征圖48中結(jié)合。在諸多示例中,擴(kuò)展后續(xù)卷積層26內(nèi)的卷積神經(jīng)元/節(jié)點(diǎn)36的數(shù)量是有幫助的。然而,對(duì)于一些后續(xù)卷積層26而言,減少數(shù)量也是有幫助的。

      卷積層26的數(shù)量可以變化,非限制性示例數(shù)量包括二到二十的數(shù)量,潛在地使卷積部分24成為深度網(wǎng)絡(luò)。隨著處理進(jìn)展通過卷積層26,所得特征圖48可以變得越來越小,接近它們卷積的過濾器46的大小。最后,在一些示例中,特征圖48的迭代的高度、寬度或兩方面的維度可以與它們所應(yīng)用的過濾器46的那維度相等,產(chǎn)生標(biāo)量和/或向量。同樣地,在一些示例中,子采樣子層32的結(jié)果是標(biāo)量或向量。這樣的標(biāo)量和/或向量可以是卷積部分24的輸出以及分類器/神經(jīng)網(wǎng)絡(luò)部分28的輸入。

      如同卷積部分24,層54a-n(也可以被稱作隱藏層54a-n)的數(shù)量可以變化,非限制性示例數(shù)量包括二到十二的數(shù)量。同樣地,如同卷積部分24內(nèi)的非線性子層34,神經(jīng)網(wǎng)絡(luò)部分28內(nèi)的隱藏層54a-n可以應(yīng)用非線性函數(shù)。在神經(jīng)網(wǎng)絡(luò)部分28內(nèi),兩個(gè)相鄰的子層54可以完全連接,以使第一子層54a中的每個(gè)神經(jīng)元/節(jié)點(diǎn)52的輸出可以適當(dāng)?shù)赜?jì)算權(quán)重和通信以激活第二子層54b內(nèi)的每個(gè)神經(jīng)元/節(jié)點(diǎn)52。

      在這樣的示例中,應(yīng)用到第二子層54b內(nèi)的每個(gè)神經(jīng)元/節(jié)點(diǎn)52的輸入的權(quán)重/值可以取決于第一子層54a內(nèi)的初始神經(jīng)元/節(jié)點(diǎn)52、被激活的第二子層54b內(nèi)的神經(jīng)元/節(jié)點(diǎn)52和/或兩者。此外,偏置權(quán)重/值58可以被應(yīng)用到一個(gè)或多個(gè)子層54。在一些示例中,一個(gè)或多個(gè)偏置值58也可以被應(yīng)用在一個(gè)或多個(gè)卷積層26內(nèi)。因此,在分類器部分28內(nèi)從一個(gè)層54進(jìn)展到另一個(gè)層54會(huì)引起后續(xù)層54中每個(gè)神經(jīng)元/節(jié)點(diǎn)52處的非線性加權(quán)求和,偏置值58被加和到該和。除全連接層54之外或可選地,層54也可以以其它方式連接,例如但不限于,利用高斯類型連接。

      通過神經(jīng)網(wǎng)絡(luò)部分28處理的結(jié)果可以被記錄在輸出層58內(nèi)。輸出層58可以提供若干輸出節(jié)點(diǎn)60a-n,其中每個(gè)輸出節(jié)點(diǎn)60提供概率值,該概率值表明圖像22a描述位于類別/類集合的對(duì)應(yīng)類/類別中的對(duì)象、標(biāo)志、信號(hào)或類似項(xiàng),cnn20針對(duì)該類別/類訓(xùn)練或cnn20針對(duì)其正在被訓(xùn)練。例如,分配給停車標(biāo)志的類別/類的輸出神經(jīng)元/節(jié)點(diǎn)60a顯示檢驗(yàn)符號(hào),概率值的符號(hào)表明圖像22a描述停車標(biāo)志,而在其它輸出神經(jīng)元/節(jié)點(diǎn)60n內(nèi)的“x”表明可能沒有描述與該輸出神經(jīng)元/節(jié)點(diǎn)60n相關(guān)的對(duì)象。

      可以明白的是,cnn20的前饋所涉及的計(jì)算數(shù)量是相當(dāng)大的。幸運(yùn)的是,大部分計(jì)算是對(duì)浮點(diǎn)值執(zhí)行簡單的乘法和求和運(yùn)算。此外,許多這些運(yùn)算可以平行執(zhí)行。因此,在一些示例中,具有大量浮點(diǎn)值運(yùn)算的cnn20可以有利地在一個(gè)或多個(gè)圖像處理單元(gpu)62上實(shí)施,圖像處理單元可以具有一個(gè)或多個(gè)核,以利用這種處理器的平行處理和每秒高浮點(diǎn)運(yùn)算(flops)能力。然而,如下文關(guān)于下列附圖更具體地說明的,當(dāng)除了提供分類功能之外,cnn20被用于提供檢測和/或定位功能時(shí),cnn20的計(jì)算強(qiáng)度會(huì)大大增加。

      參照?qǐng)D3a,描述了道路場景圖像的部分66。然而,與圖2中處理的圖像不同,在圖2中可分類對(duì)象——即,停車標(biāo)志——占該圖像主要部分,圖像部分66內(nèi)受關(guān)注的可分類對(duì)象包括占據(jù)圖像部分66更小扇區(qū)的交通燈68a-b以及行人70a。因此,當(dāng)作為整體處理時(shí),來自這種可分類對(duì)象的信號(hào)會(huì)被圖像中的其它元素超越和/或另外不被檢測到。

      而且,為實(shí)施輔助和/或自主駕駛系統(tǒng),不僅對(duì)象的檢測和/或分類是重要的,而且對(duì)象在圖像中的位置也是重要的。例如,行人70是否在車輛10路線的即將到達(dá)的部分內(nèi)和/或接近該部分,該部分是被捕捉圖像的部分,或者行人70安全地停留在邊緣,這是至關(guān)重要的。然而,關(guān)于單個(gè)輸入圖像,cnn20的結(jié)構(gòu)具有關(guān)于占圖像主要部分的對(duì)象的檢測和分類的準(zhǔn)確度的跟蹤記錄,但cnn20的設(shè)計(jì)不適合定位對(duì)象。以重疊方式平鋪在整個(gè)輸入圖像上的過濾器46特有的位置不變性(這非常有助于分類)使對(duì)象在圖像中的相對(duì)位置變模糊。

      通過帶圓圈的數(shù)字1表示的第一種方法將滑動(dòng)窗口72a應(yīng)用于圖像上方,應(yīng)用該方法以克服定位對(duì)象中的這種限制,如圖3a中描述的關(guān)于圖像部分66的描述。該窗口72提取和/或分離圖像的扇區(qū)74,滑動(dòng)窗口72重疊在該扇區(qū)上方。為了實(shí)施對(duì)象檢測和/或分類以及上文關(guān)于圖2所描述的前饋路線,提取和/或分離的扇區(qū)74之后可以應(yīng)用于cnn20。

      之后滑動(dòng)窗口72一次一個(gè)像素地水平或豎直滑動(dòng),并且之后提取和/或分離要處理的圖像的另一扇區(qū)74,以使后續(xù)扇區(qū)74覆蓋先前的扇區(qū)74,如通過圖像上的扇區(qū)74的剩余輪廓示出的?;瑒?dòng)窗口72a繼續(xù)該處理直至它已徹底覆蓋該圖片。以這種方式,無論對(duì)象位于圖像中的什么位置,都可以被檢測和分類。而且,與將窗口72a放置在其先前邊界的相對(duì)側(cè)相反,通過逐個(gè)像素地滑動(dòng),由這樣的邊界分割的對(duì)象的描述不會(huì)被遺漏。同樣地,通過持續(xù)跟蹤應(yīng)用到cnn20的分離扇區(qū)74的坐標(biāo),被檢測和分類的對(duì)象的圖像中的相對(duì)位置可以由檢測對(duì)象所在的扇區(qū)74的坐標(biāo)獲得。

      可以明白的是,將每個(gè)重疊的扇區(qū)74單獨(dú)應(yīng)用于cnn20會(huì)使利用cnn20處理圖像的現(xiàn)有計(jì)算強(qiáng)度運(yùn)算增加若干數(shù)量級(jí)。在考慮到圖3a中描述的圖像部分66可能沒有組成道路場景的全部圖像時(shí),該大量計(jì)算增加會(huì)進(jìn)一步突出。而且,根據(jù)透視規(guī)律,由于被檢測的可分類對(duì)象的比例會(huì)基于對(duì)象相對(duì)于攝像機(jī)16的距離而減小或增大,因此通常需要應(yīng)用多個(gè)不同尺寸的窗口72a-n,每個(gè)窗口都單獨(dú)提取要被處理的自身的扇區(qū)74的組。

      例如,圖3a中示出的第一窗口72a可以大到足夠檢測和分類行人70a,但它對(duì)于檢測和分類交通燈68a、b而言太大。第二窗口72b可以被應(yīng)用于檢測交通燈68a、b,但它對(duì)于檢測行人70a而言太小。因此,需要應(yīng)用多個(gè)窗口72a-n。

      因此,該第一種方法雖然詳盡,但其不僅計(jì)算強(qiáng)度大,而且非常耗時(shí),如通過時(shí)鐘圖標(biāo)表明的。相比之下,人眼和大腦可以在十分之一秒內(nèi)處理道路場景的要點(diǎn),給駕駛?cè)藛T時(shí)間以針對(duì)道路場景中的對(duì)象作出反應(yīng)和/或響應(yīng)。輔助和/或自主駕駛系統(tǒng)同樣需要在這樣的時(shí)間尺度獲得信息,從而對(duì)迎面而來的道路場景中重要的快速接近對(duì)象作出響應(yīng)。每秒處理十五到三十張圖像(圖3a中示出的了該圖像的僅一部分66),根據(jù)第一方法對(duì)于滿足輔助和/或自主駕駛系統(tǒng)的需要而言是不可行的。

      參照?qǐng)D3b,示出了第二方法,通過帶圓圈的數(shù)字二表示。根據(jù)第二方法,環(huán)境信息依靠減少應(yīng)用到cnn20的圖像提取和/或分離區(qū)域74a-n所用的位置、密度和/或比例。例如,從圖像提取和/或分離的扇區(qū)74的數(shù)量和/或不同比例在圖像的上部區(qū)域可以大大減少,上部區(qū)域通常被天空占據(jù)。此外,這種方法可以專注于車輛正前方的區(qū)域,或緊鄰的側(cè)方區(qū)域,給更靠近邊緣的區(qū)域減少的注意力。

      然而,雖然該第二方法可以大大加快圖像處理速度,但如此做會(huì)有不可接受的代價(jià)——使圖像視場內(nèi)的許多空白點(diǎn)漏報(bào),即,在對(duì)象實(shí)際上存在時(shí)錯(cuò)誤地確定對(duì)象不存在。例如,在車輛下坡前進(jìn)的情況下,圖像的部分通常會(huì)集中到描述道路場景的空中,道路場景的上部是重要的。通過另一示例的方式,對(duì)于對(duì)象從側(cè)方緩慢接近而言不重要的周邊部分在對(duì)象從側(cè)方快速接近的情況下是非常相關(guān)的。在另外的反映中,可以產(chǎn)生若干其它示例。

      同樣地,甚至是在這樣的背景方法分離和/或提取應(yīng)用于cnn20描述可分類對(duì)象的區(qū)塊74的情況下,被提取部分的大小不足以和/或無法恰當(dāng)?shù)囟ㄎ灰苑蛛x足夠量的被描述區(qū)域。例如,圖3b描述了一系列的區(qū)塊74c-f,該區(qū)塊是從圖像部分66分離的,其中例如但不限于來源于圖像部分66內(nèi)先前圖像處理和/或相關(guān)位置的環(huán)境信息表明對(duì)應(yīng)于鄰近車道或相鄰的路緣以及人行道。第一組三個(gè)區(qū)塊74c-e的處理恰好表明行人不存在,如通過復(fù)選標(biāo)記符號(hào)和減號(hào)示出的。

      然而,最右側(cè)區(qū)域74f產(chǎn)生漏報(bào),如通過禁止圓圈示出的。最右側(cè)區(qū)塊74f對(duì)于捕捉描述行人的圖像部分66的區(qū)域而言不僅看起來太小,而且它也定位不當(dāng),導(dǎo)致不能捕捉到行人的頭部、胸部、后側(cè)手臂以及后側(cè)腿。最右側(cè)區(qū)塊74f內(nèi)的分類進(jìn)一步因交通燈柱76的存在而復(fù)雜化。而恰當(dāng)?shù)卦O(shè)置尺寸和定位的圖像會(huì)產(chǎn)生正確位置處的行人70a的陽性檢測和分類,第二方法產(chǎn)生危險(xiǎn)的漏報(bào)。即使第二方法能夠檢測和分類行人70,不當(dāng)定位區(qū)塊74f會(huì)提供令人誤解的位置信息。

      雖然圖3b中的第二方法可以使用于提供分類、檢測和/或定位信息的圖像處理速率加速到足夠快地容許響應(yīng),但如此做會(huì)具有不可接受的準(zhǔn)確性的代價(jià)??梢岳缤ㄟ^激光雷達(dá)子系統(tǒng)14來檢測行人70a。然而,攝像機(jī)16和成像系統(tǒng)未能提供請(qǐng)求的冗余度和/或?qū)崿F(xiàn)統(tǒng)計(jì)水平確定性所需的用于提供完整性以及用于填充其它子系統(tǒng)12、14的空白的能力,該統(tǒng)計(jì)水平確定性是輔助和/或自主駕駛系統(tǒng)所需的。

      如同圖3b,示出了第三方法,其中通過應(yīng)用網(wǎng)格80將圖像或圖像的部分66細(xì)分成不同的網(wǎng)格單元78。應(yīng)用于圖3a中圖像部分66的網(wǎng)格80包括四行和四列,產(chǎn)生十六個(gè)網(wǎng)格單元78。在第三方法中,網(wǎng)格單元78可以完全跨越圖像,以考慮該圖像整體。同樣地,在該第三方法中,cnn20的輸出層58內(nèi)的輸出60可以等于網(wǎng)格單元78的數(shù)量,每個(gè)輸出60表明行人70是否存在于對(duì)應(yīng)網(wǎng)格單元78內(nèi)。在圖像處理期間,可以利用應(yīng)用到不同網(wǎng)格單元78的不同過濾器46來同時(shí)處理網(wǎng)格單元78,以加速處理。通過在分類器的神經(jīng)網(wǎng)絡(luò)部分28中應(yīng)用全連接層,可以通過其它網(wǎng)格單元78的環(huán)境信息獲知一個(gè)網(wǎng)格單元78的輸出60。

      在訓(xùn)練期間,與使用對(duì)象的裁剪圖像相反,其中訓(xùn)練網(wǎng)絡(luò)以分類、檢測和/或定位該對(duì)象,在與第三方法類似的方法中,訓(xùn)練發(fā)生在更大環(huán)境的圖像上,在該環(huán)境中如行人的一個(gè)或多個(gè)可分類對(duì)象可以占據(jù)訓(xùn)練圖像的僅一小部分,該部分與一個(gè)或多個(gè)網(wǎng)格單元78相配??梢园凑?qǐng)D像所描述的可分類對(duì)象以及圖像所描述的網(wǎng)格單元是哪個(gè)網(wǎng)格單元78兩者來標(biāo)記這樣的圖像。此外,開銷會(huì)涉及通過移動(dòng)和/或重新配置初始訓(xùn)練數(shù)據(jù)集合中的圖像產(chǎn)生不同的帶標(biāo)記的數(shù)據(jù)集合,以使其中的可分類對(duì)象可以出現(xiàn)在不同的網(wǎng)格單元78內(nèi)。

      當(dāng)應(yīng)用到測試圖像時(shí),對(duì)應(yīng)輸出60表明可分類對(duì)象存在的網(wǎng)格單元78可以用作應(yīng)用到一個(gè)或多個(gè)另外的分類器的候選區(qū)。可以利用包括裁剪圖像的圖像來訓(xùn)練應(yīng)用到單個(gè)網(wǎng)格單元78的第二分類器,裁剪圖像由可分類對(duì)象占主要部分??梢园凑?qǐng)D像描述的可分類對(duì)象來標(biāo)記這樣的訓(xùn)練圖像,其需要分類標(biāo)簽的不同系統(tǒng)。

      同樣地,在如行人70的對(duì)象位于網(wǎng)格單元78的交叉處的情況下,第三方法是有問題的。例如,雖然第八個(gè)網(wǎng)格單元78f覆蓋了所示行人70a的大部分,但它也通過排除行人70a的腿而將行人70a截?cái)?。網(wǎng)格單元78與所示對(duì)象之間的這種不一致在對(duì)象分類、檢測和/或定位上產(chǎn)生問題。如圖3b所示的另一示例問題,如果所示的可分類對(duì)象——例如行人70a——是不同的比例,例如行人70a延伸到第八個(gè)網(wǎng)格單元78f之外,那么分類器不能很好地訓(xùn)練用于分類、檢測和定位所示對(duì)象。

      因此,為了利用cnn20最新實(shí)現(xiàn)的精確性來改進(jìn)輔助和/或自主駕駛,需要新的方法。這樣的方法需要同時(shí)準(zhǔn)確、詳盡并且以容許輔助和/或自主駕駛及時(shí)響應(yīng)的速度提供分類、檢測和定位信息。這樣的方法應(yīng)該不在乎可分類對(duì)象的描述的相對(duì)位置和/或比例而以同等的可靠性執(zhí)行。盡管達(dá)到可接受精確度所用的訓(xùn)練圖像數(shù)量大,但該方法應(yīng)該在低開銷以及易于微調(diào)的訓(xùn)練時(shí)間下訓(xùn)練。

      通過提供滿足這些要求的示例性方法的簡要概況的方式,可以實(shí)施分層、多級(jí)方法。這種方法中的級(jí)別可以包括低保真分類器和高保真分類器兩者。低保真分類器可以實(shí)施在處理器集合上,在本發(fā)明中也可以稱作處理器集。如本發(fā)明所使用的,術(shù)語集合和子集合可以包括任何數(shù)量的元素,包括單個(gè)元素。低保真分類器可操作為從跨越圖像的下采樣版本的重疊區(qū)域集合中選擇一個(gè)或多個(gè)候選區(qū)域,重疊區(qū)域集合在本發(fā)明中也稱作區(qū)域集合。

      可以由固定在機(jī)動(dòng)車輛上的捕捉道路場景的攝像機(jī)16來提供圖像。在確定描述如行人70或交通標(biāo)志的被分類對(duì)象的候選區(qū)域時(shí),低保真分類器可以選擇一個(gè)或多個(gè)候選區(qū)域,低保真分類器針對(duì)被分類對(duì)象而進(jìn)行訓(xùn)練。這樣的多級(jí)方法也可以包括高保真分類器,高保真分類器也可以實(shí)施在處理器集合上。

      高保真分類器可操作用于驗(yàn)證一個(gè)或多個(gè)小片中的被分類對(duì)象的描述??梢詮牡捅U娣诸惼鬟x擇的候選區(qū)域?qū)⑿∑成涞礁弑U姘姹镜膱D像。高保真分類器也可以被訓(xùn)練用于分類、檢測和/或定位被分類的對(duì)象,但其具有更高的保真度。因此,高保真分類器驗(yàn)證從候選區(qū)域映射的小片中的被分類描述,高保真分類器在候選區(qū)域中表明描述。

      在這樣的方法中,低保真分類器可以包括利用下采樣訓(xùn)練集合訓(xùn)練的第一cnn20。下采樣訓(xùn)練集合可以包括對(duì)象圖像的多個(gè)被標(biāo)記的下采樣版本,該對(duì)象位于表征被分類對(duì)象的類別中。被標(biāo)記的下采樣版本可以具有與區(qū)域集合中的區(qū)域的尺寸相稱的尺寸。類似地,高保真分類器可以包括第二cnn20。利用高分辨率訓(xùn)練集合來訓(xùn)練該第二cnn20,高分辨率訓(xùn)練集合包含在該類別中的對(duì)象的圖像的多個(gè)被標(biāo)記的高保真版本。

      在一些示例中,下采樣訓(xùn)練集合中的至少一些下采樣版本可以被下采樣到最低分辨率,在該分辨率時(shí)下采樣版本中的熵保持高于閾值,該閾值是相對(duì)于該類別中對(duì)象的初始圖像中的熵所限定的。在一些但不一定是所有這樣的示例中,熵的預(yù)定百分比可以來自于以百分之八十為中心并且在百分之八十以上和以下擴(kuò)展百分之五的范圍。

      關(guān)于測試圖像,與用于訓(xùn)練第一和第二cnn20的圖像相反,在一些示例中,下采樣模塊也可以實(shí)施在處理器集合中。下采樣模塊可操作為以下采樣因子產(chǎn)生來自固定在機(jī)動(dòng)車輛上的攝像機(jī)16的圖像的下采樣版本。在該示例中,下采樣因子可以被確定用于在下采樣版本中保留來自攝像機(jī)圖像中的預(yù)定百分比的熵。

      此外或可選地,一些示例可以包括窗口模塊,窗口模塊可以實(shí)施在處理器集合上。窗口模塊可操作用于從測試圖像的下采樣版本中分離重疊區(qū)域。為了產(chǎn)生區(qū)域集合,這樣的重疊區(qū)域可以具有窗口所框定的尺寸,該窗口滑動(dòng)完全跨越下采樣版本。之后窗口模塊和/或低保真分類器可以將區(qū)域集合的重疊區(qū)域應(yīng)用到低保真分類器。關(guān)于高保真分類器,一些示例可以包括映射模塊,映射模塊可操作用于將來自圖像下采樣版本的一個(gè)或多個(gè)候選區(qū)域映射到圖像高保真版本中的一個(gè)或多個(gè)小片中。如此,候選區(qū)域和小片可以在下采樣版本和高保真版本中分別覆蓋圖像的共有扇區(qū)。

      能夠明白的是,與本發(fā)明所公開的元素相關(guān)說明的多數(shù)結(jié)構(gòu)和功能可以通過模塊來設(shè)置。模塊可以采用完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、常駐軟件、微代碼等)或軟件與硬件方面結(jié)合的實(shí)施例的形式。而且,當(dāng)前所述主題的若干方面可以采用嵌入在任何有形表達(dá)介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)程序產(chǎn)品具有計(jì)算機(jī)可用的程序代碼。

      關(guān)于軟件方面,可以使用一種或多種計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)的任何組合。例如,計(jì)算機(jī)可讀介質(zhì)可以包括便攜式計(jì)算機(jī)軟盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)裝置、只讀存儲(chǔ)器(rom)裝置、可擦除可編程只讀存儲(chǔ)器(eprom或閃存)裝置、只讀光盤存儲(chǔ)器(cdrom)、光學(xué)存儲(chǔ)裝置和磁性存儲(chǔ)裝置中的一種或多種。在選定的實(shí)施例中,計(jì)算機(jī)可讀介質(zhì)可以包含任何非暫態(tài)介質(zhì),該非暫態(tài)介質(zhì)包含、存儲(chǔ)、傳送、傳播或傳輸由指令執(zhí)行系統(tǒng)、裝置或設(shè)備所使用或與其結(jié)合使用的程序。

      可以通過一種或多種編程語言的任何組合來編寫用于實(shí)施本發(fā)明的運(yùn)算的計(jì)算機(jī)程序代碼,編程語言包括如c++的面向?qū)ο蟮木幊陶Z言以及如“c”編程語言的常規(guī)程序的編程語言或類似編程語言。與軟件一起實(shí)施的模塊方面可以在微處理器、中央處理單元(cpu)和/或諸如此類上執(zhí)行。模塊的任何硬件方面可以被實(shí)施用于與軟件方面交互。

      能夠明白的是,上述概括并非詳盡了該方法涉及的創(chuàng)新點(diǎn)。下文說明了該方法的若干另外方面。與下列附圖相關(guān)地更詳細(xì)地說明該新方法中所使用的用于實(shí)施訓(xùn)練低保真分類器的數(shù)據(jù)集合。

      參照?qǐng)D4,示出了存儲(chǔ)在一個(gè)或多個(gè)數(shù)據(jù)庫84a內(nèi)的第一數(shù)據(jù)集合82a的方面,其用于滿足上文說明的要求的多級(jí)分層方法中的第一級(jí)的訓(xùn)練。數(shù)據(jù)庫84可以存儲(chǔ)在一個(gè)或多個(gè)物理存儲(chǔ)介質(zhì)中,例如但不限于本發(fā)明下文所說明的那些。該第一級(jí)可以是實(shí)施為cnn20的低保真分類器。在本發(fā)明中也被稱作下采樣訓(xùn)練集合82a和/或下采樣集合82a的第一數(shù)據(jù)集合82a可以由圖像對(duì)象的版本86組成。

      下采樣訓(xùn)練集合82a可以包括描述類別的集合中的對(duì)象的圖像88a-n的多個(gè)裁剪的帶標(biāo)記的下采樣圖像/版本86a-n,低保真分類器針對(duì)該類別而訓(xùn)練以執(zhí)行分類、檢測和/或定位功能。在圖4中,訓(xùn)練圖像90a視野中與道路場景圖像90a的裁剪部分88a相關(guān)的區(qū)塊(section)92a、區(qū)域region)92a或區(qū)(zone)92a相關(guān)的尺寸描述了被分類對(duì)象94a(為了說明的目的而擴(kuò)大了裁剪部分88a),被分類對(duì)象94a即停車標(biāo)志94a。在一些示例中,可以通過將被分類對(duì)象94框定在訓(xùn)練圖像90內(nèi)以在圖像90中占主要部分來實(shí)現(xiàn)裁剪。

      同樣在圖4中描述的是,可操作用于下采樣98a訓(xùn)練圖像90a和/或下采樣98b裁剪部分88a的分辨率模塊96。在圖4所示的示例中,分辨率模塊96可以相對(duì)于每個(gè)維度通過四的下采樣因子來下采樣98。然而,能夠明白的是,與給定的一個(gè)維度或兩個(gè)維度相關(guān)的因子可以改變。

      通過給出用于確定這種因子的指導(dǎo)示例的方式,第一數(shù)據(jù)集合82a內(nèi)的下采樣圖像86a-n可以包括完全下采樣圖像86,完全下采樣圖像86下采樣98到極限分辨率。分辨率模塊96可以將極限分辨率應(yīng)用和/或計(jì)算為相對(duì)于初始裁剪圖像88a能夠保持熵的至少預(yù)定百分比的分辨率的下限,對(duì)應(yīng)下采樣圖像86a/n由初始裁剪圖像88a產(chǎn)生。在一些示例中,該極限分辨率可以取決于下采樣被裁剪圖像88的大小或比例。

      換言之,本發(fā)明所應(yīng)用的方法可以包括計(jì)算最大因子,利用該最大因子能夠下采樣圖像88以產(chǎn)生下采樣圖像/版本86,同時(shí)將下采樣圖像/版本86的熵與初始圖像88中的熵的比率值保持在預(yù)定閾值水平之上和/或保持熵的絕對(duì)值,該絕對(duì)值依賴于比例。如通過下采樣圖標(biāo)(該圖標(biāo)具有從圓形周邊向內(nèi)輻射的箭頭)示出的,在一些但不一定是全部這樣的示例中,熵的預(yù)定百分比可以來自以百分之八十為中心并且在百分之八十以上和以下擴(kuò)展百分之五的范圍。

      此外,為了訓(xùn)練的目的,每個(gè)裁剪的下采樣圖像86a-n可以標(biāo)記為具有分類所示對(duì)象94的對(duì)應(yīng)標(biāo)簽100a-n。雖然圖4中的全部標(biāo)簽100a標(biāo)識(shí)相同的類,即停車標(biāo)志,但標(biāo)簽100a可以來源于更廣泛的標(biāo)簽集合102a。該更廣泛的標(biāo)簽集合102a可以包括在更廣泛的檢測類別集合中的若干不同類型對(duì)象94的標(biāo)簽100。這種類的示例可以包括行人70、行人70的不同類型(如兒童)、動(dòng)物、車輛、交通標(biāo)志、道路標(biāo)記、路緣邊界和/或與輔助和/或自主駕駛系統(tǒng)的決策程序相關(guān)的任何其它對(duì)象。

      因此,收集圖像82a的訓(xùn)練集合可以包括收集描述位于各種位置行人70的圖像88的集合以及圖像82a的集合內(nèi)所包括的環(huán)境。在這樣的示例中,可以根據(jù)檢測類別集合中的共有類別來完成標(biāo)記訓(xùn)練集合82a的圖像。在描述不同相對(duì)距離、描述不同尺寸的盡可能多的被分類對(duì)象94中,可以針對(duì)檢測對(duì)象集合中對(duì)象的一個(gè)或多個(gè)類別利用不同圖像、或版本、尺寸或比例來訓(xùn)練低保真分類器和/或高保真分類器。收集圖像82的訓(xùn)練集合可以包括針對(duì)不同類別和/或在檢測類別集合的相同類別內(nèi)以一個(gè)或多個(gè)圖像尺寸的集合來裁剪被分類對(duì)象94圖像88的集合。因此,圖4描述了以不同圖像尺寸或比例裁剪下采樣圖像/版本86a/n。

      不同圖像尺寸或比例可以對(duì)應(yīng)于不同分辨率。因此,在一些示例中,可以針對(duì)不同版本/圖像尺寸或比例來產(chǎn)生不同圖像/版本86,對(duì)于共有的檢測類別通過進(jìn)一步下采樣104以進(jìn)一步降低分辨率。圖4描述了第一下采樣版本86a,該版本被進(jìn)一步下采樣104以產(chǎn)生裁剪圖像88a的進(jìn)一步下采樣版本86n。進(jìn)一步下采樣版本86n可以代替下采樣圖像100a的新的部分106a處描述的相同停車標(biāo)志94a的描述,該部分對(duì)應(yīng)于與攝像機(jī)16更大的相對(duì)距離并且通過透視規(guī)律相應(yīng)地減小。

      參照?qǐng)D5,進(jìn)一步說明了使用低保真數(shù)據(jù)集合82a來訓(xùn)練低保真分類器108a。低保真分類器108a可以包含cnn20a。低保真分類器108a是利用cnn20實(shí)施的低保真分類器108的簡單象征并且為了便于說明,僅在三的過濾器深度情況下僅利用單個(gè)卷積層26來說明。然而,在低保真分類器108的實(shí)際實(shí)施中,關(guān)于圖2所述的cnn20的全部可能性——包括神經(jīng)網(wǎng)絡(luò)部分28——對(duì)于低保真分類器108都是開放的。

      可以利用被標(biāo)記圖像82a的下采樣集合以及其中的許多裁剪的下采樣標(biāo)記的圖像/版本86a-n來實(shí)現(xiàn)低保真分類器108a的訓(xùn)練。裁剪的下采樣標(biāo)記的圖像/版本86a-n的數(shù)量可以從幾千變到幾百萬。因此,用于圖像分類、檢測和/或定位的cnn20的先前應(yīng)用需要從幾天到幾周以及甚至是在超級(jí)計(jì)算機(jī)上的幾個(gè)小時(shí)的測量的訓(xùn)練時(shí)間。

      圖像/版本86被應(yīng)用到低保真分類器108a的速度確定低保真分類器108a的不同配置是否可行和/或更新配置、重新訓(xùn)練和/或微調(diào)低保真分類器108a是否可行。通過使用下采樣的圖像/版本86,將圖像/版本86前饋110到低保真分類器108a所需的計(jì)算量可以降低幾個(gè)數(shù)量級(jí),例如但不限于從幾百萬降低到幾千。作為結(jié)果,將數(shù)據(jù)集合82a應(yīng)用到低保真分類器108a的時(shí)間可以從幾周減少到幾個(gè)小時(shí),容許在更寬泛的可能結(jié)構(gòu)中實(shí)施低保真分類器108a、重新訓(xùn)練和/或微調(diào)以產(chǎn)生更準(zhǔn)確的結(jié)果。

      通過說明的方式,來自下采樣集合82a的第一下采樣圖像/版本86a可以被前饋110a穿過過低保真分類器108a,從輸入層42b到輸出層58b。雖然圖5中示出了僅單個(gè)輸出60aa,但如關(guān)于圖2所述,輸出層58b可以包括任何數(shù)量的輸出60aa-an。每個(gè)輸出60可以對(duì)應(yīng)于來自類別集合的不同類別,低保真分類器108針對(duì)該類別進(jìn)行訓(xùn)練。而且,每個(gè)輸出60可以表明關(guān)于被前饋110到低保真分類器108的圖像/版本86是否描述了被分配給輸出60的類別內(nèi)的被分類對(duì)象94的可能性。

      在圖5提供的說明中,第一圖像/版本86a已經(jīng)被前饋110a穿過低保真分類器108。然而,被分配給交通信號(hào)或更具體地是停車信號(hào)的被描述對(duì)象94a的類別的輸出60aa沒有表明第一下采樣圖像/版本86a描述了停車標(biāo)志94a。如上文所述,可以根據(jù)檢測類別的集合利用分配給圖像/版本86的標(biāo)簽100來分類圖像82a集合中的圖像/版本86。

      因此,可以利用標(biāo)簽100將監(jiān)督學(xué)習(xí)方法實(shí)施到用于訓(xùn)練低保真分類器108a的機(jī)器學(xué)習(xí)。例如,可以通過將輸出60aa與標(biāo)簽100a比較112a來發(fā)現(xiàn)和使用不正確的結(jié)果進(jìn)一步訓(xùn)練低保真分類器108a,通過“x”字符將輸出60aa表示為未發(fā)現(xiàn)說明的概率,標(biāo)簽100a對(duì)應(yīng)于第一版本/圖像86a。不正確結(jié)果60aa表明低保真分類器108a的元件——例如但不限于過濾器46-1a到46-1n、隱藏層54以及偏置值56——需要進(jìn)一步另外的調(diào)整。可以通過應(yīng)用錯(cuò)誤方法的向相反方向的傳播114——這里被稱作反向傳播114——來確定這樣的調(diào)整。

      可以包括一個(gè)或多個(gè)gpu62的一個(gè)或多個(gè)處理器可以通過應(yīng)用優(yōu)化方法跨越低保真分類器108a從輸出層58b到輸入層42a地實(shí)施反向傳播114a。優(yōu)化方法可以涉及執(zhí)行函數(shù)。在一些示例中,可以通過最小化或最大化執(zhí)行函數(shù)來訓(xùn)練低保真分類器108a,以示例而并非限制的方式,執(zhí)行函數(shù)可以是由標(biāo)簽100a表明的結(jié)果與輸出60aa的實(shí)際概率之間的平方差的一半,如在最小二乘法中的情況。在一些示例中,1和0的二進(jìn)制數(shù)值可以分別分配給相關(guān)對(duì)象的描述以及缺乏這樣的描述或反過來,如通過對(duì)應(yīng)標(biāo)簽100示出的。

      如關(guān)于圖2所說明的,可以將平滑的非線性函數(shù)40a-n、52a-n應(yīng)用于貫穿低保真分類器108a的所有權(quán)重/值,執(zhí)行函數(shù)的導(dǎo)數(shù)可以用于表明方向和調(diào)整權(quán)重/值以最小化執(zhí)行函數(shù)的相對(duì)量。因此,可以將優(yōu)化方法作為梯度下降/上升方法來實(shí)施,例如隨機(jī)梯度下降/上升法。然而,由于執(zhí)行函數(shù)高的空間維度,低保真分類器108a中的大量可調(diào)整權(quán)重/值使微分問題復(fù)雜化。

      反向傳播114根據(jù)低保真分類器108a中的各種可調(diào)整權(quán)重/值的偏導(dǎo)數(shù)來提供微分執(zhí)行函數(shù)的方法。按照反向傳播114,為了發(fā)現(xiàn)與給定可調(diào)整權(quán)重/值相關(guān)的執(zhí)行函數(shù)的偏導(dǎo)數(shù),可以應(yīng)用鏈?zhǔn)揭?guī)則。在應(yīng)用鏈?zhǔn)揭?guī)則發(fā)現(xiàn)給定可調(diào)整權(quán)重/值的偏導(dǎo)數(shù)時(shí),與給定可調(diào)整權(quán)重/值相關(guān)的偏導(dǎo)數(shù)乘以任何輸入的偏導(dǎo)數(shù),產(chǎn)生給定可調(diào)整權(quán)重/值和輸出60aa之間的執(zhí)行函數(shù)。

      在計(jì)算可調(diào)整的權(quán)重/值的偏導(dǎo)數(shù)中,通過從輸出層58b向輸入層42b的逐層反向工作,因此反向傳播114可以重新使用來自前一層的偏導(dǎo)數(shù)的計(jì)算。更具體地,當(dāng)應(yīng)用鏈規(guī)則并且尋找目標(biāo)可調(diào)整權(quán)重/值和輸出60之間的所有中間偏導(dǎo)數(shù)的乘積時(shí),反向傳播114可以使用偏導(dǎo)數(shù)的這些計(jì)算。換言之,針對(duì)層中的每個(gè)神經(jīng)元/節(jié)點(diǎn)的可調(diào)整權(quán)重/值,為了防止明顯超出最終答案,通過計(jì)算調(diào)整來繼續(xù)反向傳播114,該調(diào)整通常通過速率因子來縮放。

      反向傳播114可以開始于最靠近輸出層58b的層,例如隱藏層54??梢酝ㄟ^計(jì)算下一個(gè)最接近的層中的每個(gè)神經(jīng)元/節(jié)點(diǎn)中的權(quán)重/值來繼續(xù)反向傳播114,直到到達(dá)輸入層42b。之后所計(jì)算的調(diào)整可以應(yīng)用于重新計(jì)算的它們的對(duì)應(yīng)可調(diào)整權(quán)重/值和執(zhí)行函數(shù)。之后,反向傳播114迭代該過程直至執(zhí)行函數(shù)被充分減小和/或放大。由于該過程的迭代性質(zhì),通過利用用于訓(xùn)練的下采樣圖像/版本86實(shí)現(xiàn)的計(jì)算和時(shí)間的節(jié)省針對(duì)訓(xùn)練所用的每個(gè)圖像/版本86乘以所需迭代數(shù)以及訓(xùn)練集合82a中的圖像/版本86的數(shù)量。

      而神經(jīng)網(wǎng)絡(luò)部分28內(nèi)的每個(gè)神經(jīng)元/節(jié)點(diǎn)會(huì)涉及在卷積部分24的卷積子層30內(nèi)相對(duì)于單個(gè)可調(diào)整權(quán)重/值取動(dòng)作函數(shù)的偏導(dǎo)數(shù),每個(gè)神經(jīng)元/節(jié)點(diǎn)36根據(jù)其相應(yīng)的過濾器46呈現(xiàn)具有多維變量矩陣的動(dòng)作函數(shù)。當(dāng)對(duì)卷積子層30應(yīng)用反向傳播114時(shí),可以相對(duì)于對(duì)應(yīng)過濾器46的每個(gè)索引的可調(diào)整權(quán)重/值取卷積函數(shù)的偏導(dǎo)數(shù)。

      一經(jīng)減小或放大執(zhí)行函數(shù)之后,另一圖像/版本86n可以被前饋110b穿過低保真分類器108a,以提供進(jìn)一步的訓(xùn)練。如所示的,另一圖像/版本86n可以具有不同比例。如通過第一和第二圖像/版本86a/n的兩個(gè)放大示例示出的,比例不同也是相對(duì)于所示的被分類對(duì)象94a的分辨率的不同。

      首先,可以隨機(jī)選擇低保真分類器108a內(nèi)的各種可調(diào)整權(quán)重/值,可以基于其它網(wǎng)絡(luò)訓(xùn)練來初始化各種可調(diào)整權(quán)重/值和/或可以基于各種圖像處理技術(shù)來初始化各種可調(diào)整權(quán)重/值。同樣地,在一些示例中,可以通過無監(jiān)督學(xué)習(xí)過程來確定一個(gè)或多個(gè)層。可以以類似的方式來訓(xùn)練高保真分類器,如參照下列附圖中所說明的。

      參照?qǐng)D6,在高保真分類器116a的訓(xùn)練環(huán)境中說明了高保真分類器116a,高保真分類器可以用作多級(jí)圖像分析系統(tǒng)中的第二級(jí)。其中如上文所述,低保真分類器108訓(xùn)練所針對(duì)的下采樣圖像86a-n在訓(xùn)練過程期間提供速度和靈活性并且在以第一級(jí)別分類、檢測和/或定位第一道路場景圖像中的對(duì)象94期間提供速度和廣泛的覆蓋范圍,而高保真分類器116可以被訓(xùn)練用于以第二級(jí)別提供改進(jìn)的精確性,以實(shí)現(xiàn)沒有或基本上沒有遺漏和沒有假警報(bào)的準(zhǔn)確性目標(biāo)。同樣地,由于利用高保真分類器116提供另外的準(zhǔn)確性,可以針對(duì)關(guān)于低保真分類器108所選定的候選區(qū)域的高召回率和/或靈敏度訓(xùn)練低保真分類器108,信任高保真分類器116以移除不相關(guān)的候選區(qū)域。

      如同低保真分類器108a,高保真分類器116a可以實(shí)施cnn20。同樣地,圖6中的高保真分類器116a是簡單的符號(hào)并且因此為了便于說明在僅三個(gè)過濾器46-2a到46-2n情況下僅利用單個(gè)卷積層26說明。再次地,實(shí)際的高保真分類器116可以實(shí)施關(guān)于圖2說明的用于cnn20的任何可能的組合,包括神經(jīng)網(wǎng)絡(luò)部分28。由于高保真分類器116發(fā)揮不同的作用,高保真分類器116和低保真分類器108的具體結(jié)構(gòu)可以變化或不變。

      此外,由于不同的作用,利用第二cnn20的高保真分類器116a可操作用于在第二數(shù)據(jù)集合82b上訓(xùn)練,第二數(shù)據(jù)集合82b與被用于訓(xùn)練低保真分類器108a的第一數(shù)據(jù)集合82a不同。第二數(shù)據(jù)集合82b——在本發(fā)明中也被稱作高分辨率訓(xùn)練集合82b或簡單地稱為圖像集合82b——可以包括圖像88a-n。這些圖像88a-n也可以被裁剪。然而,相對(duì)于被用于訓(xùn)練低保真分類器108a的第一數(shù)據(jù)集合82a中的圖像/版本86a-n,這些圖像88a-n也可以保持在更高的分辨率和/或保真度。在針對(duì)多種不同尺寸和/或比例而訓(xùn)練高保真分類器116a的一些示例中,更小尺寸/比例的圖像88的分辨率可以小于第一數(shù)據(jù)集合82a中的更大比例的圖像/版本86的分辨率。然而,在共有尺寸/比例下,第二數(shù)據(jù)集合82b中圖像被設(shè)置為比第一數(shù)據(jù)集合82a中的那些更高的分辨率。

      在一些示例中,第二數(shù)據(jù)集合82b中的圖像88a-n可以包括與用于產(chǎn)生第一數(shù)據(jù)集合82a相同的圖像88a-n,但沒有下采樣98和/或具有較少的下采樣98。此外或可選地,第二數(shù)據(jù)集合82b可以包括新的和不同的但可比的圖像88,為了訓(xùn)練高保真分類器116a而選擇該圖像88。為了繼續(xù)并且使高保真分類器更好地檢驗(yàn)低保真分類器108a所選擇的候選區(qū)域,第二數(shù)據(jù)集合82b中的圖像88可以利用標(biāo)簽100來標(biāo)記,標(biāo)簽100來自與關(guān)于第一數(shù)據(jù)集合82a所用的那些標(biāo)簽相同的標(biāo)簽集合102a。

      當(dāng)在第二數(shù)據(jù)集合82b上訓(xùn)練時(shí),高保真分類器116a可以與標(biāo)簽集合102相關(guān)地在高保真下重新分類道路場景圖像區(qū)域,該區(qū)域覆蓋區(qū)塊、可能的區(qū)域和/或由低保真分類器108a選定的候選區(qū)域。以這種方式,可以使用高保真分類器116a確認(rèn)根據(jù)標(biāo)簽集合102a分類的對(duì)象94的描述。由于增加的分辨率,高保真分類器116a的訓(xùn)練時(shí)間會(huì)增加,但仍可以在相對(duì)容易的情況下通過低保真分類器108a作出調(diào)整和微調(diào)。

      為了說明訓(xùn)練過程,示出了來自第二數(shù)據(jù)集合82b的示例圖像88a。第二數(shù)據(jù)集合82b可以存儲(chǔ)在與第一數(shù)據(jù)集合82a相同的數(shù)據(jù)庫集合84a或不同的數(shù)據(jù)庫集合84b中。如同在低保真分類器108a的說明中說明的圖像/版本86a/n,針對(duì)停車標(biāo)志94a的可分類對(duì)象94利用標(biāo)簽100a標(biāo)記圖像88a。

      圖像88a可以被前饋110c通過高保真分類器116a從輸入層42c到達(dá)輸出層58c,這可以提供圖像88a描述被分配給輸出層58c的一個(gè)或多個(gè)節(jié)點(diǎn)60ba-bn的一個(gè)或多個(gè)可分類對(duì)象94的概率。如同低保真分類器108a,如果該概率和通過標(biāo)簽100a表明的數(shù)值之間的差在可接受量以上,那么可以應(yīng)用上述反向傳播114b過程??梢詫?shí)施和/或迭代反向傳播114,直至解決任何顯著的差。在該點(diǎn),來自數(shù)據(jù)集合82b的接下來的圖像88可以被前饋110通過高保真分類器116a并且重復(fù)該過程。再次地,裁剪的被標(biāo)記圖像88a-n的數(shù)量可以從幾千變到幾百萬。

      在第二數(shù)據(jù)集合82b和/或候選扇區(qū)/區(qū)域/范圍中的高分辨率可以提供另外的信息,利用該信息以改進(jìn)在道路場景圖像上實(shí)施檢測、分類和/或定位的準(zhǔn)確性。然而,由于來自道路場景圖像的候選區(qū)域的數(shù)量被低保真分類器108a限制,在沒有導(dǎo)致過高量的計(jì)算和/或時(shí)間的情況下,為了實(shí)施輔助和/或自主駕駛應(yīng)用,高保真分類器116a可以被包括在多層多級(jí)系統(tǒng)中。因此,一經(jīng)低保真分類器108a和高保真分類器116a被訓(xùn)練,就可以為了實(shí)施輔助和/或自主駕駛應(yīng)用而應(yīng)用低保真分類器108a和高保真分類器116a分類、檢測和/或定位圖像中被分類的對(duì)象94。

      參照?qǐng)D7,示出了下采樣模塊118。下采樣模塊118可以實(shí)施在處理器集合和/或不同的處理器集合上。下采樣模塊118通過將圖像122下采樣98為圖像122的下采樣圖像/版本120來產(chǎn)生來自固定在車輛上的攝像機(jī)116的圖像122的下采樣版本120,攝像機(jī)116捕捉迎面而來的道路場景。一經(jīng)下采樣,就可以利用圖像分析系統(tǒng)的低保真分類器108a來分析下采樣圖像/版本120。

      如同下采樣訓(xùn)練集合82a,在一些示例中,確定關(guān)于任何或全部維度的因子以用于保持下采樣版本120a的熵相對(duì)于來自攝像機(jī)16的圖像122a的熵的預(yù)定百分比、比率或絕對(duì)值,下采樣模塊118可以利用該因子下采樣98c道路場景圖像122a。再次地,熵的預(yù)定百分比可以來自以百分之八十為中心并且在百分之八十以上和以下擴(kuò)展百分之五的范圍。在一些示例中,可以將該因子確定的盡可能的高,同時(shí)將下采樣版本120a中的熵保持在一定比例或絕對(duì)值的預(yù)定閾值之上。

      在圖7示出的示例中,初始道路場景圖像122a具有1280乘以960的分辨率尺寸,但任何數(shù)量的不同分辨率是可行的。由于利用因子四下采樣98c道路場景圖像122a,下采樣版本120a具有320乘以240的分辨率。然而,再次地,對(duì)于下采樣版本120a而言,任何數(shù)量的不同下采樣因子和/或分辨率是可行的。為了道路場景圖像122a和下采樣版本120a兩者中捕捉的視野的快速和廣泛和/或詳盡的初步分析,下采樣版本120a可以被反饋到低保真分類器108a的輸入層42b。

      如所示的,捕捉的視野可以變化。以示例但并非限制的方式,在圖7中示出了相對(duì)于七十度和八十度的方位角的視角限定的可能的視野。其它非限制性示例可以包括十五度和三百六十度。也可以利用相對(duì)于豎直維度成類似的各種視野角度來限定可能的視野。

      同樣在圖7中示出了下采樣版本120a的一部分124a,該部分描述一些迎面而來的道路場景。在一些示例中,整個(gè)下采樣版本120a可以作為一系列重疊的子區(qū)域反饋到低保真分類器108a的輸入層42b。在其它示例中,下采樣版本120a的任何數(shù)量的不同重疊部分124可以被反饋到不同示例的低保真分類器108a以同時(shí)處理。不同重疊部分124可以在每個(gè)尺寸上重疊多個(gè)像素,該尺寸對(duì)應(yīng)于低保真分類器108a中的最大過濾器46在對(duì)應(yīng)尺寸上的多個(gè)單元,以使整個(gè)下采樣版本120a被處理,如同在單個(gè)示例低保真分類器108a上并且沒有分割地處理,分割是如同關(guān)于圖3b所述的現(xiàn)有技術(shù)的方法中的。所示部分124a是九十六個(gè)像素乘以九十六個(gè)像素的尺寸,但任何數(shù)量的不同尺寸是可行的。

      參照?qǐng)D8,示出了提取的重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n(在本發(fā)明中也被稱作區(qū)塊和/或范圍)的集合,其覆蓋下采樣版本120a。為了便于說明,示出了下采樣版本120a的部分124a而并非是整個(gè)下采樣版本。然而,為了說明的目的,可以將下采樣版本120a的部分124a看作是下采樣版本120a的代表。

      重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n可以由一個(gè)或多個(gè)滑動(dòng)窗口128a-n限定,滑動(dòng)窗口128a-n具有與不同組的重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n的尺寸相等的尺寸。一些示例可以包括位于與低保真分類器108a相同的處理器集合或另一處理器集合上的窗口模塊130和/或應(yīng)用模塊132。窗口模塊130可操作用于從下采樣版本120a中分離重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n,如能夠針對(duì)區(qū)域集合——在本發(fā)明中也稱作重疊區(qū)域集合、重疊區(qū)塊集合和/或縮放區(qū)域集合——利用至少一個(gè)窗口128a-d完全跨越下采樣版本120a滑動(dòng)134來框定。

      窗口模塊130可以將重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n應(yīng)用136到低保真分類器108a。類似地,在可選示例中,應(yīng)用模塊132可以通過將低分辨率圖像120a的重疊區(qū)域126-1a到126-1n、126-2a到126-2n、126-3a到126-3n、126-4a到126-4n應(yīng)用136到低保真分類器108a來徹底檢查134低分辨率圖像120a捕捉的全部視野。由于區(qū)域集合的每個(gè)區(qū)域126被應(yīng)用136到低保真分類器108a,因此在它被前饋110通過低保真分類器108a時(shí)與過濾器46-3a到46-3n卷積138。

      為了產(chǎn)生應(yīng)用136于低保真分類器108a的區(qū)域集合,窗口模塊130和/或應(yīng)用模塊132可以使窗口128從第一區(qū)域126以預(yù)定步長滑動(dòng)134跨過下采樣版本120a和/或下采樣版本120a的部分124a。該步長可以是水平、豎直或兩者都有的一個(gè)像素。然而,只要步長間存在足夠的重疊以使被分離區(qū)域126內(nèi)的可分類對(duì)象94居中并且準(zhǔn)確地定位該對(duì)象,每個(gè)步長中不同數(shù)量的像素也是可行的。在一些示例中,可以使用環(huán)境信息來改變下采樣版本120a和/或它的部分124a的不同區(qū)域的步長。區(qū)域(region)126、區(qū)(zone)126和/或區(qū)塊(section)126可以被分離和/或包括在來自每個(gè)位置的區(qū)域集合中,滑動(dòng)窗口128存在于該位置。因此,在給定窗口尺寸的區(qū)域集合內(nèi)的區(qū)塊126的數(shù)量可以等于下采樣版本120a和/或它的部分124a尺寸減去窗口128的對(duì)應(yīng)尺寸在每個(gè)維度上再減去一所得的乘積。

      因此,通過因子四下采樣98可以將應(yīng)用到低保真分類器108a的區(qū)域的數(shù)量從尺寸為1280乘960的道路場景圖像122a的1228800減少到76000,或減少兩個(gè)數(shù)量級(jí),其中在圖像邊界應(yīng)用零填充。如果尺寸為九十六乘九十六的部分124被應(yīng)用到多個(gè)示例低保真分類器108a,被應(yīng)用136的區(qū)域126的數(shù)量可以減少到9216??梢悦靼椎氖?,這樣的減少大大加速了分類、檢測和/或定位可分類對(duì)象94的過程。在多個(gè)不同尺寸或比例的滑動(dòng)窗口128a-n被應(yīng)用到下采樣版本120a和/或部分124a時(shí),尤其如此。

      在這樣的示例中,第一窗口128a可以具有第一尺寸集合,第一尺寸集合與第二窗口128b的第二尺寸集合不同。第一窗口128a、第二窗口128b和/或另外的窗口128c、n可以各自滑動(dòng)134跨越下采樣版本120a和/或部分124a。在該示例中,第一尺寸和第二尺寸和/或任何另外滑動(dòng)窗口128c、n的尺寸可以對(duì)應(yīng)于不同比例,在圖像122a的下采樣版本120a中可以以該比例潛在地描述和檢測該類別的集合。換言之,窗口模塊130和/或分離模塊132可以從下采樣圖像120a或它的部分中分離縮放區(qū)域的集合,其中縮放區(qū)域集合中的縮放區(qū)域126具有與第一滑動(dòng)窗口128a的尺寸不同的尺寸并且與縮放滑動(dòng)窗口128b的縮放尺寸相稱。

      在該示例中,區(qū)域集合可以包括不同尺寸/比例的多個(gè)子集合,例如具有與第一尺寸相稱的尺寸的第一重疊區(qū)域126-1a到126-1n的第一區(qū)域子集合,以及具有與第二尺寸相稱的尺寸的第二重疊區(qū)域126-2a到126-2n的第二區(qū)域子集合。同樣地,在一些但并非全部這樣的示例中,下采樣訓(xùn)練集合82a可以包括第一下采樣版本86的第一下采樣子集合,該子集合具有與第一尺寸相稱的尺寸。下采樣訓(xùn)練集合82a也可以包括具有第二下采樣版本86的第二下采樣子集合,該子集合具有與第二尺寸相稱的尺寸。如關(guān)于下列附圖中所說明的,低保真分類器108a可以從潛在描述可分類對(duì)象94的區(qū)域集合選擇一個(gè)或多個(gè)候選區(qū)域。

      參照?qǐng)D9,示出了多層多級(jí)圖像分析系統(tǒng)140。圖像分析系統(tǒng)140可以包括低保真分類器108a,低保真分類器108a之后是高保真分類器116a。在一些示例中,多級(jí)圖像分類系統(tǒng)140可以包括攝像機(jī)16連同處理器集合142上的低保真分類器108a和高保真分類器116a兩者。在一些示例中,一個(gè)或多個(gè)gpu62b可以被包括在處理器集合142內(nèi),處理器集合142實(shí)施低保真分類器108a和/或高保真分類器116a。

      如關(guān)于第一幅圖所說明的,可操作為安裝在機(jī)動(dòng)車輛10上的攝像機(jī)16可以如此安裝以捕捉一系列的道路場景圖像122。這樣的攝像機(jī)16可以以滿足預(yù)定閾值的幀速率捕捉迎面而來的道路場景的一系列的圖像122。預(yù)定閾值可以包括上文關(guān)于圖1討論的任何示例。

      此外,系統(tǒng)140可以包括圖像隊(duì)列144,圖像隊(duì)列144可以被實(shí)施為(但不限于)緩沖器集合,圖像隊(duì)列144可操作為使由攝像機(jī)機(jī)16捕獲的迎面而來的道路場景的一系列圖像122按順序排隊(duì)。同樣,在一些示例中,該系統(tǒng)可以包括下采樣模塊118,其可操作用于將道路場景圖像122下采樣98d為低分辨率圖像/版本120。在一些示例中,圖像隊(duì)列144可以排隊(duì)直接來自攝像機(jī)16的圖像122。在其它示例中,如圖9所示的示例,圖像隊(duì)列144可以存儲(chǔ)圖像122的下采樣版本120。此外,一些示例可以提供直接來自攝像機(jī)16的圖像122的圖像隊(duì)列144的部分以及下采樣版本120的另一部分。

      一經(jīng)道路場景圖像122a或它的部分124a的下采樣版本120b被前饋110d通過低保真分類器108a,低保真分類器108a就可以從重疊區(qū)域集合選擇一個(gè)或多個(gè)可能的區(qū)域146a-n,該重疊區(qū)域集合是由窗口模塊130和/或聚合模塊132分離/提取的。

      可以利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)20實(shí)施的低保真分類器108a可以被訓(xùn)練或可操作用于在第一數(shù)據(jù)集合82a上訓(xùn)練,以相對(duì)于標(biāo)簽集合102a分類一個(gè)或多個(gè)區(qū)塊144,區(qū)塊144來自道路場景圖像122的跨越下采樣版本120或它的一部分124的重疊區(qū)塊126a-n的集合。因此,低保真分類器108a可以選擇一個(gè)或多個(gè)可能的區(qū)域,低保真分類器108a針對(duì)該區(qū)域表明存在屬于可被低保真分類器108a分類的對(duì)象類別的對(duì)象94存在的概率。在一些示例中,應(yīng)用模塊132可操作用于記錄潛在區(qū)域146a-n的集合,其中低保真分類器108a識(shí)別根據(jù)標(biāo)簽集合102a可分類的對(duì)象94的潛在說明。在低保真分類器108a針對(duì)多種尺寸或比例進(jìn)行訓(xùn)練的示例中,低保真分類器108a可以從縮放區(qū)域集合中選擇縮放區(qū)域146n,其中低保真分類器108a表明可被低保真分類器108a分類的縮放對(duì)象94存在的概率。

      之后,多級(jí)系統(tǒng)140可以將低保真分類器108a選定的一個(gè)或多個(gè)可能的區(qū)域1446a-n或候選區(qū)域146a-n前饋110e通過高保真分類器116a。在將候選扇區(qū)146a-n應(yīng)用于可以實(shí)施第二cnn20的高保真分類器116a表明一個(gè)或多個(gè)候選扇區(qū)146a-n中存在一個(gè)或多個(gè)可分類對(duì)象94的情況下,高保真分類器116a可以確定一個(gè)或多個(gè)對(duì)象94的存在。在候選區(qū)域146a-n包括多個(gè)尺寸/比例和/或針對(duì)多個(gè)尺寸/比例而訓(xùn)練高保真分類器116a的示例中,高保真分類器116a可以確認(rèn)縮放對(duì)象94的存在,其中應(yīng)用110e候選縮放扇區(qū)146n產(chǎn)生縮放對(duì)象94存在的概率。在一些示例中可以包括確定模塊148,確定模塊148可操作為通過將高保真分類器116a應(yīng)用到候選區(qū)域146a-n的集合來確定被確認(rèn)的區(qū)域集合。

      多級(jí)系統(tǒng)140可以是多層的,以在候選區(qū)域146a-n被應(yīng)用到高保真分類器116a之前先使低保真分類器108a選擇候選區(qū)域146a-n。然而,在低保真分類器108a已經(jīng)發(fā)現(xiàn)至少一個(gè)候選區(qū)域146的一些示例中,低保真分類器108a可以繼續(xù)搜索低保真分類器108a還未針對(duì)一個(gè)或多個(gè)另外的候選區(qū)域146而應(yīng)用到的重疊區(qū)域集合中的區(qū)域126。同時(shí),高保真分類器116a同時(shí)可以通過將對(duì)應(yīng)于先前發(fā)現(xiàn)的至少一個(gè)候選區(qū)域的一個(gè)或多個(gè)扇區(qū)應(yīng)用于高保真分類器116a來確認(rèn)一個(gè)或多個(gè)對(duì)象94的存在或描述。

      此外,圖像分析系統(tǒng)140可操作為通過在一系列圖像中的單個(gè)圖像122上應(yīng)用上述技術(shù)以同樣滿足預(yù)定閾值的處理速率來處理一系列的圖像。如所述的,預(yù)定閾值可以設(shè)置為針對(duì)機(jī)動(dòng)車輛10對(duì)一系列圖像中的分類信息的預(yù)定輔助和/或自主響應(yīng)提供足夠的時(shí)間。低保真分類器108a和高保真分類器116a中的一個(gè)或兩個(gè)的參數(shù)可以被設(shè)置為相對(duì)于至少一個(gè)gpu62b和/或處理器集合142的計(jì)算能力而限制低保真分類器108a和/或高保真分類器116a的計(jì)算要求。

      這樣的參數(shù)可以包括但不限于卷積層26的數(shù)量、一個(gè)或多個(gè)卷積層26的深度、應(yīng)用在單獨(dú)卷積神經(jīng)元/節(jié)點(diǎn)36的過濾器46的尺寸、隱藏層54的數(shù)量、一個(gè)或多個(gè)隱藏層54的深度、輸出層58的深度和/或其它這種參數(shù)??梢钥刂七@些參數(shù),以實(shí)現(xiàn)以提供對(duì)一系列圖像中的分類信息的實(shí)時(shí)訪問的預(yù)定速率處理一系列圖像。在該示例中,處理器142集合中的gpu集合62b可實(shí)施第一和/或第二cnn20以利用gpu62b的并行處理能力。再次地,這樣的能力可以使第一和/或第二cnn20以一定速率處理一系列的道路場景圖像,該速率為針對(duì)處理的一系列道路場景圖像中的分類信息的預(yù)定輔助和/或自主車輛響應(yīng)提供時(shí)間。

      在一些示例中,由多級(jí)系統(tǒng)140提供的一系列道路場景圖像122的分類、檢測和/或定位信息可以自身被用于輔助和/或自主駕駛應(yīng)用。在其它示例中,由多級(jí)系統(tǒng)140提供的分類、檢測和/或定位信息可以與來自一個(gè)或多個(gè)另外的設(shè)備(上文關(guān)于圖1所說明的)的信息結(jié)合用于輔助和/或自主駕駛應(yīng)用。在這樣的示例中,可以使用處理器集合142或一些其它處理器集合上實(shí)施的聚合模塊150。聚合模塊150可操作用于使低保真分類器108a應(yīng)用于來自攝像機(jī)16的圖像122下采樣版本120的詳盡覆蓋范圍,與對(duì)區(qū)域集合的應(yīng)用相同,以向來自另外的成像子系統(tǒng)——如雷達(dá)子系統(tǒng)12和/或激光雷達(dá)子系統(tǒng)14——的信息提供冗余。此外和/或可選地,來自多級(jí)系統(tǒng)140的信息可以提供另一成像子系統(tǒng)提供的分類信息缺少的遺漏的分類、檢測和/或定位信息和/或改進(jìn)其統(tǒng)計(jì)可靠性。

      參照?qǐng)D10,示出了另外的基礎(chǔ)設(shè)施,可以依靠該設(shè)施連接多級(jí)系統(tǒng)140中的低保真分類器108a和高保真分類器116a??梢允褂眠@樣的基礎(chǔ)設(shè)施來克服不同的分辨率,低保真分類器108a和高保真分類器116a針對(duì)該不同分辨率進(jìn)行訓(xùn)練。這樣的基礎(chǔ)設(shè)施可以包括映射模塊152。映射模塊152可操作用于將從下采樣版本120或它的一部分124a中選擇的可能區(qū)域146映射154到圖像122或它的一部分158的高分辨率版本的扇區(qū)156a(在本發(fā)明中也被稱作小片156a和/或區(qū)域156a)??梢圆捎迷S多不同的方法來映射154,例如但不限于當(dāng)滑動(dòng)窗口128提取相應(yīng)的候選區(qū)域146時(shí)考慮滑動(dòng)窗口128的位置并將其在多個(gè)維度上的位置乘以下采樣因子。

      當(dāng)針對(duì)不同的尺寸/比例訓(xùn)練多級(jí)系統(tǒng)140時(shí),映射模塊152可以將下采樣版本120或它的一部分124中的縮放區(qū)域126映射154到高分辨率版本122的縮放扇區(qū)156。在一些示例中,關(guān)于前述附圖介紹的確定模塊148可操作用于將潛在區(qū)域146集合投射到道路場景圖像122的高保真版本上,從而產(chǎn)生候選區(qū)域集合,該候選區(qū)域集合被前饋110通過高保真分類器116a。

      以示例方式,描述行人70的可分類對(duì)象94b的特定扇區(qū)156a可以利用對(duì)應(yīng)卷積138通過過濾器46和其它運(yùn)算被前饋110f通過高保真分類器116a。在輸出層58d,被訓(xùn)練用于提供扇區(qū)156a描述可分類對(duì)象94b的概率的節(jié)點(diǎn)60ca可以穿過閾值,該閾值表明檢測,通過校驗(yàn)符號(hào)表明。作出檢測的輸出層58d中的具體節(jié)點(diǎn)60ca可以用于提供分類信息,即檢測對(duì)象94b是行人70,其可以是分配給具體輸出節(jié)點(diǎn)60ac的類別。而且,用于將區(qū)塊126映射154到具體扇區(qū)156a的相同的信息可以被用于確定初始圖像122中被描述對(duì)象94b或行人70的位置160。

      參照?qǐng)D11,流程圖200示出了利用多級(jí)圖像分析系統(tǒng)140來快速、準(zhǔn)確和全面分類、檢測和/或定位圖像122中的可分類對(duì)象94的步驟。這樣的系統(tǒng)140可以利用圍繞一對(duì)cnn20構(gòu)建的低保真分類器108a和高保真分類器116a來構(gòu)建。流程圖示出了根據(jù)示例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的潛在實(shí)施方式的結(jié)構(gòu)、功能和/或運(yùn)算。在這方面,流程圖中的每個(gè)框可以代表模塊、段或代碼部分,其包含用于實(shí)施特定邏輯函數(shù)的一種或多種可執(zhí)行指令。也可以注意到的是,可以由執(zhí)行特定功能或動(dòng)作的專用的基于硬件的系統(tǒng)或?qū)S玫挠布陀?jì)算機(jī)指令的組合來實(shí)施流程圖的每個(gè)框以及流程圖中框的組合。

      在涉及計(jì)算機(jī)程序指令的情況下,可以向通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器提供這些指令以產(chǎn)生機(jī)器,以使通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行的指令,產(chǎn)生用于實(shí)施流程圖和/或框或多個(gè)框中規(guī)定的功能/動(dòng)作的方式。這些計(jì)算機(jī)編程指令也可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,計(jì)算機(jī)可讀介質(zhì)可以指示計(jì)算機(jī)以特定方式工作,以使存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令生產(chǎn)制品,包括實(shí)施流程圖和/或框或多個(gè)框中規(guī)定的功能/動(dòng)作的指令方式。

      也應(yīng)指出的是,在一些可選的實(shí)施方式中,框中所述的功能可以不按照所示的順序發(fā)生。在特定實(shí)施例中,相繼示出的兩個(gè)框?qū)嶋H上可以基本上同時(shí)執(zhí)行,或根據(jù)所涉及的功能,有時(shí)框可以以相反的順序執(zhí)行??蛇x地,可以省略特定步驟或功能。

      與圖11一致的方法200中的操作可以以訓(xùn)練操作202和測試操作204來分組。一些示例可以僅涉及訓(xùn)練操作202,其它可以僅涉及測試操作204,同時(shí)另外的其它示例可以涉及202、204兩者。在涉及202、204兩者的示例中,可以通過以一個(gè)或多個(gè)不同的比例裁剪208一個(gè)或多個(gè)不同對(duì)象94的圖像88來開始206該方法200。之后利用所附的對(duì)應(yīng)標(biāo)簽100下采樣210被裁剪的圖像88。

      可以作出確定212,該確定關(guān)于下采樣版本86的熵相對(duì)于初始圖像88是否減少到預(yù)定數(shù)值和/或比率。如果答案是否,方法200可以返回以進(jìn)一步下采樣210一個(gè)或多個(gè)先前被下采樣的版本86。如果答案是肯定的,方法200可以通過在下采樣圖像/版本86的所得的下采樣數(shù)據(jù)集合82a上訓(xùn)練214低保真分類器108a來繼續(xù)。此外,可以在高分辨率數(shù)據(jù)集合82b上訓(xùn)練216高保真分類器116a,高分辨率數(shù)據(jù)集合82b由被裁剪的初始圖像88組成。

      方法200可以通過下采樣218測試圖像122而繼續(xù)到測試操作204。當(dāng)具有與區(qū)域126相稱的尺寸的窗口128滑動(dòng)穿過下采樣測試圖像120時(shí),可以在低保真分類器108a上測試下采樣測試圖像120的每個(gè)區(qū)域126??梢宰鞒龃_定222,該確定是關(guān)于低保真分類器108a是否選擇候選區(qū)域126作為潛在描述可分類對(duì)象94。如果答案是否,方法200可以繼續(xù)測試下采樣版本102的另外的區(qū)域126。然而,如果答案是肯定的,那么方法可以檢索224與候選區(qū)域146對(duì)應(yīng)的高分辨率圖像122的一個(gè)或多個(gè)扇區(qū)156。與候選區(qū)域146對(duì)應(yīng)的每個(gè)高分辨率扇區(qū)156可以在高保真分類器116a上測試226,這可以確認(rèn)或不確認(rèn)所描述的被分類對(duì)象94的存在,并且該方法結(jié)束228。

      在不脫離其精神或本質(zhì)特征的情況下,本發(fā)明可以具體化為其它具體形式實(shí)施。所描述的示例在所有方面被認(rèn)為僅是說明性的而不是限制性的。因此,本發(fā)明的范圍由所附權(quán)利要求書表明,而不是由上述說明表明。在權(quán)利要求的等同含義和范圍內(nèi)的所有改變將被包括在其保護(hù)范圍內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1