專利名稱:面部群集設備、面部群集方法和程序的制作方法
技術領域:
本發(fā)明涉及面部群集(face clustering)設備、面部群集方法和程序。
背景技術:
近年來,一種高效管理視頻中包含的人物等的面部信息的方法正引起關注。例如, JP-A-2009-81883公開了一種提供資源數(shù)據(jù)的方法,該資源數(shù)據(jù)使得用戶能夠很容易掌握視頻中包含的人物的面部信息和人物的出現(xiàn)場景。另外,JP-A-2010-3021公開了一種通過在檢測視頻中包含的面部信息時聚集同一人的面部信息并從所聚集的面部特征量中去除不適于面部群集的面部信息來實現(xiàn)面部群集的加速和精度增強的方法。
發(fā)明內(nèi)容
然而,在以視頻中包含的所有人物的面部信息作為對象執(zhí)行面部群集的情況下, 需要大的存儲容量和高的計算能力。考慮到前述問題,希望提供一種新穎且改進的面部群集設備、面部群集方法和程序,其能夠以更高效率、更高精度來群集面部信息。根據(jù)本發(fā)明的一個實施例,提供了一種面部群集設備,包括面部檢測單元、面部方向檢測單元、面部辨別單元、單位群組設置單元和群集單元,面部檢測單元檢測包含在圖像中的面部,面部方向檢測單元檢測由面部檢測單元檢測出的面部的方向,面部辨別單元考慮由面部方向檢測單元檢測出的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合,單位群組設置單元針對由面部辨別單元形成的多條面部信息的每個集合,基于由面部方向檢測單元檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組,群集單元以由單位群組設置單元設置的單位群組為單位、執(zhí)行基于每個單位群組中包括的多條面部信息的群集。當由單位群組設置單元設置的單位群組被表示為第一單位群組并且基于第k(k =1至N)單位群組設置的單位群組被表示為第k+Ι單位群組時,群集單元可以對于k = 2 至N依次執(zhí)行以下操作取第一單位群組中存在于按預定的第一時間T1劃分得到的每個區(qū)間中的單位群組作為對象,合并具有相似特征的單位群組以設置第二單位群組,并且取第k 單位群組中存在于按預定的第k時間Tk(Tk > Tlri)劃分得到的每個區(qū)間中的單位群組作為對象,合并具有相似特征的單位群組以設置第k+Ι單位群組。群集單元可包括第一合并單元和第二合并單元,第一合并單元以設在所有單位群組中的每條面部信息作為對象,基于每條面部信息的相似度來合并具有相似特征的單位群組,第二合并單元使用設在每個個體單位群組中的面部信息,基于每個個體單位群組的相似度來合并具有相似特征的單位群組。第一合并單元可以以第i(l ^ i ^N)單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作,并且第二合并單元可以以第j(j興i)單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作。群集單元可以被配置為不合并與基本上同一時間相對應的兩個單位群組。
當以第i (1 < i < N)單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作時,第一合并單元可以重復執(zhí)行該操作直到合并不再發(fā)生為止。單位群組設置單元可以縮窄面部信息的條數(shù),使得與分開的時間相對應的多條面部信息易于被設置在同一單位群組中。第二合并單元可以以至少第一單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作。當合并具有相似特征的單位群組時,群集單元可以保持設在合并前的單位群組中的多條面部信息以及表示合并前的單位群組和合并后的單位群組之間的對應關系的分層 fn息ο根據(jù)本發(fā)明的另一實施例,提供了一種面部群集方法,包括以下步驟檢測包含在圖像中的面部;檢測在檢測面部的步驟中檢測出的面部的方向;考慮在檢測方向的步驟中檢測出的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合;針對在檢測和形成步驟中形成的多條面部信息的每個集合,基于在檢測方向的步驟中檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組;以及以在縮窄步驟中設置的單位群組為單位,基于每個單位群組中包括的多條面部信息來執(zhí)行群集。根據(jù)本發(fā)明的另一實施例,提供了一種用于使計算機實現(xiàn)以下功能的程序面部檢測功能,用于檢測包含在圖像中的面部;面部方向檢測功能,用于檢測由面部檢測功能檢測出的面部的方向;面部辨別功能,用于考慮由面部方向檢測功能檢測出的面部的方向來檢測具有相似特征的面部并形成表示該面部的特征的多條面部信息的集合;單位群組設置功能,用于針對由面部辨別功能形成的多條面部信息的每個集合,基于由面部方向檢測功能檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組;以及群集功能,用于以由單位群組設置功能設置的單位群組為單位,執(zhí)行基于每個單位群組中包括的多條面部信息的群集。根據(jù)本發(fā)明的另一實施例,提供了一種記錄有該程序的記錄介質(zhì),該記錄介質(zhì)能夠被計算機讀取。根據(jù)上述本發(fā)明的實施例,可以更高效率、更高精度地對面部信息進行群集。
圖1是用于描述根據(jù)本發(fā)明一個實施例的信息處理裝置的示例性功能配置的示意圖;圖2是用于描述根據(jù)該實施例的面部群集方法(總體處理流程)的示意圖;圖3是用于描述根據(jù)該實施例的面部群集方法(總體處理流程)的示意圖;圖4是用于描述根據(jù)該實施例的面部群集方法(總體處理流程)的示意圖;圖5是用于描述根據(jù)該實施例的面部群集方法(初始設置)的示意圖;圖6是用于描述根據(jù)該實施例的面部群集方法(生成參與者信息)的示意圖;圖7是用于描述根據(jù)該實施例的面部群集方法(執(zhí)行參與者群集)的示意圖;圖8是用于描述根據(jù)該實施例的面部群集方法(執(zhí)行對象層分析)的示意圖9是用于描述根據(jù)該實施例的面部群集方法(執(zhí)行合并處理)的示意圖;圖10是用于描述根據(jù)該實施例的面部群集方法(更新參與者信息)的示意圖;圖11是用于描述根據(jù)該實施例的面部群集方法(最終群集)的示意圖;圖12是用于描述根據(jù)該實施例的面部群集方法(參與者信息的構成)的示意圖;圖13是用于描述根據(jù)該實施例的面部群集方法(參與者信息的構成)的示意圖;圖14是用于描述根據(jù)該實施例的面部群集方法(參與者信息的構成)的示意圖;圖15是用于描述根據(jù)該實施例的面部群集方法(初步-最終方案)的示意圖;圖16是用于描述根據(jù)該實施例的面部群集方法(第一群集方案)的示意圖;圖17是用于描述根據(jù)該實施例的面部群集方法(第一群集方案)的示意圖;圖18是用于描述根據(jù)該實施例的面部群集方法(第一群集方案)的示意圖;圖19是用于描述根據(jù)該實施例的面部群集方法(第一群集方案)的示意圖;圖20是用于描述根據(jù)該實施例的面部群集方法(第一群集方案)的示意圖;圖21是用于描述根據(jù)該實施例的面部群集方法(第二群集方案)的示意圖;圖22是用于描述根據(jù)該實施例的面部群集方法(性能改善措施1)的示意圖;圖23是用于描述根據(jù)該實施例的面部群集方法(性能改善措施2、的示意圖;圖M是用于描述根據(jù)該實施例的面部群集方法(性能改善措施幻的示意圖;圖25是用于描述根據(jù)該實施例的面部群集方法(性能改善措施4)的示意圖;以及圖沈是用于描述根據(jù)該實施例的信息處理裝置的示例性硬件配置的示意圖。
具體實施例方式下文中將參考附圖詳細描述本發(fā)明的優(yōu)選實施例。注意,在該說明書和附圖中,具有基本相同的功能和結構的結構元件被用相同的附圖標記表示,并且對這些結構元件的重復說明被省略。[描述流程]這里將簡要提及下面要描述本發(fā)明實施例的描述流程。首先,將參考圖1簡要描述根據(jù)該實施例的信息處理裝置100的功能配置。然后,將參考圖2至25詳細描述根據(jù)該實施例的信息處理裝置100的操作和面部群集方法。然后,將參考圖沈描述信息處理裝置 100的示例性硬件配置。最終,將總結該實施例的技術構思并簡要描述由該技術構思獲得的操作效果。(描述項目)1 實施例1-1 信息處理裝置100的配置1-2 信息處理裝置100的操作(面部群集方法)1-2-1 第一群集方案1-2-2 第二群集方案1-2-3:應用步驟1-3 性能改善措施1-3-1 性能改善措施1
1-3-2 性能改善措施21-3-3 性能改善措施31-3-4 性能改善措施41-4 示例性硬件配置2 總結<1.實施例 >將描述本發(fā)明的一個實施例。本實施例涉及一種群集關于從圖像序列(例如連拍圖像或視頻)中檢測出的個人的信息(例如,面部信息等)的方法(下文中稱為面部群集方法)。具體而言,本實施例涉及一種按預定單位(下文中稱為參與者)管理關于從圖像序列中檢測出的個人的信息的方法。下面將以面部信息作為關于個人的信息的具體例子來描述對面部信息進行群集的方法。[1-1 信息處理裝置100的配置]首先,將參考圖1簡要描述根據(jù)本實施例的能夠?qū)崿F(xiàn)面部群集方法的信息處理裝置100的示例性功能配置。圖1是示出信息處理裝置100的示例性功能配置的示意圖。如圖1所示,信息處理裝置100主要包括顯示單元101、存儲單元102、數(shù)據(jù)獲取單元103、面部識別單元104、參與者生成單元105和參與者群集單元106。此外,參與者群集單元106包括第一群集單元1061和第二群集單元1062。顯示單元101是用于顯示圖像的裝置。例如,顯示單元101讀取存儲在存儲單元 102中的圖像序列并顯示該圖像序列。另外,顯示單元101顯示從圖像序列中提取的面部圖像。此外,顯示單元101針對每個人物顯示面部圖像出現(xiàn)在圖像序列中的區(qū)間和與該區(qū)間相對應的面部圖像。存儲單元102是用于保存數(shù)據(jù)的裝置。例如,存儲單元102保存形成圖像序列的每個圖像。另外,存儲單元102保存面部識別單元104、參與者群集單元106等 (后面將描述)所提取或選擇的圖像序列中的面部圖像。數(shù)據(jù)獲取單元103從存儲單元102獲取形成圖像序列的每個圖像。這里,在存儲單元102所保存的圖像已被編碼的情況下,數(shù)據(jù)獲取單元103對從存儲單元102獲取的圖像進行解碼。例如,在圖像序列通過諸如MPEG-2、MPEG-4、H. 264/AVC等之類的編碼方案被編碼的情況下,數(shù)據(jù)獲取單元103基于相應的編碼方案對每個圖像進行解碼。另外,在形成圖像序列的每個圖像通過諸如JPEG等之類的編碼方案被編碼的情況下,數(shù)據(jù)獲取單元103基于相應的編碼方案對每個圖像進行解碼。以這種方式由數(shù)據(jù)獲取單元103從存儲單元102 獲取的每個圖像被輸入到面部識別單元104。面部識別單元104檢測包含在從數(shù)據(jù)獲取單元103輸入的每個圖像中的面部圖像。以圖像作為輸入的、能夠判斷“面部性”的學習器可以用于面部圖像的檢測。例如,通過基于Haar類特征創(chuàng)建多個弱學習器并將這些弱學習器應用于自適應增強(AdaBoost), 可以獲得用于計算“面部性”的學習器(見JP-A-2010-3021)。然而,面部圖像的檢測方法并不限于此。例如,還可以想到一種基于兩個像素之間的亮度差的組合(下文中稱為像素差特征)來創(chuàng)建多個弱學習器并將這些弱學習器應用于自適應增強(Adaptive Boosting) 的方法。利用這種增強方法,可以檢測與面部圖像相對應的面部的方向、三維位置等,或者可以檢測具有相似特征的面部圖像。面部識別單元104利用上述方法來檢測包含在每個圖像中的面部圖像。另外,面部識別單元104檢測與每個面部圖像相對應的面部的方向、三維位置等。然后,面部識別單元104檢測出現(xiàn)在圖像序列中的面部圖像中具有相似特征的面部圖像。然后,面部識別單元104向具有相似特征的面部圖像分配相同的標識信息(下文中稱為面部ID)并與面部圖像的檢測時間(下文中稱為檢測時間)相關聯(lián)地管理這些面部圖像。例如,面部ID、檢測時間、面部信息等與每個面部圖像相關聯(lián)。另外,上述面部信息是指示面部圖像的特征的特征量。例如,面部信息包括面部的方向、面部的三維位置、年齡、性別、像素差特征等等。另外,年齡、性別等還可以通過機器學習(例如上述的增強方法)來檢測。此外,以下配置也是可以的,其中用戶向通過面部檢測檢測出的面部圖像分配諸如年齡和性別之類的信息。這樣,用于比較面部圖像之間的相似度的信息被包含在上述面部信息中。因而,好好地利用面部信息將能夠判斷從圖像序列中檢測出的面部圖像是否為同一人的面部圖像。面部識別單元104以上述方式檢測出的面部圖像以及與面部圖像相對應的面部 ID、檢測時間和面部信息被輸入到參與者生成單元105。參與者生成單元105是用于生成本實施例的面部群集方法的群集對象(參與者)的裝置。這里的參與者對應于出現(xiàn)在圖像序列中的每個人。即,參與者生成單元105生成指示每個參與者的特征的參與者信息。參與者信息是由面部識別單元104檢測出的面部信息的集合形成的。這里,圖12中將示出與個人A相對應的參與者信息的例子。如圖12所示,參與者信息具有預定數(shù)目的特征量位置(feature quantityslot),將向這些特征量位置指派面部信息。另外,特征量位置對應于將向其指派面部信息的存儲區(qū)。在參與者信息中提供的特征量位置的類型和數(shù)目可以任意設定。在圖12的例子中,對于一條參與者信息提供了與面部的三個方向(面向左、面向前、面向右)相對應的三個特征量位置。在本實施例的情況下, 可以指派給每個特征量位置的面部信息的條數(shù)限于預定數(shù)目。因而,即使從圖像序列中檢測出極大數(shù)目的面部圖像,表征一個參與者的面部信息的條數(shù)也是有限的。在圖12中,按檢測時間的順序示出了面部ID = A的多條面部信息。在下面的描述中,按照從最早開始的檢測時間的順序賦予從1開始的編號,并且面部信息的面部ID和檢測時間(檢測順序)例如通過表示符Al、A2、...A8示出在一起。此外,在圖12的例子中,為每個特征量位置提供四個空位(可以向其指派面部信息的存儲區(qū))。因而,向每個特征量位置可以指派最多四條面部信息?;趫D12的例子給出說明,參與者生成單元105根據(jù)面部的方向?qū)Π磿r間順序排列的多條面部信息進行分類,如圖13所示(步驟1)。接下來,參與者生成單元105按照檢測時間的順序向與面部方向相對應的特征量位置指派面部信息(步驟2)。然而,由于可以指派給每個特征量位置的面部信息的條數(shù)是有限的,因此在檢測時間順序上靠后的面部信息不被指派給特征量位置。因而,如圖14所示,參與者生成單元 105將已經(jīng)指派給特征量位置的面部信息(下文中稱為現(xiàn)有面部信息)與要指派給特征量位置的面部信息(下文中稱為新面部信息)相比較,并選擇最適當?shù)拿娌啃畔?。例如,參與者生成單元105將新面部信息A8與現(xiàn)有的多條面部信息A3、A4、A6和A7相比較,并且如果新面部信息A8被確定為比現(xiàn)有面部信息A4更為適當,則參與者生成單元105選擇新面部信息A8。然后,參與者生成單元105利用新面部信息A8替換現(xiàn)有面部信息A4 (步驟3)。另外,在選擇最適當?shù)拿娌啃畔⒌臅r候,參與者生成單元105在現(xiàn)有面部信息和新面部信息之間比較諸如“面部性”、“與個人A的面部的相象”、“與另一面部信息的相似度” 等等的分數(shù),并選擇具有較高分數(shù)的面部信息。可以優(yōu)先選擇“幾乎面向前的面部”或者“模糊度更低或失焦更小的面部”(利用這種信息更容易辨別面部)。參與者生成單元105通過重復圖14中所示的步驟3的處理來生成參與者信息。另外,參與者生成單元105針對每個面部ID生成參與者信息。因此,每條參與者信息由面部ID、指派給特征量位置的面部信息等等來表征。另外,圖12至14中示出了一種配置,其中為每個“面部方向”提供特征量位置,但是并不限于該例子。將再次參考圖1。由參與者生成單元105以上述方式生成的參與者信息被輸入到參與者群集單元106。參與者群集單元106通過逐個參與者地執(zhí)行群集來執(zhí)行參與者的縮窄。根據(jù)本實施例的參與者群集單元106通過分層群集方案(下文中稱為初步-最終方案)來執(zhí)行參與者的縮窄,如圖15所示。首先,參與者群集單元106取參與者(面部圖像) 被首次檢測到的時刻taS作為分析起始時刻tbS,并選擇從分析起始時刻tbS起的預定時間段tbR(下文中稱為分析區(qū)間)中所包含的參與者作為群集對象。在圖15的例子中,參與者B和C被包括在包含參與者A的分析區(qū)間中。在這種情況下,參與者群集單元106以參與者A、B和C為對象執(zhí)行群集。相似地,E被包括在包含參與者D的分析區(qū)間中,因而參與者群集單元106以參與者D和E為對象執(zhí)行群集。此外,G 被包括在包含參與者F的分析區(qū)間中,因而參與者群集單元106以參與者F和G為對象執(zhí)行群集。另外,由于參與者H未納入包含參與者F的分析區(qū)間中(例如,HI至H8中的H7和 H8留在分析區(qū)間外),它將會成為下一分析區(qū)間中的群集對象。以這種方式執(zhí)行第一層中的群集,并且具有相似特征的參與者被合并。在圖15的例子中,參與者B與參與者A合并,參與者D與參與者E合并,并且參與者I及J被與參與者H合并。這里的合并意味著將被指派給與作為合并坐標的參與者相對應的參與者信息的特征量位置的面部信息重新指派給與合并之后的參與者相對應的參與者信息的特征量位置(例如參見圖25)。例如,在合并參與者D(被指派面部信息Dl和D2)與參與者E(其位置數(shù)為2并且被指派面部信息El)的情況下,最適當?shù)膬蓷l面部信息被從面部信息El、Dl 和D2中選出并被指派給合并之后的參與者E。當?shù)谝粚又袇⑴c者群組的群集完成時,參與者群集單元106利用合并之后的參與者群組作為對象來執(zhí)行第二層中的群集。這里,第二層中的分析區(qū)間的長度被設定為長于第一層中的分析區(qū)間。當?shù)诙又械娜杭瓿蓵r,參與者群集單元106在存儲單元102中存儲關于已通過第二層中的群集合并的參與者群組(第三層中的參與者群組)的信息。另外,盡管在圖15中示出了三層的情況,但是層級的數(shù)目可以被設定為4或更大。此外,每層中的群集方法將在后面描述。通過上述群集方案合并的頂層中的參與者群組被假定代表相同的人。因此,顯示單元101針對每個參與者顯示與頂層中的各個參與者相對應的面部圖像的出現(xiàn)場景。利用針對每個參與者顯示的出現(xiàn)場景,用戶能夠很容易掌握哪個人出現(xiàn)在圖像序列中的哪個時隙中。另外,上述群集方案是取具有有限數(shù)目的位置的參與者信息作為單位來執(zhí)行的,因而在確定參與者之間的相似性時要分析的面部信息的條數(shù)可以保持較少,并且用于實現(xiàn)該方案所需的諸如存儲容量和計算能力之類的條件可以得到緩解。在前述內(nèi)容中,已簡要描述了根據(jù)本實施例的信息處理裝置100的功能配置。然而,在上面的說明中省略了群集方案的詳細說明。因而,下面將結合對信息處理裝置100的操作的描述來詳細描述面部群集方法。另外,參與者群集單元106中包括的第一群集單元 1061和第二群集單元1062的功能將在后面描述。[1-2 信息處理裝置100的操作(面部群集方法)]下面將參考圖2至25詳細描述根據(jù)本實施例的信息處理裝置100的操作和面部群集方法。另外,根據(jù)本實施例的面部群集方法涉及基于上述參與者信息(見圖12至14) 的群集方案。如圖2所示,信息處理裝置100執(zhí)行初始設置(SlOl)。如圖5所示,該初始設置是在三步中進行的,即,路由節(jié)點的設置(S201),層級數(shù)目的設置(S202),以及對每層的參數(shù)設置(S2(X3)。如上所述,根據(jù)本實施例的面部群集方法基于圖15中所示的初步-最終方案。為了實現(xiàn)該初步-最終方案,對參數(shù)的設置將是必需的,例如直到頂層為止的層級的數(shù)目(群集的執(zhí)行次數(shù))和每層中分析區(qū)間的長度。這些參數(shù)在步驟SlOl中被設置。另外, 對參數(shù)的設置是由信息處理裝置100基于用戶輸入執(zhí)行的。將再次參考圖2。在步驟SlOl之后,信息處理裝置100利用數(shù)據(jù)獲取單元103的功能按時間順序重新排列內(nèi)容(S1(^)。例如,在多個視頻和靜止圖像被包括在存儲單元 102中的情況下,數(shù)據(jù)獲取單元103基于分配給視頻和靜止圖像的數(shù)據(jù)的時間信息來重新排列存儲在存儲單元102中的數(shù)據(jù)。接下來,信息處理裝置100利用數(shù)據(jù)獲取單元103的功能從存儲單元102獲取諸如視頻或靜止圖像之類的內(nèi)容數(shù)據(jù)(Sl(XB)。然后,信息處理裝置100利用數(shù)據(jù)獲取單元103的功能判斷所獲取的內(nèi)容數(shù)據(jù)是否為視頻(S104)。在內(nèi)容數(shù)據(jù)是視頻的情況下,信息處理裝置100的處理進行到步驟S121(圖3)。 另一方面,在內(nèi)容數(shù)據(jù)不是視頻的情況下,信息處理裝置100的處理進行到步驟S105。在處理進行到步驟S105的情況下,信息處理裝置100判斷內(nèi)容數(shù)據(jù)是否為靜止圖像(S105)。 在內(nèi)容數(shù)據(jù)是靜止圖像的情況下,信息處理裝置100的處理進行到步驟S106。另一方面,在內(nèi)容數(shù)據(jù)不是靜止圖像的情況下,信息處理裝置100的處理進行到步驟S141 (圖4)。(內(nèi)容數(shù)據(jù)是靜止圖像的情況)在處理進行到步驟S106的情況下,信息處理裝置100利用面部識別單元104的功能從靜止圖像中檢測面部圖像(S106)。接下來,信息處理裝置100判斷是否從靜止圖像中檢測出面部圖像(S107)。在檢測出面部圖像的情況下,信息處理裝置100的處理進行到步驟S108。另一方面,在未檢測出面部圖像的情況下,信息處理裝置100的處理進行到步驟 S141(圖 4)。在處理進行到步驟S108的情況下,信息處理裝置100利用參與者生成單元105的功能生成參與者信息(S108)。這里,與步驟S108中參與者信息的生成有關的處理流程將參考圖6補充描述。如圖6所示,首先,參與者生成單元105定義參與者(S211)。例如,在檢測出個人 A的面部圖像的情況下,參與者生成單元105生成個人A的一幀參與者信息,如圖12所示。 例如,參與者生成單元105生成一幀參與者信息,其包括與面部的方向相對應的多個特征量位置并且根據(jù)該幀參與者信息可以向每個特征量位置指派四條面部信息。接下來,參與者生成單元105以圖13和14中所示的步驟1至步驟3的方式向形成參與者信息的特征量位置指派面部信息并執(zhí)行面部信息的登記(S212)。然后,參與者生成單元105選擇代表每個參與者的面部圖像(下文中稱為代表性面部圖像),并通過使面部圖像與參與者信息相關聯(lián)來登記代表性面部圖像(S213)。當上述處理完成時,與圖2的步驟S108中參與者信息的生成有關的處理完成。將再次參考圖2。在步驟S108之后,信息處理裝置100利用參與者群集單元106 的功能執(zhí)行基于初步-最終方案的群集(下文中稱為參與者群集)(S109)。這里,參考圖7 補充描述與步驟S109中參與者群集有關的處理流程。如圖7所示,參與者群集單元106獲取參與者的出現(xiàn)起始時刻taS(見圖15) (S221)。接下來,參與者群集單元106按照從較低層起的次序順序地選擇要作為群集對象的層級(S22》。然后,參與者群集單元106獲取在步驟S222中選擇的層級中的分析起始時刻tbS和分析區(qū)間的長度(范圍持續(xù)時間tbR) (S223)。然后,參與者群集單元106判斷 tbS+tbR是否小于taS (S224)。在tbS+tbR小于taS的情況下,參與者群集單元106的處理進行到步驟S225。另一方面,在tbS+tbR不小于taS的情況下,參與者群集單元106的處理進行到步驟S227。在處理進行到步驟S225的情況下,參與者群集單元106對作為分析對象的層級 (下文中稱為對象層)執(zhí)行分析(S22Q。這里,將參考圖8補充描述與步驟S225中對象層的分析有關的處理流程。如圖8所示,首先,參與者群集單元106獲取對象層中的分析起始時刻tbS和范圍持續(xù)時間tbR(S231)。接下來,參與者群集單元106獲取包含在時刻tbS到時刻(tbS+tbR) 的分析區(qū)間中的參與者信息(S23》。然后,參與者群集單元106利用在步驟S232中獲取的多條參與者信息執(zhí)行合并具有相似特征的參與者的合并處理(S23!3)。這里,將參考圖9補充描述步驟S233中合并處理的流程。如圖9所示,首先,參與者群集單元106選擇合并算法(第一群集方案(見圖16 至20)、第二群集方案(見圖21))(SM1)。另外,將在后面描述第一群集方案和第二群集方案。接下來,參與者群集單元106利用所選的合并算法計算參與者之間的相似度(S242)。 然后,參與者群集單元106針對合并之后剩余的若干條參與者信息生成新的參與者信息幀 (S243)。然后,參與者群集單元106組織包含在合并前的多條參與者信息中的多條面部信息,選擇要包含在合并后的多條參與者信息中的適當條數(shù)的面部信息,并將各條面部信息登記在新的多條參與者信息中(SM4)。即,參與者群集單元106將具有高相似度的參與者識別為與同一人相對應的參與者,并生成與參與者相對應的參與者信息。如上所述,可以指派給每條參與者信息的特征量位置的面部信息的條數(shù)是有限的。因而,參與者群集單元106從包含在合并前的兩條參與者信息中的多條面部信息中選擇要包含在合并后的參與者信息中的適當?shù)拿娌啃畔ⅲ⑺x的面部信息指派給新的參與者信息。當上述處理完成時,圖8中步驟S233的合并處理完成。將再次參考圖8。當多條參與者信息在步驟S233中被合并時,參與者群集單元106 取合并后的參與者信息作為下一更高層級中的分析對象(S234)。當上述處理完成時,圖7 中步驟S225的分析處理完成。將再次參考圖7。在步驟S225之后,參與者群集單元106將tbS設為等于 taS(S2^),并且處理進行到步驟S227。當處理進行到步驟S227時,參與者群集單元106判斷作為對象層的下一更高層級是否為頂層(S227)。在該層是頂層的情況下,參與者群集單元106的處理進行到步驟S2^。另一方面,在該層不是頂層的情況下,參與者群集單元106 將對象層移動到下一更高層級,并且處理進行到步驟S222。在處理進行到步驟的情況下,參與者群集單元106將頂層中的參與者信息添加至最低層中的分析對象(S228)。當上述處理完成時,與圖2中步驟S109的參與者群集有關的處理完成。當步驟S109的處理完成時,信息處理裝置100的處理進行到步驟S141 (圖 4)。如圖4所示,信息處理裝置100判斷對所有內(nèi)容片段的分析是否已完成(S141)。 在對所有內(nèi)容片段的分析已完成的情況下,信息處理裝置100的處理進行到步驟S142。另一方面,在對所有內(nèi)容片段的分析未完成的情況下,信息處理裝置100的處理進行到步驟 S103(圖2、。在處理進行到步驟S142的情況下,信息處理裝置100利用參與者群集單元 106的功能執(zhí)行最終群集處理(S14》。這里,將參考圖11補充描述步驟S142中的群集處理的流程。如圖11所示,首先,參與者群集單元106按照從低層起的順序選擇對象層 (S261)。接下來,參與者群集單元106獲取對象層中的分析起始時刻tbS和范圍持續(xù)時間 tbR(S262)。然后,參與者群集單元106對對象層執(zhí)行分析(S^;3)。與步驟S263中對對象層的分析有關的處理流程基本上與已參考圖8描述的步驟S225(圖7)的處理相同。接下來,參與者群集單元106利用作為對象層的下一更高層級是否為頂層 (S264)。在該層是頂層的情況下,參與者群集單元106結束與圖4中的步驟S142有關的群集處理。另一方面,在該層不是頂層的情況下,參與者群集單元106的處理進行到步驟 S265。在處理進行到步驟S265的情況下,參與者群集單元106將對象層移動到下一更高層級,并且處理進行到步驟S261。當上述處理完成時,圖4中步驟S142的群集處理完成。將再次參考圖4。在步驟 S142之后,信息處理裝置100更新存儲在存儲單元102中的參與者信息的數(shù)據(jù)庫(下文中稱為參與者信息DB) (S143)。當參與者信息DB被更新時,顯示單元101基于更新后的參與者信息DB顯示每個參與者的面部信息、面部信息的出現(xiàn)時刻、等等。然后,信息處理裝置 100響應于該顯示內(nèi)容判斷是否有來自用戶的用于校正參與者信息的輸入(S144)。在有校正輸入的情況下,信息處理裝置100的處理進行到步驟S143。另一方面,在沒有校正輸入的情況下,信息處理裝置100結束處理序列。(內(nèi)容數(shù)據(jù)是視頻的情況)現(xiàn)在,在圖2的步驟S104中內(nèi)容數(shù)據(jù)是視頻的情況下,信息處理裝置100的處理進行到步驟S121(圖3)。如圖3所示,首先,信息處理裝置100利用數(shù)據(jù)獲取單元103的功能從存儲單元 102中讀取視頻幀(S121)。此時,如果存儲在存儲單元102中的視頻數(shù)據(jù)是已被編碼的數(shù)據(jù),則數(shù)據(jù)獲取單元103對視頻數(shù)據(jù)進行解碼并生成未編碼的視頻幀。然后,信息處理裝置 100例如利用面部識別單元104的功能檢測包含在視頻幀中的面部圖像或者檢測面部的方向、三維位置等等(S122)。接下來,信息處理裝置100利用面部識別單元104的功能判斷是否要開始與在步驟S122中檢測出的面部圖像有關的面部跟蹤(S12!3)。在開始面部跟蹤的情況下,信息處理裝置100的處理進行到步驟S1M。另一方面,在不開始面部跟蹤的情況下,信息處理裝置 100的處理進行到步驟S125。在處理進行到步驟SlM的情況下,信息處理裝置100將面部識別單元104的面部跟蹤的結果、面部信息等等輸入到參與者生成單元105,并生成參與者信息(S124)。與步驟SlM中參與者信息的生成有關的處理流程基本上與已參考圖6描述的步驟S108(圖2)的處理相同。當步驟SlM的處理完成時,信息處理裝置100的處理進行到步驟S125。當處理進行到步驟S125時,信息處理裝置100判斷是否繼續(xù)面部跟蹤(S12Q。在繼續(xù)面部跟蹤的情況下,信息處理裝置100的處理進行到步驟SU6。另一方面,在不繼續(xù)面部跟蹤的情況下, 信息處理裝置100的處理進行到步驟S127。在處理進行到步驟S127的情況下,信息處理裝置100利用參與者生成單元105的功能更新參與者信息(S127)。這里,將參考圖10補充描述與圖3的步驟S127中參與者信息的更新有關的處理流程。如圖10所示,首先,參與者生成單元105獲取要作為更新對象的參與者信息 (S251)。接下來,參與者生成單元105檢查形成所獲取的參與者信息的特征量位置中的空位(S25》。然后,參與者生成單元105通過步驟S252的檢查判斷是否存在空位(S25!3)。在存在空位的情況下,參與者生成單元105的處理進行到步驟S254。另一方面,在不存在空位的情況下,參與者生成單元105的處理進行到步驟S255。在處理進行到步驟S2M的情況下,參與者生成單元105向特征量位置中的空位指派面部信息并登記面部信息(S2M),并且處理進行到步驟S258。另一方面,在處理進行到步驟S255的情況下,參與者生成單元105計算要作為更新對象的面部信息的分數(shù)(S255)。 即,參與者生成單元105將指派給特征量位置的現(xiàn)有面部信息與新面部信息相比較,并計算用于選擇更適當?shù)拿娌啃畔⒌姆謹?shù)作為參與者信息的特征量。例如,新面部信息和所有現(xiàn)有的多條面部信息之間的相似度被計算,并且相似度的平均值被取作新面部信息的分數(shù)。另外,某些現(xiàn)有的面部信息(對象面部信息)和所有其他現(xiàn)有的多條面部信息之間的相似度被計算,并且相似度的平均值被取作對象面部信息的分數(shù)。即,該分數(shù)指示了作為具有相似特征的多條面部信息被收集的多條面部信息的集合的相似程度。因此,具有高分數(shù)的面部信息強烈地反映了現(xiàn)有的多條面部信息的特征,并且可以認為適合于由現(xiàn)有的多條面部信息形成的集合。另外,作為除了相似度以外的分數(shù)的度量,可以使得“幾乎面向前的面部”或者“模糊度更低或失焦更小的面部”(利用這種信息更容易辨別面部)的分數(shù)為高。另外,上述分數(shù)并不限于多條面部信息之間的相似度的平均值或者“幾乎面向前的面部”或者“模糊度更低或失焦更小的面部”的值,而可以是任何指標,只要可以確定要包含在參與者信息中的面部信息的優(yōu)先度即可。接下來,參與者生成單元105判斷新面部信息的分數(shù)是否高于現(xiàn)有的多條面部信息的分數(shù)中的最低分數(shù)(S256)。在其高于最低分數(shù)的情況下,參與者生成單元105的處理進行到步驟S257。另一方面,在其不高于最低分數(shù)的情況下,參與者生成單元105的處理進行到步驟S258。在處理進行到步驟S257的情況下,參與者生成單元105將現(xiàn)有的多條面部信息中具有最低分數(shù)的面部信息與新面部信息相交換(S257),并且處理進行到步驟S258。當處理進行到步驟S258時,參與者生成單元105將更新后的面部信息的分數(shù)(下文中稱為更新后面部分數(shù))與對應于參與者信息的代表性面部圖像的面部信息的分數(shù)(下文中稱為代表性面部分數(shù))進行比較,并且判斷更新后面部分數(shù)是否高于代表性面部分數(shù)(S258)。在更新后面部分數(shù)高于代表性面部分數(shù)的情況下,參與者生成單元105的處理進行到步驟S259。另一方面,在更新后面部分數(shù)不高于代表性面部分數(shù)的情況下,參與者生成單元105結束與圖3的步驟SU6中參與者信息的更新有關的處理。在處理進行到步驟 S259的情況下,參與者生成單元105將現(xiàn)有的代表性面部圖像更新為與新面部信息相對應的面部圖像(S259),并且結束與圖3的步驟SU6中參與者信息的更新有關的處理。將再次參考圖3。當與步驟SU6中參與者信息的更新有關的處理完成時,信息處理裝置100的處理進行到步驟S127。接下來,信息處理裝置判斷是否結束面部跟蹤(S127)。 在結束面部跟蹤的情況下,信息處理裝置100的處理進行到步驟SU8。另一方面,在不結束面部跟蹤的情況下,信息處理裝置100的處理進行到步驟S130。在處理進行到步驟SU8 的情況下,信息處理裝置100選擇在結束面部跟蹤之后獲得的參與者信息作為要作為群集對象的參與者信息(S128),并且處理進行到步驟SU9。接下來,信息處理裝置100利用參與者群集單元106的功能以所選的參與者信息作為對象來執(zhí)行群集(S129),并且處理進行到步驟S130。另外,與步驟SU9中參與者群集的執(zhí)行有關的處理流程基本上與已參考圖7描述的步驟5109(圖幻的處理相同。當處理進行到步驟S130時,信息處理裝置100判斷當前視頻幀是否為最終讀取幀(S130)。在它是最終讀取幀的情況下,信息處理裝置100的處理進行到步驟S141 (圖4)。另一方面,在它不是最終讀取幀的情況下,信息處理裝置100的處理進行到步驟S121。如圖4所示,信息處理裝置100判斷對所有內(nèi)容片段的分析是否已完成(S141)。 在對所有內(nèi)容片段的分析已完成的情況下,信息處理裝置100的處理進行到步驟S142。另一方面,在對所有內(nèi)容片段的分析未完成的情況下,信息處理裝置100的處理進行到步驟 S103(圖2、。在處理進行到步驟S142的情況下,信息處理裝置100利用參與者群集單元 106的功能執(zhí)行最終群集處理(S142)。接下來,信息處理裝置100更新存儲在存儲單元102中的參與者信息的數(shù)據(jù)庫 (參與者信息DB) (S143)。當參與者信息DB被更新時,顯示單元101基于更新后的參與者信息DB顯示每個參與者的面部信息、面部信息的出現(xiàn)時刻、等等。然后,信息處理裝置100 響應于該顯示內(nèi)容判斷是否有來自用戶的校正參與者信息的輸入(S144)。在有校正輸入的情況下,信息處理裝置100的處理進行到步驟S143。另一方面,在沒有校正輸入的情況下, 信息處理裝置100結束處理序列。在前述內(nèi)容中,已經(jīng)描述了根據(jù)本實施例的信息處理裝置100的操作和面部群集方法。然而,省略了根據(jù)初步-最終方案的群集方法(第一群集方案、第二群集方案)的詳細說明。因而,下面將描述根據(jù)本實施例的第一群集方案和第二群集方案。(1-2-1 第一群集方案)首先,將參考圖16至20描述根據(jù)本實施例的第一群集方案。另外,基于第一群集方案的群集是由包含在參與者群集單元106中的第一群集單元1061實現(xiàn)的。如圖16所示,第一群集方案是基于包含在作為群集對象的所有參與者信息中的每條參與者信息的相似度的方案。另外,最初給出的每條參與者信息是例如利用在 JP-A-2010-3021中描述的確定單元通過面部識別方法或面部跟蹤方法檢測出的相似面部信息的集合。當使用面部跟蹤方法時,同一人的具有不同方向的面部的多條面部信息可以被包含在同一參與者信息中。然而,即使這多條面部信息是同一人的,具有很大不同方向的面部的多條面部信息之間的相似度也較低。因此,即使這多條參與者信息對應于同一人,多條參與者信息(每條由具有不同方向的面部的面部信息形成)之間的相似度也較低。因而,第一群集方案單獨處置包含在參與者信息中的多條面部信息。在圖15的例子中,參與者B和C被包括在包含參與者A的分析區(qū)間中。因此,作為群集對象的參與者信息將是個人A、B和C的參與者信息。在這種情況下,根據(jù)第一群集方案,包含在個人A、B和C的參與者信息中的所有面部信息都將是群集對象,如圖16所示。 下面將具體描述上述個人A、B和C的參與者信息被取作群集對象的情況。另外,如圖16所示,個人A的參與者信息包括面部信息A1、A2、. . . A5。另外,個人B的參與者信息包括面部信息Bi、B2、. . . B8。此外,個人C的參與者信息包括面部信息Cl、C2、· · · C9。當參與者信息A、B和C被給出時,第一群集單元1061從每條參與者信息中提取出面部信息Al、. . .A5、B1、. . .B8及Cl、. . . C9。然后,第一群集單元1061為每條面部信息計算相似度,并通過聚集具有高相似度的多條面部信息來生成群集,如圖17所示。另外,每條面部信息的相似度例如是基于表征各個面部圖像的特征量向量之間的歐幾里得(Euclidean) 距離來計算的。接下來,第一群集單元1061基于包含在多條面部信息中的面部的方向來對這多條面部信息分類。圖17中示出了對群集(1)分類的例子。在圖17的例子中,面部信息A2、 A5、Bi、C7、C8和C9被分類為“面部方向=前”,面部信息B3和B6被分類為“面部方向= 右”。此外,在該例子中,沒有面部信息被分類為“面部方向=左”。接下來,第一群集單元1061為每個面部方向生成加權系數(shù)。該加權系數(shù)指示群集 (1)的每個面部方向的重要程度。例如,該加權系數(shù)是基于被分類為每個面部方向的面部信息的條數(shù)來計算的。在群集(1)的例子中,被分類為左的面部信息的條數(shù)是0,被分類為前的面部信息的條數(shù)是6,而被分類為右的面部信息的條數(shù)是2。然后,使得與具有最大條數(shù)的方向相對應的加權系數(shù)為1,并且根據(jù)面部信息的條數(shù)確定與其他方向相對應的加權系數(shù)。例如,在群集(1)的情況下,與前相對應的加權系數(shù)被計算為1,與左相對應的加權系數(shù)被計算為0,并且與右相對應的加權系數(shù)被計算為2/8 = 0. 25。此外,第一群集單元1061基于計算出的加權系數(shù)計算每條參與者信息的分數(shù)。該分數(shù)被計算作為“與參與者信息相對應的面部信息的條數(shù)χ加權系數(shù)”的總和。例如,根據(jù) “(左)加權系數(shù)OX條數(shù)0+(前)加權系數(shù)IX條數(shù)2+(右)加權系數(shù)0. 25 X條數(shù)0”,與個人A的參與者信息相對應的分數(shù)是2。類似地,根據(jù)“(左)加權系數(shù)OX條數(shù)0+(前) 加權系數(shù)IX條數(shù)1+(右)加權系數(shù)0. 25 X條數(shù)2”,與個人B的參與者信息相對應的分數(shù)是1.5。此外,根據(jù)“(左)加權系數(shù)OX條數(shù)0+(前)加權系數(shù)IX條數(shù)3+(右)加權系數(shù)0. 25 X條數(shù)0”,與個人C的參與者信息相對應的分數(shù)是3。上述分數(shù)被用于選擇將作為臨時代表的參與者信息。例如,在群集(1)的情況下,由于與個人A的參與者信息相對應的分數(shù)是2,與個人B的參與者信息相對應的分數(shù)是 1. 5,與個人C的參與者信息相對應的分數(shù)是3,因此個人C的參與者信息被選為臨時代表。 該臨時代表指示與群集(在這種情況下是群集(1))相對應的個人的估計值。即,群集(1) 被估計是指示個人C的特征的多條面部信息的集合。第一群集單元1061還為群集(2)和 (3)計算參與者信息的分數(shù),并根據(jù)計算結果為每個群集選擇臨時代表。
如圖18所示,對于圖17中所示的群集(1)至(3),分別選擇了臨時代表C、C和B。 因而,如圖18所示,形成每個群集的每條面部信息都將伴隨有指示臨時代表的標簽。具體而言,包括在臨時代表C的群集(1)中的面部信息A2被示為面部信息A2c,其標簽c指示所添加的臨時代表C。當使用該表示方法時,包括在群集(1)至C3)中的面部信息將被表示為圖18的中部所示。此外,當多條面部信息照原樣被重新排序為與各個人相對應的原始參與者信息時,它將被表示為如圖18的下部所示。在圖18的例子中,與個人A相對應的參與者信息包括面部信息Alc、A2c、A3c、A4b 和A5c。類似地,與個人B相對應的參與者信息包括面部信息Blc、B2b、B3c、B4b、B5b、B6c、 B7b和B^。此外,與個人C相對應的參與者信息包括面部信息Clc、C2c、C3c、C4c、C5c、C6c、 C7c、C8c 和 C9c。S卩,與臨時代表B相對應的一條面部信息和與臨時代表C相對應的四條面部信息被包含在與個人A相對應的參與者信息中。另外,與臨時代表B相對應的五條面部信息和與臨時代表C相對應的三條面部信息被包含在與個人B相對應的參與者信息中。此外,與臨時代表C相對應的九條面部信息被包含在與個人C相對應的參與者信息中。當提取針對每個臨時代表計算出的面部信息的條數(shù)最大的臨時代表的類型時,對于與個人A相對應的參與者信息而言它將是臨時代表C,對于與個人B相對應的參與者信息而言它將是臨時代表B,對于與個人C相對應的參與者信息而言它將是臨時代表C。從該結果估計出個人A和個人C非??赡苁峭蝗恕R蚨?,第一群集單元1061將個人A的參與者信息與個人C的參與者信息合并。然后,第一群集單元1061的處理進行到稍后描述的合并后判斷。另外,分數(shù)最高的個人的參與者信息在選擇臨時代表的處理中被選為臨時代表, 但是在分數(shù)的最大值不超過預定閾值的情況下,該處理將在假定沒有臨時代表的情況下執(zhí)行。另外,在提取針對每個臨時代表計算出的面部信息的條數(shù)最大的臨時代表的類型的處理中,如果條數(shù)不超過預定閾值,則不執(zhí)行合并?,F(xiàn)在,已合并了多條參與者信息的第一群集單元1061接下來執(zhí)行合并后判斷的處理。這里的合并后判斷的處理是這樣一種處理,其考慮到實際上不會發(fā)生的情形而判斷合并結果是否正確。例如,在圖18的例子中,個人A和個人C被臨時判定為同一人,并且如果該結果是正確的,則個人A和個人C將不會同時出現(xiàn)在同一視頻幀中。因而,第一群集單元1061將形成個人A的參與者信息的面部信息的出現(xiàn)時間與形成個人C的參與者信息的面部信息的出現(xiàn)時間相比較,并判斷個人A和C是否同時出現(xiàn)。例如,在圖19的例子中,個人A和C的出現(xiàn)時間之間沒有重疊。因此,不否認個人 A和個人C是同一人。因而,第一群集單元1061將個人A的參與者信息與個人C的參與者信息合并。另一方面,在圖20的例子中,在個人A和C的出現(xiàn)時間之間存在重疊。因此,假定個人A和個人C不是同一人。因而,第一群集單元1061不將個人A的參與者信息與個人 C的參與者信息合并。另外,在諸如個人A和C的性別或年齡之類的屬性信息預先已知的情況下,在基于屬性信息個人A和C之間存在差異的情況下,第一群集單元1061不將個人 A的參與者信息與個人C的參與者信息合并。如上所述,通過執(zhí)行合并后判斷可以防止錯誤的判斷,并且可以提高群集處理的精度。另外,為了進一步提高群集處理的精度,第一群集單元1061利用合并結果再次執(zhí)行參與者信息的合并。例如,在上述例子中個人A和C的參與者信息被合并的情況下,第一群集單元1061通過上述過程選擇與合并后的參與者信息相對應的臨時代表,并判斷是否要執(zhí)行與另一參與者信息的合并。在執(zhí)行合并的情況下,第一群集單元1061再次選擇與合并后的參與者信息相對應的臨時代表,并判斷是否要執(zhí)行與另一參與者信息的合并。以這種方式,第一群集單元1061重復合并處理達特定次數(shù)或者直到合并不再發(fā)生為止。通過該重復處理進一步提高了群集處理的精度。在前述內(nèi)容中,已經(jīng)描述了根據(jù)本實施例的第一群集方案。(1-2-2 第二群集方案)接下來,將參考圖21描述根據(jù)本實施例的第二群集方案。另外,基于第二群集方案的群集處理是利用包含在參與者群集單元106中的第二群集單元1062來實現(xiàn)的。如圖21所示,基于第二群集方案的群集處理是基于多條參與者信息之間的相似度執(zhí)行的。即,與第一群集方案不同,第二群集方案不分離形成參與者信息的多條面部信肩、ο首先,第二群集單元1062選擇將作為比較對象的多條參與者信息。在圖21的例子中,個人A的參與者信息和個人B的參與者信息被選擇。已選擇了將作為比較對象的多條參與者信息的第二群集單元1062為所選的多條參與者信息計算多條面部信息之間的相似度。例如,在η條面部信息被包含在個人A的參與者信息中并且m條面部信息被包含在個人B的參與者信息中的情況下,針對nXm種組合計算多條面部信息之間的相似度。另外,可以通過計算由特征量向量等表示的面部特征量之間的歐幾里得距離來獲得多條面部信息之間的相似度。此時,第二群集單元1062考慮包含在多條面部信息中的面部的方向并將面部特征量轉換為同一面部方向(例如“前”),然后計算多條面部信息之間的相似度。接下來,第二群集單元1062對計算出的相似度進行加權平均,并計算與參與者信息的每種組合相對應的相似度分數(shù)。然后,第二群集單元1062選擇相似度分數(shù)超過預定閾值的參與者信息作為合并候選的參與者信息。然后,與第一群集方案一樣,第二群集單元1062對于作為合并候選的多條參與者信息執(zhí)行合并后判斷(見圖19和20)。例如,在形成作為合并候選的多條參與者信息的多條面部信息之間存在時間重疊的情況下,或者在基于屬性信息否認了為同一人的可能性的情況下,第二群集單元1062不合并作為合并候選的多條參與者信息。另一方面,第二群集單元1062合并作為合并候選并且通過合并后判斷不否認對應于同一人的多條參與者信息。此外,第二群集單元1062選擇將作為比較對象的其他多條參與者信息,并通過以上述相似方式執(zhí)行相似度分數(shù)的計算、 閾值判斷和合并后判斷來判斷是否要執(zhí)行合并。然后,第二群集單元1062針對多條參與者信息的所有組合判斷是否要執(zhí)行合并,并且合并被判斷為要合并的多條參與者信息。在前述內(nèi)容中,已經(jīng)描述了根據(jù)本實施例的第二群集方案。(1-2-3:應用步驟)這里,在根據(jù)圖2至11所示的本實施例的面部群集方法的處理步驟中,將補充描述應用了基于上述第一和第二群集方案的群集處理的處理步驟?;谏鲜龅谝缓偷诙杭桨傅娜杭幚肀粦糜趫D2中的步驟S109 (具體參見圖7等)、圖3中的步驟SU9 (具體參見圖7等)、以及圖4中的步驟S142(具體參見圖11等)。S卩,其被應用于圖15所示的初步-最終方案中的每層中的群集。例如,在圖2的步驟SlOl的初始設置中預先確定在哪個處理步驟中采用哪一群集方案,或者預先提供用于自動選擇的機制。用于自動選擇的機制的例子包括下面描述的例子。另外,自動選擇的處理是由參與者群集單元106執(zhí)行的。此外,可以采用現(xiàn)有的場景檢測技術來進行關于后面描述的場景的判斷。(1)在內(nèi)容數(shù)據(jù)是視頻的情況下,對于存在于多個場景上的多條參與者信息的合并,采用第一群集方案。在多個場景的序列中,面部的特征由于拍攝環(huán)境變化大而發(fā)生很大改變。因此,即使對于與同一人相對應的多條參與者信息來說,相似度分數(shù)也趨向于減小。 因而,第二群集方案不適合于存在于多個場景上的多條參與者信息的合并,而是如上所述采用第一群集方案。(2)在內(nèi)容數(shù)據(jù)是視頻,并且包括同一場景中多條面部信息的多條參與者信息要被合并的情況下,采用第一群集方案。在同一場景中,很有可能同一人出現(xiàn)在不同時間段中。因而,檢測出的多條參與者信息實際上與同一人相對應。因而,基于形成多條參與者信息的全部多條面部信息來合并多條參與者信息更加高效。具體而言,在存在與同一人相對應的三條或更多條參與者信息的情況下,第一群集方案相比于第二群集方案更加合適。因而,在合并包括同一場景中的多條面部信息的多條參與者信息的情況下,如上所述采用第一群集方案。(3)在基于第一群集方案合并了多條參與者信息之后參與者信息的條數(shù)超過預定數(shù)目的情況下,進一步采用第二群集方案。在基于各條面部信息進行群集處理的情況下,不能否認有以下可能性未能充分實現(xiàn)多條參與者信息的縮窄。在未能充分實現(xiàn)縮窄的情況下,據(jù)信通過進一步采用第二群集方案利用形成多條參與者信息的全部多條面部信息執(zhí)行群集處理能夠充分地縮窄多條參與者信息。因而,在基于第一群集方案合并了多條參與者信息之后參與者信息的條數(shù)超過預定數(shù)目的情況下,進一步采用第二群集方案。如上所述,根據(jù)場景的特征或者縮窄的狀態(tài),可以適當?shù)刈詣舆x擇第一和第二群集方案。當然,對于哪一層的群集要采用哪一種群集方案可以在初始設置中預先設定。[1-3:性能改善措施]這里,將參考圖22至25描述根據(jù)本實施例的面部群集方法的進一步性能改善措施。(1-3-1 性能改善措施1)首先,將參考圖22描述第一性能改善措施(下文中稱為性能改善措施1)。如上所述,為每條參與者信息提供了特征量位置。在生成參與者信息時,多條面部信息按照從最早開始的檢測時間的順序被指派給特征量位置中的空位。此外,在特征量位置變滿之后,按照從最早開始的檢測時間的順序執(zhí)行面部信息的更新,并且最適當?shù)拿娌啃畔⒈恢概山o特征
量位置。然而,在從連續(xù)的照片、相鄰的視頻幀等(下文中稱為近鄰區(qū)間)中檢測出多條面部信息的情況下,多條面部信息的特征將是類似的。因而,如果用從這種近鄰區(qū)間中檢測出的多條面部信息填充特征量位置的話,則對于從分離的區(qū)間檢測出的面部信息來說,特征量位置的分數(shù)將很低,并且面部信息的更新將會受到阻礙。以這種方式,如果特征量位置被從一個區(qū)間檢測出的且具有相似特征的多條面部信息所占據(jù),則參與者信息的特征將僅具有與一條面部信息的特征幾乎相同的價值度(信息量)。結果,將會喪失逐個參與者信息地進行群集處理的優(yōu)點。因此,作為性能改善措施1,參與者生成單元105的功能配置被細化以從分離的區(qū)間提取要指派給特征量位置的多條面部信息。首先,參與者生成單元105劃分面部信息的出現(xiàn)區(qū)間,并計算每個出現(xiàn)區(qū)間中面部信息的條數(shù)。此外,參與者生成單元105根據(jù)面部信息的條數(shù)計算權重,并根據(jù)計算出的權重選擇要指派給特征量位置的面部信息。根據(jù)該配置,適當?shù)亩鄺l面部信息可以從遠離的區(qū)間中被指派給特征量位置,同時考慮到近鄰區(qū)間的長度。(1-3-2 性能改善措施2)接下來,將參考圖23描述第二性能改善措施(下文中稱為性能改善措施幻。如參考圖19和20所描述的,作為合并后判斷,第一群集單元1061判斷在與作為合并對象的多條參與者信息相對應的個人的出現(xiàn)時間之間是否存在重疊。在個人的出現(xiàn)時間之間存在重疊的情況下(如圖20所示),第一群集單元1061不執(zhí)行合并。圖23的例子示出了在與臨時代表B相對應的大量面部信息被包含在個人A和C 的參與者信息中的情況下多條面部信息的檢測時刻。另外,利用粗線示出的面部信息是與臨時代表B相對應的面部信息。在這種情況下,存在以下可能性個人A、B和C是同一人, 并且個人A、B和C的參與者信息將是合并候選。然而,在圖23的例子中,在個人A和出現(xiàn)時間和個人B的出現(xiàn)時間之間有重疊。因而,通過合并后判斷判定個人A和B不是同一人。 類似地,在個人A的出現(xiàn)時間和個人C的出現(xiàn)時間之間有重疊。因而,判定個人A和C不是同一人。另一方面,在個人B的出現(xiàn)時間和個人C的出現(xiàn)時間之間沒有重疊。因而,根據(jù)參考圖19和20描述的合并后判斷,個人B和C的參與者信息將被合并。然而,基于根據(jù)臨時代表的判斷結果曾認定個人A、B和C是同一人。因此,基于上述結果,即個人A興個人C且個人A興個人B,則基于合并后判斷,間接地判定個人B興個人C。以這種方式,考慮基于臨時代表的個人同一性判斷結果和基于出現(xiàn)時間的合并后判斷的結果,可以進一步提高群集精度。(1-3-3 性能改善措施3)接下來,將參考圖M描述第三性能改善措施(下文中稱為性能改善措施幻。存在以下趨勢,即在時間和空間上靠近的個人的多條面部信息易于集合在一起。例如,同一人的面部圖像被包含在時間上靠近的圖像中的可能性很高。另外,在連續(xù)的視頻幀中,同一人的面部圖像的空間位置沒有很大改變。因而,包括在時間和空間上靠近的個人的多條面部信息的多條參與者信息更易于彼此合并。然而,在參考圖15描述的初步-最終方案的情況下,作為分析對象的多條參與者信息在低層中按照相對短的分析區(qū)間來劃分。因而,存在以下可能性靠近分析區(qū)間的邊界的多條參與者信息的相似性在低層中未被考慮在內(nèi)。因此,在低層中執(zhí)行基于第二群集方案的群集,并且如圖M所示,其結果被反映在高層中。例如,在圖M的例子中,作為在低層中執(zhí)行基于第二群集方案的群集的結果,判定個人B和個人D是同一人。例如,假定在低層中執(zhí)行基于第一群集方案的群集的情況下, 在高層中獲得了多條參與者信息A’、C’、D’和E’。在這種情況下,由于個人B和D在低層中被判定為同一人,因此與低層中的個人D相對應的高層中的參與者信息D’被與和低層中的個人B相對應的高層中的參與者信息A’相合并。以這種方式,通過考慮低層中多條參與者信息的相似性,可以進一步提高群集的精度。(1-3-4 性能改善措施4)接下來,將參考圖25描述第四性能改善措施(下文中稱為性能改善措施4)。如上所述,當兩條參與者信息合并時,這些參與者信息中包括的多條面部信息的一部分丟失。圖 25中示出了合并個人A的參與者信息與個人B的參與者信息的例子。在該例子中,面部信息Al和A2被包括在個人A的參與者信息中,并且面部信息Bi、B2、B3和B4被包括在個人 B的參與者信息中。另外,面部信息Al、B2、B3和B4被包括在合并后的參與者信息(下文中稱為合并后參與者信息)中。即,作為合并的結果,面部信息A2和Bl丟失。為了避免這種信息的丟失,需要保留層級結構及低層中的參與者信息。另外,在合并時操控面部ID和參與者信息之間的對應關系(而非面部信息和參與者信息之間的對應關系)就足夠了。通過保留層級結構及面部信息,低層中的面部信息將不會丟失,并且使用低層中的面部信息進行的額外處理將是可能的。即,通過適當?shù)乩玫蛯又械拿娌啃畔ⅲ梢蕴岣呷杭木?。在前文中,已?jīng)描述了根據(jù)本實施例的性能改善措施。[1-4:硬件配置]上述信息處理裝置100的每個結構元件的功能可以利用例如圖沈中所示的信息處理裝置的硬件配置實現(xiàn)。即,可以利用計算機程序控制圖沈中所示的硬件來實現(xiàn)每個結構元件的功能。另外,該硬件的模式是任意的,并且可以是個人計算機、諸如移動電話、PHS 或PDA之類的移動信息終端、游戲機或者各種類型的信息電器。而且,PHS是個人手持電話系統(tǒng)的縮寫。另外,PDA是個人數(shù)字助理的縮寫。如圖26所示,該硬件主要包括CPU 902、ROM 904、RAM 906、主機總線908和橋接器910。此外,該硬件包括外部總線912、接口 914、輸入單元916、輸出單元918、存儲單元 920、驅(qū)動器922、連接端口擬4和通信單元926。而且,CPU是中央處理單元的縮寫。另外, ROM是只讀存儲器的縮寫。此外,RAM是隨機訪問存儲器的縮寫。CPU 902例如用作算術處理單元或控制單元,并且基于記錄在ROM 904、RAM 906、 存儲單元920或可移動記錄介質(zhì)擬8上的各種程序來控制每個結構元件的全部操作或者一部分操作。ROM 904是用于存儲例如要加載在CPU 902上的程序或用在算術運算中的數(shù)據(jù)等的裝置。RAM 906臨時或永久地存儲例如要加載在CPU 902上的程序或在程序運行中任意改變的各種參數(shù)等。這些結構元件例如通過能夠執(zhí)行高速數(shù)據(jù)傳輸?shù)闹鳈C總線908彼此連接。另外, 主機總線908例如通過橋接器910連接到數(shù)據(jù)傳輸速度相對較低的外部總線912。此外,輸入單元916例如是鼠標、鍵盤、觸摸板、按鈕、開關或操縱桿。另外,輸入單元916可以是利用紅外線或其他無線電波發(fā)送控制信號的遙控器。輸出單元918例如是諸如CRT、IXD、PDP或ELD之類的顯示設備,諸如揚聲器或麥克風之類的音頻輸出設備,打印機,移動電話或者傳真機,其能夠可視地或可聽地向用戶通知所獲取的信息。而且,CRT是陰極射線管的縮寫。IXD是液晶顯示器的縮寫。PDP是等離子體顯示面板的縮寫。另外,ELD是電致發(fā)光顯示器的縮寫。存儲單元920是用于存儲各種數(shù)據(jù)的器件。存儲單元920例如是諸如硬盤驅(qū)動器(HDD)之類的磁存儲器件、半導體存儲器件、光存儲器件或者磁光存儲器件。HDD是硬盤驅(qū)動器的縮寫。驅(qū)動器922是讀取記錄在可移動記錄介質(zhì)928(例如磁盤、光盤、磁光盤或半導體存儲器)上的信息或者在可移動記錄介質(zhì)928中寫入信息的器件??梢苿佑涗浗橘|(zhì)擬8例如是DVD介質(zhì)、藍光(Blu-ray)介質(zhì)、HD-DVD介質(zhì)、各種類型的半導體存儲介質(zhì),等等。當然,可移動記錄介質(zhì)擬8可以是例如安裝有非接觸式IC芯片的IC卡或者電子裝置。IC是集成電路的縮寫。連接端口擬4是諸如USB端口、IEEE1394端口、SCSI、RS-232C端口、或者用于連接外部連接的設備930的端口(例如光音頻端子)之類的端口。外部連接的設備930例如是打印機、移動音樂播放器、數(shù)字相機、數(shù)字攝像機或IC記錄器。而且,USB是通用串行總線的縮寫。另外,SCSI是小型計算機系統(tǒng)接口的縮寫。通信單元擬6是要連接到網(wǎng)絡932的通信設備,并且例如是用于有線或無線LAN 的通信卡、藍牙(注冊商標)、或WUSB、光通信路由器、ADSL路由器或者各種通信調(diào)制解調(diào)器。連接到通信單元926的網(wǎng)絡932是由有線連接或無線連接的網(wǎng)絡構成的,并且例如是因特網(wǎng)、家用LAN、紅外通信、可見光通信、廣播或者衛(wèi)星通信。而且,LAN是局域網(wǎng)的縮寫。 另外,WUSB是無線USB的縮寫。此外,ADSL是非對稱數(shù)字訂戶線的縮寫。<2.總結〉最后,將簡要描述根據(jù)本發(fā)明實施例的技術內(nèi)容。這里所記載的技術內(nèi)容可以應用于各種信息處理裝置,例如個人計算機、移動電話、便攜式游戲機、便攜式信息終端、信息電器、車載導航系統(tǒng),等等。上述信息處理裝置的功能可以表示如下。該信息處理裝置由下面描述的面部檢測單元、面部方向檢測單元、面部辨別單元、單位群組設置單元和群集單元構成。面部檢測單元用于檢測圖像中所含的面部。另外,面部方向檢測單元用于檢測由面部檢測單元檢測出的面部的方向。此外,面部辨別單元用于在考慮由面部方向檢測單元檢測出的面部的方向的情況下檢測具有相似特征的面部并形成表示該面部的特征的多條面部信息的集合。另外,單位群組設置單元用于針對由面部辨別單元形成的多條面部信息的每個集合,基于由面部方向檢測單元檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將數(shù)目已縮窄的多條面部信息的每個集合設置為一個單位群組。此外,群集單元用于以由單位群組設置單元設置的單位群組作為單位、基于每個單位群組中包含的多條面部信息來執(zhí)行群集。在如上所述多條面部信息被單位群組設置單元縮窄的情況下,可以利用小存儲容量高效地執(zhí)行面部群集,即使當以從中檢測出大量面部信息的視頻等作為對象時也是如此。(注釋)面部識別單元104是面部檢測單元、面部方向檢測單元和面部辨別單元的例子。 參與者生成單元105是單位群組設置單元的例子。參與者群集單元106是群集單元的例子。 第一群集單元1061是第一合并單元的例子。第二群集單元1062是第二合并單元的例子。 參與者信息是單位群組的例子。本領域技術人員應當理解,取決于設計需求和其他因素可以發(fā)生各種修改、組合、 下位組合和變更,只要這些修改、組合、下位組合和變更在權利要求或其等同物的范圍內(nèi)。
本申請包含與2010年4月9日向日本專利局提交的日本在先專利申請JP 2010-90290中公開的內(nèi)容有關的主題,上述申請的全部內(nèi)容通過引用而結合于此。
權利要求
1.一種面部群集設備,包括面部檢測單元,用于檢測包含在圖像中的面部;面部方向檢測單元,用于檢測由所述面部檢測單元檢測出的面部的方向;面部辨別單元,用于考慮由所述面部方向檢測單元檢測出的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合;單位群組設置單元,用于針對由所述面部辨別單元形成的多條面部信息的每個集合, 基于由所述面部方向檢測單元檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組;以及群集單元,用于以由所述單位群組設置單元設置的單位群組為單位,執(zhí)行基于每個單位群組中包括的多條面部信息的群集。
2.如權利要求1所述的面部群集設備,其中,當由所述單位群組設置單元設置的單位群組被表示為第一單位群組并且基于第 k單位群組設置的單位群組被表示為第k+Ι單位群組時,其中k = 1至N,所述群集單元對于k = 2至N依次執(zhí)行以下操作取所述第一單位群組中存在于按預定的第一時間T1劃分得到的每個區(qū)間中的單位群組作為對象,合并具有相似特征的單位群組以設置第二單位群組,并且取所述第k單位群組中存在于按預定的第k時間Tk劃分得到的每個區(qū)間中的單位群組作為對象,合并具有相似特征的單位群組以設置第k+Ι單位群組,其中Tk > Th。
3.如權利要求2所述的面部群集設備,其中所述群集單元包括第一合并單元,該第一合并單元以設置在所有單位群組中的每條面部信息作為對象, 基于每條面部信息的相似度來合并具有相似特征的單位群組,以及第二合并單元,該第二合并單元利用設置在每個個體單位群組中的面部信息,基于每個個體單位群組的相似度來合并具有相似特征的單位群組,并且其中所述第一合并單元以第i單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作,并且所述第二合并單元以第j單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作,其中1 < i≤N且j乒i。
4.如權利要求3所述的面部群集設備,其中所述群集單元不合并與基本上同一時間相對應的兩個單位群組。
5.如權利要求3所述的面部群集設備,其中,當以第i單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作時,所述第一合并單元重復執(zhí)行該操作直到合并不再發(fā)生為止,其中1 < i < N。
6.如權利要求1所述的面部群集設備,其中所述單位群組設置單元縮窄面部信息的條數(shù),使得與分開的時間相對應的多條面部信息很可能被設置在同一單位群組中。
7.如權利要求3所述的面部群集設備,其中所述第二合并單元以至少所述第一單位群組為對象來執(zhí)行合并具有相似特征的單位群組的操作。
8.如權利要求1所述的面部群集設備,其中,當合并具有相似特征的單位群組時,所述群集單元保留設置在合并前的單位群組中的多條面部信息以及表示合并前的單位群組和合并后的單位群組之間的對應關系的分層{曰息。
9.一種面部群集方法,包括以下步驟 檢測包含在圖像中的面部;檢測在檢測面部的步驟中檢測出的面部的方向;考慮在檢測方向的步驟中檢測出的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合;針對在檢測和形成步驟中形成的多條面部信息的每個集合,基于在檢測方向的步驟中檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組;以及以在縮窄步驟中設置的單位群組為單位,執(zhí)行基于每個單位群組中包括的多條面部信息的群集。
10.一種用于使計算機實現(xiàn)以下功能的程序 面部檢測功能,用于檢測包含在圖像中的面部;面部方向檢測功能,用于檢測由所述面部檢測功能檢測出的面部的方向; 面部辨別功能,用于考慮由所述面部方向檢測功能檢測出的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合;單位群組設置功能,用于針對由所述面部辨別功能形成的多條面部信息的每個集合, 基于由所述面部方向檢測功能檢測出的面部的方向?qū)⒚娌啃畔⒌臈l數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的每個集合設置為一個單位群組;以及群集功能,用于以由所述單位群組設置功能設置的單位群組為單位,執(zhí)行基于每個單位群組中包括的多條面部信息的群集。
全文摘要
本發(fā)明公開了面部群集設備、面部群集方法和程序。該面部群集設備檢測包含在圖像中的面部,檢測所檢測的面部的方向,考慮所檢測的面部的方向來檢測具有相似特征的面部,并形成表示該面部的特征的多條面部信息的集合,針對已形成的多條面部信息的每個集合,將面部信息的條數(shù)縮窄到為每個面部方向預先設定的數(shù)目,并將條數(shù)已被縮窄的多條面部信息的集合設置為一個單位群組,并以所設置的單位群組為對象,執(zhí)行基于每個單位群組中包括的多條面部信息的群集。
文檔編號G06K9/00GK102214293SQ20111007985
公開日2011年10月12日 申請日期2011年3月31日 優(yōu)先權日2010年4月9日
發(fā)明者后藤智彥, 孫赟, 望月俊助, 村田誠 申請人:索尼公司