專利名稱:信息處理設(shè)備、信息處理方法及程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及信息處理設(shè)備、信息處理方法及程序,更具體而言,涉及通過從外界輸入輸入信息,如圖像、聲音等,基于輸入信息分析外部環(huán)境,特別是分析正在說話的人的位置等的信息處理設(shè)備、信息處理方法及程序。本公開涉及識別正在說話的用戶并且當(dāng)多個人同時說話時分析每個話語的信息處理設(shè)備、信息處理方法及程序。
背景技術(shù):
在人和諸如PC或機(jī)器人等信息處理設(shè)備之間進(jìn)行交互式過程(例如通信過程或交互式過程)的系統(tǒng),被稱為人機(jī)交互系統(tǒng)。在人機(jī)交互系統(tǒng)中,諸如PC或機(jī)器人等的信息處理設(shè)備通過輸入圖像信息或聲音信息基于輸入信息進(jìn)行分析,以識別出人的動作,如人的行為或言語。當(dāng)人發(fā)送除了言語以外的信息時,姿態(tài)、視線、面部表情等的各種信道被用作信息發(fā)送信道。如果可以在機(jī)器中分析所有這些信道,那么人和機(jī)器之間的通信可以達(dá)到的水平與人與人之間通信水平相同。能夠分析來自這些多個信道(也被稱為模態(tài)或模式)的輸入信息的界面被稱為多模式界面,并且近年來對這種界面進(jìn)行了廣泛的研究和開發(fā)。例如,當(dāng)通過輸入由照相機(jī)拍攝的圖像信息和由麥克風(fēng)獲得的聲音信息進(jìn)行分析時,為了進(jìn)行更專門的分析,從位于不同點(diǎn)的多個照相機(jī)和多個麥克風(fēng)輸入大量信息是有效的。例如,采用如下系統(tǒng)作為專用系統(tǒng)。信息處理設(shè)備(電視機(jī))通過照相機(jī)和麥克風(fēng)接收或被輸入位于該電視機(jī)前方的多個用戶(爸爸、媽媽、妹妹和弟弟)的圖像和語音,并且分析正在說話的每個用戶的位置等,從而可以實(shí)現(xiàn)能夠根據(jù)分析信息進(jìn)行處理的系統(tǒng),例如,照相機(jī)針對說話的用戶放大、針對說話的用戶進(jìn)行恰當(dāng)?shù)捻憫?yīng)等。公開了現(xiàn)有的人機(jī)互動系統(tǒng)的相關(guān)技術(shù)的例子包括例如日文未審查的專利申請2009-31951號公報(bào)和日本未審查的專利申請2009-140366號公報(bào)。在該相關(guān)技術(shù)中,進(jìn)行以下處理,在該處理中,以概率性的方式整合來自多信道(模式)的信息,并且確定多個用戶中每個用戶的位置,所述多個用戶都是誰,以及誰正在發(fā)出信號,即,關(guān)于所述多個用戶中的每個用戶來確定誰正在說話。例如,當(dāng)確定誰正在發(fā)出信號時,設(shè)置與所述多個用戶相對應(yīng)的虛擬目標(biāo)(tID=l至m),并且根據(jù)對照相機(jī)拍攝的圖像數(shù)據(jù)或麥克風(fēng)獲取的聲音信息的分析結(jié)果來計(jì)算各個目標(biāo)是話語源的概率。具體而言,例如,計(jì)算以下各量,(a)可通過麥克風(fēng)獲得的語言事件的聲源方向信息、可從說話者標(biāo)識(ID)信息獲得的用戶位置信息和只能從用戶標(biāo)識信息獲得的目標(biāo)tID的話語源概率P(tID),以及(b)基于可通過照相機(jī)獲得的圖像可通過面部識別處理獲得的面部屬性分?jǐn)?shù)[S(tID)]的面積 SAt(tID)。
其中計(jì)算(a)和(b),從而基于權(quán)重α,使用α作為預(yù)設(shè)的分配權(quán)重系數(shù),通過相加或相乘,計(jì)算每個目標(biāo)(tID=l至m)的說話者概率Ps(tlD)或Pp(tlD)。另外,例如在日本未審查的專利申請2009-140366號公報(bào)中描述了該處理的細(xì)節(jié)。在上述相關(guān)技術(shù)中說話者概率的計(jì)算過程中,如上所述,必須預(yù)先調(diào)節(jié)權(quán)重系數(shù)α。預(yù)先調(diào)節(jié)該權(quán)重系數(shù)是麻煩的,并且當(dāng)該權(quán)重系數(shù)沒有被調(diào)節(jié)到適當(dāng)?shù)臄?shù)值時,存在嚴(yán)重影響說話者概率計(jì)算結(jié)果正確性的問題。
發(fā)明內(nèi)容
希望提供一種信息處理設(shè)備、信息處理方法和程序,其可以在用于對來自多個信道(模態(tài)或模式)的輸入信息進(jìn)行分析的系統(tǒng)中,通過進(jìn)行用于整合通過針對包括在諸如圖像信息、聲音信息等各種輸入信息中的不確定信息進(jìn)行隨機(jī)處理更準(zhǔn)確地估計(jì)的信息的處理,更具體而言,進(jìn)行諸如周圍區(qū)域中人的位置等的特殊處理,從而可以提高魯棒性,并且可以進(jìn)行高度準(zhǔn)確的分析。另外,希望提供一種用于識別正在說話的用戶并且當(dāng)多個人同時說話時分析每個話語的信息處理設(shè)備、信息處理方法和程序。根據(jù)本公開的第一實(shí)施例,提供一種信息處理設(shè)備,其包括:多個信息輸入單元,其輸入真實(shí)空間的觀測信息;事件檢測單元,其基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生包括事件信息,事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及信息整合處理單元,其被輸入所述事件信息,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息,其中所述信息整合處理單元包括話語源概率計(jì)算單元,并且其中所述話語源概率計(jì)算單元進(jìn)行以下處理:通 過將基于說話場景的權(quán)重乘以從所述事件檢測單元輸入的多條不同信息,來計(jì)算作為代表每個目標(biāo)的話語源概率的話語源分?jǐn)?shù)的指標(biāo)值。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以接收對應(yīng)于話語事件的
(a)第一用戶位置信息(聲源方向信息)和(b)第一用戶標(biāo)識信息(說話者標(biāo)識信息)的輸入,作為來自構(gòu)成所述事件檢測單元的語音事件檢測單元的輸入信息,可以接收(a)第二用戶位置信息(面部位置信息)、(b)第二用戶標(biāo)識信息(面部標(biāo)識信息)和(C)唇部運(yùn)動信息的輸入,作為基于來自構(gòu)成所述事件檢測單元的圖像事件檢測單元的輸入信息產(chǎn)生的目標(biāo)信息,并且進(jìn)行通過采用上述信息中的至少一條基于所述輸入信息計(jì)算所述話語源分?jǐn)?shù)的處理。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以應(yīng)用聲源方向信息D、說話者標(biāo)識信息S和唇部運(yùn)動信息L,并且根據(jù)以下話語源分?jǐn)?shù)P的計(jì)算等式P=Da.Se.Ly進(jìn)行計(jì)算所述話語源分?jǐn)?shù)的處理,其中a是聲源方向信息的權(quán)重系數(shù),β是說話者標(biāo)識信息的權(quán)重系數(shù),Y是唇部運(yùn)動信息的權(quán)重信息,并且α+β + γ=1。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以根據(jù)說話場景進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)a、β和Y的處理。 在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以根據(jù)以下兩個條件進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Υ的處理:條件1,它是僅來自一個目標(biāo)的單個話語,還是來自兩個目標(biāo)的同時話語;以及條件2,這兩個目標(biāo)的位置相互靠近,還是這兩個目標(biāo)的位置相互遠(yuǎn)離。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Y的處理,使得在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)同時說話的情況下,所述唇部運(yùn)動信息的權(quán)重系數(shù)Y小。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Y的處理,使得在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)的位置相互靠近并且只有一個目標(biāo)說話的情況下,所述聲源方向信息的權(quán)重系數(shù)α小。在所述信息處理設(shè)備中,所述話語源概率計(jì)算單元可以進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Y的處理,使得在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)的位置相互靠近并且這兩個目標(biāo)同時說話的情況下,所述唇部運(yùn)動信息的權(quán)重系數(shù)Y和所述聲源方向信息的權(quán)重系數(shù)α小。根據(jù)本公開的第二實(shí)施例,提供一種在信息處理設(shè)備中進(jìn)行信息分析處理的信息處理方法,該方法包括:通過多個信息輸入單元接收真實(shí)空間的觀測信息的輸入;通過事件檢測單元基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及通過信息整合處理單元接收事件的輸入,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息,其中在所述目標(biāo)信息的產(chǎn)生中,進(jìn)行以下處理:通過將基于說話場景的權(quán)重乘以在所述事件信息的產(chǎn)生中輸入的多條不同信息,來計(jì)算作為代表每個目標(biāo)的話語源概率的指標(biāo)值的話語源分?jǐn)?shù)。根據(jù)本公開的第三實(shí)施例,提供一種使信息處理設(shè)備執(zhí)行以下信息分析的程序:通過多個信息輸入單元接收對真實(shí)空間的觀測信息的輸入;通過事件檢測單元基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及通過信息整合處理單元接收事件的輸入,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息,其中在所述目標(biāo)信息的產(chǎn)生中,進(jìn)行以下處理:通過將基于說話場景的權(quán)重乘以在所述事件信息的產(chǎn)生中輸入的多條不同信息,來計(jì)算作為代表每個目標(biāo)的話語源概率的指標(biāo)值的話語源分?jǐn)?shù)。本公開的程序是可以以計(jì)算機(jī)可讀的格式提供在例如信息處理設(shè)備中或者能夠執(zhí)行各種程序代碼的計(jì)算機(jī)系統(tǒng)中的存儲介質(zhì)中或者通信介質(zhì)中的程序。通過以計(jì)算機(jī)可讀格式提供該程序,在該信息處理設(shè)備或該計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)了與該程序相對應(yīng)的處理。通過基于附圖的詳細(xì)描述,可以闡明本公開的其它目的、特征和優(yōu)點(diǎn)。說明書中的系統(tǒng)是多個設(shè)備的邏輯組配置,并且本公開不局限于在此情況下給出的具有每個配置的設(shè)備。根據(jù)本公開一實(shí)施例的配置,實(shí)現(xiàn)了基于不確定的并且不同時的輸入信息通過信息分析產(chǎn)生用戶位置、標(biāo)識信息、說話者信息等的配置。具體而言,該信息處理設(shè)備可以包括信息整合處理單元,其接收包括基于圖像信息或語音信息的用戶的估計(jì)的位置和估計(jì)的識別數(shù)據(jù)的事件信息的輸入,并且基于輸入的事件信息和代表事件產(chǎn)生源的概率值的信號信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息。該信息整合處理單元包括話語源概率計(jì)算單元,該話語源概率計(jì)算單元通過將基于說話場景的權(quán)重乘以從事件檢測單元輸入的多條不同信息進(jìn)行計(jì)算話語源分?jǐn)?shù)作為代表每個目標(biāo)的話語源概率的指標(biāo)值的處理。根據(jù)該處理,例如,即使在兩個目標(biāo)(兩個人)同時說話的情況下,仍可以高度精確地估計(jì)出誰正在說話。
圖1是示出根據(jù)本公開一實(shí)施例的信息處理設(shè)備進(jìn)行的處理的概要的圖。圖2是示出根據(jù)本公開一實(shí)施例的信息處理設(shè)備的配置和處理的圖。圖3A和圖3B是示出由語音事件檢測單元和圖像事件檢測單元所產(chǎn)生并且被輸入到信息整合處理單元的信息例子的圖。圖4A至圖4C是示出應(yīng)用粒子濾波器的基本處理例子的圖。圖5是示出在本處理例子中設(shè)置的粒子配置的圖。圖6是示出包括在各個粒子中的每個目標(biāo)的目標(biāo)數(shù)據(jù)配置的圖。圖7是示出目標(biāo)信息的配置和產(chǎn)生過程的圖。圖8是示出目標(biāo)信息的配置和產(chǎn)生過程的圖。圖9是示出目標(biāo)信息的配置和產(chǎn)生過程的圖。圖10是示出由信息整合處理單元進(jìn)行的處理序列的流程圖。圖11是詳細(xì)示出粒子權(quán)重的計(jì)算過程的圖。圖12是示出說話者指定過程的圖。圖13是示出由話語源概率計(jì)算單元進(jìn)行的處理序列例子的流程圖。圖14是示出由話語源概率計(jì)算單元進(jìn)行的計(jì)算話語源分?jǐn)?shù)的過程的圖。圖15是示出由話語源概率計(jì)算單元進(jìn)行的話語源分?jǐn)?shù)的計(jì)算處理序列的流程圖。圖16A至圖16D是示出在由話語源概率計(jì)算單元進(jìn)行的計(jì)算話語源分?jǐn)?shù)的過程中作為權(quán)重系數(shù)的確定要素的說話場景的例子的圖。圖17是示出在由話語源概率計(jì)算單元進(jìn)行的計(jì)算話語源分?jǐn)?shù)的過程中確定權(quán)重系數(shù)的處理例子的圖。圖18A和圖18B是示出在由話語源概率計(jì)算單元進(jìn)行的計(jì)算話語源分?jǐn)?shù)的過程中確定權(quán)重系數(shù)的處理例子的圖。
具體實(shí)施例方式下面結(jié)合附圖詳細(xì)描述根據(jù)本公開的示例性實(shí)施例的信息處理設(shè)備、信息處理方法和程序。將按照以下條目進(jìn)行說明:1.由本公開的信息處理設(shè)備進(jìn)行的處理的概要2.本公開的信息處理設(shè)備的配置和處理的細(xì)節(jié)3.由本公開的信息處理設(shè)備進(jìn)行的處理序列4.由話語源概率計(jì)算單元進(jìn)行的處理的細(xì)節(jié)5.計(jì)算話語源分?jǐn)?shù)的處理
6.本公開的配置的總結(jié)1.由本公開的信息處理設(shè)備進(jìn)行的處理的概要首先描述本公開的信息處理設(shè)備進(jìn)行的處理的概要。本公開實(shí)現(xiàn)了以下配置,在該配置中當(dāng)計(jì)算話語源概率時,針對與輸入的事件信息中的用戶話語相對應(yīng)的語音事件信息使用標(biāo)識符,從而不需要預(yù)先調(diào)節(jié)背景技術(shù)中描述的權(quán)重系數(shù)。具體而言,使用用于識別每個目標(biāo)是否是話語源的標(biāo)識符,或者用于針對僅兩條目標(biāo)信息確定這兩條目標(biāo)信息中的哪一條更像是話語源的標(biāo)識符。使用包括在語音事件信息中的聲源方向信息或者說話者標(biāo)識信息、包括在事件信息內(nèi)的圖像事件信息中的唇部運(yùn)動信息以及包括在目標(biāo)信息中的目標(biāo)位置或目標(biāo)總數(shù)作為對標(biāo)識符的輸入信息。通過在計(jì)算話語源概率時使用標(biāo)識符,不需要預(yù)先調(diào)節(jié)背景技術(shù)中描述的權(quán)重系數(shù),從而可以計(jì)算出更適當(dāng)?shù)脑捳Z源概率。首先,參照圖1描述由根據(jù)本公開的信息處理設(shè)備進(jìn)行的處理概要。本公開的信息處理設(shè)備100輸入來自傳感器的圖像信息和語音信息,并且基于輸入的信息對環(huán)境進(jìn)行分析,其中傳感器在此例如是照相機(jī)21和多個麥克風(fēng)31至34,在其中實(shí)時輸入觀測信息。具體而言,進(jìn)行用戶1,11和用戶2,12的位置分析和相應(yīng)位置的用戶的識別。在圖中所示的例子中,例如,在用戶1,11至用戶2,12是家庭中的兄妹的情況下,信息處理設(shè)備100對從照相機(jī)21和多個麥克風(fēng)31至34輸入的圖像信息和語音信息進(jìn)行分析,從而識別這兩個用戶I和2的位置,并且確定每個位置中的用戶是妹妹還是哥哥。識別結(jié)果被用于各種處理。例如,識別結(jié)果被用于如下處理:照相機(jī)對說過話的用戶進(jìn)行放大;電視機(jī)對談話的用戶進(jìn)行響應(yīng)等等。另外,作為根據(jù)本公開的信息處理設(shè)備100的主要處理,基于來自多個信息輸入單元(照相機(jī)21和麥克風(fēng)31至34)的輸入信息進(jìn)行用戶位置識別和用戶指定處理作為用戶識別處理。識別結(jié)果的應(yīng)用不受具體限制。從照相機(jī)21和多個麥克風(fēng)31至34輸入的圖像信息和語音信息中包括各種不確定的信息。在根據(jù)本公開的信息處理設(shè)備100中,對包括在輸入信息中的不確定信息進(jìn)行隨機(jī)處理,并且將經(jīng)過隨機(jī)處理的信息整合為估計(jì)是高度準(zhǔn)確的信息。通過該估計(jì)處理,提高了進(jìn)行高準(zhǔn)確度分析的魯棒性。2.本公開的信息處理設(shè)備的配置和處理細(xì)節(jié)在圖2中不出了信息處理設(shè)備100的配置例子。信息處理設(shè)備100包括圖像輸入單元(照相機(jī))111和多個語音輸入單元(麥克風(fēng))121a至121d作為輸入裝置。信息處理設(shè)備100輸入來自圖像輸入單元(照相機(jī))111的圖像信息,并且輸入來自語音輸入單元(麥克風(fēng))121的語音信息,從而基于該輸入信息進(jìn)行分析。如圖1中所示,所述多個語音輸入單元(麥克風(fēng))121a至121d中的每一個被設(shè)置在不同的位置中。從多個麥克風(fēng)121a至121d輸入的語音信息經(jīng)由語音事件檢測單元122輸入到信息整合處理單元131。語音事件檢測單元122分析并整合從設(shè)置在多個不同位置中的多個語音輸入單兀(麥克風(fēng))121a至121d輸入的語音信息。具體而言,基于從語音輸入單兀(麥克風(fēng))121a至121d輸入的語音信息生成產(chǎn)生聲音的位置和表示哪個用戶產(chǎn)生該聲音的用戶標(biāo)識信息,并且將所生成的信息輸入到信息整合處理單元131。另外,作為信息處理設(shè)備100進(jìn)行的特殊處理,在圖1中所示的存在多個用戶中的環(huán)境中,識別每個用戶A和B的位置以及用戶A和B中哪一個說話了,也就是說,進(jìn)行用戶位置和用戶行為識別。具體而言,該特殊處理是用于指定諸如正在說話的人(說話者)等事件產(chǎn)生源的處理。語音事件檢測單元122分析從設(shè)置在多個不同位置中的多個語音輸入單元(麥克風(fēng))121a至121d輸入的語音信息,并且產(chǎn)生語音產(chǎn)生源的位置信息作為概率分布數(shù)據(jù)。具體而言,語音事件檢測單元122針對聲源方向產(chǎn)生預(yù)期值和分布數(shù)據(jù)N(me,σ J。另外,語音事件檢測單元122基于與預(yù)先注冊的用戶語音的特征信息的比較,產(chǎn)生用戶標(biāo)識信息。該標(biāo)識信息還被產(chǎn)生作為概率性的估計(jì)值。由于預(yù)先核實(shí)的多個用戶的語音的特征信息被注冊在語音事件檢測單元122中,所以進(jìn)行輸入的語音與注冊的語音之間的比較,并且進(jìn)行確定哪個用戶的語音與輸入的語音相對應(yīng)的概率高的處理,從而計(jì)算出關(guān)于所有注冊用戶的后驗(yàn)概率或分?jǐn)?shù)。語音事件檢測單元122以這種方式分析從設(shè)置在多個不同位置中的多個語音輸入單元(麥克風(fēng))121a至121d輸入的語音信息,產(chǎn)生“整合語音事件信息”,“整合語音事件信息”由作為語音產(chǎn)生源的位置信息的概率分布數(shù)據(jù)和由概率性的估計(jì)值構(gòu)成的用戶標(biāo)識信息配置的,并且將產(chǎn)生的整合語音事件信息輸入到信息整合處理單元131。同時,從圖像輸入單元(照相機(jī))111輸入的圖像信息經(jīng)由圖像事件檢測單元112輸入到信息整合處理單元131。圖像事件檢測單元112分析從圖像輸入單元(照相機(jī))111輸入的圖像信息,提取包括在該圖像中的人的面部,并且產(chǎn)生該面部的位置信息作為概率分布數(shù)據(jù)。具體而言,產(chǎn)生該面部的位置或方位的預(yù)期值和分布數(shù)據(jù)N(me,c^)。另外,圖像事件檢測單元112通過與預(yù)先注冊的用戶面部的特征信息進(jìn)行比較來識別面部,并且產(chǎn)生用戶標(biāo)識信息。該標(biāo)識信息被產(chǎn)生作為概率性的估計(jì)值。由于在圖像事件檢測單元112中注冊了預(yù)先核實(shí)的多個用戶的面部的特征信息,所以在從輸入的圖像提取的面部區(qū)域圖像的特征 信息和注冊的面部圖像的特征信息之間進(jìn)行比較,確定哪個用戶面部與輸入的圖像相對應(yīng)的概率高,從而計(jì)算出關(guān)于所有注冊用戶的后驗(yàn)概率或分?jǐn)?shù)。
另外,圖像事件檢測單元112計(jì)算與包括在從圖像輸入單元(照相機(jī))111輸入的圖像中的面部相對應(yīng)的屬性分?jǐn)?shù),例如基于嘴部區(qū)域的運(yùn)動產(chǎn)生的面部屬性分?jǐn)?shù)??梢赃M(jìn)行設(shè)置以計(jì)算以下各種面部屬性分?jǐn)?shù):(a)與包括在該圖像中的面部的嘴部區(qū)域的運(yùn)動相對應(yīng)的分?jǐn)?shù),(b)根據(jù)包括在該圖像中的面部是否是笑臉設(shè)置的分?jǐn)?shù),(c)根據(jù)包括在該圖像中的面部是男性面部還是女性面部設(shè)置的分?jǐn)?shù),以及(d)根據(jù)包括在該圖像中的面部是成人面部還是小孩面部設(shè)置的分?jǐn)?shù)。在下面描述的實(shí)施例中,描述計(jì)算(a)與包括在該圖像中的面部的嘴部區(qū)域的運(yùn)動相對應(yīng)的分?jǐn)?shù),并且將其用作面部屬性分?jǐn)?shù)的例子。也就是說,計(jì)算與面部的嘴部區(qū)域的運(yùn)動相對應(yīng)的分?jǐn)?shù)作為面部屬性分?jǐn)?shù),并且基于該面部屬性分?jǐn)?shù)進(jìn)行說話者的指定。圖像事件檢測單元112從在從圖像輸入單元(照相機(jī))111輸入的圖像輸入中包括的面部區(qū)域中識別嘴部區(qū)域,并且檢測該嘴部區(qū)域的運(yùn)動,從而在確定檢測到與運(yùn)動檢測結(jié)果相對應(yīng)的分?jǐn)?shù)的情況下,例如,當(dāng)檢測到嘴部區(qū)域的運(yùn)動時,計(jì)算出具有較高值的分?jǐn)?shù)。另外,進(jìn)行嘴部區(qū)域的運(yùn)動檢測處理,作為應(yīng)用VSD (Visual Speech Detection,視覺語音檢測)的處理。應(yīng)用日本未審查的專利申請2005-157679號公報(bào)中公開的方法,該申請的申請人與本公開的申請人為同一申請人。具體而言,例如,從圖像輸入單元(照相機(jī))111輸入的圖像中檢測到的面部圖像中檢測唇部的左右角,在第N幀和第N+1幀中對準(zhǔn)唇部的左右角之后計(jì)算亮度差異,并且處理該差異值作為閾值,從而檢測唇部的運(yùn)動。另外,還可以將該相關(guān)技術(shù)應(yīng)用于在語音事件檢測單元122或圖像事件檢測單元112中進(jìn)行的語音識別處理、面部檢測處理或者面部識別處理。例如,在2004年第十屆圖像感測學(xué)術(shù)研討會論文集的547 552頁的作者為Sabe Kotaro, Hidai Kenichi的標(biāo)題為“Learning for real-time arbitrary posture face detectors using pixel differencecharacteristics”的文章和日本未審查的專利申請2004-302644號公報(bào)(標(biāo)題為:Faceidentification apparatus, Face identification method, Recording medium, and Robotapparatus)公開了面部檢測處理和面部識別處理的應(yīng)用。信息整合處理單元131基于來自語音事件檢測單元122或圖像事件檢測單元112的輸入信息進(jìn)行概率性地估計(jì)多個用戶中的每一個是誰,多個用戶中每一個的位置以及誰正在產(chǎn)生諸如語音等信號的處理。具體而言,信息整合處理單元131基于從語音事件檢測單元122或圖像事件檢測單元112輸入的信息將以下每條信息輸出到處理確定單元132: (a) “目標(biāo)信息”,其作為與多個用戶中每一個的位置以及他們是誰有關(guān)的估計(jì)信息;以及(b)“信號信息”,其作為例如正在說話的用戶等的事件產(chǎn)生源。另外,該信號信息中包括以下兩條信號信息:(bl)基于語音事件的信號信息和(b2)基于圖像事件的信號信息。信息整合處理單元131的目標(biāo)信息更新單元141通過輸入在圖像事件檢測單元112中檢測到的圖像事件信息使用例如粒子濾波器進(jìn)行目標(biāo)更新,并且基于圖像事件產(chǎn)生該目標(biāo)信息和該信號信息,從而將產(chǎn)生的信息輸出到處理確定單元132。另外,作為更新結(jié)果獲得的目標(biāo)信息也被輸出 到話語源概率計(jì)算單元142。信息整合處理單元131的話語源概率計(jì)算單元142通過輸入在語音事件檢測單元122中檢測到的語音事件信息使用標(biāo)識模式(標(biāo)識符)計(jì)算每個目標(biāo)是輸入的語音事件的產(chǎn)生源的概率。話語源概率計(jì)算單元142基于計(jì)算出的值產(chǎn)生基于語音事件的信號信息,并且將產(chǎn)生的信息輸出到處理確定單元132。稍后詳細(xì)描述該處理。處理確定單元132接收包括由信息整合處理單元131產(chǎn)生的目標(biāo)信息和信號信息的識別處理結(jié)果,使用該識別處理結(jié)果進(jìn)行處理。例如,進(jìn)行諸如照相機(jī)對例如說過話的用戶進(jìn)行放大或者電視機(jī)對說過話的用戶作出響應(yīng)等處理。如上所述,語音事件檢測單元122產(chǎn)生語音產(chǎn)生源的位置信息的概率分布數(shù)據(jù),更具體而言,針對聲源方向產(chǎn)生預(yù)期值和分布數(shù)據(jù)N(me,σ J。另外,語音事件檢測單元122基于例如與預(yù)先注冊的用戶特征信息的比較結(jié)果產(chǎn)生用戶標(biāo)識信息,并且將產(chǎn)生的信息輸入到信息整合處理單元131。另外,圖像事件檢測單元112提取包括在該圖像中的人的面部,并且產(chǎn)生該面部的位置信息作為概率分布數(shù)據(jù)。具體而言,圖像事件檢測單元112針對面部的位置和方向產(chǎn)生預(yù)期值和分布數(shù)據(jù)N(me,(^)。另外,圖像事件檢測單元112基于與預(yù)先注冊的用戶面部特征信息進(jìn)行的比較處理產(chǎn)生用戶標(biāo)識信息,并且將產(chǎn)生的信息輸入到信息整合處理單元131。另外,圖像事件檢測單元112根據(jù)圖像輸入單元(照相機(jī))111輸入的圖像內(nèi)的面部區(qū)域(例如,嘴部區(qū)域)的運(yùn)動,檢測面部屬性分?jǐn)?shù)作為面部屬性信息,計(jì)算與嘴部區(qū)域的運(yùn)動檢測結(jié)果相對應(yīng)的分?jǐn)?shù),更具體而言,當(dāng)檢測到嘴部區(qū)域的顯著運(yùn)動時計(jì)算出的面部屬性分?jǐn)?shù)值高,并且將計(jì)算出的分?jǐn)?shù)輸入到信息整合處理單元131。參照圖3A和圖3B描述由語音事件檢測單元122和圖像事件檢測單元112產(chǎn)生的并且被輸入到信息整合處理單元131的信息的例子。在本公開的配置中,圖像事件檢測單元112產(chǎn)生數(shù)據(jù),如,(Va)關(guān)于面部的位置和方向的預(yù)期值和分布數(shù)據(jù)N(me,oe) ;(Vb)基于面部圖像特征信息的用戶標(biāo)識信息;以及(Vc)與檢測到的面部屬性相對應(yīng)的分?jǐn)?shù),例如基于嘴部區(qū)域的運(yùn)動產(chǎn)生的面部屬性分?jǐn)?shù),并且將所產(chǎn)生的數(shù)據(jù)輸入到信息整合處理單元131。另外,語音事件檢測單元122將諸如(Aa)關(guān)于聲源方向的預(yù)期值和分布數(shù)據(jù)N(mze, oe)以及(Ab)基于語音特征的用戶標(biāo)識信息等數(shù)據(jù)輸入到信息整合處理單元131。圖3A中示出包括與參照圖1描述的相同的照相機(jī)和麥克風(fēng)的真實(shí)環(huán)境的例子,并且存在多個用戶I至k,201至20k。在該環(huán)境中,當(dāng)這些用戶中的任何一個說話時,語音都通過麥克風(fēng)輸入。另外,照相機(jī)連續(xù)拍攝圖像。由語音事件檢測單元122和圖像事件檢測單元112產(chǎn)生的并且被輸入到信息整合處理單元131的信息被分為三類,如:(a)用戶位置信息,(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)以及(C)面部屬性信息(面部屬性分?jǐn)?shù))。也就是說,(a)用戶位置信息是(Va)由圖像事件檢測單元112產(chǎn)生的關(guān)于面部位置或方向的預(yù)期值和分布數(shù)據(jù)N (me,oe)以及(Aa)由語音事件檢測單元122產(chǎn)生的關(guān)于聲源方向的預(yù)期值和分布數(shù)據(jù)(me,oe)的整合信息。另外,(b)用戶標(biāo)識信息(面部標(biāo)識信息或說話者標(biāo)識信息)是(Vb)由圖像事件檢測單元112產(chǎn)生的基于面部圖像的特征信息的用戶標(biāo)識信息以及(Ab)由語音事件檢測單元122產(chǎn)生的基于語音特征信息的用戶標(biāo)識信息的整合信息。(C)面部屬性信息(面部屬性分?jǐn)?shù))對應(yīng)于以下分?jǐn)?shù),該分?jǐn)?shù)與圖像事件檢測單元112產(chǎn)生的檢測到的面部屬性(Vc)相對應(yīng),例如基于唇部區(qū)域的運(yùn)動產(chǎn)生的面部屬性分?jǐn)?shù)。針對每個事件產(chǎn)生這三類信息,如(a)用戶位置信息,(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)以及(C)面部屬性信息(面部屬性分?jǐn)?shù))。當(dāng)從語音輸入單元(麥克風(fēng))121a至121d輸入語音信息時,語音事件檢測單元122基于該語音信息產(chǎn)生上述(a)用戶位置信息和(b)用戶標(biāo)識信息,并且將產(chǎn)生的信息輸入到信息整合處理單元131。圖像事件檢測單元112基于從圖像輸入單元(照相機(jī))111以預(yù)先確定的一定幀間隔輸入的圖像信息產(chǎn)生(a)用戶位置信息、(b)用戶標(biāo)識信息以及(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且將產(chǎn)生的信息輸入到信息整合處理單元131。另外,在本實(shí)施例中,圖像輸入單元(照相機(jī))111示出了設(shè)置單個照相機(jī)并且該單個照相機(jī)拍攝多個用戶的圖像的例子。在此情況下,針對包括在單個圖像中的多個面部中的每一個產(chǎn)生(a)用戶位置信息和(b)用戶標(biāo)識信息,并且產(chǎn)生的信息被輸入到信息整合處理單元131。將基于從語音輸入單元(麥克風(fēng))121a至121d輸入的語音信息,來描述語音事件檢測單元122產(chǎn)生(a)用戶位置信息和(b)用戶標(biāo)識信息(說話者標(biāo)識信息)的過程。[語音事件檢測單元122產(chǎn)生(a)用戶位置信息的過程]語音事件檢測單元122基于從語音輸入單元(麥克風(fēng))121a至121d輸入的語音信息來生成產(chǎn)生所分析的語音的用戶的位置的估計(jì)信息,即,說話者的位置。也就是說,語音事件檢測單元122產(chǎn)生估計(jì)說話者所在的位置,作為從預(yù)期值(平均值)[mj和分布值[σ J獲得的高斯分布(正態(tài)分布)數(shù)據(jù)N (me, σ e)。[語音事件檢測單元122產(chǎn)生(b)用戶標(biāo)識信息(說話者標(biāo)識信息)的過程]語音事件檢測單元122通過比較從語音輸入單元(麥克風(fēng))121a至121d輸入的語音的特征信息與預(yù)先注冊的用戶I至k的語音的特征信息,基于該語音信息估計(jì)說話者是誰。具體而言,計(jì)算說話者是用戶I至k中各個用戶的概率。計(jì)算出的值(b)被用作用戶標(biāo)識信息(說話者標(biāo)識信息)。例如,最高分?jǐn)?shù)分配給注冊的語音特征最靠近輸入語音的特征的用戶,并且最低分?jǐn)?shù)(例如,零)分配給注冊的語音特征與輸入語音的特征最不同的用戶,從而產(chǎn)生設(shè)定了輸入語音屬于各個用戶的概率的數(shù)據(jù),并且所產(chǎn)生的數(shù)據(jù)被用作(b)用戶標(biāo)識信息(說話者標(biāo)識信息)。接下來描述圖像事件檢測單元112基于從圖像輸入單元(照相機(jī))111輸入的圖像信息產(chǎn)生諸如以下信息的過程:(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù))。[圖像事件檢測單元112產(chǎn)生(a)用戶位置信息的過程]圖像事件檢測單元112針對包括在從圖像輸入單元(照相機(jī))111輸入的圖像信息中的每個面部產(chǎn)生面部位置的估計(jì)信息。也就是說,產(chǎn)生估計(jì)從該圖像檢測到的面部所處的位置,作為根據(jù)預(yù)期值(平均值)[mj和分布值[σ J獲得的高斯分布(正態(tài)分布)數(shù)據(jù)N (me, σ e)。[圖像事件檢測單元112產(chǎn)生(b)用戶標(biāo)識信息(面部標(biāo)識信息)的過程]圖像事件檢測單元112基于從圖像輸入單元(照相機(jī))111輸入的圖像信息檢測包括在該圖像信息中的面部,并且通過比較輸入的圖像信息與預(yù)先注冊的每個用戶I至k的面部特征信息來估計(jì)每個面部是誰。具體而言,計(jì)算所提取的每個面部是用戶I至k中各個用戶的概率。計(jì)算出的值被用作(b)用戶標(biāo)識信息(面部標(biāo)識信息)。例如,最高分?jǐn)?shù)分配給具有與在輸入圖像中包括的面部特征最接近的注冊面部特征的用戶,并且最低分?jǐn)?shù)(例如,零)分配給具有與輸入的面部特征最不同的注冊面部特征的用戶,從而產(chǎn)生設(shè)定了輸入語音屬于各個用戶的概率的數(shù)據(jù),并且所產(chǎn)生的數(shù)據(jù)被用作(b)用戶標(biāo)識信息(面部標(biāo)識信息)。[圖像事件檢測單元112產(chǎn)生(C)面部屬性信息(面部屬性分?jǐn)?shù))的過程]圖像事件檢測單元112基于從圖像輸入單元(照相機(jī))111輸入的圖像信息來檢測包括在圖像信息中的面部區(qū)域,并且計(jì)算檢測到的面部的屬性,具體而言,計(jì)算屬性分?jǐn)?shù),如面部的嘴部區(qū)域的上述運(yùn)動、檢測到的面部是否是笑臉、檢測到的面部是男性面部還是女性面部、檢測到的面部是否是成人面部等。然而,在該處理例子中,將描述計(jì)算與包括在該圖像中的面部的嘴部區(qū)域的運(yùn)動相對應(yīng)的分?jǐn)?shù)并且將該分?jǐn)?shù)作為面部屬性分?jǐn)?shù)的例子。作為計(jì)算與面部的唇部區(qū)域的運(yùn)動相對應(yīng)的分?jǐn)?shù)的處理,圖像事件檢測單元112從圖像輸入單元(照相機(jī))111輸入的圖像中檢測到的面部圖像中檢測唇部的左右角,在將第N幀與第(N+1)幀中唇部的左右角對準(zhǔn)之后,計(jì)算亮度差異,并且處理該差異值作為閾值。通過該處理,檢測唇部的運(yùn)動,并且以唇部運(yùn)動越大獲得的分?jǐn)?shù)越高的方式設(shè)置面部屬性分?jǐn)?shù)。另外,當(dāng)從照相機(jī)拍攝的圖像中檢測到多個面部時,圖像事件檢測單元112根據(jù)檢測到的作為單獨(dú)事件的每個面部產(chǎn)生與每個面部相對應(yīng)的事件信息。也就是說,圖像事件檢測單元112產(chǎn)生包括以下信息的事件信息并且將它們輸入到信息整合處理單元131。圖像事件檢測單元112產(chǎn)生諸如以下信息:(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且將所產(chǎn)生的信息輸入到信息整合處理單元131。在本實(shí)施例中,描述了使用單個照相機(jī)作為圖像輸入單元111的例子,但是也可以使用多個照相機(jī)拍攝的圖像。在此情況下,圖像事件檢測單元112針對包括在多個照相機(jī)拍攝的每個圖像中的每個面部產(chǎn)生以下信息:(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且將所產(chǎn)生的信息輸入到信息整合處理單元131。接下來,描述由信息整合處理單元131進(jìn)行的處理。信息整合處理單元131按照以下順序輸入如上所述的來自語音事件檢測單元122和圖像事件檢測單元112的圖3B中所示的三條信息,即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù))。然而,另外可以針對上述每條信息的輸入時序進(jìn)行各種設(shè)置,例如,當(dāng)新的語音被輸入時,語音事件檢測單元122產(chǎn)生并輸入上述(a)和(b)的每條信息作為語音事件信息,從而圖像事件檢測單元112以特定幀周期單位產(chǎn)生并輸入信息(a) (b)和(C)中的每一條作為語音事件信息。將參照圖4A至圖4C描述由信息整合處理單元131進(jìn)行的處理。如上所述,信息整合處理單元131包括目標(biāo)信息更新單元141和話語源概率計(jì)算單元142,并且進(jìn)行以下處理。目標(biāo)信息更新單元141輸入在圖像事件檢測單元112中檢測到的圖像事件信息,例如,使用粒子濾波器進(jìn)行目標(biāo)更新處理,并且基于圖像事件產(chǎn)生目標(biāo)信息和信號信息,從而將產(chǎn)生的信息輸出到處理確定單元132。另外,該目標(biāo)信息作為更新結(jié)果被輸出到話語源概率計(jì)算單元142。話語源概率計(jì)算單元142輸入在語音事件檢測單元122中檢測到的語音事件信息,并且使用標(biāo)識模式(標(biāo)識符)計(jì)算每個目標(biāo)是輸入語音事件的話語源的概率。話語源概率計(jì)算單元142基于計(jì)算出的值產(chǎn)生基于該語音事件的信號信息,并且將產(chǎn)生的信息輸出到處理確定單元132。首先,描述由目標(biāo)信息更新單元141進(jìn)行的處理。信息整合處理單元131的目標(biāo)信息更新單元141進(jìn)行如下處理:通過針對用戶的位置和標(biāo)識信息設(shè)置假定的概率分布數(shù)據(jù)來只留下更有可能的假定;以及基于輸入信息更新所述假定。作為該處理方案,進(jìn)行應(yīng)用粒子濾波器的處理。通過設(shè)置與各種假定相對應(yīng)的大量的粒子進(jìn)行應(yīng)用粒子濾波器的處理。在本實(shí)施例中,設(shè)置與用戶的位置和用戶是誰有關(guān)的假定相對應(yīng)的大量的粒子,并且基于來自圖像事件檢測單元112的圖3B中所示的三條信息,即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)),來進(jìn)行增加所述假定的更可能的權(quán)重的處理。將參照圖4A至圖4C描述應(yīng)用粒子濾波器的基本處理例子。例如,圖4A至圖4C中所示的例子示出了通過粒子濾波器估計(jì)與用戶相對應(yīng)的存在位置的處理例子。在圖4A至圖4C中所示的例子中,進(jìn)行估計(jì)用戶301在任意直線上的一維區(qū)域內(nèi)的位置的處理。如圖4A中所示,初始假定(H)變?yōu)榫鶆虻牧W臃植紨?shù)據(jù)。接下來,獲取圖像數(shù)據(jù)302,并且獲取基于所獲取的圖像的用戶301存在的概率分布數(shù)據(jù)作為圖4B的數(shù)據(jù)?;谝运@取的圖像為基礎(chǔ)的概率分布數(shù)據(jù),更新圖4A的粒子分布數(shù)據(jù),從而獲得圖4C的更新后的假定概率分布數(shù)據(jù)?;谳斎胄畔⒅貜?fù)進(jìn)行該處理,從而獲得該用戶的更可能的位置信息。另外,例如在[D.Schulz, D.Fox, and J.Hightower.People Tracking withAnonymous and ID—sensors Using Rao-BlackwelIised Particle Filters.Proc.0f theInternational Joint Conference on Artificial Intelligence (IJCA1-03)]中描述了使用粒子濾波器的處理細(xì)節(jié)。在圖4A至圖4C中所示的處理例子中,僅使用圖像數(shù)據(jù)并且僅針對用戶的存在位置處理輸入信息。因此,每個粒子只具有關(guān)于用戶301的存在位置的信息。信息整合處理單元131的目標(biāo)信息更新單元141從圖像事件檢測單元112獲取圖3B中所示的信息,即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且確定多個用戶的位置和所述多個用戶中的每一個是誰。因此,在應(yīng)用粒子濾波器的處理中,信息整合處理單元131設(shè)置與關(guān)于用戶的位置和用戶是誰的假定相對應(yīng)的大量粒子,從而在圖像事件檢測單元112中基于圖3B中所示的兩條信息進(jìn)行粒子更新。將參照圖5描述信息整合處理單元131通過輸入來自語音事件檢測單元122和圖像事件檢測單元112的圖3B中所示的以下三條信息來進(jìn)行的粒子更新處理例子,這三條信息即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(c)面部屬性信息(面部屬性分?jǐn)?shù))。另外,下面描述的粒子更新處理將被描述為在信息整合處理單元131的目標(biāo)信息更新單元141中只使用圖像事件信息進(jìn)行的處理例子。將描述粒子的配置。信息整合處理單元131的目標(biāo)信息更新單元141具有預(yù)定數(shù)目m個粒子。圖5中所示的粒子是I至m。在每個粒子中,粒子ID (pID=l至m)被設(shè)置為標(biāo)識符。在每個粒子中,設(shè)置與虛擬對象相對應(yīng)的多個目標(biāo)tID=l,2,...,n。在本實(shí)施例中,將比估計(jì)的真實(shí)空間中存在的人數(shù)多的多個“η個”與虛擬用戶相對應(yīng)的目標(biāo)設(shè)置為每個粒子。m個粒子中的每一個按照目標(biāo)單位的目標(biāo)數(shù)目保持?jǐn)?shù)據(jù)。在圖5中所示的例子中,每個粒子中包括η個(n=2)目標(biāo)。信息整合處理單元131的目標(biāo)信息更新單元141輸入來自圖像事件檢測單元112的圖3B中所示的事件信息,即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(c)面部屬性信息(面部屬性分?jǐn)?shù)),并且進(jìn)行m個粒子的更新(pID=l至m)。
圖5中所示的由信息整合處理單元131設(shè)置的包括在每個粒子I至m中的每個目標(biāo)I至η可以預(yù)先與每個輸入事件信息條目(eID=l至k)相關(guān)聯(lián),并且根據(jù)該關(guān)聯(lián)性對選擇的與輸入事件相對應(yīng)的目標(biāo)進(jìn)行更新。具體而言,例如,通過將目標(biāo)與每個面部圖像事件相關(guān)聯(lián),對在圖像事件檢測單元112中檢測到的面部圖像作為單獨(dú)事件進(jìn)行更新處理。將描述具體的更新處理。例如,圖像事件檢測單元112基于從圖像輸入單元(照相機(jī))111以預(yù)先確定的一定幀時間間隔輸入的圖像信息,產(chǎn)生(a)用戶位置信息、(b)用戶標(biāo)識信息和(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且將產(chǎn)生的信息輸入到信息整合處理單元 131。在該實(shí)例中,當(dāng)圖5中所示的圖像幀350是被檢測到的一幀事件時,該圖像幀中包括與面部圖像的數(shù)目相對應(yīng)的事件。也就是說,檢測到與圖5中所示的第一面部圖像351相對應(yīng)的事件I (eID=l)和與第二面部圖像352相對應(yīng)的事件2 (eID=2)。圖像事件檢測單元112針對每個事件(eID=l,2,...)產(chǎn)生(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)),并且將產(chǎn)生的信息輸入到信息整合處理單元131。也就是說,所產(chǎn)生的信息是與圖5中所示的事件相對應(yīng)的信息361和362。在信息整合處理單元131的目標(biāo)信息更新單元141中設(shè)置的每個粒子I至m中包括的每個目標(biāo)I至η能夠與每個事件(eID=l至k)相關(guān)聯(lián),并且具有預(yù)先設(shè)置更新每個粒子中所包括的哪個目標(biāo)的配置。另外,與每個事件(eID=l至k)相對應(yīng)的目標(biāo)(tID)的關(guān)聯(lián)性被設(shè)置為不重疊。也就是說,通過獲取的事件來產(chǎn)生事件產(chǎn)生源假定,使得在每個粒子中不發(fā)生重疊。在圖5中所示的例子中,(I)粒子 I (pID=l)是[事件 ID=I (eID=l)]=[目標(biāo) ID=I (tID=l)]的對應(yīng)目標(biāo)和[事件 ID=2(eID=2)] = [目標(biāo) ID=2 (tID=2)]的對應(yīng)目標(biāo),(2)粒子 2 (pID=2)是[事件 ID=I (eID=l)]=[目標(biāo) ID=I (tID=l)]的對應(yīng)目標(biāo)和[事件 ID=2(eID=2)] = [目標(biāo) ID=2 (tID=2)]的對應(yīng)目標(biāo),(m)粒子 m (pID=m)是[事件 ID=I (eID=l)]=[目標(biāo) ID=2 (tID=2)]的對應(yīng)目標(biāo)和[事件 ID=2(eID=2)] = [目標(biāo) ID=I (tID=l)]的對應(yīng)目標(biāo)。以這種方式,在信息整合處理單元131的目標(biāo)信息更新單元141中設(shè)置的每個粒子I至m中所包括的每個目標(biāo)I至η能夠預(yù)先與每個事件(eIDl至k)相關(guān)聯(lián),并且具有根據(jù)每個事件ID確定更新每個粒子中所包括的哪個目標(biāo)的配置。例如,通過圖5中所示的[事件ID=l(eID=l)]的事件對應(yīng)信息361,在粒子I (pID=l)中只選擇性地更新目標(biāo)ID=KtID=I)的數(shù)據(jù)。類似地,通過圖5中所示的[事件ID=I (eID=l)]的事件對應(yīng)信息361,在粒子2 (pID=2)中只選擇性地更新目標(biāo)ID=l(tID=l)的數(shù)據(jù)。另外,通過圖5中所示的[事件ID=I (eID=l)]的事件對應(yīng)信息361,在粒子m (pID=m)中只選擇性地更新目標(biāo)ID=2(tID=2)的數(shù)據(jù)。圖5中所示的事件產(chǎn)生源假定數(shù)據(jù)371和372是在每個粒子中設(shè)置的事件產(chǎn)生源假定數(shù)據(jù),并且根據(jù)與在每個粒子中設(shè)置事件產(chǎn)生源假定有關(guān)的信息來確定更新與該事件ID對應(yīng)的更新目標(biāo)。
將參照圖6描述每個粒子中所包括的目標(biāo)數(shù)據(jù)的每個包。在圖6中,示出了圖5中所示的粒子I (PlD=I)中所包括的單個目標(biāo)375 (目標(biāo)ID:tID=n)的目標(biāo)數(shù)據(jù)的配置。如圖6中所示,目標(biāo)375的目標(biāo)數(shù)據(jù)由以下數(shù)據(jù)配置而成,S卩,(a)與每個目標(biāo)相對應(yīng)的存在位置的概率分布[高斯分布:N(mln,σ ln)]和(b)表示每個目標(biāo)是誰的用戶置信度信息(UlD)UlDlnl=0.0UlDln2=0.1UlDlnk=0.5。另外,在上面的(a)中所示的高斯分布:N(mln,σln)中[mln,σ 1η]的(In)表示作為與粒子ID:pID=l中的目標(biāo)ID:tID=n相對應(yīng)的存在概率分布的高斯分布。另外,在上面的(b)中所示的用戶置信度信息(UlD)的[UlDlnl]中包括的(Inl)表示粒子ID:pID=l中目標(biāo)ID:tID=n的用戶是用戶I的概率。也就是說,目標(biāo)ID=n的數(shù)目表不是用戶I的概率是0.0,是用戶2的概率是0.1,...,是用戶k的概率是0.5。再次參考圖5,繼續(xù)描述在信息整合處理單元131的目標(biāo)信息更新單元141中設(shè)置的粒子。如圖5中所示,信息整合處理單元131的目標(biāo)信息更新單元141設(shè)置預(yù)定數(shù)目m個粒子(PlD=I至m),并且每個粒子具有例如如下目標(biāo)數(shù)據(jù):(a)與每個目標(biāo)相對應(yīng)的存在位置的概率分布[高斯分布:N(m,σ)],以及(b)關(guān)于估計(jì)真實(shí)空間中存在的每個目標(biāo)(tID=l至n),表示每個目標(biāo)是誰的用戶置信度信息(uID)。信息整合處理單元131的目標(biāo)信息更新單元141輸入來自語音事件檢測單元122和圖像事件檢測單元112的圖3B中所示的事件信息(eID=l,2…),即,(a)用戶位置信息、(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)和(C)面部屬性信息(面部屬性分?jǐn)?shù)[SrfD]),并且對與預(yù)先設(shè)置在每個粒子中的事件相對應(yīng)的目標(biāo)進(jìn)行更新。另外,要被更新的目標(biāo)是包括在目標(biāo)數(shù)據(jù)的每個包中的數(shù)據(jù),S卩,(a)用戶位置信息和(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)。(C)面部屬性信息(面部屬性分?jǐn)?shù)[SeID])最后被用作表示事件產(chǎn)生源的信號信息。當(dāng)一定數(shù)目的事件被輸入時,每個粒子的權(quán)重也被更新,使得具有最靠近真實(shí)空間中的信息的數(shù)據(jù)的粒子的權(quán)重增加,并且具有與真實(shí)空間中的信息不相稱的數(shù)據(jù)的粒子的權(quán)重減小。以這種方式,當(dāng)粒子權(quán)重發(fā)生偏離以及匯聚時,計(jì)算出基于面部屬性信息的信號信息(面部屬性分?jǐn)?shù)),即,表示事件產(chǎn)生源的信號信息。將任一特定目標(biāo)x(tID=x)是任一事件(eID=y)的產(chǎn)生源的概率表示為PeID=x(tID=y)。例如,如圖5中所示,當(dāng)設(shè)置了 m個粒子(pID=l至m),并且在每個粒子中設(shè)置了兩個目標(biāo)(tID=l,2)時,第一目標(biāo)(tID=l)是第一事件(eID=l)的產(chǎn)生源的概率是PeID=1(tID=l),并且第二目標(biāo)(tID=2)是第一事件(eID=l)的產(chǎn)生源的概率是PeID=1 (tID=2)。另外,第一目標(biāo)(tID=l)是第二事件(eID=2)的產(chǎn)生源的概率是PeID=2 (tID=l),并且第二目標(biāo)(tID=2)是第二事件(eID=2)的產(chǎn)生源的概率是PeID=2(tID=2)。表示事件產(chǎn)生 源的信號信息是,任一事件(eID=y)的產(chǎn)生源是特定目標(biāo)x(tID=x)的概率PeID=x (tID=y),并且這對應(yīng)于在信息整合處理單元131的目標(biāo)信息更新單元141中設(shè)置的粒子數(shù)目m和分配給每個事件的目標(biāo)數(shù)目的比率。在此,在圖5中所示的例子中,獲得以下對應(yīng)關(guān)系:PeID=1 (tID=l) =[將 tID=l 分配給第一事件(eID=l)的粒子的數(shù)目 / (m)],
PeID=1 (tID=2) =[將 tID=2 分配給第一事件(eID=l)的粒子的數(shù)目 /(m)],PeID=2(tID=l) =[將tID=l分配給第二事件(eID=2)的粒子的數(shù)目/(m)],以及PeID=2(tID=2) = [將 tID=2 分配給第二事件(eID=2)的粒子的數(shù)目 / (m)]。該數(shù)據(jù)最后被用作表示事件產(chǎn)生源的信號信息。另外,任一事件(eID=y)的產(chǎn)生源是特定目標(biāo)x (tID=x)的概率是PeID=y (tID=x)。該數(shù)據(jù)還被用于計(jì)算包括在目標(biāo)信息中的面部屬性信息。也就是說,該數(shù)據(jù)被用于計(jì)算面部屬性信息StID=1$n。面部屬性信息StID=x對應(yīng)于目標(biāo)ID=X的最終面部屬性的預(yù)期值,即,表示是說話者的概率的值。信息整合處理單元131的目標(biāo)信息更新單元141輸入來自圖像事件檢測單元112的事件信息(eID=l,2...),并且對與每個粒子中預(yù)先設(shè)置的事件相對應(yīng)的目標(biāo)進(jìn)行更新。接下來,目標(biāo)信息更新單元141產(chǎn)生(a)目標(biāo)信息,其包括表示多個用戶中每一個的位置的位置估計(jì)信息;表示所述多個用戶中的每一個是誰的估計(jì)信息UID估計(jì)信息);以及面部屬性信息的預(yù)期值(Stm),例如,表示通過嘴部運(yùn)動說話的面部屬性預(yù)期值,以及(b)表示事件產(chǎn)生源的信號信息(圖像事件對應(yīng)信號信息),如正在說話的用戶,并且將產(chǎn)生的信息輸出到處理確定單元132。如圖7的右手側(cè)所示的目標(biāo)信息380中所示,該目標(biāo)信息被產(chǎn)生作為包括在每個粒子(PlD=I至m)中的每個目標(biāo)(tID=l至η)的對應(yīng)數(shù)據(jù)的加權(quán)求和數(shù)據(jù)。在圖7中,示出了信息整合處理單元131的m個粒子(pID=l至m)和從該m個粒子(pID=l至m)產(chǎn)生的目標(biāo)信息380。稍后描述每個粒子的權(quán)重。目標(biāo)信息380是表示關(guān)于與信息整合處理單元131預(yù)先設(shè)置的虛擬用戶相對應(yīng)的目標(biāo)(tID=l至η)的(a)存在位置、(b)該用戶是(用戶uIDl至uIDk當(dāng)中的)誰以及(c)面部屬性的預(yù)期值(在本實(shí)施例中,是說話者的預(yù)期值(概率))?;谂c上述表示事件產(chǎn)生源的信號信息相對應(yīng)的概率PeID=x(tID=y)和與每個事件相對應(yīng)的面部屬性分?jǐn)?shù)SrfD=i,來計(jì)算(C)每個目標(biāo)的面部屬性的預(yù)期值(在本實(shí)施例中,是說話者的預(yù)期值(概率))。在此,“i”表示事件ID。例如,根據(jù)如下等式計(jì)算目標(biāo)ID=I的面部屬性的預(yù)期值當(dāng)ΣεΙΒΡεΜ (tID=l) XSeM被推廣并示出時,根據(jù)如下等式計(jì)算該目標(biāo)的面部屬性的預(yù)期值:stID〈等式1>Stm=E eIDPeID=i(tID) XSero例如,在如圖5中所示的系統(tǒng)內(nèi)存在兩個目標(biāo)的情況下,在圖像I的幀內(nèi)從圖像事件檢測單元112向信息整合處理單元131輸入兩個面部圖像事件(eID=l,2)時每個目標(biāo)CtID=I, 2)的面部屬性的預(yù)期值的計(jì)算例子在圖8中示出。圖8的右端所示的數(shù)據(jù)是與圖7中所示的目標(biāo)信息380相對應(yīng)的目標(biāo)信息390,并且對應(yīng)于作為包括在每個粒子(PlD=I至m)中的每個目標(biāo)(tID=l至η)的對應(yīng)數(shù)據(jù)的加權(quán)求和數(shù)據(jù)所產(chǎn)生的信息?;谂c上述表示事件產(chǎn)生源的信號信息相對應(yīng)的概率PeID=x(tID=y)以及與每個事件相對應(yīng)的面部屬性分?jǐn)?shù)SrfD=i來計(jì)算目標(biāo)信息390中每個目標(biāo)的面部屬性。在此,“i”表示事件ID。
目標(biāo)ID=I 的面部屬性的預(yù)期值:StID=1 被表示為 StID=1= Σ eIDPeID=i(tID=l) XSeID=i,并且目標(biāo)ID=2的面部屬性的預(yù)期值:StID=2被表不為StID=2= Σ eIDPeID=i (tID=2) XSeID=i。每個目標(biāo)的面部屬性的預(yù)期值的所有目標(biāo)的總和:StID為[I]。在本實(shí)施例中,由于關(guān)于每個目標(biāo)設(shè)置了面部屬性的預(yù)期值I至O:StID,所以具有高預(yù)期值的目標(biāo)被確定為使得是說話者的概率高。另外,當(dāng)在面部圖像事件eID中不存在面部屬性分?jǐn)?shù)[SrfD]時(例如,當(dāng)盡管檢測到面部,但是由于手覆蓋了嘴部而沒有檢測到嘴部運(yùn)動時),在面部屬性分?jǐn)?shù)SrfD中使用先驗(yàn)知識的值Sphot等。作為先驗(yàn)知識的值,當(dāng)存在針對每個目標(biāo)預(yù)先獲得的值時,使用該值,或者使用根據(jù)預(yù)先離線獲得的面部圖像事件計(jì)算出的面部屬性的平均值。目標(biāo)的數(shù)目和圖像I的幀內(nèi)面部圖像事件的數(shù)目通常是不相同的。由于當(dāng)目標(biāo)的數(shù)目大于面部圖像事件的數(shù)目時,與表示上述事件產(chǎn)生源的信號信息相對應(yīng)的概率之和PeID(tID)不為[1],所以關(guān)于每個目標(biāo)的面部屬性的預(yù)期值的上述計(jì)算等式的每個目標(biāo)的預(yù)期值之和,即Stm= Σ_ΡεΙΜαΠ)) XSem (等式1),不為[I],從而計(jì)算不出具有高準(zhǔn)確度的預(yù)期值。如圖9中所示,當(dāng)在圖像幀350中沒有檢測到與前一處理幀中存在的第三事件相對應(yīng)的第三面部圖像395時,上述等式I中所示的關(guān)于每個目標(biāo)的預(yù)期值之和不為[1],并且計(jì)算不出具有高準(zhǔn)確度的預(yù)期值。在此情況下,改變每個目標(biāo)的面部屬性的預(yù)期值計(jì)算等式。也就是說,為了使每個目標(biāo)的面部屬性的預(yù)期值Stm之和為[1],使用補(bǔ)數(shù)[1-Σ eIDPeID(tID)]和先驗(yàn)知識的值[S_ J,通過如下等式2計(jì)算面部事件屬性的預(yù)期值
StID0〈等式2> Stm= Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior然而,在圖9中,系統(tǒng)內(nèi)設(shè)置了與事件相對應(yīng)的三個目標(biāo),描述當(dāng)只有兩個目標(biāo)從圖像事件檢測單元112輸入到信息整合處理單元131作為圖像I的幀內(nèi)的面部圖像事件時,面部屬性的預(yù)期值的計(jì)算例子。進(jìn)行該計(jì)算,使得:目標(biāo)ID=I的面部屬性的預(yù)期值StID=1為StID=1= Σ eIDPeID=i (tID=l)X SeID=i+(l- Σ eIDPeID (tID=l)) X Sprior,目標(biāo) ID=2 的面部屬性的預(yù)期值 StID=2 為 StID=2= Σ eIDPeID=i(tID=2) XSeID=i+(l-EeIDPeID(tID=2)) X Sp_,并且目標(biāo) ID=3 的面部屬性的預(yù)期值StID=3 為Stm=S= Σ eIDPeID=i(tID=3) XSeID=i+(l- Σ eIDPeID (tID=3)) XSpri0ro相反,當(dāng)目標(biāo)的數(shù)目小于面部圖像事件的數(shù)目時,產(chǎn)生該目標(biāo),使得目標(biāo)的數(shù)目與事件的數(shù)目相同,并且通過應(yīng)用上述等式I來計(jì)算每個目標(biāo)的面部屬性的預(yù)期值[Stm=J。另外,在本實(shí)施例中,面部屬性被描述為基于與嘴部運(yùn)動相對應(yīng)的分?jǐn)?shù)的面部屬性預(yù)期值,即,表示每個目標(biāo)是說話者的預(yù)期值的數(shù)據(jù),然而,如上文所述,該面部屬性分?jǐn)?shù)可以被計(jì)算為諸如笑臉或年齡等的分?jǐn)?shù),并且在此情況下面部屬性預(yù)期值被計(jì)算為與對應(yīng)于該分?jǐn)?shù)的屬性相對應(yīng)的數(shù)據(jù)。隨著粒子的更新,目標(biāo)信息被順序更新,并且例如當(dāng)用戶I至k不在真實(shí)環(huán)境中沒有運(yùn)動時,每個用戶I至k收斂為與從η個目標(biāo)tID=l至η中選擇的k個目標(biāo)中的每一個相對應(yīng)的數(shù)據(jù)。例如,圖7中所示的目標(biāo)信息380內(nèi)的第一目標(biāo)I (tID=l)的數(shù)據(jù)中包括的用戶置信度信息(uID)關(guān)于用戶2具有最高概率UID12=0.7)。因此,估計(jì)該目標(biāo)I (tID=l)的數(shù)據(jù)對應(yīng)于用戶2。另外,表示用戶置信度信息uID的數(shù)據(jù)[UlD12=0.7]內(nèi)的1!1012的12是對應(yīng)于目標(biāo)ID=I的用戶=2的用戶置信度信息uID的概率。在該目標(biāo)信息380內(nèi)第一目標(biāo)I (tID=l)的數(shù)據(jù)中,是用戶2的概率最高,并且估計(jì)用戶2處于以下存在概率分布數(shù)據(jù)中所示的范圍內(nèi),在該存在概率分布數(shù)據(jù)中,用戶2的存在位置被包括在目標(biāo)信息380的第一目標(biāo)I (tID=l)的數(shù)據(jù)中。以這種方式,目標(biāo)信息380是表示關(guān)于最初設(shè)置為虛擬對象(虛擬用戶)的每個目標(biāo)(tID=l至η)的以下各項(xiàng)的信息:(a)存在位置、(b)該用戶是(用戶uIDl至uIDk當(dāng)中的)誰以及(c)面部屬性的預(yù)期值(在本實(shí)施例中是說話者的預(yù)期值(概率))。因此,當(dāng)用戶不動時,每個目標(biāo)(tID=l至η)的k個目標(biāo)信息中的每一個收斂為對應(yīng)于用戶I至k。如上所述,信息整合處理單元131基于輸入信息對粒子進(jìn)行更新,并且產(chǎn)生:(a)目標(biāo)信息,其作為關(guān)于多個用戶的位置和所述多個用戶中的每一個是誰的估計(jì)信息;以及(b)信號信息,其表示事件產(chǎn)生源,如正在說話的用戶,從而將產(chǎn)生的信息輸出到處理確定單元132。以這種方式,信息整合處理單元131的目標(biāo)信息更新單元141進(jìn)行應(yīng)用于多個粒子的粒子過濾處理,并且產(chǎn)生包括存在于真實(shí)空間中的用戶的位置信息的分析信息,其中所述多個粒子設(shè)置與虛擬用戶相對應(yīng)的多個目標(biāo)數(shù)據(jù)。也就是說,在粒子中設(shè)置的目標(biāo)數(shù)據(jù)的每個包被設(shè)置為與從事件檢測單元輸入的每個事件相關(guān)聯(lián),并且根據(jù)輸入的事件標(biāo)識符對與從每個粒子中選擇的事件相對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行更新。另外,目標(biāo)信息更新單元141根據(jù)從事件檢測單元輸入的事件信息來計(jì)算在每個粒子中設(shè)置的事件內(nèi)產(chǎn)生源假定目標(biāo)似然,并且設(shè)置與該似然的等級相對應(yīng)的值作為每一個粒子的粒子權(quán)重,從而進(jìn)行優(yōu)選選擇具有大權(quán)重的粒子的再采樣處理以更新粒子。稍后描述該處理。另外,關(guān)于在每個粒子中設(shè)置的目標(biāo),隨著時間的推移進(jìn)行更新。另外,根據(jù)在每個粒子中設(shè)置的事件 產(chǎn)生源假定目標(biāo)的數(shù)目,產(chǎn)生信號信息作為事件產(chǎn)生源的概率值。同時,信息整合處理單元131的話語源概率計(jì)算單元142輸入在語音事件檢測單元122中檢測到的語音事件信息,并且使用標(biāo)識模式(標(biāo)識符)計(jì)算每個目標(biāo)是輸入的語音事件的話語源的概率。話語源概率計(jì)算單元142基于計(jì)算出的值來產(chǎn)生關(guān)于語音事件的信號信息,并且將產(chǎn)生的信息輸出到處理確定單兀132。稍后描述話語源概率計(jì)算單元142進(jìn)行的處理的細(xì)節(jié)。[3.本公開的信息處理設(shè)備進(jìn)行的處理序列]接下來,參照圖10中所示的流程圖描述信息整合處理單元131進(jìn)行的處理序列。信息整合處理單元131輸入來自語音事件檢測單元122和圖像事件檢測單元112的圖3B中所示的事件信息,即,用戶位置信息和用戶標(biāo)識信息(面部標(biāo)識信息或說話者標(biāo)識信息),產(chǎn)生:(a)目標(biāo)信息,其作為與多個用戶的位置以及所述多個用戶中的每一個是誰有關(guān)的估計(jì)信息;以及(b)信號信息,其表示例如正在說話的用戶等的事件產(chǎn)生源,并且將所產(chǎn)生的信息輸出到處理確定單元132。將參照圖10中所示的流程圖描述該處理序列。首先,在步驟SlOl中,信息整合處理單元131輸入來自語音事件檢測單元122和圖像事件檢測單元112的事件信息,如:(a)用戶位置信息,(b)用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)以及(C)面部屬性信息(面部屬性分?jǐn)?shù)).
當(dāng)成功進(jìn)行了事件信息的獲取時,該處理前進(jìn)到步驟S102,而當(dāng)錯誤地進(jìn)行了事件信息的獲取時,該處理前進(jìn)到步驟S121。稍后描述步驟S121的處理。當(dāng)成功地進(jìn)行了事件信息的獲取時,在步驟S102中,信息整合處理單元131確定語音事件是否被輸入。當(dāng)輸入的事件是語音事件時,該處理前進(jìn)到步驟S111,而當(dāng)輸入的事件是圖像事件時,該處理前進(jìn)到步驟S103。當(dāng)輸入的事件是語音事件時,在步驟Slll中,使用標(biāo)識模式(標(biāo)識符)計(jì)算每個目標(biāo)是輸入的語音事件的話語源的概率。計(jì)算結(jié)果被輸出到處理確定單元132 (見圖2)作為基于語音事件的信號信息。稍后描述步驟Slll的細(xì)節(jié)。當(dāng)輸入的事件是圖像事件時,在步驟S103中,基于輸入的信息對粒子進(jìn)行更新,然而,在對該粒子進(jìn)行更新之前,在步驟S103中,確定是否需要針對每個粒子進(jìn)行新目標(biāo)的設(shè)置。在本公開的配置中,如參照圖5描述的,在信息整合處理單元131中設(shè)置的每個粒子I至m中包括的每個目標(biāo)I至η能夠與每個輸入事件信息(eID=l至k)相關(guān)聯(lián),并且根據(jù)該關(guān)聯(lián)性對所選擇的與輸入事件相對應(yīng)的目標(biāo)進(jìn)行更新。因此,當(dāng)從圖像事件檢測單元112輸入的事件的數(shù)目大于目標(biāo)的數(shù)目時,需要進(jìn)行新目標(biāo)的設(shè)置。具體而言,這對應(yīng)于在圖5中所示的圖像幀350中出現(xiàn)了目前不存在的面部的情況。在此情況下,該處理前進(jìn)到步驟S104,從而在每個粒子中設(shè)置新目標(biāo)。該目標(biāo)被設(shè)置為更新為與新事件等同的目標(biāo)。接下來,在步驟S105中,在信息整合處理單元131中設(shè)置的m個粒子(pID=l至m)的每個粒子I至m中設(shè)置事件產(chǎn)生源的假定。對于事件產(chǎn)生源,例如,當(dāng)事件產(chǎn)生源是語音事件時,正在說話的用戶是事件產(chǎn)生源,而當(dāng)事件產(chǎn)生源是圖像事件時,具有所提取的面部的用戶是事件產(chǎn)生源。如參照圖5描述的,進(jìn)行設(shè)置本公開的假定的處理,使得每個輸入事件信息條目CeID=I至k)被設(shè)置為與包括在每個粒子I至m中的每個目標(biāo)I至η相關(guān)聯(lián)。也就是說,如參照圖5描述的,包括在每個粒子I至m中的每個目標(biāo)I至η與每個事件信息(eID=l至k)相關(guān)聯(lián),并且預(yù)先設(shè)置更新包括在每個粒子中的哪個目標(biāo)。以這種方式,在每個粒子中產(chǎn)生獲取事件的事件產(chǎn)生源假定。另外,例如,最初可以使用均勻分布每個事件的設(shè)置。由于粒子的數(shù)目m被設(shè)置為大于目標(biāo)的數(shù)目n,所以將多個粒子設(shè)置為具有相同的事件ID-目標(biāo)ID的對應(yīng)性。例如,當(dāng)目標(biāo)的數(shù)目η為10時,進(jìn)行將粒子的數(shù)目m設(shè)置為100至1000的處理。當(dāng)在步驟S105中完成了對假定的設(shè)置時,該處理前進(jìn)到步驟S106。在步驟S106中,計(jì)算與每個粒子相對應(yīng)的權(quán)重,即,計(jì)算粒子權(quán)重[WpID]。對于粒子權(quán)重[WPID],最初將均勻值設(shè)置給每個粒子,然而,根據(jù)事件輸入進(jìn)行更新。將參照圖11詳細(xì)描述粒子權(quán)重[WpID]的計(jì)算過程。粒子權(quán)重[WpID]對應(yīng)于每個粒子產(chǎn)生事件產(chǎn)生源的假定目標(biāo)的假定正確性的指標(biāo)。計(jì)算粒子權(quán)重[WpID],作為事件和目標(biāo)之間的似然度,即,與能夠與m個粒子中的每一個(pID-Ι至m)中設(shè)置的多個目標(biāo)中的每一個相關(guān)聯(lián)的事件產(chǎn)生源的輸入事件的相似性。在圖11中,信息整合處理單元131示出與從語音事件檢測單元122和圖像事件檢測單元112輸入的單個事件(eID=l)相對應(yīng)的事件信息401和由信息整合處理單元131保持的單個粒子421。粒子421的目標(biāo)(tID=2)是能夠與事件(eID=l)相關(guān)聯(lián)的目標(biāo)。
在圖11的下端,示出了事件和目標(biāo)之間似然度的計(jì)算處理例子。計(jì)算粒子權(quán)重[WPID],作為與事件和目標(biāo)之間的似然度之和相對應(yīng)的值,該似然度是在每個粒子中計(jì)算出的事件和目標(biāo)之間的相似度指標(biāo)。進(jìn)行圖11的下端示出的計(jì)算似然度的處理,使得分別計(jì)算出:(a)高斯分布之間的似然度[DL],作為關(guān)于用戶位置信息的事件與目標(biāo)數(shù)據(jù)之間的相似性數(shù)據(jù);以及(b)用戶置信度信息UID)之間的似然度[UL],作為關(guān)于用戶標(biāo)識信息(面部標(biāo)識信息或者說話者標(biāo)識信息)的事件與目標(biāo)數(shù)據(jù)之間相似性數(shù)據(jù)。作為(a)關(guān)于用戶位置信息的事件與假定目標(biāo)之間相似性數(shù)據(jù)的高斯分布之間的似然度[DL]的計(jì)算處理是如下處理。當(dāng)與輸入事件信息內(nèi)的用戶位置信息相對應(yīng)的高斯分布是N(me,σ e),并且與從粒子中選擇的假定目標(biāo)的用戶位置信息相對應(yīng)的高斯分布是N(mt,ot)時,通過如下等式計(jì)算高斯分布之間的似然度[DL]。DL=N (mt, σ t+ σ e) χ | me在上面的等式中,在以中心mt分布σ t+o e的高斯分布中計(jì)算x=me的位置值。(b)按如下進(jìn)行作為用戶標(biāo)識信息(面部標(biāo)識信息或說話者標(biāo)識信息)的事件與假定目標(biāo)之間的相似性數(shù)據(jù)的用戶置信度信息(uID)之間的似然度[UL]的計(jì)算處理。假定在輸入的事件信息內(nèi)用戶置信度信息(UlD)的每個用戶I至k的置信度值是Pe[i]。另外,“i”是與用戶標(biāo)識符I至k相對應(yīng)的變量。使用從粒子中選擇的 假定目標(biāo)的用戶置信度信息(UlD)的每個用戶I至k的置信度的值(分?jǐn)?shù))作為Pt[i],通過如下等式計(jì)算用戶置信度信息(uID)之間的似然度[UL]。UL= Σ Pe[i] XPt[i]在上面的等式中,獲得包括在兩條數(shù)據(jù)的用戶置信度信息(UlD)中的各個相應(yīng)用戶置信度的值(分?jǐn)?shù))的乘積之和,并且所獲得的和作為用戶置信度信息(uID)之間的似然度[UL]?;谝陨蟽蓚€似然度,即,高斯分布之間的似然性[DL]和用戶置信度信息(UlD)之間的似然度[UL],使用權(quán)重α ( α=0至1),通過如下等式計(jì)算粒子權(quán)重[WpID]。[ffpID] =EnULa XDL1^a在此,η表示與包括在粒子中的事件相對應(yīng)的目標(biāo)的數(shù)目。使用上面的等式,計(jì)算粒子權(quán)重[WpID]。然而,a =0至I。針對每個粒子計(jì)算粒子權(quán)重[WpID]。用于計(jì)算粒子權(quán)重[WpID]的權(quán)重[a ]可以是預(yù)定的固定值,或者是隨著輸入的事件值變化的值。例如,當(dāng)輸入事件是圖像時,成功進(jìn)行面部檢測以獲取位置信息,然而,當(dāng)面部識別被錯誤地進(jìn)行時,作為a=0的設(shè)置,滿足用戶置信度信息(UlD)之間的似然度:UL=1,從而可以只根據(jù)高斯分布之間的似然度[DL]計(jì)算粒子權(quán)重[WpID]。另外,當(dāng)輸入事件是語音時,成功地進(jìn)行說話者識別以獲取說話者信息,然而,當(dāng)位置信息的獲取被錯誤地進(jìn)行時,作為a =0的設(shè)置,滿足高斯分布之間的似然度[DL] = 1,從而可以只根據(jù)用戶置信度信息(uID)之間的似然度[UL]計(jì)算粒子權(quán)重[WPID]。進(jìn)行圖10的流程圖的步驟S106中對應(yīng)于每個粒子的權(quán)重[WpID]的計(jì)算,即參照圖11描述的處理。接下來,在步驟S107中,基于在步驟S106中設(shè)置的每個粒子的粒子權(quán)重[WPID]進(jìn)行粒子的再采樣處理。
進(jìn)行粒子的再采樣處理,即根據(jù)粒子權(quán)重[WpID]從m個粒子中選出粒子的處理。具體而言,例如,在粒子數(shù)目m=5的情況下,當(dāng)分別設(shè)置以下粒子權(quán)重時:粒子1:粒子權(quán)重[WpID] =0.40,粒子2:粒子權(quán)重[WpID] =0.10,粒子3:粒子權(quán)重[WpID] = 0.25,粒子4:粒子權(quán)重[WpID] = 0.05,以及粒子5:粒子權(quán)重[WpID] = 0.20。粒子I以40%的概率被再采樣,并且粒子2以10%的概率被再采樣。另外,實(shí)際上,HI=IOO至1000,并且再采樣結(jié)果由具有與粒子權(quán)重相對應(yīng)的分布比率的粒子配置而成。通過該處理,留下了更多個具有大粒子權(quán)重[WpID]的粒子。另外,即使在再采樣之后,粒子的總數(shù)[m]也不改變。另外,在再采樣之后,每個粒子的權(quán)重[WPID]被重新設(shè)置,并且根據(jù)新事件的輸入從步驟SlOl起重新進(jìn)行該處理。在步驟S108中,對包括在每個粒子中的目標(biāo)數(shù)據(jù)(用戶位置和用戶置信度)進(jìn)行更新。如參照圖7描述的,每個目標(biāo)由如下數(shù)據(jù)配置而成:(a)用戶位置:與每個目標(biāo)相對應(yīng)的存在位置的概率分布[高斯分布:N(mt,σ t)],(b)是用戶I至k的估計(jì)值(分?jǐn)?shù)):Pt[i] (i=l至k)作為用戶置信度:用戶置信度信息(uID)表示每個用戶是誰,即,UlDtl=Pt [I]UlDt2=Pt [2]:UlDtk=Pt [k],以及(c)面部屬性的預(yù)期值(在本實(shí)施例中,是說話者的預(yù)期值(概率))。基于與上述表示事件產(chǎn)生源的信號信息相對應(yīng)的概率Pem = x (tID=y)和與每個事件相對應(yīng)的面部屬性分?jǐn)?shù)SrfD=i來計(jì)算(C)面部屬性的預(yù)期值(在本實(shí)施例中,是說話者的預(yù)期值(概率))。在此,“i”是事件ID。例如,通過如下等式計(jì)算目標(biāo)ID=I的面部屬性的預(yù)期值:\ΙΜ。StID=1= Σ eIDPeID=i(tID=l) X SeID=i當(dāng)被推廣并示出時,通過如下等式I來計(jì)算目標(biāo)的面部屬性的預(yù)期值:\ΙΜ。< 等式 1>Stm=E eIDPeID = i(tID)XSeID另外,當(dāng)目標(biāo)的數(shù)目大于面部圖像事件的數(shù)目,使得每個目標(biāo)的面部屬性的預(yù)期值[StID]之和為[I]時,使用補(bǔ)數(shù)[1- Σ eIDPeID(tID)]和先驗(yàn)知識的值[S_J,通過如下等式2計(jì)算面部事件屬性的預(yù)期值StID。< 等式 2>Stm= Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior針對(a)用戶位置、(b)用戶置信度和(C)面部屬性的預(yù)期值(在本實(shí)施例中,是說話者的預(yù)期值(概率))中的每一個進(jìn)行步驟S108中的目標(biāo)數(shù)據(jù)更新。首先,描述對(a)用戶位置的更新。進(jìn)行(a)用戶位置的更新即如下兩級更新:(al)針對所有粒子的所有目標(biāo)的更新;以及(a2)針對每個粒子中設(shè)置的事件產(chǎn)生源假定目標(biāo)的更新。針對被選擇為事件產(chǎn)生源假定目標(biāo)的目標(biāo)和其它目標(biāo)進(jìn)行(al)針對所有粒子的所有目標(biāo)的更新。該更新是在用戶位置的散布隨著時間擴(kuò)展的假定基礎(chǔ)上進(jìn)行的,并且利用從前一次更新處理以來經(jīng)過的時間和事件的位置信息,使用卡爾曼濾波器進(jìn)行該更新。下面描述在位置信息是一維的情況下更新處理的例子。首先,當(dāng)前一次更新處理之后經(jīng)過的時間是[dt]時,針對所有目標(biāo),計(jì)算dt之后用戶位置的預(yù)測分布。也就是說,針對高斯分布即用戶位置的分布信息:N(mt,σ t)的預(yù)期值(平均值):[mt]和分布[σ J,進(jìn)行以下更新。mt=mt+xc X dtσ t2= σ t2+ σ c2 X dt在此,mt表示預(yù)測的預(yù)期值(預(yù)測狀態(tài)),σ t2表示預(yù)測的協(xié)方差(預(yù)測的估計(jì)協(xié)方差),XC表示運(yùn)動信息(控制模式),O C2表示噪聲(過程噪聲)。另外,在用戶不動的條件下進(jìn)行更新的情況下,使用XC=O進(jìn)行該更新。通過上述計(jì)算處理,作為包括在所有目標(biāo)中的用戶位置信息的高斯分布N(mt,σ t)被更新。接下來,描述針對每個粒子中設(shè)置的事件產(chǎn)生源假定目標(biāo)的更新。在步驟S104中,更新根據(jù)設(shè)置的事件產(chǎn)生源假定所選擇的目標(biāo)。首先,如參照圖5描述的,將包括在每個粒子I至m中的每個目標(biāo)I至η設(shè)置為可以與每個事件(eID=l至k)相關(guān)聯(lián)的目標(biāo)。也就是說,預(yù)先設(shè)置根據(jù)事件ID (eID)更新每個粒子中包括的哪個目標(biāo),并且基于該設(shè)置只更新可以與輸入的事件相關(guān)聯(lián)的目標(biāo)。例如,通過圖5中所示的[事件ID=KeID=I)]的事件對應(yīng)信息361,在粒子I (pID=l)中只選擇性地更新目標(biāo)ID=I (tID=l)的數(shù)據(jù)。在基于事件產(chǎn)生源假定進(jìn)行的更新處理中,進(jìn)行能夠與該事件相關(guān)聯(lián)的目標(biāo)的更新。進(jìn)行使用表示從語音事件檢測單元122或圖像事件檢測單元112輸入的事件信息中包括的用戶位置的高斯分布:N(me,oe)的更新處理。例如,當(dāng)假定K表示卡爾曼增益,me表示包括在輸入事件信息:N(me,σ e)中的觀測值(觀測狀態(tài)),并且表示包括在輸入事件信息:N(me,oe)中的觀測值(觀測協(xié)方差)時,進(jìn)行如下更新:K= 0t2/(0t2+0e2),mt=mt+K (xc-mt),以及σ t2= (1-K) σ t2。接下來,描述作為目標(biāo)數(shù)據(jù)的更新處理進(jìn)行的用戶置信度的更新。在目標(biāo)數(shù)據(jù)中,除了用戶位置信息以外,還包括表示每個目標(biāo)是誰的用戶置信度信息(uID),S卩,是每個用戶I至k的概率(分?jǐn)?shù)):Pt[i] (i=l至k)。在步驟S108中,進(jìn)行針對用戶置信度信息(uID)的更新處理。利用所有注冊用戶的后驗(yàn)概率和包括在從語音事件檢測單元122或圖像事件檢測單元112輸入的事件信息中的用戶置信度信息(uID):Pe[i] (i=l至k),通過應(yīng)用具有預(yù)先設(shè)置的范圍在O至I的值的更新率[β ],進(jìn)行關(guān)于包括在每個粒子Pt [i] (i=l至k)中的目標(biāo)的用戶置信度信息(uID)的更新。通過如下等式進(jìn)行針對目標(biāo):Pt[i] (i=l至k)的用戶置信度信息(UlD)的更新。Pt[i] = (l_i3) XPt[i] + i3*Pe[i]在此,i=l至k,β=0至I。另外,更新率[β]對應(yīng)于O至I的值,并且被預(yù)先設(shè)置。在步驟S108中,更新后的目標(biāo)數(shù)據(jù)中包括以下數(shù)據(jù),S卩:(a)用戶位置:與每個目標(biāo)相對應(yīng)的存在位置的概率分布[高斯分布:N(mt,ot)] ;(b)作為用戶置信度的是每個用戶I至k的估計(jì)值(分?jǐn)?shù)):Pt[i](i=l至k):表示每個目標(biāo)是誰的用戶置信度信息(UlD),即UlDtl=Pt [I]UlDt2=Pt [2]:UlDtk=Pt [k];以及(c)面部屬性的預(yù)期值(在本實(shí)施例中是說話者的預(yù)期值(概率))。基于上述數(shù)據(jù)和每個粒子權(quán)重[WpID]產(chǎn)生目標(biāo)信息,并且將所產(chǎn)生的目標(biāo)信息輸出到處理確定單元132。另外,作為包括在每 個粒子(pID=l至m)中的每個目標(biāo)(tID=l至η)的對應(yīng)數(shù)據(jù)的加權(quán)求和數(shù)據(jù),產(chǎn)生該目標(biāo)信 息。該目標(biāo)信息是圖7的右端中所示的目標(biāo)信息380中所示的數(shù)據(jù)。該目標(biāo)數(shù)據(jù)被產(chǎn)生為包括每個目標(biāo)(tID=l至η)的以下信息:(a)用戶位置信息、
(b)用戶置信度信息以及(c)每個面部屬性的預(yù)期值(在本實(shí)施例中是說話者的預(yù)期值(概率))。例如,與目標(biāo)(tID=l)相對應(yīng)的目標(biāo)信息的用戶位置信息被表示為如下等式A。
[028權(quán)利要求
1.一種信息處理設(shè)備,包括: 多個信息輸入單元,其輸入真實(shí)空間的觀測信息; 事件檢測單元,其基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,所述事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及 信息整合處理單元,其接收所述事件信息,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息, 其中所述信息整合處理單元包括話語源概率計(jì)算單元,并且 其中所述話語源概率計(jì)算單元進(jìn)行以下處理:通過將基于說話場景的權(quán)重乘以從所述事件檢測單元輸入的多條不同信息,來計(jì)算代表每個目標(biāo)的話語源概率的指標(biāo)值,作為話語源分?jǐn)?shù)。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元接收與話語事件對應(yīng)的(a)第一用戶位置信息即聲源方向信息和(b)第一用戶標(biāo)識信息即說話者標(biāo)識信息的輸入,作為來自構(gòu)成所述事件檢測單元的語音事件檢測單元的輸入信息,接收(a)第二用戶位置信息即面部位置信息、(b)第二用戶標(biāo)識信息即面部標(biāo)識信息和(C)唇部運(yùn)動信息的輸入,作為基于來自構(gòu)成所述事件檢測單元的圖像事件檢測單元的輸入信息而產(chǎn)生的目標(biāo)信息,并且通過采用從所述事件檢測單元輸入的信息中的至少一條進(jìn)行基于所述信息計(jì)算所述話語源分?jǐn)?shù)的處理。
3.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元應(yīng)用聲源方向信息D、說話者標(biāo)識信息S和唇部運(yùn)動信息L,并且進(jìn)行根據(jù)用于計(jì)算話語源分?jǐn)?shù)P的公式P=Da -S0-Ly來計(jì)算所述話語源分?jǐn)?shù)的處理, 其中a是聲源方向信息的權(quán)重系數(shù),β是說話者標(biāo)識信息的權(quán)重系數(shù),Y是唇部運(yùn)動信息的權(quán)重系數(shù),并且α+β + γ=1。`
4.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元進(jìn)行根據(jù)說話場景來調(diào)節(jié)所述權(quán)重系數(shù)a、β和Υ的處理。
5.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元根據(jù)以下兩個條件進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Υ的處理:條件1,僅來自一個目標(biāo)的單個話語,還是來自兩個目標(biāo)的同時話語;以及條件2,這兩個目標(biāo)的位置相互靠近,還是這兩個目標(biāo)的位置相互遠(yuǎn)離。
6.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)同時說話的情況下,進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)α、β和Υ的處理,使得所述唇部運(yùn)動信息的權(quán)重系數(shù)Y更小。
7.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,其中,所述話語源概率計(jì)算單元在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)的位置相互靠近并且只有一個目標(biāo)說話的情況下,進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)a、β和Υ的處理,使得所述聲源方向信息的權(quán)重系數(shù)a更小。
8.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,其中所述話語源概率計(jì)算單元在存在兩個具有話語概率的目標(biāo)并且這兩個目標(biāo)的位置相互靠近并且這兩個目標(biāo)同時說話的情況下,進(jìn)行調(diào)節(jié)所述權(quán)重系數(shù)a、β和Y的處理,使得所述唇部運(yùn)動信息的權(quán)重系數(shù)Y和所述聲源方向信息的權(quán)重系數(shù)a小。
9.一種在信息處理設(shè)備中進(jìn)行信息分析處理的信息處理方法,該方法包括:通過多個信息輸入單元接收真實(shí)空間的觀測信息的輸入; 通過事件檢測單元基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,所述事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及通過信息整合處理單元接收所述事件信息的輸入,并且基于輸入的事件信息來產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息,其中在所述目標(biāo)信息的產(chǎn)生中,進(jìn)行以下處理:通過將基于說話場景的權(quán)重乘以在所述事件信息的產(chǎn)生中輸入的多條不同信息,來計(jì)算代表每個目標(biāo)的話語源概率的指標(biāo)值,作為話語源分?jǐn)?shù)。
10.一種使信息處理設(shè)備執(zhí)行以下信息分析的程序: 通過多個信息輸入單元接收真實(shí)空間的觀測信息的輸入; 通過事件檢測單元基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,所述事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)位置信息和估計(jì)標(biāo)識信息;以及通過信息整合處理單元接收事件的輸入,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息, 其中在所述目標(biāo)信息的產(chǎn)生中,進(jìn)行以下處理:通過將基于說話場景的權(quán)重乘以在所述事件信息的產(chǎn)生中輸入的多條不同信息,來計(jì)算代表每個目標(biāo)的話語源概率的指標(biāo)值,作為話 語源分?jǐn)?shù)。
全文摘要
本發(fā)明涉及信息處理設(shè)備、信息處理方法及程序。一種信息處理設(shè)備,包括多個信息輸入單元;事件檢測單元,其基于對從所述信息輸入單元輸入的信息的分析,產(chǎn)生事件信息,所述事件信息包括存在于所述真實(shí)空間中的用戶的估計(jì)的位置信息和估計(jì)的標(biāo)識信息;以及信息整合處理單元,其輸入所述事件信息,并且基于輸入的事件信息產(chǎn)生包括每個用戶的位置和用戶標(biāo)識信息的目標(biāo)信息以及代表事件產(chǎn)生源的概率值的信號信息,其中所述信息整合處理單元包括話語源概率計(jì)算單元,并且其中所述話語源概率計(jì)算單元進(jìn)行以下處理通過將基于說話場景的權(quán)重乘以來自所述事件檢測單元的多條不同信息,來計(jì)算作為代表每個目標(biāo)的話語源概率的指標(biāo)值的話語源分?jǐn)?shù)。
文檔編號G06K9/62GK103106390SQ20121043378
公開日2013年5月15日 申請日期2012年11月2日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者山田敬一 申請人:索尼公司