專利名稱:基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng)及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng)及其實(shí)現(xiàn)方法。
技術(shù)背景基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng)是基于模式識(shí)別技術(shù)對(duì)場(chǎng)景內(nèi)人的 姿態(tài)進(jìn)行識(shí)別分析,提取參與者所做的動(dòng)作,通過前景提取、背景融合、3D動(dòng)畫模擬等,完成一系列的唱歌跳舞等游戲的互動(dòng)娛樂。這種基于人體 姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng),在增加娛樂性、參與者的關(guān)注度等方面有著極 其廣泛的應(yīng)用。當(dāng)前,基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng)基本都是接觸式的,即通過 感應(yīng)器或遙控器與人體某部分的接觸,從而對(duì)人體姿態(tài)進(jìn)行簡(jiǎn)單的識(shí)別。 一般來說,現(xiàn)有的這類技術(shù)都是對(duì)人體某部分的動(dòng)作進(jìn)行簡(jiǎn)單的捕捉識(shí)別, 例如跳舞機(jī)。這類技術(shù)具有對(duì)人體姿態(tài)的識(shí)別不全面,易受到感應(yīng)器、連 線的限制、容易損壞,線路故障不便于維修等缺點(diǎn)。發(fā)明內(nèi)容本發(fā)明提供了 一種能解決以上問題的基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系 統(tǒng)及其實(shí)現(xiàn)方法。在第 一 方面,本發(fā)明提供了 一種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng), 包括視頻采集模塊,用于獲取視頻流圖像;背景差分模塊,用于從所述 圖像中分離出人體區(qū)域;人體姿態(tài)識(shí)別模塊,用于根據(jù)所述人體區(qū)域得出 人體各部分的姿態(tài)參數(shù);以及娛樂平臺(tái),用于根據(jù)所述人體區(qū)域和所述姿態(tài)參數(shù)進(jìn)行互動(dòng)娛樂。在第二方面,本發(fā)明提供了 一種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂方法, 包括獲取視頻流圖像;分離所述圖像的人體區(qū)域與背景圖像;根據(jù)所述 人體區(qū)域得出人體各部分的姿態(tài)參數(shù);以及根據(jù)所述人體區(qū)域和所述姿態(tài)參數(shù)進(jìn)行互動(dòng)娛樂。在本發(fā)明的一個(gè)實(shí)施例中,優(yōu)選地,所述人體姿態(tài)識(shí)別模塊包括距 離變換模塊,用于計(jì)算人體各部分出現(xiàn)在人體模型對(duì)應(yīng)位置的圖像似然, 其中,所述人體模型預(yù)先設(shè)定,所述人體各部分根據(jù)所述人體模型劃分; 樹模型搜索模塊,用于根據(jù)所述圖像似然得出所述圖像上人體各部分的姿 態(tài)參數(shù)。在本發(fā)明的另一個(gè)實(shí)施例中,優(yōu)選地,所述距離變換模塊包括在計(jì) 算圖像似然之前,對(duì)人體輪廓進(jìn)行距離變換以得到距離變換圖像的模塊, 其中,所述人體輪廓從所述人體區(qū)域提取。在本發(fā)明的又一個(gè)實(shí)施例中,優(yōu)選地,所述樹模型搜索模塊包括確 定所述人體各部分的搜索范圍的模塊;根據(jù)所述搜索范圍確定人體各部分 的姿態(tài)參數(shù)的初始值的模塊;基于所述搜索范圍和所述初始值,采用樹形 結(jié)構(gòu)推斷人體各部分的姿態(tài)參數(shù)的模塊。在本發(fā)明的還一個(gè)實(shí)施例中,優(yōu)選地,所述推斷模塊包括推斷所述 圖像上的人體各部分姿態(tài)參數(shù)的集合的最大后驗(yàn)分布的模塊;根據(jù)所述最 大后驗(yàn)分布得出人體各部分的姿態(tài)參數(shù)的模塊。在本發(fā)明的另一個(gè)實(shí)施例中,優(yōu)選地,所述娛樂平臺(tái)包括背景融合 平臺(tái),用于將所述人體區(qū)域與預(yù)定背景融合;和/或人體姿態(tài)模擬平臺(tái),用 于根據(jù)所述姿態(tài)參數(shù)對(duì)人體姿態(tài)進(jìn)行模擬。本發(fā)明通過對(duì)場(chǎng)景內(nèi)的人體姿態(tài)進(jìn)行實(shí)時(shí)視頻捕獲,并通過智能視頻 分析技術(shù)實(shí)現(xiàn)人體姿態(tài)參數(shù)提取,從而完成后續(xù)的互動(dòng)娛樂的應(yīng)用。
下面將參照附圖對(duì)本發(fā)明的具體實(shí)施方案進(jìn)行更詳細(xì)的說明,在附圖中圖1是本發(fā)明的互動(dòng)娛樂系統(tǒng)的框圖;圖2是本發(fā)明的分離人體區(qū)域并進(jìn)行人體姿態(tài)識(shí)別的流程圖;圖3 (a)是本發(fā)明使用的人體模型圖;圖3 (b)是圖3 (a)的人體模型的樹模型圖;圖3 (c)是構(gòu)成圖3 (b)中樹模型一條邊的2個(gè)節(jié)點(diǎn)的位置關(guān)系圖; 圖4是本發(fā)明的人體姿態(tài)識(shí)別中用到的并行掩碼模板。
具體實(shí)施方式
圖1是根據(jù)本發(fā)明的互動(dòng)娛樂系統(tǒng)的框圖。如圖1所示,根據(jù)本發(fā)明的互動(dòng)娛樂系統(tǒng)包括視頻釆集模塊、背景差 分模塊、人體姿態(tài)識(shí)別模塊。視頻采集模塊的主要功能是對(duì)監(jiān)控場(chǎng)景進(jìn)行拍攝并獲取視頻流圖像, 可以采用專用的監(jiān)控?cái)z像頭或者傳統(tǒng)攝像頭進(jìn)行拍攝并捕獲視頻流圖像來 實(shí)現(xiàn)該模塊的功能。背景差分模塊的主要功能是分離圖像的人體區(qū)域與背景圖像。具體地 說,這個(gè)過程可以首先使用各種常用方法,包括光流法,幀間差分法、背 景減去法等方法檢測(cè)出圖像的運(yùn)動(dòng)區(qū)域。然后,使用數(shù)學(xué)形態(tài)學(xué)方法(比 如膨脹運(yùn)算、腐蝕運(yùn)算、開運(yùn)算、關(guān)運(yùn)算等)對(duì)二值化的圖像進(jìn)行濾波處 理,填充前景區(qū)域中的空洞,同時(shí)去除面積較小的孤立區(qū)域、非連通區(qū)域, 只保留連通區(qū)域的面積大于給定閾值的連通區(qū)域。人體姿態(tài)識(shí)別模塊的主要功能是用于實(shí)現(xiàn)人體姿態(tài)估計(jì),即識(shí)別人體 的四肢在場(chǎng)景的運(yùn)動(dòng)。在本發(fā)明中,人體姿態(tài)識(shí)別模塊的作用是根據(jù)背景 差分模塊分離出來的人體區(qū)域,得出人體各部分的姿態(tài)參數(shù)。人體姿態(tài)估 計(jì)是計(jì)算機(jī)視覺的一個(gè)重要的研究領(lǐng)域,在智能視頻監(jiān)控、人機(jī)交互、虛 擬現(xiàn)實(shí)等方面有著廣泛的應(yīng)用。根據(jù)背景差分模塊和人體姿態(tài)識(shí)別模塊得出的人體區(qū)域和姿態(tài)參數(shù), 可以后續(xù)地進(jìn)行一些互動(dòng)娛樂。如圖1所示,后續(xù)的娛樂平臺(tái)包括智能練 歌或卡拉ok、兒童唱歌平臺(tái)、智能跳舞機(jī)、智能游戲機(jī)。圖2是本發(fā)明的分離人體區(qū)域并進(jìn)行人體姿態(tài)識(shí)別的流程圖。在視頻采集模塊獲取視頻流圖像之后,對(duì)于每幅輸入圖像,重復(fù)以下 過程l)利用背景差分模塊檢測(cè)出人體區(qū)域。應(yīng)當(dāng)指出,背景差分模塊是單 獨(dú)的模塊,該模塊將其所檢測(cè)出的人體區(qū)域送入人體姿態(tài)識(shí)別模塊(包括距離變化模塊、樹模型搜索模塊),以便進(jìn)行人體姿態(tài)識(shí)別。2) 提取人體區(qū)域的輪廓,采用距離變換模塊計(jì)算出輪廓的距離變換圖像。3) 在距離變換圖像中,利用樹模型搜索模塊估計(jì)出人體各個(gè)位置的最佳位置,然后輸出。圖3 (a)是本發(fā)明使用的人體模型圖。在人體姿態(tài)識(shí)別的過程中,必須用到人體模型,本發(fā)明提出了一種優(yōu) 選的人體模型。如圖3 (a)所示,本發(fā)明使用的人體模型包括IO個(gè)部分, 分別是軀干(Torso)、頭部(Head)、左大臂(LUA)、左小臂(LLA)、 右大臂(RUA)、右小臂(RLA)、左大腿(LUL)、左小腿(LLL)、右 大月逸(RUL)、右小月逸(RLL)。圖3 (b)是圖3 (a)的人體模型的樹模型圖。這個(gè)樹模型圖由圖3 (a) 中所述的人體IO個(gè)部分構(gòu)成,以軀干為根,共有10節(jié)點(diǎn)。圖3 (c)是構(gòu)成圖3 (b)中數(shù)模型一條邊的2個(gè)節(jié)點(diǎn)的關(guān)系圖。設(shè)人體各個(gè)部分的位置為丄={/,}=,其中第i個(gè)部分的位置為 /'=(x',x,w' '),其中,A,X表示該部分的中心坐標(biāo),w,表示該部分的長(zhǎng)度、^表示該部分的寬度,《表示該部分的角度。獲得輸入圖像/后,我們的目的是計(jì)算出£ = {/'}::1。可以通過計(jì)算給定 圖像/上的Z最大后驗(yàn)分布argmaxP(丄| /)來獲得丄=,根據(jù)貝葉斯理論<formula>formula see original document page 7</formula>( 1 )其中,E表示圖3 (b)所示的樹中的所有邊的集合,尸(/,l。表示構(gòu)成一 條邊的兩個(gè)節(jié)點(diǎn)〖和^的相互約束關(guān)系,可以用(和^的位置來表示,本發(fā)明 中定義為Z'和^所在矩形框的聯(lián)結(jié)點(diǎn)的距離與〖和Z'的角度差的絕對(duì)值,如圖 3(c)所示 _<formula>formula see original document page 7</formula>2戶((,7)表示第i個(gè)部分出現(xiàn)在〖的圖像似然,本發(fā)明中將其定義為〖的邊緣與給定的矩形邊緣模板的chamfer距離,可以采用基于距離變換的快速算 法實(shí)現(xiàn)(具體推導(dǎo)可以參考文獻(xiàn)l: "A. Thayananthan, B. Stenger, P. Torr, and R. Cipolla. Shape context and chamfer matching in cluttered scenes. In CVPR, 2003 ")。本發(fā)明的人體姿態(tài)識(shí)別模塊包括距離變換模塊和數(shù)模型搜索模塊。下 面將詳細(xì)闡述這兩個(gè)模塊的主要功能。 a)距離變換模塊距離變換模塊的主要功能是進(jìn)行距離變換以便于計(jì)算似然函數(shù)。 首先,提取上述二值化的運(yùn)動(dòng)圖像的連通區(qū)域的輪廓,然后進(jìn)行距離 變換,得到距離圖,Chamfer距離取自木工藝中一個(gè)術(shù)語,即倒角或者斜 切(Chamfer),可以認(rèn)為是歐氏距離的逼近。該類方法先后按相反兩個(gè)方向 進(jìn)行兩遍掃描過程,且每一步計(jì)算只使用了一小塊圖像鄰域。其思路就是 全局的距離由局部距離的傳播來近似計(jì)算,這里Chamfer距離變換可以用 一個(gè)大小可變的掩碼模板表示。每個(gè)模板掩碼對(duì)應(yīng)的常數(shù)c是局部距離,在 實(shí)際運(yùn)算中要傳播到整個(gè)圖像空間。圖4是本發(fā)明的人體姿態(tài)識(shí)別中用到 的并行掩碼模板。對(duì)于并行算法,模板的中心(如圖4所示)置于圖像每 個(gè)像素上,然后將模板像素上的局部距離值c加到模板下方的對(duì)應(yīng)像素的距 離值上,并將中心像素的值更新為這些值中的最小值,直到所有像素的值 不再改變?yōu)橹?,因此迭代次?shù)與圖像的最大距離成正比。這樣,第i個(gè)部分出現(xiàn)在(的圖像似然P"力就可表示為其中,^""c/表示Z'所在位置處的矩形框的邊界,M表示模板的周長(zhǎng)。b)樹模型搜索模塊arg max尸(Z |樹模型搜索模塊的主要功能是計(jì)算最大后驗(yàn)^ 。主要包括兩個(gè)步驟1 )確定每個(gè)人體部分的搜索范圍。首先,在距離圖像上搜索到面積最大的矩形的位置,在其中心位置附近稍作擾動(dòng),作為軀干的搜索范圍。然后,使用人臉檢測(cè)技術(shù)確定人臉的 位置,利用檢測(cè)到的人臉區(qū)域的人體皮膚圖像訓(xùn)練一個(gè)人體膚色模型,在 圖像中檢測(cè)到所有的膚色區(qū)域,這樣可以幫助確定手的搜索范圍,從而可以 得到上肢的大概位置。通過上面的步驟,可以為公式(1)中{/,,/ = 1,....10}設(shè)定2)釆用樹形結(jié)構(gòu)推斷每個(gè)部分的最佳位置。根據(jù)上步得到的初始值和大致的搜索范圍,使用Viterbi前向推進(jìn)算法 求出公式(1 )的最大值,該最大值對(duì)應(yīng)的人體位置£ = {"=°1即為最佳人體的 位置,最后將1 = {/'^1輸出。實(shí)際計(jì)算時(shí),可以使用文獻(xiàn)2 : " P. F. Felzenszwalb and D. P. Huttenlocher. Efficient matching of pictorial structures. In CVPR, 2000"介紹的 優(yōu)化方法近似求解Viterbi前向推進(jìn)的結(jié)果以提高運(yùn)算速度。本發(fā)明的最終目的是要實(shí)現(xiàn)一個(gè)互動(dòng)娛樂平臺(tái)。因此,通過背景差分 模塊分離圖像的人體區(qū)域與背景圖像,并且通過人體姿態(tài)識(shí)別模塊實(shí)現(xiàn)人 體姿態(tài)估計(jì),可以將前述的工作結(jié)果應(yīng)用到后續(xù)的娛樂平臺(tái),以實(shí)現(xiàn)本發(fā) 明的娛樂功能。下面,對(duì)這些可以實(shí)現(xiàn)的娛樂平臺(tái)分別加以描述。1) 智能練歌或卡拉ok根據(jù)背景建模技術(shù)得到實(shí)時(shí)更新的背景,將當(dāng)前視頻幀與背景幀差分, 然后進(jìn)行形態(tài)學(xué)濾波后,可以得到當(dāng)前演唱者的圖像區(qū)域,將其直接疊加 入不同應(yīng)用場(chǎng)景的視頻幀,比如可以是海水潮起潮落的海灘,或者優(yōu)美的 白樺林,或者陽光喜氣的場(chǎng)景,可以根據(jù)演唱的歌曲的類型進(jìn)行選擇。這 樣,演唱者可以實(shí)時(shí)地看到自己的影像和動(dòng)作,配合著演唱的歌聲,增加 了娛樂的互動(dòng)性和趣味性。2) 2D/3D參數(shù)模擬應(yīng)用這些應(yīng)用平臺(tái)主要根據(jù)人體姿態(tài)估計(jì)模塊中得到的人體各部分的姿態(tài) 參數(shù),驅(qū)動(dòng)二維或者三維動(dòng)畫模型,從而實(shí)現(xiàn)對(duì)人體姿態(tài)的實(shí)時(shí)模仿行為。 a)兒童唱歌平臺(tái)少年兒童在唱歌的時(shí)候,可以在畫面上顯示為一個(gè)卡通的小熊、兔子 形象,姿態(tài)識(shí)別模塊根據(jù)演唱者的動(dòng)作,去改變畫面上卡通小動(dòng)物的動(dòng)作, 更好的啟迪兒童的表演才能,有助于提高智商。b) 智能跳舞機(jī)類似于傳統(tǒng)的跳舞毯,當(dāng)表演者模仿畫面顯示的動(dòng)作,姿態(tài)識(shí)別模塊 根據(jù)攝像頭采集的表演者圖像判斷是否模擬成功,對(duì)表演者進(jìn)行打分。c) 智能游戲才幾開發(fā)諸如拳擊類的游戲,姿態(tài)識(shí)別模塊根據(jù)攝像頭采集的游戲者圖像 識(shí)別游戲者的動(dòng)作,獲取動(dòng)作參數(shù),來控制畫面中兩個(gè)參與者各自的動(dòng)作, 既可以增加娛樂性,又不容易使人受傷。顯而易見,在不偏離本發(fā)明的真實(shí)精神和范圍的前提下,在此描述的 本發(fā)明可以有許多變化。因此,所有對(duì)于本領(lǐng)域技術(shù)人員來說顯而易見的 改變,都應(yīng)包括在本權(quán)利要求書所涵蓋的范圍之內(nèi)。本發(fā)明所要求保護(hù)的 范圍僅由所述的權(quán)利要求書進(jìn)行限定。
權(quán)利要求
1.一種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng),包括視頻采集模塊,用于獲取視頻流圖像;背景差分模塊,用于從所述圖像中分離出人體區(qū)域;人體姿態(tài)識(shí)別模塊,用于根據(jù)所述人體區(qū)域得出人體各部分的姿態(tài)參數(shù);以及娛樂平臺(tái),用于根據(jù)所述人體區(qū)域和所述姿態(tài)參數(shù)進(jìn)行互動(dòng)娛樂。
2. 根據(jù)權(quán)利要求1的系統(tǒng),其中,所述人體姿態(tài)識(shí)別模塊包括距離變換模塊,用于計(jì)算人體各部分出現(xiàn)在人體模型對(duì)應(yīng)位置的圖像 似然,其中,所述人體模型預(yù)先設(shè)定,所述人體各部分根據(jù)所述人體模型 劃分;樹模型搜索模塊,用于根據(jù)所述圖像似然得出所述圖像上人體各部分 的姿態(tài)參數(shù)。
3. 根據(jù)權(quán)利要求2的系統(tǒng),其中,所述距離變換模塊包括在計(jì)算圖像似然之前,對(duì)人體輪廓進(jìn)行距離變換以得到距離變換圖像 的模塊,其中,所述人體輪廓從所述人體區(qū)域提取。
4. 根據(jù)權(quán)利要求2的系統(tǒng),其中,所述樹模型搜索模塊包括 確定所述人體各部分的搜索范圍的模塊;根據(jù)所述搜索范圍確定人體各部分的姿態(tài)參數(shù)的初始值的模塊; 基于所述搜索范圍和所述初始值,采用樹形結(jié)構(gòu)推斷人體各部分的姿 態(tài)參數(shù)的模塊。
5. 根據(jù)權(quán)利要求4的系統(tǒng),其中,所述推斷模塊包括推斷所述圖像上的人體各部分姿態(tài)參數(shù)的集合的最大后驗(yàn)分布的模塊;根據(jù)所述最大后驗(yàn)分布得出人體各部分的姿態(tài)參數(shù)的模塊。
6. 根據(jù)權(quán)利要求1的系統(tǒng),其中,所述娛樂平臺(tái)包括 背景融合平臺(tái),用于將所述人體區(qū)域與預(yù)定背景融合;和/或 人體姿態(tài)模擬平臺(tái),用于根據(jù)所述姿態(tài)參數(shù)對(duì)人體姿態(tài)進(jìn)行模擬。
7. —種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂方法,包括 獲取視頻流圖像;從所述圖像中分離出人體區(qū)域;根據(jù)所述人體區(qū)域得出人體各部分的姿態(tài)參數(shù);以及 根據(jù)所述人體區(qū)域和所述姿態(tài)參數(shù)進(jìn)行互動(dòng)娛樂。
8. 根據(jù)權(quán)利要求7的方法,其中,所述得出姿態(tài)參數(shù)的步驟包括 計(jì)算人體各部分出現(xiàn)在人體模型對(duì)應(yīng)位置的圖像似然,其中,所述人體模型預(yù)先設(shè)定;根據(jù)所述圖像似然得出所述圖像上人體各部分的姿態(tài)參數(shù)。
9. 根據(jù)權(quán)利要求8的方法,還包括在計(jì)算所述圖像似然之前,對(duì)人體輪廓進(jìn)行距離變換以得到距離變換 圖像,其中,所述人體輪廓從所述人體區(qū)域提取。
10. 根據(jù)權(quán)利要求8的方法,其中,得出姿態(tài)參數(shù)的步驟包括 確定所述人體各部分的搜索范圍;根據(jù)所述搜索范圍確定人體各部分的姿態(tài)參數(shù)的初始值; 基于所述搜索范圍和所述初始值,采用樹形結(jié)構(gòu)推斷人體各部分的姿 態(tài)參數(shù)。
11. 根據(jù)權(quán)利要求IO的方法,其中,所述推斷步驟包括推斷所述圖像上的人體各部分姿態(tài)參數(shù)的集合的最大后驗(yàn)分布; 根據(jù)所述最大后驗(yàn)分布得出人體各部分的姿態(tài)參數(shù)。
12. 根據(jù)權(quán)利要求8的方法,其中,所述人體模型包括IO個(gè)部分,各部 分構(gòu)成一個(gè)10節(jié)點(diǎn)的樹模型。
13. 根據(jù)權(quán)利要求12的方法,其中,所述10個(gè)部分包括頭、軀干、左 右大小臂、左右大小腿,所述樹模型以軀干為根。
14. 根據(jù)權(quán)利要求12的方法,其中,人體各部分的姿態(tài)參數(shù)丄={/'}=1, 其中第i個(gè)部分的位置為(-",X,w',^",其中,A/'表示該部分的中心坐 標(biāo),w'表示該部分的長(zhǎng)度、^表示該部分的寬度,《表示該部分與相鄰部分 的夾角。
15. 根據(jù)權(quán)利要求7的方法,其中,所述互動(dòng)娛樂包括 將所述人體區(qū)域與預(yù)定背景融合;和/或根據(jù)所述姿態(tài)參數(shù)對(duì)人體姿態(tài)進(jìn)行模擬。
全文摘要
本發(fā)明涉及一種基于人體姿態(tài)識(shí)別的互動(dòng)娛樂系統(tǒng)及其實(shí)現(xiàn)方法,所述系統(tǒng)包括視頻采集模塊,用于獲取視頻流圖像;背景差分模塊,用于從所述圖像中分離出人體區(qū)域;人體姿態(tài)識(shí)別模塊,用于根據(jù)所述人體區(qū)域得出人體各部分的姿態(tài)參數(shù);以及娛樂平臺(tái),用于根據(jù)所述人體區(qū)域和所述姿態(tài)參數(shù)進(jìn)行互動(dòng)娛樂。本發(fā)明通過對(duì)場(chǎng)景內(nèi)的人體姿態(tài)進(jìn)行實(shí)時(shí)視頻捕獲,并通過智能視頻分析技術(shù)實(shí)現(xiàn)人體姿態(tài)參數(shù)提取,從而完成后續(xù)的互動(dòng)娛樂的應(yīng)用。
文檔編號(hào)A63F13/00GK101332362SQ20081011791
公開日2008年12月31日 申請(qǐng)日期2008年8月5日 優(yōu)先權(quán)日2008年8月5日
發(fā)明者盧曉鵬, 磊 王 申請(qǐng)人:北京中星微電子有限公司