本發(fā)明涉及計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,尤其涉及一種手勢(shì)識(shí)別方法和系統(tǒng)。
背景技術(shù):
現(xiàn)在基本是鼠標(biāo)、鍵盤(pán)和觸控的時(shí)代,不過(guò)另一種手勢(shì)控制技術(shù)正在興起,這個(gè)技術(shù)根據(jù)的原理很簡(jiǎn)單,就是攝像頭捕捉手勢(shì),然后利用手勢(shì)控制機(jī)器運(yùn)作??梢宰屓藗償[脫鍵盤(pán)、鼠標(biāo)和觸控的空間限制。
在基于圖像識(shí)別的人機(jī)交互場(chǎng)景中,對(duì)手勢(shì)動(dòng)作的有效識(shí)別能夠有效的操作機(jī)器運(yùn)作,給用戶(hù)以良好的操作體驗(yàn)。這對(duì)于產(chǎn)品的穩(wěn)定及廣泛推廣有非常重要的意義。
目前有很多有關(guān)手勢(shì)識(shí)別的研究,也出現(xiàn)了很多相應(yīng)的方法,其中主要包括模板匹配方法、聚類(lèi)分類(lèi)方法、特征比對(duì)方法等。發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)中的這些方法在外部環(huán)境與膚色場(chǎng)景相似的情況,以及圖片質(zhì)量模糊的情況下往往識(shí)別準(zhǔn)確率不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種手勢(shì)識(shí)別方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中存在的一個(gè)或多個(gè)問(wèn)題。
第一方面,本發(fā)明實(shí)施例提供一種手勢(shì)識(shí)別方法,包括:對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像;基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集,其中,卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;對(duì)判別得出的初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
第二方面,本發(fā)明實(shí)施例提供一種手勢(shì)識(shí)別系統(tǒng),包括:多梯度提取模塊,配置用于對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像;判別模塊,配置用于基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集,其中,卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;以及結(jié)果融合模塊,配置用于對(duì)判別得出的初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
第三方面,本申請(qǐng)實(shí)施例還提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行本申請(qǐng)上述任一項(xiàng)手勢(shì)識(shí)別方法。
第四方面,本申請(qǐng)實(shí)施例還提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的程序,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明上述任一項(xiàng)手勢(shì)識(shí)別方法。
本發(fā)明實(shí)施例提供的手勢(shì)識(shí)別方法和系統(tǒng),通過(guò)對(duì)圖像進(jìn)行多個(gè)方向的梯度圖像提取,之后再經(jīng)由卷積神經(jīng)網(wǎng)絡(luò)金字塔進(jìn)行判別得出初始結(jié)果集,最后對(duì)結(jié)果進(jìn)行融合以得到最終的手勢(shì)判別結(jié)果,可以實(shí)現(xiàn)更加精準(zhǔn)的手勢(shì)識(shí)別。進(jìn)一步地,由于以描述手勢(shì)圖像的多方向梯度圖像為基礎(chǔ),融入神經(jīng)網(wǎng)絡(luò)及證據(jù)理論聯(lián)合判別的思想,充分提高了手勢(shì)識(shí)別的精度,即使在外部環(huán)境與膚色場(chǎng)景相似、圖片質(zhì)量模糊的情況下都可以有良好的識(shí)別效果。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明手勢(shì)識(shí)別方法的一個(gè)實(shí)施例流程圖;
圖2為本發(fā)明手勢(shì)識(shí)別方法的又一個(gè)實(shí)施例流程圖;
圖3為本發(fā)明手勢(shì)識(shí)別方法的再一個(gè)實(shí)施例流程圖;
圖4為本發(fā)明手勢(shì)識(shí)別方案的應(yīng)用實(shí)例流程圖;
圖5為本發(fā)明手勢(shì)識(shí)別方案的實(shí)施例應(yīng)用場(chǎng)景示意圖;
圖6為本發(fā)明手勢(shì)識(shí)別系統(tǒng)的實(shí)施例結(jié)構(gòu)示意圖;
圖7是本申請(qǐng)一實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
需要說(shuō)明的是,在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。
本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
在本發(fā)明中,“組件”、“裝置”、“系統(tǒng)”等等指應(yīng)用于計(jì)算機(jī)的相關(guān)實(shí)體,如硬件、硬件和軟件的組合、軟件或執(zhí)行中的軟件等。詳細(xì)地說(shuō),例如,組件可以、但不限于是運(yùn)行于處理器的過(guò)程、處理器、對(duì)象、可執(zhí)行組件、執(zhí)行線程、程序和/或計(jì)算機(jī)。還有,運(yùn)行于服務(wù)器上的應(yīng)用程序或腳本程序、服務(wù)器都可以是組件。一個(gè)或多個(gè)組件可在執(zhí)行的過(guò)程和/或線程中,并且組件可以在一臺(tái)計(jì)算機(jī)上本地化和/或分布在兩臺(tái)或多臺(tái)計(jì)算機(jī)之間,并可以由各種計(jì)算機(jī)可讀介質(zhì)運(yùn)行。組件還可以根據(jù)具有一個(gè)或多個(gè)數(shù)據(jù)包的信號(hào),例如,來(lái)自一個(gè)與本地系統(tǒng)、分布式系統(tǒng)中另一組件交互的,和/或在因特網(wǎng)的網(wǎng)絡(luò)通過(guò)信號(hào)與其它系統(tǒng)交互的數(shù)據(jù)的信號(hào)通過(guò)本地和/或遠(yuǎn)程過(guò)程來(lái)進(jìn)行通信。
最后,還需要說(shuō)明的是,在本文中術(shù)語(yǔ)“包括”、“包含”,不僅包括那些已經(jīng)給出要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
在本發(fā)明的實(shí)施例中,識(shí)別手勢(shì)的過(guò)程中涉及多種算法和公式,下面先對(duì)可能用到的算法和公式進(jìn)行解釋和說(shuō)明,以使本領(lǐng)域的技術(shù)人員能更好的理解本發(fā)明。
深度卷積神經(jīng)網(wǎng)絡(luò)算法是機(jī)器學(xué)習(xí)算法中發(fā)展最快的一種方法,它能夠根據(jù)相應(yīng)類(lèi)別的輸入信息,完整而又準(zhǔn)確的描述圖像的底層紋理邊緣與高層形狀特征。從而為后續(xù)的識(shí)別工作提供可靠的描述保證。這種方法的優(yōu)點(diǎn)是,在樣本特征表征全面且樣本量充足的條件下能夠進(jìn)行很好的特征提取與分類(lèi)工作,對(duì)于不良數(shù)據(jù)的容忍力較強(qiáng),可以適應(yīng)多種不同的數(shù)據(jù)環(huán)境。因此該算法廣泛應(yīng)用于數(shù)據(jù)挖掘、圖像分類(lèi)、圖像檢索、圖像物體識(shí)別等多個(gè)圖像處理領(lǐng)域。近年來(lái)伴隨數(shù)據(jù)量的不斷增加,該技術(shù)的應(yīng)用在很大程度上推動(dòng)了計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展。
梯度圖像是根據(jù)圖像中相鄰像素的差值得到,它能有效地反映出圖像邊緣及紋理走勢(shì),對(duì)于描述手勢(shì)動(dòng)作有積極意義。圖像梯度,可以例如把圖像看成二維離散函數(shù),圖像梯度其實(shí)就是這個(gè)二維離散函數(shù)的求導(dǎo):圖像梯度:G(x,y)=dxi+dyj;dx(i,j)=I(i+1,j)-I(i,j);dy(i,j)=I(i,j+1)-I(i,j);
其中,I是圖像像素的值(如:RGB值),(i,j)為像素的坐標(biāo)。
圖像梯度一般也可以用中值差分:
dx(i,j)=[I(i+1,j)-I(i-1,j)]/2;
dy(i,j)=[I(i,j+1)-I(i,j-1)]/2;
圖像邊緣一般都是通過(guò)對(duì)圖像進(jìn)行梯度運(yùn)算來(lái)實(shí)現(xiàn)的。
上面說(shuō)的是簡(jiǎn)單的梯度定義,其實(shí)還有更多更復(fù)雜的梯度公式。
貝葉斯判別公式又稱(chēng)貝葉斯判別分析方法,真正的貝葉斯公式:P(Bi|A)=P(A|Bi)P(Bi)/[P(A1B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)P(Bn)]分母部分表示A事件發(fā)生的概率(全概率),它等于A事件在各種Bi事件發(fā)生的前提下發(fā)生的概率之和;分子部分是A事件在Bi事件發(fā)生的前提下發(fā)生的概率。到了貝葉判別里面,如有兩個(gè)總體G1和G2,那么x的全概率為G1總體出現(xiàn)的概率(q1)乘以x在G1中的概率+G2總體出現(xiàn)的概率(q2)乘以x在G2中的概率;x在G1中出現(xiàn)的概率可以表示為G1的分布函數(shù)在x處的值,如G1為連續(xù)的,則可用G1的概率密度函數(shù)f1(x)在x處的值替代。
證據(jù)理論是由Dempster于1967年首先提出,由他的學(xué)生shafer于1976年進(jìn)一步發(fā)展起來(lái)的一種不精確推理理論,也稱(chēng)為Dempster/Shafer證據(jù)理論(D-S證據(jù)理論),屬于人工智能范疇,最早應(yīng)用于專(zhuān)家系統(tǒng)中,具有處理不確定信息的能力。作為一種不確定推理方法,證據(jù)理論的主要特點(diǎn)是:滿(mǎn)足比貝葉斯概率論更弱的條件;具有直接表達(dá)“不確定”和“不知道”的能力。
參考圖1,其示出了本發(fā)明手勢(shì)識(shí)別方法的一個(gè)實(shí)施例流程圖。
如圖1所示,在步驟101中,對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像。
在本實(shí)施例中,手勢(shì)識(shí)別裝置首先對(duì)輸入的圖像進(jìn)行多個(gè)方向的梯度提取,以形成多個(gè)不同梯度的圖像。例如,可以包括水平方向(X方向)、垂直方向(Y方向)、45度方向(圖像區(qū)域內(nèi)與水平方向或者垂直方向呈現(xiàn)45度傾斜角的方向)以及其他角度的方向。通過(guò)提取多個(gè)不同方向的梯度圖像,可以對(duì)圖像有更加全面的描述,有效地提高手勢(shì)識(shí)別的精確度。
繼而,在步驟102中,基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集。
在本實(shí)施例中,手勢(shì)識(shí)別裝置基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別,然后即可根據(jù)針對(duì)不同梯度圖像的多個(gè)判別結(jié)果得出初始結(jié)果集。其中,卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到。例如,其中的一層卷積神經(jīng)網(wǎng)絡(luò)金字塔可以是對(duì)某一個(gè)梯度方向,例如水平方向(X方向)的各種手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到的。其中各種手勢(shì)圖像可以包括握拳,平展,五指,“6”的手勢(shì),“8”的手勢(shì),“2”的手勢(shì),“10”的手勢(shì)等,還可以包括對(duì)各種手勢(shì)的各種場(chǎng)景、各種拍攝角度、各種光照強(qiáng)度等的深度學(xué)習(xí)得到的。可選的,也可以采用一種級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)代替上述的神經(jīng)網(wǎng)絡(luò)金字塔,以提高處理速度,增強(qiáng)實(shí)時(shí)性。
之后,在步驟103中,對(duì)判別得出的初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
在本實(shí)施例中,手勢(shì)識(shí)別裝置對(duì)之前神經(jīng)網(wǎng)絡(luò)判別出的結(jié)果進(jìn)行融合,例如使用貝葉斯判別分析方法進(jìn)行融合,也可以使用其他方法例如證據(jù)理論進(jìn)行融合,以得到手勢(shì)的最終判別結(jié)果。
在本實(shí)施例中,通過(guò)對(duì)圖像進(jìn)行多個(gè)方向的梯度圖像提取,之后再經(jīng)由卷積神經(jīng)網(wǎng)絡(luò)金字塔進(jìn)行判別得出初始結(jié)果集,最后對(duì)結(jié)果進(jìn)行融合以得到最終的手勢(shì)判別結(jié)果,可以實(shí)現(xiàn)更加精準(zhǔn)的手勢(shì)識(shí)別。
進(jìn)一步參考圖2,其示出了本發(fā)明手勢(shì)識(shí)別方法的又一個(gè)實(shí)施例流程圖。
其中,卷積神經(jīng)網(wǎng)絡(luò)金字塔還可以包括基于對(duì)多種不同手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到,例如基于對(duì)9種不同的手勢(shì)圖像的深度學(xué)習(xí)而得到,該9種不同的手勢(shì)圖像也包括各種不同的角度、光照、膚色、場(chǎng)景等。其中,圖1中的步驟102基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集還可以進(jìn)一步包括:基于卷積神經(jīng)網(wǎng)絡(luò)金字塔分別將梯度圖像與多種不同手勢(shì)樣本進(jìn)行相似度判別以得出初始結(jié)果集。
圖2所示的流程圖可以是對(duì)以上步驟的進(jìn)一步細(xì)化,是對(duì)應(yīng)于以上描述的步驟(基于卷積神經(jīng)網(wǎng)絡(luò)金字塔分別將梯度圖像與多種不同手勢(shì)樣本進(jìn)行相似度判別以得出初始結(jié)果集)的一個(gè)可選的實(shí)施例。
如圖2所示,在步驟201中,對(duì)每一個(gè)梯度圖像采用相應(yīng)的梯度的卷積神經(jīng)網(wǎng)絡(luò)與多種不同手勢(shì)樣本進(jìn)行相似度判別。
在本實(shí)施例中,手勢(shì)識(shí)別裝置可以對(duì)每一個(gè)梯度圖像采用在該梯度下訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行判別,其中,判別可以是與多種不同手勢(shì)的相似度判別。另外,每一梯度的卷積神經(jīng)網(wǎng)絡(luò)可以包括在相應(yīng)梯度下對(duì)多種不同手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到。相似度判別的一個(gè)具體示例可以是將待識(shí)別手勢(shì)分別與多種手勢(shì)模板進(jìn)行相似度判別,并給出對(duì)應(yīng)的相似度,例如總共有三個(gè)手勢(shì),在第一梯度如X方向下,與第一手勢(shì)的相似度為0.8,與第二手勢(shì)的相似度為0.1,與第三手勢(shì)的相似度為0.1;在第二梯度如Y方向下,與第一手勢(shì)的相似度為0.7,與第二手勢(shì)的相似度為0.2,與第三手勢(shì)的相似度為0.1。
之后,在步驟202中,基于多種不同梯度的卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同梯度圖像判別的多個(gè)初始結(jié)果形成初始結(jié)果集。
在本實(shí)施例中,手勢(shì)識(shí)別裝置根據(jù)之前判別形成的對(duì)應(yīng)于多個(gè)不同梯度圖像和多種手勢(shì)的初始結(jié)果形成初始結(jié)果集。例如步驟201中的具體示例中的初始結(jié)果集可以表示為:
在本實(shí)施例中,神經(jīng)網(wǎng)絡(luò)金字塔通過(guò)對(duì)不同的手勢(shì)進(jìn)行分別訓(xùn)練和深度學(xué)習(xí),可以使判別的結(jié)果更加準(zhǔn)確。
進(jìn)一步參考圖3,其示出了本發(fā)明手勢(shì)識(shí)別方法的再一個(gè)實(shí)施例流程圖。
其中,圖3所示的流程圖可以是圖1中的步驟103的一個(gè)可選實(shí)施例。
如圖3所示,在步驟301中,判斷初始結(jié)果集中存在某種手勢(shì)的一個(gè)或多個(gè)初始結(jié)果大于閾值。在步驟302中,若存在,則確定上述某種手勢(shì)為最終判別結(jié)果;在步驟303中,若不存在時(shí),則結(jié)合證據(jù)理論對(duì)判別得出的初始結(jié)果集采用多個(gè)結(jié)果一致的投票進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。例如根據(jù)步驟202中表格所示,可以確定第一手勢(shì)為最終判別結(jié)果。其中,閾值可以是人為設(shè)定的一個(gè)值,例如可以設(shè)定為大于0.3,或者也可以設(shè)定為大于0.7,以進(jìn)一步減小誤判的概率。具體的閾值設(shè)定本發(fā)明沒(méi)有限制。
在一些可選的實(shí)施例中,在對(duì)輸入圖像進(jìn)行多方向梯度提取形成多個(gè)不同的梯度圖像之前還包括:對(duì)原始圖像進(jìn)行濾波和銳化形成輸入圖像,其中,原始圖像包括手輪廓圖像。
請(qǐng)參考圖4,其示出了本發(fā)明手勢(shì)識(shí)別方案的應(yīng)用實(shí)例流程圖。
如圖4所示,在步驟401中,輸入圖像及圖像預(yù)處理。
在本實(shí)施例中,從視頻或硬件設(shè)備采集的圖像往往存在不清晰的情況,因此需要進(jìn)行濾波與圖像銳化,保證輸入圖像的邊緣清晰性,為搭建梯度圖提供良好的輸入。
之后,在步驟402中,梯度圖構(gòu)建。
在本實(shí)施例中,為提高識(shí)別準(zhǔn)確率,將輸入圖像按照X、Y、四十五度方向分別提取梯度,并組合成相應(yīng)的梯度圖像,充分表征手勢(shì)在不同梯度場(chǎng)景下的特性。
接著,在步驟403中,神經(jīng)網(wǎng)絡(luò)金字塔構(gòu)建;
在本實(shí)施例中,可以分別用不同梯度的圖像對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以使神經(jīng)網(wǎng)絡(luò)對(duì)不同梯度的圖像有更加準(zhǔn)確地判別率。當(dāng)然,在實(shí)際應(yīng)用中,為保證實(shí)時(shí)性也可以將三種梯度圖公用一種深度級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò),例如我們可以采用五層卷基層、四層池化層和降采樣層,并添加歸一化操作,使神經(jīng)網(wǎng)絡(luò)具有更高的精確度。
然后,在步驟404中,判別產(chǎn)生結(jié)果集。
在本實(shí)施例中,利用之前構(gòu)建的神經(jīng)網(wǎng)絡(luò)金字塔對(duì)不同梯度的圖像分別進(jìn)行檢測(cè),形成初始結(jié)果集。
之后,在步驟405中,證據(jù)理論結(jié)果融合。
在本實(shí)施例中,將每一梯度的識(shí)別結(jié)果及相應(yīng)的相似度,用證據(jù)理論進(jìn)行聯(lián)合判別,如果有兩個(gè)一致的結(jié)果或者一個(gè)結(jié)果的相似度特別高將采用對(duì)應(yīng)的手勢(shì)判別結(jié)果,否則采取丟棄操作。得到相應(yīng)的結(jié)果后,進(jìn)行相似度計(jì)算,如果是某一個(gè)的結(jié)果相似度很高直接將對(duì)應(yīng)的相似度作為最終相似度輸出,如果采取的是多個(gè)結(jié)果一致的投票,則采用平均相似度的方法作為最終的相似度。
最后,步驟406,根據(jù)以上計(jì)算與融合,得出最終的手勢(shì)識(shí)別結(jié)果。
在本實(shí)施例中,通過(guò)對(duì)原始圖像進(jìn)行預(yù)處理,之后進(jìn)行梯度提取,構(gòu)建神經(jīng)網(wǎng)絡(luò)進(jìn)行判別,結(jié)合證據(jù)理論進(jìn)行結(jié)果融合,由于加入了多方向的梯度圖像和神經(jīng)網(wǎng)絡(luò),以及聯(lián)合證據(jù)理論,可以提高手勢(shì)識(shí)別的準(zhǔn)確度,實(shí)現(xiàn)更將精確的手勢(shì)識(shí)別。
進(jìn)一步參考圖5,其示出了本發(fā)明手勢(shì)識(shí)別方案的實(shí)施例應(yīng)用場(chǎng)景示意圖。
如圖5,示例性的示出了分別在圖像中建立X方向、Y方向和45度方向的梯度圖像的應(yīng)用場(chǎng)景圖。具體的,一種經(jīng)由神經(jīng)網(wǎng)絡(luò)判定出來(lái)的可能的初始結(jié)果集可以如下:
由以上數(shù)據(jù)可知,拇指對(duì)應(yīng)的三個(gè)方向的概率都比其他概率大,因此圖像中示出的是拇指。也可以通過(guò)證據(jù)理論結(jié)合判定出該結(jié)果,具體公式如下:
本實(shí)施例通過(guò)對(duì)原始圖像進(jìn)行預(yù)處理,之后進(jìn)行梯度提取,構(gòu)建神經(jīng)網(wǎng)絡(luò)進(jìn)行判別,結(jié)合證據(jù)理論進(jìn)行結(jié)果融合,由于加入了多方向的梯度圖像和神經(jīng)網(wǎng)絡(luò),以及聯(lián)合證據(jù)理論,可以提高手勢(shì)識(shí)別的準(zhǔn)確度,實(shí)現(xiàn)更加精確的手勢(shì)識(shí)別。
請(qǐng)參考圖6,其示出了本發(fā)明手勢(shì)識(shí)別系統(tǒng)的實(shí)施例結(jié)構(gòu)示意圖。
如圖6所示,手勢(shì)識(shí)別系統(tǒng)600包括多梯度提取模塊601、判別模塊602和結(jié)果融合模塊603。其中,多梯度提取模塊601,配置用于對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像;判別模塊602,配置用于基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集,其中,卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;以及結(jié)果融合模塊603,配置用于對(duì)判別得出的初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
在一些可選的實(shí)施例中,卷積神經(jīng)網(wǎng)絡(luò)金字塔還包括基于對(duì)多種不同手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到,判別模塊602還包括配置用于:對(duì)每一個(gè)梯度圖像采用相應(yīng)的梯度的卷積神經(jīng)網(wǎng)絡(luò)與多種不同手勢(shì)樣本進(jìn)行相似度判別,其中,每一梯度的卷積神經(jīng)網(wǎng)絡(luò)包括在相應(yīng)梯度下對(duì)多種不同手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;以及基于多種不同梯度的卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)多個(gè)不同梯度圖像判別的多個(gè)初始結(jié)果形成初始結(jié)果集。
在另一些可選的實(shí)施例中,結(jié)果融合模塊603包括配置用于:若初始結(jié)果集中存在某種手勢(shì)的一個(gè)或多個(gè)初始結(jié)果大于閾值時(shí),確定某種手勢(shì)為最終判別結(jié)果;以及若不存在時(shí),則結(jié)合證據(jù)理論對(duì)判別得出的初始結(jié)果集采用多個(gè)結(jié)果一致的投票進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
在另一些可選的實(shí)施例中,手勢(shì)識(shí)別系統(tǒng)600還包括預(yù)處理模塊,配置用于對(duì)原始圖像進(jìn)行濾波和銳化形成輸入圖像,其中,原始圖像包括手輪廓圖像。
在另一些可選的實(shí)施例中,多方向梯度提取包括X方向、Y方向和四十五度方向梯度提取。
在本實(shí)施例中,手勢(shì)識(shí)別系統(tǒng)通過(guò)多梯度提取模塊提取多方向梯度構(gòu)建多個(gè)梯度圖像,并利用判別模塊基于神經(jīng)網(wǎng)絡(luò)判別得出初始結(jié)果集,之后對(duì)初始結(jié)果集進(jìn)行結(jié)果融合得到最終判別結(jié)果,可以實(shí)現(xiàn)更加精準(zhǔn)的手勢(shì)識(shí)別。
應(yīng)當(dāng)理解,圖6中記載的諸模塊與參考圖1中描述的方法中的各個(gè)步驟相對(duì)應(yīng)。由此,上文針對(duì)方法描述的操作和特征以及相應(yīng)的技術(shù)效果同樣適用于圖6中的諸模塊,在此不再贅述。
以上所述的系統(tǒng)或裝置可以是一個(gè)服務(wù)器或者服務(wù)器集群,相應(yīng)的各個(gè)單元也可以為一個(gè)服務(wù)器中的相關(guān)處理單元或者為服務(wù)器集群中的一個(gè)或多個(gè)服務(wù)器。當(dāng)相關(guān)的單元為服務(wù)器集群中的一個(gè)或多個(gè)服務(wù)器時(shí),相應(yīng)的單元之間的交互則表現(xiàn)為服務(wù)器之間的交互,本發(fā)明在此方面沒(méi)有限制。
本申請(qǐng)實(shí)施例提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行上述任意方法實(shí)施例中的手勢(shì)識(shí)別方法;
作為一種實(shí)施方式,本發(fā)明的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令設(shè)置為:
對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像;
基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)所述多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集,其中,所述卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;
對(duì)判別得出的所述初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
作為一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可用于存儲(chǔ)非易失性軟件程序、非易失性計(jì)算機(jī)可執(zhí)行程序以及模塊,如本申請(qǐng)實(shí)施例中的手勢(shì)識(shí)別方法對(duì)應(yīng)的程序指令/模塊(例如,附圖6所示的圖像金字塔形成模塊601、檢測(cè)模塊602以及結(jié)果融合模塊603)。所述一個(gè)或者多個(gè)模塊存儲(chǔ)在所述非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,當(dāng)被處理器執(zhí)行時(shí),執(zhí)行上述任意方法實(shí)施例中的手勢(shì)識(shí)別方法。
非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需要的應(yīng)用程序;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)手勢(shì)識(shí)別裝置的使用所創(chuàng)建的數(shù)據(jù)等。此外,非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤(pán)存儲(chǔ)器件、閃存器件、或其他非易失性固態(tài)存儲(chǔ)器件。在一些實(shí)施例中,非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可選包括相對(duì)于處理器遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過(guò)網(wǎng)絡(luò)連接至存儲(chǔ)器的手勢(shì)識(shí)別裝置。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
圖7是本申請(qǐng)一實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖,如圖7所示,該設(shè)備包括:
一個(gè)或多個(gè)處理器710以及存儲(chǔ)器720,圖7中以一個(gè)處理器710為例。
存儲(chǔ)器的手勢(shì)識(shí)別方法的設(shè)備還可以包括:輸入裝置730和輸出裝置740。
處理器710、存儲(chǔ)器720、輸入裝置730和輸出裝置740可以通過(guò)總線或者其他方式連接,圖7中以通過(guò)總線連接為例。
存儲(chǔ)器720為上述的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。處理器710通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器720中的非易失性軟件程序、指令以及模塊,從而執(zhí)行服務(wù)器的各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述方法實(shí)施例手勢(shì)識(shí)別方法。
輸入裝置730可接收輸入的數(shù)字或字符信息,以及產(chǎn)生與存儲(chǔ)器的手勢(shì)識(shí)別裝置的用戶(hù)設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。輸出裝置740可包括顯示屏等顯示設(shè)備。
上述產(chǎn)品可執(zhí)行本申請(qǐng)實(shí)施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見(jiàn)本申請(qǐng)實(shí)施例所提供的方法。
作為一種實(shí)施方式,上述電子設(shè)備包括:至少一個(gè)處理器;以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠:
對(duì)輸入圖像進(jìn)行多方向梯度提取以形成多個(gè)不同的梯度圖像;
基于卷積神經(jīng)網(wǎng)絡(luò)金字塔對(duì)所述多個(gè)不同的梯度圖像進(jìn)行判別以得出初始結(jié)果集,其中,所述卷積神經(jīng)網(wǎng)絡(luò)金字塔包括基于對(duì)多個(gè)不同梯度的手勢(shì)圖像進(jìn)行深度學(xué)習(xí)得到;
對(duì)判別得出的所述初始結(jié)果集進(jìn)行融合以得到手勢(shì)的最終判別結(jié)果。
本申請(qǐng)實(shí)施例的電子設(shè)備以多種形式存在,包括但不限于:
(1)移動(dòng)通信設(shè)備:這類(lèi)設(shè)備的特點(diǎn)是具備移動(dòng)通信功能,并且以提供話(huà)音、數(shù)據(jù)通信為主要目標(biāo)。這類(lèi)終端包括:智能手機(jī)(例如iPhone)、多媒體手機(jī)、功能性手機(jī),以及低端手機(jī)等。
(2)超移動(dòng)個(gè)人計(jì)算機(jī)設(shè)備:這類(lèi)設(shè)備屬于個(gè)人計(jì)算機(jī)的范疇,有計(jì)算和處理功能,一般也具備移動(dòng)上網(wǎng)特性。這類(lèi)終端包括:PDA、MID和UMPC設(shè)備等,例如iPad。
(3)便攜式娛樂(lè)設(shè)備:這類(lèi)設(shè)備可以顯示和播放多媒體內(nèi)容。該類(lèi)設(shè)備包括:音頻、視頻播放器(例如iPod),掌上游戲機(jī),電子書(shū),以及智能玩具和便攜式車(chē)載導(dǎo)航設(shè)備。
(4)服務(wù)器:提供計(jì)算服務(wù)的設(shè)備,服務(wù)器的構(gòu)成包括處理器、硬盤(pán)、內(nèi)存、系統(tǒng)總線等,服務(wù)器和通用的計(jì)算機(jī)架構(gòu)類(lèi)似,但是由于需要提供高可靠的服務(wù),因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴(kuò)展性、可管理性等方面要求較高。
(5)其他具有數(shù)據(jù)交互功能的電子裝置。
以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件。基于這樣的理解,上述技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。