本發(fā)明涉及動(dòng)作識(shí)別,尤其涉及一種基于雙分支的動(dòng)作識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的重要研究方向,廣泛應(yīng)用于智能監(jiān)控、體育分析、虛擬現(xiàn)實(shí)和人機(jī)交互等領(lǐng)域。傳統(tǒng)的動(dòng)作識(shí)別方法主要依賴手工設(shè)計(jì)的特征,如光流、運(yùn)動(dòng)歷史圖像和時(shí)空興趣點(diǎn)等。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(cnn)、三維卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)等技術(shù)在動(dòng)作識(shí)別任務(wù)中取得了顯著進(jìn)展。
2、受faster?r-cnn啟發(fā),許多先進(jìn)的動(dòng)作識(shí)別方法采用兩階段網(wǎng)絡(luò)架構(gòu),先生成動(dòng)作建議框,再進(jìn)行分類(lèi)。例如,yowo(you?only?watch?once)模型使用2d?cnn提取關(guān)鍵幀的空間特征,同時(shí)用3d?cnn提取前幾幀的時(shí)空特征,實(shí)現(xiàn)了較好的動(dòng)作識(shí)別效果。
3、但是,在現(xiàn)有技術(shù)中,使用兩階段網(wǎng)絡(luò)架構(gòu)進(jìn)行動(dòng)作識(shí)別時(shí)生成跨幀的包含邊界框的動(dòng)作管道比二維情況要復(fù)雜得多且耗時(shí),分類(lèi)性能極大地依賴于這些建議框,而檢測(cè)到的邊界框可能對(duì)于后續(xù)的分類(lèi)任務(wù)來(lái)說(shuō)并不是最優(yōu)的;且動(dòng)作建議框僅關(guān)注視頻中人類(lèi)的特征,忽略了人與背景中某些屬性之間的關(guān)系,而這些背景信息可以為行為預(yù)測(cè)提供重要的上下文信息。
4、因此,尋找一種既能夠提高動(dòng)作識(shí)別準(zhǔn)確率,又能夠適應(yīng)復(fù)雜場(chǎng)景的識(shí)別方法,是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提出了一種基于雙分支的動(dòng)作識(shí)別方法及系統(tǒng),其能夠結(jié)合2d分支和3d分支,有效地提取了空間特征和時(shí)空特征,并通過(guò)特征融合和注意力機(jī)制,顯著提高了動(dòng)作識(shí)別的準(zhǔn)確性和效率。
2、本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、第一方面,本發(fā)明提供了一種基于雙分支的動(dòng)作識(shí)別方法,包括以下步驟:
4、s1、獲取動(dòng)作視頻,并對(duì)動(dòng)作視頻進(jìn)行預(yù)處理,得到預(yù)處理后的圖片;
5、s2、使用2d分支和3d分支分別對(duì)預(yù)處理后的圖片進(jìn)行特征提取,得到空間特征和時(shí)空特征;其中2d分支包括主干網(wǎng)絡(luò)和fpn,主干網(wǎng)絡(luò)包括c2f-sccloatt模塊,3d分支包括1個(gè)第一特征提取層、第一最大池化層和4個(gè)第二特征提取層,第二特征提取層包括od_bottleneck模塊;
6、s3、使用通道融合和注意力機(jī)制模塊對(duì)空間特征和時(shí)空特征進(jìn)行特征融合,得到融合特征;
7、s4、對(duì)融合特征進(jìn)行檢測(cè),得到每個(gè)空間位置的動(dòng)作類(lèi)別預(yù)測(cè)結(jié)果。
8、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述2d分支的網(wǎng)絡(luò)結(jié)構(gòu)為:
9、主干網(wǎng)絡(luò)包括layer_1、layer_2、layer_3、layer_4和layer_5,layer_1包括第一卷積單元、bn單元和silu,layer_2包括第二卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_3包括第三卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_4包括第四卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_5包括第五卷積單元、bn單元、silu和c2f-sccloatt模塊;其中第一卷積單元的通道數(shù)為64、第二卷積單元的通道數(shù)為128、第三卷積單元的通道數(shù)為256,第四卷積單元的通道數(shù)為512,第五卷積單元的通道數(shù)為1024;
10、fpn包括四個(gè)部分,第一部分包括上采用層、concat單元和第一c2f模塊,第二部分包括上采用層、concat單元和第二c2f模塊,第三部分包括第六卷積單元、concat單元和第三c2f模塊、第四部分包括第七卷積單元、concat單元、第四c2f模塊和spp_block_csp;其中第六卷積單元的卷積核為3*3,通道數(shù)為256,第七卷積單元的卷積核為3*3,通道數(shù)為512,第一c2f模塊的通道數(shù)為512,第二c2f模塊的通道數(shù)為256,第三c2f模塊的通道數(shù)為512,第四c2f模塊的通道數(shù)為1024。
11、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,在步驟s2中,使用2d分支對(duì)預(yù)處理后的圖片進(jìn)行特征提取,具體包括:
12、使用主干網(wǎng)絡(luò)對(duì)預(yù)處理后的圖片進(jìn)行特征提取,得到第一多尺度特征;
13、使用fpn對(duì)第一多尺度特征進(jìn)行特征融合和增強(qiáng),得到第二多尺度特征;
14、對(duì)第二多尺度特征進(jìn)行特征處理和轉(zhuǎn)換,得到空間特征,其中空間特征包括fcls和freg。
15、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述c2f-sccloatt模塊包括scconv層和cloatt注意力模塊,其中scconv層包括空間重構(gòu)單元和信道重構(gòu)單元,cloatt注意力模塊包括高頻注意力、低頻注意力和特征融合。
16、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述c2f-sccloatt模塊還包括高效注意力機(jī)制,其中高效注意力機(jī)制的特征如下:
17、e(q,k,v)=ρq(q)(ρk(k)tv);
18、其中,ρq表示查詢的歸一化函數(shù),ρk表示鍵特征的歸一化函數(shù),q表示查詢向量,k表示鍵向量,t表示對(duì)ρk(k)矩陣轉(zhuǎn)置,v表示值向量。
19、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述3d分支的網(wǎng)絡(luò)結(jié)構(gòu)為:
20、所述第一特征提取層包括卷積核為3×3×3、通道數(shù)為64的卷積層、bn層、relu和3×3×3第二最大池化層;
21、所述第一最大池化層為3×1×1;
22、4個(gè)第二特征提取層包括layer1、layer2、layer3和layer4,其中l(wèi)ayer1包括3個(gè)連續(xù)的od_bottleneck模塊,layer2包括4個(gè)連續(xù)的od_bottleneck模塊,layer3包括5個(gè)連續(xù)的od_bottleneck模塊和一個(gè)添加非局部塊的od_bottleneck,layer4包括3個(gè)連續(xù)的od_bottleneck模塊。
23、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述od_bottleneck模塊具體包括:
24、輸入分組,包括一組3*3的第一卷積分支和一組3*3的全維動(dòng)態(tài)卷積分支;
25、融合單元,其配置為將第一卷積分支的輸出和全維動(dòng)態(tài)卷積分支的輸出相加;
26、維度恢復(fù)單元包括1*1卷積層,用于將融合單元的輸出恢復(fù)至輸入特征維度,得到第一特征;
27、殘差連接單元,用于將第一特征與輸入相加,得到殘差特征。
28、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述全維動(dòng)態(tài)卷積四種不同的注意力,包括卷積核注意力、空間維度注意力、輸入通道維度注意力和輸出通道注意力,全維動(dòng)態(tài)卷積的表達(dá)式如下:
29、y=(αω1⊙αf1⊙αc1⊙αs1w1+…+αωn⊙αfn⊙αcn⊙αsn⊙wn)×x;
30、其中,αω1表示第一個(gè)卷積核w1的注意力標(biāo)量,αf1表示空間維度注意力的空域維度,αc1表示輸入通道維度注意力的輸入通道維度,αs1表示輸出通道注意力的輸出通道維度,αωn表示第n個(gè)卷積核的注意力標(biāo)量,wn表示第n個(gè)卷積核,x表示輸入特征圖,αfn表示第n個(gè)卷積核的空間維度注意力的空域維度,αcn表示第n個(gè)卷積核的輸入通道維度注意力的輸入通道維,αsn表示第n個(gè)卷積核的輸出通道注意力的輸出通道維度。
31、更進(jìn)一步優(yōu)選的,步驟s3具體包括:
32、s31、將時(shí)空特征和空間特征輸入通道融合模塊,根據(jù)通道融合模塊的通道維度對(duì)時(shí)空特征和空間特征進(jìn)行融合,得到第一特征圖;
33、s32、對(duì)第一特征使用1*1卷積壓縮通道數(shù),并使用3*3卷積提取特征,得到第二特征圖;
34、s33、將第二特征重塑為兩種維度的特征圖,包括特征圖f1和特征圖f2;
35、s34、對(duì)特征圖f1和特征圖f2進(jìn)行逐元素點(diǎn)乘,并通過(guò)softmax函數(shù)處理,得到注意力矩陣;
36、s35、將注意力矩陣與特征圖f1進(jìn)行逐元素點(diǎn)乘,得到第三特征圖,將第三特征圖重塑為第二特征圖大小,得到融合特征。
37、第二方面,本發(fā)明提供了一種基于雙分支的動(dòng)作識(shí)別系統(tǒng),采用如上述所述的動(dòng)作識(shí)別方法,包括:
38、圖片處理模塊,其配置為獲取動(dòng)作視頻,并對(duì)動(dòng)作視頻進(jìn)行預(yù)處理,得到預(yù)處理后的圖片;
39、特征提取模塊,其配置為使用2d分支和3d分支分別對(duì)預(yù)處理后的圖片進(jìn)行特征提取,得到空間特征和時(shí)空特征;其中2d分支包括主干網(wǎng)絡(luò)和fpn,主干網(wǎng)絡(luò)包括c2f-sccloatt模塊,3d分支包括1個(gè)第一特征提取層、第一最大池化層和4個(gè)第二特征提取層,第二特征提取層包括od_bottleneck模塊;
40、特征融合模塊,其配置為使用通道融合和注意力機(jī)制模塊對(duì)空間特征和時(shí)空特征進(jìn)行特征融合,得到融合特征;
41、動(dòng)作預(yù)測(cè)模塊,其配置為對(duì)融合特征進(jìn)行檢測(cè),得到每個(gè)空間位置的動(dòng)作類(lèi)別預(yù)測(cè)結(jié)果。
42、本發(fā)明的動(dòng)作識(shí)別方法相對(duì)于現(xiàn)有技術(shù)具有以下有益效果:
43、(1)通過(guò)通過(guò)結(jié)合2d分支和3d分支,有效地提取了空間特征和時(shí)空特征,并通過(guò)特征融合和注意力機(jī)制,顯著提高了動(dòng)作識(shí)別的準(zhǔn)確性和效率,不僅能夠捕捉靜態(tài)圖像中的空間信息,還能有效地處理視頻序列中的時(shí)間動(dòng)態(tài)特征,從而在各種復(fù)雜場(chǎng)景下實(shí)現(xiàn)更精準(zhǔn)的動(dòng)作識(shí)別;
44、(2)通過(guò)引入scconv層和cloatt注意力模塊,利用c2f-sccloatt模塊有效地減少了特征冗余,同時(shí)增強(qiáng)了特征表示能力,不僅降低了模型參數(shù)和計(jì)算復(fù)雜度,還能夠同時(shí)關(guān)注局部細(xì)節(jié)和全局信息,從而在保持計(jì)算效率的同時(shí),顯著提升了模型的特征提取能力和表達(dá)能力,使得模型能夠更好地處理復(fù)雜的動(dòng)作場(chǎng)景;
45、(3)通過(guò)在od_bottleneck模塊引入全維動(dòng)態(tài)卷積和非局部塊,大大增強(qiáng)了3d分支的特征提取能力,利用全維動(dòng)態(tài)卷積實(shí)現(xiàn)了對(duì)特征的自適應(yīng)調(diào)整,非局部塊則有效捕捉了長(zhǎng)距離依賴關(guān)系,能夠更好地適應(yīng)不同類(lèi)型的動(dòng)作特征,提高了對(duì)復(fù)雜動(dòng)作序列的理解能力;
46、(4)通過(guò)特征融合和注意力機(jī)制實(shí)現(xiàn)了空間特征和時(shí)空特征的有效結(jié)合,能夠智能地突出重要特征,抑制無(wú)關(guān)信息,從而生成更加精煉和信息豐富的融合特征,提高對(duì)動(dòng)作關(guān)鍵信息的捕捉能力,有效改善了動(dòng)作識(shí)別的準(zhǔn)確性和魯棒性。