本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,具體涉及一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法。
背景技術(shù):
1、在計(jì)算機(jī)視覺和行為分析領(lǐng)域,目標(biāo)個(gè)體的行為描述在視頻監(jiān)控中具有廣泛的應(yīng)用,尤其是在復(fù)雜場(chǎng)景中對(duì)多個(gè)個(gè)體進(jìn)行分析時(shí)。這種技術(shù)不僅可以提供詳細(xì)的情境分析,還能準(zhǔn)確評(píng)估潛在風(fēng)險(xiǎn),確保公共場(chǎng)所的安全與和諧。目前,視頻級(jí)別的字幕方法無法為每個(gè)個(gè)體的特定行為提供細(xì)粒度描述,導(dǎo)致難以準(zhǔn)確識(shí)別個(gè)體身份。為了解決這一挑戰(zhàn),提出了基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法。
2、現(xiàn)有的基于視頻級(jí)別的描述方法在細(xì)粒度行為描述方面表現(xiàn)不佳。許多現(xiàn)有方法僅能在幀級(jí)別的視頻描述任務(wù)上表現(xiàn)出色,例如對(duì)一整個(gè)視頻發(fā)生了什么進(jìn)行描述,或者以發(fā)生的事件為單位,對(duì)視頻中的幾個(gè)事件進(jìn)行描述。但是在實(shí)際場(chǎng)景中,經(jīng)常需要對(duì)具有特定特征的關(guān)鍵目標(biāo)進(jìn)行細(xì)粒度的行為描述,例如“穿著紅色夾克的人在超市門口與他人互動(dòng)的行為”。這些需求對(duì)模型的行為描述能力提出了更高的要求。
3、目前,大多數(shù)現(xiàn)有技術(shù)主要依賴于深度學(xué)習(xí)方法進(jìn)行視頻行為分析,這些方法通常包括幀級(jí)特征提取、事件檢測(cè)以及生成描述。雖然這些方法在特定場(chǎng)景和任務(wù)上表現(xiàn)良好,但在處理多變的真實(shí)世界場(chǎng)景時(shí)仍存在一定的局限性。例如,無論是對(duì)視頻進(jìn)行描述還是將視頻以事件為單位分成幾個(gè)事件對(duì)每個(gè)事件進(jìn)行描述,它們都是基于網(wǎng)絡(luò)提供的視頻,并不是真實(shí)世界監(jiān)控中的視頻;其次現(xiàn)有的描述方法無法對(duì)視頻中以個(gè)體為單位對(duì)其行為進(jìn)行描述,只能描述一整段視頻或者描述視頻中發(fā)生的事件。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法解決了現(xiàn)有描述方法無法對(duì)視頻中以個(gè)體為單位進(jìn)行行為描述的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,包括以下步驟:
3、s1:從視頻中提取幀,并利用預(yù)訓(xùn)練的視覺模型對(duì)提取的每幀圖像進(jìn)行特征提取,獲得幀特征;
4、s2:使用yolov7算法結(jié)合strongsort算法和osnet算法對(duì)視頻中的目標(biāo)個(gè)體進(jìn)行檢測(cè)和跟蹤,并利用所述視覺模型提取個(gè)體特征;
5、s3:利用deformable?transformer可變形解碼器將所述個(gè)體特征和所述幀特征結(jié)合,生成查詢特征;
6、s4:將所述查詢特征連接到定位頭和字幕生成頭,描述目標(biāo)個(gè)體行為,并采用損失函數(shù)進(jìn)行模型優(yōu)化,完成基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述。
7、進(jìn)一步地,所述s1中包括以下分步驟:
8、s11:從輸入視頻中以固定幀率均勻采樣視頻幀;
9、s12:采用預(yù)訓(xùn)練的視覺模型對(duì)所述視頻幀進(jìn)行特征提取,獲得特征圖;
10、s13:將所述特征圖的空間維度折疊成一維,形成設(shè)定尺寸的特征向量;
11、s14:將所述特征向量作為數(shù)據(jù)輸入transformer編碼器中,獲得幀特征。
12、進(jìn)一步地,所述s2中包括以下分步驟:
13、s21:使用yolov7算法結(jié)合strongsort算法和osnet算法對(duì)視頻中的每個(gè)個(gè)體進(jìn)行檢測(cè),并將檢測(cè)到的個(gè)體在視頻中標(biāo)注邊界框;
14、s22:根據(jù)邊界框?qū)σ曨l幀進(jìn)行裁剪,提取出只包含目標(biāo)個(gè)體的圖像區(qū)域集合;
15、s23:對(duì)圖像區(qū)域集合中每個(gè)目標(biāo)個(gè)體均勻采樣,并統(tǒng)一調(diào)整尺寸,將調(diào)整后的圖像輸入視覺模型進(jìn)行個(gè)體特征提取;
16、s24:對(duì)提取的個(gè)體特征進(jìn)行池化處理,并將池化處理后的特征通過全連接層進(jìn)行格式轉(zhuǎn)換,完成個(gè)體特征的提取。
17、進(jìn)一步地,所述s3中deformable?transformer可變形解碼器采用了多尺度變形注意力機(jī)制,所述多尺度變形注意力機(jī)制的計(jì)算公式為:
18、
19、其中,為多尺度變形注意力機(jī)制,表示當(dāng)前處理的查詢特征向量,表示查詢向量對(duì)應(yīng)的標(biāo)準(zhǔn)化參考點(diǎn)位置,表示特征圖,表示特征圖的尺度層數(shù),表示特征圖的尺度層數(shù)的取值,表示每個(gè)查詢參考點(diǎn)周圍的采樣點(diǎn)數(shù),表示每個(gè)查詢參考點(diǎn)周圍的采樣點(diǎn)數(shù)的取值,表示由和計(jì)算得出的采樣位置的注意力權(quán)重,是特征轉(zhuǎn)換矩陣,是在特征圖上根據(jù)變形后的采樣位置提取的特征。
20、進(jìn)一步地,所述采樣位置的計(jì)算公式為:
21、
22、其中,表示轉(zhuǎn)換函數(shù),表示查詢點(diǎn),表示偏移量。
23、進(jìn)一步地,所述s4中損失函數(shù)為:
24、
25、其中,表示預(yù)測(cè)時(shí)間段和實(shí)際時(shí)間段之間的廣義iou損失,表示預(yù)測(cè)分類得分和實(shí)際標(biāo)簽之間的分類損失,表示預(yù)測(cè)詞概率與實(shí)際值之間的交叉熵?fù)p失,表示各種損失的權(quán)重。
26、本發(fā)明的有益效果是:本發(fā)明提出了一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,該方法通過利用多頭自注意力機(jī)制和deformable?transformer可變形編碼器,能夠動(dòng)態(tài)地獲取視頻中目標(biāo)個(gè)體的關(guān)鍵行為特征,并通過持續(xù)優(yōu)化的參數(shù)進(jìn)化算法,實(shí)現(xiàn)精確的個(gè)體行為描述。
27、針對(duì)現(xiàn)有技術(shù)在復(fù)雜視頻監(jiān)控場(chǎng)景中對(duì)個(gè)體行為細(xì)粒度描述不足的問題,本發(fā)明有效解決了檢測(cè)和跟蹤個(gè)體的穩(wěn)定性和準(zhǔn)確性問題,特別是在長時(shí)間的視頻數(shù)據(jù)處理中,表現(xiàn)出色。模型采用yolov7結(jié)合strongsort和osnet算法進(jìn)行個(gè)體檢測(cè)與跟蹤,通過預(yù)訓(xùn)練的視覺模型進(jìn)行特征提取,并使用多尺度變形注意力機(jī)制實(shí)現(xiàn)特征融合。實(shí)驗(yàn)結(jié)果表明,該方法在多個(gè)關(guān)鍵性能指標(biāo)上均優(yōu)于現(xiàn)有方法,顯著提高了行為描述的準(zhǔn)確性和細(xì)致度。
1.一種基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,所述s1中包括以下分步驟:
3.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,所述s2中包括以下分步驟:
4.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,所述s3中deformable?transformer可變形解碼器采用了多尺度變形注意力機(jī)制,所述多尺度變形注意力機(jī)制的計(jì)算公式為:
5.根據(jù)權(quán)利要求4所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,所述采樣位置的計(jì)算公式為:
6.根據(jù)權(quán)利要求1所述的基于參數(shù)持續(xù)性進(jìn)化的目標(biāo)個(gè)體行為描述方法,其特征在于,所述s4中損失函數(shù)為: