本發(fā)明屬于深度偽造檢測(cè)領(lǐng)域,尤其涉及基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法及系統(tǒng)。
背景技術(shù):
1、深度偽造(deepfake)一詞指通過(guò)深度學(xué)習(xí)算法,特別是生成對(duì)抗網(wǎng)絡(luò)(gans),創(chuàng)造出高度逼真的偽造圖像和視頻,這些內(nèi)容很難被普通用戶所識(shí)別。深度偽造技術(shù)被廣泛應(yīng)用于娛樂(lè)、電影制作等行業(yè),但更多的時(shí)候帶來(lái)的是諸如身份盜用、隱私侵犯等嚴(yán)重的社會(huì)問(wèn)題;因此,開(kāi)發(fā)有效的深度偽造檢測(cè)技術(shù)變得至關(guān)重要,這類技術(shù)旨在區(qū)分真實(shí)的圖像或視頻和經(jīng)過(guò)偽造的內(nèi)容,以保護(hù)個(gè)人隱私和公共安全。
2、目前,基于深度卷積神經(jīng)網(wǎng)絡(luò)(cnn)的檢測(cè)方法雖然能夠識(shí)別某些特定類型的偽造內(nèi)容,但它們受限于局部感受野,難以捕捉全局依賴關(guān)系,導(dǎo)致模型只關(guān)注某些局部區(qū)域,這限制了模型的泛化能力;此外,在rgb色彩空間中,某些細(xì)微的偽造痕跡難以被檢測(cè)到,導(dǎo)致現(xiàn)有模型容易忽略這些關(guān)鍵區(qū)域。
3、針對(duì)第一點(diǎn),部分研究轉(zhuǎn)向使用vision?transformer(vit)來(lái)增強(qiáng)模型的全局感知能力;然而,這些基于vit的方法將圖像分割成固定尺寸的補(bǔ)?。╬atch),這可能導(dǎo)致連續(xù)的面部特征如眼睛等被分散到不同的補(bǔ)丁中,進(jìn)而影響了全局信息的連貫性;此外,每個(gè)補(bǔ)丁的尺寸較小,其中包含的信息較少,補(bǔ)丁之間缺乏明確的語(yǔ)義關(guān)聯(lián);這些問(wèn)題導(dǎo)致了次優(yōu)的全局信息建模和不必要的相似度計(jì)算。同時(shí),由于vit對(duì)局部特征的建模不足,僅使用vit可能會(huì)忽略一些關(guān)鍵的局部區(qū)域,因此,現(xiàn)有方法在全局-局部信息建模上靈活性、魯棒性不足。
4、針對(duì)第二點(diǎn),為了彌補(bǔ)rgb空間中的缺陷,一些研究引入了頻率域信息作為輔助模態(tài),在頻率空間中,一些在rgb空間中難以察覺(jué)的偽造痕跡會(huì)變得非常明顯;然而,這些方法通常僅通過(guò)簡(jiǎn)單的拼接或相加操作來(lái)融合多模態(tài)數(shù)據(jù),未能充分利用各自的優(yōu)勢(shì),從而導(dǎo)致重要細(xì)節(jié)的丟失;此外,這些方法僅使用模型最后的特征圖進(jìn)行分類,然而不同的偽造痕跡具有不同的尺寸,模型淺層特征圖中的偽造痕跡可能隨著模型的傳播過(guò)程逐漸丟失,導(dǎo)致模型在進(jìn)行最終預(yù)測(cè)時(shí)忽略了來(lái)自淺層的關(guān)鍵信息;因此,現(xiàn)有技術(shù)中rgb和頻率信息的融合細(xì)粒度不足。
5、因此,盡管引入了全局信息和頻率信息,現(xiàn)有深度偽造檢測(cè)方法依然存在精度低、泛化能力弱的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法及系統(tǒng),克服固定形狀補(bǔ)丁劃分帶來(lái)的局限性,增強(qiáng)模型對(duì)不同偽造模式的適應(yīng)性,實(shí)現(xiàn)更加細(xì)粒度的rgb和頻率信息融合,從而提高深度偽造檢測(cè)的精度和泛化能力。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的一個(gè)或多個(gè)實(shí)施例提供了如下技術(shù)方案:
3、本發(fā)明第一方面提供了基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法。
4、基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法,包括:
5、獲取待檢測(cè)的人臉圖像;
6、將人臉圖像輸入到訓(xùn)練好的檢測(cè)模型中,進(jìn)行是否偽造的二分類,得到深度偽造的檢測(cè)結(jié)果;
7、其中,所述檢測(cè)模型提取人臉圖像中的圖特征和頻率特征,利用自適應(yīng)圖卷積模塊對(duì)圖特征進(jìn)行圖卷積,聚集鄰居節(jié)點(diǎn)信息形成組令牌,利用多尺度提示融合模塊從圖特征和頻率特征中生成提示令牌;最后,將拼接后的令牌輸入到vit中進(jìn)行分類。
8、進(jìn)一步的,所述檢測(cè)模型包括雙分支特征提取網(wǎng)絡(luò)、自適應(yīng)圖卷積模塊、多尺度提示融合模塊和分類模塊;
9、所述雙分支特征提取網(wǎng)絡(luò),基于cnn,提取人臉圖像中的圖特征和頻率特征;
10、所述自適應(yīng)圖卷積模塊,基于自適應(yīng)構(gòu)建的圖結(jié)構(gòu)和圖卷積,形成組令牌;
11、所述多尺度提示融合模塊,基于提示學(xué)習(xí)器,生成提示令牌;
12、所述分類模塊,基于vit,進(jìn)行分類。
13、進(jìn)一步的,所述雙分支特征提取網(wǎng)絡(luò),包含兩個(gè)分支,分別用于提取圖特征和頻率特征;
14、所述圖特征是采用cnn從人臉圖像中提取的;
15、所述頻率特征是采用cnn從人臉圖像的頻率域表示中提取的。
16、進(jìn)一步的,所述自適應(yīng)圖卷積模塊,包括自適應(yīng)圖構(gòu)建和圖聚集;
17、所述自適應(yīng)圖構(gòu)建,通過(guò)圖特征的相對(duì)位置編碼和特征相似度,自適應(yīng)構(gòu)建圖結(jié)構(gòu);
18、所述圖聚集,通過(guò)圖卷積聚合相關(guān)節(jié)點(diǎn)信息,得到包含豐富語(yǔ)義信息的組令牌。
19、進(jìn)一步的,所述圖結(jié)構(gòu),由節(jié)點(diǎn)矩陣和鄰接矩陣組成,具體構(gòu)建步驟為:
20、將圖特征中的每一個(gè)像素當(dāng)作一個(gè)節(jié)點(diǎn),構(gòu)建節(jié)點(diǎn)矩陣;
21、利用局部聚集器,計(jì)算節(jié)點(diǎn)矩陣的查詢、鍵和值矩陣,進(jìn)而計(jì)算節(jié)點(diǎn)之間的相似度分?jǐn)?shù),基于相似度分?jǐn)?shù),構(gòu)建鄰接矩陣。
22、進(jìn)一步的,所述多尺度提示融合模塊,為每個(gè)特征設(shè)置一個(gè)提示學(xué)習(xí)器,用于定位輸入特征的關(guān)鍵信息并將其轉(zhuǎn)化為提示令牌;
23、所述提示學(xué)習(xí)器是使用空間注意力和通道注意力提取關(guān)鍵信息,通過(guò)線性映射得到對(duì)應(yīng)的提示令牌。
24、進(jìn)一步的,所述分類模塊,是將拼接后的令牌輸入到vit進(jìn)行全局特征提取和特征融合,基于融合后的特征進(jìn)行分類。
25、本發(fā)明第二方面提供了基于圖卷積與多尺度提示融合的深度偽造檢測(cè)系統(tǒng)。
26、基于圖卷積與多尺度提示融合的深度偽造檢測(cè)系統(tǒng),包括:
27、圖像獲取模塊,被配置為:獲取待檢測(cè)的人臉圖像;
28、偽造檢測(cè)模塊,被配置為:將人臉圖像輸入到訓(xùn)練好的檢測(cè)模型中,進(jìn)行是否偽造的二分類,得到深度偽造的檢測(cè)結(jié)果;
29、其中,所述檢測(cè)模型提取人臉圖像中的圖特征和頻率特征,利用自適應(yīng)圖卷積模塊對(duì)圖特征進(jìn)行圖卷積,聚集鄰居節(jié)點(diǎn)信息形成組令牌,利用多尺度提示融合模塊從圖特征和頻率特征中生成提示令牌;最后,將拼接后的令牌輸入到vit中進(jìn)行分類。
30、本發(fā)明第三方面提供了計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法中的步驟。
31、本發(fā)明第四方面提供了電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于圖卷積與多尺度提示融合的深度偽造檢測(cè)方法中的步驟。
32、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果:
33、(1)全局-局部信息建模
34、由于vit在處理局部特征方面的能力較弱,本發(fā)明設(shè)計(jì)了一個(gè)混合架構(gòu),結(jié)合了cnn與vit的優(yōu)點(diǎn)。
35、首先利用cnn提取圖像的局部特征,隨后將cnn生成的特征圖中的每個(gè)像素視為一個(gè)令牌,輸入至vit以提取全局信息;通過(guò)這種方式,實(shí)現(xiàn)了局部與全局特征的有效結(jié)合;為了更加充分提取全局和頻率特征,本發(fā)明提出了自適應(yīng)圖卷積網(wǎng)絡(luò)(agcn)和多尺度提示融合(mspf)兩個(gè)模塊。
36、(2)全局信息建模
37、針對(duì)全局信息提取,本發(fā)明提出了自適應(yīng)圖卷積網(wǎng)絡(luò)(agcn)模塊。
38、agcn通過(guò)相對(duì)位置關(guān)系和特征相似度,能夠根據(jù)自適應(yīng)構(gòu)建的圖結(jié)構(gòu),通過(guò)圖卷積聚合相關(guān)節(jié)點(diǎn)信息形成語(yǔ)義信息更加豐富的組令牌,有效構(gòu)建出更魯棒的全局信息表示。
39、通過(guò)agcn,每一個(gè)令牌可以自適應(yīng)地從其鄰居節(jié)點(diǎn)聚集信息,從而包含更加豐富的語(yǔ)義信息;所有令牌聚集完信息后,它們之間的關(guān)聯(lián)關(guān)系更加明確,增強(qiáng)了模型的全局建模能力;這種方法不僅克服了固定形狀補(bǔ)丁劃分帶來(lái)的局限性,還增強(qiáng)了模型對(duì)不同偽造模式的適應(yīng)性。
40、(3)頻率特征融合
41、針對(duì)頻率信息提取,本發(fā)明提出了多尺度提示融合(mspf)模塊。
42、mspf通過(guò)提示學(xué)習(xí)器提取不同尺度的頻率信息,這些信息以提示令牌的形式,作為補(bǔ)充和組令牌共同輸入到vit中,通過(guò)自注意力機(jī)制與組令牌進(jìn)行交互,實(shí)現(xiàn)不同尺度的rgb-頻率信息的融合。同時(shí),本發(fā)明加入額外的分類令牌與上面的兩種令牌進(jìn)行交互,綜合考慮多模態(tài)多尺度的信息進(jìn)行最終的分類;通過(guò)mspf,rgb和頻率模態(tài)的信息通過(guò)自注意力機(jī)制進(jìn)行融合,靈活的選擇相關(guān)的信息進(jìn)行融合;此外,分類令牌可以與不同尺度、不同模態(tài)的令牌進(jìn)行交互,綜合多方面信息作出最終分類,使多模態(tài)信息融合過(guò)程更加細(xì)粒度和靈活。
43、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。