国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型及方法

      文檔序號:40076294發(fā)布日期:2024-11-27 11:17閱讀:38來源:國知局
      一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型及方法

      本發(fā)明屬于視頻圖像壓縮領(lǐng)域,尤其涉及一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型及方法。


      背景技術(shù):

      1、在多種心理和生理因素的影響下,人類視覺系統(tǒng)(hvs)無法感知到圖像視頻的一些變化,也就是說hvs存在恰可察覺失真(jnd)。探究jnd的閾值對于改進(jìn)圖像視頻的編碼方式和碼率控制等方面都存在著指導(dǎo)意義?;诤侠淼膉nd模型的圖像視頻編碼能夠在不影響hvs感知水平的情況下,顯著降低存儲和傳輸過程中所需的碼率。

      2、然而基于jnd閾值改進(jìn)的圖像視頻的編碼方式和碼率控制等方法只針對hvs的特性進(jìn)行優(yōu)化。隨著硬件性能的提升和深度學(xué)習(xí)算法的發(fā)展,機(jī)器視覺任務(wù)的性能不斷提升,面向機(jī)器視覺算法而非hvs的視頻圖像數(shù)據(jù)正以指數(shù)式增長。此外,眾所周知,機(jī)器視覺任務(wù)的準(zhǔn)確性不僅取決于硬件和算法的先進(jìn)程度,還取決于壓縮圖像或視頻的質(zhì)量。因此,研究機(jī)器視覺任務(wù)的精度與壓縮數(shù)據(jù)質(zhì)量之間的映射關(guān)系,對于指導(dǎo)圖像和視頻壓縮具有重要意義。所以,為了減少視頻和圖像數(shù)據(jù)在傳輸和存儲過程中的冗余,適用于機(jī)器視覺任務(wù)的失真閾值預(yù)測方法亟待研究。

      3、近年來,對于機(jī)器視覺性能與圖像或視頻幀質(zhì)量水平之間的關(guān)系的研究開始推進(jìn)。部分研究者對特定的機(jī)器視覺任務(wù)在編碼的方向做出優(yōu)化,包括能夠同時欺騙機(jī)器視覺算法和人類的生成真實(shí)對抗圖像的方法、通過無監(jiān)督學(xué)習(xí)生成針對圖像分類任務(wù)的語義引導(dǎo)的jnd等等。但是這些工作都是依賴于特定機(jī)器視覺任務(wù)的創(chuàng)新,對于多種類的機(jī)器視覺任務(wù)不能通用。

      4、還有一些研究者受到j(luò)nd概念的啟發(fā),對機(jī)器視覺是否存在于jnd類似的失真閾值做出了更多探索。部分研究者進(jìn)行了各種機(jī)器視覺任務(wù)的綜合實(shí)驗(yàn),證明了機(jī)器視覺也有類似于hvs中jnd的閾值存在,并提出了一個名為恰可識別失真(jrd)的新概念,用于描述機(jī)器視覺性能在可接受水平下的圖像和視頻編碼的最大失真,假設(shè)i0為原始圖像,其壓縮后的變體為i1,i2,i3,…,in,其中越大的n表示越差質(zhì)量的圖像,對于機(jī)器視覺模型m,定義i0的jrd為:

      5、

      6、其中j為編碼選擇的量化參數(shù)(qp),ε為任意正整數(shù),m特指目標(biāo)檢測任務(wù)。也有人提出了機(jī)器滿意率(smr)的概念,從機(jī)器滿意度的角度對圖像質(zhì)量進(jìn)行評價(jià),并提出了一種基于深度學(xué)習(xí)的模型來預(yù)測壓縮圖像或視頻幀的smr。這些研究都是在使用hevc等標(biāo)準(zhǔn)視頻編碼的條件下進(jìn)行的。jrd和smr的概念被定義,用于描述機(jī)器視覺任務(wù)對于圖像視頻編碼失真的可接受程度。但是在這些研究中,同樣沒有提出一種準(zhǔn)確高效的無參考預(yù)測jrd方法框架。

      7、綜上所述,已有的工作已經(jīng)初步探討了機(jī)器視覺任務(wù)精度與類似jnd概念(例如jrd和smr)所描述的壓縮圖像視頻質(zhì)量之間的關(guān)系。然而,相關(guān)的研究仍然不足,主要體現(xiàn)在以下幾個方面:1)現(xiàn)有的jrd或smr模型大多是全參考或半?yún)⒖碱A(yù)測模型,這意味著這些方法需要對原圖像先進(jìn)行至少一次編碼壓縮以作參考,效率較低。2)圖像視頻的失真閾值預(yù)測通常依賴于特定的機(jī)器視覺任務(wù)算法,jrd預(yù)測框架的通用性需要進(jìn)一步提高,以適應(yīng)不同的機(jī)器視覺任務(wù)。3)現(xiàn)有的jrd預(yù)測模型在準(zhǔn)確度性能較低,無法滿足實(shí)際應(yīng)用的需求。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明目的在于提供一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測方法,以解決上述的技術(shù)問題。

      2、為解決上述技術(shù)問題,本發(fā)明的一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型及方法的具體技術(shù)方案如下:

      3、一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型,包括jrd圖像生成網(wǎng)絡(luò)g、判別網(wǎng)絡(luò)d和殘差引導(dǎo)jrd回歸網(wǎng)絡(luò)r;所述jrd圖像生成網(wǎng)絡(luò)g以未壓縮的原圖像作為輸入,以假jrd圖像作為輸出;之后,將生成圖像與原始圖像的殘差作為對原圖的補(bǔ)償信息一起輸入殘差引導(dǎo)jrd回歸網(wǎng)絡(luò)r,最終輸出預(yù)測的jrd分?jǐn)?shù),即該圖像壓縮的最優(yōu)量化參數(shù),其中判別網(wǎng)絡(luò)d以對抗的方式與生成網(wǎng)絡(luò)g一起訓(xùn)練,以幫助g產(chǎn)生更接近真jrd圖像的生成結(jié)果。

      4、進(jìn)一步的,所述模型將原圖與對應(yīng)假jrd圖之間的殘差圖像作為補(bǔ)充信息,與原圖一起輸入殘差引導(dǎo)jrd回歸網(wǎng)絡(luò),最終產(chǎn)生預(yù)測的jrd分?jǐn)?shù),即該圖像壓縮的最優(yōu)量化參數(shù)。

      5、進(jìn)一步的,所述jrd圖像生成網(wǎng)絡(luò)g中生成器部分利用u-net的基礎(chǔ)結(jié)構(gòu)實(shí)現(xiàn),在u-net網(wǎng)絡(luò)中,輸入經(jīng)過一系列層,逐步向下采樣,直到瓶頸層,此后進(jìn)行轉(zhuǎn)置卷積實(shí)現(xiàn)上采樣,通過跳躍連接結(jié)構(gòu)傳輸輸入與輸出之間的大量低級信息。

      6、進(jìn)一步的,所述判別網(wǎng)絡(luò)d使用多尺度的判別器,使用了兩個結(jié)構(gòu)相同的判別器,但使它們在不同的圖像尺度上工作,將這兩個在不同尺度上工作的判別器稱為d1、d2,d1、d2分別在真實(shí)圖像和生成圖像的原始尺度以及2倍下采樣的尺度上工作。

      7、進(jìn)一步的,所述殘差引導(dǎo)jrd回歸網(wǎng)絡(luò)r的主要作用是評價(jià)假jrd圖像相對于原圖像的失真程度;

      8、選擇將原圖像和殘差分別輸入特征提取器,再對它們的融合特征做線性回歸的計(jì)算,特征提取器選用vgg16,vgg16的網(wǎng)絡(luò)參數(shù)使用在imagenet數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù),在訓(xùn)練中只需要學(xué)習(xí)優(yōu)化線性回歸部分的網(wǎng)絡(luò)參數(shù)。

      9、進(jìn)一步的,模型包括損失函數(shù)lr,在訓(xùn)練過程中,如果預(yù)測的jrd分?jǐn)?shù)φ(i)大于真實(shí)值φ(i),使用mse?loss,否則使用l1?loss,

      10、

      11、n為圖像總數(shù),φ(i)為第i張圖像的jrd預(yù)測分?jǐn)?shù),φ(i)為該圖像的真實(shí)jrd,其中,預(yù)測值φ(i)向下取整。

      12、本發(fā)明還公開了一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型的訓(xùn)練方法,包括如下步驟:

      13、步驟1:創(chuàng)建包含未壓縮的原始圖像或視頻幀以及它們對應(yīng)的jrd圖像的數(shù)據(jù)集;

      14、步驟2:生成對抗網(wǎng)絡(luò)。

      15、進(jìn)一步的,所述步驟1包括如下步驟:

      16、針對yolov7目標(biāo)檢測的機(jī)器視覺任務(wù),創(chuàng)建包含未壓縮的原始圖像或視頻幀共130000張以及它們對應(yīng)的jrd圖像的數(shù)據(jù)集,同時對其對應(yīng)jrd值做了標(biāo)注,數(shù)據(jù)集的原始圖像來源于coco2017,通過yolov7算法對原始圖像或視頻幀進(jìn)行推理,截取檢測出的對象框,被截取的圖像i0和不同量化參數(shù)壓縮后的變體i1,i2,i3,…,in分別以相同參數(shù)的yolov7算法進(jìn)行推理,最終選擇出i0所對應(yīng)的jrd圖像ij。

      17、進(jìn)一步的,所述步驟2包括如下步驟:

      18、對抗性學(xué)習(xí)框架應(yīng)用cgan的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),

      19、

      20、其中,x為原圖像,y為真jrd圖像,z為噪聲,g(x,z)為以x、z為輸入的g的輸出,即為生成的假jrd圖像,上式中,g試圖最小化lcgan以對抗試圖最大化該目標(biāo)的d,即表示為:

      21、

      22、引入多尺度特征匹配損失函數(shù)lfm和感知損失函數(shù)lvgg優(yōu)化cgan的損失函數(shù),

      23、其中,多尺度特征匹配損失函數(shù)lfm表示為:

      24、

      25、表示不同尺度的鑒別器dk的第i層特征提取器,表示以原圖和真jrd圖像為輸入的第k個鑒別器在第i層上提取的特征,則以原圖和假jrd圖像作為輸入;

      26、引入vgg損失函數(shù)作為一種感知損失,lvgg的計(jì)算公式如下式所示:

      27、

      28、i表示共n張圖像中的第i張圖像,f表示生成的假jrd圖像的特征映射,r表示真jrd圖像的特征映射,c、h、w分別表示特征圖的通道數(shù)、高度和寬度;

      29、對抗學(xué)習(xí)的最終目標(biāo)如下式所示:

      30、

      31、本發(fā)明的一種適用于機(jī)器視覺任務(wù)的恰可識別失真預(yù)測模型及方法具有以下優(yōu)點(diǎn):

      32、本發(fā)明的發(fā)明是將預(yù)測jrd分?jǐn)?shù)這一困難任務(wù)分解為了兩個相對簡單的任務(wù),即生成任務(wù)和回歸任務(wù)。在本發(fā)明提出的無參考模型中,原圖像不需要進(jìn)行若干次的壓縮編解碼,使預(yù)測效率大大提升。同時,在回歸網(wǎng)絡(luò)中,生成圖像的殘差作為補(bǔ)充信息被輸入,使模型最終預(yù)測結(jié)果更加準(zhǔn)確可靠。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1