本發(fā)明涉及圖像處理,尤其涉及一種圖像編碼器、解碼器、圖像壓縮方法及解碼方法。
背景技術(shù):
1、在現(xiàn)代電力系統(tǒng)中,輸電通道的安全與效率對(duì)于電網(wǎng)的穩(wěn)定運(yùn)營(yíng)至關(guān)重要。為此,電力公司普遍部署了大量的圖像監(jiān)測(cè)設(shè)備,實(shí)時(shí)監(jiān)控輸電線路的物理狀態(tài)和環(huán)境條件。這種基于圖像的監(jiān)控系統(tǒng)在提高輸電線路安全和運(yùn)維效率方面發(fā)揮著重要作用,但隨之而來的是巨大的數(shù)據(jù)處理和傳輸挑戰(zhàn)。
2、由于輸電通道廣泛分布,涵蓋多種復(fù)雜地理環(huán)境,包括山地和丘陵等偏遠(yuǎn)地區(qū),監(jiān)控設(shè)備需要具備高覆蓋能力。然而,在這些地區(qū),移動(dòng)通信信號(hào)經(jīng)常不穩(wěn)定,帶寬受限,這直接影響了大數(shù)據(jù)量圖像的實(shí)時(shí)傳輸效率。當(dāng)圖像數(shù)據(jù)從監(jiān)控點(diǎn)傳輸至數(shù)據(jù)中心或云平臺(tái)時(shí),常常出現(xiàn)延遲和數(shù)據(jù)傳輸卡頓的現(xiàn)象。這些問題在緊急情況下尤為嚴(yán)重,可能導(dǎo)致對(duì)輸電線路潛在危險(xiǎn)的延遲響應(yīng)。并且,隨著監(jiān)控設(shè)備數(shù)量的增加,每天產(chǎn)生的圖像數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。每套設(shè)備每天產(chǎn)生的數(shù)據(jù)量極大,這些數(shù)據(jù)需要傳輸、存儲(chǔ)和處理,不僅對(duì)網(wǎng)絡(luò)帶寬提出了極高的要求,也顯著增加了數(shù)據(jù)存儲(chǔ)和管理的成本。特別是在使用4g網(wǎng)絡(luò)卡傳輸數(shù)據(jù)的情況下,高昂的數(shù)據(jù)流量費(fèi)用成為了企業(yè)運(yùn)營(yíng)成本中的一大負(fù)擔(dān)。
3、傳統(tǒng)的圖像存儲(chǔ)方法往往需要大量的服務(wù)器空間,不僅占用了大量物理資源,還增加了企業(yè)支出成本。更重要的是,大量的原始圖像數(shù)據(jù)存儲(chǔ),還可能影響到數(shù)據(jù)的檢索效率和溯源周期。
4、當(dāng)前的圖像壓縮技術(shù)雖然能夠在一定程度上減小文件大小,但常常犧牲了圖像的細(xì)節(jié)質(zhì)量,尤其是在壓縮率較高的情況下。因此,如何有效地壓縮這些圖像數(shù)據(jù),在保證圖像質(zhì)量的前提下盡可能減少數(shù)據(jù)的傳輸和存儲(chǔ)需求,成為需要迫切解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種圖像編碼器、解碼器、圖像壓縮方法及解碼方法,以解決大量圖像壓縮時(shí)在保證圖像質(zhì)量的前提下盡可能減少對(duì)數(shù)據(jù)傳輸帶寬和存儲(chǔ)的需求。
2、本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn):
3、第一方面,本發(fā)明提供了一種圖像編碼器,包括:
4、低維編碼器,包括至少一個(gè)低維編碼層和第一卷積輸出層,每個(gè)所述低維編碼層包括依次連接的第一殘差下采樣模塊和第一卷積注意力模塊;
5、高維編碼器,包括依次連接的第二殘差下采樣模塊、第二卷積注意力模塊和第二卷積輸出層;
6、所述第一卷積注意力模塊和所述第二卷積注意力模塊為施加縮放余弦注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò);
7、所述低維編碼器用于對(duì)圖像進(jìn)行壓縮,得到低維編碼特征;
8、所述高維編碼器用于對(duì)所述低維編碼特征進(jìn)行壓縮,得到高維編碼特征。
9、本發(fā)明基于卷積注意力機(jī)制在低維編碼特征上對(duì)圖像的高維特征進(jìn)行提取,學(xué)習(xí)到圖像的重要局部信息。圖像經(jīng)過低維編碼器和高維編碼器壓縮后,僅保留圖像中的重要信息,可極大壓縮圖像的大小,便于大量數(shù)據(jù)的存儲(chǔ)和傳輸。
10、進(jìn)一步地,所述第一殘差下采樣模塊和所述第二殘差下采樣模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,包括依次連接的第一卷積層、leaky?relu激活層、第二卷積層、廣義歸一化層和第一輸出層,以及與所述第一卷積層的輸入、所述第一輸出層的輸入進(jìn)行跨層連接的第三卷積層;
11、所述第一輸出層用于接收所述廣義歸一化層的輸出和所述第三卷積層的輸出進(jìn)行相加,得到殘差下采樣特征。
12、進(jìn)一步地,所述第一卷積注意力模塊和所述第二卷積注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)相同,包括依次連接的輸入卷積層、特征分割層、殘差卷積網(wǎng)絡(luò)、特征拼接層,第四卷積層和第二輸出層,以及與所述特征分割層的輸出、所述特征拼接層的輸入進(jìn)行跨層連接的縮放余弦注意力層。
13、第二方面,本發(fā)明提供了一種圖像解碼器,包括:
14、高維解碼器,包括依次連接的第一殘差上采樣模塊、第三卷積注意力模塊和第一子像素卷積層,用于對(duì)高維編碼特征進(jìn)行解碼,得到高維解碼特征;
15、低維特征估計(jì)模塊,包括依次連接的低維特征分割層、通道自回歸熵模型和分段特征拼接層,用于根據(jù)所述高維解碼特征對(duì)低維編碼特征進(jìn)行解碼,得到低維估計(jì)特征;
16、低維解碼器,包括至少一個(gè)低維解碼層和第二子像素卷積層,每個(gè)所述低維解碼層包括依次連接的第二殘差上采樣模塊和第四卷積注意力模塊,用于對(duì)所述低維估計(jì)特征進(jìn)行解碼,得到解碼圖像;
17、所述高維編碼特征和所述低維編碼特征通過第一方面任意一項(xiàng)所述的圖像編碼器編碼得到。
18、進(jìn)一步地,所述第三卷積注意力模塊和所述第四卷積注意力模塊為施加縮放余弦注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。
19、第三方面,本發(fā)明提供了一種圖像壓縮方法,包括:
20、通過低維編碼器對(duì)圖像進(jìn)行壓縮,得到低維編碼特征;
21、通過高維編碼器對(duì)所述低維編碼特征進(jìn)行壓縮,得到高維編碼特征;
22、所述低維編碼特征和所述高維編碼特征組成為所述圖像的壓縮圖像;
23、所述低維編碼器為第一方面任意一項(xiàng)所述的圖像編碼器中的低維編碼器;
24、所述高維編碼器為第一方面任意一項(xiàng)所述的圖像編碼器中的高維編碼器。
25、進(jìn)一步地,所述通過高維編碼器對(duì)所述低維編碼特征進(jìn)行壓縮,得到高維編碼特征,包括:
26、通過第二殘差下采樣模塊對(duì)低維編碼特征進(jìn)行特征提取,得到第二殘差下采樣特征;
27、通過第二卷積注意力模塊對(duì)所述第二殘差下采樣特征進(jìn)行特征提取,得到第二卷積注意力特征;
28、通過第二卷積輸出層對(duì)第二卷積注意力特征進(jìn)行提取,得到高維編碼特征。
29、第四方面,本發(fā)明提供了一種圖像解碼方法,包括:
30、通過高維解碼器對(duì)高維編碼特征進(jìn)行解碼,得到高維解碼特征;
31、計(jì)算低維編碼特征的均值和方差,根據(jù)均值和方差對(duì)所述低維編碼特征進(jìn)行分段,得到多個(gè)分段特征;
32、通過所述高維解碼特征引導(dǎo)通道自回歸熵模型對(duì)各所述分段特征進(jìn)行估計(jì),得到各分段特征的估計(jì)向量;
33、拼接各所述分段特征的估計(jì)向量,得到低維估計(jì)特征;
34、通過低維解碼器對(duì)所述低維估計(jì)特性進(jìn)行解碼,得到解碼圖像;
35、所述高維編碼特征和所述低維編碼特征通過第三方面任意一項(xiàng)所述的圖像壓縮方法得到。
36、第五方面,本發(fā)明提供了一種圖像編碼器的訓(xùn)練方法,包括:
37、獲取訓(xùn)練圖像樣本;
38、拼接第一方面任意一項(xiàng)所述的圖像編碼器和第二方面任意一項(xiàng)所述的圖像解碼器,組成為完整的編解碼網(wǎng)絡(luò);
39、定義所述編解碼網(wǎng)絡(luò)的總體目標(biāo)損失函數(shù)為:
40、
41、其中,r(y;θ)示低維編特征y的比特率,r(z;θ)表示高維編碼特征z的比特率,表示原始圖像x和解碼圖像之間的失真,λ表示拉格朗日乘子,θ表示模型參數(shù);
42、訓(xùn)練時(shí),使用梯度下降法最小化總體目標(biāo)損失函數(shù)l(θ),通過優(yōu)化器自適應(yīng)調(diào)整模型參數(shù)θ,直到總體目標(biāo)損失函數(shù)的值收斂,得到訓(xùn)練好的圖像編碼器。
43、第六方面,本發(fā)明提供了一種處理器,包括:
44、第一方面任意一項(xiàng)所述的圖像編碼器,用于對(duì)原始圖像進(jìn)行壓縮編碼,得到壓縮圖像;
45、第二方面任意一項(xiàng)所述的圖像解碼器,用于對(duì)所述處理器自身的壓縮圖像或者來自其他處理器的壓縮圖像進(jìn)行解碼,得到解碼圖像。
46、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
47、圖像依次經(jīng)過低維編碼器和高維編碼器壓縮,僅保留圖像中的重要信息,極大壓縮了圖像的大小,便于大量圖像數(shù)據(jù)的存儲(chǔ)和傳輸。
48、基于卷積注意力機(jī)制在低維編碼特征上對(duì)圖像的高維特征進(jìn)行提取,可學(xué)習(xí)到圖像的重要局部信息,使得壓縮圖像具有更高效的表達(dá),在解碼時(shí)能夠高效還原原始圖像,不會(huì)缺失重要信息,不影響后續(xù)的圖像處理任務(wù)。
49、圖像壓縮同時(shí)保留了低維編碼特征和高維編碼特征,便于大量圖像數(shù)據(jù)的整理歸檔,后續(xù)可直接利用該編碼特征進(jìn)行檢索或識(shí)別等任務(wù)。
50、在編碼和解碼器中均引入縮放余弦注意力機(jī)制,能夠?qū)D像中的關(guān)鍵信息進(jìn)行差異化處理,實(shí)現(xiàn)特定應(yīng)用場(chǎng)景的優(yōu)化。
51、引入通道自回歸熵模型進(jìn)行圖像解碼,利用高維編碼特征對(duì)低維編碼特征進(jìn)行修正,得到準(zhǔn)確的低維編碼特征估計(jì),從而經(jīng)過對(duì)低維編碼特征解碼,可以高效還原始圖像。