本發(fā)明屬于計(jì)算機(jī)與網(wǎng)絡(luò),尤指一種服裝面料替換方法及裝置。
背景技術(shù):
:1、隨著電子商務(wù)的蓬勃發(fā)展和個(gè)性化需求的日益增長(zhǎng),服裝面料替換技術(shù)成為了服裝行業(yè)的重要?jiǎng)?chuàng)新方向。它不僅能夠提供更加便捷和個(gè)性化的購(gòu)物體驗(yàn),還能夠顯著降低庫(kù)存成本和物流壓力。當(dāng)前的服裝面料替換技術(shù)可以被劃分為兩個(gè)研究方向:二維服裝圖像合成與三維服裝重建。2、在服裝面料替換過(guò)程中,衣物與人體之間的遮擋關(guān)系和邊界處理是影響替換效果真實(shí)性的關(guān)鍵因素。當(dāng)衣物的某些部分與人體發(fā)生重疊時(shí),傳統(tǒng)的二維服裝圖像合成算法往往難以準(zhǔn)確處理這種復(fù)雜的空間關(guān)系,導(dǎo)致替換效果出現(xiàn)遮擋不自然和邊界模糊的問(wèn)題。三維服裝重建方法則著重于服裝整體樣式的重建缺少對(duì)面料的紋理和陰影的遷移,往往難以達(dá)到與真實(shí)世界相媲美的效果,導(dǎo)致生成的服裝缺乏真實(shí)感,這限制了服裝面料替換技術(shù)的應(yīng)用范圍和用戶體驗(yàn)。3、個(gè)性化定制是服裝行業(yè)的重要趨勢(shì)之一。用戶希望能夠根據(jù)自己的喜好和需求,定制獨(dú)一無(wú)二的服裝。然而,現(xiàn)有的服裝面料替換技術(shù)在面料定制方法主要采用tps和基于光流的變形算法,但其生成模型缺乏自我矯正能力,例如在處理絨布、螺紋等細(xì)節(jié)時(shí)效果較差,貼圖痕跡較為明顯,無(wú)法滿足用戶對(duì)面料的顏色、圖案或紋理的高質(zhì)量需求,這限制了服裝面料替換技術(shù)的個(gè)性化定制能力。4、綜上,現(xiàn)有服裝面料替換技術(shù)難以基于定制面料對(duì)服裝圖像進(jìn)行個(gè)性化生成的同時(shí)保留整體性樣式特征和局部紋理細(xì)節(jié)。技術(shù)實(shí)現(xiàn)思路1、為了解決現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出的一種服裝面料替換方法及裝置。2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:3、一方面,本發(fā)明提供了一種服裝面料替換方法,包括以下步驟:4、s1:對(duì)數(shù)據(jù)庫(kù)中的服裝圖像數(shù)據(jù)進(jìn)行灰度計(jì)算獲取灰度圖,并利用mosaic方法分別對(duì)rgb圖像數(shù)據(jù)與灰度圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),再經(jīng)過(guò)圖像預(yù)處理后一起輸入到c-transunet網(wǎng)絡(luò)中,同時(shí)獲取用戶輸入的模特服裝圖與面料圖;5、s2:通過(guò)建立基于c-transunet的語(yǔ)義分割網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)模特服裝圖像的精準(zhǔn)分割,c-transunet網(wǎng)絡(luò)模型由卷積層,淺層特征融合(sff)模塊,融合視覺(jué)transformer網(wǎng)絡(luò)(fvit)和解碼器模塊組成,其中,卷積層和淺層特征融合(sff)模塊用于提取和融合淺層特征,fvit網(wǎng)絡(luò)來(lái)學(xué)習(xí)高類間可分離性和低類內(nèi)多樣性的跨通道深層次表征,解碼器模塊以更高精度恢復(fù)輸入圖像的空間信息;6、s3:利用二元交叉熵?fù)p失函數(shù)來(lái)對(duì)s2中網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,進(jìn)一步提高對(duì)服裝圖像中衣服的分割性能,并保存訓(xùn)練完成的模型權(quán)重;7、s4:加載所述s3中訓(xùn)練完成的模型權(quán)重與網(wǎng)絡(luò)結(jié)構(gòu),將用戶輸入的模特服裝圖輸入到訓(xùn)練好的c-transunet中以獲得服裝圖像中衣服的mask圖;8、s5:設(shè)計(jì)shared?attention?stable?diffusion(sa-sd)模型對(duì)輸入的圖像采用擴(kuò)散算子q進(jìn)行擴(kuò)散操作,再通過(guò)應(yīng)用單個(gè)反向算子pθ以完成一步擴(kuò)散操作,通過(guò)多次的連續(xù)擴(kuò)散操作實(shí)現(xiàn)用戶輸入面料圖的四方連續(xù)生成;9、s6:利用attention-enhanced?thin?plate?spline(a-tps)算法在保持面料細(xì)節(jié)的同時(shí)實(shí)現(xiàn)面料風(fēng)格遷移,基于服裝圖像的mask圖將用戶輸入的個(gè)性化面料遷移到模特服裝圖上,實(shí)現(xiàn)更真實(shí)的面料和陰影效果;10、s7:根據(jù)服裝圖像的mask圖對(duì)遷移后的模特服裝圖模糊邊緣利用sa-sd模型進(jìn)行邊緣修復(fù),輸出完成面料風(fēng)格遷移與邊緣修復(fù)后的服裝模特圖像。11、可選地,所述步驟s1中對(duì)服裝圖像進(jìn)行mosaic數(shù)據(jù)增強(qiáng)的具體操作步驟為:12、s11:從服裝圖像數(shù)據(jù)集中隨機(jī)讀取四張服裝圖像;13、s12:分別對(duì)四張圖像進(jìn)行反轉(zhuǎn)(對(duì)原始圖像進(jìn)行左右的翻轉(zhuǎn))、縮放(對(duì)原始圖像進(jìn)行大小的縮放)、色域變化(對(duì)原始圖像的明亮度、飽和度、色調(diào)進(jìn)行改變)操作;14、s13:將所述s12中變換后的四張圖像拼接在一起,位置順序?yàn)榈谝粡垐D像擺放在左上,第二張圖像擺放在左下,第三張圖像擺放在右下,第四張圖像擺放在右上;15、s14:完成四張圖像的擺放后,通過(guò)矩陣方式截取固定區(qū)域,并將其拼接成一張新的圖像,這張新圖像保留了原始數(shù)據(jù)的特征和分布。在拼接過(guò)程中,有時(shí)會(huì)出現(xiàn)圖像重疊覆蓋的現(xiàn)象,即圖像超出兩張圖像之間的邊緣(人工設(shè)置的分割線),這部分圖像在數(shù)據(jù)增強(qiáng)處理后會(huì)被刪除。通過(guò)mosaic數(shù)據(jù)增強(qiáng)對(duì)輸入的服裝圖像進(jìn)行預(yù)處理,處理后的圖像將包含更豐富的服裝背景和面料細(xì)節(jié),同時(shí)使容易檢測(cè)的服裝目標(biāo)相對(duì)縮小。在批次歸一化層(bn)中進(jìn)行歸一化計(jì)算時(shí),可以同時(shí)計(jì)算四張圖像的數(shù)據(jù),從而提高算法的魯棒性。16、可選地,步驟s2中所述的基于c-transunet的語(yǔ)義分割網(wǎng)絡(luò)中卷積層與淺層特征融合(sff)模塊為:17、分別用x∈rh×w×3和y∈rh×w×1表示rgb圖像及其相應(yīng)的灰度圖像數(shù)據(jù)(dsm圖像),其中h和w是輸入的高度和寬度,rgb圖像是三個(gè)通道,而dsm圖像數(shù)據(jù)是一個(gè)通道。所提出的c-transunet采用雙分支的架構(gòu),設(shè)計(jì)雙分支編碼器,首先使用一個(gè)分支從dsm模態(tài)中提取多尺度特征,該編碼器的每個(gè)分支由四個(gè)卷積層組成。其中,大小為的下采樣特征圖由第i個(gè)編碼器層生成,i是cnn編碼器的層索引。接下來(lái),將卷積運(yùn)算提取的灰度模態(tài)淺層特征利用sff模塊融合到主模態(tài)(即rgb)的特征中,并將融合后的特征輸入到下一個(gè)rgb圖像編碼器分支之前。具體地,對(duì)于輸入第i個(gè)sff模塊的rgb和dsm淺層特征其輸入通道大小為ci,分別通過(guò)兩個(gè)內(nèi)核大小為1×1的全局平均池(global?avgpool)操作進(jìn)行特征壓縮以聚合全局信息,并采用relu和sigmoid函數(shù)進(jìn)行激活,再對(duì)rgb和dsm的特征進(jìn)行加權(quán)與逐元素相加,生成最終的融合淺層特征。最后,通過(guò)利用跳躍連接將sff模塊的輸出直接饋送到相應(yīng)的解碼器層中,該解碼器層旨在恢復(fù)詳細(xì)的本地和上下文信息。18、可選地,步驟s2中所述的基于c-transunet的語(yǔ)義分割網(wǎng)絡(luò)中fvit網(wǎng)絡(luò)為:19、對(duì)于給定的xi和yi分別表示尺寸為的rgb和dsm特征圖,其中i和ci分別代表在cnn主干網(wǎng)中最后一層的層索引和輸出通道的大小。首先使用兩個(gè)線性層和一個(gè)重塑操作對(duì)xi和yi進(jìn)行向量化(tokenized),具體地,線性層將輸入的通道大小從ci更改為chid,重塑操作將線性層的輸出展平為兩個(gè)二維序列,分別記為與大小為chid×l,其中是序列長(zhǎng)度;再將特定的位置編碼添加到和中以保留位置信息并輸入到fvit中。20、融合視覺(jué)transformer網(wǎng)絡(luò)(fvit)編碼器的輸入依次經(jīng)過(guò)三個(gè)階段,包括用于深層特征增強(qiáng)的第一階段動(dòng)態(tài)注意力層(d-sa)、用于深層特征融合的第二階段自適應(yīng)交叉融合注意力層(ada-cfa)和用于融合特征增強(qiáng)的第三階段d-sa層,層數(shù)分別為3、6和3。分別用和表示rgb分支和dsm分支中第n層的隱藏特征,其中n∈(1,2,…,12)。值得注意的是,該過(guò)程在整個(gè)fvit中將特征圖的維度保留為chid×l。具體來(lái)說(shuō),d-sa層由兩個(gè)動(dòng)態(tài)注意力模塊(d-sa)、兩個(gè)多層感知器模塊(mlp)和層歸一化(ln)層組成。對(duì)于給定由和表示的多模態(tài)特征輸入,d-sa層被設(shè)計(jì)為使用多頭動(dòng)態(tài)注意力機(jī)制導(dǎo)出每種模態(tài)的全局關(guān)系。21、在第一階段的d-sa層執(zhí)行深層特征增強(qiáng)之后,fvit進(jìn)一步使用第二階段ada-cfa層將抽象語(yǔ)義空間中的多模態(tài)特征與豐富的上下文信息融合。在這個(gè)深層特征融合階段,ada-cfa模塊中同時(shí)計(jì)算交叉注意力(ca)和自注意力(sa),以學(xué)習(xí)主要模態(tài)rgb和輔助模態(tài)dsm之間的相關(guān)性。22、最后,融合的特征圖通過(guò)第三階段的d-sa層得到增強(qiáng)。具體計(jì)算流程與第一階段中相同,以分別增強(qiáng)rgb分支和dsm分支的融合特征圖。-fvit的最終輸出表示為是從最后一個(gè)d-sa層導(dǎo)出的特征圖?;谒岢龅膄vit,從多模態(tài)數(shù)據(jù)中提取豐富的上下文信息在被饋送到級(jí)聯(lián)解碼器之前被深度融合。23、可選地,所述步驟s2中基于c-transunet的語(yǔ)義分割網(wǎng)絡(luò)中解碼器為:24、解碼器通過(guò)利用多個(gè)上采樣模塊來(lái)恢復(fù)最終分割過(guò)程的隱藏融合特征,解碼器首先使用重建模塊將2-d輸入序列zn重塑為大小為的3-d張量,其中cdec是輸入解碼器中第一個(gè)塊的通道數(shù)。之后,多個(gè)級(jí)聯(lián)解碼器塊通過(guò)連接來(lái)自相應(yīng)cnn主干層的跳躍連接將空間分辨率恢復(fù)為h×w,每個(gè)解碼器塊由上采樣算子、卷積(conv)層和relu層組成,最后,分割頭執(zhí)行最終的語(yǔ)義預(yù)測(cè)。25、可選地,所述步驟s3中二元交叉熵?fù)p失函數(shù)計(jì)算公式為:26、27、式中,m表示分類類別的數(shù)量,yic為符號(hào)函數(shù),當(dāng)樣本i的真實(shí)類別等于類別c時(shí)則取1反之則為0,pic為觀測(cè)樣本i屬于類別c的預(yù)測(cè)概率值;通過(guò)利用二元交叉熵?fù)p失函數(shù)來(lái)計(jì)算c-transunet網(wǎng)絡(luò)模型的總損失,并利用反向傳播算法和梯度下降算法來(lái)對(duì)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行更新和優(yōu)化,網(wǎng)絡(luò)訓(xùn)練目的是最小化網(wǎng)絡(luò)總損失函數(shù)。28、可選地,所述步驟s5中,shared?attention?stable?diffusion(sa-sd)模型為:29、現(xiàn)有的文生圖擴(kuò)散模型中主要采用u-net架構(gòu),由卷積層和轉(zhuǎn)換器注意塊組成;深層圖像特征通過(guò)這些自注意力層相互關(guān)注,并通過(guò)交叉注意力層關(guān)注上下文文本嵌入;對(duì)自注意力層進(jìn)行修改,使深層特征通過(guò)相互自注意來(lái)進(jìn)行更新,首先,通過(guò)一個(gè)線性層將特征投影到查詢鍵和值中,然后,利用如下公式計(jì)算注意力:30、31、式中,dk是q和k的維度。直觀地說(shuō),每個(gè)圖像特征由v加權(quán)和更新,其中權(quán)重取決于投影查詢q和鍵k之間的相關(guān)性,實(shí)際上,每個(gè)自注意力層包含多個(gè)注意力頭,然后通過(guò)連接多個(gè)注意力頭的輸出并將其投影回圖像特征空間dh來(lái)計(jì)算殘差:32、33、本發(fā)明方法的目標(biāo)是生成一組圖像其中與一組輸入文本提示對(duì)齊y1,y2…,yn并彼此有著一致的風(fēng)格詮釋,即它們彼此風(fēng)格一致,并且與頂部的輸入文本風(fēng)格一致。傳統(tǒng)生成不同內(nèi)容的風(fēng)格對(duì)齊圖像集方法是在文本提示中使用相同的風(fēng)格描述,本發(fā)明的方法則是通過(guò)在生成的圖像之間共享注意力層并允許它們互相通信來(lái)實(shí)現(xiàn)。然而,本發(fā)明注意到,通過(guò)啟用充分的注意力共享可能會(huì)損害生成集的質(zhì)量,導(dǎo)致圖像之間的內(nèi)容泄漏。為了限制內(nèi)容泄漏并允許共享不同的集合,重新規(guī)定深層圖像特征只關(guān)注生成集合中的一個(gè)圖像(通常是批中的第一個(gè))。也就是說(shuō),目標(biāo)圖像特征僅關(guān)注其自身以及集合中一個(gè)參考圖像的特征。然而,由于僅關(guān)注集合中的一個(gè)圖像會(huì)造成從參照?qǐng)D像到目標(biāo)圖像的注意力流動(dòng)較少,導(dǎo)致不同圖像的樣式不太一致。34、為了實(shí)現(xiàn)注意力參考的平衡,本發(fā)明設(shè)計(jì)一種自適應(yīng)歸一化操作(adain),使用參照?qǐng)D像的查詢qr和關(guān)鍵字kr來(lái)歸一化目標(biāo)圖像的查詢qt和關(guān)鍵字kt,從而計(jì)算相應(yīng)的共享注意力,以應(yīng)對(duì)上述挑戰(zhàn)。35、可選地,所述步驟s6中attention-enhanced?thin?plate?spline算法為:36、通過(guò)統(tǒng)一模型最小化變換能量來(lái)近似圖像風(fēng)格的遷移:37、ε=εt+λεd38、39、式中,ε表示預(yù)期變換的總能量。(xrec,yrec)和分別表示源域s和目標(biāo)域t中的點(diǎn),εt表示數(shù)據(jù)懲罰能量,εd表示失真能量。上述具有最低總能量的公式是所需的變換,其中設(shè)計(jì)超參數(shù)λ來(lái)平衡數(shù)據(jù)懲罰和失真之間的能量。40、由于tps變換允許在給定相應(yīng)圖像中的兩組控制點(diǎn)的情況下,以最小的失真將一幅圖像遷移到另一幅圖像上,且提供了更復(fù)雜靈活的和非線性的表示,但存在容易忽略圖像細(xì)節(jié)的問(wèn)題。為此,本發(fā)明提出利用基于注意力增強(qiáng)的tps變換(a-tps)來(lái)實(shí)現(xiàn)端到端無(wú)監(jiān)督的高質(zhì)量面料風(fēng)格遷移。41、a-tps通過(guò)合并注意力分?jǐn)?shù)為tps帶來(lái)了額外的靈活性,通過(guò)在執(zhí)行轉(zhuǎn)換時(shí)對(duì)控制點(diǎn)進(jìn)行內(nèi)容感知與自適應(yīng)加權(quán),產(chǎn)生更自然的校正。由于校正和識(shí)別是聯(lián)合優(yōu)化的,這種靈活性能夠更好的引導(dǎo)參數(shù)更新以實(shí)現(xiàn)高質(zhì)量的風(fēng)格遷移。42、可選地,所述步驟s7中利用shared?attention?stable?diffusion進(jìn)行邊緣修復(fù)的方法為:43、s71:輸入已經(jīng)完成面料遷移但需要修復(fù)的服裝模特圖像及其衣服mask圖;44、s72:通過(guò)透明度疊加的方式以提取圖像中的邊緣區(qū)域,并生成初步的邊緣掩碼;45、s73:根據(jù)邊緣掩碼生成需要修復(fù)的區(qū)域掩碼,確保這些區(qū)域包含邊緣及其周圍需要平滑和修復(fù)的部分;46、s74:將面料遷移后的服裝模特圖像和修復(fù)區(qū)域掩碼作為sa-sd模型的輸入數(shù)據(jù);47、s75:將輸入數(shù)據(jù)輸入到sa-sd模型中進(jìn)行邊緣修復(fù)以生成修復(fù)后的圖像,實(shí)現(xiàn)對(duì)邊緣區(qū)域的填補(bǔ)和平滑,使其與周圍區(qū)域自然過(guò)渡;48、s76:提取修復(fù)后的圖像,利用透明度疊加的方式將修復(fù)后的邊緣區(qū)域與原始圖像相結(jié)合,形成最終的修復(fù)圖像。49、另一方面本發(fā)明還提供一種服裝面料替換裝置,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器運(yùn)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于shared?attention?stable?diffusion與c-transunet網(wǎng)絡(luò)的服裝面料方法的步驟。50、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:51、對(duì)數(shù)據(jù)庫(kù)中的服裝圖像數(shù)據(jù)計(jì)算灰度圖并進(jìn)行mosaic數(shù)據(jù)增強(qiáng);然后將增強(qiáng)后的rgb圖像數(shù)據(jù)與灰度圖像數(shù)據(jù)輸入到基于卷積和transformer的u形網(wǎng)絡(luò)(c-transunet)中,以學(xué)習(xí)和融合多尺度的淺層和深層特征;再采用二元交叉熵?fù)p失函數(shù)對(duì)模型參數(shù)進(jìn)行實(shí)時(shí)更新和優(yōu)化,從而使模型能夠?qū)崿F(xiàn)局部紋理細(xì)節(jié)和全局語(yǔ)義的精準(zhǔn)分割;再次,將用戶輸入的模特服裝圖輸入到訓(xùn)練好的c-transunet中以獲得服裝圖像的mask;接下來(lái),通過(guò)重新設(shè)計(jì)的shared?attention?stable?diffusion(sa-sd)對(duì)用戶輸入的個(gè)性化面料圖進(jìn)行四方連續(xù)生成,以保持與用戶輸入的模特服裝圖一致的大??;隨后,利用attention-enhancedthin?plate?spline(a-tps)算法在保持面料細(xì)節(jié)的同時(shí)實(shí)現(xiàn)面料風(fēng)格遷移,以在模特服裝圖上實(shí)現(xiàn)更真實(shí)的面料和陰影效果;最后,根據(jù)服裝圖像的mask圖對(duì)遷移后的模特服裝圖邊緣利用sa-sd進(jìn)行邊緣修復(fù),以減少邊緣模糊和遮擋的問(wèn)題。52、本發(fā)明通過(guò)創(chuàng)新的服裝面料替換方法,顯著提升了服裝圖像的真實(shí)感和個(gè)性化定制的質(zhì)量,同時(shí)優(yōu)化了用戶體驗(yàn),降低了庫(kù)存和物流成本,并通過(guò)高效的圖像分割和邊緣修復(fù)技術(shù),提高了系統(tǒng)的魯棒性和圖像的清晰度,從而為服裝行業(yè)帶來(lái)了成本效益和市場(chǎng)競(jìng)爭(zhēng)力的提升。當(dāng)前第1頁(yè)12