本發(fā)明涉及人工智能,特別涉及一種基于擴(kuò)散模型的單視圖三維建模方法及系統(tǒng)。
背景技術(shù):
1、隨著計(jì)算機(jī)視覺和圖形學(xué)技術(shù)的不斷發(fā)展,三維建模在各個(gè)領(lǐng)域中的應(yīng)用越來越廣泛,如虛擬現(xiàn)實(shí)、游戲開發(fā)、影視制作和建筑設(shè)計(jì)等。傳統(tǒng)的三維建模方法通常依賴于專業(yè)的建模軟件和人工操作,這不僅耗時(shí)費(fèi)力,而且對(duì)操作人員的專業(yè)技能要求較高。為了提高三維建模的效率和質(zhì)量,研究人員和工程師們不斷探索新的自動(dòng)化建模方法。
2、目前,基于圖像的三維重建技術(shù)已經(jīng)取得了顯著的進(jìn)展。常見的方法包括多視圖立體視覺(multi-view?stereo,mvs)和結(jié)構(gòu)光掃描(structured?light?scanning)。這些方法通常需要多張不同視角的圖像來重建三維模型,雖然能夠生成高質(zhì)量的三維網(wǎng)格,但在實(shí)際應(yīng)用中,獲取多視角圖像的過程復(fù)雜且耗時(shí)。此外,現(xiàn)有的三維重建方法在處理稀疏視圖時(shí),往往難以保證重建結(jié)果的精度和完整性。
3、近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用取得了突破性進(jìn)展,特別是擴(kuò)散模型(diffusionmodels)和大型重建模型(large?reconstructionmodels,lrm)的出現(xiàn),為三維建模提供了新的思路。擴(kuò)散模型通過逐步去噪的過程生成高質(zhì)量的圖像,已經(jīng)在圖像生成和圖像修復(fù)等任務(wù)中表現(xiàn)出色。而基于lrm架構(gòu)的稀疏視圖重建模型則能夠在稀疏視圖條件下,利用深度學(xué)習(xí)網(wǎng)絡(luò)的強(qiáng)大表征能力,重建出高質(zhì)量的三維模型。
4、然而,現(xiàn)有的基于擴(kuò)散模型和lrm的三維建模方法仍存在一些不足之處。例如,擴(kuò)散模型在生成三維模型時(shí),通常需要大量的計(jì)算資源和時(shí)間,難以滿足實(shí)時(shí)應(yīng)用的需求;而基于lrm的稀疏視圖重建模型在處理單張圖像時(shí),重建結(jié)果的多樣性和細(xì)節(jié)表現(xiàn)仍有待提高。
技術(shù)實(shí)現(xiàn)思路
1、基于此,本技術(shù)實(shí)施例提供了一種基于擴(kuò)散模型的單視圖三維建模方法及系統(tǒng),結(jié)合現(xiàn)有多視圖擴(kuò)散模型和基于lrm架構(gòu)的稀疏視圖重建模型的優(yōu)勢(shì),提供一種能夠從單張圖像快速生成高質(zhì)量3d網(wǎng)格的前饋框架,能夠在10秒內(nèi)創(chuàng)建多樣化的3d資產(chǎn),顯著提高了三維建模的效率和質(zhì)量。
2、第一方面,提供了一種基于擴(kuò)散模型的單視圖三維建模方法,該方法包括:
3、輸入圖像:獲取單張圖像作為輸入;
4、多視圖生產(chǎn):將接收的圖像輸入到多視圖擴(kuò)散模型中,生成6個(gè)不同角度的視圖;
5、圖像令牌生成:將生成的多視圖圖像輸入到vit編碼器中,通過vit編碼器將每個(gè)視圖圖像轉(zhuǎn)換為圖像令牌;
6、三平面解碼:將圖像令牌輸入到三平面解碼器中生成三平面表示;
7、等值面提?。菏褂胒lexicubes對(duì)三平面表示進(jìn)行等值面提取將三平面表示轉(zhuǎn)換為網(wǎng)格表示;
8、3d網(wǎng)格渲染:對(duì)生成的網(wǎng)格表示進(jìn)行渲染,生成3d模型視圖。
9、可選地,獲取單張圖像作為輸入包括,還包括:
10、對(duì)圖像進(jìn)行預(yù)處理操作;其中,所述預(yù)處理操作包括縮放、裁剪和去噪。
11、可選地,將接收的圖像輸入到多視圖擴(kuò)散模型中,生成6個(gè)不同角度的視圖,具體包括:
12、多視圖擴(kuò)散模型利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)來捕捉圖像的空間結(jié)構(gòu)信息生成多個(gè)不同角度的視圖;其中,視圖對(duì)應(yīng)于固定的相機(jī)位置。
13、可選地,將生成的多視圖圖像輸入到vit編碼器中,通過vit編碼器將每個(gè)視圖圖像轉(zhuǎn)換為圖像令牌,具體包括:
14、將生成的多視圖圖像中的每個(gè)視圖都分割成固定大小的圖像塊;
15、每個(gè)圖像塊會(huì)被展平成一維向量,并經(jīng)過一個(gè)線性變換映射到相同的維度空間,并進(jìn)行位置編碼得到圖像令牌;
16、對(duì)于多視圖擴(kuò)散模型生成的每個(gè)視圖圖像,都重復(fù)圖像分塊和位置編碼過程,從而得到每個(gè)視圖的一組圖像令牌;
17、將所有視圖的圖像令牌輸入到vit編碼器中;其中,vit編碼器由多個(gè)堆疊的變換器層組成,每個(gè)變換器層都包含一個(gè)自注意力機(jī)制和一個(gè)前饋神經(jīng)網(wǎng)絡(luò);
18、經(jīng)過vit編碼器的處理,每個(gè)圖像令牌都會(huì)被更新以包含更多的上下文信息和語義特征;最后vit編碼器輸出更新后的圖像令牌。
19、可選地,將圖像令牌輸入到三平面解碼器中生成三平面表示,具體包括:
20、接收vit編碼器輸出的圖像令牌后,三平面解碼器會(huì)將這些令牌轉(zhuǎn)換為三平面表示;其中,三平面為三個(gè)正交平面。
21、可選地,使用flexicubes對(duì)三平面表示進(jìn)行等值面提取將三平面表示轉(zhuǎn)換為網(wǎng)格表示,具體包括:
22、flexicubes模塊首先接收三平面解碼器輸出的三平面表示作為輸入,并初始化一個(gè)空的128*128*128的三維網(wǎng)格;
23、在等值面提取過程中,flexicubes模塊會(huì)遍歷三平面表示中的每一個(gè)樣本點(diǎn),并計(jì)算這些點(diǎn)在三維空間中的位置,并檢查這些點(diǎn)是否滿足閾值條件;其中,閾值條件用于定義等值面的邊界;
24、當(dāng)樣本點(diǎn)滿足等值面條件時(shí),將其位置映射到初始化的三維網(wǎng)格上,并標(biāo)記該網(wǎng)格點(diǎn)屬于等值面;
25、通過等值面提取過程,在三維網(wǎng)格上形成多個(gè)等值面點(diǎn),并通過網(wǎng)格細(xì)化技術(shù)來連接這些點(diǎn),生成連續(xù)的網(wǎng)格表面;其中,網(wǎng)格細(xì)化技術(shù)包括插值和平滑。
26、第二方面,提供了一種基于擴(kuò)散模型的單視圖三維建模系統(tǒng),該系統(tǒng)包括:
27、輸入圖像模塊:用于獲取單張圖像作為輸入;
28、多視圖生產(chǎn)模塊:用于將接收的圖像輸入到多視圖擴(kuò)散模型中,生成6個(gè)不同角度的視圖;
29、圖像令牌生成模塊:用于將生成的多視圖圖像輸入到vit編碼器中,通過vit編碼器將每個(gè)視圖圖像轉(zhuǎn)換為圖像令牌;
30、三平面解碼模塊:用于將圖像令牌輸入到三平面解碼器中生成三平面表示;
31、等值面提取模塊:用于使用flexicubes對(duì)三平面表示進(jìn)行等值面提取將三平面表示轉(zhuǎn)換為網(wǎng)格表示;
32、3d網(wǎng)格渲染模塊:用于對(duì)生成的網(wǎng)格表示進(jìn)行渲染,生成3d模型視圖。
33、第三方面,提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面任一所述的單視圖三維建模方法。
34、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面任一所述的單視圖三維建模方法。
35、第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面任一所述的單視圖三維建模方法。
36、本發(fā)明通過創(chuàng)新的多視圖擴(kuò)散模型和稀疏視圖大規(guī)模重建模型,實(shí)現(xiàn)了從單張輸入圖像快速生成高質(zhì)量3d網(wǎng)格模型,具有以下顯著優(yōu)點(diǎn)和效果:
37、(1)生成速度快:本發(fā)明的整體框架能夠在大約10秒內(nèi)完成從圖像到3d模型的生成過程。相比于傳統(tǒng)的3d重建方法,本發(fā)明顯著提高了生成速度,滿足了實(shí)時(shí)性要求。
38、(2)模型質(zhì)量高:通過多視圖擴(kuò)散模型生成一致性高的多視圖圖像,結(jié)合稀疏視圖大規(guī)模重建模型和flexicubes模塊的幾何監(jiān)督,本發(fā)明生成的3d網(wǎng)格模型具有高精度和高質(zhì)量,幾何細(xì)節(jié)豐富。
39、(3)幾何細(xì)節(jié)豐富:flexicubes模塊在等值面提取過程中集成了深度和法線等幾何監(jiān)督,確保生成的3d網(wǎng)格模型具有豐富的幾何細(xì)節(jié)和準(zhǔn)確性。
40、(4)系統(tǒng)結(jié)構(gòu)優(yōu)化:本發(fā)明通過模塊化設(shè)計(jì),將多視圖生成、圖像令牌生成、三平面解碼和等值面提取等步驟有機(jī)結(jié)合,形成了高效的圖像到3d模型生成流程,簡化了操作和控制過程。
41、(5)資源節(jié)?。和ㄟ^多視圖擴(kuò)散模型生成多視圖圖像,避免了傳統(tǒng)方法中需要多次拍攝或獲取多視圖圖像的資源消耗,節(jié)省了計(jì)算資源和存儲(chǔ)空間。
42、(6)操作簡便:本發(fā)明的框架設(shè)計(jì)簡潔,用戶只需輸入單張圖像即可生成高質(zhì)量的3d網(wǎng)格模型,操作簡便,降低了使用門檻。