專利名稱:根據(jù)多視角視頻流生成全景視頻的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機視頻拼接,尤其涉及一種根據(jù)多視角視頻流生成全景視 頻的方法。
技術(shù)背景視頻在信息的表達中起著非常重要的作用,隨著信息技術(shù)的發(fā)展,有關(guān)視 頻圖像的研究和應(yīng)用也迅速發(fā)展起來,如視頻會議、可視電話、視頻監(jiān)控和虛 擬現(xiàn)實等。但是,目前由于單一攝像頭視野范圍有限,用戶不能同時觀看不同 角度的自己感興趣的場景,無法滿足個性化要求?;趫D像繪制的全景圖[1][2](Panoramic Image)就是把離散的圖像信息在一幅圖像上完整地表現(xiàn)出來。 全景圖的出現(xiàn),克服了觀眾被動觀察固定視角的限制,但是全景圖像表達的是 一種靜態(tài)的場景,承載的信息量有限。全景視頻(Panoramic Video)是指在不同時刻采集的全景圖序列,其承載的信 息量非常豐富,可以實時地表現(xiàn)變化的場景。文獻[3]采用全景視頻在視頻會議 中進行人物的跟蹤和識別,文獻[4]采用全景視頻進行運動物體的檢測,文獻[5] 將全景視頻應(yīng)用到視頻監(jiān)控中。文獻[3][4][5]都采用二次凸面鏡和一個攝像機組 合,通過用攝像機拍攝凸面鏡上的反射圖像,將圖像通過變換生成360度柱面 全景視頻。但是這種方法必須采用昂貴的專業(yè)視頻采集設(shè)備,而且全景圖是有 一張圖像變換得到的,因此分辨率明顯不如傳統(tǒng)拼接而成的全景圖像。并且越 靠近曲面反射圖像的中心點,圖像的變形越大,矯正的效果越差。 附參考文獻[1] [l]BROWN M, LOWE D G. Recognising panoramas[C]. International Conference onComputer Vision,2003:1218-1225 [2] [2]吳飛,肖鴻開,趙勇等.大視場視頻全景圖生成研究[J].浙江大學(xué)學(xué)報工學(xué)版,2006,40(3):395-398[3] [3]STIEFELHANGE R, CHEN X, YANG J. Capturing Interactions in Meetings w他Omnidirectional Cameras[J]. International Journal of Distance EducationTechnologies,2005,3(3):32-45 [4] [4]YAMAZAWA K, YOKOYA N. Detecting moving objects from omnidirectional dynamicimages based on adaptive background subtraction[C]. International Conference on ImageProcessing,2003(3): 953-956 [5] [5]WANG M L, HUANG C C, LIN H Y. An Intelligent Surveillance System Based on anOmnidirectional Vision Sensor[C]. Proceedings of the IEEE International Conference onCybernetics & Intelligent Systems,2006:245-250
發(fā)明內(nèi)容
本發(fā)明的目的是提供了一種根據(jù)多視角視頻流生成全景視頻的方法。根據(jù)多視角視頻流生成全景視頻的方法,包括如下步驟1 )采用多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集;2) 將各個視頻流中的同步幀都一一對應(yīng)起來;3) 通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正;4) 對一組同步的視頻幀進行全景拼接,計算出各幀的拼接參數(shù);5) 將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀,再將同步的每一組幀進 行拼接,得到由全景幀組成的全景視頻。多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集每個攝像頭在水 平面上以近似同一個圓心向四周不同方向拍攝,任意相鄰兩個攝像頭的視角都 有重疊區(qū)域,并且所有攝像頭的總覆蓋區(qū)域在水平方向超過360度。通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正對各個攝像機分別建 立標(biāo)定模型,計算出內(nèi)外參數(shù),來矯正恢復(fù)由鏡頭成像所帶來的畸變,輸出矯 正后的幀序列。將各個視頻流中的同步幀都一一對應(yīng)起來在每個視頻幀采集時都在相應(yīng) 音頻軌道寫入一個時間戳,通過這些時間戳將各個視頻流中屬于同一時刻的幀 都一一對應(yīng)起來。對一組同步的視頻幀進行全景拼接的方法,包括如下步驟1) 對相鄰的兩個攝像頭采集的同步對應(yīng)幀進行圖像配準(zhǔn);2) 將配準(zhǔn)后的圖像進行再投影;3) 投影后圖像的拼接和平滑。將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀各攝像頭均固定焦距和相 關(guān)光學(xué)參數(shù),彼此之間位置固定,視頻的融合區(qū)和成像區(qū)域為常數(shù),每一幀的 縫合合成函數(shù)也相同,拼接參數(shù)不變。對相鄰的兩個攝像頭采集的同步對應(yīng)幀進行圖像配準(zhǔn)的方法,包括如下步驟1) 幾何學(xué)配準(zhǔn)采用基于頻域仿射參數(shù)的光流方程方法,通過曲線特征點之間的對應(yīng)求得視 圖之間的幾何變換參數(shù);2) 光度學(xué)配準(zhǔn)利用一個從幾何配準(zhǔn)的輸入圖像估計光度模型參數(shù)。再投影將得到的反映各自投影平面的圖像映射到一個圓柱投影面上。
基于頻域仿射參數(shù)的光流方程方法,包括如下步驟1) 使用一個快速的基于頻域的方法來得到仿射模型2) 利用光流的方法在仿射模型的基礎(chǔ)上得到投影模型 本發(fā)明所述的根據(jù)多視角視頻流生成全景視頻的方法具有如下特點1. 該方法成本較低,組裝方便,易于擴展;2. 適合戶外采集,能達到較高的分辨率;3. 畫面扭曲很少,而且可以實時拼接。
圖1是全景視頻采集設(shè)備制作原理圖; 圖2是光度配準(zhǔn)前后圖像的對比圖; 圖3是再投影至圓柱流形上的拼接渲染示意圖; 圖4是顯示單個攝像頭采集狀況的操作界面示例圖; 圖5是同步對應(yīng)相鄰兩個攝像頭的視頻幀的操作界面示例圖; 圖6是拼接好的一個全景幀的示例圖。 圖7是全景視頻的瀏覽播放器原理示意圖。 圖8是多視角視頻流生成全景視頻的系統(tǒng)流程圖。 圖9是自制的全景視頻采集設(shè)備實物圖。 圖IO是全景視頻采集設(shè)備的使用方案示例圖。
具體實施方式
本發(fā)明的根據(jù)多視角視頻流生成全景視頻的步驟如下1. 采用多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集,如圖1所 示。每個攝像頭的相對位置都是固定的,并且在水平面上以近似同一個圓心向 四周不同方向拍攝,保證任意相鄰兩個攝像頭的視角都有足夠多的重疊區(qū)域,并且所有攝像頭的總覆蓋區(qū)域在水平方向超過360度,各攝像頭采取串聯(lián)的方式連接,以保證在采集視頻時的同步。2. 將各個視頻流中的同步幀都一一對應(yīng)起來。在每個視頻幀采集時都在相 應(yīng)音頻軌道寫入一個時間戳,通過這些時間戳將各個視頻流中屬于同一時刻的 幀都一一對應(yīng)起來。3. 通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正。攝像機先從不同方 向拍攝一個平面模板(作為標(biāo)定物)的多幅圖像,對于每個視點獲得圖像,提取圖 像上的網(wǎng)格角點;平面模板與圖像間的網(wǎng)格角點對應(yīng)關(guān)系,確定了單應(yīng)性矩陣 (Homography);那么對每幅圖像,就可確定一個單應(yīng)性矩陣,這樣就能夠進行攝像機標(biāo)定。i)建立攝像機模型。依照針孔模型, 一個三維世界點似=[義r z]7,投影到成像面上點表示w-[x _yf。 lf表示Mm的齊次坐 標(biāo)。根據(jù)針孔成像模型,三維世界點M和投影到成像面上點w的關(guān)系為<formula>formula see original document page 7</formula>其中s是任意的比例因子,[w f]為外部參數(shù),取決于歐氏攝像機坐標(biāo)系相對于歐氏世界坐標(biāo)系的方位。旋轉(zhuǎn)矩陣R表達了坐標(biāo)軸的3個基本旋轉(zhuǎn),即繞 軸x、 y和z的旋轉(zhuǎn),被分別稱為掃描(pan)、俯仰(tilt)和滾動(roll)。平移 矢量t給出了世界坐標(biāo)系的原點相對于攝像機坐標(biāo)系的3個平移基本量。^為內(nèi) 參數(shù)矩陣,("。,v。)是中心點的坐標(biāo),"是"軸的比例因子,^是v軸的比例因子, c代表"軸和v軸的傾斜程度。2)建立透鏡畸變模型。由于透鏡不是一個平面,世界點因此并不投影到平面 上而是球面上,這就導(dǎo)致直線在圖像上映射為拋物線,所以要考慮攝像機的透 鏡畸變?;兛捎梦鍌€系數(shù)來描述&、 ^和、三個放射畸變系數(shù);A和A兩個 切向畸變系數(shù)。設(shè)",力是理想的成像面坐標(biāo),",v)是理想的像素坐標(biāo),@,"是畸變的像素坐標(biāo),貝IJ:<formula>formula see original document page 7</formula>其中,=jc2 +少2 。3)進行攝像機標(biāo)定。假設(shè)有"幅關(guān)于平面模板的圖像,模板平面上有M個標(biāo) 定點,那么設(shè)定評價函數(shù)如下n m ii / 、|2C = gg I,-附(4 & , & , & , A , / 2 , i ,, /, , M7 J其中 為第y個點在第/幅圖像中的像點,《為第/幅圖像旋轉(zhuǎn)矩陣,,'為第z幅圖像的平移向量,A為第7個點的空間坐標(biāo),4^HA,P2,H乜)是通過這些已知量求得的像點坐標(biāo)。使評價函數(shù)最小的AmA,^,《,,',^就是這個問題的最優(yōu)解。利用Levenberg-Marquarat算法來求解這個非線性最小二乘問題,初始估計利用線性求解的結(jié)果。H^A,^初始值假定為o。
4.對一組同步的視頻幀進行全景拼接,計算出各幀的拼接參數(shù)。 1)對相鄰的兩個攝像頭采集的同步對應(yīng)幀進行圖像配準(zhǔn),包括幾何學(xué)配準(zhǔn) 和光度學(xué)配準(zhǔn)。幾何學(xué)配準(zhǔn)釆用先使用基于頻域分析的方法來得到仿射模型,再進而根據(jù) 需要,利用光流的方法在仿射模型的基礎(chǔ)上得到投影模型;光度學(xué)配準(zhǔn)利用一個從幾何配準(zhǔn)的輸入圖像估計光度模型參數(shù)。將光度模型 分為RGB三個通道進行單獨處理。在每一個通道里,兩幅圖像之間的變化通過 一個線性變換模型來描述,共有兩個參數(shù)乘性因子a,加性因子P 。那么一 幅圖像可以表示為三向量的矩陣變換<formula>formula see original document page 8</formula>該模型總共需要6個參數(shù),己經(jīng)足以描述光度變化問題。在大多數(shù)情況下, 上式中的加性因子可以忽略,而且可以將圖像看作灰度圖像,那么我們得到以 下線性模型M," = "http://i,"同樣我們假設(shè)兩幅圖像是經(jīng)過對準(zhǔn)的,那么比例因子a可以用兩幅圖像的 均值比得到-<formula>formula see original document page 8</formula>其中,M是圖像A, B的變換矩陣,y是校正系數(shù),于是圖像被映射為<formula>formula see original document page 8</formula>圖2是光度學(xué)配準(zhǔn)的一個效果示例。2)將配準(zhǔn)后的圖像進行再投影。由于不同攝像機的圖像之間存在視差,不 能直接用于拼接。對圖像進行圓柱投影可以減少圖像之間的視差,圓柱投影如 圖4所示。設(shè)(X,Y,Z)是以相機為中心的坐標(biāo)系上的點,將其投影到流形上的某 一點(9 ,v):當(dāng)相機運動是單純旋轉(zhuǎn)時,圖像n上的2D齊次點x=( x,y,l)投影為相機坐標(biāo)系 上的一束光線X=(X,Y,Z) : ^J, 》,<formula>formula see original document page 8</formula>其中Kn是第n部相機的標(biāo)定矩陣,Rn是相對于參考視圖的第n部相機的旋轉(zhuǎn)矩 陣。這些方程的組合就可以獲得圖像坐標(biāo)系上的點(x,y)和流形坐標(biāo)系上的點 (e ,v)的一一對應(yīng)。3)投影后圖像的拼接和平滑。由于圖像間幾何校正和光度學(xué)校正的誤差, 并且存在視差,使得圖像間存在拼接裂縫,因此我們必須采用平滑策略消除全 景視頻中的拼接裂縫。對于簡單的場景我們采用簡單圖像平滑策略,在兩幅圖的重疊區(qū)域,我們 將兩幀圖的象素值按一定的權(quán)值合成到新圖。如果圖像J和圖像/'在區(qū)間重疊, 那么合成的新圖像/'在這個區(qū)間上點的取值如下<formula>formula see original document page 9</formula>對于復(fù)雜的場景采用多分辨率圖像平滑策略,首先求得拼接后圖像的重合 區(qū)域在兩幀圖像上的對應(yīng)部分,記為圖像x, s。以這兩幅公共部分圖像的尺寸 生成一幅二值圖像,記為o,令其在縫合線兩側(cè)的像素分別填充為黑色和白色,我們稱這幅圖像O為權(quán)重圖像。合成后的圖像記為C。得到C的具體步驟如下a) 分別建立圖像^和S的拉普拉斯金字塔,記為LA, LB;b) 建立權(quán)重圖像O的高斯金字塔GO;C)對于金字塔的每一層,合成圖像C在該層上的相應(yīng)圖像iC按照如下公式 求得<formula>formula see original document page 9</formula> 其中,Z為金字塔階數(shù),(U')為像素坐標(biāo);d)將拉普拉斯金字塔工c各層圖像累加,求得圖像C。在縫合線的周圍,不同的頻段采用不同寬度的平滑帶。在高頻部分,也就 是圖像變化較為尖銳的部分,平滑帶窄一些,而在頻率較低的部分,也就是圖 像變化較為緩和的部分,平滑帶寬一些。5.將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀,再將同步的每一組幀進 行拼接,得到由全景幀組成的全景視頻。由于各攝像頭均固定焦距和相關(guān)光學(xué) 參數(shù),彼此之間位置固定,視頻的融合區(qū)和成像區(qū)域為常數(shù),每一幀的縫合合 成函數(shù)也相同,因此可以保持拼接參數(shù)不變,這樣就能極大的提高拼接效率。如圖8所示是步驟1到步驟5的整個流程圖。因為各攝像頭均固定相對位 置和光學(xué)參數(shù),所以拼接參數(shù)只需要計算一次,其他幀直接應(yīng)用計算好的拼接 參數(shù)來進行拼接。 實施例如圖4、 5、 6所示,本方法和系統(tǒng)在情景式虛擬旅游系統(tǒng)中的應(yīng)用,在虛 擬旅游中需要采集各主要線路上的全景視頻,對視頻的分辨率有較高要求并且 要能適應(yīng)戶外采集,以前的全景視頻方法很難滿足這些條件,下面詳細說明該 實例實施的具體步驟,如下 (1) 采用六個攝像頭對不同視角方向進行全方位覆蓋的視頻采集。圖9所示 是自制的全景視頻采集設(shè)備實物圖。每個攝像頭的相對位置都是固定的,并且 在水平面上以近似同一個圓心向四周不同方向拍攝,攝像頭水平視角范圍約為 80度,相鄰攝像頭夾角約為60度,各攝像頭釆取串聯(lián)的方式連接,以保證在釆 集視頻時的同步。實際采集中將制作好的設(shè)備固定在汽車的頂部,即可以在行 駛中采集周圍環(huán)境的全景視頻數(shù)據(jù),如圖10所示。采集好的原始數(shù)據(jù)為6個獨 立的視頻文件。(2) 通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正。各個攝像頭先從不 同方向拍攝一個平面模板(作為標(biāo)定物)的多幅圖像,對于每個視點獲得圖像,提 取圖像上的網(wǎng)格角點;平面模板與圖像間的網(wǎng)格角點對應(yīng)關(guān)系,確定了單應(yīng)性 矩陣;那么對每幅圖像,就可確定一個單應(yīng)性矩陣,這樣就能夠進行攝像機標(biāo) 定。如圖4所示,將各個攝像頭的參數(shù)進行標(biāo)定保存后,再分別讀入每個攝像 頭采集到的視頻數(shù)據(jù),利用標(biāo)定參數(shù)對視頻中的每一幀進行矯正。(3) 將各個視頻流中的同步幀都一一對應(yīng)起來。在每個視頻幀采集時都在相 應(yīng)音頻軌道寫入一個時間戳,通過這些時間戳將各個視頻流中屬于同一時刻的 幀都一一對應(yīng)起來,如圖5所示中的"時序?qū)R"按鈕完成此項功能。(4) 對一組同步的視頻幀進行全景拼接,計算出各幀的拼接參數(shù)。首先對相 鄰的視頻幀進行配準(zhǔn),如圖5所示,顯示的是兩個相鄰攝像頭采集到的浙江大 學(xué)校區(qū)內(nèi)的某個場景,計算出全部6個相鄰視頻幀之間的幾何配準(zhǔn)參數(shù)和光度 配準(zhǔn)參數(shù)后,再將六張圖像統(tǒng)一重投影到一個柱面上,將柱面拉伸為一個平面, 即得到一個初步拼接的全景視頻幀,如圖6所示,最后再采用平滑策略消除全 景視頻幀中的拼接裂縫和重影部分。(5) 將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀,也就是自動對六個視頻 中每一組同步的幀都進行步驟(4)中的全景拼接,得到由全景幀組成的全景視頻。 如圖7所示,將全景視頻的每一幀映射到一個柱面上,人的視點在圓柱正中間, 這樣就可以360度全方位的進行交互瀏覽,達到較好的沉浸感。上述描述只是為了說明和描述根據(jù)多視角視頻流生成全景視頻的方法和系 統(tǒng)。它不是詳盡的描述,也不將本發(fā)明限制為所說明和描述的形式,顯然,許 多修改和變化也是可以的。對所屬技術(shù)領(lǐng)域的專業(yè)人員顯而易見的修改和變化 也包括在附帶的權(quán)利要求所定義的本發(fā)明的范圍內(nèi)。
權(quán)利要求
1. 一種根據(jù)多視角視頻流生成全景視頻的方法,其特征在于它包括如下步驟1) 采用多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集;2) 將各個視頻流中的同步幀都一一對應(yīng)起來;3) 通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正;4) 對一組同步的視頻幀進行全景拼接,計算出各幀的拼接參數(shù);5) 將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀,再將同步的每一組幀進 行拼接,得到由全景幀組成的全景視頻。
2. 根據(jù)權(quán)利要求1所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集每個攝 像頭在水平面上以同一個圓心向四周不同方向拍攝,任意相鄰兩個攝像頭的視 角都有重疊區(qū)域,并且所有攝像頭的總覆蓋區(qū)域在水平方向超過360度。
3. 根據(jù)權(quán)利要求1所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正對各個攝像 機分別建立標(biāo)定模型,計算出內(nèi)外參數(shù),來矯正恢復(fù)由鏡頭成像所帶來的畸變, 輸出矯正后的幀序列。
4. 根據(jù)權(quán)利要求1所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的將各個視頻流中的同步幀都一一對應(yīng)起來在每個視頻幀采集時 都在相應(yīng)音頻軌道寫入一個時間戳,通過這些時間戳將各個視頻流中屬于同一 時刻的幀都一一對應(yīng)起來。
5. 根據(jù)權(quán)利要求1所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的對一組同步的視頻幀進行全景拼接的方法,包括如下步驟1 )對相鄰的兩個攝像頭采集的同步對應(yīng)幀進行圖像配準(zhǔn);2) 將配準(zhǔn)后的圖像進行再投影;3) 投影后圖像的拼接和平滑。
6. 根據(jù)權(quán)利要求1所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的將計算的拼接參數(shù)應(yīng)用到各視頻流中的每一幀各攝像頭均固定 焦距和相關(guān)光學(xué)參數(shù),彼此之間位置固定,視頻的融合區(qū)和成像區(qū)域為常數(shù), 每一幀的縫合合成函數(shù)也相同,拼接參數(shù)不變。
7. 根據(jù)權(quán)利要求5所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的對相鄰的兩個攝像頭采集的同步對應(yīng)幀進行圖像配準(zhǔn)的方法,包 括如下歩驟1) 幾何學(xué)配準(zhǔn)釆用基于頻域仿射參數(shù)的光流方程方法,通過曲線特征點之間的對應(yīng)求得視 圖之間的幾何變換參數(shù);2) 光度學(xué)配準(zhǔn)利用一個從幾何配準(zhǔn)的輸入圖像估計光度模型參數(shù)。
8. 根據(jù)權(quán)利要求5由述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的再投影將得到的反映各自投影平面的圖像映射到一個圓柱投影面上。
9. 根據(jù)權(quán)利要求7所述的一種根據(jù)多視角視頻流生成全景視頻的方法,其特 征在于,所述的基于頻域仿射參數(shù)的光流方程方法,包括如下步驟1) 使用一個快速的基于頻域的方法來得到仿射模型;2) 利用光流的方法在仿射模型的基礎(chǔ)上得到投影模型。
全文摘要
本發(fā)明公開了一種根據(jù)多視角視頻流生成全景視頻的方法。包括如下步驟1)采用多個攝像頭對不同視角方向進行全方位覆蓋的視頻采集;2)將各個視頻流中的同步幀都一一對應(yīng)起來;3)通過攝像機標(biāo)定的方法對各個視頻流分別進行矯正;4)對一組同步的視頻幀進行全景拼接,計算出各幀的拼接參數(shù);5)將拼接參數(shù)應(yīng)用到各視頻流中的每一幀進行拼接,得到由全景幀組成的全景視頻。本發(fā)明的有益效果是比目前的利用凹面鏡或凸透鏡對光線會聚還原生成全景視頻的方法更經(jīng)濟適用,并能避免畫面扭曲失真、不適應(yīng)于運動時拍攝等缺點。
文檔編號H04N9/09GK101146231SQ20071006977
公開日2008年3月19日 申請日期2007年7月3日 優(yōu)先權(quán)日2007年7月3日
發(fā)明者飛 吳, 琤 姚, 莊越挺, 翁建廣, 銘 陳 申請人:浙江大學(xué)