專利名稱:基于增強現(xiàn)實技術(shù)的視頻播放方法、系統(tǒng)及移動終端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動增強現(xiàn)實領(lǐng)域,尤其涉及基于增強現(xiàn)實技術(shù)的視頻播放方法、系統(tǒng)及移動終端。
背景技術(shù):
背景技術(shù)一移動增強現(xiàn)實(Mobile Augmented Reality),即基于移動終端的增強現(xiàn)實,是增強現(xiàn)實(AR)技術(shù)與移動計算相結(jié)合而產(chǎn)生的研究方向,是近年來人機交互領(lǐng)域備受關(guān)注的熱點之一。移動增強現(xiàn)實具有傳統(tǒng)增強現(xiàn)實的本質(zhì),即在真實環(huán)境呈現(xiàn)的場景中,借助與
計算機圖形技術(shù)和可視化技術(shù),將虛擬信息實時“無縫”與之融合,利用虛擬信息對真實場景進行補充、增強;同時與移動終端平臺的結(jié)合,可以最大限度的發(fā)揮增強現(xiàn)實技術(shù)“可移動性”的特點,給予用戶完全區(qū)別于傳統(tǒng)PC平臺的全新的感知體驗和交互模式。然而現(xiàn)有的增強現(xiàn)實系統(tǒng),主要是將虛擬三維模型直接疊加到真實場景中,運用范圍有限。
背景技術(shù):
二 現(xiàn)有移動終端視頻播放方式,基本都是通過普通的視頻播放軟件播放,例如當(dāng)用戶需要在手機上觀看從網(wǎng)絡(luò)搜索來的視頻,只能在網(wǎng)絡(luò)上搜索到該視頻后,用普通播放軟件播放該視頻。傳統(tǒng)的視頻播放方式較為陳舊,沒有新意,不能給予用戶區(qū)別于傳統(tǒng)PC平臺的感知體驗和交互模式。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于增強現(xiàn)實技術(shù)的視頻播放方法、系統(tǒng)及移動終端,擴寬增效現(xiàn)實技術(shù)運用范圍的同時,解決了傳統(tǒng)視頻播放方式陳舊,無新意的問題,能將報刊雜志等平面媒體上的圖片信息,通過本系統(tǒng)轉(zhuǎn)化為視頻信息,視頻與圖片在空間位置上完全貼合,使用戶獲得“寓情于景”的全新視聽體驗。為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種基于增強現(xiàn)實技術(shù)的視頻播放方法,包括根據(jù)攝像機捕獲的當(dāng)前場景圖像,在圖像數(shù)據(jù)庫中搜索與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件;對所述樣本圖像對應(yīng)的視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列和音頻數(shù)據(jù);對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣;并根據(jù)所述單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型;將所述視頻各幀圖像序列中的視頻幀圖像作為紋理逐幀映射到所述3D模型上,進行圖形渲染;
將攝像機捕獲的當(dāng)前場景圖像與渲染的3D模型融合輸出顯示,并同步輸出所述音頻數(shù)據(jù)。優(yōu)選的,所述對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣,可以為實時連續(xù)地對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣。優(yōu)選的,所述對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣,還可以為對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),得到初始單應(yīng)性矩陣;根據(jù)圖像配準(zhǔn)成功的圖像特征點、初始單應(yīng)性矩陣及攝像機實時捕獲的當(dāng)前場景圖像,對目標(biāo)圖片進行光流跟蹤,由跟蹤算法得到單應(yīng)性矩陣。優(yōu)選的,在對目標(biāo)圖片進行光流跟蹤時,所述方法還包括判斷對目標(biāo)圖片進行光流跟蹤是否跟丟,當(dāng)跟蹤丟失時,再次對攝像機捕獲的當(dāng)前場景圖像進行特征點檢測與圖像配準(zhǔn)。優(yōu)選的,所述根據(jù)攝像機捕獲的當(dāng)前場景圖像,在圖像數(shù)據(jù)庫中搜索與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件,進一步包括攝像機捕獲包含目標(biāo)圖片的當(dāng)前場景圖像;對攝像機捕獲的當(dāng)前場景圖像進行特征檢測,提取出圖像特征點,并對圖像特征點進行特征描述,得到整幅圖像的特征描述數(shù)據(jù);根據(jù)當(dāng)前場景圖像的特征描述數(shù)據(jù),在圖像數(shù)據(jù)庫中進行圖像搜索,得到與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件。相應(yīng)的,本發(fā)明還提供了一種基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng),包括攝像模塊、圖像特征提取模塊、圖像搜索模塊、圖像配準(zhǔn)模塊、音視頻分離及解碼模塊、圖像渲染模塊、音視頻輸出模塊,其中攝像模塊,用于捕獲包含目標(biāo)圖片的當(dāng)前場景圖像;圖像特征提取模塊,對攝像模塊捕獲的當(dāng)前場景圖像進行特征點檢測及提取,并生成特征點描述,得到當(dāng)前場景圖像的特征描述數(shù)據(jù);圖像搜索模塊,接收來自所述圖像特征提取模塊的當(dāng)前場景圖像的特征描述數(shù)據(jù),在圖像數(shù)據(jù)庫中進行搜索,將匹配成功的樣本圖像的特征描述數(shù)據(jù)傳遞給圖像配準(zhǔn)模塊,同時將匹配成功的樣本圖像對應(yīng)的視頻資源的UR I傳遞給音視頻分離及解碼模塊;圖像配準(zhǔn)模塊,根據(jù)圖像搜索模塊返回的樣本圖像的特征描述數(shù)據(jù)及圖像特征提取模塊產(chǎn)生的當(dāng)前場景圖像的特征描述數(shù)據(jù),對攝像模塊捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),得到單應(yīng)性矩陣;音視頻分離及解碼模塊,根據(jù)圖像搜索模塊得到的視頻資源的UR I,找到對應(yīng)的視頻文件,并對所述視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列和音頻數(shù)據(jù);將所述視頻各幀圖像序列傳遞給圖形渲染模塊,將所述音頻數(shù)據(jù)傳遞給音視頻輸出模塊;圖形渲染模塊,根據(jù)圖像配準(zhǔn)模塊計算出的單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型,并將音視頻分離及解碼模塊提取出來的視頻各幀圖像作為紋理逐幀映射到所述3D模型上,完成圖形渲染;
音視頻輸出模塊,將攝像機模塊捕獲的當(dāng)前場景圖像與圖形渲染模塊渲染的3D模型融合輸出顯示,并同步輸出音頻數(shù)據(jù)。優(yōu)選的,所述圖像配準(zhǔn)模塊實時連續(xù)地對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像模塊的姿態(tài),得到單應(yīng)性矩陣。優(yōu)選的,所述系統(tǒng)還包括連接在所述圖像配準(zhǔn)模塊與圖像渲染模塊之間的跟蹤模塊,所述跟蹤模塊還與攝像模塊相連,所述跟蹤模塊在攝像模塊捕獲的當(dāng)前場景圖像中的目標(biāo)圖片匹配樣本圖片成功后,對攝像模塊捕獲的當(dāng)前場景圖像中的目標(biāo)圖片進行光流跟蹤,計算單應(yīng)性矩陣。優(yōu)選的,所述跟蹤模塊還用于目標(biāo)圖片跟蹤丟失時,指令圖像特征提取模塊對攝
像機捕獲的當(dāng)前場景圖像再次進行特征點檢測,并指令圖像配準(zhǔn)模塊再次進行圖像配準(zhǔn)。相應(yīng)的,本發(fā)明還提供了一種移動終端,所述移動終端包括上述的基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果I、能將視頻疊加到真實場景中,如能將報刊雜志等平面媒體上的圖片信息,通過本系統(tǒng)轉(zhuǎn)化為視頻信息,視頻與圖片在空間位置上完全貼合,使用戶獲得“寓情于景”的全新視聽體驗;2、能提供精確快速的視頻推送服務(wù);3、提供移動互聯(lián)網(wǎng)用戶一種全新的交互模式,具有科幻色彩的視聽效果。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖圖I為本發(fā)明實施例I中基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本發(fā)明實施例2中基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)的結(jié)構(gòu)示意圖;圖3為本發(fā)明實施例3中基于增強現(xiàn)實技術(shù)的視頻播放方法流程圖;圖4為本發(fā)明實施例4中基于增強現(xiàn)實技術(shù)的視頻播放方法流程圖;圖5為本發(fā)明實施例效果示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明為增效現(xiàn)實技術(shù)的擴展應(yīng)用,主要解決傳統(tǒng)視頻播放方式陳舊,無新意的問題,能將報刊雜志等平面媒體上的圖片信息,通過本系統(tǒng)轉(zhuǎn)化為視頻信息,視頻與圖片在空間位置上完全貼合,使用戶獲得“寓情于景”的全新視聽體驗,因此本發(fā)明的技術(shù)核心為如何將視頻“疊加”到真實場景中某一圖像區(qū)域。
下面結(jié)合附圖,詳細描述本發(fā)明各實施例。實施例I參見圖1,為本發(fā)明實施例I中基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)的結(jié)構(gòu)示意圖,該視頻播放系統(tǒng),包括攝像模塊I (攝像模塊包括移動終端中的攝像機)、圖像特征提取模塊2、圖像搜索模塊3、圖像配準(zhǔn)模塊4、音視頻分離及解碼模塊5、圖像渲染模塊6、音視頻輸出模塊7,其中所述攝像模塊I用于捕獲包含目標(biāo)圖片的當(dāng)前場景圖像,其分別與圖像特征提取模塊2和音視頻輸出模塊7相連,將捕獲的圖像傳給圖像特征提取模塊2用于特征提取,同時將捕獲的圖像傳遞給音視頻輸出模塊7用于融合輸出顯示。所述圖像特征提取模塊2,對攝像模塊I捕獲的當(dāng)前場景圖像進行特征點檢測及提取,并生成特征點描述,得到當(dāng)前場景圖像的特征描述數(shù)據(jù),并將其傳遞給圖像搜索模塊3。所述圖像搜索模塊3,接收到來自所述圖像特征提取模塊2傳來的當(dāng)前場景圖像的特征描述數(shù)據(jù),在服務(wù)器端的圖像數(shù)據(jù)庫中搜索與其匹配的樣本圖像,并將匹配成功的樣本圖像的特征描述數(shù)據(jù)傳遞給圖像配準(zhǔn)模塊4,同時將匹配成功的樣本圖像對應(yīng)的視頻資源的URI傳遞給音視頻分離及解碼模塊5。所述圖像配準(zhǔn)模塊4,根據(jù)圖像搜索模塊3返回的樣本圖像的特征描述數(shù)據(jù)及圖像特征提取模塊2產(chǎn)生的當(dāng)前場景圖像的特征描述數(shù)據(jù),實時連續(xù)地對攝像模塊捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像模塊的姿態(tài),得到單應(yīng)性矩陣,并將單應(yīng)性矩陣傳遞給圖形渲染模塊6。所述音視頻分離及解碼模塊7,根據(jù)圖像搜索模塊3得到的視頻資源的URI,找到對應(yīng)的視頻文件(攝像機捕獲圖像的相關(guān)視頻),并對所述視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列(視頻流)和音頻數(shù)據(jù)(音頻流);對視頻各幀圖像序列(視頻流)逐一提取視頻各幀的圖像傳遞給圖形渲染模塊6,同時將所述音頻數(shù)據(jù)傳遞給音視頻輸出模塊7。所述圖形渲染模塊6,根據(jù)圖像配準(zhǔn)模塊4計算出的單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型,并將音視頻分離及解碼模塊提取出來的視頻各幀圖像作為紋理逐幀映射到所述3D模型上,并實時更新,完成圖形渲染;所述與目標(biāo)圖片完全覆蓋包括與目標(biāo)圖片重合,例如當(dāng)目標(biāo)圖片為長方形時,可繪制出完全與目標(biāo)圖片重合的長方形平面3D模型,而當(dāng)目標(biāo)圖片為非矩形形狀時,則繪制出完全覆蓋該目標(biāo)圖片的矩形平面3D模型。所述音視頻輸出模塊7,將攝像機模塊I捕獲的當(dāng)前場景圖像與圖形渲染模塊6渲染生成的3D模型融合輸出顯示,并同步輸出音頻數(shù)據(jù)。音頻數(shù)據(jù)和視頻幀圖像能夠?qū)崿F(xiàn)同步,需要在視頻文件分離為視頻流和音頻流之后,對兩者進行數(shù)據(jù)包分割。其中,視頻數(shù)據(jù)包根據(jù)其時間戳按照先后順序組成鏈表,形成一個有序隊列,分別對每個數(shù)據(jù)包進行解碼并提取其中的圖像,則得到視頻每一幀的圖像序列,用時間戳控制圖像序列的輸出。圖形渲染模塊則將視頻幀圖像作為紋理映射到3D模型上時,由于輸出圖像隨時間有序變化,3D模型的紋理也隨之變化,完成視頻的播放。此外,音頻流也被分為數(shù)據(jù)包,以視頻數(shù)據(jù)包的時間戳為基準(zhǔn),調(diào)整音頻數(shù)據(jù)包的輸出,使音視頻同步輸出。在本實施例中,在一次視頻播放的過程中,圖像搜索模塊3原則上只進行一次攝像模塊捕獲圖像與樣本圖像的成功匹配搜索,找到樣本圖像和樣本圖像對應(yīng)的視頻資源;而攝像模塊I始終持續(xù)不斷地進行場景圖像的捕獲,圖像特征提取模塊2也一直在對攝像模塊所捕獲的場景圖像進行特征提取,圖像配準(zhǔn)模塊4則是實時連續(xù)地對攝像模塊I捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像模塊實時姿態(tài),連續(xù)不斷的得到對應(yīng)攝像模塊I實時姿態(tài)的單應(yīng)性矩陣,因此本實施例系統(tǒng)對攝像模塊捕獲的每幀圖片都要做特征檢測與配準(zhǔn),可能實際使用時會稍微影響速度。參見圖5,為本實施例視頻疊加的效果示意圖,攝像模塊捕獲的當(dāng)前場景圖像即圖5中攝像機捕獲的真實場景圖像,在圖5示例中,真實場景圖像中包含的目標(biāo)圖片為長方形圖片,通過本實施例系統(tǒng),繪制出與目標(biāo)圖片位置重合的3D模型,將搜索到的與目標(biāo)圖片
相關(guān)的視頻文件分離解碼后,從分離出來視頻幀圖像序列中提取出視頻各幀圖像,并將其作為紋理逐幀映射到長方形平面3D模型上,并實時更新,完成圖形渲染,實現(xiàn)將視頻疊加到真實場景中的目標(biāo)圖片上,同時根據(jù)視頻圖像的渲染進度同步輸出從視頻文件中分離出來的音頻數(shù)據(jù)。實施例2參見圖2,為本發(fā)明實施例2中基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)的結(jié)構(gòu)示意圖,本實施例中視頻播放系統(tǒng)在圖I (實施例I)的基礎(chǔ)上增加了一個跟蹤模塊8,所述跟蹤模塊8連接在所述圖像配準(zhǔn)模塊4與圖像渲染模塊6之間,在本實施例中,圖像配準(zhǔn)模塊4所計算出的單應(yīng)性矩陣為初始單應(yīng)性矩陣。所述跟蹤模塊8還與攝像模塊I相連,其在攝像模塊I捕獲的當(dāng)前場景圖像中的目標(biāo)圖片匹配樣本圖片成功后,則停止特征檢測(即圖像特征提取模塊2停止對攝像模塊I捕獲圖像進行特征點提取),而對攝像模塊I捕獲的當(dāng)前場景圖像中的目標(biāo)圖片進行光流跟蹤,由跟蹤算法得到單應(yīng)性矩陣。光流是空間運動物體在觀察成像平面上的像素運動的瞬時速度,是利用圖像序列中像素在時域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當(dāng)前幀之間存在的對應(yīng)關(guān)系,從而計算出相鄰幀之間目標(biāo)物體的運動信息。本實施例中,圖像配準(zhǔn)模塊4將計算出的初始單應(yīng)性矩陣及需要跟蹤的特征點傳遞給跟蹤模塊8,同時跟蹤模塊8實時接收攝像模塊I捕獲的當(dāng)前場景圖像,進行跟蹤計算。所述需要跟蹤的特征點指圖像搜索過程中,配準(zhǔn)圖片成功的特征點。為了防止跟蹤丟失,優(yōu)選的,所述跟蹤模塊8還用于目標(biāo)圖片跟蹤丟失時,指令圖像特征提取模塊對攝像機捕獲的當(dāng)前場景圖像再次進行特征點檢測,并指令圖像配準(zhǔn)模塊再次進行圖像配準(zhǔn),以實現(xiàn)從新跟蹤。判斷跟蹤丟失的條件可以為對跟蹤成功的點重新計算其匹配度,并進行計數(shù),當(dāng)匹配良好的點的數(shù)量在閾值以下時(閾值范圍一般范圍5 20,優(yōu)選為10),則判斷跟蹤丟失。本實施例在加入跟蹤模塊8之后,由于不需要每幀都做特征檢測與配準(zhǔn),相對于實施例I中系統(tǒng)速度有所提升,且能夠避免配準(zhǔn)過程中單應(yīng)性矩陣計算結(jié)果的微小偏差帶來的抖動,在視覺效果上,疊加的3D模型更加穩(wěn)定。實施例3參見圖3,為本發(fā)明實施例3中基于增強現(xiàn)實技術(shù)的視頻播放方法流程圖,本實施例基于增強現(xiàn)實技術(shù)的視頻播放方法,包括如下步驟SlOl :捕捉場景圖像,即攝像機捕獲當(dāng)前場景圖像;S102:提取圖像特征點,即對攝像機捕獲的圖像進行特征檢測,提取出圖像特征點,對圖像特征點進行特征描述,得到特征點的描述向量,進而得到整幅圖像的特征描述數(shù)據(jù);S103 :圖像搜索,即根據(jù)攝像機捕獲圖像的特征描述數(shù)據(jù),在服務(wù)器端的圖像數(shù)據(jù)庫中進行搜索,得到與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件(此處得到對應(yīng)視頻文件可以理解為得到視頻資源標(biāo)識符);S104:圖像配準(zhǔn),即根據(jù)圖像搜索結(jié)果返回的樣本圖像的特征數(shù)據(jù),實時連續(xù)地進
行攝像機捕獲圖像與樣本圖像的配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣,并根據(jù)所述單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型;S105 :音頻、視頻分離,即將步驟S103中得到的視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列和音頻數(shù)據(jù)(當(dāng)步驟S103中搜索到的為視頻資源標(biāo)注符,則首先根據(jù)視頻資源的標(biāo)識符找到相關(guān)視頻,然后對視頻進行音視頻分離和解碼),其中視頻各幀圖像序列也稱為視頻流;S106 :獲取視頻巾貞圖像,即對視頻流逐一提取視頻各巾貞的圖像;S107 :將S106中提取的視頻幀圖像作為紋理逐幀映射到所述3D模型上,實時刷新,進行圖形渲染;S108 :將攝像機捕獲的當(dāng)前場景圖像與渲染的3D模型融合輸出顯示,并同步進行S109步驟;S109:同步輸出所述音頻數(shù)據(jù),進行音頻與視頻的同步播放,實現(xiàn)將視頻“疊加”到真實場景中某一圖像區(qū)域。本發(fā)明實施例的效果,同樣可參看圖5,由于實施例I中對圖5進行了詳細說明,此處不贅述。本實施例中,步驟S101、S102、S104在整個視頻播放過程中,均連續(xù)不斷的進行,而步驟S103在一次視頻播放的過程中,原則上只進行一次攝像模塊捕獲圖像與樣本圖像的成功匹配搜索,找到樣本圖像和樣本圖像對應(yīng)的視頻資源后即不再重復(fù)搜索。實施例4參見圖4,為本發(fā)明實施例4中基于增強現(xiàn)實技術(shù)的視頻播放方法流程圖,本實施例中視頻播放方法在圖3 (實施例3)的基礎(chǔ)上增加了目標(biāo)圖片跟蹤步驟S1041及跟蹤丟失判斷步驟S1042(參見圖4),其中S1041 目標(biāo)跟蹤,即在步驟S104圖像配準(zhǔn)成功時,則停止特征檢測(即停止步驟S102),而對目標(biāo)圖片進行光流跟蹤,由跟蹤算法得到單應(yīng)性矩陣,在增加了跟蹤步驟S1041以后,步驟S104得到的單應(yīng)性矩陣為初始單應(yīng)性矩陣,初始單應(yīng)性矩陣不用于直接繪制3D模型,而用于目標(biāo)圖片跟蹤時,結(jié)合需要跟蹤的特征點及攝像機實時捕獲的當(dāng)前場景圖像,對目標(biāo)圖片進行光流跟蹤,由跟蹤算法得到單應(yīng)性矩陣。所述需要跟蹤的特征點指圖像搜索過程中,配準(zhǔn)圖片成功的特征點。步驟S1042,跟蹤丟失判斷,判斷跟蹤丟失的條件可以為對跟蹤成功的點重新計算其匹配度,并進行計數(shù),當(dāng)匹配良好的點的數(shù)量在閾值以下時(閾值范圍一般范圍5 20,優(yōu)選為10),則判斷跟蹤丟失。當(dāng)判斷出跟蹤丟失時,再次重復(fù)S102、S104進行特征檢測與圖像配準(zhǔn),然后繼續(xù)進行S1041步驟進行目標(biāo)圖片跟蹤(步驟S103同實施例3中相同,一次視頻播放過程原則上只進行一次搜索)。本實施例在加入跟蹤步驟之后,由于不需要每幀都做特征檢測與配準(zhǔn),相對于實施例3中方法速度有所提升,且能夠避免配準(zhǔn)過程中單應(yīng)性矩陣計算結(jié)果的微小偏差帶來的抖動,在視覺效果上,疊加的3D模型更加穩(wěn)定。本發(fā)明除了上述的視頻播放系統(tǒng)和方法,還提供了一種移動終端,所述移動終端中包括上述基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)。用戶拿著這樣的移動終端,能輕松將報刊雜志等平面媒體上的圖片信息,轉(zhuǎn)化為視頻信息,視頻與圖片在空間位置上完全貼合,使用戶獲得“寓情于景”的全新視聽體驗。同時報刊雜志等紙面媒體也可以借助本發(fā)明技術(shù)實現(xiàn)信息的多元化傳播,提供精確快速的視頻推送服務(wù)。本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥
的特征和/或步驟以外,均可以以任何方式組合。本說明書(包括任何附加權(quán)利要求、摘要和附圖)中公開的任一特征,除非特別敘述,均可被其他等效或具有類似目的的替代特征加以替換。即,除非特別敘述,每個特征只是一系列等效或類似特征中的一個例子而已。本發(fā)明并不局限于前述的具體實施方式
。本發(fā)明擴展到任何在本說明書中披露的新特征或任何新的組合,以及披露的任一新的方法或過程的步驟或任何新的組合。
權(quán)利要求
1.基于增強現(xiàn)實技術(shù)的視頻播放方法,其特征在于,包括 根據(jù)攝像機捕獲的當(dāng)前場景圖像,在圖像數(shù)據(jù)庫中搜索與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件; 對所述樣本圖像對應(yīng)的視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列和音頻數(shù)據(jù); 對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣;并根據(jù)所述單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型; 將所述視頻各幀圖像序列中的視頻幀圖像作為紋理逐幀映射到所述3D模型上,進行圖形渲染; 將攝像機捕獲的當(dāng)前場景圖像與渲染的3D模型融合輸出顯示,并同步輸出所述音頻數(shù)據(jù)。
2.如權(quán)利要求I所述的方法,其特征在于,所述對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣,包括 實時連續(xù)地對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣。
3.如權(quán)利要求I所述的方法,其特征在于,所述對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像機的姿態(tài),得到單應(yīng)性矩陣,包括 對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),得到初始單應(yīng)性矩陣; 根據(jù)圖像配準(zhǔn)成功的圖像特征點、初始單應(yīng)性矩陣及攝像機實時捕獲的當(dāng)前場景圖像,對目標(biāo)圖片進行光流跟蹤,由跟蹤算法得到單應(yīng)性矩陣。
4.如權(quán)利要求3所述的方法,其特征在于,所述方法還包括判斷對目標(biāo)圖片進行光流跟蹤是否跟丟,當(dāng)跟蹤丟失時,再次對攝像機捕獲的當(dāng)前場景圖像進行特征點檢測與圖像配準(zhǔn)。
5.如權(quán)利要求I至4中任一項所述的方法,其特征在于,所述根據(jù)攝像機捕獲的當(dāng)前場景圖像,在圖像數(shù)據(jù)庫中搜索與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件,進一步包括 攝像機捕獲包含目標(biāo)圖片的當(dāng)前場景圖像; 對攝像機捕獲的當(dāng)前場景圖像進行特征檢測,提取出圖像特征點,并對圖像特征點進行特征描述,得到整幅圖像的特征描述數(shù)據(jù); 根據(jù)當(dāng)前場景圖像的特征描述數(shù)據(jù),在圖像數(shù)據(jù)庫中進行圖像搜索,得到與當(dāng)前場景圖像中的目標(biāo)圖片匹配的樣本圖像及與所述樣本圖像對應(yīng)的視頻文件。
6.基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng),其特征在于,包括攝像模塊、圖像特征提取模塊、圖像搜索模塊、圖像配準(zhǔn)模塊、音視頻分離及解碼模塊、圖像渲染模塊、音視頻輸出模塊,其中 攝像模塊,用于捕獲包含目標(biāo)圖片的當(dāng)前場景圖像; 圖像特征提取模塊,對攝像模塊捕獲的當(dāng)前場景圖像進行特征點檢測及提取,并生成特征點描述,得到當(dāng)前場景圖像的特征描述數(shù)據(jù); 圖像搜索模塊,接收來自所述圖像特征提取模塊的當(dāng)前場景圖像的特征描述數(shù)據(jù),在圖像數(shù)據(jù)庫中進行搜索,將匹配成功的樣本圖像的特征描述數(shù)據(jù)傳遞給圖像配準(zhǔn)模塊,同時將匹配成功的樣本圖像對應(yīng)的視頻資源的UR I傳遞給音視頻分離及解碼模塊; 圖像配準(zhǔn)模塊,根據(jù)圖像搜索模塊返回的樣本圖像的特征描述數(shù)據(jù)及圖像特征提取模塊產(chǎn)生的當(dāng)前場景圖像的特征描述數(shù)據(jù),對攝像模塊捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),得到單應(yīng)性矩陣; 音視頻分離及解碼模塊,根據(jù)圖像搜索模塊得到的視頻資源的UR I,找到對應(yīng)的視頻文件,并對所述視頻文件進行音視頻分離和解碼,得到視頻各幀圖像序列和音頻數(shù)據(jù);將所述視頻各幀圖像序列傳遞給圖形渲染模塊,將所述音頻數(shù)據(jù)傳遞給音視頻輸出模塊; 圖形渲染模塊,根據(jù)圖像配準(zhǔn)模塊計算出的單應(yīng)性矩陣,繪制出能將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型,并將音視頻分離及解碼模塊提取出來的視頻各幀圖像作為紋理逐幀映射到所述3D模型上,完成圖形渲染; 音視頻輸出模塊,將攝像機模塊捕獲的當(dāng)前場景圖像與圖形渲染模塊渲染的3D模型融合輸出顯示,并同步輸出音頻數(shù)據(jù)。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述圖像配準(zhǔn)模塊實時連續(xù)地對攝像機捕獲的當(dāng)前場景圖像和樣本圖像進行配準(zhǔn),計算攝像模塊的姿態(tài),得到單應(yīng)性矩陣。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括連接在所述圖像配準(zhǔn)模塊與圖像渲染模塊之間的跟蹤模塊,所述跟蹤模塊還與攝像模塊相連,所述跟蹤模塊在攝像模塊捕獲的當(dāng)前場景圖像中的目標(biāo)圖片匹配樣本圖片成功后,對攝像模塊捕獲的當(dāng)前場景圖像中的目標(biāo)圖片進行光流跟蹤,計算單應(yīng)性矩陣。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述跟蹤模塊還用于目標(biāo)圖片跟蹤丟失時,指令圖像特征提取模塊對攝像機捕獲的當(dāng)前場景圖像再次進行特征點檢測,并指令圖像配準(zhǔn)模塊再次進行圖像配準(zhǔn)。
10.一種移動終端,其特征在于,所述移動終端包括權(quán)利要求6至9中任一項所述的基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)。
全文摘要
本發(fā)明公開了一種基于增強現(xiàn)實技術(shù)的視頻播放方法,結(jié)合增強現(xiàn)實技術(shù),繪制將當(dāng)前場景圖像中的目標(biāo)圖片完全覆蓋的矩形平面3D模型,同時將目標(biāo)圖片相關(guān)的視頻文件分離為音頻流和視頻流之后,將視頻流中的視頻幀圖像作為紋理逐幀映射到3D模型上,進行圖形渲染;最后將攝像機捕獲的場景圖像與渲染的3D模型融合輸出,同步輸出音頻流數(shù)據(jù),相應(yīng)的,本發(fā)明還公開了一種基于增強現(xiàn)實技術(shù)的視頻播放系統(tǒng)及移動終端,能輕松將報刊雜志等平面媒體上的圖片信息轉(zhuǎn)化為視頻信息,視頻與圖片在空間位置上完全貼合,使用戶獲得“寓情于景”的全新視聽體驗;報刊雜志等紙面媒體也可以借助本發(fā)明技術(shù)實現(xiàn)信息的多元化傳播,提供精確快速的視頻推送服務(wù)。
文檔編號H04N21/439GK102821323SQ20121027148
公開日2012年12月12日 申請日期2012年8月1日 優(yōu)先權(quán)日2012年8月1日
發(fā)明者柳寅秋, 李薪宇, 宋海濤 申請人:成都理想境界科技有限公司