本發(fā)明涉及實時3d字幕生成設(shè)備,尤其涉及一種基于深度感知的實時3d字幕生成方法及裝置。
背景技術(shù):
1、實時3d字幕生成裝置是一種能夠在視頻播放或直播過程中,即時生成并顯示三維效果字幕的技術(shù)設(shè)備或系統(tǒng),這種裝置結(jié)合了多種技術(shù),包括但不限于計算機圖形學(xué)、視頻處理技術(shù)、以及可能的深度感知技術(shù),以在視頻流中動態(tài)地插入、定位和渲染具有三維視覺效果的文字信息,但是在使用實時3d字幕生成方法及裝置時,一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成,缺乏動態(tài)適應(yīng)性,當視頻場景發(fā)生變化時,字幕可能容易被遮擋,影響用戶的觀看體驗。
技術(shù)實現(xiàn)思路
1、為了克服在使用實時3d字幕生成方法及裝置時,一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成,缺乏動態(tài)適應(yīng)性,當視頻場景發(fā)生變化時,字幕可能容易被遮擋,影響用戶的觀看體驗的問題。
2、本發(fā)明的技術(shù)方案為:一種基于深度感知的實時3d字幕生成方法,包括有以下步驟:
3、s11:利用深度相機捕捉視頻場景中的深度圖像,對深度圖像進行預(yù)處理,提高后續(xù)處理的準確性;
4、s12:通過語音識別軟件或api,對視頻中的音頻流進行實時分析;
5、s13:將語音識別生成的字幕與深度圖像進行融合;
6、s14:實用圖形渲染引擎將字幕以3d的形式渲染到視頻幀上;
7、s15:將渲染好的3d字幕與原始視頻幀進行融合,確保字幕與視頻內(nèi)容無縫連接;
8、s16:通過終端處理器和智能算法優(yōu)化資源分配,確保實時性能。
9、作為優(yōu)選,在對視頻中的音頻流進行識別生成時,包括有以下步驟:
10、s21:通過語音識別軟件對視頻中的音頻流進行實時分析,將語音轉(zhuǎn)換為文本,包括有聲學(xué)模型、語言模型和發(fā)音詞典的聯(lián)合使用;
11、s22:根據(jù)識別出的文本,生成字幕文本,包括調(diào)整字幕的顯示時間、格式以及布局,以確保字幕的可讀性和美觀性。
12、作為優(yōu)選,在對3d字幕進行位置定位時,包括有以下步驟:
13、s31:將語音識別生成的字幕與深度圖像進行融合,并根據(jù)深度圖像中的距離信息確定字幕的初始位置;
14、s32:通過深度感知,檢測字幕位置是否與視頻中的前景物體發(fā)生重疊或遮擋。如果發(fā)生遮擋,算法需要自動調(diào)整字幕的位置,以確保其始終清晰可見;
15、s33:隨著視頻場景的變化,字幕的位置跟隨移動或重新定位以避免遮擋。
16、優(yōu)選的,通過自動生成與視頻匹配的字幕,大大減少了人工編輯的工作量,提高了字幕的準確性和時效性,通過對3d字幕的生成,不僅提升了字幕的視覺表現(xiàn)力,還可以通過自動避免遮擋和動態(tài)調(diào)整位置等功能,提高字幕的實用性和用戶體驗。
17、作為優(yōu)選,在進行3d字幕渲染時,包括以下步驟:
18、s41:使用圖形渲染引擎將字幕以3d形式渲染到視頻幀上,包括應(yīng)用光照、陰影和材質(zhì)效果,以增強字幕的立體感和視覺沖擊力;
19、s42:根據(jù)深度圖像中的距離信息,為字幕添加透視效果,使其看起來更符合3d空間的視覺規(guī)律。
20、作為優(yōu)選,在對視頻進行融合和輸出時,包括以下步驟:
21、s51:將渲染好的3d字幕與原始視頻幀進行融合,確保字幕與視頻內(nèi)容的無縫銜接;
22、s52:將融合后的視頻幀實時輸出到顯示設(shè)備或傳輸?shù)骄W(wǎng)絡(luò)上進行直播。
23、作為優(yōu)選,在與用戶進行交互時,包括以下方面:
24、a11:用戶可以自行對字幕樣式、位置和動畫效果進行更改;
25、a12:對用戶的語音指令進行收集,通過終端處理器對語音指令進行處理。
26、一種基于深度感知的實時3d字幕生成裝置,包括有:字幕生成裝置主體、傳感組件、顯示組件和佩戴組件,字幕生成裝置主體的表面設(shè)置有傳感組件,字幕生成裝置主體的底面設(shè)置有顯示組件,字幕生成裝置主體的一側(cè)設(shè)置有佩戴組件。
27、優(yōu)選的,通過傳感組件對用戶與周圍的障礙物之間的距離進行檢測,通過顯示組件進行3d字幕生成,通過佩戴組件便于用戶對字幕生成裝置主體進行佩戴。
28、作為優(yōu)選,傳感組件包括交互顯示屏、測距傳感器和照明燈,字幕生成裝置主體的表面設(shè)置有交互顯示屏,字幕生成裝置主體的一側(cè)設(shè)置有測距傳感器,測距傳感器設(shè)置有兩組,測距傳感器的預(yù)測設(shè)置有照明燈,在使用時,通過交互顯示屏便于用戶對字幕生成裝置主體進行交互操作,通過測距傳感器對用戶與障礙物之間的距離進行檢測,通過照明燈對用戶周圍的現(xiàn)場情況進行照明。
29、作為優(yōu)選,顯示組件包括定位框、液晶展示屏和亮度傳感器,字幕生成裝置主體的底面設(shè)置有定位框,定位框的內(nèi)部設(shè)置有液晶顯示屏,定位框的內(nèi)側(cè)頂面設(shè)置有亮度傳感器,在使用時,通過定位框?qū)τ脩舻拿娌窟M行定位,通過液晶展示屏對3d字幕進行生成展示,通過亮度傳感器防止液晶展示屏過亮對用戶眼部造成刺激。
30、作為優(yōu)選,佩戴組件包括安裝支架、彈力帶和語音接收器,字幕生成裝置主體的兩側(cè)均設(shè)置有安裝支架,安裝支架的一端設(shè)置有彈力帶,安裝支架的內(nèi)側(cè)設(shè)置有語音接收器,在使用時,通過安裝支架對彈力帶進行安裝,通過彈力帶便于使用者對字幕生成裝置主體進行佩戴,通過語音接收器對用戶的語音指令進行接收。
31、本發(fā)明的有益效果:
32、1、相較于傳統(tǒng)實時3d字幕生成方法及裝置,一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成,缺乏動態(tài)適應(yīng)性,當視頻場景發(fā)生變化時,字幕可能容易被遮擋,影響用戶的觀看體驗,該實時3d字幕生成方法及裝置通過內(nèi)置特殊3d字幕位置確定方法,可以檢測字幕位置是否與視頻當前物體發(fā)生重疊或遮擋,當發(fā)生遮擋時,可以自動對字幕位置進行調(diào)整防止發(fā)生遮擋;
33、2、通過自動生成與視頻匹配的字幕,大大減少了人工編輯的工作量,提高了字幕的準確性和時效性,通過對3d字幕的生成,不僅提升了字幕的視覺表現(xiàn)力,還可以通過自動避免遮擋和動態(tài)調(diào)整位置等功能,提高字幕的實用性和用戶體驗;
34、3、通過交互顯示屏便于用戶對字幕生成裝置主體進行交互操作,通過測距傳感器對用戶與障礙物之間的距離進行檢測,通過照明燈對用戶周圍的現(xiàn)場情況進行照明,通過定位框?qū)τ脩舻拿娌窟M行定位,通過液晶展示屏對3d字幕進行生成展示,通過亮度傳感器防止液晶展示屏過亮對用戶眼部造成刺激。
1.一種基于深度感知的實時3d字幕生成方法;其特征在于:包括有以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度感知的實時3d字幕生成方法,其特征在于:在對視頻中的音頻流進行識別生成時,包括有以下步驟:
3.根據(jù)權(quán)利要求2所述的一種基于深度感知的實時3d字幕生成方法,其特征在于:在對3d字幕進行位置定位時,包括有以下步驟:
4.根據(jù)權(quán)利要求3所述的一種基于深度感知的實時3d字幕生成方法,其特征在于:在進行3d字幕渲染時,包括以下步驟:
5.根據(jù)權(quán)利要求4所述的一種基于深度感知的實時3d字幕生成方法,其特征在于:在對視頻進行融合和輸出時,包括以下步驟:
6.根據(jù)權(quán)利要求5所述的一種基于深度感知的實時3d字幕生成方法,其特征在于:在與用戶進行交互時,包括以下方面:
7.一種基于深度感知的實時3d字幕生成裝置,其特征在于:一種基于深度感知的實時3d字幕生成裝置,包括有:字幕生成裝置主體(1)、傳感組件(2)、顯示組件(3)和佩戴組件(4),字幕生成裝置主體(1)的表面設(shè)置有傳感組件(2),字幕生成裝置主體(1)的底面設(shè)置有顯示組件(3),字幕生成裝置主體(1)的一側(cè)設(shè)置有佩戴組件(4)。
8.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置,其特征在于:傳感組件(2)包括交互顯示屏(201)、測距傳感器(202)和照明燈(203),字幕生成裝置主體(1)的表面設(shè)置有交互顯示屏(201),字幕生成裝置主體(1)的一側(cè)設(shè)置有測距傳感器(202),測距傳感器(202)設(shè)置有兩組,測距傳感器(202)的預(yù)測設(shè)置有照明燈(203)。
9.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置,其特征在于:顯示組件(3)包括定位框(301)、液晶展示屏(302)和亮度傳感器(303),字幕生成裝置主體(1)的底面設(shè)置有定位框(301),定位框(301)的內(nèi)部設(shè)置有液晶顯示屏(302),定位框(301)的內(nèi)側(cè)頂面設(shè)置有亮度傳感器(303)。
10.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置,其特征在于:佩戴組件(4)包括安裝支架(401)、彈力帶(402)和語音接收器(403),字幕生成裝置主體(1)的兩側(cè)均設(shè)置有安裝支架(401),安裝支架(401)的一端設(shè)置有彈力帶(402),安裝支架(401)的內(nèi)側(cè)設(shè)置有語音接收器(403)。