一種基于深度感知的實時3D字幕生成方法及裝置

文檔序號：40076440發(fā)布日期：2024-11-27 11:17閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及實時3d字幕生成設(shè)備，尤其涉及一種基于深度感知的實時3d字幕生成方法及裝置。

背景技術(shù)：

1、實時3d字幕生成裝置是一種能夠在視頻播放或直播過程中，即時生成并顯示三維效果字幕的技術(shù)設(shè)備或系統(tǒng)，這種裝置結(jié)合了多種技術(shù)，包括但不限于計算機圖形學(xué)、視頻處理技術(shù)、以及可能的深度感知技術(shù)，以在視頻流中動態(tài)地插入、定位和渲染具有三維視覺效果的文字信息，但是在使用實時3d字幕生成方法及裝置時，一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成，缺乏動態(tài)適應(yīng)性，當視頻場景發(fā)生變化時，字幕可能容易被遮擋，影響用戶的觀看體驗。

技術(shù)實現(xiàn)思路

1、為了克服在使用實時3d字幕生成方法及裝置時，一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成，缺乏動態(tài)適應(yīng)性，當視頻場景發(fā)生變化時，字幕可能容易被遮擋，影響用戶的觀看體驗的問題。

2、本發(fā)明的技術(shù)方案為：一種基于深度感知的實時3d字幕生成方法，包括有以下步驟：

3、s11:利用深度相機捕捉視頻場景中的深度圖像，對深度圖像進行預(yù)處理，提高后續(xù)處理的準確性；

4、s12:通過語音識別軟件或api，對視頻中的音頻流進行實時分析；

5、s13:將語音識別生成的字幕與深度圖像進行融合；

6、s14:實用圖形渲染引擎將字幕以3d的形式渲染到視頻幀上；

7、s15:將渲染好的3d字幕與原始視頻幀進行融合，確保字幕與視頻內(nèi)容無縫連接；

8、s16:通過終端處理器和智能算法優(yōu)化資源分配，確保實時性能。

9、作為優(yōu)選，在對視頻中的音頻流進行識別生成時，包括有以下步驟：

10、s21:通過語音識別軟件對視頻中的音頻流進行實時分析，將語音轉(zhuǎn)換為文本,包括有聲學(xué)模型、語言模型和發(fā)音詞典的聯(lián)合使用；

11、s22:根據(jù)識別出的文本，生成字幕文本，包括調(diào)整字幕的顯示時間、格式以及布局，以確保字幕的可讀性和美觀性。

12、作為優(yōu)選，在對3d字幕進行位置定位時，包括有以下步驟：

13、s31:將語音識別生成的字幕與深度圖像進行融合，并根據(jù)深度圖像中的距離信息確定字幕的初始位置；

14、s32:通過深度感知，檢測字幕位置是否與視頻中的前景物體發(fā)生重疊或遮擋。如果發(fā)生遮擋，算法需要自動調(diào)整字幕的位置，以確保其始終清晰可見；

15、s33：隨著視頻場景的變化，字幕的位置跟隨移動或重新定位以避免遮擋。

16、優(yōu)選的，通過自動生成與視頻匹配的字幕，大大減少了人工編輯的工作量，提高了字幕的準確性和時效性，通過對3d字幕的生成，不僅提升了字幕的視覺表現(xiàn)力，還可以通過自動避免遮擋和動態(tài)調(diào)整位置等功能，提高字幕的實用性和用戶體驗。

17、作為優(yōu)選，在進行3d字幕渲染時，包括以下步驟：

18、s41:使用圖形渲染引擎將字幕以3d形式渲染到視頻幀上，包括應(yīng)用光照、陰影和材質(zhì)效果，以增強字幕的立體感和視覺沖擊力；

19、s42:根據(jù)深度圖像中的距離信息，為字幕添加透視效果，使其看起來更符合3d空間的視覺規(guī)律。

20、作為優(yōu)選，在對視頻進行融合和輸出時，包括以下步驟：

21、s51:將渲染好的3d字幕與原始視頻幀進行融合，確保字幕與視頻內(nèi)容的無縫銜接；

22、s52:將融合后的視頻幀實時輸出到顯示設(shè)備或傳輸?shù)骄W(wǎng)絡(luò)上進行直播。

23、作為優(yōu)選，在與用戶進行交互時，包括以下方面：

24、a11:用戶可以自行對字幕樣式、位置和動畫效果進行更改；

25、a12:對用戶的語音指令進行收集，通過終端處理器對語音指令進行處理。

26、一種基于深度感知的實時3d字幕生成裝置，包括有：字幕生成裝置主體、傳感組件、顯示組件和佩戴組件，字幕生成裝置主體的表面設(shè)置有傳感組件，字幕生成裝置主體的底面設(shè)置有顯示組件，字幕生成裝置主體的一側(cè)設(shè)置有佩戴組件。

27、優(yōu)選的，通過傳感組件對用戶與周圍的障礙物之間的距離進行檢測，通過顯示組件進行3d字幕生成，通過佩戴組件便于用戶對字幕生成裝置主體進行佩戴。

28、作為優(yōu)選，傳感組件包括交互顯示屏、測距傳感器和照明燈，字幕生成裝置主體的表面設(shè)置有交互顯示屏，字幕生成裝置主體的一側(cè)設(shè)置有測距傳感器，測距傳感器設(shè)置有兩組，測距傳感器的預(yù)測設(shè)置有照明燈，在使用時，通過交互顯示屏便于用戶對字幕生成裝置主體進行交互操作，通過測距傳感器對用戶與障礙物之間的距離進行檢測，通過照明燈對用戶周圍的現(xiàn)場情況進行照明。

29、作為優(yōu)選，顯示組件包括定位框、液晶展示屏和亮度傳感器，字幕生成裝置主體的底面設(shè)置有定位框，定位框的內(nèi)部設(shè)置有液晶顯示屏，定位框的內(nèi)側(cè)頂面設(shè)置有亮度傳感器，在使用時，通過定位框?qū)τ脩舻拿娌窟M行定位，通過液晶展示屏對3d字幕進行生成展示，通過亮度傳感器防止液晶展示屏過亮對用戶眼部造成刺激。

30、作為優(yōu)選，佩戴組件包括安裝支架、彈力帶和語音接收器，字幕生成裝置主體的兩側(cè)均設(shè)置有安裝支架，安裝支架的一端設(shè)置有彈力帶，安裝支架的內(nèi)側(cè)設(shè)置有語音接收器，在使用時，通過安裝支架對彈力帶進行安裝，通過彈力帶便于使用者對字幕生成裝置主體進行佩戴，通過語音接收器對用戶的語音指令進行接收。

31、本發(fā)明的有益效果：

32、1、相較于傳統(tǒng)實時3d字幕生成方法及裝置，一般通過傳統(tǒng)的圖形處理技術(shù)和字幕編輯軟件對3d字幕進行生成，缺乏動態(tài)適應(yīng)性，當視頻場景發(fā)生變化時，字幕可能容易被遮擋，影響用戶的觀看體驗，該實時3d字幕生成方法及裝置通過內(nèi)置特殊3d字幕位置確定方法，可以檢測字幕位置是否與視頻當前物體發(fā)生重疊或遮擋，當發(fā)生遮擋時，可以自動對字幕位置進行調(diào)整防止發(fā)生遮擋；

33、2、通過自動生成與視頻匹配的字幕，大大減少了人工編輯的工作量，提高了字幕的準確性和時效性，通過對3d字幕的生成，不僅提升了字幕的視覺表現(xiàn)力，還可以通過自動避免遮擋和動態(tài)調(diào)整位置等功能，提高字幕的實用性和用戶體驗；

34、3、通過交互顯示屏便于用戶對字幕生成裝置主體進行交互操作，通過測距傳感器對用戶與障礙物之間的距離進行檢測，通過照明燈對用戶周圍的現(xiàn)場情況進行照明，通過定位框?qū)τ脩舻拿娌窟M行定位，通過液晶展示屏對3d字幕進行生成展示，通過亮度傳感器防止液晶展示屏過亮對用戶眼部造成刺激。

技術(shù)特征：

1.一種基于深度感知的實時3d字幕生成方法；其特征在于：包括有以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于深度感知的實時3d字幕生成方法，其特征在于：在對視頻中的音頻流進行識別生成時，包括有以下步驟：

3.根據(jù)權(quán)利要求2所述的一種基于深度感知的實時3d字幕生成方法，其特征在于：在對3d字幕進行位置定位時，包括有以下步驟：

4.根據(jù)權(quán)利要求3所述的一種基于深度感知的實時3d字幕生成方法，其特征在于：在進行3d字幕渲染時，包括以下步驟：

5.根據(jù)權(quán)利要求4所述的一種基于深度感知的實時3d字幕生成方法，其特征在于：在對視頻進行融合和輸出時，包括以下步驟：

6.根據(jù)權(quán)利要求5所述的一種基于深度感知的實時3d字幕生成方法，其特征在于：在與用戶進行交互時，包括以下方面：

7.一種基于深度感知的實時3d字幕生成裝置，其特征在于：一種基于深度感知的實時3d字幕生成裝置，包括有：字幕生成裝置主體(1)、傳感組件(2)、顯示組件(3)和佩戴組件(4)，字幕生成裝置主體(1)的表面設(shè)置有傳感組件(2)，字幕生成裝置主體(1)的底面設(shè)置有顯示組件(3)，字幕生成裝置主體(1)的一側(cè)設(shè)置有佩戴組件(4)。

8.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置，其特征在于：傳感組件(2)包括交互顯示屏(201)、測距傳感器(202)和照明燈(203)，字幕生成裝置主體(1)的表面設(shè)置有交互顯示屏(201)，字幕生成裝置主體(1)的一側(cè)設(shè)置有測距傳感器(202)，測距傳感器(202)設(shè)置有兩組，測距傳感器(202)的預(yù)測設(shè)置有照明燈(203)。

9.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置，其特征在于：顯示組件(3)包括定位框(301)、液晶展示屏(302)和亮度傳感器(303)，字幕生成裝置主體(1)的底面設(shè)置有定位框(301)，定位框(301)的內(nèi)部設(shè)置有液晶顯示屏(302)，定位框(301)的內(nèi)側(cè)頂面設(shè)置有亮度傳感器(303)。

10.根據(jù)權(quán)利要求7所述的一種基于深度感知的實時3d字幕生成裝置，其特征在于：佩戴組件(4)包括安裝支架(401)、彈力帶(402)和語音接收器(403)，字幕生成裝置主體(1)的兩側(cè)均設(shè)置有安裝支架(401)，安裝支架(401)的一端設(shè)置有彈力帶(402)，安裝支架(401)的內(nèi)側(cè)設(shè)置有語音接收器(403)。

技術(shù)總結(jié)
本發(fā)明涉及實時3D字幕生成設(shè)備技術(shù)領(lǐng)域，尤其涉及一種基于深度感知的實時3D字幕生成方法及裝置；技術(shù)問題：在使用實時3D字幕生成方法及裝置時，缺乏動態(tài)適應(yīng)性，當視頻場景發(fā)生變化時，字幕可能容易被遮擋，影響用戶的觀看體驗；技術(shù)方案：一種基于深度感知的實時3D字幕生成裝置，包括有：字幕生成裝置主體、傳感組件、顯示組件和佩戴組件；本發(fā)明相較于傳統(tǒng)實時3D字幕生成方法及裝置，缺乏動態(tài)適應(yīng)性，當視頻場景發(fā)生變化時，字幕可能容易被遮擋，影響用戶的觀看體驗，該實時3D字幕生成方法及裝置通過內(nèi)置特殊3D字幕位置確定方法，可以檢測字幕位置是否與視頻當前物體發(fā)生重疊或遮擋，當發(fā)生遮擋時，可以自動對字幕位置進行調(diào)整防止發(fā)生遮擋。

技術(shù)研發(fā)人員：張媛,王飛
受保護的技術(shù)使用者：南京信息職業(yè)技術(shù)學(xué)院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/11/26

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張媛,王飛
技術(shù)所有人：南京信息職業(yè)技術(shù)學(xué)院
我是此專利的發(fā)明人

上一篇：一種插管輔助器的制作方法
上一篇：一種浮料臺可調(diào)節(jié)定位裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度感知的實時3D字幕生成方法及裝置