本發(fā)明涉及一種音視頻自動(dòng)疊加字幕的方法和裝置,尤其涉及一種視頻圖像處理和音視頻處理技術(shù)領(lǐng)域的音視頻自動(dòng)疊加字幕的方法和裝置。
背景技術(shù):
隨著社會(huì)的發(fā)展和地域文化的快速相互滲透,音視頻數(shù)據(jù)信息作為一種直觀的信息傳遞模式一直扮演者重要的媒介角色。字幕的出現(xiàn)就是為了解決地域文化和語言差異而引入的,給音視頻信息同步加上字幕信息,不僅可以有效幫助聽力功能衰弱、障礙的人群很好的把握、理解音視頻想要傳遞的信息,還能消除因?yàn)樽x音相同而意義完全不同的同音字引起的歧義,在文化交流快速國際化的今天,字幕還能起到同步翻譯,消除語言引起的觀看、理解音視頻信息障礙的作用。
傳統(tǒng)的字幕添加方法是,有速錄人員通過觀看音視頻文件,同時(shí)快速記錄在每個(gè)時(shí)刻聽到的聲音信息,用文字的方式記錄下來并做好時(shí)間戳備注,最后又通過人工校對(duì)的方式將字幕添加到音視頻數(shù)據(jù)的特定時(shí)間戳位置上完成字幕添加。該方式不僅對(duì)速錄人員提出很高的要求,而且還經(jīng)常需要反復(fù)觀看記錄才能完善記錄內(nèi)容,在添加字幕時(shí)往往會(huì)因時(shí)間軸上存在的誤差需要做大量精細(xì)調(diào)整,消耗大量人力資源且效率不高。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有音視頻文件添加字幕信息技術(shù)中存在的不足,本發(fā)明一種音視頻自動(dòng)疊加字幕的方法和裝置,提出一種通過采用硬件模塊自動(dòng)采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,進(jìn)而采用字幕生成模塊對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行特征提取并對(duì)比音頻文字?jǐn)?shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時(shí)模塊對(duì)音視頻數(shù)據(jù)進(jìn)行自動(dòng)延時(shí),最后利用字幕疊加模塊對(duì)音視頻數(shù)據(jù)和字幕數(shù)據(jù)進(jìn)行時(shí)間軸自動(dòng)精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。硬件模塊自動(dòng)完成識(shí)別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點(diǎn),同時(shí)采用硬件模塊自動(dòng)實(shí)現(xiàn)字幕和音視頻數(shù)據(jù)的時(shí)間軸同步,不僅省去了傳統(tǒng)人工的反復(fù)時(shí)間軸校正和修訂的繁瑣工作,還有效提高了同步進(jìn)度和字幕添加質(zhì)量,大大改進(jìn)了字幕添加工作的效率,提高了字幕添加質(zhì)量。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包括以下步驟:
提取音頻數(shù)據(jù)步驟,通過音視頻數(shù)據(jù)分離技術(shù),將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來。
優(yōu)選的,所述分離技術(shù)包括:對(duì)輸入的音視頻數(shù)據(jù)進(jìn)行解封裝、解碼,剝離出音頻數(shù)據(jù)信息。
優(yōu)選的,所述分離并提取是指將所述剝離出的音頻數(shù)據(jù)信息統(tǒng)一轉(zhuǎn)換成PCM數(shù)據(jù)。
生成字幕步驟,對(duì)音頻數(shù)據(jù)進(jìn)行分析匹配,計(jì)算出對(duì)應(yīng)的文字信息,并將文字信息形成字幕數(shù)據(jù)。
優(yōu)選的,所述分析匹配包括:對(duì)PCM數(shù)據(jù)在時(shí)域和頻域提取特征,并將該特征與文字模型數(shù)據(jù)庫中的素材進(jìn)行比對(duì),找出匹配度最高的模型記錄。
優(yōu)選的,所述字幕數(shù)據(jù)是指帶有時(shí)間標(biāo)簽的字幕文本。
音視頻延時(shí)步驟,對(duì)音視頻文件進(jìn)行特定的延時(shí)操作。
優(yōu)選的,所述特定延時(shí)是指字幕生成所產(chǎn)生的統(tǒng)計(jì)最大延時(shí)時(shí)間,利用該延時(shí)值對(duì)音視頻數(shù)據(jù)整體進(jìn)行延時(shí)處理。
疊加字幕步驟,將生成的字幕數(shù)據(jù)疊加到延時(shí)后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。
優(yōu)選的,所述步驟包括:對(duì)數(shù)據(jù)的字幕數(shù)據(jù)和音視頻數(shù)據(jù)進(jìn)行時(shí)間軸的精準(zhǔn)同步,將同步后的字幕數(shù)據(jù)和音視頻數(shù)據(jù)疊加起來形成帶字幕信息的音視頻數(shù)據(jù)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包括以下模塊:
音頻分離模塊,用于從音視頻數(shù)據(jù)中分離出音頻數(shù)據(jù)信息,并生成后續(xù)處理模塊接受的數(shù)據(jù)格式。
優(yōu)選的,所述分離指對(duì)輸入音視頻數(shù)據(jù)進(jìn)行解封裝、解碼操作,從而提取出音頻信息。
優(yōu)選的,所述數(shù)據(jù)格式為PCM格式。
提取音頻生成字幕模塊,用于對(duì)特定格式的音頻信息進(jìn)行特征提取,并根據(jù)提取的信息生成字幕。
優(yōu)選的,所述特征提取指對(duì)所述格式數(shù)據(jù)進(jìn)行時(shí)域和頻域的特征提取過程。
優(yōu)選的,所述生成字幕包括:將所述特征與字幕模型庫進(jìn)行比較找出匹配度最高的文字信息,并生成帶有時(shí)間信息字幕數(shù)據(jù)。
音視頻延時(shí)模塊,用于對(duì)音視頻數(shù)據(jù)進(jìn)行特定時(shí)間的延遲處理。
優(yōu)選的,所述特定時(shí)間指所述生成字幕產(chǎn)生的最大延時(shí)。
對(duì)音視頻疊加字幕模塊,用于將生成字幕數(shù)據(jù)疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)。
優(yōu)選的,所述疊加過程必須在對(duì)字幕數(shù)據(jù)和音視頻數(shù)據(jù)進(jìn)行時(shí)間軸同步確認(rèn)后才能進(jìn)行。
采用上述技術(shù)方案,本發(fā)明具有以下優(yōu)點(diǎn):
本發(fā)明涉及一種音視頻自動(dòng)疊加字幕的方法和裝置,提出一種通過采用硬件模塊自動(dòng)采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,進(jìn)而采用字幕生成模塊對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行特征提取并對(duì)比音頻文字?jǐn)?shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時(shí)模塊對(duì)音視頻數(shù)據(jù)進(jìn)行自動(dòng)延時(shí),最后利用字幕疊加模塊對(duì)音視頻數(shù)據(jù)和字幕數(shù)據(jù)進(jìn)行時(shí)間軸自動(dòng)精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。硬件模塊自動(dòng)完成識(shí)別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點(diǎn),同時(shí)采用硬件模塊自動(dòng)實(shí)現(xiàn)字幕和音視頻數(shù)據(jù)的時(shí)間軸同步,不僅省去了傳統(tǒng)人工的反復(fù)時(shí)間軸校正和修訂的繁瑣工作,還有效提高了同步進(jìn)度和字幕添加質(zhì)量,大大改進(jìn)了字幕添加工作的效率,提高了字幕添加質(zhì)量。
附圖說明
圖1為本發(fā)明較佳實(shí)施方式的一種音視頻自動(dòng)疊加字幕的方法和裝置的步驟示意圖。
圖2為本發(fā)明較佳實(shí)施方式的一種音視頻自動(dòng)疊加字幕的方法和裝置的系統(tǒng)模塊圖。
圖3為本發(fā)明較佳實(shí)施方式的一種音視頻自動(dòng)疊加字幕的方法和裝置的詳細(xì)流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的一個(gè)實(shí)施例,而不是全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域的一般技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例公開了一種音視頻自動(dòng)疊加字幕的方法,參見圖1所示,該方法包括一下步驟:
步驟S1:從音視頻文件中提取音頻數(shù)據(jù)。
步驟S2:自動(dòng)識(shí)別音頻信息并生成字幕文件。
步驟S3:對(duì)音視頻文件進(jìn)行延時(shí)處理。
步驟S4:將音視頻文件與字幕文件合成帶字幕的音視頻文件。
本發(fā)明實(shí)施例公開了一種音視頻自動(dòng)疊加字幕的裝置,參見圖2所示,該裝置包括一下模塊:
模塊M1:音頻分離模塊,用于從音視頻數(shù)據(jù)中分離提取出音頻數(shù)據(jù)信息并轉(zhuǎn)換成特定數(shù)據(jù)格式供字幕生成工作使用。
模塊M2:提取音頻生成字幕模塊,用于對(duì)特定格式的音頻數(shù)據(jù)進(jìn)行特征提取、比對(duì),從而從音頻文字?jǐn)?shù)據(jù)庫中查找出最匹配的文字信息生成字幕信息。
模塊M3:音頻延時(shí)模塊,用于對(duì)音視頻數(shù)據(jù)進(jìn)行特定時(shí)間長度的延時(shí)操作。
模塊M4:對(duì)音頻疊加字幕模塊,用于對(duì)字幕信息和音視頻數(shù)據(jù)信息進(jìn)行時(shí)間軸精準(zhǔn)同步,并將同步后的字幕疊加到音視頻數(shù)據(jù)信息上形成帶有字幕信息的音視頻數(shù)據(jù)文件。
本發(fā)明實(shí)施例中,通過采用硬件模塊自動(dòng)采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,進(jìn)而采用字幕生成模塊對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行特征提取并對(duì)比音頻文字?jǐn)?shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時(shí)模塊對(duì)音視頻數(shù)據(jù)進(jìn)行自動(dòng)延時(shí),最后利用字幕疊加模塊對(duì)音視頻數(shù)據(jù)和字幕數(shù)據(jù)進(jìn)行時(shí)間軸自動(dòng)精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。
可見,本發(fā)明實(shí)施例中,通過硬件模塊自動(dòng)完成識(shí)別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點(diǎn),同時(shí)采用硬件模塊自動(dòng)實(shí)現(xiàn)字幕和音視頻數(shù)據(jù)的時(shí)間軸同步,不僅省去了傳統(tǒng)人工的反復(fù)時(shí)間軸校正和修訂的繁瑣工作,還有效提高了同步進(jìn)度和字幕添加質(zhì)量,大大改進(jìn)了字幕添加工作的效率,提高了字幕添加質(zhì)量。
本發(fā)明實(shí)施例公開了一種音視頻自動(dòng)疊加字幕的方法和裝置,參見圖2,相對(duì)上兩個(gè)實(shí)施例,本實(shí)施例對(duì)技術(shù)方案作了進(jìn)一步的說明和優(yōu)化。具體的,本實(shí)施例中一種音視頻自動(dòng)疊加字幕的方法和裝置包含以下步驟:
S1:提取音頻數(shù)據(jù)步驟,通過音視頻數(shù)據(jù)分離技術(shù),將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來。
優(yōu)選的,通過步驟S0向所述模塊M1、M3逐幀輸入音視頻數(shù)據(jù),所述模塊M1接收到數(shù)據(jù)后執(zhí)行步驟S11:從音視頻文件中提取音頻數(shù)據(jù)。
優(yōu)選的,通過執(zhí)行步驟S11,對(duì)音視頻數(shù)據(jù)文件進(jìn)行解封裝、解碼,得到音頻數(shù)據(jù),然后將所述數(shù)據(jù)輸入步驟S12:保存音頻數(shù)據(jù)。
優(yōu)選的,通過執(zhí)行步驟S12,將各種格式的音頻數(shù)據(jù)轉(zhuǎn)換成PCM數(shù)據(jù),然后將所述數(shù)據(jù)輸入所述模塊M2。
S2:生成字幕步驟,對(duì)音頻數(shù)據(jù)進(jìn)行分析匹配,計(jì)算出對(duì)應(yīng)的文字信息,并將文字信息形成字幕數(shù)據(jù)。
優(yōu)選的,所述模塊M2接收到模塊M1處理得出的數(shù)據(jù)后執(zhí)行步驟S21:提取音頻數(shù)據(jù)特征。
優(yōu)選的,通過執(zhí)行步驟S21,實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)的時(shí)域和頻域的特征提取,并將所述特征輸入步驟S22:數(shù)據(jù)庫匹配查找。
優(yōu)選的,通過執(zhí)行步驟S22,將所述特征與語音文字?jǐn)?shù)據(jù)庫的特征記錄進(jìn)行比對(duì),找出匹配度最高的文字信息,并將該信息輸送給步驟S23:生成字幕文件。
優(yōu)選的,通過執(zhí)行步驟S23,對(duì)查找到的匹配文字信息添加時(shí)間戳內(nèi)容后生成字幕信息,并將該字幕信息傳遞給模塊M4。
S3:音視頻延時(shí)步驟,對(duì)音視頻文件進(jìn)行特定的延時(shí)操作。
優(yōu)選的,通過執(zhí)行步驟S3,模塊M3對(duì)步驟S0輸入的音視頻數(shù)據(jù)信息進(jìn)行一定時(shí)間的延時(shí)處理,并將處理結(jié)果輸入模塊M4。
優(yōu)選的,所述一定時(shí)間的延時(shí)指所述步驟S2執(zhí)行過程中產(chǎn)生的延時(shí)時(shí)間的最大值。
S4:疊加字幕步驟,將生成的字幕數(shù)據(jù)疊加到延時(shí)后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。
優(yōu)選的,模塊M4接收到模塊M2、M3輸入的數(shù)據(jù)信息后,執(zhí)行步驟S41:匹配同步字幕與音視頻。
優(yōu)選的,通過執(zhí)行步驟S41,對(duì)模塊M2輸入的字幕信息和模塊M3輸入的音視頻數(shù)據(jù)信息進(jìn)行精準(zhǔn)的時(shí)間軸同步操作,并將同步后的數(shù)據(jù)輸給步驟S42:對(duì)音視頻疊加字幕。
優(yōu)選的,通過執(zhí)行步驟S42,實(shí)現(xiàn)將字幕信息疊加到音視頻數(shù)據(jù)上,最終生成所需的帶字幕信息的音視頻數(shù)據(jù)文件。
綜上所述,通過步驟S0向模塊M1、M3輸入音視頻數(shù)據(jù)信息,然后針對(duì)模塊M1,通過執(zhí)行步驟S11,實(shí)現(xiàn)對(duì)輸入音視頻數(shù)據(jù)的解封裝、解碼操作提取出音頻數(shù)據(jù)信息,對(duì)操作結(jié)果執(zhí)行步驟S12,實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)信息的數(shù)據(jù)格式轉(zhuǎn)換,生成PCM數(shù)據(jù)文件,對(duì)該數(shù)據(jù)文件執(zhí)行步驟S21,實(shí)現(xiàn)對(duì)PCM數(shù)據(jù)文件的時(shí)域和頻域的特征提取,對(duì)將提取的特征值執(zhí)行步驟S22,實(shí)現(xiàn)對(duì)所述特征的語音文字?jǐn)?shù)據(jù)庫查找匹配,對(duì)獲得的最佳匹配結(jié)果執(zhí)行步驟S23,實(shí)現(xiàn)對(duì)匹配出的文字信息添加時(shí)間戳信息,進(jìn)而生成字幕文件并傳遞給模塊M4,而模塊M3在接收到S0輸入的音視頻數(shù)據(jù)信息后,對(duì)所述數(shù)據(jù)信息執(zhí)行步驟S3,實(shí)現(xiàn)對(duì)所述音視頻數(shù)據(jù)信息進(jìn)行一定時(shí)間的延時(shí)操作,所述時(shí)間為步驟S2執(zhí)行產(chǎn)生的最大延時(shí)值,將經(jīng)過S3處理后的數(shù)據(jù)輸入模塊M4,M4在接收到M2、M3輸入的數(shù)據(jù)信息后,通過執(zhí)行步驟S41,實(shí)現(xiàn)對(duì)M2輸入的字幕信息和M3輸入的音視頻數(shù)據(jù)信息進(jìn)行時(shí)間軸上的精準(zhǔn)同步操作,對(duì)執(zhí)行同步操作后的結(jié)果執(zhí)行步驟S42,實(shí)現(xiàn)將字幕信息疊加到音視頻數(shù)據(jù)信息上生成帶字幕信息的音視頻數(shù)據(jù)文件。通過采用硬件模塊自動(dòng)采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,進(jìn)而采用字幕生成模塊對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行特征提取并對(duì)比音頻文字?jǐn)?shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時(shí)模塊對(duì)音視頻數(shù)據(jù)進(jìn)行自動(dòng)延時(shí),最后利用字幕疊加模塊對(duì)音視頻數(shù)據(jù)和字幕數(shù)據(jù)進(jìn)行時(shí)間軸自動(dòng)精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。
以上所述僅為舉例性,而非為限制性。本領(lǐng)域的技術(shù)人員可以對(duì)發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包括這些改動(dòng)和變型在內(nèi)。