一種針對影視視頻的時間軸自動產(chǎn)生方法

文檔序號：7812364閱讀：269來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種針對影視視頻的時間軸自動產(chǎn)生方法
【專利摘要】本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法，包括以下步驟：（1）視頻場景分析，視頻場景分析分為兩個部分：i.通過視頻鏡頭分析，分析出子場景；ii.通過語音特征分析，對子場景聚類，聚類為大場景；對于連續(xù)出現(xiàn)的子場景，通過過零率和短時能量，區(qū)分出噪音和語音，然后，比較連續(xù)子場景的平均過零率和短時能量，當差異在預(yù)先設(shè)定的閾值內(nèi)，則這兩個子場景屬于一個大場景，對子場景進行聚類，聚類為大場景；（2）場景里的語音時間軸切分；（3）整體視頻時間軸的切分；將不同場景所檢測得到的時間軸數(shù)據(jù)合并，即可得到整體的視頻時間軸。本發(fā)明的針對影視視頻的時間軸自動產(chǎn)生方法，可以自動提取出語音片段，產(chǎn)生字幕時間軸。
【專利說明】一種針對影視視頻的時間軸自動產(chǎn)生方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機軟件【技術(shù)領(lǐng)域】，尤指一種針對影視視頻的時間軸自動產(chǎn)生方法。

【背景技術(shù)】
[0002] 影視類視頻的特點是：說話人眾多；環(huán)境噪音干擾大；存在片首曲、片尾曲和配音的干擾。現(xiàn)有技術(shù)對影視類視頻的處理方法中，通常，影視類視頻長度為0.5-2小時。以1 小時的視頻為例，切分出時間軸，需要1-2小時的人工，需要投入比較大的人力，并且效率工作效率較低?，F(xiàn)有技術(shù)中，通過視頻鏡頭分析，分析出子場景的方法很多，郭小川的2011 年復(fù)旦大學(xué)碩士論文《基于內(nèi)容的視頻場景分析方法研究》中也介紹了關(guān)于視頻場景分析方法的研究。所以在這樣的一個現(xiàn)有技術(shù)的基礎(chǔ)上，結(jié)合其他時間軸的切分技術(shù)，來實現(xiàn)自動產(chǎn)生時間軸的方法顯得可行并且迫切。

【發(fā)明內(nèi)容】

[0003] 為了解決上述問題，本發(fā)明提供一種針對影視視頻的時間軸自動產(chǎn)生方法，可以自動提取出語音片段，產(chǎn)生字幕時間軸。
[0004] 本發(fā)明通過視頻分析得到子場景，再通過噪音特征聚類得到大場景；并且對大場景進行語音端點檢測得到時間軸，再進行合并成整體時間軸。
[0005] 本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法，包括以下步驟： (1) 視頻場景分析，視頻場景分析分為兩個部分： i. 通過視頻鏡頭分析，分析出子場景； ii. 通過語音特征分析，對子場景聚類，聚類為大場景；對于連續(xù)出現(xiàn)的子場景，通過過零率和短時能量，區(qū)分出噪音和語音，然后，比較連續(xù)子場景的平均過零率和短時能量，當差異在預(yù)先設(shè)定的閾值內(nèi)，則這兩個子場景屬于一個大場景，對子場景進行聚類，聚類為大場景； (2) 場景里的語音時間軸切分； (3) 整體視頻時間軸的切分；將不同場景所檢測得到的時間軸數(shù)據(jù)合并，即可得到整體的視頻時間軸。
[0006] 本發(fā)明的有益技術(shù)效果在于：本發(fā)明通過語音分析的方式，自動得到影視視頻的時間軸，主要用于給影視視頻加配字幕時的預(yù)處理，省去了人工調(diào)制的過程。

【具體實施方式】
[0007] 下面結(jié)合實施例，對本發(fā)明的【具體實施方式】作進一步詳細描述。
[0008] 本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法，本實施例做以下假設(shè)：（1) 視頻由多個場景構(gòu)成的；（2)每個場景的環(huán)境噪音和配音是穩(wěn)定的。在此假設(shè)下，針對影視視頻的時間軸自動產(chǎn)生方法包括以下步驟： (1)視頻場景分析，視頻場景分析分為兩個部分： i.通過視頻鏡頭分析，分析出子場景；通過視頻分析，將視頻分割為一個個的場景有很多種方法。ii.通過語音特征分析，對子場景聚類，聚類為大場景。比如說，一副室內(nèi)劇，劇里有幾個演員，鏡頭在幾個演員之間切換。通過分析鏡頭，可以將這樣的場景切分出來。但是，這樣的場景過于細，而我們需要的是"室內(nèi)"這個大場景，這個大場景的語音背景、配音背景是一致的，所以，需要同歸語音特征分析，對這樣的場景進行聚類。對于連續(xù)出現(xiàn)的子場景，通過過零率和短時能量，區(qū)分出噪音和語音，然后，比較連續(xù)子場景的平均過零率和短時能量，當差異在預(yù)先設(shè)定的閾值內(nèi)，則這兩個子場景屬于一個大場景，對子場景進行聚類，聚類為大場景。
[0009] (2)場景里的語音時間軸切分；對一個場景內(nèi)，由于背景音和環(huán)境音比較單一，可以使用傳統(tǒng)的方法進行語音端點檢測，得到語音時間軸。比如，根據(jù)過零率和短時能量的雙閾值端點檢測。
[0010] (3)整體視頻時間軸的切分；將不同場景所檢測得到的時間軸數(shù)據(jù)合并，即可得到整體的視頻時間軸。
【權(quán)利要求】
1. 一種針對影視視頻的時間軸自動產(chǎn)生方法，其特征在于，包括以下步驟： (1) 視頻場景分析，視頻場景分析分為兩個部分： i. 通過視頻鏡頭分析，分析出子場景； ii. 通過語音特征分析，對子場景聚類，聚類為大場景；對于連續(xù)出現(xiàn)的子場景，通過過零率和短時能量，區(qū)分出噪音和語音，然后，比較連續(xù)子場景的平均過零率和短時能量，當差異在預(yù)先設(shè)定的閾值內(nèi)，則這兩個子場景屬于一個大場景，對子場景進行聚類，聚類為大場景； (2) 場景里的語音時間軸切分； (3) 整體視頻時間軸的切分；將不同場景所檢測得到的時間軸數(shù)據(jù)合并，即可得到整體的視頻時間軸。
【文檔編號】H04N21/81GK104159152SQ201410423608
【公開日】2014年11月19日申請日期:2014年8月26日優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國艮, 袁翔宇, 王宇晨申請人:中譯語通科技（北京）有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程國艮;袁翔宇;王宇晨
技術(shù)所有人：中譯語通科技（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種基于字幕檢測與識別的視頻字幕還原方法
上一篇：一種互聯(lián)網(wǎng)視頻的字幕匹配與檢索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

ppt時間軸制作方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種針對影視視頻的時間軸自動產(chǎn)生方法