一種針對影視視頻的時間軸自動產(chǎn)生方法
【專利摘要】本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法,包括以下步驟:(1)視頻場景分析,視頻場景分析分為兩個部分:i.通過視頻鏡頭分析,分析出子場景;ii.通過語音特征分析,對子場景聚類,聚類為大場景;對于連續(xù)出現(xiàn)的子場景,通過過零率和短時能量,區(qū)分出噪音和語音,然后,比較連續(xù)子場景的平均過零率和短時能量,當差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個子場景屬于一個大場景,對子場景進行聚類,聚類為大場景;(2)場景里的語音時間軸切分;(3)整體視頻時間軸的切分;將不同場景所檢測得到的時間軸數(shù)據(jù)合并,即可得到整體的視頻時間軸。本發(fā)明的針對影視視頻的時間軸自動產(chǎn)生方法,可以自動提取出語音片段,產(chǎn)生字幕時間軸。
【專利說明】一種針對影視視頻的時間軸自動產(chǎn)生方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機軟件【技術(shù)領(lǐng)域】,尤指一種針對影視視頻的時間軸自動產(chǎn)生方 法。
【背景技術(shù)】
[0002] 影視類視頻的特點是:說話人眾多;環(huán)境噪音干擾大;存在片首曲、片尾曲和配音 的干擾。現(xiàn)有技術(shù)對影視類視頻的處理方法中,通常,影視類視頻長度為0.5-2小時。以1 小時的視頻為例,切分出時間軸,需要1-2小時的人工,需要投入比較大的人力,并且效率 工作效率較低?,F(xiàn)有技術(shù)中,通過視頻鏡頭分析,分析出子場景的方法很多,郭小川的2011 年復(fù)旦大學(xué)碩士論文《基于內(nèi)容的視頻場景分析方法研究》中也介紹了關(guān)于視頻場景分析 方法的研究。所以在這樣的一個現(xiàn)有技術(shù)的基礎(chǔ)上,結(jié)合其他時間軸的切分技術(shù),來實現(xiàn)自 動產(chǎn)生時間軸的方法顯得可行并且迫切。
【發(fā)明內(nèi)容】
[0003] 為了解決上述問題,本發(fā)明提供一種針對影視視頻的時間軸自動產(chǎn)生方法,可以 自動提取出語音片段,產(chǎn)生字幕時間軸。
[0004] 本發(fā)明通過視頻分析得到子場景,再通過噪音特征聚類得到大場景;并且對大場 景進行語音端點檢測得到時間軸,再進行合并成整體時間軸。
[0005] 本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法,包括以下步驟: (1) 視頻場景分析,視頻場景分析分為兩個部分: i. 通過視頻鏡頭分析,分析出子場景; ii. 通過語音特征分析,對子場景聚類,聚類為大場景;對于連續(xù)出現(xiàn)的子場景,通過 過零率和短時能量,區(qū)分出噪音和語音,然后,比較連續(xù)子場景的平均過零率和短時能量, 當差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個子場景屬于一個大場景,對子場景進行聚類,聚類為 大場景; (2) 場景里的語音時間軸切分; (3) 整體視頻時間軸的切分;將不同場景所檢測得到的時間軸數(shù)據(jù)合并,即可得到整體 的視頻時間軸。
[0006] 本發(fā)明的有益技術(shù)效果在于:本發(fā)明通過語音分析的方式,自動得到影視視頻的 時間軸,主要用于給影視視頻加配字幕時的預(yù)處理,省去了人工調(diào)制的過程。
【具體實施方式】
[0007] 下面結(jié)合實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。
[0008] 本發(fā)明是一種針對影視視頻的時間軸自動產(chǎn)生方法,本實施例做以下假設(shè):(1) 視頻由多個場景構(gòu)成的;(2)每個場景的環(huán)境噪音和配音是穩(wěn)定的。在此假設(shè)下,針對影 視視頻的時間軸自動產(chǎn)生方法包括以下步驟: (1)視頻場景分析,視頻場景分析分為兩個部分: i.通過視頻鏡頭分析,分析出子場景;通過視頻分析,將視頻分割為一個個的場景有 很多種方法。ii.通過語音特征分析,對子場景聚類,聚類為大場景。比如說,一副室內(nèi)劇, 劇里有幾個演員,鏡頭在幾個演員之間切換。通過分析鏡頭,可以將這樣的場景切分出來。 但是,這樣的場景過于細,而我們需要的是"室內(nèi)"這個大場景,這個大場景的語音背景、配 音背景是一致的,所以,需要同歸語音特征分析,對這樣的場景進行聚類。對于連續(xù)出現(xiàn)的 子場景,通過過零率和短時能量,區(qū)分出噪音和語音,然后,比較連續(xù)子場景的平均過零率 和短時能量,當差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個子場景屬于一個大場景,對子場景進行 聚類,聚類為大場景。
[0009] (2)場景里的語音時間軸切分;對一個場景內(nèi),由于背景音和環(huán)境音比較單一,可 以使用傳統(tǒng)的方法進行語音端點檢測,得到語音時間軸。比如,根據(jù)過零率和短時能量的雙 閾值端點檢測。
[0010] (3)整體視頻時間軸的切分;將不同場景所檢測得到的時間軸數(shù)據(jù)合并,即可得到 整體的視頻時間軸。
【權(quán)利要求】
1. 一種針對影視視頻的時間軸自動產(chǎn)生方法,其特征在于,包括以下步驟: (1) 視頻場景分析,視頻場景分析分為兩個部分: i. 通過視頻鏡頭分析,分析出子場景; ii. 通過語音特征分析,對子場景聚類,聚類為大場景;對于連續(xù)出現(xiàn)的子場景,通過 過零率和短時能量,區(qū)分出噪音和語音,然后,比較連續(xù)子場景的平均過零率和短時能量, 當差異在預(yù)先設(shè)定的閾值內(nèi),則這兩個子場景屬于一個大場景,對子場景進行聚類,聚類為 大場景; (2) 場景里的語音時間軸切分; (3) 整體視頻時間軸的切分;將不同場景所檢測得到的時間軸數(shù)據(jù)合并,即可得到整體 的視頻時間軸。
【文檔編號】H04N21/81GK104159152SQ201410423608
【公開日】2014年11月19日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國艮, 袁翔宇, 王宇晨 申請人:中譯語通科技(北京)有限公司