位段落轉(zhuǎn)折的字符單句。
[0132]所述目標(biāo)索引為5和11,所述定位單元4002則可在所述字幕文件中定位段落轉(zhuǎn)折的字符單句為第5個(gè)字符單句和第11個(gè)字符單句,也就是說,第5個(gè)字符單句為一個(gè)字幕段落的起始位置,即所述字幕文件中第1-4個(gè)字符單句構(gòu)成一個(gè)字幕段落;第11個(gè)字符單句為另一個(gè)字幕段落的起始位置,即所述字幕文件中第5-10個(gè)字符單句構(gòu)成一個(gè)字幕段落。
[0133]時(shí)間讀取單元4003,用于根據(jù)所述段落轉(zhuǎn)折的字符單句從所述字幕文件中讀取段落變化時(shí)間。
[0134]由于所述字幕文件中記錄了每個(gè)字符單句的時(shí)間屬性,包括每個(gè)字符單句的開始時(shí)間、持續(xù)時(shí)間、結(jié)束時(shí)間;所述時(shí)間讀取單元4003可以從所述字幕文件中讀取段落變化時(shí)間,按照本實(shí)施例所示例子,所述字幕文件中第1-4個(gè)字符單句構(gòu)成一個(gè)字幕段落,那么所讀取的段落變化時(shí)間為:第4個(gè)字符單句的結(jié)束時(shí)間和第5個(gè)字符單句的開始時(shí)間;所述字幕文件中第5-10個(gè)字符單句構(gòu)成一個(gè)字幕段落,那么所讀取的段落變化時(shí)間為:第10個(gè)字符單句的結(jié)束時(shí)間和第11個(gè)字符單句的開始時(shí)間。
[0135]本發(fā)明實(shí)施例中,可根據(jù)目標(biāo)音頻文件對應(yīng)的字幕文件中的至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化,并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間,然后按照所述段落變化時(shí)間將所述目標(biāo)音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落,音頻處理過程利用字幕段落之間的字符單句的相似性特點(diǎn),基于字幕文件中的字符單句的相似性實(shí)現(xiàn)對目標(biāo)音頻文件的段落劃分,可提升分段處理效率,提升音頻處理的智能性。
[0136]本發(fā)明實(shí)施例還公開了一種終端,該終端可以為PC(Personal Computer,個(gè)人計(jì)算機(jī))、筆記本電腦、手機(jī)、PAD (平板電腦)、車載終端、智能可穿戴設(shè)備等設(shè)備。該終端中可包括一音頻處理裝置,該裝置的結(jié)構(gòu)和功能可參見上述圖3-圖7所示實(shí)施例的相關(guān)描述,在此不贅述。
[0137]本發(fā)明實(shí)施例中,可根據(jù)目標(biāo)音頻文件對應(yīng)的字幕文件中的至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化,并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間,然后按照所述段落變化時(shí)間將所述目標(biāo)音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落,音頻處理過程利用字幕段落之間的字符單句的相似性特點(diǎn),基于字幕文件中的字符單句的相似性實(shí)現(xiàn)對目標(biāo)音頻文件的段落劃分,可提升分段處理效率,提升音頻處理的智能性。
[0138]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機(jī)存儲記憶體(Random AccessMemory, RAM)等。
[0139]以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【主權(quán)項(xiàng)】
1.一種音頻處理方法,其特征在于,包括: 獲取目標(biāo)音頻文件對應(yīng)的字幕文件,所述字幕文件由至少一個(gè)字符單句順序組成;根據(jù)所述至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,所述字幕特征序列包括至少一個(gè)字符特征元素; 按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化; 根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間; 按照所述段落變化時(shí)間將所述目標(biāo)音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,包括: 根據(jù)所述至少一個(gè)字符單句的數(shù)量確定構(gòu)建字幕特征序列的字符特征元素的數(shù)量;根據(jù)所述至少一個(gè)字符單句中各字符單句的順序,確定構(gòu)建所述字幕特征序列的各字符特征元素的索引; 將構(gòu)建所述字幕特征序列的各字符特征元素的數(shù)值均設(shè)置為初始值; 針對所述至少一個(gè)字符單句中的任一個(gè)目標(biāo)字符單句,若所述目標(biāo)字符單句與所述目標(biāo)字符單句的在后字符單句之間的最大相似度大于預(yù)設(shè)相似閥值,將所述目標(biāo)字符單句對應(yīng)的字符特征元素的數(shù)值從初始值變更為目標(biāo)值; 按照構(gòu)建所述字幕特征序列的字符特征元素的數(shù)量、索引及數(shù)值,構(gòu)建所述字幕特征序列。3.如權(quán)利要求2所述的方法,其特征在于,所述按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化,包括: 統(tǒng)計(jì)所述字幕特征序列中數(shù)值為目標(biāo)值的字符特征元素的數(shù)量; 判斷所述數(shù)量是否位于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi); 若否,調(diào)整所述預(yù)設(shè)相似閥值的大小以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。4.如權(quán)利要求3所述的方法,其特征在于,所述若否,調(diào)整所述預(yù)設(shè)相似閥值的大小以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值,包括: 若所述數(shù)量大于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi)的最大容錯(cuò)值,按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值; 若所述數(shù)量小于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi)的最大容錯(cuò)值,按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間,包括: 從優(yōu)化后的所述字幕特征序列中獲取數(shù)值為目標(biāo)值的字符特征元素對應(yīng)的目標(biāo)索弓I ; 根據(jù)所述目標(biāo)索引在所述字幕文件中定位段落轉(zhuǎn)折的字符單句; 根據(jù)所述段落轉(zhuǎn)折的字符單句從所述字幕文件中讀取段落變化時(shí)間。6.一種音頻處理裝置,其特征在于,包括: 獲取單元,用于獲取目標(biāo)音頻文件對應(yīng)的字幕文件,所述字幕文件由至少一個(gè)字符單句順序組成; 構(gòu)建單元,用于根據(jù)所述至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,所述字幕特征序列包括至少一個(gè)字符特征元素; 優(yōu)化單元,用于按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化; 確定單元,用于根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間; 分段單元,用于按照所述段落變化時(shí)間將所述目標(biāo)音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。7.如權(quán)利要求6所述的裝置,其特征在于,所述構(gòu)建單元包括: 數(shù)量確定單元,用于根據(jù)所述至少一個(gè)字符單句的數(shù)量確定構(gòu)建字幕特征序列的字符特征元素的數(shù)量; 索引確定單元,用于根據(jù)所述至少一個(gè)字符單句中各字符單句的順序,確定構(gòu)建所述字幕特征序列的各字符特征元素的索引; 數(shù)值設(shè)置單元,用于將構(gòu)建所述字幕特征序列的各字符特征元素的數(shù)值均設(shè)置為初始值; 數(shù)值變更單元,用于針對所述至少一個(gè)字符單句中的任一個(gè)目標(biāo)字符單句,若所述目標(biāo)字符單句與所述目標(biāo)字符單句的在后字符單句之間的最大相似度大于預(yù)設(shè)相似閥值,將所述目標(biāo)字符單句對應(yīng)的字符特征元素的數(shù)值從初始值變更為目標(biāo)值; 序列構(gòu)建單元,用于按照構(gòu)建所述字幕特征序列的字符特征元素的數(shù)量、索引及數(shù)值,構(gòu)建所述字幕特征序列。8.如權(quán)利要求7所述的裝置,其特征在于,所述優(yōu)化單元包括: 數(shù)量統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述字幕特征序列中數(shù)值為目標(biāo)值的字符特征元素的數(shù)量; 判斷單元,用于判斷所述數(shù)量是否位于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi); 優(yōu)化處理單元,用于若判斷結(jié)果為否,調(diào)整所述預(yù)設(shè)相似閥值的大小以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。9.如權(quán)利要求8所述的裝置,其特征在于,所述優(yōu)化處理單元包括: 第一調(diào)整單元,用于若所述數(shù)量大于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi)的最大容錯(cuò)值,按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值; 第二調(diào)整單元,用于若所述數(shù)量小于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯(cuò)區(qū)間內(nèi)的最大容錯(cuò)值,按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。10.如權(quán)利要求9所述的裝置,其特征在于,所述確定單元包括: 目標(biāo)索引獲取單元,用于從優(yōu)化后的所述字幕特征序列中獲取數(shù)值為目標(biāo)值的字符特征元素對應(yīng)的目標(biāo)索引; 定位單元,用于根據(jù)所述目標(biāo)索引在所述字幕文件中定位段落轉(zhuǎn)折的字符單句; 時(shí)間讀取單元,用于根據(jù)所述段落轉(zhuǎn)折的字符單句從所述字幕文件中讀取段落變化時(shí)間。11.一種終端,其特征在于,包括如權(quán)利要求6-10任一項(xiàng)所述的音頻處理裝置。
【專利摘要】本發(fā)明實(shí)施例提供一種音頻處理方法、裝置及終端,其中的方法可包括:獲取目標(biāo)音頻文件對應(yīng)的字幕文件,所述字幕文件由至少一個(gè)字符單句順序組成;根據(jù)所述至少一個(gè)字符單句之間的相似度構(gòu)建字幕特征序列,所述字幕特征序列包括至少一個(gè)字符特征元素;按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進(jìn)行優(yōu)化;根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個(gè)字符特征元素的數(shù)值確定段落變化時(shí)間;按照所述段落變化時(shí)間將所述目標(biāo)音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。本發(fā)明可基于音頻文件對應(yīng)的字幕文件中的字符單句的相似性實(shí)現(xiàn)對目標(biāo)音頻文件的段落劃分,提升分段處理效率,提升音頻處理的智能性。
【IPC分類】G10L15/06, G10L15/04
【公開號】CN104978961
【申請?zhí)枴緾N201510270567
【發(fā)明人】趙偉峰
【申請人】騰訊科技(深圳)有限公司
【公開日】2015年10月14日
【申請日】2015年5月25日