明所述字幕特征序列s (η)能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落,以滿足對目標音頻文件的實際分段需求。如果判斷結(jié)果為否,表明所述字幕特征序列s (η)無法很好地被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落,無法滿足對目標音頻文件的實際分段需求,需要進行一些調(diào)整。
[0070]S209,調(diào)整所述預(yù)設(shè)相似閥值的大小以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0071]本步驟的調(diào)整過程可包括以下步驟s21-s22:
[0072]s21,若所述數(shù)量大于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯區(qū)間內(nèi)的最大容錯值,按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0073]如果所述數(shù)量大于M+u,則需要按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值Th的值,并重新執(zhí)行上述步驟sl3以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0074]s22,若所述數(shù)量小于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯區(qū)間內(nèi)的最大容錯值,按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0075]如果所述數(shù)量小于M-u,則需要按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值Th的值,并重新執(zhí)行上述步驟sl3以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0076]步驟s21-s22中,所述預(yù)設(shè)步長可以根據(jù)實際需要進行設(shè)定,所述預(yù)設(shè)步長可以為固定步長,即每次采用固定步長增大或減小所述預(yù)設(shè)相似閥值Th的值;所述預(yù)設(shè)步長也可以為隨機步長,即每次采用不同步長增大或減小所述預(yù)設(shè)相似閥值Th的值。
[0077]本實施例的步驟S207-步驟S209可以為圖1所示實施例的步驟S103的具體細化步驟。
[0078]S210,從優(yōu)化后的所述字幕特征序列中獲取數(shù)值為目標值的字符特征元素對應(yīng)的目標索引。假設(shè)優(yōu)化后的所述字幕特征序列s (η)中S(0) =0,s(l) =0-s(4) =l-s(10)=I…s (N-1) = 0,由于s (4) = I和s(10) = 1,s (4)對應(yīng)的索引為5,s(10)對應(yīng)的索引為11,本步驟可獲得目標索引為5和11。
[0079]S211,根據(jù)所述目標索引在所述字幕文件中定位段落轉(zhuǎn)折的字符單句。
[0080]所述目標索引為5和11,則可在所述字幕文件中定位段落轉(zhuǎn)折的字符單句為第5個字符單句和第11個字符單句,也就是說,第5個字符單句為一個字幕段落的起始位置,即所述字幕文件中第1-4個字符單句構(gòu)成一個字幕段落;第11個字符單句為另一個字幕段落的起始位置,即所述字幕文件中第5-10個字符單句構(gòu)成一個字幕段落。
[0081]S212,根據(jù)所述段落轉(zhuǎn)折的字符單句從所述字幕文件中讀取段落變化時間。
[0082]由于所述字幕文件中記錄了每個字符單句的時間屬性,包括每個字符單句的開始時間、持續(xù)時間、結(jié)束時間;本步驟可以從所述字幕文件中讀取段落變化時間,按照本實施例所示例子,所述字幕文件中第1-4個字符單句構(gòu)成一個字幕段落,那么所讀取的段落變化時間為:第4個字符單句的結(jié)束時間和第5個字符單句的開始時間;所述字幕文件中第5-10個字符單句構(gòu)成一個字幕段落,那么所讀取的段落變化時間為:第10個字符單句的結(jié)束時間和第11個字符單句的開始時間。
[0083]本實施例的步驟S210-步驟S212可以為圖1所示實施例的步驟S104的具體細化步驟。依據(jù)步驟S210-步驟S212可獲得M個字幕段落的起止時間。
[0084]S213,按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。由于音頻文件與字幕文件相互對應(yīng),那么,按照所獲得的M個字幕段落的起止時間,對應(yīng)地可以對所述目標音頻文件進行段落劃分,獲得M個音頻段落。
[0085]本實施例的步驟S213可參見圖1所示實施例的步驟S105,在此不贅述。
[0086]本發(fā)明實施例中,可根據(jù)目標音頻文件對應(yīng)的字幕文件中的至少一個字符單句之間的相似度構(gòu)建字幕特征序列,按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化,并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間,然后按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落,音頻處理過程利用字幕段落之間的字符單句的相似性特點,基于字幕文件中的字符單句的相似性實現(xiàn)對目標音頻文件的段落劃分,可提升分段處理效率,提升音頻處理的智能性。
[0087]下述將結(jié)合附圖3-附圖7,對本發(fā)明實施例提供的音頻處理裝置的結(jié)構(gòu)和功能進行詳細介紹。需要說明的是,下述附圖3-附圖7的所示的裝置可以運行于終端中,以被應(yīng)用于執(zhí)行上述附圖1-附圖2所示的方法。
[0088]請參見圖3,為本發(fā)明實施例提供的一種音頻處理裝置的結(jié)構(gòu)示意圖;該裝置可包括:獲取單元101、構(gòu)建單元102、優(yōu)化單元103、確定單元104和分段單元105。
[0089]獲取單元101,用于獲取目標音頻文件對應(yīng)的字幕文件,所述字幕文件由至少一個字符單句順序組成。
[0090]一個音頻文件對應(yīng)一個字幕文件。通常,互聯(lián)網(wǎng)音頻庫中會存儲多個音頻文件、每個音頻文件的屬性以及每個音頻文件對應(yīng)的字幕文件,其中,音頻文件的屬性可包括但不限于:音頻文件的音頻特征、音頻文件的標識等等。所述獲取單元101可以從互聯(lián)網(wǎng)音頻庫中獲取目標音頻文件對應(yīng)的字幕文件;具體的獲取方式可包括但不限于:可以根據(jù)目標音頻文件的標識,在互聯(lián)網(wǎng)音頻庫中查找該目標音頻文件對應(yīng)的字幕文件,并獲取所查找到的字幕文件;或者,可以提取目標音頻文件的音頻特征與互聯(lián)網(wǎng)音頻庫中的音頻文件的音頻特征進行匹配,由此在互聯(lián)網(wǎng)音頻庫中定位目標音頻文件,并獲取對應(yīng)的字幕文件。
[0091]本發(fā)明實施例中,假設(shè)目標音頻文件為歌曲A,歌曲A對應(yīng)的字幕文件的結(jié)構(gòu)可參見本實施例所示例子,假設(shè)所述字幕文件由N(N為正整數(shù))個字符單句順序組成,假設(shè)該N個字符單句采用P(0)至p(N-l)進行表示,那么,p(0)可用于表示第一個字符單句“aia2a3a4a5a6a7a8”,p⑴可用于表示第二個字符單句“b^bAbAbA”,p⑵可用于表示第三個字符單句“CiC&c&CjjCA”,以此類推,p (N-1)用于表示第N個字符單句。
[0092]構(gòu)建單元102,用于根據(jù)所述至少一個字符單句之間的相似度構(gòu)建字幕特征序列,所述字幕特征序列包括至少一個字符特征元素。
[0093]所述字幕特征序列可用于反映所述至少一個字符單句之間的相似度。首先所述構(gòu)建單元102可以采用相似度算法計算所述至少一個字符單句之間的相似度,此處需要計算每個字符單句與其在后字符單句之間的相似度,也就是說,需要計算P(0)與p(l)之間的相似度、P(0)與p(2)之間的相似度......p(0)與p(N-l)之間的相似度;計算p(l)與p⑵之間的相似度、P⑴與P(3)之間的相似度......p(l)與p(N-l)之間的相似度;以此類推。其中,相似度算法可包括但不限于:編輯距離算法、最長公共子串算法、Heckel算法、貪心字符串匹配算法等等。其次所述構(gòu)建單元102可以根據(jù)所述至少一個字符單句的數(shù)量、順序以及計算獲得的相似度構(gòu)建所述字幕特征序列。
[0094]按照本實施例所示例子,假設(shè)采用s(n)來表示所述字幕特征序列,則所構(gòu)建的字幕特征序列s(n)共包括N個字符特征元素,分別為s(0)、s(l)…s(N-l)。其中,s(0)的數(shù)值可用于描述P(0)與其在后字符單句之間的相似情況;s(l)的數(shù)值可用于描述P(l)與其在后字符單句之間的相似情況;以此類推。
[0095]優(yōu)化單元103,用于按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化。
[0096]所述預(yù)設(shè)段落總數(shù)可以根據(jù)用戶對目標音頻文件的實際分段需求設(shè)定。假設(shè)采用M(M為正整數(shù)且M>1)表示所述預(yù)設(shè)段落總數(shù),則所述優(yōu)化單元103按照預(yù)設(shè)段落總數(shù)M對所述字幕特征序列s(n)進行優(yōu)化的目的在于,使優(yōu)化后的所述字幕特征序列s(n)剛好能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落,以滿足對目標音頻文件的實際分段需求。
[0097]確定單元104,用于根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間。
[0098]其中,優(yōu)化后的所述字幕特征序列s(n)剛好能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落,同時,所述字幕特征序列s(n)中的字符特征元素的數(shù)值可用于描述字符單句之間的相似情況,那么,所述確定單元104根據(jù)優(yōu)化后的所述字幕特征序列s(n)中的字符特征元素的數(shù)值可以確定M個字幕段落的轉(zhuǎn)折點,進一步可從字幕文件中獲得M個字幕段落的起止時間。
[0099]分段單元105,用于按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。
[0100]由于音頻文件與字幕文件相互對應(yīng),那么,所述分段單元105按照所獲得的M個字幕段落的起止時間,對應(yīng)地可以對所述目標音頻文件進行段落劃分,獲得M個音頻段落。
[0101]本發(fā)明實施例中,可根據(jù)目標音頻文件對應(yīng)的字幕文件中的至少一個字符單句之間的相似度構(gòu)建字幕特征序列,按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化,并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間,然后按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落,音頻處理過程利用字幕段落之間的字符單句的相似性特點,基于字幕