一種音頻處理方法、裝置及終端的制作方法_3

文檔序號：9261964閱讀：來源：國知局

明所述字幕特征序列s (η)能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落，以滿足對目標音頻文件的實際分段需求。如果判斷結(jié)果為否，表明所述字幕特征序列s (η)無法很好地被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落，無法滿足對目標音頻文件的實際分段需求，需要進行一些調(diào)整。
[0070]S209，調(diào)整所述預(yù)設(shè)相似閥值的大小以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0071]本步驟的調(diào)整過程可包括以下步驟s21-s22:
[0072]s21，若所述數(shù)量大于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯區(qū)間內(nèi)的最大容錯值，按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0073]如果所述數(shù)量大于M+u，則需要按照預(yù)設(shè)步長增大所述預(yù)設(shè)相似閥值Th的值，并重新執(zhí)行上述步驟sl3以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0074]s22，若所述數(shù)量小于所述預(yù)設(shè)段落總數(shù)對應(yīng)的容錯區(qū)間內(nèi)的最大容錯值，按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0075]如果所述數(shù)量小于M-u，則需要按照預(yù)設(shè)步長減小所述預(yù)設(shè)相似閥值Th的值，并重新執(zhí)行上述步驟sl3以調(diào)整所述字幕特征序列中的各字符特征元素的數(shù)值。
[0076]步驟s21-s22中，所述預(yù)設(shè)步長可以根據(jù)實際需要進行設(shè)定，所述預(yù)設(shè)步長可以為固定步長，即每次采用固定步長增大或減小所述預(yù)設(shè)相似閥值Th的值；所述預(yù)設(shè)步長也可以為隨機步長，即每次采用不同步長增大或減小所述預(yù)設(shè)相似閥值Th的值。
[0077]本實施例的步驟S207-步驟S209可以為圖1所示實施例的步驟S103的具體細化步驟。
[0078]S210，從優(yōu)化后的所述字幕特征序列中獲取數(shù)值為目標值的字符特征元素對應(yīng)的目標索引。假設(shè)優(yōu)化后的所述字幕特征序列s (η)中S(0) =0，s(l) =0-s(4) =l-s(10)=I…s (N-1) = 0，由于s (4) = I和s(10) = 1，s (4)對應(yīng)的索引為5，s(10)對應(yīng)的索引為11，本步驟可獲得目標索引為5和11。
[0079]S211，根據(jù)所述目標索引在所述字幕文件中定位段落轉(zhuǎn)折的字符單句。
[0080]所述目標索引為5和11，則可在所述字幕文件中定位段落轉(zhuǎn)折的字符單句為第5個字符單句和第11個字符單句，也就是說，第5個字符單句為一個字幕段落的起始位置，即所述字幕文件中第1-4個字符單句構(gòu)成一個字幕段落；第11個字符單句為另一個字幕段落的起始位置，即所述字幕文件中第5-10個字符單句構(gòu)成一個字幕段落。
[0081]S212，根據(jù)所述段落轉(zhuǎn)折的字符單句從所述字幕文件中讀取段落變化時間。
[0082]由于所述字幕文件中記錄了每個字符單句的時間屬性，包括每個字符單句的開始時間、持續(xù)時間、結(jié)束時間；本步驟可以從所述字幕文件中讀取段落變化時間，按照本實施例所示例子，所述字幕文件中第1-4個字符單句構(gòu)成一個字幕段落，那么所讀取的段落變化時間為:第4個字符單句的結(jié)束時間和第5個字符單句的開始時間；所述字幕文件中第5-10個字符單句構(gòu)成一個字幕段落，那么所讀取的段落變化時間為:第10個字符單句的結(jié)束時間和第11個字符單句的開始時間。
[0083]本實施例的步驟S210-步驟S212可以為圖1所示實施例的步驟S104的具體細化步驟。依據(jù)步驟S210-步驟S212可獲得M個字幕段落的起止時間。
[0084]S213，按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。由于音頻文件與字幕文件相互對應(yīng)，那么，按照所獲得的M個字幕段落的起止時間，對應(yīng)地可以對所述目標音頻文件進行段落劃分，獲得M個音頻段落。
[0085]本實施例的步驟S213可參見圖1所示實施例的步驟S105，在此不贅述。
[0086]本發(fā)明實施例中，可根據(jù)目標音頻文件對應(yīng)的字幕文件中的至少一個字符單句之間的相似度構(gòu)建字幕特征序列，按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化，并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間，然后按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落，音頻處理過程利用字幕段落之間的字符單句的相似性特點，基于字幕文件中的字符單句的相似性實現(xiàn)對目標音頻文件的段落劃分，可提升分段處理效率，提升音頻處理的智能性。
[0087]下述將結(jié)合附圖3-附圖7，對本發(fā)明實施例提供的音頻處理裝置的結(jié)構(gòu)和功能進行詳細介紹。需要說明的是，下述附圖3-附圖7的所示的裝置可以運行于終端中，以被應(yīng)用于執(zhí)行上述附圖1-附圖2所示的方法。
[0088]請參見圖3，為本發(fā)明實施例提供的一種音頻處理裝置的結(jié)構(gòu)示意圖；該裝置可包括:獲取單元101、構(gòu)建單元102、優(yōu)化單元103、確定單元104和分段單元105。
[0089]獲取單元101，用于獲取目標音頻文件對應(yīng)的字幕文件，所述字幕文件由至少一個字符單句順序組成。
[0090]一個音頻文件對應(yīng)一個字幕文件。通常，互聯(lián)網(wǎng)音頻庫中會存儲多個音頻文件、每個音頻文件的屬性以及每個音頻文件對應(yīng)的字幕文件，其中，音頻文件的屬性可包括但不限于:音頻文件的音頻特征、音頻文件的標識等等。所述獲取單元101可以從互聯(lián)網(wǎng)音頻庫中獲取目標音頻文件對應(yīng)的字幕文件；具體的獲取方式可包括但不限于:可以根據(jù)目標音頻文件的標識，在互聯(lián)網(wǎng)音頻庫中查找該目標音頻文件對應(yīng)的字幕文件，并獲取所查找到的字幕文件；或者，可以提取目標音頻文件的音頻特征與互聯(lián)網(wǎng)音頻庫中的音頻文件的音頻特征進行匹配，由此在互聯(lián)網(wǎng)音頻庫中定位目標音頻文件，并獲取對應(yīng)的字幕文件。
[0091]本發(fā)明實施例中，假設(shè)目標音頻文件為歌曲A，歌曲A對應(yīng)的字幕文件的結(jié)構(gòu)可參見本實施例所示例子，假設(shè)所述字幕文件由N(N為正整數(shù))個字符單句順序組成，假設(shè)該N個字符單句采用P(0)至p(N-l)進行表示，那么，p(0)可用于表示第一個字符單句“aia2a3a4a5a6a7a8”，p⑴可用于表示第二個字符單句“b^bAbAbA”，p⑵可用于表示第三個字符單句“CiC&c&CjjCA”，以此類推，p (N-1)用于表示第N個字符單句。
[0092]構(gòu)建單元102，用于根據(jù)所述至少一個字符單句之間的相似度構(gòu)建字幕特征序列，所述字幕特征序列包括至少一個字符特征元素。
[0093]所述字幕特征序列可用于反映所述至少一個字符單句之間的相似度。首先所述構(gòu)建單元102可以采用相似度算法計算所述至少一個字符單句之間的相似度，此處需要計算每個字符單句與其在后字符單句之間的相似度，也就是說，需要計算P(0)與p(l)之間的相似度、P(0)與p(2)之間的相似度......p(0)與p(N-l)之間的相似度;計算p(l)與p⑵之間的相似度、P⑴與P(3)之間的相似度......p(l)與p(N-l)之間的相似度；以此類推。其中，相似度算法可包括但不限于:編輯距離算法、最長公共子串算法、Heckel算法、貪心字符串匹配算法等等。其次所述構(gòu)建單元102可以根據(jù)所述至少一個字符單句的數(shù)量、順序以及計算獲得的相似度構(gòu)建所述字幕特征序列。
[0094]按照本實施例所示例子，假設(shè)采用s(n)來表示所述字幕特征序列，則所構(gòu)建的字幕特征序列s(n)共包括N個字符特征元素，分別為s(0)、s(l)…s(N-l)。其中，s(0)的數(shù)值可用于描述P(0)與其在后字符單句之間的相似情況；s(l)的數(shù)值可用于描述P(l)與其在后字符單句之間的相似情況；以此類推。
[0095]優(yōu)化單元103，用于按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化。
[0096]所述預(yù)設(shè)段落總數(shù)可以根據(jù)用戶對目標音頻文件的實際分段需求設(shè)定。假設(shè)采用M(M為正整數(shù)且M>1)表示所述預(yù)設(shè)段落總數(shù)，則所述優(yōu)化單元103按照預(yù)設(shè)段落總數(shù)M對所述字幕特征序列s(n)進行優(yōu)化的目的在于，使優(yōu)化后的所述字幕特征序列s(n)剛好能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落，以滿足對目標音頻文件的實際分段需求。
[0097]確定單元104，用于根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間。
[0098]其中，優(yōu)化后的所述字幕特征序列s(n)剛好能夠被劃分為預(yù)設(shè)段落總數(shù)M個字幕段落，同時，所述字幕特征序列s(n)中的字符特征元素的數(shù)值可用于描述字符單句之間的相似情況，那么，所述確定單元104根據(jù)優(yōu)化后的所述字幕特征序列s(n)中的字符特征元素的數(shù)值可以確定M個字幕段落的轉(zhuǎn)折點，進一步可從字幕文件中獲得M個字幕段落的起止時間。
[0099]分段單元105，用于按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落。
[0100]由于音頻文件與字幕文件相互對應(yīng)，那么，所述分段單元105按照所獲得的M個字幕段落的起止時間，對應(yīng)地可以對所述目標音頻文件進行段落劃分，獲得M個音頻段落。
[0101]本發(fā)明實施例中，可根據(jù)目標音頻文件對應(yīng)的字幕文件中的至少一個字符單句之間的相似度構(gòu)建字幕特征序列，按照預(yù)設(shè)段落總數(shù)對所述字幕特征序列進行優(yōu)化，并根據(jù)優(yōu)化后的所述字幕特征序列中的至少一個字符特征元素的數(shù)值確定段落變化時間，然后按照所述段落變化時間將所述目標音頻文件劃分為所述預(yù)設(shè)段落總數(shù)的段落，音頻處理過程利用字幕段落之間的字符單句的相似性特點，基于字幕

完整全部詳細技術(shù)資料下載

當前第3頁1 2 3 4 5

相關(guān)技術(shù)