一種匹配檢測方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種匹配檢測方法及裝置,其中的方法可包括:構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列;根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子;采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列;根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹配檢測。本發(fā)明能夠?qū)σ纛l文件和字幕文件進行匹配檢測,滿足對音頻文件的應(yīng)用需求,提升音頻文件的應(yīng)用智能性。
【專利說明】-種匹配檢測方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及音頻處理【技術(shù)領(lǐng)域】,尤其涉及一種匹配檢 測方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)音頻庫中收錄了大量的諸如歌曲、歌曲片段等音 頻文件,關(guān)于互聯(lián)網(wǎng)音頻的應(yīng)用也日漸增多,例如:K歌系統(tǒng)、聽歌系統(tǒng)等等。在應(yīng)用音頻文 件的過程中,用戶通常希望播放音頻文件的同時獲得對應(yīng)的字幕信息,例如:用戶在演唱或 收聽某歌曲時,希望查看對應(yīng)的歌詞;等等,然而,音頻文件與字幕文件常常會出現(xiàn)不匹配 的情況,無法滿足用戶對音頻文件的使用需求,從而降低了音頻文件的應(yīng)用智能性。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明實施例所要解決的技術(shù)問題在于,提供一種匹配檢測方法及裝置,能夠?qū)?音頻文件和字幕文件進行匹配檢測,滿足對音頻文件的應(yīng)用需求,提升音頻文件的應(yīng)用智 能性。
[0004] 本發(fā)明實施例第一方面提供一種匹配檢測方法,可包括:
[0005] 構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列;
[0006] 根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子;
[0007] 采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列;
[0008] 根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹配檢測。
[0009] 本發(fā)明實施例第二方面提供一種匹配檢測裝置,可包括:
[0010] 構(gòu)建模塊,用于構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列;
[0011] 因子確定模塊,用于根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因 子;
[0012] 相關(guān)運算模塊,用于采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列;
[0013] 匹配檢測模塊,用于根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進 行匹配檢測。
[0014] 實施本發(fā)明實施例,具有如下有益效果:
[0015] 本發(fā)明實施例中,可根據(jù)音頻文件的音頻特征序列和字幕文件的字幕特征序列, 構(gòu)建相關(guān)函數(shù)序列;通過分析所述相關(guān)函數(shù)序列,了解所述音頻文件與所述字幕文件之間 的相關(guān)性,從而實現(xiàn)了對音頻文件和字幕文件之間的匹配檢測,既滿足了用戶對于音頻文 件的應(yīng)用過程中的實際需求,又提升了音頻文件的應(yīng)用智能性。
【專利附圖】
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
[0017] 圖1為本發(fā)明實施例提供的一種匹配檢測方法的流程圖;
[0018] 圖2為本發(fā)明實施例提供的另一種匹配檢測方法的流程圖;
[0019] 圖3為圖2所示的步驟S201的一個實施例的流程圖;
[0020] 圖4a為本發(fā)明實施例提供的一種構(gòu)建音頻文件的音頻特征序列的方法的流程 圖;
[0021] 圖4b為本發(fā)明實施例提供的一種構(gòu)建字幕文件的字幕特征序列的方法的流程 圖;
[0022] 圖5a為本發(fā)明實施例提供的一種確定相關(guān)因子的方法的流程圖;
[0023] 圖5b為本發(fā)明實施例提供的另一種確定相關(guān)因子的方法的流程圖;
[0024] 圖6a為本發(fā)明實施例提供的一種根據(jù)相關(guān)函數(shù)序列進行匹配檢測的方法的流程 圖;
[0025] 圖6b為本發(fā)明實施例提供的另一種根據(jù)相關(guān)函數(shù)序列進行匹配檢測的方法的流 程圖;
[0026] 圖7為本發(fā)明實施例提供的一種匹配檢測裝置的結(jié)構(gòu)示意圖;
[0027] 圖8為本發(fā)明實施例提供的另一種匹配檢測裝置的結(jié)構(gòu)示意圖;
[0028] 圖9為本發(fā)明實施例提供的一種預(yù)處理模塊的結(jié)構(gòu)示意圖;
[0029] 圖10a為本發(fā)明實施例提供的一種構(gòu)建模塊的結(jié)構(gòu)示意圖;
[0030] 圖10b為本發(fā)明實施例提供的另一種構(gòu)建模塊的結(jié)構(gòu)示意圖;
[0031] 圖11a為本發(fā)明實施例提供的一種因子確定模塊的結(jié)構(gòu)示意圖;
[0032] 圖lib為本發(fā)明實施例提供的另一種因子確定模塊的結(jié)構(gòu)示意圖;
[0033] 圖12a為本發(fā)明實施例提供的一種匹配檢測模塊的結(jié)構(gòu)示意圖;
[0034] 圖12b為本發(fā)明實施例提供的另一種匹配檢測模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0035] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0036] 本發(fā)明實施例中,音頻文件可以包括但不限于:歌曲、歌曲片段等文件。字幕文件 可以包括但不限于:歌詞、歌詞片段等文件。一個音頻文件可由至少一個音頻單句順序排列 而成,該至少一個音頻單句的集合描述了音頻文件中演唱內(nèi)容部分;音頻單句之間還可包 括無演唱內(nèi)容部分。以歌曲A為例,歌曲A的描述可表示如下:
[0037] [661,770], [661,20] &1 [661,60] a2 [721,170] a3 [891,200] a4 [1091,70] a5 [1161, 180]a6[1341,20]a7[1361,50]a8
[0038] [1541,180], [1541,20]b![1561,50]b2[1611,20]bs[1631,30]b 4[1661,0]b5[1661, 10]b6[1671,20]b 7[1701,30]b8
[0039] [1871,730], [1871,60]Cl[1931,100]c2[2031,110]c3[2141,200]c 4[2341,70] c5 [2411,60]c6[2471,50]c7[2421,80]c8
[0040] ......
[0041] 上述歌曲 A 的描述中,諸如"a^a^asaj^ag"、"b^bgb^bjjbX"、"(^(32(33(3 4(35(36(37(38" 可分別用于表示一個音頻單句,各音頻單句之前的"[]"用于描述對應(yīng)的音頻單句的時間 屬性,其單位時間通常為ms,例如:上述[661,770]用于描述音頻單句"aia^aAajjaA"的 時間屬性,其中的"661"表示音頻單句1%----%?"的開始時間,"770"表示音頻單 句,'的持續(xù)時間,假設(shè)歌曲A共5分鐘,音頻單句,'貝1J從第 661ms開始演唱,持續(xù)770ms結(jié)束演唱。各音頻單句中,每個音頻字之前的"[]"用于描述對 應(yīng)的音頻字的時間屬性,其單位時間通常為ms,例如:上述[661,20]用于描述音頻字"a/' 的時間屬性,其中的"661"表示音頻字"a/'的開始時間,"20"表示音頻字"a/'的持續(xù)時間。 按照開始時間的先后順序,可確定音頻文件包含的各音頻單句的順序,例如:根據(jù)上述歌曲 A的描述,音頻單句"aia2a3a4a5a 6a7a8"為第一個音頻單句,其在歌曲A中的順序為1 ;音頻單 句"卟21^4咕6¥8"為第二個音頻單句,其在歌曲A中的順序為2 ;以此類推??梢岳斫獾?是,每個音頻單句開始之前或結(jié)束之后還可包含無演唱內(nèi)容,例如:上述歌曲A的0-661ms 時間段則為無演唱內(nèi)容部分,該部分可包含前奏信息。
[0042] 一個字幕文件可由至少一個顯示字符單句順序排列而成,該至少一個顯示字符單 句的集合描述了字幕文件中的顯示內(nèi)容部分;顯示字符單句之間還可包括空白字符,空白 字符描述了字幕文件中無顯示內(nèi)容部分。
[0043] 下面將結(jié)合圖1-圖6,對本發(fā)明實施例提供的匹配檢測方法進行詳細介紹。
[0044] 請參見圖1,為本發(fā)明實施例提供的一種匹配檢測方法的流程圖;該方法可包括 以下步驟S101-步驟S104。
[0045] S101,構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列。
[0046] 所述音頻特征序列可由至少一個音頻元素通過其取值及索引構(gòu)建形成,其中,音 頻元素的索引指該音頻元素在所述音頻特征序列中的順序,可用于表征所述音頻文件的時 間特征;音頻元素的值可用于體現(xiàn)所述音頻文件的演唱特征;例如:某音頻元素的值為第 一預(yù)設(shè)值(例如:第一預(yù)設(shè)值為1),可表示音頻文件中該音頻元素的索引所表征的時間片 為演唱內(nèi)容部分;或者,某音頻元素的值為第二預(yù)設(shè)值(例如:第二預(yù)設(shè)值為〇),可表示音 頻文件中該音頻元素的索引所表征的時間片為無演唱內(nèi)容部分。
[0047] 所述字幕特征序列可由至少一個字幕元素通過其取值及索引構(gòu)建形成,其中,字 幕元素的索引指該字幕元素在所述字幕特征序列中的順序,可用于表征所述字幕文件的時 間特征;字幕元素的值可用于體現(xiàn)所述字幕文件的字符特征;例如:某字幕元素的值為第 一預(yù)設(shè)值(例如:第一預(yù)設(shè)值為1),可表示字幕文件中該字幕元素的索引所表征的時間片 為顯示內(nèi)容部分;或者,某字幕元素的值為第二預(yù)設(shè)值(例如:第二預(yù)設(shè)值為0),可表示字 幕文件中該字幕元素的索引所表征的時間片為無顯示內(nèi)容部分。
[0048] S102,根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子。
[0049] S103,采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列。
[0050] 其中,所述相關(guān)因子可用于表征所述音頻特征序列的音頻元素和所述字幕特征序 列的字幕元素之間的關(guān)系。采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列,所述相關(guān) 函數(shù)序列可以表征所述音頻文件和所述字幕文件的相關(guān)性。
[0051] S104,根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹配檢測。
[0052] 由于所述相關(guān)函數(shù)序列可用于表征所述音頻文件和所述字幕文件的相關(guān)性,本步 驟中,通過分析所述相關(guān)函數(shù)序列,可檢測所述音頻文件和所述字幕文件的匹配情況。具體 地,若所述音頻文件和所述字幕文件的相關(guān)性越高,所述音頻文件和所述字幕文件越匹配; 反之,若所述音頻文件和所述字幕文件的相關(guān)性越低,所述音頻文件和所述字幕文件越不 匹配。
[0053] 本發(fā)明實施例中,可根據(jù)音頻文件的音頻特征序列和字幕文件的字幕特征序列, 構(gòu)建相關(guān)函數(shù)序列;通過分析所述相關(guān)函數(shù)序列,了解所述音頻文件與所述字幕文件之間 的相關(guān)性,從而實現(xiàn)了對音頻文件和字幕文件之間的匹配檢測,既滿足了用戶對于音頻文 件的應(yīng)用過程中的實際需求,又提升了音頻文件的應(yīng)用智能性。
[0054] 請參見圖2,為本發(fā)明實施例提供的另一種匹配檢測方法的流程圖;該方法可包 括以下步驟S201-步驟S205。
[0055] S201,對所述音頻文件和所述字幕文件進行預(yù)處理。
[0056] 本步驟中,對所述音頻文件和所述字幕文件進行預(yù)處理的目的在于:使所述音頻 文件的播放時長與所述字幕文件的顯示時長相統(tǒng)一,以使后續(xù)的匹配檢測結(jié)果更為準(zhǔn)確。
[0057] S202,構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列。
[0058] S203,根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子。
[0059] S204,采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列。
[0060] S205,根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹配檢測。
[0061] 本實施例的步驟S202-步驟S205可參見圖1所示實施例的步驟S101-步驟S104, 在此不贅述。
[0062] 本發(fā)明實施例中,可根據(jù)音頻文件的音頻特征序列和字幕文件的字幕特征序列, 構(gòu)建相關(guān)函數(shù)序列;通過分析所述相關(guān)函數(shù)序列,了解所述音頻文件與所述字幕文件之間 的相關(guān)性,從而實現(xiàn)了對音頻文件和字幕文件之間的匹配檢測,既滿足了用戶對于音頻文 件的應(yīng)用過程中的實際需求,又提升了音頻文件的應(yīng)用智能性。
[0063] 請參見圖3,為圖2所示的步驟S201的一個實施例的流程圖;該步驟S201可包括 以下步驟slOOl-步驟sl004。
[0064] S1001,獲取所述音頻文件的源播放時長和所述字幕文件的源顯示時長。
[0065] 所述音頻文件的源播放時長為:所述音頻文件中演唱內(nèi)容部分的時長和無演唱內(nèi) 容部分的時長總和,例如:假設(shè)歌曲A共5分鐘,其中演唱內(nèi)容部分的時長為4分鐘,無演唱 內(nèi)容部分的時長為1分鐘,則本步驟所獲取的所述音頻文件的源播放時長為5分鐘。
[0066] 所述字幕文件的源顯示時長為:所述字幕文件中顯示內(nèi)容部分的時長和無顯示內(nèi) 容部分的時長總和,例如:假設(shè)歌曲A的歌詞文件共需要顯示4. 5分鐘,其中顯示內(nèi)容部分 的時長為4分鐘,無顯示內(nèi)容部分的時長為0. 5分鐘,則本步驟所獲取的所述字幕文件的源 顯示時長為4. 5分鐘。
[0067] sl002,選取所述源播放時長和所述源顯示時長二者中的最大者,將所選取的最大 者作為基準(zhǔn)時長。
[0068] 按照步驟slOOl中所示例子,所述源播放時長為5分鐘,所述源顯示時長為4. 5分 鐘,本步驟則選取5分鐘作為基準(zhǔn)時長,該基準(zhǔn)時長可表示為Tmax。
[0069] S1003,采用所述基準(zhǔn)時長對所述音頻文件的源播放時長進行歸整處理,獲得所述 音頻文件的目標(biāo)播放時長。
[0070] S1004,采用所述基準(zhǔn)時長對所述音頻文件的源顯示時長進行歸整處理,獲得所述 字幕文件的目標(biāo)顯示時長。
[0071] 步驟sl003-sl004中,歸整處理的目的是使所述音頻文件的播放時長與所述字幕 文件的顯示時長相統(tǒng)一,以使后續(xù)的匹配檢測結(jié)果更為準(zhǔn)確。具體地,由于基準(zhǔn)時長T max等 于所述音頻文件的源播放時長,因此,步驟S1003中可直接將該基準(zhǔn)時長Tmax作為所述音 頻文件的目標(biāo)播放時長。由于基準(zhǔn)時長T max大于所述字幕文件的源顯示時長,因此,步驟 S1004中的歸整處理過程可包括:在所述字幕文件的結(jié)束時間點之后插入空白字符,使所 述字幕文件的源顯示時長增加至Tmax,歸整處理之后,所述字幕文件的目標(biāo)顯示時長也為該 基準(zhǔn)時長T max。
[0072] 本發(fā)明實施例中,可根據(jù)音頻文件的音頻特征序列和字幕文件的字幕特征序列, 構(gòu)建相關(guān)函數(shù)序列;通過分析所述相關(guān)函數(shù)序列,了解所述音頻文件與所述字幕文件之間 的相關(guān)性,從而實現(xiàn)了對音頻文件和字幕文件之間的匹配檢測,既滿足了用戶對于音頻文 件的應(yīng)用過程中的實際需求,又提升了音頻文件的應(yīng)用智能性。
[0073] 請參見圖4a,為本發(fā)明實施例提供的一種構(gòu)建音頻文件的音頻特征序列的方法的 流程圖;本實施例可以為圖1所示的步驟S101的具體細化流程,也可以為圖2所示的步驟 S202的具體細化流程。該方法可包括以下步驟s2001-步驟s2006。
[0074] S2001,按照預(yù)設(shè)時間刻度對所述音頻文件的目標(biāo)播放時長進行等分處理,獲得至 少一個播放時間片。
[0075] 所述預(yù)設(shè)時間刻度可根據(jù)實際需要進行設(shè)定,例如:可考慮節(jié)拍因素,一個節(jié)拍通 常為200ms,可將時間刻度設(shè)定為節(jié)拍的倍數(shù),諸如:100ms、200ms、400ms等等。所述預(yù)設(shè)時 間刻度可采用T表示,本步驟中,可采用公式(1)進行等分處理,該公式(1)可表示如下:
[0076] N = Tmax/T (1)
[0077] 上述公式(1)中,N為正整數(shù)。通過上述公式(1),所述音頻文件的目標(biāo)播放時長 Tmax被劃分為N個播放時間片;例如:假設(shè)N為10, Tmax等于5分鐘(0-4分59秒),則第一 個播放時間片為0-29秒,第二個播放時間片為30秒-59秒,以此類推,第N個播放時間片 為4分30秒 -4分59秒。
[0078] S2002,根據(jù)所述至少一個播放時間片的數(shù)量,確定構(gòu)建所述音頻特征序列的音頻 元素的數(shù)量。
[0079] 所述播放時間片的數(shù)量等于所述音頻元素的數(shù)量。本步驟中,可確定構(gòu)建所述音 頻特征序列的音頻元素的數(shù)量為N,即確定所述音頻特征序列由N個音頻元素構(gòu)成。
[0080] S2003,根據(jù)所述至少一個播放時間片中各播放時間片的順序,確定構(gòu)建所述音頻 特征序列的各音頻元素的索引。
[0081] 所述播放時間片的順序與所述音頻元素的索引一一對應(yīng);具體地,第一個播放時 間片的順序為1,該第一個播放時間片對應(yīng)的音頻元素的索引為1 ;第二個播放時間片的順 序為2,該第二個播放時間片對應(yīng)的音頻元素的索引為2 ;以此類推,第N個播放時間片的順 序為,該第N個播放時間片對應(yīng)的音頻元素的索引為N。
[0082] s2004,計算所述各播放時間片內(nèi)的能量。
[0083] 設(shè)定一個播放時間片內(nèi)包括L(L為小于等于N的正整數(shù))個音頻幀,一個播放時 間片內(nèi)的音頻可以為該L個音頻幀順序排列構(gòu)成,則一個播放時間片內(nèi)的音頻序列可表示 為其中x(j),j為整數(shù),且〇彡j彡L-1。本實施例中,N個播放時間片中每個播放時間片內(nèi) 的音頻序列可表示為 Xl (j),i為整數(shù),且〇彡i彡N-l,i表示播放時間片的順序或音頻元 素的索引。具體地,第一個播放時間片的音頻序列可表示為&(·]_),第二個播放時間片的音 頻序列可表示為 Xl(j),以此類推,第N個播放時間片的音頻序列可表示為XN_i(j)。
[0084] 本步驟中,可采用公式(2)計算各播放時間片內(nèi)的能量,該公式(2)可表示如下:
[0085]
【權(quán)利要求】
1. 一種匹配檢測方法,其特征在于,包括: 構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列; 根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子; 采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列; 根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹配檢測。
2. 如權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建音頻文件的音頻特征序列和字幕 文件的字幕特征序列之前,還包括: 對所述音頻文件和所述字幕文件進行預(yù)處理。
3. 如權(quán)利要求2所述的方法,其特征在于,所述對所述音頻文件和所述字幕文件進行 預(yù)處理,包括: 獲取所述音頻文件的源播放時長和所述字幕文件的源顯示時長; 選取所述源播放時長和所述源顯示時長二者中的最大者,將所選取的最大者作為基準(zhǔn) 時長; 采用所述基準(zhǔn)時長對所述音頻文件的源播放時長進行歸整處理,獲得所述音頻文件的 目標(biāo)播放時長; 采用所述基準(zhǔn)時長對所述音頻文件的源顯示時長進行歸整處理,獲得所述字幕文件的 目標(biāo)顯示時長。
4. 如權(quán)利要求3所述的方法,其特征在于,所述構(gòu)建音頻文件的音頻特征序列,包括: 按照預(yù)設(shè)時間刻度對所述音頻文件的目標(biāo)播放時長進行等分處理,獲得至少一個播放 時間片; 根據(jù)所述至少一個播放時間片的數(shù)量,確定構(gòu)建所述音頻特征序列的音頻元素的數(shù) 量; 根據(jù)所述至少一個播放時間片中各播放時間片的順序,確定構(gòu)建所述音頻特征序列的 各音頻元素的索引; 計算所述各播放時間片內(nèi)的能量; 根據(jù)所述各播放時間片內(nèi)的能量,設(shè)置構(gòu)建所述音頻特征序列的各音頻元素的值; 按照構(gòu)建所述音頻特征序列的各音頻元素的值及索引,構(gòu)建所述音頻文件的音頻特征 序列。
5. 如權(quán)利要求4所述的方法,其特征在于,所述構(gòu)建字幕文件的字幕特征序列,包括: 按照預(yù)設(shè)時間刻度對所述字幕文件的目標(biāo)顯示時長進行等分處理,獲得至少一個顯示 時間片; 根據(jù)所述至少一個顯示時間片的數(shù)量,確定構(gòu)建所述字幕特征序列的字幕元素的數(shù) 量; 根據(jù)所述至少一個顯示時間片中各顯示時間片的順序,確定構(gòu)建所述字幕特征序列的 各字幕元素的索引; 根據(jù)所述各顯示時間片與所述字幕文件中包含的字符的對應(yīng)關(guān)系,設(shè)置構(gòu)建所述字幕 特征序列的各字幕元素的值; 按照構(gòu)建所述字幕特征序列的各字幕元素的值及索引,構(gòu)建所述字幕文件的字幕特征 序列。
6. 如權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述音頻特征序列和所 述字幕特征序列,確定相關(guān)因子,包括: 對所述音頻特征序列進行循環(huán)移動,獲得所述音頻文件的音頻轉(zhuǎn)換序列; 統(tǒng)計所述音頻轉(zhuǎn)換序列與所述字幕特征序列中等值元素的數(shù)量,獲得第一相關(guān)因子; 統(tǒng)計所述音頻轉(zhuǎn)換序列與所述字幕特征序列中非等值元素的數(shù)量,獲得第二相關(guān)因 子。
7. 如權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述音頻特征序列和所 述字幕特征序列,確定相關(guān)因子,包括: 對所述字幕特征序列進行循環(huán)移動,獲得所述字幕文件的字幕轉(zhuǎn)換序列; 統(tǒng)計所述音頻特征序列與所述字幕轉(zhuǎn)換序列中等值元素的數(shù)量,獲得第三相關(guān)因子; 統(tǒng)計所述音頻特征序列與所述字幕轉(zhuǎn)換序列中非等值元素的數(shù)量,獲得第四相關(guān)因 子。
8. 如權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述相關(guān)函數(shù)序列,對所 述音頻文件和所述字幕文件進行匹配檢測,包括: 計算所述相關(guān)函數(shù)序列的最大值; 判斷所述最大值是否大于或等于預(yù)設(shè)閾值; 若所述最大值大于或等于所述預(yù)設(shè)閾值,確定所述音頻文件與所述字幕文件相匹配; 若所述最大值小于所述預(yù)設(shè)閾值,確定所述音頻文件與所述字幕文件不匹配。
9. 如權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述相關(guān)函數(shù)序列,對所 述音頻文件和所述字幕文件進行匹配檢測,包括: 根據(jù)所述相關(guān)函數(shù)序列,計算所述音頻文件的播放時間與所述字幕文件的顯示時間之 間的時間差; 判斷所述時間差是否位于預(yù)設(shè)時間范圍內(nèi); 若所述時間差位于所述預(yù)設(shè)時間范圍內(nèi),確定所述音頻文件與所述字幕文件相匹配; 若所述時間差位于所述預(yù)設(shè)時間范圍外,確定所述音頻文件與所述字幕文件不匹配。
10. 如權(quán)利要求9所述的方法,其特征在于,所述確定所述音頻文件與所述字幕文件相 匹配之后,還包括: 根據(jù)所述時間差,對所述音頻文件的播放時間和所述字幕文件的顯示時間進行校準(zhǔn)處 理。
11. 一種匹配檢測裝置,其特征在于,包括: 構(gòu)建模塊,用于構(gòu)建音頻文件的音頻特征序列和字幕文件的字幕特征序列; 因子確定模塊,用于根據(jù)所述音頻特征序列和所述字幕特征序列,確定相關(guān)因子; 相關(guān)運算模塊,用于采用所述相關(guān)因子進行相關(guān)運算,獲得相關(guān)函數(shù)序列; 匹配檢測模塊,用于根據(jù)所述相關(guān)函數(shù)序列,對所述音頻文件和所述字幕文件進行匹 配檢測。
12. 如權(quán)利要求11所述的裝置,其特征在于,還包括: 預(yù)處理模塊,用于對所述音頻文件和所述字幕文件進行預(yù)處理。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述預(yù)處理模塊包括: 時長獲取單元,用于獲取所述音頻文件的源播放時長和所述字幕文件的源顯示時長; 基準(zhǔn)選取單元,用于選取所述源播放時長和所述源顯示時長二者中的最大者,將所選 取的最大者作為基準(zhǔn)時長; 第一歸整單元,用于采用所述基準(zhǔn)時長對所述音頻文件的源播放時長進行歸整處理, 獲得所述音頻文件的目標(biāo)播放時長; 第二歸整單元,用于采用所述基準(zhǔn)時長對所述音頻文件的源顯示時長進行歸整處理, 獲得所述字幕文件的目標(biāo)顯示時長。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述構(gòu)建模塊包括: 播放時長處理單元,用于按照預(yù)設(shè)時間刻度對所述音頻文件的目標(biāo)播放時長進行等分 處理,獲得至少一個播放時間片; 第一數(shù)量確定單元,用于根據(jù)所述至少一個播放時間片的數(shù)量,確定構(gòu)建所述音頻特 征序列的音頻元素的數(shù)量; 第一索引確定單元,用于根據(jù)所述至少一個播放時間片中各播放時間片的順序,確定 構(gòu)建所述音頻特征序列的各音頻元素的索引; 能量計算單元,用于計算所述各播放時間片內(nèi)的能量; 音頻元素賦值單元,用于根據(jù)所述各播放時間片內(nèi)的能量,設(shè)置構(gòu)建所述音頻特征序 列的各音頻元素的值; 第一構(gòu)建單元,用于按照構(gòu)建所述音頻特征序列的各音頻元素的值及索引,構(gòu)建所述 音頻文件的音頻特征序列。
15. 如權(quán)利要求14所述的裝置,其特征在于,所述構(gòu)建模塊包括: 顯示時長處理單元,用于按照預(yù)設(shè)時間刻度對所述字幕文件的目標(biāo)顯示時長進行等分 處理,獲得至少一個顯示時間片; 第二數(shù)量確定單元,用于根據(jù)所述至少一個顯示時間片的數(shù)量,確定構(gòu)建所述字幕特 征序列的字幕元素的數(shù)量; 第二索引確定單元,用于根據(jù)所述至少一個顯示時間片中各顯示時間片的順序,確定 構(gòu)建所述字幕特征序列的各字幕元素的索引; 字幕元素賦值單元,用于根據(jù)所述各顯示時間片與所述字幕文件中包含的字符的對應(yīng) 關(guān)系,設(shè)置構(gòu)建所述字幕特征序列的各字幕元素的值; 第二構(gòu)建單元,用于按照構(gòu)建所述字幕特征序列的各字幕元素的值及索引,構(gòu)建所述 字幕文件的字幕特征序列。
16. 如權(quán)利要求11-15任一項所述的裝置,其特征在于,所述因子確定模塊包括: 音頻移動單元,用于對所述音頻特征序列進行循環(huán)移動,獲得所述音頻文件的音頻轉(zhuǎn) 換序列; 第一統(tǒng)計單元,用于統(tǒng)計所述音頻轉(zhuǎn)換序列與所述字幕特征序列中等值元素的數(shù)量, 獲得第一相關(guān)因子; 第二統(tǒng)計單元,用于統(tǒng)計所述音頻轉(zhuǎn)換序列與所述字幕特征序列中非等值元素的數(shù) 量,獲得第二相關(guān)因子。
17. 如權(quán)利要求11-15任一項所述的裝置,其特征在于,所述因子確定模塊包括: 字幕移動單元,用于對所述字幕特征序列進行循環(huán)移動,獲得所述字幕文件的字幕轉(zhuǎn) 換序列; 第三統(tǒng)計單元,用于統(tǒng)計所述音頻特征序列與所述字幕轉(zhuǎn)換序列中等值元素的數(shù)量, 獲得第三相關(guān)因子; 第四統(tǒng)計單元,用于統(tǒng)計所述音頻特征序列與所述字幕轉(zhuǎn)換序列中非等值元素的數(shù) 量,獲得第四相關(guān)因子。
18. 如權(quán)利要求11-15任一項所述的裝置,其特征在于,所述匹配檢測模塊包括: 最大值計算單元,用于計算所述相關(guān)函數(shù)序列的最大值; 第一判斷單元,用于判斷所述最大值是否大于或等于預(yù)設(shè)閾值; 第一結(jié)果確定單元,用于若所述最大值大于或等于所述預(yù)設(shè)閾值,確定所述音頻文件 與所述字幕文件相匹配;或者,用于若所述最大值小于所述預(yù)設(shè)閾值,確定所述音頻文件與 所述字幕文件不匹配。
19. 如權(quán)利要求11-15任一項所述的裝置,其特征在于,所述匹配檢測模塊包括: 時間差計算單元,用于根據(jù)所述相關(guān)函數(shù)序列,計算所述音頻文件的播放時間與所述 字幕文件的顯示時間之間的時間差; 第二判斷單元,用于判斷所述時間差是否位于預(yù)設(shè)時間范圍內(nèi); 第二確定單元,用于若所述時間差位于所述預(yù)設(shè)時間范圍內(nèi),確定所述音頻文件與所 述字幕文件相匹配;或者,用于若所述時間差位于所述預(yù)設(shè)時間范圍外,確定所述音頻文件 與所述字幕文件不匹配。
20. 如權(quán)利要求19所述的裝置,其特征在于,所述匹配檢測模塊還包括: 校準(zhǔn)處理單元,用于根據(jù)所述時間差,對所述音頻文件的播放時間和所述字幕文件的 顯示時間進行校準(zhǔn)處理。
【文檔編號】G06F17/30GK104142989SQ201410362558
【公開日】2014年11月12日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】趙偉峰 申請人:騰訊科技(深圳)有限公司