實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【專(zhuān)利摘要】本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】,公開(kāi)了一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。該系統(tǒng)包括:獲取模塊,用于獲取各音頻文件;特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征;匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式。利用本發(fā)明,可以實(shí)現(xiàn)大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
【專(zhuān)利說(shuō)明】實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】,具體涉及一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來(lái)越多的音頻數(shù)據(jù)出現(xiàn)在人們的日常生活中。和文本數(shù)據(jù)不同,音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù),對(duì)其處理也更為困難。音頻信號(hào)處理在信息安全和輿情監(jiān)控應(yīng)用中有著非常重要的應(yīng)用價(jià)值,特別是從海量音頻數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)頻繁出現(xiàn)的音頻片段,即音頻文件重復(fù)發(fā)現(xiàn),有實(shí)際意義。對(duì)電話類(lèi)音頻數(shù)據(jù),利用該技術(shù)可以快速發(fā)現(xiàn)正在傳播的非法電話錄音。而對(duì)互聯(lián)網(wǎng)音視頻數(shù)據(jù),利用該技術(shù)可以快速準(zhǔn)確地挖掘出目前最流行的音視頻片段。進(jìn)一步地,通過(guò)音頻文件重復(fù)模式發(fā)現(xiàn)技術(shù)可獲得重復(fù)音頻模板庫(kù),便于利用所述音頻模板匹配技術(shù)檢測(cè)新增音頻文件中是否包含模板庫(kù)中的音頻片段,實(shí)現(xiàn)快速定位確認(rèn),及時(shí)了解音頻模板庫(kù)中的音頻模板在電話網(wǎng)或互聯(lián)網(wǎng)上的傳播情況。
[0003]現(xiàn)有的重復(fù)模式發(fā)現(xiàn)技術(shù)只能處理符號(hào)化數(shù)據(jù)的重復(fù)子集發(fā)現(xiàn)問(wèn)題,對(duì)信號(hào)級(jí)別的音頻數(shù)據(jù)沒(méi)有可以使用的有效方案。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,以解決在海量音頻庫(kù)中重復(fù)片段自動(dòng)搜索的問(wèn)題。
[0005]為此,本發(fā)明提供如下技術(shù)方案:
[0006]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),包括:
[0007]獲取模塊,用于獲取各音頻文件;
[0008]特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征;
[0009]匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0010]合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0011]優(yōu)選地,所述特征提取模塊包括:
[0012]降采樣單元,用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣;
[0013]矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0014]優(yōu)選地,所述匹配模塊包括:
[0015]粗匹配單元,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界;
[0016]合并單元,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí),將所述兩個(gè)重復(fù)子段合并;[0017]精確匹配模塊,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0018]優(yōu)選地,所述粗匹配單元包括:
[0019]提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0020]查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0021]第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0022]第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0023]優(yōu)選地,所述精確匹配單元包括:
[0024]第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0025]判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展;
[0026]第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0027]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,包括:
[0028]獲取各音頻文件;
[0029]從所述音頻文件中提取音頻比對(duì)特征;
[0030]基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0031]將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0032]優(yōu)選地,所述從各音頻文件中提取音頻特征包括:
[0033]對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣;
[0034]將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0035]優(yōu)選地,所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段包括:
[0036]基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界;
[0037]如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值,則將所述兩個(gè)重復(fù)子段合并;
[0038]基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0039]優(yōu)選地,所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界包括:
[0040]依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0041]查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0042]查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0043]在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。[0044]優(yōu)選地,所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括:
[0045]對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0046]如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止擴(kuò)展;
[0047]在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0048]本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0049]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0050]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
[0051]圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的一種結(jié)構(gòu)框圖;
[0052]圖2是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖;
[0053]圖3是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的方法的流程圖;
[0054]圖4是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖;
[0055]圖5是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖;
[0056]圖6是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖;
[0057]圖7是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
【具體實(shí)施方式】
[0058]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0059]重復(fù)模式發(fā)現(xiàn)即搜索數(shù)據(jù)庫(kù)中重復(fù)出現(xiàn)的模式,是數(shù)據(jù)挖掘領(lǐng)域的任務(wù)之一。重復(fù)模式發(fā)現(xiàn)技術(shù)在符合一定結(jié)構(gòu)的符號(hào)類(lèi)數(shù)據(jù)庫(kù)中有著較為廣泛的應(yīng)用,包括對(duì)數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的項(xiàng)集、子序列、字結(jié)構(gòu)等的發(fā)現(xiàn)。如文本數(shù)據(jù)中的重復(fù)模式即指重復(fù)出現(xiàn)的句子或段落等。對(duì)符號(hào)類(lèi)數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)可以利用傳統(tǒng)高效的Apriori等算法獲得。
[0060]由于音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù),現(xiàn)有的Apriori算法并不適用,而且目前沒(méi)有任何方案可以解決音頻數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)問(wèn)題。
[0061]為此,本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0062]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0063]如圖1所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的系統(tǒng)的結(jié)構(gòu)示意圖。
[0064]在該實(shí)施例中,所述系統(tǒng)包括:
[0065]獲取模塊101,用于獲取各音頻文件;
[0066]特征提取模塊102,用于從所述音頻文件中提取音頻比對(duì)特征。
[0067]匹配模塊103,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0068]合并模塊104,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0069]具體地,合并模塊104在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí),可以利用每組結(jié)果在音頻文件中的位置信息,考慮多組結(jié)果之間的相交疊部分比例等。
[0070]比如,音頻文件A的片段[tl,t2]與音頻文件B的片段[t3,t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5,t6]與音頻文件C的片段[t7,t8]是長(zhǎng)度為len2的相同片段。其中,t4>t5H3,t6>t4,即[t3,t4]與[t5, t6]是有交疊的,交疊部分為[t4,t5]。因此,音頻文件B中的片段[t4,t5]是音頻文件A、B、C中存在的重復(fù)音頻片段,長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl,t2]、音頻文件B的片段[t3,t4]、音頻文件B的片段[t5,t6]、音頻文件C的片段[t7,t8]中找出公共部分,即上述片段[t4,t5]。
[0071]在實(shí)際應(yīng)用中,上述獲取模塊101具體可以從音頻文件庫(kù)中得到各音頻文件。
[0072]特征提取模塊102可以包括降采樣單元和矢量轉(zhuǎn)化單元(未圖示)。其中:
[0073]所述降采樣單元用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣。
[0074]所述矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。具體地,可以通過(guò)頻譜分析,利用加窗FFT(Fast Fourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分,逐一計(jì)算子帶能量,對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化,即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0075]在本發(fā)明實(shí)施例中,匹配模塊103首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并,即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段,最后通過(guò)精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置,獲得精確的重復(fù)音頻片段。
[0076]如圖2所示,是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖。
[0077]在該實(shí)施例中,所述匹配模塊包括:
[0078]粗匹配單元201,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界,具體過(guò)程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0079]合并單元202,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí),將所述兩個(gè)重復(fù)子段合并。
[0080]精確匹配單元203,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段,具體過(guò)程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0081]在本發(fā)明實(shí)施例中,所述粗匹配單元201包括:
[0082]提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0083]查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0084]第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0085]第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0086]在本發(fā)明實(shí)施例中,所述精確匹配單元203包括:
[0087]第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0088]判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展;
[0089]第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0090]可見(jiàn),本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0091]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0092]相應(yīng)地,本發(fā)明實(shí)施例還提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,如圖3所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的流程圖,包括以下步驟:
[0093]步驟301,獲取各音頻文件。
[0094]可以從音頻文件庫(kù)中得到各音頻文件。
[0095]步驟302,從所述音頻文件中提取音頻比對(duì)特征。
[0096]可以首先對(duì)各音頻文件數(shù)據(jù)進(jìn)行降采樣,比如可以采用低通濾波器對(duì)原始數(shù)據(jù)進(jìn)行降采樣,通過(guò)降采樣處理可以在不帶來(lái)信息損失的前提下減少原始數(shù)據(jù)的數(shù)據(jù)量,不僅可以提高處理效率,而且可以提高低頻子帶的分辨率,對(duì)每幀數(shù)據(jù)提取更長(zhǎng)時(shí)的信息。然后,將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0097]具體地,在進(jìn)行數(shù)據(jù)量化的過(guò)程中,可以通過(guò)頻譜分析,利用加窗FFT (FastFourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分,逐一計(jì)算子帶能量,對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化,即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0098]步驟303,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段。
[0099]首先可以對(duì)兩個(gè)音頻文件進(jìn)行粗匹配,獲取兩音頻文件中各重復(fù)子段的邊界,SP兩音頻文件中可能重復(fù)的音頻片段的大致位置,然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并,即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段,最后通過(guò)精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置,獲得精確的重復(fù)音頻片段。具體過(guò)程將在后面詳細(xì)描述。
[0100]步驟304,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式。
[0101]如圖4所示,是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖。
[0102]對(duì)得到的多組兩文件間的重復(fù)音頻片段進(jìn)行合并,實(shí)現(xiàn)多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻模式的合并。
[0103]在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí),可以利用每組結(jié)果在音頻文件中的位置信息,考慮多組結(jié)果之間的相交疊部分比例等。
[0104]比如,音頻文件A的片段[tl,t2]與音頻文件B的片段[t3,t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5,t6]與音頻文件C的片段[t7,t8]是長(zhǎng)度為len2的相同片段。其中,t4>t5H3,t6>t4,即[t3,t4]與[t5, t6]是有交疊的,交疊部分為[t4,t5]。因此,音頻文件B中的片段[t4,t5]是音頻文件A、B、C中存在的重復(fù)音頻片段,長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl,t2]、音頻文件B的片段[t3,t4]、音頻文件B的片段[t5,t6]、音頻文件C的片段[t7,t8]中找出公共部分,即上述片段[t4,t5]。
[0105]可見(jiàn),本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0106]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0107]如圖5所示,是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖,包括以下步驟:
[0108]步驟501,基于音頻比對(duì)特征對(duì)兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界。
[0109]具體地,可以對(duì)兩個(gè)音頻文件的比對(duì)特征進(jìn)行逐幀比對(duì),首先從第一個(gè)音頻文件的比對(duì)特征序列中提取一幀的比對(duì)特征,然后在第二個(gè)音頻文件的比對(duì)特征序列中進(jìn)行逐幀查找,查找與該比對(duì)特征相同的幀,從該匹配幀所在音頻文件(即第二個(gè)音頻文件)中的位置向前、后擴(kuò)展時(shí)長(zhǎng)L(例如,10幀,具體數(shù)值可根據(jù)數(shù)據(jù)的實(shí)際情況進(jìn)行設(shè)置)。相應(yīng)地,對(duì)第一個(gè)音頻文件,同樣需要對(duì)相應(yīng)幀的位置進(jìn)行前、后擴(kuò)展時(shí)長(zhǎng)L。然后,在擴(kuò)展后的特征序列中尋找兩個(gè)音頻文件中最相似片段,并計(jì)算在此長(zhǎng)度范圍內(nèi)的幀錯(cuò)誤率。如果幀錯(cuò)誤率超過(guò)設(shè)定的閾值(比如0.2),則將該片段丟棄;否則保留該片段,將其作為重復(fù)音頻片段中的一個(gè)重復(fù)子段。當(dāng)然,在進(jìn)行前、后擴(kuò)展時(shí),擴(kuò)展的時(shí)長(zhǎng)也可以不同,對(duì)此本發(fā)明實(shí)施例不做限定。
[0110]步驟502,如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值,則將所述兩個(gè)重復(fù)子段合并。
[0111]由于在粗匹配過(guò)程中得到的重復(fù)子段邊界并非最優(yōu),可能存在一些本應(yīng)為一大段重復(fù)片段,但被拆成了多組間隔較小的小片段的情況,因此,在本發(fā)明實(shí)施例中,可以將這些重復(fù)子段進(jìn)行合并,以減少后續(xù)精確匹配所需的工作量。
[0112]在對(duì)重復(fù)子段進(jìn)行合并時(shí),可以根據(jù)相鄰兩重復(fù)子段的間隔及長(zhǎng)度來(lái)決定是否對(duì)其進(jìn)行合并。具體地,如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值,則將所述兩個(gè)重復(fù)子段合并,也就是說(shuō),將相鄰的兩個(gè)小片段合并成一個(gè)大的片段。
[0113]如圖6所示,是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖。
[0114]步驟503,基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0115]精確匹配的作用是獲得更加準(zhǔn)確的重復(fù)音頻片段邊界,精確匹配的過(guò)程使用相對(duì)粗匹配中更加精細(xì)的尺度進(jìn)行計(jì)算。比如,可以計(jì)算特征比特錯(cuò)誤率,具體匹配過(guò)程與粗匹配過(guò)程類(lèi)似。通過(guò)精確匹配,可以找到兩個(gè)音頻文件最相似的重復(fù)音頻片段。
[0116]如圖7所示,是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
[0117]圖中L表示兩個(gè)音頻文件中最相似的片段,在確定該片段的邊界時(shí),首先在片段L的上邊界向上擴(kuò)展,直到找到一個(gè)窗SI,如果窗SI內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止向上擴(kuò)展,并在窗SI中確定重復(fù)音頻片段的上邊界。同理,在片段L的下邊界向下擴(kuò)展,確定重復(fù)音頻片段的下邊界。
[0118]上述在擴(kuò)展窗中確定重復(fù)音頻片段邊界的過(guò)程就是在原有邊界的基礎(chǔ)上按照一定的步長(zhǎng)(如上文中的Si)擴(kuò)展邊界,并計(jì)算擴(kuò)展后的比特錯(cuò)誤率的平均得分。如果平均得分沒(méi)有超過(guò)閾值,那么繼續(xù)擴(kuò)展;如果平均得分超過(guò)了閾值,那么上一次擴(kuò)展的邊界就是最終邊界。
[0119]現(xiàn)有的針對(duì)音頻的重復(fù)模式發(fā)現(xiàn)技術(shù)一般只能在輸入短音頻的情況下在音頻文件庫(kù)中發(fā)現(xiàn)一些與其旋律相似的片段,且是一種模糊式的。而本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,可以在海量音頻庫(kù)中自動(dòng)發(fā)掘重復(fù)模式,而且,在進(jìn)行音頻文件的匹配時(shí),首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,使得發(fā)現(xiàn)的重復(fù)片段更加精確,而并非僅是音律上的相似。
[0120]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。而且,以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0121]以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取各音頻文件; 特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征; 匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段; 合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述特征提取模塊包括: 降采樣單元,用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣; 矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述匹配模塊包括: 粗匹配單元,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界; 合并單元,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí),將所述兩個(gè)重復(fù)子段合并; 精確匹配模塊,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
4.根據(jù)權(quán)利要求3所 述的系統(tǒng),其特征在于,所述粗匹配單元包括: 提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征; 查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展; 第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
5.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述精確匹配單元包括: 第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展; 判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展; 第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
6.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,其特征在于,包括: 獲取各音頻文件; 從所述音頻文件中提取音頻比對(duì)特征; 基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段; 將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述從各音頻文件中提取音頻特征包括: 對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣; 將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段包括:基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界; 如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值,則將所述兩個(gè)重復(fù)子段合并; 基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界包括: 依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征; 查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀; 查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展; 在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括: 對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展; 如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止擴(kuò)展; 在擴(kuò)展的上、下視窗內(nèi)分.別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
【文檔編號(hào)】G06F17/30GK103440270SQ201310334235
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月2日 優(yōu)先權(quán)日:2013年8月2日
【發(fā)明者】吳及, 呂萍, 徐偉, 何婷婷 申請(qǐng)人:清華大學(xué), 安徽科大訊飛信息科技股份有限公司