實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法

文檔序號(hào)：6506949閱讀：652來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【專(zhuān)利摘要】本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】，公開(kāi)了一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。該系統(tǒng)包括：獲取模塊，用于獲取各音頻文件；特征提取模塊，用于從所述音頻文件中提取音頻比對(duì)特征；匹配模塊，用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；合并模塊，用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式。利用本發(fā)明，可以實(shí)現(xiàn)大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
【專(zhuān)利說(shuō)明】實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】，具體涉及一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，越來(lái)越多的音頻數(shù)據(jù)出現(xiàn)在人們的日常生活中。和文本數(shù)據(jù)不同，音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù)，對(duì)其處理也更為困難。音頻信號(hào)處理在信息安全和輿情監(jiān)控應(yīng)用中有著非常重要的應(yīng)用價(jià)值，特別是從海量音頻數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)頻繁出現(xiàn)的音頻片段，即音頻文件重復(fù)發(fā)現(xiàn)，有實(shí)際意義。對(duì)電話類(lèi)音頻數(shù)據(jù)，利用該技術(shù)可以快速發(fā)現(xiàn)正在傳播的非法電話錄音。而對(duì)互聯(lián)網(wǎng)音視頻數(shù)據(jù)，利用該技術(shù)可以快速準(zhǔn)確地挖掘出目前最流行的音視頻片段。進(jìn)一步地，通過(guò)音頻文件重復(fù)模式發(fā)現(xiàn)技術(shù)可獲得重復(fù)音頻模板庫(kù)，便于利用所述音頻模板匹配技術(shù)檢測(cè)新增音頻文件中是否包含模板庫(kù)中的音頻片段，實(shí)現(xiàn)快速定位確認(rèn)，及時(shí)了解音頻模板庫(kù)中的音頻模板在電話網(wǎng)或互聯(lián)網(wǎng)上的傳播情況。
[0003]現(xiàn)有的重復(fù)模式發(fā)現(xiàn)技術(shù)只能處理符號(hào)化數(shù)據(jù)的重復(fù)子集發(fā)現(xiàn)問(wèn)題，對(duì)信號(hào)級(jí)別的音頻數(shù)據(jù)沒(méi)有可以使用的有效方案。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法，以解決在海量音頻庫(kù)中重復(fù)片段自動(dòng)搜索的問(wèn)題。
[0005]為此，本發(fā)明提供如下技術(shù)方案:
[0006]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)，包括:
[0007]獲取模塊，用于獲取各音頻文件；
[0008]特征提取模塊，用于從所述音頻文件中提取音頻比對(duì)特征；
[0009]匹配模塊，用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；
[0010]合并模塊，用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，得到音頻文件重復(fù)模式。
[0011]優(yōu)選地，所述特征提取模塊包括:
[0012]降采樣單元，用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣；
[0013]矢量轉(zhuǎn)化單元，用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0014]優(yōu)選地，所述匹配模塊包括:
[0015]粗匹配單元，用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界；
[0016]合并單元，用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí)，將所述兩個(gè)重復(fù)子段合并；[0017]精確匹配模塊，用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0018]優(yōu)選地，所述粗匹配單元包括:
[0019]提取單元，用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征；
[0020]查找單元，用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀；
[0021]第一擴(kuò)展單元，用于在所述查找單元查找到所述匹配幀后，分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展；
[0022]第一邊界確定單元，用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0023]優(yōu)選地，所述精確匹配單元包括:
[0024]第二擴(kuò)展單元，用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展；
[0025]判斷單元，用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分，并且在所述平均得分小于設(shè)定值時(shí)，通知所述第二擴(kuò)展單元停止擴(kuò)展；
[0026]第二邊界確定單元，用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0027]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法，包括:
[0028]獲取各音頻文件；
[0029]從所述音頻文件中提取音頻比對(duì)特征；
[0030]基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；
[0031]將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，得到音頻文件重復(fù)模式。
[0032]優(yōu)選地，所述從各音頻文件中提取音頻特征包括:
[0033]對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣；
[0034]將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0035]優(yōu)選地，所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段包括:
[0036]基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界；
[0037]如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值，則將所述兩個(gè)重復(fù)子段合并；
[0038]基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0039]優(yōu)選地，所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界包括:
[0040]依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征；
[0041]查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀；
[0042]查找到所述匹配幀后，分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展；
[0043]在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。[0044]優(yōu)選地，所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括:
[0045]對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展；
[0046]如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值，則停止擴(kuò)展；
[0047]在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0048]本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法，從各音頻文件中提取音頻比對(duì)特征，基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段，將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式，從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0049]進(jìn)一步地，在進(jìn)行音頻文件的匹配時(shí)，首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界，在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0050]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，還可以根據(jù)這些附圖獲得其他的附圖。
[0051]圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的一種結(jié)構(gòu)框圖；
[0052]圖2是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖；
[0053]圖3是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的方法的流程圖；
[0054]圖4是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖；
[0055]圖5是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖；
[0056]圖6是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖；
[0057]圖7是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
【具體實(shí)施方式】
[0058]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案，下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0059]重復(fù)模式發(fā)現(xiàn)即搜索數(shù)據(jù)庫(kù)中重復(fù)出現(xiàn)的模式，是數(shù)據(jù)挖掘領(lǐng)域的任務(wù)之一。重復(fù)模式發(fā)現(xiàn)技術(shù)在符合一定結(jié)構(gòu)的符號(hào)類(lèi)數(shù)據(jù)庫(kù)中有著較為廣泛的應(yīng)用，包括對(duì)數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的項(xiàng)集、子序列、字結(jié)構(gòu)等的發(fā)現(xiàn)。如文本數(shù)據(jù)中的重復(fù)模式即指重復(fù)出現(xiàn)的句子或段落等。對(duì)符號(hào)類(lèi)數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)可以利用傳統(tǒng)高效的Apriori等算法獲得。
[0060]由于音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù)，現(xiàn)有的Apriori算法并不適用，而且目前沒(méi)有任何方案可以解決音頻數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)問(wèn)題。
[0061]為此，本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法，從各音頻文件中提取音頻比對(duì)特征，基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段，將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式，從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0062]進(jìn)一步地，在進(jìn)行音頻文件的匹配時(shí)，首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界，在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0063]如圖1所示，是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的系統(tǒng)的結(jié)構(gòu)示意圖。
[0064]在該實(shí)施例中，所述系統(tǒng)包括:
[0065]獲取模塊101,用于獲取各音頻文件；
[0066]特征提取模塊102，用于從所述音頻文件中提取音頻比對(duì)特征。
[0067]匹配模塊103，用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；
[0068]合并模塊104，用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，得到音頻文件重復(fù)模式。
[0069]具體地，合并模塊104在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí)，可以利用每組結(jié)果在音頻文件中的位置信息，考慮多組結(jié)果之間的相交疊部分比例等。
[0070]比如，音頻文件A的片段[tl，t2]與音頻文件B的片段[t3，t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5，t6]與音頻文件C的片段[t7，t8]是長(zhǎng)度為len2的相同片段。其中，t4>t5H3，t6>t4，即[t3，t4]與[t5, t6]是有交疊的，交疊部分為[t4，t5]。因此，音頻文件B中的片段[t4，t5]是音頻文件A、B、C中存在的重復(fù)音頻片段，長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl，t2]、音頻文件B的片段[t3，t4]、音頻文件B的片段[t5，t6]、音頻文件C的片段[t7，t8]中找出公共部分，即上述片段[t4，t5]。
[0071]在實(shí)際應(yīng)用中，上述獲取模塊101具體可以從音頻文件庫(kù)中得到各音頻文件。
[0072]特征提取模塊102可以包括降采樣單元和矢量轉(zhuǎn)化單元(未圖示)。其中:
[0073]所述降采樣單元用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣。
[0074]所述矢量轉(zhuǎn)化單元，用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。具體地，可以通過(guò)頻譜分析，利用加窗FFT(Fast Fourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分，逐一計(jì)算子帶能量，對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化，即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0075]在本發(fā)明實(shí)施例中，匹配模塊103首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并，即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段，最后通過(guò)精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置，獲得精確的重復(fù)音頻片段。
[0076]如圖2所示，是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖。
[0077]在該實(shí)施例中，所述匹配模塊包括:
[0078]粗匹配單元201，用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界，具體過(guò)程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0079]合并單元202，用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí)，將所述兩個(gè)重復(fù)子段合并。
[0080]精確匹配單元203，用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段，具體過(guò)程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0081]在本發(fā)明實(shí)施例中，所述粗匹配單元201包括:
[0082]提取單元，用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征；
[0083]查找單元，用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀；
[0084]第一擴(kuò)展單元，用于在所述查找單元查找到所述匹配幀后，分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展；
[0085]第一邊界確定單元，用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0086]在本發(fā)明實(shí)施例中，所述精確匹配單元203包括:
[0087]第二擴(kuò)展單元，用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展；
[0088]判斷單元，用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分，并且在所述平均得分小于設(shè)定值時(shí)，通知所述第二擴(kuò)展單元停止擴(kuò)展；
[0089]第二邊界確定單元，用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0090]可見(jiàn)，本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)，從各音頻文件中提取音頻比對(duì)特征，基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段，將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式，從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0091]進(jìn)一步地，在進(jìn)行音頻文件的匹配時(shí)，首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界，在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0092]相應(yīng)地，本發(fā)明實(shí)施例還提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法，如圖3所示，是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的流程圖，包括以下步驟:
[0093]步驟301，獲取各音頻文件。
[0094]可以從音頻文件庫(kù)中得到各音頻文件。
[0095]步驟302，從所述音頻文件中提取音頻比對(duì)特征。
[0096]可以首先對(duì)各音頻文件數(shù)據(jù)進(jìn)行降采樣，比如可以采用低通濾波器對(duì)原始數(shù)據(jù)進(jìn)行降采樣，通過(guò)降采樣處理可以在不帶來(lái)信息損失的前提下減少原始數(shù)據(jù)的數(shù)據(jù)量，不僅可以提高處理效率，而且可以提高低頻子帶的分辨率，對(duì)每幀數(shù)據(jù)提取更長(zhǎng)時(shí)的信息。然后，將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0097]具體地，在進(jìn)行數(shù)據(jù)量化的過(guò)程中，可以通過(guò)頻譜分析，利用加窗FFT (FastFourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分，逐一計(jì)算子帶能量，對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化，即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0098]步驟303，基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段。
[0099]首先可以對(duì)兩個(gè)音頻文件進(jìn)行粗匹配，獲取兩音頻文件中各重復(fù)子段的邊界，SP兩音頻文件中可能重復(fù)的音頻片段的大致位置，然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并，即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段，最后通過(guò)精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置，獲得精確的重復(fù)音頻片段。具體過(guò)程將在后面詳細(xì)描述。
[0100]步驟304，將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式。
[0101]如圖4所示，是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖。
[0102]對(duì)得到的多組兩文件間的重復(fù)音頻片段進(jìn)行合并，實(shí)現(xiàn)多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻模式的合并。
[0103]在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí)，可以利用每組結(jié)果在音頻文件中的位置信息，考慮多組結(jié)果之間的相交疊部分比例等。
[0104]比如，音頻文件A的片段[tl，t2]與音頻文件B的片段[t3，t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5，t6]與音頻文件C的片段[t7，t8]是長(zhǎng)度為len2的相同片段。其中，t4>t5H3，t6>t4，即[t3，t4]與[t5, t6]是有交疊的，交疊部分為[t4，t5]。因此，音頻文件B中的片段[t4，t5]是音頻文件A、B、C中存在的重復(fù)音頻片段，長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl，t2]、音頻文件B的片段[t3，t4]、音頻文件B的片段[t5，t6]、音頻文件C的片段[t7，t8]中找出公共部分，即上述片段[t4，t5]。
[0105]可見(jiàn)，本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法，從各音頻文件中提取音頻比對(duì)特征，基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段，將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，生成音頻文件重復(fù)模式，從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0106]進(jìn)一步地，在進(jìn)行音頻文件的匹配時(shí)，首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界，在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0107]如圖5所示，是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖，包括以下步驟:
[0108]步驟501，基于音頻比對(duì)特征對(duì)兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界。
[0109]具體地，可以對(duì)兩個(gè)音頻文件的比對(duì)特征進(jìn)行逐幀比對(duì)，首先從第一個(gè)音頻文件的比對(duì)特征序列中提取一幀的比對(duì)特征，然后在第二個(gè)音頻文件的比對(duì)特征序列中進(jìn)行逐幀查找，查找與該比對(duì)特征相同的幀，從該匹配幀所在音頻文件(即第二個(gè)音頻文件)中的位置向前、后擴(kuò)展時(shí)長(zhǎng)L(例如，10幀，具體數(shù)值可根據(jù)數(shù)據(jù)的實(shí)際情況進(jìn)行設(shè)置)。相應(yīng)地，對(duì)第一個(gè)音頻文件，同樣需要對(duì)相應(yīng)幀的位置進(jìn)行前、后擴(kuò)展時(shí)長(zhǎng)L。然后，在擴(kuò)展后的特征序列中尋找兩個(gè)音頻文件中最相似片段，并計(jì)算在此長(zhǎng)度范圍內(nèi)的幀錯(cuò)誤率。如果幀錯(cuò)誤率超過(guò)設(shè)定的閾值(比如0.2)，則將該片段丟棄；否則保留該片段，將其作為重復(fù)音頻片段中的一個(gè)重復(fù)子段。當(dāng)然，在進(jìn)行前、后擴(kuò)展時(shí)，擴(kuò)展的時(shí)長(zhǎng)也可以不同，對(duì)此本發(fā)明實(shí)施例不做限定。
[0110]步驟502，如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值，則將所述兩個(gè)重復(fù)子段合并。
[0111]由于在粗匹配過(guò)程中得到的重復(fù)子段邊界并非最優(yōu)，可能存在一些本應(yīng)為一大段重復(fù)片段，但被拆成了多組間隔較小的小片段的情況，因此，在本發(fā)明實(shí)施例中，可以將這些重復(fù)子段進(jìn)行合并，以減少后續(xù)精確匹配所需的工作量。
[0112]在對(duì)重復(fù)子段進(jìn)行合并時(shí)，可以根據(jù)相鄰兩重復(fù)子段的間隔及長(zhǎng)度來(lái)決定是否對(duì)其進(jìn)行合并。具體地，如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值，則將所述兩個(gè)重復(fù)子段合并，也就是說(shuō)，將相鄰的兩個(gè)小片段合并成一個(gè)大的片段。
[0113]如圖6所示，是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖。
[0114]步驟503，基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0115]精確匹配的作用是獲得更加準(zhǔn)確的重復(fù)音頻片段邊界，精確匹配的過(guò)程使用相對(duì)粗匹配中更加精細(xì)的尺度進(jìn)行計(jì)算。比如，可以計(jì)算特征比特錯(cuò)誤率，具體匹配過(guò)程與粗匹配過(guò)程類(lèi)似。通過(guò)精確匹配，可以找到兩個(gè)音頻文件最相似的重復(fù)音頻片段。
[0116]如圖7所示，是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
[0117]圖中L表示兩個(gè)音頻文件中最相似的片段，在確定該片段的邊界時(shí)，首先在片段L的上邊界向上擴(kuò)展，直到找到一個(gè)窗SI，如果窗SI內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值，則停止向上擴(kuò)展，并在窗SI中確定重復(fù)音頻片段的上邊界。同理，在片段L的下邊界向下擴(kuò)展，確定重復(fù)音頻片段的下邊界。
[0118]上述在擴(kuò)展窗中確定重復(fù)音頻片段邊界的過(guò)程就是在原有邊界的基礎(chǔ)上按照一定的步長(zhǎng)(如上文中的Si)擴(kuò)展邊界，并計(jì)算擴(kuò)展后的比特錯(cuò)誤率的平均得分。如果平均得分沒(méi)有超過(guò)閾值，那么繼續(xù)擴(kuò)展；如果平均得分超過(guò)了閾值，那么上一次擴(kuò)展的邊界就是最終邊界。
[0119]現(xiàn)有的針對(duì)音頻的重復(fù)模式發(fā)現(xiàn)技術(shù)一般只能在輸入短音頻的情況下在音頻文件庫(kù)中發(fā)現(xiàn)一些與其旋律相似的片段，且是一種模糊式的。而本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法，可以在海量音頻庫(kù)中自動(dòng)發(fā)掘重復(fù)模式，而且，在進(jìn)行音頻文件的匹配時(shí)，首先通過(guò)粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置，然后通過(guò)精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界，使得發(fā)現(xiàn)的重復(fù)片段更加精確，而并非僅是音律上的相似。
[0120]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。而且，以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的，其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下，即可以理解并實(shí)施。
[0121]以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及設(shè)備；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)，其特征在于，包括: 獲取模塊，用于獲取各音頻文件；特征提取模塊，用于從所述音頻文件中提取音頻比對(duì)特征；匹配模塊，用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；合并模塊，用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，得到音頻文件重復(fù)模式。
2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于，所述特征提取模塊包括: 降采樣單元，用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣；矢量轉(zhuǎn)化單元，用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
3.根據(jù)權(quán)利要求2所述的系統(tǒng)，其特征在于，所述匹配模塊包括: 粗匹配單元，用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界；合并單元，用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值時(shí)，將所述兩個(gè)重復(fù)子段合并；精確匹配模塊，用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
4.根據(jù)權(quán)利要求3所述的系統(tǒng)，其特征在于，所述粗匹配單元包括: 提取單元，用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征；查找單元，用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀；第一擴(kuò)展單元，用于在所述查找單元查找到所述匹配幀后，分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展；第一邊界確定單元，用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
5.根據(jù)權(quán)利要求3所述的系統(tǒng)，其特征在于，所述精確匹配單元包括: 第二擴(kuò)展單元，用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展；判斷單元，用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分，并且在所述平均得分小于設(shè)定值時(shí)，通知所述第二擴(kuò)展單元停止擴(kuò)展；第二邊界確定單元，用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
6.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法，其特征在于，包括: 獲取各音頻文件；從所述音頻文件中提取音頻比對(duì)特征；基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段；將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并，得到音頻文件重復(fù)模式。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述從各音頻文件中提取音頻特征包括: 對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣；將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件，得到兩兩匹配的重復(fù)音頻片段包括:基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界；如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門(mén)限值，并且所述兩個(gè)重復(fù)子段的間隔小于第二門(mén)限值，則將所述兩個(gè)重復(fù)子段合并；基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配，確定各重復(fù)子段的邊界包括: 依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征；查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀；查找到所述匹配幀后，分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展；在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
10.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配，得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括: 對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展；如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值，則停止擴(kuò)展；在擴(kuò)展的上、下視窗內(nèi)分.別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
【文檔編號(hào)】G06F17/30GK103440270SQ201310334235
【公開(kāi)日】2013年12月11日申請(qǐng)日期:2013年8月2日優(yōu)先權(quán)日:2013年8月2日
【發(fā)明者】吳及, 呂萍, 徐偉, 何婷婷申請(qǐng)人:清華大學(xué), 安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳及;呂萍;徐偉;何婷婷
技術(shù)所有人：清華大學(xué);安徽科大訊飛信息科技股份有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

java實(shí)現(xiàn)音頻文件上傳相關(guān)技術(shù)

小丸工具箱音頻模式相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法