據(jù)庫5中找到與音頻文件中的音樂片段相似度最大的音樂及其相關(guān)的注解信息,并將注解信息發(fā)送到結(jié)果展示模塊4。
[0043]檢索模塊32通過查表和最小距離匹配兩種匹配方式在音樂信息數(shù)據(jù)庫中倒序查找與之相似的音頻,并同時找到與音頻相關(guān)聯(lián)的注解信息。查表時,檢索模塊根據(jù)提取的兩片音頻指紋在查找表中對所有的32位子指紋進行檢索和篩選,最終找到與音頻文件中的音樂片段完全匹配的條目。當查表無法找到完全匹配的條目時,則采用最小距離匹配法進行查找。最小距離匹配是指采用相似度度量的方法,計算提取的音頻指紋和音樂信息數(shù)據(jù)庫中存儲的指紋的海明碼距離,最終找到一首與音頻文件中的音樂片段相似度最大的音樂及其相關(guān)注解信息。
[0044]6)如圖3所示,結(jié)果展示模塊4通過用戶交互界面將匹配到的注解信息呈現(xiàn)給用戶。
[0045]7)用戶對得到的注解信息進行有效性驗證,當發(fā)現(xiàn)錯誤時,通過用戶交互界面對產(chǎn)生的錯誤進行更正,并上傳到音樂信息數(shù)據(jù)庫5,音樂信息數(shù)據(jù)庫5根據(jù)用戶反饋的信息進行修正。
[0046]上述各實施例僅用于說明本發(fā)明,其中各部件的結(jié)構(gòu)、連接方式和制作工藝等都是可以有所變化的,凡是在本發(fā)明技術(shù)方案的基礎上進行的等同變換和改進,均不應排除在本發(fā)明的保護范圍之外。
【主權(quán)項】
1.一種音樂自動定位和注解系統(tǒng),其特征在于:它包括數(shù)據(jù)預處理模塊、音樂定位模塊、音樂注解模塊、結(jié)果展示模塊和音樂信息數(shù)據(jù)庫; 所述數(shù)據(jù)預處理模塊從待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)中分離出獨立的音頻文件進行切片處理后,從音頻切片中提取音頻片段的MFCC特征發(fā)送到所述音樂定位模塊;所述音樂定位模塊根據(jù)音頻MFCC特征對所有音頻切片進行分類,并得到所有音樂片段的起點和長度信息后發(fā)送到所述音樂注解模塊;所述音樂注解模塊從所述音樂信息數(shù)據(jù)庫中找到與所述音樂定位模塊所得到的音樂片段相似度最高的音樂數(shù)據(jù)和其相關(guān)注解信息,并發(fā)送到所述結(jié)果展示模塊;所述結(jié)果展示模塊通過用戶交互界面將接收到的注解信息呈現(xiàn)給用戶;所述用戶對得到的注解信息進行有效性驗證,并通過所述用戶交互界面將驗證結(jié)果反饋到所述音樂信息數(shù)據(jù)庫。2.如權(quán)利要求1所述的一種音樂自動定位和注解系統(tǒng),其特征在于:所述數(shù)據(jù)預處理模塊包括數(shù)據(jù)錄入模塊、音頻分離模塊、音頻切片模塊和音頻特征抽取模塊; 所述數(shù)據(jù)錄入模塊將待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)發(fā)送到所述音頻分離模塊;所述音頻分離模塊從待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)中分離出獨立的音頻文件后發(fā)送到所述音頻切片模塊;所述音頻切片模塊對音頻文件進行切片處理,得到大量的音頻切片后發(fā)送到所述音頻特征抽取模塊;所述音頻特征抽取模塊從所有音頻切片中提取音頻片段的MFCC特征,并將待分類的音頻片段的MFCC特征發(fā)送到所述音樂定位模塊,將帶標簽的音頻片段的MFCC特征數(shù)據(jù)發(fā)送到所述音樂信息數(shù)據(jù)庫。3.如權(quán)利要求1或2所述的一種音樂自動定位和注解系統(tǒng),其特征在于:所述音樂定位模塊包括訓練分類器、音頻片段分類模塊以及音樂起點和長度檢測模塊; 所述訓練分類器根據(jù)所述音樂信息數(shù)據(jù)庫中帶標簽的音頻片段的MFCC特征作為樣本進行訓練;所述音頻片段分類模塊基于接收到的待分類的音頻片段的MFCC特征,使用所述訓練分類器將所有音頻切片分為三類,并將分類結(jié)果發(fā)送到所述音樂起點和長度檢測模塊;所述音樂起點和長度檢測模塊根據(jù)分類結(jié)果確定對所有音樂片段進行定位,即確定每首音樂片段的音樂起點和長度信息。4.如權(quán)利要求1或2所述的一種音樂自動定位和注解系統(tǒng),其特征在于:所述音樂注解模塊包括音樂片段指紋提取模塊和檢索模塊; 所述音樂片段指紋提取模塊從已定位的每首音樂片段中分別抽取兩片音頻指紋,并發(fā)送到所述檢索模塊;所述檢索模塊根據(jù)提取的音頻指紋從所述音樂信息數(shù)據(jù)庫中找到與各首音樂片段相似度最大的音樂數(shù)據(jù)和其注解信息,并發(fā)送到所述結(jié)果展示模塊。5.如權(quán)利要求3所述的一種音樂自動定位和注解系統(tǒng),其特征在于:所述音樂注解模塊包括音樂片段指紋提取模塊和檢索模塊; 所述音樂片段指紋提取模塊從已定位的每首音樂片段中分別抽取兩片音頻指紋,并發(fā)送到所述檢索模塊;所述檢索模塊根據(jù)提取的音頻指紋從所述音樂信息數(shù)據(jù)庫中找到與各首音樂片段相似度最大的音樂數(shù)據(jù)和其注解信息,并發(fā)送到所述結(jié)果展示模塊。6.一種采用如權(quán)利要求1?5任一項所述音樂自動定位和注解系統(tǒng)的音樂自動定位和注解方法,包括以下步驟: I)數(shù)據(jù)預處理模塊從錄入的待分類多媒體數(shù)據(jù)中分離出獨立的音頻文件進行切片處理得到音頻切片,從音頻切片中提取MFCC特征后發(fā)送到音樂定位模塊的音頻片段分類模塊; 2)音頻片段分類模塊基于接收到的MFCC特征,使用訓練分類器將所有音頻切片分為三類,并將分類結(jié)果發(fā)送到音樂起點和長度檢測模塊; 3)基于上述分類結(jié)果,音樂起點和長度檢測模塊按照要求對音樂片段進行定位,找出步驟I)所分離出的音頻文件中所有音樂片段的音樂起點和音樂長度信息,并發(fā)送到音樂注解模塊的音頻片段指紋提取模塊; 4)音樂注解模塊中的音頻片段指紋提取模塊從已被定位的每首音樂片段中分別抽取兩片音頻指紋,并發(fā)送到檢索模塊; 5)檢索模塊根據(jù)音頻指紋從音樂信息數(shù)據(jù)庫中找到與音頻文件中的音樂片段相似度最大的音樂及其相關(guān)的注解信息,并將注解信息發(fā)送到結(jié)果展示模塊; 6)結(jié)果展示模塊通過用戶交互界面將匹配到的注解信息呈現(xiàn)給用戶; 7)用戶對得到的注解信息進行有效性驗證,當發(fā)現(xiàn)錯誤時,通過用戶交互界面對產(chǎn)生的錯誤進行更正,并上傳到音樂信息數(shù)據(jù)庫,音樂信息數(shù)據(jù)庫根據(jù)用戶反饋的信息進行修正。7.如權(quán)利要求6所述的一種音樂自動定位和注解方法,其特征在于:所述步驟3)中,音樂起點是指音樂片段的起點,音樂起點用Xs表示,當音頻切片X ,滿足下面兩個條件中的任意一個時,即為音樂起點Xs:①Xi != O 并且(X i+J= 2 或 X i+J= I) ;j = O,1,2,...,M ; ②Xii= I并且X i+J= 2,j = 1,2,...,M ;或者滿足限定①; 式中,M表示所需查找音樂片段的長度閾值。8.如權(quán)利要求6或7所述的一種音樂自動定位和注解方法,其特征在于:所述步驟3)中,音樂長度是指連續(xù)的音樂片段的大小,用I表示音頻切片序列的索引,則音樂長度L1ot表示有以下兩種情況: ①Llrai=I M-1xs,其中Xf3= O,且當前音樂的音樂起點xs到最后一個音頻切片Xf3中間的任何一個音頻切片的分類都不為O ; ②Llrai=Ixf3-1xs,其中Xf3= O,若當前音樂中出現(xiàn)同時滿足兩個音樂起點定義的音樂起點出現(xiàn)時,則選擇滿足音樂起點條件①的音樂起點xs的索引;且當前音樂的音樂起點X S5'J最后一個音頻切片&中間任何一個音頻切片的分類都不為O。
【專利摘要】本發(fā)明涉及一種音樂自動定位和注解系統(tǒng)及方法,其特征在于:它包括數(shù)據(jù)預處理模塊、音樂定位模塊、音樂注解模塊、結(jié)果展示模塊和音樂信息數(shù)據(jù)庫;數(shù)據(jù)預處理模塊從待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)中提取音頻片段的MFCC特征發(fā)送到音樂定位模塊;音樂定位模塊根據(jù)音頻MFCC特征得到所有音樂片段的起點和長度信息后發(fā)送到音樂注解模塊;音樂注解模塊從音樂信息數(shù)據(jù)庫中找到與音樂定位模塊所得到的音樂片段相似度最高的音樂數(shù)據(jù)和其相關(guān)注解信息,并發(fā)送到結(jié)果展示模塊;結(jié)果展示模塊通過用戶交互界面將接收到的注解信息呈現(xiàn)給用戶;用戶對得到的注解信息進行有效性驗證,并通過用戶交互界面將驗證結(jié)果反饋到音樂信息數(shù)據(jù)庫。本發(fā)明可以廣泛應用于音樂自動定位和注解領域中。
【IPC分類】G10L25/18, G10L25/24, G06F17/30
【公開號】CN105138617
【申請?zhí)枴緾N201510490065
【發(fā)明人】楊剛, 許潔萍
【申請人】中國人民大學
【公開日】2015年12月9日
【申請日】2015年8月7日